Skip to content

Instantly share code, notes, and snippets.

View kuk's full-sized avatar

Alexander Kukushkin kuk

View GitHub Profile
Match = namedtuple(
'Match',
['share', 'a', 'b']
)
def group_host(records):
for host, group in groupby(records, key=lambda _: _.info.host):
yield list(group)
@kuk
kuk / .gitignore
Last active August 10, 2018 08:06
.ipynb_checkpoints/
PullentiPython/
news.txt
@kuk
kuk / vacancy.md
Last active April 17, 2018 14:10
arb vacancy

NLP-разработчик на Python

К себе в lab.alexkuk.ru ищу разработчика. Задача извлечения сущностей из текстов судебных актов: имена судей, участников, представителей, суть иска. Используется технология "Наташа".

Есть 50 000 000 pdf-документов из российских судов (пример pdf-а, больше на kad.arbitr.ru). Для подготовки к заседанию, юрист просматривает практику по аналогичным делам. Архив pdf-документов нужно фильтровать по имени судьи, ссылкам на законы и массе других критериев.

Есть крупный клиент, который хочет сделать сервис, основанный на этих данных, исправить проблемы существующих решений, добавить магию машинного обучения.

Сейчас есть альфа-версия сервиса, нужно править баги, которые приходят от заказчика, добавлять новую функциональность.

@kuk
kuk / task.md
Last active June 28, 2021 20:57
arb task

Тестовая задача

Предлагается написать программу для извлечения из текста ссылок на нормативные акты. Ссылка — это подстрока вида "ч. 3 ст.19 АПК РФ", "ст.ст. 15, 309 ГК РФ", "части 6, 7 статьи 210 АПК РФ". Программа должна находить такие подстроки в тексте и приводить их к нормальному виду, например:

В соответствии с частью 1 статьи 123 и частью 2 статьи 215 Арбитражного процессуального
кодекса Российской Федерации дело рассмотрено без участия представителей сторон.

[17, 116]  # начало и конец подстроки со ссылкой.

[
This file has been truncated, but you can view the full file.
{
"cells": [
{
"cell_type": "code",
"execution_count": 5,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
{
"items": [
{
"tr_area_state_name": "Мокрое",
"suffer_amount": "1",
"region_code": "1141",
"motion_influences": {
"mt_inf_name": "Сужение проезжей части вследствие проведения работ",
"motion_influence": {
"mt_inf_name": "Сужение проезжей части вследствие проведения работ",
This file has been truncated, but you can view the full file.
ФКУ ИК-3 УФСИН России по Краснодарскому краю
2016-06-14T00:00:00
Кефир м.д.ж. 2,5 % Кефир - кисломолочный продукт, вкус и запах чистые кисломолочные без посторонних привкусов, цвет молочно-белый равномерный по массе. Пищевая ценность на 100 г:углеводы – 4,0 г; жиров – 2,5г; белков – 2,8г; энергетическая ценность – 209,5 кДж; калорийность- 50 ккал. Остаточный срок годности товара на момент поставки не менее 7 суток, и должно соответствовать ГОСТ 31454-2012. Требования к упаковке и расфасовке: герметично упакована в полиэтиленовый пакет по 1 литру.
Творог классический м.д.ж. , 9 %.молочный продукт с использованием заквасочных микроорганизмов, консистенция мягкая, рассыпчатая без ощутимых частиц молочного белка. Вкус и запах кисломолочные без посторонних привкусов и запахов, цвет белый равномерный по всей массе. Пищевая ценность на 100 г: углеводы – 2,0 г; жиров – 9,0г; белков – 16,7г; энергетическая ценность – 653,6 кДж; калорийность- 156 ккал. Остаточный срок годности товара на момент поставки н
{
"cells": [
{
"cell_type": "code",
"execution_count": 175,
"metadata": {
"collapsed": false
},
"outputs": [],
"source": [
This file has been truncated, but you can view the full file.
{
"cells": [
{
"cell_type": "code",
"execution_count": 64,
"metadata": {
"collapsed": true
},
"outputs": [],
"source": [
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.