Skip to content

Instantly share code, notes, and snippets.

@kuk
Last active April 17, 2018 14:10
Show Gist options
  • Save kuk/84c02d7b95f83de3e5befe27c03cdbfe to your computer and use it in GitHub Desktop.
Save kuk/84c02d7b95f83de3e5befe27c03cdbfe to your computer and use it in GitHub Desktop.
arb vacancy

NLP-разработчик на Python

К себе в lab.alexkuk.ru ищу разработчика. Задача извлечения сущностей из текстов судебных актов: имена судей, участников, представителей, суть иска. Используется технология "Наташа".

Есть 50 000 000 pdf-документов из российских судов (пример pdf-а, больше на kad.arbitr.ru). Для подготовки к заседанию, юрист просматривает практику по аналогичным делам. Архив pdf-документов нужно фильтровать по имени судьи, ссылкам на законы и массе других критериев.

Есть крупный клиент, который хочет сделать сервис, основанный на этих данных, исправить проблемы существующих решений, добавить магию машинного обучения.

Сейчас есть альфа-версия сервиса, нужно править баги, которые приходят от заказчика, добавлять новую функциональность.

Задачи:

  • Разработка, поддержка грамматик для Yargy-парсера.

  • Создание, отладка статистических моделей. Иногда не получается извлечь сущности с помощью правил, тогда используются простые CRF-модели. Может быть, стоит перейти на что-то посложнее.

  • Тестирование качества, починка багов.

  • Разработка и поддержка веб-сервиса с REST-API.

  • Оптимизация скорости обработки. Нужно чтобы сервис периодически обрабатывал 50 000 000 дел из архива и ежедневно парсил несколько тысяч новых дел.

Необходимые навыки:

  • Хорошее знание Python, опыт работы с Git.

  • Опыт обработки текстов на естественном языке. Плюсом будет опыт использования Томита-парсера или Yargy-парсера, представление об ML-алгоритмах для обработки текста.

  • Плюсом будет опыт создания несложных веб-сервисов.

Работа удалённая. Возможна частичная занятость. Нужно будет сделать тестовую задачу. Советую заранее посмотреть, она даёт хорошее представление о том, чем нужно будет заниматься. Рассказ о себе и вашем опыте, пожалуйста, присылайте на alex@alexkuk.ru.

Display the source blob
Display the rendered blob
Raw
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment