Skip to content

Instantly share code, notes, and snippets.

@kuk
Last active April 17, 2018 14:10
Show Gist options
  • Save kuk/84c02d7b95f83de3e5befe27c03cdbfe to your computer and use it in GitHub Desktop.
Save kuk/84c02d7b95f83de3e5befe27c03cdbfe to your computer and use it in GitHub Desktop.
arb vacancy

NLP-разработчик на Python

К себе в lab.alexkuk.ru ищу разработчика. Задача извлечения сущностей из текстов судебных актов: имена судей, участников, представителей, суть иска. Используется технология "Наташа".

Есть 50 000 000 pdf-документов из российских судов (пример pdf-а, больше на kad.arbitr.ru). Для подготовки к заседанию, юрист просматривает практику по аналогичным делам. Архив pdf-документов нужно фильтровать по имени судьи, ссылкам на законы и массе других критериев.

Есть крупный клиент, который хочет сделать сервис, основанный на этих данных, исправить проблемы существующих решений, добавить магию машинного обучения.

Сейчас есть альфа-версия сервиса, нужно править баги, которые приходят от заказчика, добавлять новую функциональность.

Задачи:

  • Разработка, поддержка грамматик для Yargy-парсера.

  • Создание, отладка статистических моделей. Иногда не получается извлечь сущности с помощью правил, тогда используются простые CRF-модели. Может быть, стоит перейти на что-то посложнее.

  • Тестирование качества, починка багов.

  • Разработка и поддержка веб-сервиса с REST-API.

  • Оптимизация скорости обработки. Нужно чтобы сервис периодически обрабатывал 50 000 000 дел из архива и ежедневно парсил несколько тысяч новых дел.

Необходимые навыки:

  • Хорошее знание Python, опыт работы с Git.

  • Опыт обработки текстов на естественном языке. Плюсом будет опыт использования Томита-парсера или Yargy-парсера, представление об ML-алгоритмах для обработки текста.

  • Плюсом будет опыт создания несложных веб-сервисов.

Работа удалённая. Возможна частичная занятость. Нужно будет сделать тестовую задачу. Советую заранее посмотреть, она даёт хорошее представление о том, чем нужно будет заниматься. Рассказ о себе и вашем опыте, пожалуйста, присылайте на alex@alexkuk.ru.

Display the source blob
Display the rendered blob
Raw
Loading
Sorry, something went wrong. Reload?
Sorry, we cannot display this file.
Sorry, this file is invalid so it cannot be displayed.
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment