Твой проект —
твоя профессиональная
Траектория

Парсер юридических документов

Партнер
ВУЗ
Актуальность


Описание

На Проектории кандидатам необходимо разработать парсер по анализу и извлечению следующей информации по следующим полям:

Взысканные суммы долга (для судебного приказа) по структуре:

  • Основной долг

  • Проценты за пользование

  • Штрафы или пени

  • Комиссии

  • Размер госпошлины




    Для типа документа - судебный приказ алгоритм следующий:


    Папка с данными для теста и анализа.  https://www.dropbox.com/sh/396drmy78yl98tx/AABVqVrMslkYh8NfSGnK20lma?dl=0


    Подсказка - обработку jpg файлов и перевод их в текст стоит производить в демо-версии на сайте http://ocrsdk.com (необходимо зарегестрироваться)

Результат

Вознаграждение: кандидат, показавший наилучший результат, получит возможность пройти оплачиваемую стажировку в течении 2 месяцев в компании JureCloud (part time, зарплата до 100 тыс. руб в месяц)

Ограничения

Необходимая информация находится в блоке “постановил” или “определил” (красная рамка на пример) в документе типа “судебный приказ”:


  • Основной долг - (логика в тексте «Основн* долг» + («в размере» или «в сумме» или если нет такого значения, то нужно какое-то обозначению что система сомневается) - в любом порядке,  дальше идущее  перед или после него числовое значение, заканчивающиеся «коп*», если нет «коп*», заканчивающееся «руб*».  Т.е. сумма может быть как с копейками так и просто рубли без копеек.


Тут еще следует подстраховаться: все денежные суммы от номеров счетов и прочего цифр идущих в этом разделе мы отсечем тем, что после них должно идти «коп*», если нет «коп*», заканчивающееся просто «руб*».


Сумма основного долга всегда будет второе по величине числовое значение среди всех сумм в разделе «Постановил» ( до слов «мировой судья»). Так мы поймем находится она справа или слева от тега - («Основн* долг» + («в размере» или «в сумме» или если нет такого значения, то нужно какое-то обозначению что система сомневается) - в любом порядке.


Если справа- то это правило действует для всех отдавшихся ниже переменных, если слева - то то слева для всех отдавшихся ниже переменных.


  • Проценты за пользование - «процент*» дальше идущее или перед ним  или за ним числовое значение, заканчивающиеся «коп*», если нет «коп*», заканчивающееся «руб*».


  • Штрафы или пени - неустойк* дальше идущее или перед ним  или за ним числовое значение, заканчивающиеся «коп*», если нет «коп*», заканчивающееся «руб*».



  • Комиссии  - комисси* дальше идущее или перед ним  или за ним числовое значение, заканчивающиеся «коп*», если нет «коп*», заканчивающееся «руб*».



  • Размер госпошлины  - «государственн* пошлин*»   дальше идущее или перед ним  за ним числовое значение, заканчивающиеся «коп*», если нет «коп*», заканчивающееся «руб*».