Наши ожидания сильно влияют на восприятие мира, образ мысли и жизни. Согласно определению британского философа Энди Кларка, предиктивное кодирование «показывает, как мозг использует свое «предвидение» поступающих сигналов и применяет заранее сформированные паттерны для объяснения того, что происходит». Эту концепцию сегодня называют одним из важнейших научных открытий. В двух словах, предиктивное кодирование позволяет анализировать большие объемы данных, сокращая затраты на работу. Как эта технология применяется в юридической практике — расскажем в нашем материале.
Концепция самообучения
Предиктивное кодирование включает в себя выработку критериев для анализа информации. Они задаются пользователем вручную для обучения алгоритмов, которые впоследствии применяются к большому объему данных. То есть в основе предиктивного кодирования лежит концепция самообразования. Система «обучается» на основе человеческих решений и затем применяет их к новой информации.
Предиктивное кодирование успешно справляется со следующими задачами:
- поиск релевантных документов: использование алгоритма для обнаружения всех документов, попадающих под заданные критерии;
- приоритетность изучения: система оценивает документы на предмет их соответствия заданным критериям и отображает приоритетность изучения (речь идет о таком факторе, как «точность соответствия», чем выше показатель, тем больший приоритет у документа);
- отсеивание нерелевантных документов: исключение документов из выборки для ручного анализа. Можно исключить все документы, которые имеют показатель точности соответствия (приоритет) ниже заданного порога;
- исправление ошибок: можно отобрать релевантные документы, которые изначально оценены работником как не относящиеся к делу и наоборот.
Предиктивное кодирование идеально подходит в том случае, когда нужно повысить эффективность анализа значительного количества документов. В упомянутом докладе приводится статистика, что в среднем из 340 000 страниц различной информации, хранящейся компаниями на случай возникновения судебного спора, только 1 страница была по факту использована. При этом объем ручного труда огромен и несет большие финансовые расходы.
В рамках исследования «Куда уходят деньги: изучение расходов спорящих сторон на представление электронных доказательств», проведенного Институтом гражданского правосудия РАНД (США), было изучено 57 судебных дел восьми крупных корпораций и сделаны следующие выводы. Расходы компании могут быть разбиты на три основные категории:
- «сбор» – обнаружение потенциальных источников информации;
- «обработка» – сокращение количества собранных электронных данных и их преобразование в более понятную форму для изучения;
- «анализ» – оценка обнаруженной информации на предмет релевантности. При этом около 8% от общей суммы расходов приходится на «сбор» информации, 19% – на стадию «обработки» и 73% – на ее «анализ».
В исследовании отмечается, что юридические фирмы, как правило, делегируют задачу по «анализу» отфильтрованных на стадии «обработки» данных внешним юристам, так как это менее оплачиваемый труд. При этом на оплату работы внешних консультантов приходится около 70% всего выделяемого бюджета на изучение электронных документов.
Как использование системы предиктивного кодирования выглядит на практике?
- Ведущий юрист по делу знакомится с частью документов из общего объема — отбирает в ручном режиме наиболее релевантные через поиск по ключевым словам, и иным атрибутам: дата подписания, подписавшее лицо, реквизиты и тд.
- Далее эта выборка используется как «шаблон» для тренировки алгоритма системы. После этого юрист оценивает результаты.
- Если показатель точности не удовлетворителен, то корректировка «шаблона» повторяется в ручном режиме со следующей выборкой документов для повышения точности прогнозов системы.
- Если результаты удовлетворяют юриста, то алгоритм запускается для применения ко всему объему данных.
Отметим, что в качестве электронной информации для обработки могут использоваться различные документы, в том числе, сканированные, электронная переписка (включая экспортированные файлы), базы данных, базы знаний компаний и т.д.
Преимущества использования предиктивного кодирования
В 2016 году Высокий Суд Англии вынес прецедентное решение по спору между Pyrrho Investments Ltd v MWB Property Ltd and others, в котором суд поддержал использование предиктивного кодирования в правовых спорах. В частности, было отмечено, что «предиктивное кодирование не менее точно, чем ручной анализ документов» и «нет доказательств, что предиктивное кодирование ведет к раскрытию меньшего объема релевантной информации, чем ручной анализ или поиск информации по ключевым словам».
Данная позиция была впоследствии закреплена в решении Верховного Суда Англии по делу David Brown v BCA Trading Limited. Судья отметил, что «затраты на использование предиктивного кодирования составляют 132 000 фунтов. В свою очередь, затраты на поиск по ключевым словам вылились в 250 000 фунтов (более того, я полагаю, что эта сумма вполне могла достигнуть 338 000 фунтов)».
В США технология также оказалась в центре внимания в ходе судебного дела Global Aerospace Inc. v. Dulles Jet Center. Суду нужно было изучить около 1 млн. документов. Он одобрил использование предиктивного кодирования, несмотря на возражения ответчика. В ручном режиме были отобраны около 5000 документов, которые впоследствии использовались в качестве шаблона. Система обработала 173 000 релевантных документа, 400 из которых были вручную перепроверены на соответствие заданным критериям. Из них более 80% удовлетворяли требованиям, показав высокий показатель точности. При этом система пропустила только 2% документов, которые имели отношение к делу.
Технология предиктивного кодирования может быть также использована в качестве средства предварительной оценки дела.
Ознакомившись со всеми или, по крайней мере, с большинством ключевых фактов спора на ранней стадии судебного разбирательства, сторона получает неоспоримое тактическое преимущество перед противной стороной, которая эти данные не успела изучить и принять во внимание. Такое преимущество играет важную роль, в том числе, когда стороны готовы заключить мировое соглашение и обсуждаются условия сделки. Однако, некорректно утверждать, что система предиктивного кодирования актуальна только в судебной практике.
Технология может пригодиться в любой компании, которая работает с большими объемами информации.
Если речь идет о юридических практиках, то это:
— договорная работа,
— финансовые рынки,
— forensic на предмет корпоративного мошенничества,
— due diligence перед сделками,
— уголовное судопроизводство с десятками томов дел и т.д.
Это особенно актуально в части анализа e-mail переписки сотрудников компаний, ведь, как известно, 50% важной информации в большинстве компаний не хранится централизованно, а 70% данных так и остается в многочисленных ветках электронной переписки.
На данный момент технология компьютерного анализа данных является новой для российского юридического рынка, однако в прошлом году компания Право.ru выпустила сервис File.one, позволяющий создать базу знаний с искусственным интеллектом. При помощи предиктивного кодирования система анализирует ваши действия и заданные критерии для поиска и самостоятельно выявляет, сортирует и отбирает необходимые документы.
Риски игнорирования систем предиктивного кодирования
Важно понимать, что предиктивное кодирование будет прогрессировать с развитием машинного обучения. Игнорируя современные технологии, компании не смогут воспользоваться очевидными преимуществами и могут стать «жертвой» более продвинутого конкурента.
Решения по предиктивному кодированию в юридической отрасли сталкиваются со скептицизмом у некоторых потенциальных пользователей. Часто возникают вопросы о количестве хранимой электронной информации с учетом риска возможных судебных споров в будущем, а также о способах ее защиты от (не)умышленного уничтожения. Вместе с тем, работа с системами предиктивного кодирования проста и может быть легко освоена пользователем. А точность фильтрации документов системой во многом зависит от того, как пользователь научит алгоритм.
Очень точно об этом сказал Оливер Глинн-Джонс, партнер юридической фирмы Bryan Cave Leighton Paisner, представлявший истца в упомянутом деле David Brown v BCA Trading Limited: «Люди озабочены тем, что компьютер может пропустить ключевой документ, но они должны понимать, что основа успеха — это то, как человек, научит алгоритм. Если первоначальное обучение алгоритма было проведено фантастически, машина даст лучшие результаты, чем паралигалы в конце 8-10 часов сессий изучения документов. Предиктивное кодирование позволяет существенно сократить расходы, и оно, однозначно, является будущим в коммерческом арбитраже».
Если вы заинтересованы в использовании технологии предиктивного кодирования в юридической практике, то рекомендуем ознакомиться с сервисом для поиска и анализа корпоративного контента из облачных, локальных, сетевых хранилищ и почтовых клиентов на основе machine learning File.one.
Если у вас появились вопросы, отправьте их на почту info@file.one или позвоните по номеру 8 800 700-02-01.