Извлечение информации

Singularikа разрабатывает комплексные решения, связанные с извлечением информации, и решает частные задачи в этой области.

 

Что такое извлечение информации?

 

Это автоматическое построение структурированных данных из неструктурированных или слабоструктурированных. При этом в текстах определяются объекты, их отношения и свойства. Как правило, задача состоит в том, чтобы проанализировать набор документов на естественном языке, выделить определённую информацию, структурировать и записать её в базу данных. Из текста можно извлечь события, терминологию, эмоциональные оценки, именованные сущности (например, имена людей, организаций) и другое.

Примеры задач, связанных с извлечением информации:

 

Когда происходит выход в свет нового бренда или внедрение новой товарной позиции, требуется собрать отзывы, мнения пользователей относительно этого бренда для дальнейшего анализа и усовершенствования. Это можно реализовать при помощи извлечения информации.
Рекрутеры постоянно имеют дело с огромным количеством резюме. Можно упростить работу, отсеяв часть документов с помощью извлечения информации: вычленять необходимые сущности из резюме и оставлять для просмотра рекрутерами только те анкеты, которые отвечают заданным параметрам.

 

Процесс анализа

 

Текст на естественном языке анализируется на всех лингвистических уровнях:

  • графематическом
  • лексическом
  • морфологическом
  • синтаксическом
  • семантическом

В каждом этапе есть свои трудности, которые преодолеваются различными методами.

При помощи специальных алгоритмов мы получаем из неструктурированного отрывка текст, в котором все нужные нам объекты и факты будут размечены и категорированы.

Центральный этап процесса анализа — извлечение фактов или сущностей.

 

Подходы к извлечению

 

Есть три основных подхода к извлечению фактов или сущностей.

  • по онтологиям;
  • основанный на правилах (Rule-based);
  • основанный на машинном обучении (ML).

Под онтологиями в данном случае подразумеваются «концептуальные словари», в которых описываются некоторые объекты, понятия, их характеристики, отношения между ними. В зависимости от задач, используются универсальные, отраслевые или узкоспециализированные онтологии. Применяются и онтологии объектов — базы знаний. Наиболее яркий пример такой базы знаний — Википедия.

Извлечение информации с помощью онтологий позволяет получить высокую точность извлечения именованных сущностей и отсутствие случайных срабатываний. Среди недостатков этого подхода — низкая полнота: извлечь можно только ту информацию, которая уже есть в онтологии. А объекты в онтологию или добавляются вручную, или выстраивается процедура автоматического добавления.

Подход, основанный на правилах, подразумевает написание шаблонов вручную. Аналитик составляет описания типов информации, подлежащей извлечению. Преимущество подхода в том, что, если в результатах анализа обнаружены ошибки, несложно найти их причину и скорректировать правила. При помощи правил обычно выделяют стандартизированные объекты: имена, даты, названия компаний.

Подход, основанный на машинном обучении, требует введения большого объема данных. Необходимо покрыть лингвистической информацией обучающую выборку текстов: разметить всю морфологию, синтаксис, семантику, онтологические связи.

Преимущества данного подхода:

  • Помимо создания размеченного корпуса, никакой другой работы вручную проделывать не надо.
  • Такая система с лёгкостью переобучается и перенастраивается.
  • Созданные правила более абстрактны.

Недостатки:

  • Для многих языков — ограниченный набор инструментов автоматической разметки.
  • Корпуса данных должны быть объемными, размеченными верно, полно и единообразно, что является трудоёмким процессом.
  • В случае, когда возникает ошибка, ее сложно локализовать и исправить, не изменяя всю систему.

 

Напишите нам!

Мы ответим в течение 2 часов