Особенности извлечения знаний из текстов. Часть 2.

Источник: synsysbiz

Вязгина Елена

1. Основные компоненты процессора Semantix

Лингвистический процессор Semantix предназначен для областей, где требуется автоматическая обработка потоков текстов на естественном языке (ЕЯ ): резюме, сообщения СМИ, информационно-рекламные материалы, почтовые сообщения, сводки происшествий, справки по уголовным делам, архивные материалы и др. Из текстов (документов) выделяются интересующие пользователя объекты, их связи, а также факты участия объектов в тех или иных действиях или событиях. Последние сами рассматриваются как комплексные объекты с их свойствами и связями. В результате на основе каждого документа строится специального вида семантическая сеть (РСС), представляющая его семантическую структуру . Такая сеть отображается на XML-файл. С их помощью значительно облегчается последующий автоматический анализ. XML-файлы являются основой для составления досье, обзоров, отчетов. Другой вариант их использования - автоматическое заполнение реляционных БД или формирование собственной Базы Знаний с последующей организация направленного поиска нужной информации (объектов), в том числе, различных видов семантического поиска.

Основные компоненты процессора Semantix:

1.1. Блок лексического и морфологического анализа. Выделяет из текста слова и предложения, приводит слова нормальную форму и формирует семантическую сеть, представляющую пространственную структуру текста (ПС ), где отображается . последовательность слов, их основные признаки, начало предложений и наличие пробельных строк. Блок использует специальный набор тематических словарей (словарь стран, регионов России, имен, видов оружия и др.) для группирования слов и придания им дополнительных семантических признаков [14].

1.2. Блок синтактико-семантического анализа. Он преобразует одну семантическую сеть (ПС) в другую, представляющую семантическую структуру текста (СС ), т.е. выделенные объекты и их связи. Последнюю часто называют содержательным портретом документа [9,10]. Блок управляется лингвистическими знаниями (ЛЗ), которые определяют процесс анализа текста. ЛЗ включают в себя специального вида контекстные правила, которые обеспечивают высокую степень избирательности при выявлении (извлечении) объектов и связей [8].

Задачи этого блока:

- Извлечение из потока ЕЯ-документов информационных объектов: лиц, организаций, действий, их места и времени, и многих других объектов.

- Выявление связей объектов. Например, как лица связаны с организациями ( МЕСТО_РАБОТЫ ), адресами ( ПРОЖИВАЕТ, ПРОПИСАН ). Или как фигуранты связаны с объектами типа оружие, наркотики (ИМЕТЬ).

- Анализ глагольных форм, причастных и деепричастных оборотов с выявлением фактов участия объектов в соответствующих действиях. Например, один фигурант передал другому фигуранту наркотики - это факт, связывающий фигурантов.

- Выявление связей действий с объектами типа место или время (где и когда имело место данное действие или событие).

- Анализ причино-следственных и временных связей между действиями и событиями.

1.3. Экспертные системы (ЭС). На основе сети СС формируют новые знания - в виде дополнительных фрагментов РСС. Например, при обработке тектов резюме по каждой автобиографии ЭС выявляют область деятельности лица по его автобиографии (в соответствии с заданным классификатором). Оценивается опыт его работы. При анализе криминальных действий ЭС осуществляют соотнесение криминального происшествия к определенному типу: выявляют характер преступления, способ его совершения, орудие и т.д. (в соответствии с классификаторами криминальной милиции).

1.4. Обратный лингвистический процессор, преобразующий содержательный портрет документа (семантическую сеть СС) в XML-файл. При этом осуществляются необходимые замены символов, служебных слов (имен объектов), выставляются метки начала и конца объектов, действий, предложений. Преобразование осуществляется без потери информации. XML-файл устроен таким образом, что в нем представлены все выявленные компоненты и связи. В случае необходимости, обеспечивается обратное преобразование XML-файл в сеть СС.

1.5. База лингвистических и экспертных знаний (БЗ). Содержит правила анализа текста и экспертных решений во внутреннем представлении. Они определяют работу лингвистического процессора. Semantix имеет несколько таких баз, которые активизируются в зависимости от предметной области и задач пользователя, см. п.3.