TextAnalyst - работа с текстовой информацией. обработка естественного языка (download)

Источник: analyst

Наша компания разрабатывает технологии обработки естественного языка. Мы рады предложить Вашему вниманию целый спектр уникальных инструментов для работы с текстовой информацией. Главный из них - смысловой анализатор TextAnalyst, который за считанные минуты позволит Вам ознакомится с текстами любой тематики. Он покажет все понятия, употребляемые в предъявленных текстах. Скажет, какие из них основные, а какие упоминались только вскользь. Выстроит все взаимосвязи и оценит их вес. Представит содержание в виде иерархии тем и под тем. При ответе на запрос предоставит информацию связанную по смыслу с запрашиваемой и, наконец, построит реферат.

Если, смотря на документ значительного размера, у Вас возникает желание ознакомиться с наиболее значимыми его местами, мы предлагаем совершенно бесплатно получить у нас программуTextReferent. Она построит реферат и покажет в документе то место, где освещен заинтересовавший Вас тезис.

Разработчикам информационно поисковых систем, систем документооборота мы предлагаем использовать наши технологии. TextAnalyst SDK содержит ядро системы TextAnalyst в виде COM объектов.

В основу перечисленных продуктов положена оригинальная технология обработки информации, базирующаяся на нейронных сетях.

О подходе

Давайте заглянем вглубь системы и посмотрим, как может TextAnalyst понимать смысл текста? Ведь все попытки обучить машину языку человека до сих пор заканчивались неудачей. Почему же TextAnalyst понимает? Чуть забегая вперед, дадим парадоксальный ответ - в отличие от других систем, так и не научившихся думать, TextAnalyst никогда и не пытался думать!

Многие годы разработчики "искусственного интеллекта" пытались научить компьютер логическому мышлению - мышлению, основанному на манипулировании формализованным знаниями и правилами их преобразования. Такой тип мышления характерен для обработки информации левым полушарием человеческого мозга. Однако, не имея возможности обучаться самостоятельно, подобно человеку, экспертные системы искусственного интеллекта широкого распространения не получили - для реальной работы им не хватало априорно заложенных знаний.

Мы выбрали другой путь, смоделировав более древние механизмы мышления, присущие правому полушарию мозга. В отличие от логики, эти механизмы можно было бы назвать ассоциативной обработкой. Весь путь эволюции, от рептилии до высших млекопитающих, природа прошла, "думая" именно так. И даже для "венца мироздания" логическое мышление играет не самую важную роль. Окружающий мир слишком сложен и слишком изменчив для того, чтобы мы могли обдумывать каждый свой шаг. На проверку логическое мышление оказывается лишь маленьким освещенным сознанием островком на поверхности темного моря человеческой психики. Большинство решений принимается именно там - в глубинах подсознания правого полушария, без всякого "думанья" в привычном смысле этого слова!

Помните тысяченожку из известной сказки Джани Родари? Ей предложили разобраться, как это она справляется с таким количеством ног. Тысяченожка подумала, какой же ногой ходить... И упала! TextAnalyst, несмотря лишь на восемь ног, тоже не размышляет и не пытается, скажем, разобрать сложный грамматический оборот (он вообще не слишком искушен в филологии, хотя кое-что и "знает"). Однако это не мешает ему понять содержание текста в целом. Причем сделать это в точности как и мы, лишь пробегая глазами страницы книги, фиксирую основные слова. Правда, благодаря своим "электронным мозгам", TextAnalyst делает это более внимательно, скрупулезно и быстро, не пропуская ни единого слова из сотен страниц текста. Как возможно такое? Чтобы это понять, обратимся к примеру - посмотрим, как же работает мозг в знакомой всем ситуации…

Представьте себе, что вам требуется изучить материал по некоторой предметной области, до сих пор совершенно незнакомой. Для этого есть два пути:

Первый - вам следует начать с самых основ, со скрупулезного штудирования учебников: погрузиться в определения базовых понятий, изучить основные факты, соотношения, законы и т.д. вы будете выстраивать цепочки умозаключений, постепенно постигая смысл. Это - привычный путь, дедуктивный метод, задействующий весь арсенал ресурсов "левополушарного" мозга. Вспомним, что все мы его проходили в школе, изучая, к примеру, иностранный язык - правила морфологи, правила грамматики, правила…, правила…

Но есть и другой подход, более быстрый, и пожалуй, не менее эффективный. Он близок так называемому "обучению с погружением", эффективно применяемому в последнее время в интенсивных курсах обучения иностранному языку. Именно он полностью согласуется с моделью обработки информации правым полушарием. Его и рассмотрим теперь подробнее.

Итак, представьте себя в ситуации, когда послезавтра нужно сдавать экзамен по предмету, о котором вы пока не имеете никакого представления. Изучать по порядку, обдумывать и размышлять - на это уже нет времени. И тем не менее, вы сможете сдать экзамен!

Вы садитесь за книги и погружаетесь в мир совершенно новой информации. Ничего знакомого - полная белиберда! - но вы быстро читаете и читаете, проглатывая страницы одну за другой. Спустя какое-то время вы вдруг заметите, что все чаще и чаще на глаза попадаются знакомые элементы - слова и словосочетания, еще не понятные, но уже знакомые… Вот они - базовые кирпичики - ключевые понятия, на которых строится весь предмет. Правое полушарие вашего мозга уже провело статистический анализ информации, выделив ее повторяющиеся фрагменты, которые образуют фундамент Ваших будущих знаний. Незаметно для себя вы "усвоили" основные понятия предмета.

Вы продолжаете чтение, читаете и читаете, возможно, заново те же тесты… Теперь понятия начинают обрастать некоторым смыслом, еще невнятным, но уже различимым. Каким-то смутным образом при встрече знакомых слов вы начинаете чувствовать некоторый их контекст, улавливается окружение… Так формируется и включается в работу семантическая сеть - комплекс связей между понятиями, увязывающий их в единую картину нового мира… Здесь каждое понятие обретает собственный смысл через связи с другими. Набор смысловых связей собственно и представляет значение понятия, так как при его упоминании в сознании всплывает целый набор ассоциаций, оживляющих дотоле пустой звук. Появление таких связей - это опять статистика, опять подсознательный частотный анализ Вашего "правого мозга". Он не спал, пока Ваши глаза безразлично пробегали по фразам текста, он скрупулезно запоминал и оценивал, в каких комбинациях понятия встречались вместе и как часто.

После того, как сеть выстроена, вы имеете предварительную модель изучаемого предмета. Правда, модель весьма путанная - настоящий сумбур, в котором уже нет сил разобраться. Перегруженный мозг нуждается в отдыхе, ему надо переосмыслить полученные знания. Второй этап завершен, и вот, (утро вечера мудренее) вы отправляетесь к кровати…

А ваше бессознательное продолжает трудиться пока вы спите. Идет анализ накопленной информации - понятий и связей семантической сети - модель предмета перестраивается и совершенствуется. Локальные фрагменты модели, слабо связанные с другими, не включающиеся в единую картину, отбрасываются и забываются. Другие еще сильнее увязываются между собой. Выявляются новые связи и отбрасываются случайные… К утру модель предмета вчерне сформирована. Правда, экзамен сдавать пока ран - знания слишком общи, в них еще нет структуры, системы.

И с новыми силами за предмет... Семантическая сеть включилась в работу и теперь в основном все понятно - каждый фрагмент текста книги относится к известным понятиям, раскрывает определенные их взаимосвязи. Вот оно - конкретное знание по конкретным темам - в конкретных строчках! По мере дальнейшего чтения вы как бы нанизываете" материал текста на знакомые понятия и связи, наполняете их все более конкретным смыслом. Кроме того, происходит структурирование, иерархическое представление модели предмета, где связи обретают направление от главного к второстепенному. Теперь это уже больше похоже на систему!

И окончательно пробежав знакомый материал перед экзаменом, неплохо выбрать и прямо запомнить наиболее важные тезисы, раскрывающие основные соотношения между основными понятиями. Пускай небольшой реферат будет всегда под рукой! Вот так работает и TextAnalyst, в основу работы которого по аналогии с описанными "правополушарными" механизмами заложены следующие основные принципы.

Первый - принцип ассоциативности, суть которого в том, что информация хранится таким образом, что появление небольшого ее фрагмента сразу отсылает к месту, где она хранится. Отсюда вытекает возможность статистической обработки: если фрагменты информации совпадают, они налагаются друг на друга, что позволяет установить частоту встречаемости различных элементов. В результате такого анализа формируется семантическая сеть - основная структура, характеризующая смысл текста, в которой понятия (слова и словосочетания) объединяются ассоциативными связями в соответствии с их совместной встречаемостью. Семантическая сеть характерна тем, что конкретное понятие как бы определяется всеми другими понятиями, связанными с ним в сети. При этом из семантической сети исключаются слова, являющиеся общеупотребимыми и не несущие самостоятельной смысловой нагрузки. Понятия и связи сети ранжируются по весам, отражающим степень значимости понятий в текста и степень их смысловой связанности. Такие веса первоначально формируются на основе частотных характеристик текста.

Второй принцип учитывает особенность сна человека, когда информация, поступившая на хранение в кору мозга, переупорядочивается в соответствие с ее связями. При этом весовые характеристики, сформированные на первом этапе анализа, преобразуются таким образом, что понятия, встречавшиеся во входной информации не очень часто, но связанные мощными связями с понятиями, имеющих большой вес, в свою очередь, приобретают большой смысловой вес, и т.д. Здесь происходит как бы натягивание семантической сети на поверхность всего текста, которая отражает смысловые связи понятий: хребтам ландшафта соответствуют группы понятий, имеющих большой вес и сильно связанных между собой. Долинам соответствуют группы понятий малого веса и слабосвязанных.

В дальнейшем сформированная семантическая сеть сама включается в работу по структуризации информации, относя фрагменты текста к соответствующим понятиям и связям сети, что реализует третий принцип. Создается так называемое тематическое древо - представление структуры текста в виде многоуровневой иерархии тем и раскрывающих их подтем. В зависимости от смыслового строения текста, тематическое древо может иметь один корень (главную тему), или разваливаться на куст несвязанных друг с другом тем.

Такое представление информации формируется автоматически, и в отличие от традиционных информационно-поисковых и экспертных систем, без привлечения априорной информации.

Семантическая сеть и тематическое древо представляются для исследования пользователю TextAnalyst, который за каждым понятием и связью видит смысл, заложенный в его модели мира. При этом пользователь избавляется от необходимости формирования модели текста - за него это делает TextAnalyst. Остается только познакомиться с этой моделью. При этом к вашим услугам ассоциативное обращение к информации: из любого понятия сети можно обратиться к фразам текста, его содержащим, а из фразы - непосредственно в текст, чтобы увидеть ее контекст. И далее снова - из текста перейти к понятиям семантической сети...

Завершается анализ автоматическим реферированием. При этом из текста отбирается множество фраз, содержащих наиболее весомые понятий и самые сильные связи. Именно они несут максимальную информацию о тексте. Фразы представляются в порядке их появления в исходном тексте. Конечно, полученный реферат требует некоторой шлифовки: фразы надо подгонять друг к другу, но это гораздо комфортнее, нежели самому вылавливать те же фразы в тексте.

Восстановите опять ситуацию со сдачей экзамена, с которой мы начали. Только сдавать вам теперь придется спустя несколько минут! Тут не до правого полушария… И тем не менее, c TextAnalyst вы снова сможете это сделать: внимательно просматриваете состав тематического древа или семантической сети, связи понятий между собой, фразы, соответствующие наиболее значимым понятиям, а при желании можете заглянуть и в текст, чтобы понять контекст. Так лихорадочно листает учебник студент. Но у него в руках немой учебник. Какое слово в нем самое главное?... И нет у него TextAnalyst"а!

Построение семантической сети

Прежде всего, изучив предложенный материал, TextAnalyst формирует семантическую сеть - интегральное представление смысла текста, служащее основой для всех видов дальнейшего анализа.

Семантическая сеть - это множество понятий текста - слов и словосочетаний, связанных между собой по смыслу. В семантическую сеть включены не все слова текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. При этом в сеть не входят обще употребимые слова, а также слова, очень редко встречавшиеся в тексте (этот параметр - частоту встречаемости, вы сможете настраивать по своему желанию). Поэтому, с одной стороны семантическая сеть достаточно точно представляет смысл текстов, а с другой позволяет отбросить несущественную информацию. Содержание предстает в агрегированном виде, так называемым смысловым портретом. При этом каждое понятие, многократно повторявшееся в различных местах текстов, представляется в сети единственным элементом. Для отображения в один элемент сети различные формы слов, приводятся к общей грамматической форме. К каждому понятию сети предлагается список других понятий, в сочетании с которыми оно встречалось в предложения текста, а также список всех предложений, в которых понятия употреблялось. Таким образом, происходит аккумулирование информации, касающейся понятий, которая ранее была разбросана по всему тексту.

В результате по каждому понятию - теме текста - можно увидеть сразу всю информацию, буквально бросив единственный взгляд на набор его связей в семантической сети. В результате, передвигаясь по смысловым связям от понятия к понятию, можно находить и прицельно исследовать лишь интересующие места текстов, не затрудняя себя просмотром всей имеющейся информации.

Однако, это еще не все! Каждое понятие семантической сети характеризуется числовой оценкой - так называемым смысловым весом. Связи между парами понятий, в свою очередь, также имеют характеристики - веса связей. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в общий смысл текста, выявить более или менее подробно проработанные темы, задать способ сортировки информации, и наконец, исследовать текстовый материал по пластам - смысловым срезам различной глубины - снимая сливки с содержания или глубоко погружаясь в детали.

Семантическая сеть представляется в окне 1 в виде списка понятий. Щелкнув мышью на значке <+> возле выбранного понятия, вы можете раскрыть список всех понятий, связанных с ним. Щелчком мыши на значке <-> возле понятия с раскрытым списком вы закроете его обратно. Чтобы просмотреть всю информацию по интересующему понятию, щелкните мышью на первом пункте <все> раскрытого списка. В окне 2 появятся все предложения текстов, включающие понятие. Само понятие выделяется цветом. Если же вас интересует не вся информация по понятию, а лишь та, которая касается его связи с одним из понятий раскрытого списка, щелкните мышью по второму понятию. В окне 2 появятся все предложения текстов, в которых встречалась эта пара понятий. Оба понятия выделены цветом. Выбрав интересующее предложение в окне 2, просто щелкните по нему мышью - и в окне 3 появится соответствующий фрагмент исходного текста.

Обратите внимание на числа в сети, стоящие рядом с понятиями. Ближайшее к понятию число представляет его смысловой вес. Значение варьируется от 1 до 100 и отражает важность понятия для смысла всего текста - как много информации в тексте касается данного понятия. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. Маленькое, близкое к единице значение показывает, что соответствующая тема лишь вскользь упомянута в тексте, и в тексте мало информации, относящейся к данному понятия. Второе число представляет вес связи от вершинного понятия раскрытого списка к данному понятию. Вес связей также может принимать значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия - первая тема почти всегда излагается в контексте второй. Малое единичное значение отражает тот факт, что первое понятие слабо связано со вторым и очень мало информации по первой теме касается в тоже время и второй.

Cвязь между парой понятий сети всегда двустороння, однако связь от первого понятия ко второму далеко не всегда имеет тот же самый вес, что и обратная, от второго к первому. Как говорится, "всякая селедка - рыба, но не всякая рыба - селедка"

Вы можете настраивать вид семантической сети на экране, изменяя количество отображаемых понятий и связей, а также способ их сортировки. Для этого выберите пункт "настройка вида" в меню "вид" и установите требуемые значение параметров.

Дополнительные настройки TextAnalyst позволяют вам самим задавать интересующие понятия, которые выделяются в семантической сети при анализе

Тематическая структура текстов

Как уже отмечалось, семантическая сеть дает исчерпывающее наглядное представление о содержании текста - информация сети отражает все потенциально присутствующие смысловые связи, что с точки зрения полноты смыслового портрета, конечно же, превосходно. Однако, следует помнить, что сеть есть сеть - все пары понятий связаны двусторонне и каждый смысловой путь - бесконечен, так как может пересекаться сам с собой. Такая множественность связей вполне понятна с точки зрения формального описания семантики, однако едва ли удобна, когда дело касается более привычных структурированных представлений, когда связи идут от главного к второстепенному. Избежать подобного неудобства, а главное - взглянуть на текст иным образом поможет представление семантической сети в виде так называемой тематической структуры
Тематическая структура описывает содержание анализируемых текстов в виде иерархии связанных тем и подтем, раскрывающих содержание тем. Все темы и подтемы выражаются понятиями исходных текстов и соответствуют элементам семантической сети. Однако связи между понятиями односторонни и направлены от главного понятия к подчиненным. В результате представление тематической структуры текста оказывается иерархическим - от каждой темы раскрываются связи только к ее подтемам, от них - к подтемам следующего уровня и так далее, вплоть до самых незначительных тем, уже не имеющих нисходящих связей. Тематическая структура, таким образом, имеет вид древа, в корне которого стоят главные темы, в ветвях - подтемы, и каждая ветвь дерева заканчивается. Общий вид тематической структуры отражает смысловую структуру текстов. Так, если вся информация в текстах подчинена единой теме, структура будет иметь вид дерева с единственным корнем. Если же содержание текстов политематично, то вместо дерева мы видим целый "лес" независимых кустов, корни которых представляют главные темы, несвязанные друг с другом.

В дополнение к этому, TextAnalyst предоставляет возможность регулировать форму тематического дерева. Изменение порога по весу связей в семантической сети (разрыв более или менее сильных связей) изменяет вид дерева, разбивая его на большее или меньшее количество тематических кустов. В результате появляется возможность взглянуть на структуру текста в различных срезах, на разных уровнях глубины материала.

В остальном, с точки зрения интерфейса работа с тематической структурой, описываемая ниже, полностью аналогична работе с семантической сетью.

Тематическая структура представляется в окне 1 в виде дерева понятий.

Понятия представляют названия тем, и некоторые из них имеют раскрывающиеся ветви связей с подтемами. Понятия в корне дерева представляют список главных тем анализируемых текстов, а связанные с ними элементы в ветвях последующих уровней дерева - списки подтем, в которых разворачиваются главные темы.

Щелкнув мышью на значке <+> возле выбранного понятия, вы можете раскрыть список всех понятий, связанных с ним. Щелчком мыши на значке <-> возле понятия с раскрытым списком вы закроете его обратно. Так же, как в семантической сети, численное значение возле понятия представляет его вес, а второе значение (перед ним) - вес связи с понятием в вершине раскрытого списка.

Чтобы просмотреть всю информацию по интересующему понятию, щелкните мышью на первом пункте <все> раскрытого списка. В окне 2 появятся все предложения текстов, включающие понятие. Само понятие выделяется цветом.

Если же вас интересует не вся информация по понятию, а лишь та, которая касается его связи с одним из понятий раскрытого списка, щелкните мышью по второму понятию. В окне 2 появятся все предложения текстов, в которых встречалась эта пара понятий. Оба понятия выделены цветом.

Выбрав интересующее предложение в окне 2, просто щелкните по нему мышью - и в окне 3 появится соответствующий фрагмент исходного текста. Вы можете настраивать вид тематической структуры на экране, изменяя количество отображаемых понятий и связей, способ их сортировки, а также количество кустов в дереве.

Реферирование текстов

Для самого быстрого ознакомления с содержанием текстов вы можете воспользоваться услугой автоматического реферирования, предоставляемой TextAnalyst. Формируемый реферат содержит список наиболее информативных предложений текстов, отражающих основные смысловые связи между главными понятиями семантической сети. Конечно, это не реферат в привычном понимании - тезисы не связаны между собой стилистически, а попросту взяты из текста и расположены в порядке их встречаемости. Однако и такой "подстрочник" оказывается достаточно информативным, чтобы составить общее представление о тексте и уяснить его основные идеи. Кроме того, все предложения реферата снабжены отсылками к соответствующим местам исходных текстов, что позволяет просмотреть контекст интересующего тезиса. Подробность реферата можно легко настраивать, изменяя количество формирующих его предложений. При этом каждое предложение реферата характеризуется относительной степенью своей значимости для всего текста.

Обратите внимание на цифры, стоящие перед предложениями. Они характеризуют вес предложения - значимость в тексте - и выражаются цифрами от 1 до 100). Так, если вес близок к 100, то данное предложение представляет важнейшую информацию - по крайней мере оно включает в себя главные понятия и их связи. Эти понятия в реферате выделяются цветом.

Чтобы просмотреть контекст интересующего предложения реферата, щелкните по нему мышью. В окне 3 появится нужное место текста

Вы можете настраивать подробность реферата, изменяя количество отображаемых экране предложений.

Гипертекстовая разметка текста

Работая с современными информационными системами, вы наверное уже успели убедиться, что наиболее удобной формой представления текстовой информации является гипертекст. Пронизывая текстовый массив гиперссылками, гипертекст позволяет избежать монотонного пролистывания страниц и выбирать пути изучения материала творчески, сообразуясь с собственным видением и интересами. Однако, к сожалению, традиционные "гипертекстовые" системы таковыми на самом деле не являются. Несмотря на название, главная возможность остается не более, чем пожеланием - все пути движения по тексту навязываются разработчиком и каждая "гиперссылка" отсылает лишь… в одно единственное место!

И в этой области TextAnalyst предлагает вам уникальную возможность - автоматически превратить мегабайтный массив текстовой информации в полноценный гипертекст, выделив все присутствующие смысловые взаимосвязи и переходы. Опорой для гипертекста в TextAnalyst является семантическая сеть, содержащая значимые понятия с их смысловыми связями и гиперссылками. Ее проекция на исходные тексты и превращает их в гипертекст. При этом в текстах выделяются цветом понятия семантической сети, от которых становится возможен переход к другим местам текстов, также их содержащим. Более того, наличие смысловых связей позволяет переходить от выделенных понятий к связанным с ним по смыслу, а от них, в свою очередь - к соответствующим участкам текстов и так далее. В результате возникает возможность циклического движения по цепочке: <выбранный фрагмент текста> - <понятия семантической сети> - <выбранная гиперссылка> - <фрагмент текста>.

Для гипертекстовой ссылки выделите фрагмент текста и выполните функцию смыслового поиска.

Смысловой поиск информации

Наиболее серьезной проблемой, возникающей при работе с текстовым материалом большого объема, пожалуй, является поиск интересующей информации. Большая удача, если тексты уже знакомы и удается вспомнить какие-нибудь ключевые слова, описывающие искомое. В этом случае с возникшей задачей неплохо справятся традиционные информационно-поисковые средства. Но как быть, если вы затрудняетесь подобрать нужные слова? Что делать, если нужно найти что-то новое, о чем ранее вы вообще не имели понятия? К сожалению, в большинстве случаев возникает именно подобная ситуация, когда приходится искать то, "точно не зная, что…". И именно поиск неожиданной информации всегда представляет наибольший интерес - ведь новые знания не лежат "под фонарем"!

Функция смыслового поиска позволяет получить ответ на запрос, сформированный в виде фразы естественного языка, словосочетаний или же просто набора ключевых слов. При этом извлекаемая в ответ информация может не только иметь другую грамматическую форму, но и вообще не упоминаться в тексте запроса, однако имеет с ним смысловую связь. Например, в ответ на запрос "финансовые преступления" вы можете фрагменты текста, в которых говорится о подложных чеках.

Вы можете ввести запрос с клавиатуры, либо задать его участком текста, что реализует гипертекстовые ссылки.

Результаты ответа на запрос вы увидите на экране в виде двух списков.

Прежде всего, обратите внимание на список в окне 2. В нем представлены предложения текстов, включающие ключевые слова запроса - те, которые совпали с понятиями семантической сети. Предложения в списке упорядочены по количеству совпавших понятий, которые выделены цветом. Выбрав интересующее предложение, щелкните мышью на нем - в окне 3 вы увидите соответствующий фрагмент текста.

Если же результаты поиска не совсем устраивают, или же вы хотите получить дополнительную информацию, обратитесь к списку в окне 1. В нем представлены понятия семантической сети, упорядоченные по близости к запросу (степень близости - от 1 до 100 - показана цифрой). Обратите внимание, что большинство понятий списка не были упомянуты в запросе. Однако TextAnalyst показывает, что в текстах имеется информация, связанная по смыслу с искомым. Дальнейшая работа со списком аналогична работе с семантической сетью. Выбрав интересующее понятие, щелкните мышью по значку <+> возле него и раскройте дополнительный список понятий, связанных с ним. Далее, щелкнув мышью по пункту <все> или по выбранному понятию, вы можете просмотреть соответствующие предложения в окне 2. Найдя требуемое предложение, вы увидите соответствующий фрагмент текста в окне 3, щелкнув по нему мышью.

В случае необходимости вы можете использовать стандартную функцию "формальный поиск" в меню "поиск", что реализует четкий поиск ключевых слов в исходных текстах.

Если же вам часто приходится искать информацию определенного вида, воспользуйтесь настройками TextAnalyst, которые позволят всегда находить в текстах заданные понятия и выделять их в семантической сети.

TextAnalyst SDK

библиотека программных компонентов технологии анализа текстов

Библиотека TextAnalyst SDK содержит программные компоненты, реализующие комплекс функций автоматического анализа русско- и англоязычных текстов.

Возможности библиотеки помогут вам создавать свои собственные 32-разрядные Windows-приложения, позволяющие, например, реферировать тексты, формировать гипертекстовые базы данных, осуществлять поиск информации в текстах и тому подобное.

Функции библиотеки TextAnalyst SDK позволят вашим приложениям использовать следующие основные возможности:

приведение различных грамматических форм слов к общей форме;
формирование частотного словаря понятий текста (слов и словосочетаний), c фильтрацией слов заданного словаря;
формирование списков слов, связанных в тексте по смыслу с заданными словами;
численную оценку значимости понятий в тексте и степени их смысловой связанности;
получение списков предложений текстов, содержащих заданные слова;
формирование реферата - списка наиболее информативных предложений текста.

Расширьте возможности своих приложений!
Не открывайте заново TextAnalyst - просто используйте...

Получите бесплатную версию TextAnalystSDK

Системные требования

Intel-based PC

Windows 9X, NT, 2000, Me

Комплект SDK:

библиотека программных компонентов (inproc servers);
документация;
набор базовых словарей,необходимых для работы с текстами русского и английского языков;
программа редактора словарей DicEdit.

TextAnalyst 2.0

персональная система автоматического анализа текста

TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:

анализа содержания текста с автоматическим формированием семантической сети с гиперссылками - получения смыслового портрета текста в терминах основных понятий и их смысловых связей;
анализа содержания текста с автоматическим формированием тематического древа с гиперссылками - выявления семантической структуры текста в виде иерархии тем и подтем;
смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста;
автоматического реферирования текста - формирования его смыслового портрета в терминах наиболее информативных фраз;
кластеризации информации - анализа распределения материала текстов по тематическим классам;
автоматической индексации текста с преобразованием в гипертекст;
ранжирования всех видов информации о семантике текста по "степени значимости" с возможностью варьирования детальности ее исследования;
автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации;

Не пугайтесь обилия возможностей!

Работа с TextAnalyst покажется Вам неожиданно простой и приятной, а его аналитические способности сэкономят массу полезного времени...

Получите бесплатную версию TextAnalyst

Системные требования

Intel-based PC

Windows 9X, NT, 2000, Me

Технические характеристики

Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).
Максимальный объем анализируемой подборки не ограничен и зависит от объема ресурсов компьютера и настройки TextAnalyst.
Собственный объем TextAnalyst не превышает 5Мб.
Форматы обрабатываемых файлов:
*.txt (ANSI, DOS), *.rtf
Экспорт информации в форматы: *.txt, *.csw (электронные таблицы).

TextReferent 1.0

быстрый помощник в анализе текста

TextReferent предоставляет возможность пользователю легко воспользоваться одной из функций системы TextAnalyst - автоматическим составлением реферата. Под рефератом понимается набор предложений реферируемого текста, которые содержат ключевые термины содержания.

После запуска TextReferent размещает свою иконку в панели задач (TaskBar). В качестве исходного текста для реферирования выступает текст, размещенный в Clipboard. Реферирование происходит по двойному щелчку мыши на иконке TextReferent, после чего выводятся как исходный текст, так и реферат.

Система позволяет настраивать "подробность" получаемого реферата. Меню настроек выводится при нажатии на правую кнопку мыши над иконкой TextReferent.

В демонстрационной версии TextReferent, которую можно получить бесплатно, объем обрабатываемого текста ограничен размером 100Кб.

TextReferent - прекрасное решение, если Вам не нужна полная мощь TextAnalyst, но все время приходится просматривать большое количество разных по тематике текстов. Мы надеемся, что наш продукт поможет Вам в работе.

Получите бесплатную версию TextReferent

Системные требования

Intel-based PC

Windows 9X, NT, 2000, Me

Технические характеристики

Средняя скорость анализа текста около 1Мбайт/мин (при использовании Pentium-II).
Максимальный объем анализируемой подборки не ограничен и зависит от объема ресурсов компьютера и настройки TextReferent.
Собственный объем TextReferent не превышает 2Мб.
Форматы обрабатываемых текстов: Clipboard

Ссылки по теме

Файлы для загрузки

В каталоге Download Вы можете найти другие полезные материалы - утилиты, программы, документацию, исходники, электронные книги. Если Вы обнаружили неработающую ссылку, пожалуйста, помогите другим посетителям и администратору каталога Download - сообщите об этом редактору.

TextAnalyst - работа с текстовой информацией (download)

TextAnalyst SDK

TextAnalyst 2.0

TextReferent 1.0