Демонстрационная версия этой программы доступна бесплатно на сайте фирмы. Применение программы резко сокращает время, необходимое эксперту для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Интересно отметить, что на одном из семинаров, где автор в числе прочего докладывал и об использовании данной программы в поисковых стратегиях, одним из слушателей был указан интересный аспект использования таких программ – для анализа текстов с целью определения их авторства.
В настоящее время распространяется более современная версия TextAnalyst 2.01. Эта программа позволяет на первых же этапах работы с множеством текстов ответить на естественные вопросы, возникающие по ходу анализа: какие термины содержатся в тексте и какова частота их повторения. Она резко сокращает время, необходимое для погружения в тематику, и дает множество подсказок и наводящих соображений для тонкого и углубленного анализа как всей информации в совокупности, так и отдельных ее фрагментов. Первые успехи эксперта при работе с анализаторами текстов, как правило, служат основой для постановки более сложных задач анализа и структурирования.
Рис. 8.7. Интерфейс и заставка программы TextAnalyst 1.5
TextAnalyst разработан в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов, и предоставляет пользователю следующие основные возможности:
1. Анализа содержания текста с автоматическим формированием семантической сети с гиперссылками – получения смыслового портрета текста в терминах основных понятий и их смысловых связей.
2. Анализа содержания текста с автоматическим формированием тематического древа с гиперссылками – выявления семантической структуры текста в виде иерархии тем и подтем.
3. Смыслового поиска с учетом скрытых смысловых связей слов запроса со словами текста.
4. Автоматического реферирования текста – формирования его смыслового портрета в терминах наиболее информативных фраз.
5. Кластеризации информации, т. е. анализа распределения материала текстов по тематическим классам.
6. Автоматической индексации текста с преобразованием в гипертекст.
7. Ранжирования всех видов информации о семантике текста по "степени значимости" с возможностью варьирования детальности ее исследования.
8. Автоматического/автоматизированного формирования полнотекстовой базы знаний с гипертекстовой структурой и возможностями ассоциативного доступа к информации [12].
Результаты работы программы TextAnalyst 2.01. представлены на рис. 8.8. Анализу была подвергнута статья "Общая концепция издательской базы данных". Как следует из рис. 8.8 интерфейс TextAnalyst построен в виде трех взаимосвязанных окон:
✓ окно 1 – окно значимых элементов текста, располагается в левом верхнем углу экрана;
✓ окно 2 – окно для ссылок к предложениям текста, располагается в правом верхнем углу экрана;
✓ окно 3 – окно анализируемых текстов, располагается в нижней части экрана.
Перейдем к закладке "Семантическая сеть" в окне 1 (третья кнопка слева внизу окна). Теперь в окне 1 представлена (в виде обычного дерева) сеть основных понятий проанализированных текстов.
Прежде всего, изучив предложенный материал, TextAnalyst формирует именно
сеть основных (наиболее значимых) понятий, содержащихся в представленном ему тексте. Такая сеть служит смысловым представлением текста и основой для всех видов дальнейшего анализа.
Сеть понятий – это множество терминов из текста, т. е. слов и словосочетаний, связанных между собой по смыслу. В сеть включены не все термины текста, а лишь наиболее значимые, несущие основную смысловую нагрузку. Аналогичным образом представлены и смысловые связи между понятиями текстов – отражаются лишь наиболее явно выраженные из них. Поэтому, с одной стороны сеть достаточно полно описывает смысл анализируемого текста, а с другой – позволяет отбросить несущественную информацию и представить содержание в сжатом виде, так называемым смысловым портретом. При этом каждое понятие, повторявшееся в различных местах документа, оказывается представленным в единственном узле сети. В этом узле также собирается разбросанная информация, касающаяся этого понятия – формируется список предложений, в которых оно употреблялось.
Рис. 8.8. Интерфейс программы TextAnalyst 2.01
Различные формы слов, конечно же, приводятся к общей грамматической форме для отображения в один элемент сети. Аналогичным образом собирается информация по смысловым связям каждого понятия – в виде списка всех связанных с ним в тексте понятий, дополненного предложениями, в которых отражаются данные связи. Таким образом, можно сразу увидеть всю информацию по каждому понятию – тематике текста, буквально бросив единственный взгляд на набор его связей в сети. В результате, передвигаясь по смысловым связям от понятия к понятию, можно будет находить и предметно исследовать лишь наиболее важные и интересующие исследователя места документа, не затрудняясь просмотром всей промежуточной информации. Сказанное иллюстрируется данными, представленными на рис. 8.9. Каждый элемент сети, т. е. определенное понятие, характеризуется некоторой численной оценкой – так называемым смысловым весом. Связи между парами понятий, в свою очередь, также характеризуются весами. Эти оценки позволят сравнить относительный вклад различных понятий и их связей в семантику текста, выявить наиболее подробно проработанную в тексте тематику и вторичные темы, задать способ сортировки информации, и наконец, позволят взглянуть на весь текстовый материал по пластам – смысловым срезам различной глубины – от поверхностного знакомства с содержанием до глубокого проникновения в его мельчайшие детали и подробности.
Рис. 8.9. Интерфейс программы TextAnalyst 2.01 с загруженным текстовым документом и результатами анализа семантической структуры этого документа
Итак, на рис. 8.9 в окне 1 представлена сеть понятий (активна третья слева кнопка в нижней строке этого окна). Если подвести к значку возле выбранного понятия указатель мыши и выполнить двойной щелчок ее левой кнопкой, то раскроется список всех понятий, связанных с выбранным. Для того чтобы просмотреть всю информацию, относящуюся к данному понятию, следует щелкнуть мышью по первому пункту ( <все> ) раскрытого списка. После этого в окне 2 появятся все предложения текстов, включающие это понятие, причем оно само будет выделено красным цветом. В том случае, когда пользователя интересует не вся информация о выбранном понятии, а лишь та, которая касается его связи с одним из понятий в раскрытом ниже списке окна 1 , следует указать мышью на это связанное с исходным понятие. В результате этого действия, в окне 2 появятся все предложения текстов, включающие выбранную описанным способом пару понятий, также выделенную цветом. Если сделать двойной щелчок мышью по интересующему нас предложению в окне 2 , то в окне 3 появится конкретное место исходного текста. Соответствующие места выделены темным в этих двух окнах на рис. 6.9.
Теперь следует обратить внимание на пары чисел, расположенных вблизи понятий в окне 1 на рис. 8.9. Ближайшее к понятию число (расположенное левее) представляет его смысловой вес. Его значение изменяется от 1 до 100 и показывает, насколько важную роль играет это понятие для смысла всего текста, иначе говоря, ранжирует данное понятие. Максимальное значение, равное 100, говорит о том, что понятие является ключевым и представляет важнейшую тему текста. В нашем случае самым важным является понятие базы данных или аббревиатура БД, вследствие чего ему приписан вес 99. Малый смысловой вес, близкий к единице, показывает, что соответствующая тема лишь вскользь упомянута в тексте и количество информации, относящейся к данному понятию, минимально.
Другое число, находящееся ближе к раскрытому узлу (т. е. левее), представляет вес связи понятия, расположенного в узле или вершине раскрытого списка, и данного понятия. Вес связей также принимает значение от 1 до 100. Большое значение веса связи от одного понятия к другому, близкое к 100, указывает на то, что подавляющая часть информации в тексте, касающаяся первого, касается в тоже время и второго понятия – первая тема почти всегда излагается в контексте второй. Иначе говоря, два этих понятия тесно коррелированны друг с другом. При малых значениях, близких к единичному, узловое или первое понятие слабо связано со вторым, а уровень их взаимной корреляции близок к нулю. Следует отметить, что связь между парой понятий сети характеризуется направлением (т. е. подобна вектору). Связь от первого понятия ко второму не совпадает по величине с обратной связью, т. е. от второго к первому.