Алгоритм действий при автоматическом создании информационного файла следующий:
1. Сбор информации о вводимых запросах на поисковых серверах и запись ее в лог-файл.
2. Автоматический анализ документов, найденных в ходе запросов на различных поисковых серверах, с помощью программ, рассмотренных в разд. 8.3. Выявление ключевых слов и понятий и их ранжирование. Запись полученной информации в файл.
3. Экспериментальная проверка релевантности полученного результата.
Самый простой способ сбора вводимой информации – использование так называемых "клавиатурных шпионов". Подобные программы отслеживают и записывают в лог-файл (т. е. файл с расширением log) всю вводимую с клавиатуры информацию. Таких программ достаточно много. В качестве примера использовалась программа HookDump 2.8 (разработчик И. В. Осипов). HookDump позволяет определить, какие программы загружали, что в них набирали, какие кнопки мыши нажимали. Лог-файл создается автоматически в указанном каталоге.
При анализе документов определяется способ выборки ключевых фраз из документа для построения информационного файла, а также способ выделения корня, иначе – стемминг слов (stem – грамматическая основа, корень). Стемминг используется для отбрасывания от слова суффиксов и окончаний. Двумя наиболее популярными алгоритмами стемминга являются алгоритмы Портера (Porter) и Ловинса (Lovins). Оба алгоритма используют эвристические методы удаления или трансформации английских суффиксов. Другим подходом может служить составление словаря, где каждому используемому слову соответствует определенный корень (stem) [35].
Алгоритм Ловинса более агрессивен, т. е. он активнее стремится к тому, чтобы привести слова к одному корню, но и допускает больше ошибок. Тем не менее применительно к выборке ключевых слов агрессивный стемминг подходит лучше, чем традиционный. Для повышения агрессивности стемминга часто применяется метод нескольких последовательных итераций.
В целом, проблему выборки из текста ключевых слов и выражений можно рассматривать как классификацию. Если представлять документ как порядок слов и фраз, то задача в отношении каждого слова и фразы заключается либо в отнесении его к категории ключевых выражений либо нет. Оценка результатов автоматической классификации связана с тем, насколько машинный результат совпадает с результатом, полученным в результате анализа текста человеком или группой специалистов в рассматриваемой прикладной области.
1. Что такое метаинформация и какие отношения между публикациями и метаинформацией?
2. Какие атрибуты включаются в понятие метаинформация? Что кроме атрибутов входит в это понятие?
3. Какой тэг используется для размещения метаинформации в HTML-документах? В какой части документа размещается этот тэг? Какие два параметра характерны для этого тэга и как задаются атрибуты с помощью этих параметров в составе документа?
4. Позволяет ли метаинформация осуществлять детерминированный поиск? Если позволяет, то как это делается?
5. Какой из поисковых серверов уже использует метаинформацию при поиске документов? Как это реализуется практически?
6. Как организовать начальный поиск документов по заданной тематике? Как в ключевых словах определить эту тематику? Как организованы поисковые индексы (ссылочная база данных) на серверах? Чем отличается ручная каталогизация и организация поискового индекса с помощью программ-роботов? На каких серверах лучше организовать поиск на начальной стадии работы?
7. Что гласит первый закон Зипфа и как его использовать на практике? Какие значения ранга соответствуют наиболее значимым словам и выражениям?
8. В чем состоит содержание второго закона Зипфа и какое его практическое значение? Как установить диапазон значимых слов и на что влияет выбор этого диапазона?
9. В чем состоит смысл третьего закона Зипфа и какова его формулировка? Зачем нужна "инверсная частота термина" и на что она влияет?
10.Что такое программы-экстракторы и для чего они нужны? Какие специализированные программы этой группы вам известны? Может ли в этих целях использоваться одна из распространенных программ, а если может, то как?
11.В чем состоит простой семантический анализ текста? Можно ли автоматизировать процесс определения частоты повторения слов и выражений? 12.Какие средства редактора MS Word можно использовать для анализа текста? Как и в какой последовательности это сделать практически?
13. Какие программы-экстракторы производства зарубежных фирм вы знаете? А программы-экстракторы, произведенные отечественными фирмами и предприятиями?
14.Какие функции может выполнять, по мнению разработчиков, программа для семантического анализа текстов TextAnalyst? Как вы думаете, можно ли создать нечто подобное для работы с компьютерной графикой?
15.Какова последовательность работы с текстом этой программы? Что такое "сеть понятий" и как она формируется?
16.Какая численная характеристика используется для описания элементов сети? Как оценивается связь между парами понятий? Где можно прочесть ее численное значение?
17.Что такое "тематическая структура" исследуемого в программе TextAnalyst документа? Как просмотреть эту структуру?
18.Какие специализированные модули следует пополнять в издательской базе данных для обеспечения правильной информационной политики данного издательства? Каково должно быть содержание этих модулей?
19.Как построить информационно-поисковую систему на основе браузера? Какие основные части в нее следует включить? Можете ли вы изобразить схему информационного взаимодействия между этими частями системы?
20.Какие модели поиска возможны в информационно-поисковых системах? Какие из них чаще используются и почему?
21.Как осуществляется коррекция запроса в зависимости от множества документов, полученных в результате его выполнения?
22.Какую роль играет "информационный профиль" системы? Какие средства для его представления используются?
23.Что такое тезаурус? Какова роль синонимов, омонимов и морфологических вариаций слов при его составлении?
24.Какова процедура при составлении тезауруса на практике? Какие основные моменты в процессе обработки текста? Как выбирается исходный текст или тексты?
25.Что такое семантический срез и как выглядит структура тезауруса, построенного на основе таких срезов?
26.Что такое, в вашем представлении, профайл пользователя? Как можно сформулировать его определение?
27.Как можно автоматизировать процесс создания профайла пользователя? Какое в этом случае, будет участие самого пользователя?
28.Что такое "стемминг" слов и для чего он нужен? Какие алгоритмы используются для реализации "стемминга"?
Самостоятельная (лабораторная) работа
Работа № 8.1. Семантический анализ заданного документа и организация поиска документов, близких по тематике
Порядок выполнения работы
1. Скопируйте в одну из папок (например, c:el-pubslab-81) на жестком магнитном диске вашего ПК папку К главе 8 – документы для анализа, размещенную на гибком магнитном диске, прилагаемом к пособию. В папке находятся 16 различных файлов в формате DOC.
2. Загрузите имеющийся на вашем компьютере редактор Word (любой из версий от Word 97 до Word 2002) и откройте в нем один из документов, например 5.doc. Анализ этого заданного документа, а затем поиск и ранжирование найденных документов на соответствие их тематики тематике исходного документа составит предмет этой работы.
3. Вызовите диалоговое окно Автореферат (см. разд. 8.3.1), установите размер реферата 25% и задействуйте опцию Обновить сведения о документе . Затем командой Файл | Свойства активизируйте диалоговое окно Свойства , выбрав в нем вкладку Документ . Выпишите ключевые слова из соответствующей строки.
4. Попробуйте разделить исходный документ на несколько (2—4) части, оставив за каждой частью прежнее наименование. Далее проанализируйте каждый из вновь полученных документов (частей исходного) таким образом, как это указано в п.3. Выпишите ключевые слова для каждого из них. Затем попробуйте составить общий перечень ключевых слов для всего документа и сравните эти слова с теми, которые были получены в п.3.
5. Если у вас на компьютере установлена программа TextAnalist, то проанализируйте исходный документ с помощью этой программы и выделите 10 наиболее важных ключевых слов и выражений. Выпишите эти слова.
6. Если у вас установлена программа MTAS (см. разд. 8.3), то с помощью этой программы постройте график частот отдельных слов и выражений, встречающихся в исходном документе. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
7. Если программы MTAS у вас нет, попробуйте вручную построить такой же график, подобный рассмотренному в п. 6. При построении графика однокоренные слова учитывайте как повторяющиеся значения слова. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.