L × q = r, (8.3)
где q – вектор запроса; r – отклик системы на запрос. Это традиционное определение процедуры поиска документов в ИПС, которое введено Солтоном [35] в 1977 году. Оно исходно предназначалось для автоматического индексирования документов, но оказалось чрезвычайно полезным и для процедуры поиска. Для описания работы распределенных ИПС обычно применяются информационно-поисковые языки типа "Like This". Данный подход пригоден также для вычисления меры близости "документ – запрос". Чаще всего используют улучшенную меру близости Солтона (серверы WebCrawler и Lycos).
Начало применению запросов типа "Like This" положила система WAIS, о которой уже упоминалось в разд. 3.2. Именно при ее создании впервые было заявлено о переносе центра тяжести на языки информационного поиска, основанные на вычислении меры близости "документ – запрос". Основная причина такого подхода – желание дать возможность пользователям использовать обычный естественный язык при составлении запросов. Система WAIS проводила нормализацию лексики и удаляла из списка терминов запроса общие и стоп-слова. Затем вычислялась мера близости и в соответствии с полученными значениями ранжировался информационный массив. Практически все ИПС сети Интернет устроены по этому принципу.
Другим важным способом улучшения качества поиска в информационнопоисковых системах для глобальной сети стала процедура коррекции запроса по релевантности найденных документов. Пионером здесь также выступила поисковая система WAIS. Пользователю предоставлялась возможность отметить документы, которые являлись релевантными его запросу. После этого запрос пополнялся терминами релевантных документов и вычислялось новое значение выражения (8.3) для поискового образа. В литературе по информационному поиску часто можно встретить термин "профиль", который относят к запросам пользователей. Но информационный профиль или тематический профиль имеется и у информационной системы. Наиболее просто тематический профиль системы материализуется в виде классификации, которая применяется в данной системе или рубрикаторе. В информационных системах Интернета профиль играет еще и роль навигационного средства, позволяющего получить доступ непосредственно к набору документов, попадающих в тот или иной раздел классификации. Естественно, что в моделях, предназначенных для описания работы ИПС, также должно быть введено понятие профиля и выявлена его актуальность для информационного поиска. В матричной форме операцию расширения запроса можно определить в виде:
LT × rk–1 = qk , (8.4)
где LT – это транспонированная матрица L, а rk–1 – отклик системы на предыдущий запрос или результат предшествующей итерации. Выражение (8.4) требует уточнения. В это выражение следует ввести еще одну матрицу – F, призванную учитывать фактор пользователя.
LT × Fk–1 × rk–1 = qk (8.5)
Матрице Fk–1 соответствует система фильтров пользователя, при помощи которых он корректирует свой запрос. Эти фильтры имеют в реальных системах конкретную интерпретацию. В поисковых системах WAIS и Lycos пользователь просто помечает релевантные документы. В этом случае фильтры превращаются в диагональные матрицы, которые в релевантных документах имеют главную диагональ с единицами, а в нерелевантных – с нулями. Но, в общем случае, на диагонали можно размещать и вес или уровень релевантности. В других случаях возможно ранжирование документов с учетом их гипертекстовых связей с другими документами, как релевантными, так и нерелевантными. Процесс коррекции запроса не бывает бесконечным. Обычно он завершается, когда пользователь устает просматривать найденные документы и приходит к выводу, что нашел искомое или получил приемлемый результат. В принципе, даже при прямом просмотре, второй результат является концом процедуры поиска информации. Это означает, что, начиная с некоторого значения, вектор отклика остается неизменным:
(L × LT × F) × rk–1 = rk. (8.6)
Из (8.6) следует, что процесс коррекции запросов по релевантности должен сходиться к собственному вектору матрицы (L × LT × F). Это позволяет информационной системе за 1 или 2 итерации найти оптимальную форму запроса, что достаточно важно для автоматизированных систем, так как позволяет снизить время поиска и соответственно уменьшить нагрузку на сеть.
8.4.2. Законы Зипфа и подготовка тезауруса
Для эффективного использования поисковых серверов необходим список ключевых слов, организованный с учетом семантических отношений между ними, т. е. тезаурус. При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов.
Поэтому для составления оптимального набора ключевых слов используют процедуру, основанную на применении законов Зипфа, которая заключается в следующем: берут любой текст-источник, близкий к искомой теме, т. е. "образец", и анализируют его, выделяя значимые слова. В качестве текста-источника может служить книга, статья, Web-страница, любой другой документ. Анализ текста производится в следующей последовательности.
1. Удаление из текста стоп-слов.
2. Вычисление частоты вхождения каждого слова и составление списка, в котором слова расположены в порядке убывания их частоты.
3. Выбор диапазона частот, лежащего в середине списка, и отбор из этого диапазона слов, наиболее полно соответствующих смыслу текста.
4. Составление запроса к поисковой машине в форме перечисления отобранных таким образом ключевых слов, связанных логическим оператором ИЛИ (OR). Запрос в таком виде позволяет обнаружить тексты, в которых встречается хотя бы одно из перечисленных слов.
Число документов, полученных в результате поиска по этому запросу, может быть огромно. Однако, благодаря ранжированию документов (расположению их в порядке убывания уровня релевантности найденного документа), применяемому в большинстве поисковых машин, на первых страницах списка практически все документы окажутся релевантными, причем документ-источник вполне может оказаться не на первой странице результатов поиска.
Более адекватной представляется структура тезауруса в виде так называемых семантических срезов, где для каждого основного термина отдельно строится таблица сопутствующих слов и слов шумовых (которые не должны встречаться в источнике). Все большее число поисковых серверов позволяют использовать такую методику. Таким образом, вместо единой иерархической структуры терминов получается пакет таблиц, которые могут расширяться и модифицироваться независимо друг от друга.
8.4.3. Профайл пользователя и автоматическое занесение информации в специальные модули БД
Проблема классификации предметной области достаточно сложна. Для решения этой проблемы необходимо собрать большой статистический материал о ключевых понятиях и взаимосвязях между ними в рамках всей отрасли [39]. Однако к этой проблеме можно подойти с другой стороны – предложить использование такого метода классификации, на котором может реально основываться стратегия поиска. Одним из таких методов является построение так называемого профайла пользователя. Под построением профайла пользователя в этой книге будет пониматься объединение устойчивых информационных потребностей людей, работающих в определенной предметной области в виде дерева множеств ключевых слов. Каждое множество, при этом, отражает определенную группу интересов. В качестве простого примера на рис. 8.12 представлен профайл, который определяет совокупность ключевых слов и понятий, интересующих специалиста по обработке изображений.
В современных информационных технологиях определенную популярность приобрело использование специализированных средств по адаптации программных продуктов к потребностям конечного пользователя. Такой подход позволяет максимально облегчить работу "узких" специалистов, не стремящихся вдаваться в тонкости настройки данного продукта, а лишь желающих использовать этот продукт как инструментальное средство для решения своей конкретной задачи. Можно сказать, что у каждого отдельного пользователя существуют свои информационные потребности – определенная доля знаний о данном продукте, необходимая ему для полноценной работы с таким программным продуктом. Эта доля знаний условно названа "профайлом пользователя" (user's profile).
Рис. 8.12. Структура профайла пользователя для специалиста полиграфического профиля по обработке изображений
В нашем конкретном случае существует возможность еще более облегчить работу пользователя, частично автоматизировав процесс построения профайла. Автоматизация будет состоять как в автоматическом уточнении веса ключевых слов, включенных в него пользователем, так и в автоматическом пополнении списка этих слов из результатов поиска. Такая методика будет способствовать уменьшению количества найденных в результате запроса документов за счет повышения уровня их релевантности. Небольшое увеличение участия пользователя в оценке получаемых результатов вполне оправдано, так как именно здесь машине очень трудно заменить человека, в особенности с высоким уровнем квалификации.
Алгоритм действий при автоматическом создании информационного файла следующий: