30.Какой вариант динамического связывания Web-страниц с внешними источниками представляется вам более предпочтительным? По каким причинам? Приходилось ли вам работать со скриптами? Пытались ли вы использовать в них язык Perl?
Глава 8 Метаинформация и автоматизация извлечения атрибутов и ключевых слов
В главе рассмотрены теоретические вопросы, связанные с ролью метаинформации в поисковых стратегиях, а также методах семантического анализа любых документов и их программной реализации. Описываются также методы автоматического занесения информации, извлекаемой из сети Интернет, в специальные модули атрибутивной базы данных издательства.
8.1. Роль метаинформации в поисковых стратегиях
Повсеместное распространение информационной среды Интернет привело к определенному забвению традиционных методов поиска изданий и документов и заметному перекосу в направлении использования однонаправленных ссылок, служащих для организации переходов от одного документа к другому в гипертекстовой БД. Такие ссылки не имеют атрибутов, не обеспечивают структурирования и классификации документов. Эти ссылки представляют собой лишь механизм структурирования содержимого Webузлов, но и в этом случае не могут обеспечить организацию такой иерархической структуры, в которой документы были бы классифицированы хотя бы по одному параметру.
В настоящее время объем информации, циркулирующей в среде Интернет, приближается или уже даже превысил некий критический предел, в результате чего значительная ее часть остается невостребованной, препятствуя, по существу, эффективному использованию этой среды. Все более актуальной становится задача создания гибкой информационной среды для хранения документов, включая статьи, доклады, книжные издания. Желательно обеспечить возможность сборки таких документов в группы (коллекции) с последующей возможностью включения этих первичных коллекций в состав других групп, стремясь получить в результате иерархическую структуру, упорядочивающую информационное пространство в целом. Наличие такой структуры дозволило бы пользователям по своему усмотрению подбирать содержание искомых документов и форму их отображения. Все перечисленное способствовало бы также и решению проблемы персонификации информации.
8.1.1. Общая характеристика метаданных и их применение
Для большинства Web-приложений принятой практикой является хранение документов без соответствующей метаинформации, которая указывает автора произведения, время его создания, срок хранения, права доступа и пр. В этих условиях затрудняется поиск специфической информации. С одной стороны это связано с тем, что контекстный поиск ведет к необходимости анализа большого числа документов, которые даже по тематике никак не могут быть отнесены к требуемому их множеству. С другой стороны, в сети Интернет циркулирует огромное количество устаревших документов, доступ к которым нельзя прекратить из-за отсутствия у них самого понятия "срок хранения".
Однонаправленные ссылки, используемые в сети в настоящее время, по существу, препятствуют использованию метаинформации, которая должна обеспечивать описание не только отдельных документов, но и их объединений различного уровня. Поэтому однонаправленные ссылки должны заменяться двунаправленными, снабженными такими атрибутами как имя автора (авторов), время создания, срок хранения и, вероятно, даже тематическое направление. Интересно отметить, что такие атрибуты рекомендовано хранить не вместе с документами, которые они характеризуют, а в отдельной базе данных, что позволит существенно упростить и ускорить поиск таких документов.
Для описания метаданных консорциумом W3C подготовлен стандартный формат их представления – Resource Description Framework (RDF), который определяет основные принципы обработки метаданных и обеспечивает функциональную совместимость Web-приложений, обменивающихся такой информацией. В RDF использованы принципы объектно-ориентированного программирования и моделирования и элементы языков HTML, SGML и XML. Следует заметить, что с одной стороны язык XML описывает в RDF синтаксис метаданных, а RDF, в свою очередь, позволяет описывать семантическую структуру XML-документов и передавать смысл данных, заключенных между XML-тегами. Видимо, именно с помощью метаданных и стандарта RDF постепенно может начаться процесс постепенного превращения Всемирной паутины в упорядоченную систему хранения и модификации разнообразной информации, полностью пригодную для выполнения эффективного поиска и извлечения данных. С другой стороны с помощью метаданных возможно удастся сделать из WWW информационное хранилище, обеспечивающее не только быстрый поиск и удобный доступ к документам, но и эффективное управление огромными объемами данных.
В настоящее время достигнута тесная интеграция различных издательских сетевых технологий: издательская корпоративная интрасеть посредством экстрасети обеспечивает защищенный обмен информацией через региональные сети и глобальную сеть Интернет. Такие связи используются не только для распространения информации об изданиях, издательской рекламы и для решения дистрибьюторских задач, но и для извлечения из сети Интернет информации об изданиях в определенной тематической области и определенных авторов, в частности, работающих с данным издательством. Именно это определяет необходимость соответствия между структурой издательских баз данных и представлением информации в информационных хранилищах, а также в глобальной сети и на поисковых серверах.
Элементы метаинформации позволяют осуществить детерминированный поиск одного или группы изданий. В некоторых случаях наряду с детерминированным поиском требуется обеспечить поиск по другим признакам, в частности, по тематике изданий. Для этого необходимо каждому изданию поставить в жесткое соответствие набор ключевых слов, на основе которого возможна организация почти детерминированного поиска этого изданий. Известно, что в настоящее время основным источником для быстрого получения исчерпывающей информации по самым различным вопросам стала Всемирная сеть Интернет. Именно оттуда следует пытаться с наименьшими затратами, включая рабочее время работников издательства, извлечь нужные данные. Заполнение модулей издательской БД, рассмотренных в главе 7, может производиться вручную, силами специально выделенных сотрудников издательства, но гораздо лучше разработать механизмы для автоматического поиска и извлечения нужной информации из сети Интернет и последующего занесения этой информации в БД.
Как уже говорилось ранее (см. главу 2), функция описания поискового образа документа была возложена на тэг <META>. До этого в качестве поискового образа документа использовался либо весь документ, либо слова первого абзаца. Тэг <META> имеет 2 параметра: NAME, с помощью которого задается имя атрибута и CONTENT, который определяет значение или содержимое этого атрибута. Например:
<META NAME="author" CONTENT="В. А. Вуль">.
<META NAME="description" CONTENT="Учебное пособие АВТОМАТИЗИРОВАННЫЕ ИЗДАТЕЛЬСКИЕ СИСТЕМЫ И ТЕХНОЛОГИИ"> или
<META NAME="description" CONTENT = "документ посвящен проблемам применения тэга 'МЕТА' для описания атрибутов и ключевых слов, используемых в гипертекстовом документе">.
<META NAME="keywords" CONTENT="метаинформация, поиск по ключевым словам, учебное пособие, HTML-документ, атрибутивный поиск>.
Здесь с помощью параметра NAME="description" тэга <META> можно задать как название документа, так и его описание или реферат, который сохраняется в качестве пояснения в ссылке на документ в базе данных поискового сервера и выдается на экран монитора в ответе на запрос к серверу. С помощью параметров тэга <META> можно также задать: имя автора, название издательства, время выхода документа в свет, срок хранения документа в сети, и даже список ключевых слов, используемых в нем.
Наиболее последовательно использование этого тэга в поисковых стратегиях реализовано на поисковом сервере Webcrawler. При индексировании документа поисковым роботом значения параметра CONTENT тэгов <META> после фильтрации попадет в индекс поисковой машины и может быть использовано для составления запросов. Процесс фильтрации отбракует в них стоп-слова. В составе атрибутов будут учтены автор, название и т. п.
Многие роботы, индексирующие документы HTML, пользуются описанием, которые они находят в параметре "description" при выводе информации о найденных документах. Если этой инструкции в документе не окажется, то в результатах поиска будет содержаться описание документов в виде 256 или 512 первых их символов, разумеется, за вычетом команд языка HTML. Возможность контролировать то, какое описание страницы получит пользователь, позволяет повысить шансы на извлечение этой Web-страницы посетителем, интересующимся именно этой темой. Наличие мета-описания позволяет пользователю поисковой машины даже при беглом просмотре списка обнаружить нужные ему страницы.