5. Если у вас на компьютере установлена программа TextAnalist, то проанализируйте исходный документ с помощью этой программы и выделите 10 наиболее важных ключевых слов и выражений. Выпишите эти слова.
6. Если у вас установлена программа MTAS (см. разд. 8.3), то с помощью этой программы постройте график частот отдельных слов и выражений, встречающихся в исходном документе. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
7. Если программы MTAS у вас нет, попробуйте вручную построить такой же график, подобный рассмотренному в п. 6. При построении графика однокоренные слова учитывайте как повторяющиеся значения слова. Выпишите те слова и выражения, которые достаточно часто встречаются и отражают, по вашему мнению, тематику документа.
8. Сравните составленные списки. Обязательно выберите повторяющиеся в различных списках слова и выражения в итоговый список ключевых слов. При отборе обязательно учитывайте тематику исходного документа. Ключевые слова должны соответствовать этой тематике.
9. Из выбранных ключевых слов составьте поисковое выражение и используйте это выражение для поиска близких по тематике документов на 3 основных отечественных поисковых серверах: Rambler, Aport и Yandex. Выпишите название и местоположение первых 20 или 30 из числа документов, найденных на каждом из этих серверов. Из этих документов выберите, в первую очередь, те, которые присутствуют в списках на всех серверах, затем – те, которые найдены любыми двумя из них. Остальные внимательно проверьте на соответствие тематике, включая загрузку документа и просмотр его содержания, и отберите из них несомненно пригодные.
10. Проверьте в каждом из отобранных документов наличие всех тех ключевых слов, по которым производился поиск. Попробуйте ранжировать эти отобранные документы. Самые важные – это те, которые содержат все без исключения ключевые слова, по которым производился поиск. Наименее важные – те, в которых содержится самое малое число ключевых слов, использованных при поиске. Перепишите их в таком порядке, чтобы самые важные были вначале, а наименее важные в конце.
11. Прочтите или хотя бы просмотрите все документы и попробуйте самостоятельно их ранжировать по тому, насколько они соответствуют заданной в исходном документе тематике. Сравните результаты ранжирования в этом и предыдущем пунктах.
12. Попробуйте применить более тонкую стратегию ранжирования документов. Для этого попробуйте присвоить ранг каждому из ключевых слов и выражений. Лучше всего для этой цели использовать программу TextAnalist. В ней можно использовать сеть основных понятий, формируемую программой, т. е. составить смысловой портрет документа. Из него можно извлечь основные понятия и устойчивые словосочетания, которые и составят список ключевых слов и выражений. Каждое из них будет характеризоваться смысловым весом, т. е. количественной характеристикой.
13. Теперь можно ранжировать найденные документы, используя не только тот факт, встречается ли в нем ключевое слово или выражение, но и характеризующую его численную величину. Ранжируйте документы с учетом величины смыслового веса ключевых слов и снова расположите найденные документы в порядке убывания их значимости.
14. Сравните новый результат с результатами, полученными в п. п. 10, 11 и 13. Стратегии, указанные в п. п 10 и 13 легко алгоритмизируются и могут выполняться автоматически. Какая из них дает более качественные результаты, т. е. лучше совпадающие с результатами ручного анализа по п. 11.
Глава 9 Распространение электронных изданий
В отличие от предыдущих глав здесь рассматриваются технологии распространения электронных книг, газет и журналов. Основное внимание уделено сетевым технологиям распространения изданий и представительству в сети Интернет издательств, библиотек и электронных книжных магазинов, т. е. тех, кто в той или иной форме обеспечивает распространение электронных публикаций. Рассматриваются также новейшие средства распространения электронных изданий, связанные с использованием технологий E-book. Его можно называть индивидуальной переносной библиотекой.
9.1. Виртуальный мир книги и его особенности
Понятие "виртуальный" в последние годы все шире используется в массовом обиходе. Источник этого следует, вероятно, искать в популярных фильмах, таких как "Газонокосильщик" или "Секретные материалы", в которых герои с помощью компьютера попадают в иной мир, который и носит название виртуальный – и где они активно действуют, сражаются, иногда изменяя течение событий в реальном мире. Термин стал настолько расхожим, что его используют даже в отечественных политических кругах, скажем, в Государственной Думе.
Мы же ставим перед собой значительно более узкую, конкретную задачу, а именно: описать возможность знакомства с различными электронными книгами в тех случаях, когда у нас нет в руках самих этих книг. На рубеже тысячелетий только в нашей стране возможность находиться в виртуальном мире имели около 2 миллионов человек, у которых домашний компьютер снабжен модемом и оплаченным доступом в Интернет. В глобальной сети представлено в виде собственных серверов или сайтов на серверах большое число реальных издательств и множество книжных магазинов. Кроме того, привычным для нашей страны стали виртуальные книжные магазины и прилавки, которые распространяют книги через сеть, не имея никакого торгового объекта в реальном мире, даже простого киоска или стола на книжном развале. Познакомиться с электронными изданиями можно, обратившись в электронную библиотеку. Такие библиотеки могут быть двух видов:
✓ представительства в сети реальных библиотек, обычно крупных, имеющих свой собственный Web-сервер или сайт;
✓ типично виртуальные библиотеки, не имеющие реального представительства, а предоставляющие читателям только электронные книги; такие библиотеки организуются энтузиастами и пополняются не только организаторами, но и читателями.
Таким образом, средствами распространения электронной книги в сети являются виртуальные магазины, которые могут существовать и на сайтах издательств, представительства в сети крупных государственных библиотек, виртуальные библиотеки, т. е. созданные на некоммерческих началах сетевые хранилища электронных изданий. Все перечисленные средства, позволяющие сделать электронную книгу доступной читателю, будут рассмотрены далее. Вначале рассмотрим виртуальные библиотеки.
9.1.1. Некоммерческие электронные библиотеки
Возможность познакомится с электронными версиями книг предоставляется на некоторых серверах и сайтах. Обычно они так и называются "Электронная библиотека". Самая известная из них в Русском Интернете это библиотека Максима Мошкова (http://lib.ru), информационный объем которой близок к 2 гигабайтам. Она была открыта в 1994 г. Читатели ежедневно пополняют ее новыми файлами электронных книг. Здесь есть современная и античная художественная литература, фантастика и политика, техдокументация и юмор, история и поэзия, туризм и спорт, философия и эзотерика. Главное достоинство этой и ей подобных библиотек состоит в том, что посетитель может выбрать любую понравившуюся ему книгу и бесплатно "скачать" ее на свой компьютер. После этого он может читать или изучать ее электронную версию или распечатать книгу и работать или отдыхать с распечаткой без компьютера. Здесь автор может сослаться на собственный пример: именно так он познакомился с творчеством Милорада Павича, в частности с романом "Пейзаж, нарисованный чаем", который размещается в разделе иностранной прозы библиотеки Максима Мошкова (http://lib.ru/INPROZ/PAWICH/tea.txt).
Главная страница этого сервера показана на рис. 9.1. Страница характеризуется большой протяженностью, поэтому на рисунке показан лишь верхний ее фрагмент. Как видно из рисунка, на сервере предусмотрена возможность поиска нужной книги, разнообразные переходы на конкретные виды литературы, включая новинки (то, что недавно переведено в электронную форму и включено в состав библиотеки) и самиздат, т. е. произведения непрофессиональных писателей, представленные пока только в электронном виде. Следует отметить, что сайт имеет множество зеркал, т. е. его копии воспроизводятся на самых различных серверах.
Рис. 9.1. Главная страница сервера http://lib.ru
В качестве примера оформления приведена страница сайта НОВИНКИ (рис. 9.2). И эта страница достаточно протяженная, поэтому на рисунке представлена только ее верхняя часть. Из рисунка следует, что имеется возможность подписаться на новинки и получать их по электронной почте, заполнив соответствующую форму на странице. Кроме того, указав само новое поступление, можно перенести его копию на свой компьютер, чтобы затем прочесть. В частности, так поступил я сам с книгой Рекса Стаута. Среди прочих предусмотрена страничка Записки Web-мастера , которая предназначена для помощи начинающим посетителям сервера (рис. 9.3). Наряду с ответами на часто задаваемые вопросы на странице предусмотрено описание структуры HTML-файлов в виде набора из 17 тем, изучив которые новичок узнает о структуре и элементах этих файлов и приобретет начальные навыки работы с ними. Имеется и специальная страница для фанатов творчества известного английского писателя-фантаста Толкиена, который в некотором смысле создал задолго до Интернета свой собственный виртуальный мир.