В нашей стране еще с советских времен любят и умеют читать между строк, поэтому в качестве курьезного примера применения метода сопоставления фактов можно привести старый анекдот про землетрясение, когда средства массовой информации сообщают, что жертв и разрушений нет. А некоторое время спустя в центральной прессе под заголовком «Очевидное — невероятное» появляется статья о вернувшейся домой собаке, которая пропала во время последнего землетрясения со стадом овец и пятью пастухами.
В 70-80-е годы этот метод был применен для анализа развития американской промышленности, в результате чего на свет появилась весьма интересная книга Дж. Нэсбитта (Naisbitt, J. Megatrends. Ten New Directions Transforming our Lives), описывающая десять главных тенденций в развитии США того времени, которые не были видны простым глазом, но стали совершенно очевидны при обработке исходной фактуры по данной методике.
А теперь в качестве примера давайте рассмотрим следующее сообщение в прессе: «Новый директор Apple Стив Джобе заявил, что компания стала возрождаться и в 1999 год перейдет с прибылью 100 млн. долларов». Из этой фразы можно извлечь только тот несомненный факт, что в 1998 году директором Apple был некто Джобе. Далее по газетным публикациям о Джобсе можно составить описание его жизненного пути, а заодно провести анализ прибыльности возглавляемых им компаний в зависимости от его прихода и ухода.
Поскольку факты, собираемые подобным образом, имеют простую структуру, то по ним достаточно легко построить причинно-следственную цепочку, например «К — продукт компании „А“ 1997 г.», «Д — технический директор компании „А“ с 1996 по 1998 годы», следовательно, можно создать новый факт: «Д руководил выпуском продукта К в компании „А“. Или при наличии факта „Н — сотрудник компании „А“ с 1995 года“ можно автоматически создать факт „Н и Д знакомы“, имеющий определенную степень достоверности, и попробовать продлить цепочку знакомств дальше.
Системный подход (метод мозаики) к обработке прессы можно проиллюстрировать следующим примером. В 30-е годы в Лондоне вышла книга эмигрировавшего в Англию немецкого журналиста Бертольда Якоба. В ней он охарактеризовал 168 генералов и ведущих работников гитлеровского генерального штаба. По личному приказу Гитлера гестапо выкрало журналиста и доставило в Берлин с целью выяснения источников секретной информации Якоба. «Все, что опубликовано в моей книге, — заявил он на допросе, — я почерпнул из газет. Основание для утверждения, что генерал-майор Гаазе командует 17-й дивизией, расположенной в Нюрнберге, я извлек из некролога, помещенного в местной газете. В ней говорилось, что на похоронах присутствовал генерал Гаазе, командующий 17-й дивизией. В ульмской газете среди светских новостей я нашел данные о свадьбе дочери полковника Вирова с неким Штеммерманом. В заметке упоминалось, что Виров командует 30б-м полком 25-й дивизии. Майор Штеммерман был назван офицером службы связи этой дивизии. В газете сообщалось, что он приехал из Штутгарта, где расквартирована его дивизия…». На этом допрос закончился*. {Сергеев Ф.М. Тайное орудие агрессии: Подрывная деятельность США против СССР.-М.: Мысль, 1984.}
Еще один интересный пример можно найти в книге Г.Р. Берндорфа «Шпионаж». Накануне Первой мировой войны военную разведку Германии очень сильно интересовали данные об изменениях в итальянских береговых укреплениях. Для решения этой задачи в июле 1914 года в Милане было открыто бюро объявлений, которое выписывало практически все выходящие в Италии газеты, вплоть до самых мелких деревенских листков. Хозяйкой бюро являлась весьма эффектная дама — Анна Мари Лессер, больше известная под псевдонимом «Мадемуазель Доктор». Не тратя время на сон, она в течение нескольких суток, днем и ночью наносила на крупномасштабную карту Италии сведения из газетных объявлений военных комендатур о наборе персонала на земляные и бетонные работы. Более детально масштабы строительства оценивались по месту проведения работ агентами-маршрутниками.
Сегодня горячей порой сбора различной открытой информации являются предвыборные кампании кандидатов в законодательные и исполнительные органы власти. Интересен анализ публикаций «за» и «против» различных кандидатов, фиксация факта поддержки того или иного кандидата. При квалифицированном сборе и компьютерной обработке информации в ИБД можно выстроить очень интересные схемы, особенно четко это можно отследить в регионах, где вопросам оперативного легендирования уделяют значительно меньше внимания, чем в центре. Так, установление взаимосвязей по предвыборным штабам и партийным спискам позволяет заранее выявить возможный расклад групп «поддержки» того или иного хозяйствующего субъекта в органах законодательной или исполнительной власти. Пример приведен в приложении 2.
Системы полнотекстного поиска
Сегодня рынок предлагает значительный перечень всевозможных поисковых утилит, программ и систем разного уровня. Программное обеспечение этого класса бывает двух типов*. {Градский П. Поисковые системы. // Санкт-Петербургские ведомости //, 26 июня 2002 года; Дериев И. Особенности национального поиска. // Компьютерное Обозрение // №15,17 — 23 апреля 2002. Уваров С. Ищущие да обрящут. http://nrd.pnpi.spb.ru/UseSoft/Journals/IntemetZone/ izone229/pub/izone8.htm www.cronos.ru}
Программные продукты использующие технологию прямого поиска, просто перебирают файлы и выполняют поиск в каждом из них. Недостатком этой технологии являются значительные временные затраты. Аналогичные утилиты традиционно присутствуют во всех операционных системах, файловых менеджерах и инструментальных пакетах.
1. Поисковик AVSearch. Если у вас совсем нет денег, то вам может помочь бесплатная программа Анатолия Вознюка — AVSearch (www.avtlab.ru). Однако этот программный продукт умеет работать только с текстовыми файлами и файлами формата RTF, правда во всех кодировках от СР866 до Unicode, что, в частности, обеспечивает «поддержку» и формата DOC, т.к. документы Microsoft Word исследуются как обычный текст. Программа осуществляет поиск во всех популярных архивах без использования внешних модулей. Ее интерфейс достаточно прост и удобен. В общем программа неплохая, но ее существенным недостатком является медлительность.
2. Поисковик SSScanner с достаточно высокой скоростью работает с документами Word, WordPerfect, PDF, HLP, а также с несколькими десятками языков и кодировок.
Имеется возможность нечеткого поиска (по контексту) с оценкой релевантности и формальный. Результаты отображаются в отдельном окне с выдержками из оригинальных документов. SSScanner стоит около $30, условно-бесплатная версия имеет ряд ограничений.
В настоящее время программы прямого поиска уходят на второй план, их активно вытесняют программные продукты, использующие технологию поиска с индексированием. Программное обеспечение этого типа просматривает и анализирует указанные текстовые файлы, создавая собственную базу данных («индекс»), по которой затем и осуществляется поиск. Индексирование -процесс достаточно длительный, но зато поиск занимает считанные секунды. До недавнего времени основными недостатками данного ПО считались продолжительность операции первичного создания индекса и дополнительный расход дискового пространства. Однако для мощных современных компьютеров это не существенно. Некоторое неудобство по-прежнему связано с необходимостью регулярного обновления индексов, однако и это не проблема.
Начнем свое рассмотрение этого сегмента рынка полнотекстовых поисковиков с западных образцов.
1. Поисковик AdvancedDocumentServerhttp://ads.newmail.ru/1 занимает немного дискового пространства, распространяется бесплатно, имеет массу возможностей: поддержка документов Microsoft Office, PDF, некоторых баз данных; поиск в архивных файлах; встроенный Web-сервер для удаленного доступа. Правда, имеется одно существенное «но»: для работы почти с каждым форматом необходимо «родное» ПО. Для DOC — Microsoft Word, для XLS — Excel, для PDF — полноценный Adobe Acrobat, а также Internet Explorer, архиваторы и пр.
И если многие, кто работает с документами Word, используют само приложение (хотя у Microsoft есть и специальная программа просмотра), то для PDF этот принцип уже не подходит. Помимо этого, применение средств автоматизации OLE в данном случае крайне негативно сказывается на производительности.
2. Программное обеспечение Greenstone предназначено для создания «цифровых библиотек», что подразумевает нечто большее, чем просто поиск с предварительным индексированием по документам DOC, PDF и пр. Этот программный продукт создает каталог документов, конвертирует их в HTML-формат, обеспечивает к библиотеке удаленный доступ посредством броузера. Распространяется бесплатно, с исходными текстами. Правда, работает довольно медленно.