Многие специалисты по информатике считают, что в первую очередь надо создавать не всеобщие ИЯ, а специализированные, нацеленные на какую-то одну область знания. Таков, например, язык «Коран», предназначенный для поиска сведений, содержащихся в священной книге мусульман. Словарь ИЯ «Коран» содержит около пятисот терминов, набитых на перфокарты с указанием, в каком месте священной книги встретилось то или иное слово. Любой отрывок из писания мусульман может быть закодирован на языке «Коран» в виде условных символов и ключевых слов: так, d1 обозначает Аллаха, d4— ангелов, d5,— демонов, d6 — джиннов и т. д.
Специальные ИЯ создаются также для записи неязыковой информации. Например, для поиска картографических материалов, различных объектов, интересных для археологов (ваз, монет, мозаики, орнамента, оружия), для классификации товарных знаков по изображению, цвету, геометрической форме.
Тезаурус — это сокровище!
Мы начали наш рассказ с Раймонда Луллия, жившего в эпоху, весьма далекую от эры ЭВМ, однако предвосхитившего идею механического «усилителя разума». В том же XIII веке была выпущена книга, давшая название теме, которая является самой актуальной в создании информационных языков (а те, в свою очередь, — ключ к решению основной задачи информатики). Речь идет о создании так называемых тезаурусов.
Термин этот происходит от греческого слова, имеющего значение: сокровище, богатство, клад, запас. От греков это слово попало и в латынь, где стало обозначать сокровищницу, кладовую, склад. Флорентиец Брунетто Латини, живший в XIII веке, назвал «Книгой о сокровище» свою систематизированную энциклопедию знаний той эпохи. В XVI столетии отец и сын Этьенны выпустили толковый словарь языка древних греков, озаглавленный «Сокровищница греческого языка». Этот труд не утратил своего значения и поныне.
А вслед за тем выходят тезаурусы-словари, которые являются своего рода «перевернутыми» толковыми словарями. В толковых словарях вроде знаменитого словаря Даля слова расположены в алфавитном порядке. Значения их раскрываются примерами, взятыми из обыденной речи, из художественной литературы, из народных говоров. В тезаурусах слова и выражения систематизированы не по написанию или произношению, а по их значению. Недаром же тезаурусы называют еще идеологическими словарями.
В 1808 году был выпущен тезаурус санскрита. Все слова в нем объединялись в классы: Небеса, Погода, Время, Добродетели, Пороки, Ад и т. д. А те, в свою очередь, делились на подклассы (например, Ад подразделялся на Ад как таковой, Души умерших, Страдание, Боль).
«Нельзя ли подобным образом рассортировать по смыслам слова не мертвого санскрита или древнегреческого, а живого английского языка?» — такой мыслью задался П. М. Роджет. Ведь подобный словарь принес бы большую пользу в смысла «облегчения выражения понятий», а также «при написании сочинений».,
Роджет выпустил свой «Тезаурус английских слов и фраз» в 1852 году. С той поры его словарь выдержал около сотни изданий. Тезаурус Роджета делит значения всех слов, входящих в него, на шесть основных категорий: абстрактные отношения, пространство, материя, разум, воля, чувственные и моральные силы. Категории эти подразделяются на двадцать четыре подкласса, те — на восемьдесят шесть подподклассов и т. д. Всего тезаурус включает тысячу различных категорий, по которым и разносятся значения слов. Если слово имеет несколько значений, то оно попадает в несколько рубрик. Например, слово кпо! входит в группу 45 (связь), а также 59 (запутанность), 72 (группа), 219 (пересечение), 249 (округлять), 321 (плотность), 704 (трудность) и т. д.
Словарь Роджета при многочисленных своих переизданиях не раз и перерабатывался. Но общая схема его не менялась, добавлялись лишь новые слова и понятия. Между тем этой схемой невозможно охватить необыкновенно расширившуюся в нашем веке сферу науки и техники (напомним, что Роджет жил более ста лет назад). Вот почему, составляя современные тезаурусы, ученые стремятся избежать ограниченности словаря Роджета.
Наиболее полным словарем такого типа считается идеологический словарь немецкого языка, составленный Францем Дорнзайфом. В нем уже не шесть, как у Роджета, а двадцать основных категорий, каждая из которых делится на несколько десятков подклассов. Подклассов может быть от десяти до девяноста, но зато они являются последней рубрикой. В словаре Дорнзайфа нет подподклассов, излишне усложнявших тезаурус Роджета. (Так, первый класс Роджета абстрактные отношения делился на 1.1. Бытие. 1.1.1. Абстрактное. 1.1.1.1. Бытие. 1.1.1.2. Небытие. 1.1.2. Конкретное. 1.1.2.1. Вещественность. 1.1.2.2. Невещественность и т. д. Нетрудно запутаться во всех этих рядах единичек, точек и двоек.)
Сразу после заглавного слова, опять-таки в отличие от тезауруса Роджета, даются ссылки на другие классы и подклассы, что очень удобно для работы со словарем. Вот как выглядит самая краткая из словарных статей класса под номером тринадцать (Знак, Сообщение, Язык): 13.17. Значение, (см. 9.44. Значимость. 12.31. Понимать. 13.44. Объяснение. 13.53. Перевод. 14.12. Указатель слов). Это значит. Значит, Хочу сказать. Именно. Итак. В этом смысле. Собственно. Буквально. Выражать. Значить. Свидетельствовать. Означать. Обозначить. Иметь целью. Намекать. Извещать. Показывать. Иметь в виду. Относиться к. Служить для. Покрывать. Семантически. Семасиологически. Выражение. Значение. Содержание. Дух. Понимание. Значение слова. Смысл слова. «Синоним». Наука о значении. Семантика. Семасиология.
В словаре Дорнзайфа приведена классификация царства животных и растений, что создана современной наукой, дана систематика минералов, разработанная геологией, и систематика болезней, принятая медициной. При переиздании этот тезаурус пополняется новой лексикой (так, в последнее издание введены слова спутник, водородная бомба и т. д.). И все-таки как бы ни был полон словарь Дорнзайфа, он не в состоянии охватить всей поистине необозримой терминологии, что существует в современной науке и технике. Да и отношения между смыслами слов слишком общи для того, чтобы можно было вести направленный поиск информации по ним. Вот почему с начала шестидесятых годов в различных странах мира создаются специальные тезаурусы, цель которых — охватить терминологию той или иной области науки и техники. И не просто охватить, но и служить путеводителем в поисках научно-технической информации.
В наши дни созданы десятки тезаурусов в самых различных сферах. Есть тезаурус Евроатома, тезаурус терминов по целлюлозе и бумаге, химико-технологический тезаурус, тезаурус по металлургии и т. д. Принципы их построения совпадают с принципами классических тезаурусов-словарей. Они, как говорят специалисты по информатике, предназначены как для нахождения разных способов выражения одной и той же мысли, так и для оптимизации решения информационно-поисковых задач. Только, в отличие от словарей Роджета и Дорнзайфа, специализированные тезаурусы стремятся не к всеобщему охвату значений, а к детальному и углубленному охвату терминологии той или иной области науки и техники.
Как наполняют сокровищницу?
Как составляются тезаурусы?
Роджет ничего не знал и, разумеется, не мог знать, каких результатов достигнут науки, занимающиеся проблемой смысла, но он интуитивно понял основные принципы составления тезаурусов: сначала собираются слова из текстов или различных словарей. Затем слова эти выстраиваются по алфавиту, а после из них образуются определение группы, связанные по смыслу.
Какой может быть эта смысловая связь? Во-первых, одно и то же значение можно выразить с помощью разных слов или оборотов. Вполне понятно, что все синонимы будут объединены. Во-вторых, смыслы слов могут быть полностью противоположны (как антонимы типа холодный — горячий, мертвый — живой и т. п.) В-третьих, смысл одного слова может включать в себя смысл другого, или даже многих слов, например значение слова человек включает в себя наименования сотен различных национальностей нашей планеты. Смысловые связи между словами могут строиться по типу причина — следствие или часть — целое. Наконец значения слов между собой связаны самыми различными ассоциациями. Причем именно проблема ассоциаций является наиболее трудно разрешимой задачей при построении того или иного тезауруса.
Специалистам в данной области науки нетрудно выделить термины, которыми эта наука пользуется. Сложнее построить иерархию из слов-терминов по смыслу. Однако и эта задача разрешима логическим путем. Можно разграничить смысл слов и словосочетаний, которые образуют новые значения. Например, термины скорость бурения и бурение скоростное — это не синонимы, они имеют совершенно разные значения, так же как дюнный песок и песчаная дюна. Но специалисты по информатике с успехом ликвидируют подобного рода случаи (в первом случае бурение является аспектом, а во втором — атрибутом; в сочетании песчаная дюна песок — вещественная составляющая, а в сочетании дюнный песок — причина образования дюны).