Рис. 3.2. Интерфейс программного пакета PageMaker c раскрытой командой Дополнения меню Сервис
Таким образом, наряду с форматом HTML и PDF (последний, строго говоря, хранит текст в графическом формате), текстовые блоки электронных изданий могут быть представлены в форматах DOC (MS Word), P65 (для Adobe PageMaker 6.5) и многих других.
В том случае, когда электронное издание не содержит мультимедиакомпонентов, то оно может храниться в формате любого текстового редактора или верстального пакета, единственное дополнительное требование к текстовому редактору состоит в том, что он должен поддерживать графические форматы рисунков, если они включены в текст издания.
Для чисто текстовых изданий ограничений еще меньше. Их можно хранить и распространять в любом текстовом формате, используемом в современных персональных компьютерах. В частности, может использоваться формат TXT (в том числе "простой текст" или plain text), гораздо более экономичный, чем формат DOC. Для кодирования любого символа такого текста используется всего один байт. Пример такой кодировки представляет код ASCII (American Standart Code for Information Interchange, Американский стандартный код для обмена информацией). Для языков на основе латиницы и кириллицы такое кодирование вполне удовлетворительно.
Рис. 3.3. Интерфейс и диалоговое окно Вставка объекта редактора MS Word 2002
Однако, для некоторых восточных языков, например, китайского или японского, такой подход неприменим, так как разнообразие символов в этих языках многократно превышает 256 – предельного значения этого параметра в ASCII-стандарте. В последние годы все более прочные позиции приобретает стандарт Unicode или ISO 10646, т. е. стандарт Международной организации по стандартизации (International Organization for Standartization) под номером 10646. В этом стандарте каждый символ кодируется уже 2 байтами, т. е. предельное разнообразие символов достигает значения 65536. Этот стандарт часто называют стандартом многоязыковой поддержки, так как он позволяет кодировать символы государственных языков всех стран нашей планеты.
Однако электронное издание в TXT-формате не удовлетворяет даже самым скромным эстетическим запросам, так как в нем нет возможности использования не только графики, но даже шрифтов различного начертания, заголовков и подзаголовков, примечаний и других элементов, которые в совокупности называют "разметкой текста" (markup). Из языков разметки текста помимо HTML, рассмотренного в предыдущей главе, наибольшее распространение получили:
✓ TROFF, разработанный для оформления документации в рамках операционной системы UNIX и различных ее версий, включая LINUX;
✓ TEX, который широко используется для подготовки изданий с большим количеством математических формул;
✓ SGML (Standart Generic Markup Language – стандартный обобщенный язык описания документов), разработанный для длительного хранения документов большого объема.
Исходная программа форматирования электронных документов в системе UNIX называлась ROFF (от Run OFF – тиражирование). TROFF означает Typesetting ROFF, т. е. форматирование текста для принтеров с высоким разрешением и фотонаборных устройств. Хотя область распространения этого языка и поддерживающих его программ постепенно сужается, в США он продолжает использоваться для создания электронных отчетов, которые могут одинаково успешно выводиться на терминалах с низким разрешением и распечатываться с полиграфическим качеством.
Система верстки и язык TEX был разработан хорошо известным среди программистов и математиков профессором Дональдом Кнутом для подготовки книг и пособий по математическим дисциплинам. TEX работает на различных аппаратных и программных платформах. Его можно отыскать в сети Интернет и бесплатно перенести на свой компьютер. Имеются и коммерческие версии этого продукта, в частности для платформы Macintosh фирмы Apple. Отметим, что помимо математических книг на этом языке издаются различные академические журналы, в том числе и в нашей стране.
Язык SGML реализует принцип логической разметки текста, который позволяет разграничить содержимое издания и его электронное представление. Именно этим принципом руководствовались специалисты фирмы IBM, создавшие этот язык, который с 1986 года получил статус международного стандарта. Кстати, HTML был создан именно на основе SGML. Основное достоинство языка SGML состоит в его универсальности, независимости от программных средств для его интерпретации. Этот формат может быть конвертирован в форматы TROFF или TEX. Язык изначально создан для производственных нужд, связанных с длительным хранением электронных документов большого объема, таких как описания крупных проектов или их документация.
Большинство из перечисленных текстовых форматов можно встретить в многочисленных "Электронных библиотеках", представленных в сети Интернет, о чем подробнее будет сказано в главе 9. Для ускорения загрузки таких изданий с сайта на компьютер пользователя они нередко представлены в архивированном виде, для чего чаще всего используются программы-архиваторы ARJ, ZIP и RAR, работающие под управлением DOS, а так же WINZIP и WINRAR, предназначенные для работы в оболочке Windows.
Специальные языки разметки страниц в будущем будут активно развиваться. Одна из причин этого связана с автоматизацией извлечения информации из подготовленных электронных изданий. Такая операция обязательно производится для облегчения поиска информации, в том числе – в сети Интернет. Для публикаций, в производстве которых использованы принципы логической разметки и языки разметки страниц, многократно повышается эффективность поиска ключевых слов и выражений, адекватно отражающих содержание этих изданий.
3.3. Форматы представления графической информации
Без иллюстраций любое издание выглядит однообразно. Хорошо подобранная и рационально размещенная в издании графика не только улучшает дизайн издания, но и делает его значительно более информативным для читателя, помогают лучше передать его содержание и даже суть. Однако графика требует значительного информационного пространства для своего размещения, с чем связаны основные ограничения ее использования.
3.3.1. Общая характеристика графических форматов
Известны два способа описания компьютерного изображения: точечный (растровый) и векторный (контурный). В первом случае изображение формируется из отдельных точек или пикселов. Векторное изображение состоит из отдельных объектов, ограниченных замкнутыми или незамкнутыми контурами, каждый из которых представляет собой сочетание отдельных отрезков прямых линий (векторов) и кривых линий (дуг окружностей, фрагментов параболических кривых и кубических сплайнов). Каждый такой графический объект можно перемещать, масштабировать, вращать без потери качества изображения и независимо от любых других объектов.
...
Сплайн – это гладкая линия, проходящая через заданные точки.
Векторные файлы содержат математическое описание всех элементов изображения, которое используется программой визуализации для их отображения на экране монитора. Таким образом, сам процесс отображения информации требует определенных вычислительных мощностей для преобразования математического описания объектов в растровый формат монитора. Векторная графика характеризуется рядом положительных черт, к числу которых можно отнести:
1. Экономичность хранения изображений, т. е. сравнительно небольшие размеры графических файлов, хранящих изображение в векторном формате.
2. Легкость трансформации и манипулирования отдельными графическими объектами (и всем изображением в целом).
3. Максимальное использование разрешающей способности выводного устройства, с помощью которого осуществляется визуализация цифрового изображения, так как величина разрешения обычно в графическом файле непосредственно не задана.
4. Простота интеграции с текстом, который состоит из отдельных символов, формируемых преимущественно контурным методов (например, элементы TrueType-шрифтов и шрифтовые объекты в формате PostScript).
Простейшие форматы векторного типа реализованы в электронных таблицах, используемых в пакетах Lotus и Excel. Большинство же векторных форматов разработано для хранения чертежей, созданных программами САПР (Систем автоматизированного проектирования). В издательском деле и полиграфии к наиболее распространенным можно отнести формат и язык PostScript, относящийся к группе языков описания страниц PDL (Page Description Language). Язык широко используется для описания сверстанных страниц и их последующего вывода на печать в фотонаборных автоматах и лазерных принтерах. Ряд векторных форматов используются преимущественно как внутренние в графических программных пакетах, таких как Corel Draw, Adobe Illustrator и пр. Векторный формат используется в так называемых Flash-фильмах, которые все чаще используются вместо анимационных GIF-файлов.