При составлении описания не нужно указывать в нем название сайта – оно и так будет проиндексировано. С точки зрения индексирования сайта не имеют смысла общие фразы типа: «Здесь есть все», «Вам будет интересно», «Заходи, не пожалеешь!» и т. п. Обратите внимание посетителя именно общее содержание, а он сам разберется, нужна ли ему ваша страница или нет. Стоит ли заманивать читателей, если они сразу же покинут сайт, убедившись, что он не соответствует описанию?
Если в документе нет описания, то в качестве такового поисковые машины приводят несколько начальных строк документа. Поэтому случается, что если в самом начале документа есть фрагмент, написанный на языке JavaScript, то вместо нормального описания выдается «абракадабра» в виде фрагмента скрипта.
Словом, необходимо, чтобы описание имело вид аннотации, состоящей из нескольких ясных предложений, и тогда пользователь поисковой машины сможет легко понять смысл документа.
При подборе ключевых слов для метатэга документа необходимо учитывать различные нюансы. Многие алгоритмы придают больший вес тому термину или фразе, которые расположены ближе к началу перечня. Число повторений ключевых слов не должно превышать определенного количества (как правило, двух-трех), во избежание применения санкций против спама: иначе страница не будет проиндексирована и включена в базу данных поисковой системы. Неплохую помощь могут оказать системы, которые отслеживают запросы, поступающие от пользователей на поисковые машины. Важно найти не просто адекватные содержанию ключевые слова и фразы, а именно те, которые часто применяются пользователями на практике.
Итак, поисковые роботы берут ключевые слова и описание сайта непосредственно из кода страницы и содержимого метатэгов NAME = «keywords» и NAME="description". Однако не все системы придерживаются такой методики. Многие проверяют соответствие ключевых слов основному тексту страницы, а полнотекстовые поисковые машины анализируют все ее содержимое, хотя ключевые слова в ней при поиске являются приоритетными.
Для более широкого охвата потенциальной аудитории ключевые слова и описание сайта, которые вы стремитесь вставить в большинство документов, рекомендуется корректировать в соответствии со смыслом конкретной страницы. Это повысит вероятность попадания на ваш сайт. Общее же его описание пригодится для страниц с «нейтральным» содержанием.
Большинство поисковых машин придает большое значение титулу страницы и метатэгам с ее описанием и ключевыми словами. Однако стоит подумать не только о поисковых системах, но и о тех, кто увидит эти ссылки, – ведь в конечном итоге ссылки будут выведены на экран, а решать, переходить по ним или нет, будет пользователь.
Допустим, вы сделали запрос
program. Появились результаты, в числе которых, например, такие:
Free program, program, free, program free, free program
Free program, program, free, program free, free program, free
program, program, free, program free, free program, free program,
program, free, program free, free program, free program, program,
free, program free, free program
Воспользоваться такими ссылками уже не тянет – возникает предубеждение к сайту и его хитрому создателю. Современные поисковые роботы определяют спам и не индексируют страницу, но машина – это всего лишь машина.
Можно просто вписывать в титул метатэги, ключевые выражения, результат будет тот же: бессмысленные ссылки! Пожалуй, не зря считается, что оформление страниц для поисковых систем – это наука и искусство. Ваша задача – не только правильно подобрать ключевые фразы и слова, но и составить из них логичные предложения для титула и описания, которые и выводятся в результатах поиска. При этом еще надо уложиться в отведенное количество символов.
Подбор ключевых выражений начинает походить на некое таинство, особенно это касается иностранных поисковых систем: некоторые расхожие слова уже «проданы», и вы, как ни бейтесь, на первое место по ним не попадете.
Появилась даже платная услуга по подбору ключевых слов и оформлению документов под них, осуществляемая профессионалами. Если вы полагаете, что вам это не нужно, – готовьтесь постоянно следить за своим рейтингом в поисковых машинах и определять положение ваших ссылок по заданным ключевым словам, ведь поисковики действительно могут обеспечить вам существенный приток посетителей.
Язык документа
В глобальном контексте Internet важно знать, на каком языке создается страница. Определите язык документа, как описано выше, в разделе «Свойство Content-language».
Языковые варианты документа
Если вы подготовили переводы документа на другие языки, используйте тэг LINK для ссылки на эти тексты. Такой подход повысит эффективность поисковых машин и позволит им предлагать результаты поиска на языке, предпочитаемом пользователем, независимо от построения запроса. Например, следующие ссылки предлагают поисковой машине французскую и немецкую версии:
<LINK rel="alternate"
type="text/html"
href="mydoc-fr.html" hreflang="fr"
lang="fr" title="La vie souterraine">
<LINK rel="alternate"
type="text/html"
href="mydoc-de.html" hreflang="de"
lang="de" title="Das Leben im Untergrund">
Указанным тэгом определяется связь. Хотя он может быть представлен неограниченное число раз, его присутствие допускается только в разделе HEAD документа. Несмотря на то, что тэг LINK не имеет содержимого, он является носителем информации об отношениях, которая может представляться агентами пользователей (браузерами) различными способами, например, в виде панели с выпадающим списком ссылок.
Таким же способом с помощью тэга LINK задаются ссылки на версии документа для другого носителя (например, PDF) и, если документ является частью набора, ссылки на соответствующую начальную точку для просмотра набора.
Начало набора
Наборы документов, или представлений систем обработки текстов, часто переводятся в наборы документов HTML. Для поисковых машин полезно указать ссылку на начало набора в дополнение к тому, что страница попала в результаты поиска. Вы можете помочь поисковым системам, применив тэг LINK, имеющий атрибуты REL="begin" и TITLE=, как показано в следующем примере:
<LINK REL="begin"
TYPE="text/html"
HREF="page1.html"
TITLE="Oбщая теория относительности">
Инструкции для роботов – файл robots.txt
Алгоритмы работы многих поисковых машин предусматривают возможности ограничения действий роботов. Это достигается с помощью файла robots.txt и тэга META в документах HTML.
Файл robots.txt объясняет роботу поисковой машины, что надо индексировать, а что не стоит. Зачем, например, индексировать служебные файлы, скажем, статистические отчеты?
Файл содержит набор команд, которые позволяют закрыть от индексирования отдельные каталоги узла. Обычно закрываются каталоги, содержащие скрипты, служебную информацию и т. п. Отчасти это повышает контрастность значимых документов узла в поисковой системе. К тому же поисковые машины нередко вводят ограничение на число ресурсов, регистрируемых для одного сервера. Некоторые – так, например, действовал робот поисковой системы Lycos, – вообще не проводят индексирования, если указанный файл отсутствует.
Итак, если вы поддерживаете работу сервера с доменным именем www.mysite.ru, то содержимое файла robots.txt должно быть доступно по адресу: http://www.mysite.ru/robots.txt, то есть данный файл следует загрузить в корневой каталог вашего сайта. Когда робот просматривает Web-сайт, сначала он проверяет наличие документа http://www.mysite.ru/robots.txt. Если таковой обнаружен, анализируется его содержимое и выясняется, позволено ли загрузить документ. Вы можете настроить файл robots.txt для конкретных роботов и запретить доступ к определенным каталогам или файлам.
На одном сайте может быть только один файл robots.txt. Не следует помещать файлы с данным именем в каталоги, поскольку робот их не найдет. Обратите внимание, что при адресации в Internet учитывается регистр, поэтому название robots.txt должно быть задано в нижнем регистре.
Файл robots.txt – это обычный текстовый документ, содержащий одну или несколько записей, разделенных пустыми строками, как показано в следующем примере:
# robots.txt for http://www.mysite.ru
User-agent: *
Disallow: /cgi-bin/maillist/
Disallow: /tmp/
Disallow: /product1.html
User-agent: aport
User-agent: scooter
Disallow:
Вот пример файла robots.txt, полностью запрещающего доступ к сайту всем роботам:
User-agent: * # Применяется ко всем роботам. Disallow: / # Запретить индексацию всех страниц.
Каждая запись должна начинаться с указания переменной User-agent отдельной строкой. Таких строк может быть и несколько. Значением переменной User-agent задается оригинальное имя программы-робота соответствующей поисковой системы, для которой предназначена информация.
Согласно спецификации на файл robots.txt, текст в нем чувствителен к регистру, так что следует записать именно User-agent, а не User-Agent. Трудно сказать, вызывает ли неверное написание проблемы у роботов поисковых систем, но для надежности лучше соблюсти требования спецификации.
Имя робота может быть похоже на название соответствующей поисковой системы, а может и сильно отличаться от него. Далеко не всегда оно соответствует названию механизма поиска. Поэтому нельзя просто написать AltaVista в Useragent и ожидать, что AltaVista исключит указанные вами страницы. Имя робота указывается без учета регистра и не включает информацию о версии. Можно перечислить несколько имен через пробел. Символ * является маской и означает: «для всех роботов». В этом случае запись описывает режим доступа по умолчанию для любого робота, неупомянутого явно в других записях. В файле robots.txt не может быть нескольких таких записей.