Кстати, нечто подобное можно было наблюдать и на фоне обострения российско-украинских отношений. На запрос «Украина» в новостном агрегаторе вместе с привычными отечественными СМИ на первой-второй страницах поисковой выдачи неизменно появлялись украинские ресурсы с предсказуемым антироссийским содержанием. Притом что ранее информационные источники соседнего государства поисковик игнорировал. «Яндекс», правда, отреагировал на эти претензии: в новостном разделе появилась отдельная графа «Иностранные СМИ», куда теперь и попадают все украинские источники.
«Раздвоение» информационной политики «Яндекса» во время грузинской войны большинство россиян заметить не успели. Во-первых, сам конфликт был скоротечным, во-вторых, в компании быстро приняли меры для устранения проблемы. Однако ситуацию оценили в Кремле. Конфликт удалось замять благодаря вхождению в капитал компании Сбербанка с обширными полномочиями «золотой акции». (Кстати, тогда же было принято решение о разработке альтернативной национальной поисковой системы «Спутник», презентация которой прошла пару недель назад.)
Некоторое время к работе «Яндекса» не возникало никаких вопросов, однако с началом акций уличной оппозиции в декабре 2011 года претензии к поисковику возобновились. Действия были «на грани», так что обвинить компанию в чем-то напрямую сложно. Некоторые аналитики предполагают, что «Яндекс» чрезмерно активно включился в освещение протестного движения. Тогда же случился невообразимый медийный взлет никому не известного сайта телеканала «Дождь», неизменно попадавшего в топы новостной выдачи. Нюансы подготовки оппозиционных мероприятий, заявления лидеров, работа Координационного совета оппозиции — эти темы выносились на главную страницу «Яндекс.Новостей» чрезмерно часто, как будто волновали большинство жителей страны (социологи уверяют, что это вовсе не так), как будто набирали большое количество переходов, а потому имели высокий рейтинг.
1 января 2013 года на первом месте в топ-5 главных новостей дня оказалась акция лимоновцев на Триумфальной площади. А в момент открытия Олимпийских игр — митинг в поддержку «узников Болотной площади». Будем откровенны: вряд ли пользователей действительно интересовал протестный сюжет именно в эти дни.
Ситуация с топ-5 интересна сама по себе. Если в обычной новостной выдаче вы встретите десятки заголовков по одному конкретному запросу и сможете выбрать подходящий, то первая страница вам такого выбора не предоставляет, новостной посыл отображен в нескольких словах. А все понимают, насколько могут различаться оценочные заголовки одного и того же события: от «Евросоюз отказался вводить санкции» до «Евросоюз отложил введение санкций», от «Путин популярен у 70% россиян» до «30% россиян не любят Путина». «Яндекс» уверяет, что название статьи робот выбирает случайно: «Автоматический топ-5 новостей на главной странице является неотъемлемой частью автоматического агрегатора новостей».
Мы перечислили эмпирические претензии к поисковой выдаче «Яндекса», которые во многом можно объяснить субъективным восприятием либо подгонкой задачи под ответ. Позволим себе конкретизировать претензии и вступим в заочную полемику с представителями поисковика.
За спиной каждого программиста контролера не поставишь
Фото: ИТАР-ТАСС
Как обмануть робота
«Яндекс» — частная компания, бизнес которой построен на беспристрастности и роботизированности поисковой выдачи. «Яндекс» не обязан следить за тем, какие ресурсы находит робот и какие политические взгляды эти ресурсы отражают. Это основной аргумент как работников компании, так и сторонников полной независимости поисковиков от государства.
«Яндекс.Новости» ежесекундно имеют дело с сотнями различных интернет-ресурсов. Порядок их выдачи по запросу определяется сочетанием нескольких условий, официально заявленных компанией: «Роботизированный алгоритм для ранжирования новостей включает в себя: принадлежность первоисточнику, оперативность, цитируемость, информативность». То есть недостаточно просто первым выложить какую-то новость, чтобы оказаться на главной странице поисковой выдачи, — твой ресурс должен быть популярным, проверенным, авторитетным, цитируемым. Возникает вопрос: как при достаточно суровых условиях пробиваются (и закрепляются на годы!) мелкие ресурсы, в том числе украинские или грузинские, небольшие пропагандистские сайты с низкой посещаемостью?
В апреле 2014 года журналисты провели мониторинг поисковой выдачи «Яндекса». Были просмотрены только первые 200 ресурсов по количеству переходов на них с анонсов службы, согласно статистике LiveInternet.ru. Оказалось, что у большинства изданий значительную долю посещаемости (часто более 50%, а нередко и 70%) составляют переходы именно из службы «Яндекс.Новостей». В отношении 51 ресурса можно сказать определенно, что в их выходных данных нет информации о регистрации в качестве СМИ. Исследователи делают вывод: «“Яндекс”, обладая монопольным положением на рынке поиска в России, создает иную медийную реальность, формируя новостные сюжеты из сообщений ресурсов, большинство из которых СМИ не являются».
«Яндекс» отвечает: «В выдаче “Яндекс.Новостей” появляются все источники, подключенные к сервису. Надеемся, вы не рекомендуете “давить” маленькие проекты и отдавать предпочтение большим или избранным».
После другого исследования — газеты «Труд» в отношении заголовков «Яндекса» — у сайта этого СМИ, по заявлениям работников, начались проблемы: они исчезли из поисковой выдачи. Их статьи либо совсем не появлялись на релевантные запросы, либо находились в конце списка. Тогда историю удалось замять, но спустя пять лет схожий сценарий изложил владелец медиапортала Pravda.ru Владимир Горшенин : «Проблемы у нашего портала начались давно — мы практически не попадали в поисковую выдачу “Яндекс.Новостей”. Я писал письма в компанию, но ситуация не менялась. Последней каплей стала ситуация с резонансной статьей американского сенатора Джона Маккейна, которую он написал эксклюзивно для нашего сайта в феврале этого года. Оказалось, что поиск “Яндекса” приводил читателя на дубликат этой статьи, перепечатанной какой-то татарской газетой. Мы, как первоисточник, не получили ни одного перехода от поисковика. И после этого прервали всякое сотрудничество с компанией “Яндекс”».
Каким образом популярный сайт не индексируется поисковой машиной? Как уникальное интервью не появляется в первых строках поиска, а дается лишь через ссылку на стороннем ресурсе? Почему многие авторитетные издания никогда не встретишь в списке первых адресатов выдачи?
Некоторые эксперты убеждены, что имеет место вмешательство сотрудников «Яндекса» в работу поисковых роботов. Тем более что для этого есть и техническая возможность, и практическая необходимость.
Любые алгоритмы выдают не более 95% качества работы, говорят специалисты. Остальное просто необходимо корректировать вручную. Это касается и борьбы со спамом, с нецензурными заголовками (вариации «русского матерного» безграничны и роботу неподвластны), с коммерческими манипуляциями, когда одну и ту же новость переписывают, чтобы снова и снова попадать в поисковую выдачу и зарабатывать рекламные деньги. То есть условно в 5% случаев поисковик просто обязан использовать ручной труд для корректировки поисковой выдачи.
Однако в компании уверяют: «Поскольку “Яндекс.Новости” работают полностью автоматически, с нецензурными заголовками, спамом и накрутками борются не редакторы, а алгоритмы ранжирования, которые мы постоянно улучшаем».
Тем не менее ряд специалистов считает, что работники поисковика обладают возможностью не только удалять проштрафившиеся ресурсы, но и определять частоту их ранжирования и место в поисковой выдаче. Этот механизм нам описали несколько не связанных друг с другом людей — бывшие работники «Яндекса», редакторы новостных порталов, айтишники.
После того как роботизированный алгоритм поиска проверяет сайт на соответствие заявленным условиям («принадлежность первоисточнику, оперативность, цитируемость, информативность»), ресурсу автоматически присваивается рейтинговый балл в диапазоне от плюс пяти до минус пяти. Этот показатель и определяет частоту, порядок и место в списке поисковой выдачи «Яндекса». Все абсолютно роботизировано. Однако существует техническая возможность вручную присвоить определенному сайту более высокий или более низкий рейтинг. Таким образом, получив рейтинг «минус пять», Pravda.ru исчезает из новостной выдачи. То есть напрямую попасть на сайт можно, но в «Яндексе» ссылок на него не обнаружишь. Таким же образом определенные издания могут получать преференции и подниматься в топ по новостным запросам. Доказать вмешательство человека очень сложно, кроме того, работники компании этим грешат нечасто. Зачем — поговорим ниже.