Избыток информации
На БАКе банчи протонов сталкиваются 20 миллионов раз в секунду. При каждом пересечении встречных пучков происходят десятки столкновений, так что возникает около миллиарда столкновений в секунду. Каждое столкновение – настоящий фейерверк из множества, до сотни и даже больше, частиц, выстреливающих в детектор. И тонко откалиброванные приборы внутри детекторов собирают точную информацию о том, что каждая из этих частиц делает.
Это очень большой объем информации. Запись единичного события столкновения на БАКе требует примерно одного мегабайта памяти. (А если оценить объем необработанных данных, то получится более 20 мегабайт, но умный алгоритм сжатия превращает их в один мегабайт.) Это объем большой книги, или объем оперативной памяти в операционной системе космического шаттла. Жесткий диск достаточно мощного современного домашнего компьютера может хранить терабайт данных, или миллион мегабайт. Сравните – объем всех книг Библиотеки Конгресса США составляет около 20 терабайт. Можно хранить информацию о миллионе событий, происшедших на БАКе, на одном таком обычном жестком диске. Это, конечно, звучит здорово, пока не вспомнишь, что в секунду происходит сотни миллионов таких событий, и нужно заполнять этой информацией тысячу жестких дисков в секунду. Не слишком удобно, даже если учесть, что ЦЕРН может позволить себе купить лучшие жесткие диски, чем те, что в обычном ноутбуке.
Если не считать БАКа, крупнейшая в мире база данных – по климату – имеется у Международного дата-центра в Германии. Она содержит около 6 петабайт данных или 6000 терабайт. Если записывать все данные, полученные на БАКе, объем этой базы данных был бы превышен за пару секунд. Итак, добро пожаловать в мир Больших Объемов Данных.
Очевидно, что хранение данных, получаемых на БАКе, (а также их передача и анализ) – невероятно серьезная проблема, которую надо решать, используя различные методы. Самый важный из них – одновременно и самый основной – не записывать все данные. Это стоит подчеркнуть: подавляющее большинство данных, собранных БАКом, мгновенно выбрасывается. У ученых нет выбора, поскольку просто нет возможности все это записать.
Вы можете подумать, что экономически эффективее было бы просто уменьшить количество получаемых данных, например, за счет снижения светимости БАКа. Но для физики элементарных частиц этот способ неприемлем – каждое столкновение важно, даже если мы не записали эти данные на диск. Причина в том, что квантовая механика – единственная теория, адекватно описывающая взаимодействия, в которых создаются эти частицы – предсказывает только вероятности определенных результатов. Когда мы сталкиваем два протона друг с другом, мы не знаем заранее, что произойдет в результате этого столкновения, и не можем выбрать интересующий нас сценарий, мы просто принимаем то, что выдаст нам природа. При этом большая часть того, что она выдает, нам не интересна, по крайней мере в том смысле, что это мы уже понимаем. Чтобы получить небольшое количество интересных событий, мы должны создать огромное количество всяких событий и оперативно отобрать из них самородки.
В этой связи, естественно, возникает еще одна проблема: как выяснить, является ли событие «интересным», и сделать это очень быстро, так, чтобы успеть решить, стоит ли его оставить или выбросить. Это работа триггера – одного из самых важных элементов детектора БАКа.
Триггер представляет собой сочетание аппаратных и программных решений. Триггер первого уровня выводит все данные со всех элементов детектора в электронный буфер и выполняет сверхбыстрое сканирование (примерно за микросекунду), чтобы решить, произошло ли что-то потенциально интересное в данном событии. Около десяти тысяч случаев из миллиарда получают добро на то, чтобы двигаться дальше. Триггер второго уровня во многом похож на врача скорой помощи, который проводит предварительную быструю диагностику, после чего отправляет пациента сдавать определенные анализы. Этот триггер представляет собой сложную программу, более точно исследующую характеристики события, чтобы можно было сосредоточиться на тех событиях, которые ею отмечены как требующие внимательного анализа. В конечном итоге остаются только несколько сотен из миллиона событий, ежесекундно происходящих на БАКе, но это наиболее интересные события.
Как вы можете догадаться, над вопросом о том, какие события нужно сохранить, а какие отбросить, ученые напряженно думают, и вокруг этого происходит много яростных споров. Естественно, все беспокоятся, не выбрасываются ли какие-то интересные события вместе с якобы бесполезными. Поэтому по мере улучшения экспериментальной техники и рождения новых теоретических идей физики в коллаборациях CMS и ATLAS постоянно совершенствуют свои триггеры.
Даже после пропускания полученных данных через триггер все еще остается сто событий в секунду, каждое из которых занимает примерно мегабайт. Теперь это событие мы должны проанализировать. И под местоимением «мы» я подразумеваю тысячи членов коллабораций ATLAS и CMS (в которые я на самом деле не вхожу), работающих в разных учреждениях по всему миру. Физикам, анализирующим данные, нужно иметь доступ к ним, и тут встает проблема передачи информации. К счастью, она, эта проблема, возникла уже много лет назад, и физики и программисты упорно потрудились над тем, чтобы построить всемирную компьютерную сеть БАКа – GRID (ГРИД), которая соединяет вычислительные центры в 35 разных странах и использует комбинацию открытого Интернета и частных оптических кабелей. В 2003 году был установлен рекорд скорости передачи данных: больше терабайта информации удалось передать из ЦЕРНа в Калтех (США), то есть на расстояние более 8000 километров, за 30 минут. Это равносильно тому, что вы загрузите полнометражный художественный фильм за семь секунд.
Такая сумасшедшая скорость действительно необходима: в 2010 году четыре основных детектора на БАКе получили более 13 петабайт данных. ГРИД-система берет все эти данные и распределяет их между различными вычислительными центрами по всему миру. Она разделена на несколько уровней. Сам ЦЕРН является Уровнем 0. Есть одиннадцать центров Уровня 1, которые играют важную роль в просеивании и классификации данных, а также 140 центров Уровня 2, на которых выполняются конкретные задачи анализа. Таким образом, каждому физику в мире, желающему проанализировать данные с БАКа, совсем не нужно подключаться непосредственно к ЦЕРНу, рискуя обрушить Интернет навсегда.
Как известно, голь на выдумки хитра. Нас не должно удивлять, что уникальные проблемы хранения и передачи данных, поставленные физикой элементарных частиц, привели к не менее уникальным решениям. Одно из таких решений, найденное много лет назад, изменило стиль всей нашей жизни. Это – Всемирная паутина (World Wide Web), возникшая сначала в виде глобального гипертекстового проекта Тима Бернерса-Ли. Бернерс-Ли сформулировал свою идею в 1989 году. В то время он работал в ЦЕРНе, а сегодня Бернерс-Ли – директор консорциума World Wide Web. Итак, он подумал, что для физиков ЦЕРНа было бы полезно организовать доступ к различным видам информации, хранящейся на компьютерах, разбросанных по всему миру, и сделать это, используя систему гипертекстовых документов, связанных между собой с помощью гиперссылок. Таким образом, WWW – это система взаимосвязанных файлов, построенная на основе сети, позволяющей совместное использование данных. Сегодня мы называем ее Интернетом. Всемирная паутина, такая, какой мы ее знаем, и влияние, которое она оказывает на нашу жизнь, – несомненно, побочный продукт развития фундаментальных исследований в области физики элементарных частиц. Так что поблагодарим ЦЕРН за Интернет.
Фабиола Джанотти, итальянский физик, нынешний руководитель коллаборации ATLAS, сказала мне, что при первом включении БАКа самым приятным сюрпризом для нее стала даже не демонстрация работы ее детектора, хотя это было довольно впечатляюще, а то, что система передачи данных с самого начала функционировала безупречно. Правда, этот процесс не всегда шел уж совсем без сбоев. В сентябре 2008 года, вскоре после того, как первые частицы полетели по БАКу, компьютерная система детектора CMS была взломана группой, называвшей себя «Греческая команда безопасности». К счастью, хакеры не нанесли никакого реального ущерба. Они утверждали, что на самом деле действуют в интересах общества, а потому заменили страницу сайта детектора страничкой с издевательской надписью на греческом: «Мы снимаем с вас штаны сейчас, потому что не хотим видеть, как вы будете бегать голыми и пытаться спрятаться позже, когда начнется паника». Порядок был быстро восстановлен, инцидент не привел к задержке эксперимента, хотя, возможно, именно он заставил внимательно пересмотреть подход к системе интернет-безопасности во всем ЦЕРНе.