Например, при построении статистических моделей можно угодить в стандартную ловушку ввиду того, что многие модели устанавливают меру доверия к своим оценкам значений параметров. Общепринятый стандарт требует по крайней мере 99 %-ного уровня доверия к тому, что эффект действительно существует, а не является чисто случайным совпадением. Когда тестируется всего несколько факторов, шансы на успех невелики и, вполне вероятно, что некая абсолютная фальшивка будет признана статистически значимой. Но подумайте о петабайтах сенсорных данных, генерируемых современным самолетом. Возможно, появятся тысячи или даже десятки тысяч метрик, способных коррелировать с такими событиями, как перегрев двигателя. Если при исследовании 20 000 факторов устанавливается уровень доверия в 99 %, то можно ожидать, что 200 совершенно ложных факторов будут признаны статистически значимыми.
Необходимо решить, какие метрики должны быть включены в анализ, чтобы оставить из них только разумные. Но даже после такой фильтрации может остаться множество метрик, которые будут приводить к выявлению ложных эффектов. После построения модели требуется осуществить дополнительный анализ для проверки реальности обнаруженных эффектов. Оценке должен подвергаться весь процесс.
Не спешите выносить приговор
Отличный пример, хорошо иллюстрирующий затронутые в этом разделе темы, связан с компанией Boeing и ее самолетом модели 787. В 2012 г. компания попала в новости из-за проблем с аккумуляторами на 787{67}. Это дорого обошлось ей и в финансовом плане, и с точки зрения ущерба репутации. Во время моего выступления на одной из конференций меня спросили, не считаю ли я, что Boeing облажалась, не сумев исправить проблему с аккумуляторами до выпуска самолета на рынок. Задавший этот вопрос человек считал, что, получив в ходе тестирования все сенсорные данные, компания должна была обнаружить дефект. Я ответил, что не совсем справедливо рассматривать ситуацию под таким углом, поскольку не все так просто. Я предпочитаю считать людей или компании невиновными до тех пор, пока их вина не доказана. Задним числом может казаться, что выявить проблему с аккумуляторами было несложно, но давайте рассмотрим несколько соображений, которые противоречат такой точке зрения.
Во-первых, вполне возможно, что Boeing не собирала таких данных, которые позволили бы выявить конкретную проблему с аккумуляторами. Во-вторых, даже если компания собирала нужные данные во время тестирования, то скорее всего и проанализировала их, но не обнаружила вызывающих тревогу шаблонов. Возможно, проблема возникла только тогда, когда самолет начал эксплуатироваться в реальных условиях. Более того, даже если данные содержали информацию, позволяющую выявить проблему, это вовсе не означает, что компания облажалась. Позвольте мне объяснить, в чем дело.
Не становитесь жертвой суждений задним числомКогда нужно проанализировать столь много данных по самым разным направлениям, следует, применив здравый смысл, воспользоваться возможностями, способными оказать самое сильное воздействие. Задокументируйте принятие решения с указанием, на чем были сосредоточены усилия, чтобы впоследствии защитить свои действия от суждений задним числом. Найти иголку в стоге сена почти невозможно. Но, когда она обнаружена, ее почти невозможно упустить.
С учетом тех объемов данных, которые генерируются мириадами датчиков на Boeing 787, невозможно исследовать каждую деталь, способную сломаться. На это попросту не хватит времени с точки зрения как рабочей силы, так и вычислительных мощностей. Инженерам и специалистам-аналитикам компании пришлось, исходя из предположений, выбирать, где сосредоточить свои усилия. Безусловно, они изучили области высокого риска. В самолете имеются компоненты, чей отказ может привести к катастрофе, такие как двигатель и шасси. Я уверен, что компания приложила много сил для анализа в этих областях. В то же время не столь страшно, если во время полета перестанет работать кнопка вызова стюардов. Эту поломку легко устранить, и она не несет никакого реального риска для экипажа или пассажиров. Проблема с аккумуляторами находится где-то посередине между этими двумя крайностями. Вполне возможно, что аккумуляторы не были сочтены источником высокого риска, чтобы уделить им пристальное внимание, притом с учетом ограниченности ресурсов и прошлого опыта.
Разумеется, возможно, что Boeing анализировала данные с аккумуляторов, и эти данные позволяли выявить проблему, но компания ее проглядела. Возможно, что Boeing действительно облажалась. Но без дополнительных фактов мы не можем знать об этом наверняка.
Отсюда вытекает урок: по мере того как организация собирает все больше данных и создает все больше аналитических процессов, специалисты-аналитики должны документировать свои процессы принятия решений. Это означает документировать не только то, что анализируется, но и то, что не анализируется и почему не анализируется. Найти иголку в стоге сена будет невозможно, пока кто-нибудь не укажет вам на нее. Но, когда вы узнаете, где находится иголка, то четко ее разглядите. Подобным же образом, когда возникла проблема с аккумуляторами в самолете, было естественным вообразить, что ее следовало выявить заранее. Документирование выбора места для сосредоточения аналитических усилий позволяет смягчить подобную критику задним числом. Проблемы часто не бывают очевидными до тех пор… пока вдруг не станут очевидными просто потому, что они возникли.
Сравнение аналитических подходов
Есть несколько различных способов создания аналитических процессов. Хотя на первый взгляд эти подходы могут казаться похожими, между ними существуют различия, которые важно осознать. Некоторые аналитические подходы часто понимаются неправильно и считаются намного менее логичными и высококлассными, чем они есть на самом деле. В этом разделе мы рассмотрим несколько основных подходов, призванных стать частью действий любой организации по внедрению операционной аналитики.
Обнаружение данных и подтверждающий анализ
В прошлом бо́льшая часть аналитики представляла собой то, что можно назвать «подтверждающим анализом». Он начинается с формулировки конкретной гипотезы или постановки конкретной цели. Далее выполняется анализ, чтобы подтвердить (или нет) гипотезу либо проложить путь к цели. Другими словами, анализ начинается с очень четкого определения направления и поля деятельности. Например, меня могли бы попросить ответить на вопрос, в какой степени информация о продуктах, просмотренных клиентом в сетевом журнале, повышает продвижение моделей, используемых для прогнозирования вероятности покупки. Когда поле деятельности было четко определено, я мог с самого начала уверенно оценить свои трудозатраты и назвать критерии, по которым будет оцениваться успешность моих действий. Это облегчало мою работу в рамках типичных корпоративных процессов обоснования проектов.
Мир больших данных все чаще ориентируется на то, что можно назвать исследовательской аналитикой. Такой анализ начинается не столько с постановки конкретной гипотезы или цели, сколько с попытки найти в данных ценность, которая может оказаться полезной при постановке более широких целей или набора гипотез. Наличие у специалистов-аналитиков лишь немногих заранее сложившихся идей вовсе не означает, что они изначально не имеют представления о том, что хотят узнать в ходе анализа. Это просто означает, что задачи изначально являются менее формализованными, не очень четко определенными и жестко поставленными.
Например, меня могут попросить проверить, можно ли использовать новый источник данных с целью повысить эффективность моделей, применяемых для прогнозирования вероятности покупки. Я волен сам выбирать лучшие метрики, лучшие способы тестирования этих метрик в рамках аналитического процесса и лучшие методики, которые следует использовать. Могу начать с целого ряда идей, но заранее не знаю наверняка, какие из них сработают, и не могу оценить свои трудозатраты и определить критерии успеха, пока не выполню анализ. В силу этих обстоятельств сотрудники поначалу могут испытывать дискомфорт. Между тем исследовательский анализ существует уже достаточно долгое время и всегда играл важную роль для крупных организаций. Сегодня этот тип анализа начинает приобретать все большую актуальность, поэтому на него начинает выделяться больше ресурсов, чем в прошлом. Исследовательский анализ также можно назвать пробным анализом.
Исследование данных не является случайным или бесцельным процессомИногда к исследовательскому анализу относятся скептически, считая, что специалисты-аналитики просто играют с данными в попытке найти нечто стоящее. Это не так. Просто исследование данных начинается с постановки более широкой цели и специалистам предоставляется больше времени для достижения этой цели.