Определение больших данных? Не нужно!
Один из первых вопросов, который мне часто задают клиенты: «Что такое большие данные, Билл? Вы можете дать им определение?» По-видимому, оно очень заботит людей{9}. Чтобы убедиться в этом воочию, посетите некоторые группы на LinkedIn, посвященные большим данным. В каждой группе вы столкнетесь с вопросом определения больших данных, который задается в той или иной форме на протяжении последних нескольких лет. На одном из форумов, где я был вовлечен в дискуссию, размещались не то что десятки, а сотни ответов на вопрос: «Каково определение больших данных?» И это на форуме, где любой пост собирал в лучшем случае пару откликов. По мере развертывания дискуссии ее участники пытались превзойти друг друга, добавляя всё новые нюансы, подходящие или не подходящие к определению. Мне это занятие показалось глупым и заумным.
Люди чересчур озабочены определением больших данных. Лично я всегда предпочитал самое короткое из всех существующих определений. Пусть оно противоречит остальным, зато состоит всего из двух слов: «Не нужно!» Поначалу такой ответ может показаться вам экстремальным. С чего я это взял? Позвольте объясниться.
Если главная задача организации – решить некую бизнес-проблему путем внедрения операционной аналитики, ее не должно волновать определение больших данных. И вот почему. Схема действий, которой должна следовать организация и которой она, вероятно, следовала много лет в прошлом, очень проста. Если у вас есть проблема, требующая решения, вы должны посмотреть вокруг и задать себе вопрос: «Какие данные, если их собрать, организовать и использовать для аналитического процесса, помогут нам решить эту проблему?» Когда вы определите, что это за данные, вы должны придумать, как их собрать, организовать и включить в аналитику. Но тут возникает ключевой момент. Вопрос «Полезны ли эти данные для моего бизнеса?» не имеет абсолютно никакого отношения к определению больших данных. Полезными для бизнеса могут оказаться большие данные, малые данные или же ряд электронных таблиц.
Если же организация придет к пониманию, что ей необходимо использовать нечто похожее на большие данные, то беспокоиться насчет определения будет уже поздно: нужны будут данные как таковые. Они могут быть не очень хорошо структурированными и в переизбытке. Они могут просто соответствовать знаменитой концепции «трех V»: Volume, Variety, Velocity (объем, многообразие, скорость), выведенной исследовательской компанией Gartner{10}. Однако знание того, что нужные вам данные соответствуют концепции «трех V», бесполезно, поскольку в момент, когда данные вам понадобятся, не останется иного выбора, кроме как придумать способ их использования, – и совершенно не важно, являются ли они большими данными. Я всегда считал, что в концепции не хватает самой важной V, которая часто упускается из виду, а именно Value, т. е. ценности больших данных{11}. Можно добавить и прочие характеристики, если веришь, что в данных есть ценность, и считаешь, что усилия по их сбору и анализу того стоят.
Важно не определение, а результатДаже если бы существовало общепринятое и единственное определение больших данных, это ничем бы не способствовало решению проблем бизнеса. Попытка дать определение большим данным – занятное теоретическое упражнение, но если вы узнáете, что конкретный источник данных официально относится (или нет) к категории больших данных, то в этом не будет никакого проку. Когда потребуется проанализировать источник данных, вам придется найти для этого способ вне зависимости от того, какой ярлык вы к нему прикрепите.
Поймите мои слова правильно. Если организация имеет дело с данными, подпадающими под типичные определения больших данных, это, безусловно, будет влиять на выбор тех методов и инструментов, которые она должна использовать для включения больших данных в аналитические процессы. Однако выбор методов и инструментов относится уже к области тактики, и в этом важное отличие. В первую очередь нужно ответить на стратегический вопрос: «Содержат ли эти данные важную для нас информацию?» Только получив на него положительный ответ, организация может приступить к запуску данных в работу.
Не тратьте силы на попытки понять, относятся ли нужные вам данные к категории больших данных или нет. Лучше сосредоточьтесь на включении выявленных вами значимых источников данных в аналитические процессы организации.
Начните с правильного подхода
Как следует из вышесказанного, важно начать с правильного подхода. Нет смысла собирать данные и хранить их в надежде на то, что однажды им будет найдено полезное применение. Как показано на рис. 2.1, организация должна для начала определить бизнес-проблему, а затем подобрать для нее необходимые данные. Сделайте усилие и примите на себя расходы по приобретению и использованию источника данных, когда это станет необходимо. В мире больших данных очень легко удариться в собирательство всех данных подряд с прицелом на то, что когда-нибудь они пригодятся. В результате организация может настолько увлечься сбором данных, что никогда ими и не воспользуется.
Хотя и кажется очевидным, что нужно начинать с бизнес-проблемы, а не со сбора данных, я знаю множество случаев, когда очень умные и расчетливые в иных отношениях организации полностью забывают про этот принцип, когда дело доходит до больших данных. Поначалу меня очень удивляла подобная склонность, но потом я понял что к чему. К началу 2014 г., когда я пишу эту книгу, вокруг больших данных поднялось столько шумихи, что никто не хочет остаться от них в стороне. Каждый совет директоров спрашивает у своего генерального директора: «А вы используете большие данные?» В свою очередь, каждый генеральный директор спрашивает у своих директоров по информационным технологиям, маркетингу и финансам: «А вы используете большие данные?» И каждый из этих директоров спрашивает у членов своей команды: «А вы используете большие данные?»
Не поддавайтесь давлению!Не поддавайтесь давлению и не используйте большие данные только ради того, чтобы показать, что вы их используете! Ваша задача – создать системы и наладить сбор данных для поддержки только обоснованных возможностей бизнеса. Многие сильные организации поддались всеобщей лихорадке вокруг больших данных, что грозит обернуться для них весьма поучительными и дорогостоящими уроками.
Никто не хочет отвечать на этот вопрос так: «Еще нет» или так: «Мы планируем их использовать, но сначала хотим выяснить, как лучше это сделать». В обстановке всеобщей лихорадки такие ответы считаются неприемлемыми. В результате организации очертя голову набрасываются на большие данные. Некоторые запускают масштабные, дорогостоящие проекты, не имея продуманного плана насчет того, как извлечь пользу из инвестиций. Они просто собирают множество данных и покупают множество места для их хранения в надежде на то, что когда-нибудь придумают, как их использовать.
В этом и заключается главная проблема такого подхода. В текущем году вы бодро отвечаете на вопросы руководства, а оно вас гладит по головке за то, что вы идете в ногу со временем и «что-то делаете» с большими данными. Но через год-полтора то же начальство обращается к вам уже с другим вопросом: «Вы потратили столько ресурсов на этот проект и что же теперь можете продемонстрировать?» Если вы изначально не знали, для чего вам нужны большие данные, вам потребуется немало усилий, чтобы доказать, что ресурсы потрачены не зря. Я бы не хотел оказаться на месте человека, который вынужден отвечать: «Мы активно занимались большими данными, как от нас того требовали, но пока не получили никаких результатов».
Убедитесь, что ваша организация дисциплинированно подходит к внедрению больших данных. Потратьте еще немного времени на то, чтобы начать с реальной бизнес-проблемы и разработайте для ее решения план. Определите, какую конкретно аналитику можно будет выполнить на основе данных. Это займет не так уж много времени, однако существенно повысит ваши шансы на успех. Не поддавайтесь давлению рекламной шумихи и не отказывайтесь от основных принципов ведения бизнеса.
Существует ли пузырь больших данных?
На фоне сегодняшнего ажиотажа вокруг больших данных часто возникает вопрос о том, а не превращаются ли большие данные в очередной пузырь?{12} В январе 2013 г. исследовательская компания Gartner высказала официальное мнение, что большие данные прошли пик цикла ажиотажа и вступили в этап избавления от иллюзий{13}. После публикации этой статьи мне позвонил журналист и спросил, что я думаю по поводу заката больших данных и пузыря, который вот-вот лопнет. Мой ответ сначала может показаться противоречивым, но после моего объяснения вы поймете, в чем дело. Я ответил, что в некоторых отношениях угроза пузыря больших данных действительно существует. Но с других более важных, точек зрения, такого пузыря нет. Мой ответ кратко изложен в тексте и в таблице 2.1.