Мода — это значение в ряду данных, которое встречается наиболее часто. Ряд может содержать несколько мод — в этом случае можно сказать, что он мультимодален. Такие данные указывают на потенциально интересные связи в системе.
Размах — это разность между наибольшим и наименьшим значениями в ряду. Размах лучше всего использовать для быстрой оценки: вам нужно всего два значения. Правда, их легче всего исказить слишком высокими или слишком низкими выходящими за рамки значениями, такими как, например, банковский счет Билла Гейтса.
Среднее арифметическое, медиана, мода и размах — очень полезные статистические средства анализа, при помощи которых можно получить типичные результаты, конечно, при условии, что вы используете их правильно.
Корреляция и причинно-следственная связь
Корреляция — это не причинно-следственная связь, но она явно на что-то намекает.
Эдвард Тафти, статистик, исследователь в области информационного дизайна и профессор Йельского университетаПредставьте себе бильярдный стол: зная точное расположение каждого шара и то, какие силы воздействуют на биток[72] (вектор воздействия, ударная сила, точка воздействия, трение стола и сопротивление воздуха), вы можете точно вычислить его путь и то, как он будет воздействовать на другие шары на этом пути. Профессиональные бильярдисты настолько хорошо моделируют ситуацию в уме, что могут раскидать партию за считаные минуты.
Это причинно-следственная связь, то есть цепь причин и следствий. Поскольку вычислить полную цепь причинной связи несложно, можно сказать, что именно удар по битку вызвал попадание другого шара в лузу. Если вы будете бить по битку с одинаковой силой и одинаковым образом, вы раз за разом будете получать тот же самый результат.
Вот другой мысленный эксперимент с гипотетическими данными: люди, страдающие сердечными заболеваниями, съедают в среднем по 57 двойных чизбургеров с беконом каждый год. Выходит, двойные чизбургеры с беконом приводят к сердечным приступам? Не обязательно. Эти же люди каждый день принимают душ и моргают 5,6 миллиона раз в год. Не будете же вы утверждать, что душ и моргание тоже приводят к сердечным приступам?
Корреляция — это не то же самое, что причинно-следственная связь. Даже если вы видите, что одно измерение тесно связано с другим, это еще не доказывает, что первое стало причиной последнего.
Представьте, что у вас своя пиццерия и вы разместили тридцатисекундную рекламу на каком-нибудь телеканале. После выхода ролика в эфир вы заметили, что ваши продажи возросли на 30 %. Произошло ли это благодаря рекламе?
Не обязательно. Взлету продаж могли способствовать и другие причины. Можете быть, в тот день в городе проходила научная конференция и ее участники выбрали ваше место, чтобы быстро перекусить. Может быть, закончился учебный год, и семьи с детьми выбрались в город, чтобы отпраздновать это событие. Может быть, в это же время вы запустили акцию «две пиццы по цене одной» и тем самым привлекли посетителей. Сложно вычислить, что именно стало причиной повышенного спроса.
Вполне возможно, реклама, наоборот, вызвала сокращение объема продаж: люди сочли ее непривлекательной или даже неприятной, но это осталось незамеченным, поскольку благодаря какому-то другому фактору продажи выросли.
Выявить наличие причинно-следственной связи всегда сложнее, чем наличие корреляции. При анализе сложных систем со многими переменными и связями определить истинную причинную связь часто чрезвычайно трудно. Чем больше изменений происходит в системе, тем выше вероятность того, что на результат, который вы пытаетесь проанализировать, повлияло больше одного изменения.
Кто не помнит своего прошлого, обречен пережить его снова.
Джордж Сантаяна, философ, эссеист и автор афоризмовЕсли вы хотите оценить эффективность чего-то в настоящем, иногда полезно обратиться к прошлому.
Нормы — это инструмент использования прошлого опыта для обеспечения контекста текущих измерений.
Например, если вы занимаетесь продажей новогодних украшений, то, сравнив выручку за предпоследний и последний кварталы года, сможете сделать очень важный вывод: никто не покупает ваш товар в августе. Еще лучше, если вы сравните продажи за последний квартал этого года с прошлогодними продажами за тот же самый период, чтобы понять, пошли дела лучше или хуже.
Однако если методы измерений подвержены изменениям, то нормы, основанные на предыдущих измерениях, становятся недействительными. В P&G мы использовали метод оценки эффективности некоторых видов рекламы. Имея на руках данные за несколько лет, мы могли сравнивать новую рекламу со старой, имевшей успех. Если новая реклама не соответствовала норме, ее не использовали.
Если бы компания внезапно решила использовать другие методы тестирования, эти нормы потеряли бы свою силу: это было бы все равно что сравнивать яблоки и апельсины. Изменив методы измерений, вы уже не можете использовать основанные на них нормы. Но если вы все-таки хотите применять их, вам нужно создать новую базу данных.
При всем этом успешная работа в прошлом не гарантирует такую же эффективность в настоящем. Помните: мы имеем дело со сложными системами. Со временем меняется все. Тот факт, что нечто было полезным когда-то, не означает, что оно будет полезным и сейчас. Периодически проверяйте свои нормы и их действие.
Если мы назовем собачий хвост лапой, сколько лап будет у собаки? Четыре.
То, что мы назовем хвост лапой, не сделает его действительно лапой.
Авраам ЛинкольнЧто делать, если измерить что-то напрямую невозможно? Используйте заменитель. Например, в демократических политических системах голоса избирателей выступают в качестве замены всеобщего «волеизъявления людей». Невозможно просканировать каждого человека и определить его предпочтения, поэтому голоса являются наилучшей альтернативой.
В области научных измерений заменители также используются повсеместно. Вы никогда не задумывались над тем, откуда ученые знают, насколько горячо Солнце или сколько лет некоторым камням.
Они используют такие заменители, как длина волны электромагнитных лучей или распад известных радиоактивных изотопов, а затем, применяя уже доказанные отношения и формулы, находят ответ.
Чем ближе заменитель к оригинальному объекту, тем лучше. Возьмите аналитику сайта: вы хотите знать точно, на что именно его посетители обращают внимание и сколько времени они на это тратят, но при этом вы не можете залезть к ним в голову. Хорошим заменителем может послужить отслеживание движений мыши.
Согласно исследованию, проведенному учеными Университета Карнеги — Меллоун,
…в 84 % случаев, когда курсор мыши застывал на определенной странице или части сайта, туда же был устремлен взгляд посетителя. Кроме того, в 88 % случаев, если пользователь не смотрел на страницу, там не было и курсора1.
Поскольку движения мыши и зрительная фиксация (то есть внимание) обладают корреляцией, то движения мыши можно считать хорошим заменителем внимания посетителя. Чем сильнее корреляция, тем лучше заменитель.
Перед использованием заменителя убедитесь в том, что он действительно имеет отношение к объекту. Заменитель может привести к ошибочным результатам, если окажется, что он измеряет совсем не то, для чего предназначался изначально. Вспомните, к примеру, попытку определить производительность программиста на основании количества строчек кода. Они, конечно, могут служить заменителем, позволяющим оценить эффективность работы, но иногда большой объем кода сигнализирует об уменьшении производительности и, соответственно, не может использоваться для измерения.
Новое правило нирваны: никогда не представляйте параметры (даже столь любимые Богом KPI), не выделяя их составляющих… Вся прелесть деления параметра на составляющие заключается в том, что вы как бы заглядываете за кулисы и узнаёте об этом параметре интересные подробности.
Авинаш Кошик, автор книги «Веб-аналитика»[73]
В совокупном множестве данных очень часто можно найти что-то стоящее — нужно просто поискать. Сегментация — метод деления множества данных на четко определенные подгруппы с целью раскрытия дополнительного контекста. Такое деление может выявить ранее неизвестные отношения. Например, вы знаете, что заказы в этом месяце увеличились на 87 %. Это хорошо, но еще лучше, если вы узнаете, что 90 % этих заказов были сделаны женщинами из Сиэтла. Все, что нужно, — это понять, почему они сделали заказы; такая информация пригодится в будущем.