— на общее ее благосостояние, перейдя от конкретных чисел к долям или процентам. Получится кривая, носящая имя американского экономиста Макса Отто Лоренца. Когда мы строили график перемещения велосипедиста по простой треугольной горке, мы, по существу, создали кривую Лоренца для распределения скоростей по отрезкам пути, состоящего всего из двух столбцов, как показано на рис. 1.6.
Рис. 1.6. Распределение скорости велосипедиста по пройденному пути
Конечно, не всякий график перемещения можно воспринимать как кривую Лоренца. Для начала нужно отсортировать периоды путешествия по возрастанию скорости, после чего приступать к построению. Можно построить гистограмму скоростей, сгруппировав известные нам данные по принадлежности к известным интервалам значений, после чего последовательно суммировать вклады всех данных гистограммы, начиная с малых значений и заканчивая самыми большими. Результатом должна стать всюду вогнутая кривая, которая проходит ниже диагонали, — настоящая кривая Лоренца. Упомянутая диагональ называется кривой равенства, она в нашем случае соответствует постоянной (средней) скорости на всем пути или гистограмме с единственным столбиком (такое распределение называется вырожденным). В экономическом контексте кривая равенства отражает всеобщее равенство благосостояния в обществе. Чем больше кривая Лоренца отклоняется от кривой равенства, тем менее «справедливым» можно считать распределение. И, раз уж мы изучаем законы подлости и несправедливости нашего мира, разумно использовать терминологию и инструменты, созданные именно для исследования справедливости.
Площадь под кривой Лоренца для любого невырожденного распределения будет меньше площади под кривой равенства. Их разница может служить формальной характеристикой неравенства или «несправедливости» распределения. Эту роль на себя берет индекс Джини. Он вычисляется как удвоенная площадь замкнутой фигуры, образуемой кривой равенства и кривой Лоренца (ее мы показали заливкой на рис. 1.5), и лежит в диапазоне от 0 до 1. Для кривой равенства, идеального вырожденного мира, индекс Джини равен 0, а в самом кошмарном варианте, когда все богатство группы принадлежит одному ее члену, он равен 1. В рассмотренном нами примере он составляет 0,35. Это неплохой показатель. Скажем, распределение богатства среди населения в России сейчас имеет индекс Джини 0,39, в США — 0,49, в Австрии и Швеции не превышает 0,3, а для всего мира он в 2017 году составил 0,66. Так что приведенная нами в качестве примера ситуация с велосипедистами, конечно, несправедлива, но вполне терпима.
Обратите внимание на то, что с помощью некоторого формального индекса мы стали сопоставлять совершенно разные и несравнимые вещи. Это одновременно и заманчиво, и опасно. Нужно отдавать себе отчет в том, что формальные индексы и числовые показатели всегда чему-то равны, независимо от того, есть в этом какой-либо смысл или нет. Мы сравниваем распределение богатства среди населения стран и распределение времени, затрачиваемого на преодоление пути, с точки зрения отличия от некоторого варианта, который сочли бы справедливым. Пока мы ведем фривольные и подчас хулиганские разговоры о законах подлости, пожалуй, это оправданное сравнение; но в науке так, конечно, делать нельзя. Кривую Лоренца и индекс Джини можно формально рассчитать и для гистограммы яркости пикселов на картинке или для частотности слов в живой речи. Но к справедливости это не будет иметь никакого отношения, да и смысла останется совсем немного, поэтому, имея в виду индекс Джини для чего попало, мы будем его называть индексом подлости, чтобы не вводить читателя в заблуждение наукообразностью терминов.
Кривые Лоренца и индекс подлости позволят нам смело сравнивать возмутительно разные вещи. Математика — точная наука, но никто не запрещает математикам хулиганить. В своем, конечно, кругу и без драк.
От закона велосипедиста к парадоксу инспекции
Вывод, который делает велосипедист, пыхтя на пониженной передаче: «Мир несправедлив, большую часть сил отнимает самая дурацкая часть работы», — часто именуют принципом Парето или принципом «80/20»: «80 % усилий дают 20 % результатов». Это абсолютная эмпирика: принцип Парето никто не доказывал, но его так часто цитируют, что он уже производит впечатление истины. Его используют и как оправдание неудачам, и даже как инструкцию, обнаруживают в самых разных проявлениях. Иногда это работает: например, принципу «80/20» соответствует индекс подлости около 0,6, как для распределения богатства в мире.
У принципа Парето есть полезное для понимания более строгое обобщение. Закон подлости, названный Артуром Блохом в честь безымянного велосипедиста, имеет официальное научное звание: парадокс инспекции. Это хорошо известное явление встречается в разных исследованиях, связанных с социологическими опросами, тестированием, и в теории отказов (разделе прикладной математики, занимающемся надежностью сложных систем), неявно, но систематически смещая наблюдаемые результаты в сторону наиболее часто наблюдаемых явлений.
Приведем классический пример, связанный с неудовольствием пассажиров общественного транспорта. На линии в некоем городе работает множество автобусов. В относительно короткий час пик они переполняются, всё же остальное время ходят почти пустыми. Если мы станем опрашивать пассажиров, то выясним, что большая их доля оказалась невезучей и ехала в переполненном транспорте (по той простой причине, что в переполненном автобусе было больше людей), и получим выражение общего недовольства. Если же мы опросим водителей, то они тоже начнут жаловаться, но, как ни странно, на незаполненность большинства маршрутов и неразумность руководства, гоняющего их попусту. Гибкий график сгладит ситуацию, но в любом случае кривая Лоренца будет отклоняться от кривой равенства, соответствующей невероятной ситуации всегда одинакового числа пассажиров во всех автобусах.
В учебниках по теории вероятностей часто встречается специальный непрозрачный мешок, в который математики складывают разнообразные объекты, а потом наугад вытаскивают их, делая подчас весьма глубокомысленные выводы. Разрешение нашего парадокса в том, что, анализируя систему пассажиропотока в целом, мы кладем в мешок автобусы, а проводя опрос, достаем из него наугад пассажиров и по их данным пытаемся делать выводы об автобусах. Рисунок 1.7 показывает, в чем тут разница.
Рис. 1.7. Статистика по автобусам говорит, что в 75 % машин есть свободные места, то есть они ходят не в полной мере эффективно. А опрос пассажиров обнаружит, что 61 % людей, воспользовавшихся автобусом в этот день, оказались в переполненном транспорте и остались недовольны
Рассмотрим эту ситуацию подробнее, построив кривую Лоренца (на этот раз настоящую) для числа пассажиров в автобусах, показанных на рис. 1.7.
Для этого нужно отсортировать машины по числу пассажиров и последовательно суммировать вклад каждого в общий пассажиропоток.