Реальный признак был следующим. В газетах много раз встречалось упоминание текущего года (2011) и нескольких предшествующих. Поэтому на гистограммах отмечался пик для 20 как пары первых цифр. Составители таблицы фальшивых чисел также использовали числа, обозначающие год, но в недостаточном количестве.
Тот, кто использует закон Бенфорда и признаки Чапаниса в качестве критерия, придет к выводу, что группы данных с маленькими пиками настоящие. Однако разумнее было бы проанализировать распределение цифр в числах, взятых из других газет. Это выявило бы массовое упоминание текущего года и помогло бы правильной идентификации.
Когда цифры в числах, имеющих важное значение, не соответствуют ожидаемому распределению, хороший следователь способен выяснить причину. Тем не менее, существует пара несложных, пригодных для самостоятельного применения тестов, помогающих быстро выявить подозрительные данные. На следующих нескольких страницах я продемонстрирую некоторые способы обнаружить вероятность фальсификации или манипулирования числами. Эти тесты предназначены в основном для различения реальных данных и на 100 процентов сфальсифицированных одним человеком. Столь резкий контраст вы увидите не всегда. Тем не менее, во многих случаях именно один-единственный мошенник снабжал своих жертв полностью фальшивыми данными. Эти тесты, используемые в качестве предварительной оценки, быстры и не связаны с дальнейшим анализом, а ведь вы, скорее всего, захотите его провести.
Каждое воскресенье владелица ресторана быстрого питания начинала с того, что придумывала объем продаж в долларах за предыдущую неделю. Ей нужно было отчитываться в налоговые органы. Любая цифра была фальшивой!
Совершенно случайно бухгалтер ресторана оказался одним из студентов Нигрини. Нигрини посмотрел на придуманные числа. «Ее выдали не первые цифры», – объяснил он. Ресторан быстрого питания с устойчивым бизнесом может иметь выручку, скажем, $5000 в день, с не очень большими отклонениями. Первые цифры данных не будут соответствовать распределению Бенфорда – и не должны. Подлог выдали две последние цифры. Ни одно из чисел не оканчивалось на 00. Это весьма распространенный признак, поскольку мошенники считают, что круглые числа выглядят недостаточно случайными. Кроме того, около 6,5 процента чисел оканчивались на 40 (при ожидаемой величине всего 1 процент). Использование пары 40 для двух последних цифр – неосознанная склонность владелицы ресторана.
Последние две цифры: 500 случайных чисел
Когда-нибудь ресторан быстрого питания выставят на продажу, и покупатели внимательно изучат бухгалтерские документы. Возможно, для демонстрации владелица придумает новые, раздутые числа. Возникнет ли у покупателей подозрение, что вся отчетность взята с потолка?
В мелком бизнесе показатели ежедневных продаж – это сумма большого количества граф «итого» в кассовых аппаратах. Последние две цифры этих сумм обычно бывают случайными – каждая пара от 00 до 99 появляется приблизительно в 1 проценте случаев.
Последние две цифры: 500 придуманных чисел
Однако не во всех документах указываются суммы с точностью до цента. Иногда их округляют до долларов или даже до тысяч долларов. В таких случаях нужно использовать две крайние цифры справа.
Чтобы провести тест последних цифр, подсчитайте, сколько раз каждая из возможных пар встречается в имеющемся наборе данных. Всего таких пар 100, и поэтому потребуется составить гистограмму из 100 столбиков.
Ниже приведена гистограмма, дающая представление, как выглядят реальные данные. Она характеризует выборку из 500 случайных чисел (сгенерированных программой Excel). Число 500 достаточно репрезентативно для мелкого бизнеса – это около 17 месяцев ежедневных продаж или десять лет еженедельных. Но даже при 500 числах гистограмма получается неравномерной, с довольно большими вариациями. В данном случае одна пара цифр (68) не появляется совсем, а три пары (10, 53 и 74) встречаются в два раза чаще, чем ожидаемый 1 процент. Это нормальные отклонения, характерные для случайных данных.
Теперь посмотрим на сфабрикованные данные.
Следующая гистограмма отображает распределение двух последних цифр в 500 числах, придуманных человеком. Более сильные вариации видны даже с первого взгляда. Две пары (93 и 94) встречаются более чем в 4 процентах чисел, что маловероятно для реальных данных. Двенадцать пар не встречаются вообще, и это тоже крайне маловероятно.
Задайте себе следующие три вопроса. Утвердительный ответ на любой из них должен усилить ваши подозрения.
a) По непонятной причине есть пара (или пары) цифр, встречающиеся чаще остальных?
б) Частота повторения сдвоенных цифр (особенно 00 и 55) меньше средней?
в) Убывающие пары (10, 21, 32, 43, 54, 65, 76, 87, 98) явно встречаются чаще других?
В приведенном примере ответ на вопрос (a) утвердителен. Кроме того, в массиве данных нет сдвоенных цифр (б). Приблизительно 10 процентов всех чисел должны оканчиваться на сдвоенные цифры. У нас таких 20 из 500, всего 4 процента. Пары 00, 55 и 77 вообще не встречаются.
Из 500 пар последних цифр 44 – убывающие. Это почти точно ожидаемые 9 процентов (из 100 возможных пар девять убывающие). Так, по критерию (в) данные не вызывают подозрений.
Наш набор данных не прошел два из трех тестов. Будь это суммы продаж мелкого бизнеса, стоило бы запросить дополнительную или более подробную информацию – и посмотреть, как отреагирует продавец.
Нет нужды беспокоиться, что вам придется считать вручную. На практике все это делается с помощью функций «копировать» и «вставить». Попросите данные в виде таблицы Excel или в совместимом с ней формате, чтобы без труда перенести их в шаблон теста, использующего закон Бенфорда. Примеры таких тестов можно бесплатно найти в интернете, в том числе один тест Нигрини (NigriniCycle.xlsx). Перенеся данные, выполните инструкции и заполните определенные столбцы заранее известными формулами. Результатом будут отформатированные гистограммы для двух последних цифр и итоги других распространенных тестов. Кроме того, программа вычисляет математическую оценку статистической значимости, что, конечно, гораздо надежнее простого просмотра полученных данных.
Резюме: Как распознать фальшивые числа• Когда распределение цифр в последней группе данных отличается от обычного распределения, характерного для данной компании, это может быть признаком подлога.
• Растратчики и мошенники, придумывающие числа, неосознанно отдают предпочтение убывающим парам цифр (таким как 10, 21, 32 и так далее).