участвовавших в голосовании в каждом из регионов, входящих в данный кластер. С этой целью интересующий нас показатель умножался на количество граждан, проголосовавших в каждом из пяти регионов данного кластера. После чего эти результаты суммировались в целом по пяти регионам, а полученная сумма произведений делилась на общее число голосовавших в этом кластере избирателей. Например, для I кластера индекс вброса бюллетеней находился таким образом: 1. Сначала индекс вброса бюллетеней по каждому региону умножался на число участвовавших в голосовании жителей, соответственно, Львовской, Тернопольской, Волынской, Киевской и Винницкой областей. 2. Затем полученные по каждому региону результаты суммировались и делились на общее число граждан, голосовавших во всех пяти регионах, вошедших в I кластер.
Абсолютно также находился и другой показатель ‑ доля проголосовавших за Петра Порошенко в целом по I кластеру. По нашим подсчетам, в целом по I кластеру индекс вброса бюллетеней оказался равен 129,0, а доля проголосовавших за президента составила 63,08%. Аналогичные расчеты сделаны и по остальным кластерам регионов, соответствующая статистика по которым дана в табл. 2.
Табл. 2. Падение доли проголосовавших за Петра Порошенко в зависимости от снижения индекса вброса бюллетеней по пяти кластерам регионов
Источник: расчеты автора по данным ЦИК Украины
На наш взгляд, табл. 2 наглядно показывает, что снижение индекса вброса бюллетеней приводит к значительному падению в кластерах регионов доли проголосовавших за Петра Порошенко. Причем, эта динамика наблюдается по всем кластерам. Так, при переходе от I ко II кластеру (в него входят Ивано-Франковская и Ровенская области, Киев, а также Черновицкая и Черкасская области, оказавшиеся в рейтинге индексу вброса бюллетеней на 6-10 месте) индекс вброса бюллетеней упал на 20,8 единиц, а доля проголосовавших за Петра Порошенко снизилась на 3,22 процентных пункта.
Таким образом, при переходе от I ко II кластеру скорость падения доли проголосовавших за будущего президента в пересчете на одну единицу падения индекса вброса бюллетеней составила 0,155 процентных пункта. Заметим, что при переходе от II к III кластеру, от III к IV кластеру и от IV к V кластеру, скорость падения доли проголосовавших за Петра Порошенко составила, соответственно, 0,270, 0,167 и 0,571 процентных пункта на единицу падения индекса вброса бюллетеней.
В целом же при переходе от I к V кластеру снижение индекса вброса бюллетеней на 87,3 единицы привело к падению доли проголосовавших за ныне действующего президента на 23,37 процентных пункта. Таким образом, в пересчете на одну единицу падения индекса вброса бюллетеней скорость снижения доли проголосовавших за Петра Порошенко в среднем по пяти кластерам составила 0,268 процентных пункта.
Для дальнейшего исследования обозначим данные в табл. 1, представленные в разделе «Индекс вброса бюллетеней», как независимую переменную (фактор) X. В то время как данные в табл. 1, представленные в разделе «Доля голосов, по версии ЦИК отданных за Петра Порошенко, в %», обозначим как зависимую переменную (результат) Y. Воспользуемся установленным в программе Excel пакетом «Анализ данных», который поможет нам решить линейное уравнение регрессии методом наименьших квадратов (МНК). Суть МНК заключается в том, что этот метод дает возможность получить такое уравнение, которое минимизирует сумму квадратов отклонений фактических значений зависимой переменной Y от ее расчетных значений. В результате у нас получится следующая статистическая зависимость:
Y расч. = 31,440+ 0,253X (1)
Все коэффициенты этого уравнения линейной регрессии (1) получились статистически значимыми с 99% уровнем надежности. При этом коэффициент детерминации у данного уравнения оказался равен 0,6473, то есть можно сказать, что оно на 64,73% объясняет официальные итоги голосования за Петра Порошенко в регионах, в то время как остальные 35,27% объясняются воздействием других факторов, не включенных в это уравнение. В целом, расчетные значения Y, найденные по этому уравнению регрессии, отклоняются от фактических Y (данных ЦИК по доле проголосовавших за г-на Порошенко в регионах) в среднем на 10,1 % по модулю.
Интерпретация этого уравнения следующая: увеличение на одну единицу индекса вброса бюллетеней приводило в среднем к росту на 0,253 процента голосов, отданных (а точнее сказать, вброшенных в урну с целью фальсификации выборов) в данном регионе за П. А. Порошенко. При этом цифра 31,440 называется константой или свободным членом уравнения, показывающим долю голосов (в %), отданных за будущего президента вне зависимости от роста индекса вброса.
Уравнение регрессии (1) в графическом виде представлено ниже – см. рис. 2. На этом графике точками представлены официальные данные ЦИК по доле проголосовавших за г-на Порошенко в 25 регионах, а пунктирной линией изображена линия регрессии их расчетных значений, найденных по формуле (1). Линия регрессии построена таким образом, чтобы минимизировать сумму квадратов отклонений расчетных значений зависимой переменной Y от ее фактических значений. Дополнительные математические подробности по уравнению регрессии (1) можно посмотреть в конце книги – в приложении.
На рис. 2 хорошо видно, что пунктирная линия, характеризующая линию регрессии, вдоль которой локализуются расчетные значения, найденные по формуле (1), имеет наклон вправо, что свидетельствует о довольно тесной положительной регрессионной связи между ростом индекса вброса бюллетеней и повышением доли, по версии ЦИК проголосовавших в регионе за Петра Порошенко.
Источник: расчеты автора по данным ЦИК Украины
Рис. 2.
Поскольку уравнение регрессии используется для выявления вероятностной статистической, а не функциональной связи, то с целью повышения надежности в статистической науке принято давать параметрам уравнения регрессии не только точечную, но и интервальные оценки. С точки зрения теории вероятности интервальные оценки необходимы для того, чтобы оценить уровень надежности полученных параметров уравнения регрессии на предмет их соответствия своему фактическому или, как еще иногда говорят, своему «истинному значению», от которого они могут отклоняться из-за влияния разного рода случайных факторов.
В связи с этим заметим, что наша математическая модель, построенная на основе статистики по регионам, имеет один серьезный недостаток ‑ слишком большой разброс в интервальных оценках параметров уравнения регрессии. Так, согласно полученному в Excel уравнению (1) точечная оценка ее коэффициента регрессии = 0,253. Решая в Excel уравнение регрессии, мы также задали для оценки его параметров 95% уровень надежности. Полученные нами результаты свидетельствуют, что с учетом воздействия разного рода случайных факторов фактическое значение коэффициента регрессии может с 95% уровнем надежности находиться в интервале от 0,172 до 0,333. Таким образом существует лишь 5% риск, что данный коэффициент регрессии может оказаться ниже или выше этого диапазона значений.
В свою очередь, точечная оценка константы в нашем уравнении регрессии = 31,44%. Но с учетом воздействия разного рода случайных