kireev: (Default)
kireev ([personal profile] kireev) wrote2015-05-04 08:13 am

О нулях в результатах президентских выборах в Белоруссии 2010 г. по районам

В обсуждении нарисованных результатов выборов президента Казахстана в ряде областей поднялся вопрос о том, где же этот "обогуевский агрегатор" всплывет в следующий раз. В Белоруссии? Белоруссию я на это уже проверял: нет там такого. Но я и Казахстан проверил и там тоже таким методом не рисовали, а надо было каждую область еще проверить. Поэтому я уже вернулся к президентским выборам в Белоруссии и проверил области. Тоже нет. Даже районы стал проверять, хотя там уже маловато избирателей: тоже нет. Зато пока проверял я обратил внимание, что там проценты за Лукашенко уж очень часто на ноль заканчиваются. Что значит глаз наметан, а? :) Стал считать. Действительно, слишком часто выпадают нули!

Каждый может перепроверить. В Белоруссии 148 районов (сельские плюс городские). Какова вероятность выпадения каждого отдельного числа от 0 до 9 на конце процентов за Лукашенко? Один из десяти. Следовательно, в среднем каждое число из 148 случаев выпадет 14,8 раз. А у Лукашенко на конце сотых долей процента нули выпадают не 14, не 15 и не 20 раз! А сразу 35 раз! В почти четверти случаев, а не в одном из десяти! Вот так выглядят последние цифры в процентах за Лукашенко на графике.



Есть наблюдение, что люди случайно выбирают четные числа чаще, чем нечетные, и это даже видно на этом графике: 2 выбирается чаще, чем 1.  4 выбирается чаще, чем 3. 6 выбирается чаще, чем 5. 8 выбирается чаще, чем 7. Ну и 0 на конце вне конкуренции: все же любовь в красивым числам у людей неистребима, что было еще наглядно показано на думских выборах в России. Собственно, человеческий мозг не в состоянии совершенно случайно выбрать цифры, поэтому существуют генераторы случайных чисел.

Не только один ноль на конце, но и сразу два нуля на конце встречаются непропорционально часто! С точностью до процента результаты совпали сразу в восьми районах! Вероятность этого должна составлять 1 из 100. Районов 148. То есть в среднем их должно быть 1,48. 2-3 - нормально. Ну, 4 таких случая. Пара вариантов действительно там встречается в четырех случаях. Но не более того. Единственным исключением и сразу восемь выпаданий именно у двух нулей на конце!

Математик [livejournal.com profile] a_shen мне подсказал, что вероятность выпадения последнего нуля по крайне мере в 35 случаях из 148 составляет примерно 0,0001%. Каждый может в бытовых условиях проверить насколько это вероятно. Возьмите телефонные номера ста своих друзей и знакомых (я лично даже буду вам завидовать, если у вас их столько есть) и посмотрите как часто выпадает ноль на конце. 26 наберется? Это будет такая же вероятность, как и 35 из 148. Ну или 20 телефонных номеров возьмите. При такой же вероятности нулем будут заканчиваться 10 и более номеров. Нет? А вот у Лукашенко заканчиваются.

А вероятность выпадения по крайней мере двух нулей в восьми случаях составляет чуть больше 0,01%. Вероятность двух этих событий (то есть по крайней мере 35 случаев одного нуля и по крайней мере 8 по два нуля) одновременно - несколько миллионных процента. И, замечу, это именно нули и именно у Лукашенко! Хотя по явке нули тоже в 21 случае выпадают, но это уже мелочи по сравнению с 35 нулями у Лукашенко.

Даже без всего этого результаты по районам на тех выборах убедительно говорят, что их просто рисовали. Это было известно даже до их публикации, потому что была куча убедительных свидетельств того, что сами результаты по стране просто были взяты от балды и не были связаны даже с фальсифицируемым подсчетом на участках! А если результаты по стране взяты от балды, и там нарушены все пропорции голосов за кандидатов, то и результаты по районам должны были просто рисоваться, ведь они по сумме должны совпадать с результатами по стране. То есть эти проценты являются продуктом человеческой деятельности, о чем я и говорил с самого начала.

Некоторые не соглашались со мной, что результаты этих выборов были нарисованы. Призываю их вернуться в мой блог, признать мою правоту или же объяснить появление этих нулей.
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 04:31 pm (UTC)(link)
Не попадитесь в ловушку. Последние цифры в проценте (до какого знака?) не распределены равномерно. Получить 50.00% намного более вероятнее, чем 50.10%, потому, что 50.0% — это и 500 из 1000, и 50 из 100, и 328 из 656, и ещё множество вариантов, а 50.1% — это 501 из 1000. Человеческий фактор может здесь и играет, но за счёт чистой математики ноль должен встречаться чаще других цифр. Чтобы рассчитать, насколько чаще, и попадают ли полученные данные в разумный доверительный интервал, нужны дополнительные данные.

[identity profile] kireev.livejournal.com 2015-05-04 04:44 pm (UTC)(link)
Сейчас посмотрел на проценты за Порошенко по районам Украины. В 597 районах, где выборы состоялись (без районов внутри городов), у Порошенко 60 нулей на конце. Каково?

Edited 2015-05-04 16:49 (UTC)

[identity profile] barouh.livejournal.com 2015-05-04 04:49 pm (UTC)(link)
В большинстве районов Беларуси количество проголосовавших составляет десятки тысяч человек. То есть вес одного голоса - меньше 0,01%. В этих условиях распределение последней цифры процентного результата будет (должно быть) практически равномерным

[identity profile] barouh.livejournal.com 2015-05-04 04:50 pm (UTC)(link)
Вот, прямое доказательство фальсификаций. Настоящие результаты выборов не могут так точно совпадать с теоретически рассчитанной вероятностью
(тег #sarkazm, если что)

[identity profile] kireev.livejournal.com 2015-05-04 04:55 pm (UTC)(link)
Вам шуточки, да хахочки, а два нуля на конце встречается шесть раз!!!
Edited 2015-05-04 16:56 (UTC)
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 05:12 pm (UTC)(link)
Может размеры районов различались? Маленькие районы сильнее влияют на неравномерность.

Также влияет на распределение само значение процента. У Порошенка было чуть более 50%, а у Лукашенка небось поболее. В отдельных районах, соответственно будет больше среднего, приближаясь к 100%. Не скажу сейчас, как это должно влиять, но влиять может.

[identity profile] barouh.livejournal.com 2015-05-04 05:13 pm (UTC)(link)
"А вероятность выпадения по крайней мере двух нулей в восьми случаях составляет чуть больше 0,01%. Вероятность двух этих событий (то есть по крайней мере 35 случаев одного нуля и по крайней мере 8 по два нуля) одновременно - несколько миллионных процента"

Не совсем так. Вероятность выпадения 1 нуля и двух нулей - не независимые друг от друга события, так что перемножать две вероятности некорректно. Относительно корректно было бы вероятность выпадения 35 нулей умножать на вероятность того, что 8 из 35 этих чисел будут содержать два нуля. Вероятность этого - 2,0%

[identity profile] misha-b.livejournal.com 2015-05-04 05:14 pm (UTC)(link)
Интересное замечание, не думал об этом. Математически непонятно как расчитать, но написал програмку, которая случайно выбирает два целых числа 0--1000, округляет их отношение до сотых процента и считает последнюю цифру.

При выборкe размером в десять миллионов вероятность последнего нуля получилась 11.88767%.

Интересно, что если числа распределены случайно на интервале 0--100, то вероятность последнего нуля уже 22.5055%, а вероятность тройки 11.04397% (тоже значительно выше ожидаемого).

Размер эффекта явно недостаточно велик, чтобы объяснить белорусские выборы, да и с тройкой все наоборот, но любопытно.





[identity profile] barouh.livejournal.com 2015-05-04 05:16 pm (UTC)(link)
какие уж шуточки, когда налицо двойные стандарты. У Лукашенко 35 нулей - и к нему претензии. А у Порошенко 60 нулей (еще и круглое количество нулей!) - и образец демократических выборов

[identity profile] kireev.livejournal.com 2015-05-04 05:17 pm (UTC)(link)
Нет, там даже в самых маленьких районах несколько тысяч проголосовавших, да как и на Украине, собственно. А то, что в ряде районов у Лукашенко 95-98% как должн влиять? Кстати, совсем близко 100% там у него как раз нигде нет. Они все же люди там осторожные.

[identity profile] barouh.livejournal.com 2015-05-04 05:18 pm (UTC)(link)
в Беларуси чисел меньше 1000 нет вообще - там все районы крупнее. На числах больше 10000 вероятность нуля будет близка к 10% (что видно из того, как стремительно эта вероятность падает в вашем тесте при переходе от десятков к сотням)

[identity profile] barouh.livejournal.com 2015-05-04 05:22 pm (UTC)(link)
Как раз разница в вероятности выпадения нуля больше на "разумных" процентах - 50%, 75%, 60%, 80%. Выше 80% повышенная вероятность только у 87,50% (для всех кратных 8), 90,00% (кратных 10), 95,00% (кратных 20)

Но - повторяюсь - при десятках тысяч избирателей в подавляющем большинстве районов это в любом случае несущественно

[identity profile] 22he-travnya.livejournal.com 2015-05-04 05:25 pm (UTC)(link)
Это потому, что система счисления десятеричная.

Любопытно: когда рисуют протоколы люди с родным языком в котором двадцатеричная система счисления (например, чеченцы, ингуши, дагестанцы, адыгейцы_черкесы_кабардинцы, грузины при Шеварднадзе или албанцы при Ходже), то проявляется ли это ?

[identity profile] misha-b.livejournal.com 2015-05-04 05:28 pm (UTC)(link)
На 10000 эффект еще заметен при 10-миллионной выборке, но весьма мал 10.2%.

Однако возможен и такой вариант -- числа рисовали, но не что выбирали случайное круглое число, а считали отношение двух более или менее случайно выбранных небольших чисел с нужным результатом. Не знаю, насколько такой вариант реален.

ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 05:35 pm (UTC)(link)
Ну вот если размер района распределён равномерно от 1000 до 1500, и количество голосов в каждом районе распределено равномерно от 95% до 99%, то получаем:

>>> from collections import Counter
>>> c = Counter(int(round(j*1000/i))%10 for i in range(1000, 2000+1) for j in range(int(0.95*i), int(0.99*i)+1))
>>> c
Counter({0: 6754, 9: 6227, 8: 6023, 5: 6020, 2: 6018, 4: 6012, 6: 6008, 1: 6004, 3: 5992, 7: 5983})
>>> c.most_common()[0][1] / c.most_common()[-1][1]
1.1288651178338627

Ноль в проценте (округленном до десятых) встречается почти на 13% чаще, чем семёрка. Маловато, чтобы объяснить Белорусский феномен, но и не сотые процента. Для более реалистичной оценки нужно использовать распределения по реальным данным, отдельные районы могут сильно влиять. Например, если взять голоса от 98% до 99%, то получим разницу уже 50%.
Edited 2015-05-04 17:36 (UTC)
i_eron: (Default)

[personal profile] i_eron 2015-05-04 05:36 pm (UTC)(link)
:-)
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 05:38 pm (UTC)(link)
Пойдёт в народ методичку.
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 05:49 pm (UTC)(link)
Вполне может быть. Правильнее было бы что-то гауссоподобное брать, но это уже не однострочник будет.
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 05:57 pm (UTC)(link)
Приближение к границе (0% или 100%) уменьшает разброс. А уменьшение разброса усиливает эффект. Хмм, это может быть даже побочным результатом манипуляции над другими параметрами (числом голосов, явкой, явными приписками только на некоторых участках в районе), а не выдумыванием итогового процента.

Хотя гипотеза фальсификации именно процента на уровне районов выглядит пока наиболее вероятной.

[identity profile] easternwestern.livejournal.com 2015-05-04 06:03 pm (UTC)(link)
>>но за счёт чистой математики ноль должен встречаться чаще других цифр
Вы явно много в этой митематике понимаете. Может рассчитаете насколько чаще, а мы поржем?))
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 06:04 pm (UTC)(link)
Симуляция случайных границ:

>>> c = Counter(int(round((j+k)*1000/i))%10 for i in range(1000, 2000+1) for k in range(-5, 6) for j in range(int(0.95*i), int(0.99*i)+1))
>>> c.most_common()[0][1] / c.most_common()[-1][1]
1.0189792447434567

Маловато. Может быть в фактических данных что-то прикопано, но шансы улетучиваются на глазах.
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 06:06 pm (UTC)(link)
Ну вот выше я привожу результаты наколенного моделирования. Ржите.

[identity profile] kireev.livejournal.com 2015-05-04 06:13 pm (UTC)(link)
Это уже за пределами моей математической компетенции. Не знаю, может быть усиливает эффект, но точно не до 35 нулей. Я вот даже за Яроша посмотрел (то есть менее 1% в подавляющем большинство районов), 64 нуля. Чуточку выше 10% выпадений, но в это совсем нормально.

[identity profile] barouh.livejournal.com 2015-05-04 06:30 pm (UTC)(link)
а если бы взяли более близкое к реальному распределение от 5 до 75 тысяч (среднее количество проголосовавших на район - около 40 тысяч, медиана конечно поменьше, тысяч 25 наверное), то результат был бы на порядок (порядки?) ближе к 10%
Edited 2015-05-04 18:30 (UTC)
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 06:31 pm (UTC)(link)
Кстати, а не пробовали пометить эти 35 нулей на карте? Они равномерно распределены, или местная особенность?

[identity profile] sevabashirov.livejournal.com 2015-05-04 06:32 pm (UTC)(link)
Не думаю, для этого нужно не только мыслить двадцатками, но и видеть их (как, например, майя с их 20-ричной системой записи чисел), а у кавказских народов все-таки обычные арабские 10 цифр.
Впрочем, косвенно тяга к двадцаткам может проявиться как наложение страсти к нулям в 1-м разряде и к четным цифрам во 2-м (см. пост).

[identity profile] barouh.livejournal.com 2015-05-04 06:33 pm (UTC)(link)
если бы сначала рисовали абсолютные числа, а потом бы считали проценты их делением, то излишка процентных чисел с нулем на конце не было бы

[identity profile] kireev.livejournal.com 2015-05-04 06:34 pm (UTC)(link)
Нет, такое не пробовал. Посмотрю, где они находятся - если там будет какая-то система, то сделаю. Но когда я смотрел, то вроде бы никакой системы я не видел - это аномалия для всех областей.

[identity profile] sevabashirov.livejournal.com 2015-05-04 06:35 pm (UTC)(link)
Мне так на уроке геодезии замеры забраковали: ну не может получиться нулевая невязка, если среднеквадратичная - 10 секунд! (А то, что она возникла у одного человека из 30, преподаватель проигнорировал)

[identity profile] misha-b.livejournal.com 2015-05-04 06:37 pm (UTC)(link)
В смысле числа сравнимые с реальным населением? Но зачем так сложно рисовать?

[identity profile] sevabashirov.livejournal.com 2015-05-04 06:41 pm (UTC)(link)
Тогда уж "...что НЕ МЕНЕЕ 8 из 35 этих чисел".

[identity profile] barouh.livejournal.com 2015-05-04 07:10 pm (UTC)(link)
да, конечно, я так и считал - кумулятивную вероятность для "8 и более"

[identity profile] barouh.livejournal.com 2015-05-04 07:13 pm (UTC)(link)
числа явки и голосов за Лукашенко в любом случае должны быть сравнимы с реальным населением - по условиям стоящей перед чиновниками задачи :) Явка за 90% количества избирателей, Лука за 80% от "проголосовавших"

но в данном случае числа видимо были повторичными - а сначала придумывали проценты. Поэтому избыток нулей в процентных значениях, а не в абсолютных

[identity profile] misha-b.livejournal.com 2015-05-04 07:19 pm (UTC)(link)
Ну, я бы выбрал два числа случайно в правильном диапазоне, а потом уже можно подогнать под население :)

[identity profile] easternwestern.livejournal.com 2015-05-04 07:23 pm (UTC)(link)
Вы так понимаю досих пор не поняли, что ваше моделирование в корне не верно?

Ваше "наколенное моделирование" имеет смысл если в одном районе по, к примеру, 20 избирателей. Но когда нам явно известно что даже в самых маленьких районах тысячи и тысячи избирателей - вероятности практически одинаковы и это очевидно.

[identity profile] kireev.livejournal.com 2015-05-04 07:28 pm (UTC)(link)
Если у Вас у одного из 30, то для него это было бы еще одним доказательством того, что так получиться не может :)
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 07:33 pm (UTC)(link)
Поучите их подтасовкам ещё.
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 07:34 pm (UTC)(link)
Вы не посмотрели результаты?

[identity profile] misha-b.livejournal.com 2015-05-04 07:37 pm (UTC)(link)
Да ладно, уж как-нибудь без меня обойдутся.
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 07:43 pm (UTC)(link)
Эффект уменьшается с увеличением размера района, но распределение мне неизвестно. Поэтому я взял заведомо более выгодные размеры. Если уж с ними не удастся вытянуть нуль в два раза, то с добавлением больших районов это ещё более сомнительно.

[identity profile] easternwestern.livejournal.com 2015-05-04 07:51 pm (UTC)(link)
Вы видимо имеете ввиду ваши старания из вот этой серии:
Ну вот если размер района распределён равномерно от 1000 до 1500, и количество голосов в каждом районе распределено равномерно от 95% до 99%, то получаем

А в Белоруси вообще есть хоть один район с от 1000 до 1500 голосов? И даже учитывая что районы с количеством избирателей в несколько тысяч таки есть, это самые маленькие уникальные случаи, а не средние. Та же ситуация с "от 95% до 99%". Если вы будете использовать реальные размеры районов и реальные % Лукашенко, то у вас абсолютно точно получится что вероятности цифр практически равны. Ну допустим вероятность "0" будет в 1.0004 раза больше "7", что с того?

[identity profile] kireev.livejournal.com 2015-05-04 07:57 pm (UTC)(link)
Кстати, я насчитал всего 10 районов, где у Лукашенко было более 90%, почти все везде чуточку больше 90%. В одном было 97%.
ext_605364: geg MOPO4 (Default)

[identity profile] gegmopo4.livejournal.com 2015-05-04 07:58 pm (UTC)(link)
Вы просили поржать, а теперь недовольны. Вам не угодишь.

[identity profile] easternwestern.livejournal.com 2015-05-04 08:39 pm (UTC)(link)
Вы таки правы.

[identity profile] a-yaro.livejournal.com 2015-05-05 08:54 am (UTC)(link)
Так Лукашенко сам признавался, что приходится даже отнимать, т.к. например деревня, там 100 избирателей, пенсионеры и работники колхоза, в комиссии или учителя местной школы или люди из правления колхоза, с вероятностью 100 %, что там будут все 100 за Лукашенко, все с подсказки этих в комиссиях, не фальсификация, но административный ресурс и приходится отнимать, а в городах приходится добавлять.

[identity profile] kireev.livejournal.com 2015-05-05 12:24 pm (UTC)(link)
Это он говорил не о выборах 2010 г., а о прошлых выборах. И хотя это признание в фальсификациях, что является уголовным преступлением, это была тоже неправда, разумеется: никто там у Лукашенко не убавлял, а только прибавляли. Это троллинг, который и Назарбаев стал использовать http://mskbabr.com/?IDE=135225

О президентских выборах в Белоруссии (+обязательно смо

[identity profile] livejournal.livejournal.com 2015-10-12 11:45 pm (UTC)(link)
User [livejournal.com profile] rudy_de referenced to your post from О президентских выборах в Белоруссии (+обязательно смотреть комментарии!) (http://rudy-de.livejournal.com/252019.html) saying: [...] прошлый раз, и последующие результаты по районам подтвердили, что результаты просто рисовались (раз [...]