Спасибо
altz_gamer за ссылку на исследование Анатолия Бондаренко о том, были ли фальсификации на президентских выборах на Украине. Вот какие результаты получились.
Первая картинка: распределение участков по явке на президентских выборах в Польше в 2005 г. Тут совешенно нормальное распредление, никаких аномалий. В идеале график именно таким и должен быть.

А в чью пользу эти "аномалии"? В пользу сразу двух главных кандидатов: Януковича и Тимошенко! Синим цветом тут показан Янукович, розовым - Тимошенко, а коричневым - Тигипко. У Тигипко распределение практически идеальное. Это логично: его электорат в больших городах, и на победу все же не расчитывал, и в его пользу никакого административного ресурса не было. А вот в пользу двух претендентов на победу он был.

Таким образом Бондаренко поставил под сомнение 400 тыс. голосов - почти 2% от всех. Не уверен, что все это фальсификации, но кое-где Тимошенко и Януковичу добавили, что, впрочем, сильно результат явно не изменило. Если, скажем, фальсификации на выборах в Мосгордуму можно признать тотальными, на президентских выборов 2008 в России ощутимыми, то в первом туре на Украине небольшими, а в Польше их не было. Правда, в оценке уровня фальсификаций на Украине я бы не хотел использовать слова "незначительные" или "маленье", потому что любые фальификации нуждаются в расследовании, а виновные должны быть наказаны.
Первая картинка: распределение участков по явке на президентских выборах в Польше в 2005 г. Тут совешенно нормальное распредление, никаких аномалий. В идеале график именно таким и должен быть.
А вот картина с явными аномалиями: президентские выборы в России 2008 г. Тут мы видим, во-первых, резкий скачок участков с 100% явкой, а во-вторых, пики на круглых числах явки - 60%, 70%, 80%, 90%, ну и 100%. Любовь к круглым числам уже не раз обсуждалась, и является еще одним доказательством, что как правило фальсификаторы являются не очень умными людьми, и поймать их не так уж и сложно.
На Украине тоже есть скачок на 100%, но это, видимо, особенность пост-советского пространства - много всяких спец-участков. Поэтому, если убрать участки с маленьким количеством избирателей, то скачка не будет, но останется "хвостик" (зеленым показано нормальное распределение участков по явке).
А в чью пользу эти "аномалии"? В пользу сразу двух главных кандидатов: Януковича и Тимошенко! Синим цветом тут показан Янукович, розовым - Тимошенко, а коричневым - Тигипко. У Тигипко распределение практически идеальное. Это логично: его электорат в больших городах, и на победу все же не расчитывал, и в его пользу никакого административного ресурса не было. А вот в пользу двух претендентов на победу он был.
Таким образом Бондаренко поставил под сомнение 400 тыс. голосов - почти 2% от всех. Не уверен, что все это фальсификации, но кое-где Тимошенко и Януковичу добавили, что, впрочем, сильно результат явно не изменило. Если, скажем, фальсификации на выборах в Мосгордуму можно признать тотальными, на президентских выборов 2008 в России ощутимыми, то в первом туре на Украине небольшими, а в Польше их не было. Правда, в оценке уровня фальсификаций на Украине я бы не хотел использовать слова "незначительные" или "маленье", потому что любые фальификации нуждаются в расследовании, а виновные должны быть наказаны.
no subject
Date: 2010-01-29 03:28 pm (UTC)Плюс особенности поведения, например, жителей малых сел - там все обязательно голосуют, в отличие от западных стран, и выходит перекос при показателях, близких к 100%.
no subject
Date: 2010-01-29 03:32 pm (UTC)no subject
Date: 2010-01-29 03:30 pm (UTC)no subject
Date: 2010-01-29 03:33 pm (UTC)no subject
Date: 2010-01-29 03:56 pm (UTC)no subject
Date: 2010-01-29 04:05 pm (UTC)no subject
Date: 2010-01-29 04:07 pm (UTC)Идея... попробую-ка я слабать модель, в которой человек идет на избирательный участок с шансом 66% и посмотрю, какая кривая нарисуется. Какое там обычное количество избирателей на участке и число участков?
no subject
Date: 2010-01-29 04:12 pm (UTC)no subject
Date: 2010-01-29 04:26 pm (UTC)Вот, что получилось.
Число участков 1000.
Число избирателей на каждом участке 5000 ровно.
Шанс прихода избирателя 66%.
В распределении почти все нули. Ненулевые члены:
arr[64]=62 (т.е. на 62 участках проголосовало 64%)
arr[65]=446
arr[66]=415
arr[67]=76
arr[68]=1
Очень узкий пик. Сейчас попробую варьировать размер участка...
no subject
Date: 2010-01-29 05:26 pm (UTC)Экспериментальные факты по моему опыту анализа выборов таковы:
- Ширина распределения участков по явке значительно больше, чем дает модель со случайной явкой избирателей. Видимо, гораздо больший вклад в ширину дает разброс вероятности явки от участка к участку.
- Реальное распределение участков по явке не является строго гауссовым (и не должно быть им, если подумать). В частности, края распределения сильно выше, чем у гауссова.
- Чем меньше оснований считать выборы фальсифицированными, тем распределение участков по явке симметричнее и "колоколообразнее".
no subject
Date: 2010-01-29 06:51 pm (UTC)Судя по графику, на выборах 2008 только 1 из 5 участков был честным.
no subject
Date: 2010-02-01 07:37 am (UTC)no subject
Date: 2010-01-29 04:54 pm (UTC)размер участка - случайное число от 10 до 1,000
активность на участке* - случайное число от 0,42 до 0,90 (среднее 0,66)
* с этим шансом избиратель приходит на этот участок
результат моделирования довольно странный:
no subject
Date: 2010-01-29 04:59 pm (UTC)Растянуть график так, чтобы по бокам хвосты "срезались" границами, не удается.
моделирующий код:
const int iu_count= 33000; const int iu_size= 5000; static int perc[101]; static int *arr; double chance= 0.66; arr= new int[iu_count]; int i, k, j; for(i= 0; i < iu_count; ++i) { int sum= 0; int iu_sz= random(10, 1000); chance= 0.66; for(j= 0; j < iu_sz; ++j) { if (random(0.0, 1.0) < chance) ++sum; } arr[i]= (sum * 100) / iu_sz; } for(k= 0; k <= 100; ++k) perc[k]= 0; for(i= 0; i < iu_count; ++i) ++perc[arr[i]]; delete [] arr;no subject
Date: 2010-01-29 05:06 pm (UTC)то же самое, но активность является случайной величиной, которая распределена приблизительно "нормально" на участке 0.00...1.32 с "обрезанием" по 1.0 (потому что активность выше 100% невозможна)
и вот тут оказывается похоже:
no subject
Date: 2010-01-29 05:25 pm (UTC)no subject
Date: 2010-01-29 06:38 pm (UTC)Активность на участке более 1 - это значит, что граждане пришли бы на участок в почти полном составе даже при меньшей мотивации. Но эта повышенная мотивация никак не может быть отражена, так как они не могут проголосовать дважды.
Вообще говоря, я не знаю, какая модель для активности правильная. Если посмотрите алгоритм моделирования, то там как бы каждый избиратель бросает жребий - идти на выборы или не идти. При сам бросок жребия использует некий шанс. Но какой? Для этого шанса непонятно, где взять модель.
no subject
Date: 2010-01-29 09:17 pm (UTC)Что-то эту часть я вообще не понимаю. Но модель, где есть скачок к 100% явно не может быть правильной.
no subject
Date: 2010-01-29 10:41 pm (UTC)Активность 0,1 - в текущей ситуации только 10% граждан придут на выборы.
Активность 0,5 - в текущей ситуации половина граждан придут на выборы.
Активность 1,0 - в текущей ситуации все граждане (окромя внезапно заболевших и т.п.) придут на выборы.
Активность 1,5 - в текущей ситуации все граждане (окромя внезапно заболевших и т.п.) придут на выборы, и также все бы пришли на выборы, если бы ситуация способствовала тому меньше, чем текущая (скажем, случился бы внезапный 35-градусный мороз).
no subject
Date: 2010-01-29 11:29 pm (UTC)no subject
Date: 2010-01-30 12:54 am (UTC)chance= randomNormal(0.0, 1.32);
...
if (random(0.0, 1.0) < chance) ++sum;
т.е. для участков, где выпадает 1.0 и более, явка сто-процентная, откуда и образуется этот пик.
no subject
Date: 2010-01-30 01:21 am (UTC)no subject
Date: 2010-01-30 08:26 am (UTC)no subject
Date: 2010-01-30 10:43 am (UTC)no subject
Date: 2010-01-29 05:37 pm (UTC)хомякжурнал все сожрал.не суть, вы и сами все понимаете.
no subject
Date: 2010-01-29 08:06 pm (UTC)no subject
Date: 2010-01-29 05:39 pm (UTC)no subject
Date: 2010-01-29 06:04 pm (UTC)no subject
Date: 2010-01-29 06:23 pm (UTC)в общем, консенсус здесь такой, что погешности, if any, в статистических пределах.
no subject
Date: 2010-01-30 01:08 am (UTC)ТВО №170, Харківська область, участок 80
ТВО №174, Харківська область, участок 45
ТВО №175, Харківська область, участок 63
ТВО №176, Харківська область, участки 94,95,96
на сайте цвк.
Явка близкая к 100% и 70-80% проголосовавших за Тимошенко в городе Харьков. При том, что в целом по городу Тимошенко взяла в районе 10%.
Если у кого-то есть возможность, было бы интересно выловить участки такого типа программно по всей стране, отсеять их, и только потом исследовать выборку.
Я предполагая, что это тюрьмы или воинские части.
Я предпо
no subject
Date: 2010-01-30 01:37 am (UTC)Это колонии и изоляторы.
ТВО №174, Харківська область, участок 45
ТВО №175, Харківська область, участок 63
Эти участки - последние в списке в этих округах. Обычно последними размещаются какие-то спец. участки.
no subject
Date: 2010-01-29 08:15 pm (UTC)Я вот тут данные по екзит-полам посмотрел, немножко усреднил. Получается, что три аномалии - но очень небольшие - наблюдаются. По Симоненко в +0,6% (голосование на дому?), по Тягныбоку -0,45% (непонятно), по "не підтримую жодного" -0,45% (не признаются?). По результатам Януковича и Тимошенко отклонения глубоко в рамках погрешности.
no subject
Date: 2010-01-29 05:42 pm (UTC)no subject
Date: 2010-01-29 09:20 pm (UTC)Исходные данные.
Date: 2010-01-29 07:47 pm (UTC)А можно ли получить Excel файл с исходнимы данными?
Тайной ведь они не являются - на сайте ЦВК есть, но ради удобства - чтобы перепроверить факты...
Re: Исходные данные.
Date: 2010-01-29 09:20 pm (UTC)Re: Исходные данные.
Date: 2010-01-29 10:26 pm (UTC)Плюс с сайта ЦВК убрали колонки о количестве внесенных в списки, скольким выдали бюлетни и сколько их потом в урне нашли, дате и времени подписания протокола и не исправленный ли он!
Пример когда данные играют роль = http://forum.pravda.com.ua/read.php?2,207305028
Я вынес бюлетень (домой, не карусель) - а его коммисия сдала по документам в окружную как будто ни в чем не бывало!
Re: Исходные данные.
Date: 2010-01-29 11:13 pm (UTC)Re: Исходные данные.
Date: 2010-01-29 11:55 pm (UTC)Простой пример - участок 114 округа 34. Это колония с 1480 избирателями.
Явка на ней явно что большая (чем еще там заняться). И таких участков - больших и с большой явкой - много!
Причем они смещены будет в сторону 100% явки.
Имеено той, которую по графикам показывают как 2% фальсификаций.
Вот почему очень важно видеть полные данные.
Предположение что явка случайна ошибочно. Есть систематическая ошибка выборки. А как результат и распределения не получаете идеального.
Re: Исходные данные.
Date: 2010-01-30 12:49 am (UTC)Re: Исходные данные.
Date: 2010-01-30 08:57 am (UTC)Но, не забывайте, что кроме колоний - есть спецучастки в больницах. В них явка будет не 100%, но тоже повышенная. И будет она за лидеров гонки - т.е. Януковича и Тимошенко.
Плюс есть средние участки в небольших селах. Там где все рядом. Тоже явка будет повышенной.
К сожалению данных с ЦВК полных сейчас нет - поэтому высказываю все это как предположения. Возможно в чем-то ошибочные.
К примеру моей ошибкой может быть то, что регионалы на автобусах организовывают подвоз избирателей. За счет контроля над бизнессом маршруток - можно увеличить явку в регионе.
Re: Исходные данные.
Date: 2010-02-01 07:39 am (UTC)стишок в тему
Date: 2010-01-30 12:06 am (UTC)Так называемых артистов.
Им несть числа, и мне, ей-богу,
Не до статистики статистов!
(А.П.Чехов)
Re: стишок в тему
Date: 2010-01-30 01:39 am (UTC)no subject
Date: 2010-01-31 05:49 am (UTC)