kireev: (Default)
[personal profile] kireev
Хороший статистический анализ прошедших выборов в Мосгордуму. Особенно мне понравилася вот этот график зависимости голосования за партии и явки. Тут сразу видно в пользу кого был вброс.

 
Но я пошел еще дальше. Я собрал данные вообще по всем участкам (да, их более трех тысяч) . И тут корреляция видна вобщем-то не хуже. Что такое корреляция 0,41 между явкой и голосованием за ЕдРо можно продемонстрировать и так. Я  подсчитал суммарные данные по 146 участкам, где явка составила менее 20%, то есть там где вбросов не было или же они были совсем минимальны. Результаты такие:
Единая Россия 46,4% 
КПРФ 21,0%
ЛДПР 9,8%
Яблоко 8,3%
Справедливая Россия 8,0%
Патриоты 3,1%
Вполне допускаю, что это достаточно продвинутые участки, скажем, тут и МГУ и некоторые другие престижные участки (поэтому тут Яблоко даже обошло СР), поэтому там, возможно, и члены участковых комиссий менее наглые, а контроль лучше.Но тем не менее, эти участки дают нам представление о раскладе сил, если бы не было массовых вбросов за ЕР.  Вполне допускаю, что у ЕР было бы несколько больше этого. Лично я для себя, как точку отсчета, определил такие настоящие результаты этих выборов: ЕР 50%, КПРФ 20%, ЛДПР 9%, СР 8%, Яблоко 7%, Патриоты 3%. Единая Россия могла бы одержать на этих выборах победу без фальсификаций. Но вбросы были настолько значительны и настолько изменили результат выборов, что безусловно ставят под сомнение легитимность этой Думы. С другой стороны, те, кто считает что на самом деле  победила бы КПРФ, или ЕдРо набрало бы совсем мало, тоже  живут явно на "другой планете".

Date: 2009-10-14 05:43 am (UTC)
From: [identity profile] gomberg.livejournal.com
А я и не утверждал, что между аспирином и головной болью нет связи: меня устраивают вероятностные утверждения, и с вероятностью 99% я спорить не буду. Я просто постулировал альтернативную гипотезу, что связь эта идет не через биохимические процессы (в которых я понимаю, как свинья в фуа гра), а посредством прямого вмешательства воинственной дочери Зевса. Исследования с плацебо эту гипотезу опровергнуть не могут: богиня не дура и плацебо от нравящегося ей аспирина отличит, жертву не примет и помогать не будет. Попробуйте теперь найти подходящую контрольную группу, чтобы мою гипотезу опровергнуть :)

В нашем случае тут тоже вполне себе отвергается нуль-гипотеза, что явка и голосование за ЕР вообще не связаны. Ее можно отвергнуть, почти наверняка (сам статистический анализ не проводил, но на глазок) с вероятностью процентов 99. Наличие контрольной группы вам даст только тоже самое: вероятность, что таков результат случаен (что у принимавших аспирин голова не болела, а у не принимавших - болела) всегда будет (при подкидывании монетки 100 раз с положительной вероятностью все 100 раз абсолютно честно будет решка). Другой вопрос, что эта вероятность ничтожна - ну так она ничтожна в обоих примерах, и с аспирином и плацебо, и с голосованием. Это все та же самая статистика, роль контрольной группы тут играют участки с низкой явкой. Да, естественно, если бы не было вариации в явке, то сказать было бы ничего нельзя: но тут вариация есть. Да, это не лаборатория, контролируется тут меньше, поэтому исследования менее точные, требуют большего числа данных (здесь их достаточно) и, на самом деле, более сложных статистических методов (просто подсчет корреляций, конечно, не дело; здесь правда, на самом деле результаты регрессии даны, но, вообще говоря, надо хотя бы confidence intervals рассчитывать, но оно тут настолько очевидно, что простим неряшливость), но принципиальной разницы тут нет. Исследования с лабораторным контролем, в конечном итоге, дают точно такие же статистические утверждения, что и здесь.

Безусловно, отсутствие лабораторного контроля делает более сложным определение причинно-следственной связи (хотя и тут есть методы, я там в соседней подветке ссылку дал), но сам факт неслучайности связи (без ее направления) тут можно считать установленым с очень высокой вероятностью (в отличие от случайной корреляции на 6 точках в приведенном вами графике). Да, интерпретация лабораторных результатов, как правило, проще (я и сам предпочитаю лабораторные эксперименты с контролем), но тот факт, что что астрономы не могут, в отличие от просто физиков, загнать своих подследственных в лабораторию и потушить на пару минут Альдебаран, не делает астрофизику лженаукой.

"Доказать" именно "вброс" никакому статистическому анализу не под силу. Вброс это, конечно, только теория - но теория, объясняющая данные очень неплохо. Хотя, конечно, вполне возможно, что данные, на самом деле, сгенерированы волей Перуна.

Date: 2009-10-14 08:16 am (UTC)
From: [identity profile] trashcom.livejournal.com
на определенном уровне абстракции нас мало волнует, почему после приёма аспирина перестаёт болеть голова. Мне, как потребителю, пофиг, например. Производителю аспирина, тоже, я думаю, по барабану. Главное в нашем эксперименте:
1) человек принял аспирин(плацебо, ничего) до того, как у него прошла голова
2) процент излечения в основной группе значительно выше, чем в контрольных

Из данных о выборах можно сделать вывод, что большая корреляция между явкой и голосами за ЕР вряд ли случайна. Вот и всё. Может ЕР целенаправленно агитировала тех, кто вообще не хотел идти? А может ЕР агитировала в районах, где ожидалась большая явка?
И тут ещё один нюанс: даже если корреляции не было бы, это не опровергало бы модель вброса. Просто вброс в этом случае был бы умным, с учётом предполагаемого распределения.

Date: 2009-10-14 01:10 pm (UTC)
From: [identity profile] gomberg.livejournal.com
Вы абсолютно - и абсолютно тривиально - правы. С этим-то никто не спорит: доказательства причинно-следственной связи корреляции не дают (хотя, IV тут помогут). Но в сочитании со всем прочим известным они очень на что-то намекают: где искать подсказывают. Железно мы тут ничего сказать не можем, но по совокупности оно вполне beyond reasonable doubt (reasonability is, obviously, subjective).

Ну а так, я с вами соглашусь. На определеном уровне кому-то оно по барабану:

1) там где выше явка - больше голосов у ЕР
2) ЕР Думу контролирует.

А уж почему так - Перун его знает :)

Date: 2009-10-14 03:56 pm (UTC)
From: [identity profile] trashcom.livejournal.com
единственное, что я хотел сказать, статистика -- это не аргумент. это хинт, но для узкого круга людей, к примеру, следователей.
для обвинения -- это не аргумент. для возбуждения дела -- это тоже не аргумент, все эти жалобы на вбросы и фальсификации подаются кпрф-ом и ко уже который год.
единственное, для чего годятся эти графики, так это возбуждать сетевое сообщество. проблема в том, что статистикой легко манипулировать, а значит и теми, кто не знает азов этой статистики. и всё, к чему я призваю, это относится критически к импликациям, типа "корреляция => вброс"


Date: 2009-10-14 06:05 pm (UTC)
From: [identity profile] gomberg.livejournal.com
Я не юрист, поэтому, наверно, термины использую неверно. Для возбуждения дела, наверно, статистических улик недостаточно. Для проведения неких следственных действий - более чем. Учитывая массовость элеекторального процесса, то это не для узкого круга людей, а вполне для широкого. Информация сродни тому, что в городе Н. стали массово пропадать люди. Нет, трупов не находили. Но хорошо бы двери запирать всем.

Date: 2009-10-14 01:23 pm (UTC)
From: [identity profile] sir66.livejournal.com
Статистически достоверный вброс сделать довольно сложно, почти невозможно. Во первых, уровень лояльности различных избирательных участков одной партии будет всегда различный. Где то все свои, где-то только некоторые, будут совсем неудобные участки на которых много дотошных наблюдателей от других партий так что вообще ничего не сделаешь и так далее. Во вторых, правильный размер вброса зависит от явки, а это значит, что вбрасывать нужно или постепенно постоянно следя за количеством или в самом конце. Просто вбросить один раз пачку поймав удобный момент кода все нежелательные свидетели ну например на обед ушли уже не получается. Тут правда можно просто тупо ориентироваться на прогноз.

В общем, получается, что если вброс делать уши из статистики наверняка вылезут ;)

Хотя конечно, строго однозначных выводов на основании только статистики сделать нельзя. Если например предположить, что все кто не ходит на выборы всем довольны посему если уж по каким то причинам мы их выманиваем на избирательный участок они голосуют за правящую партию - будет строго та же картина.

Date: 2009-10-14 03:46 pm (UTC)
From: [identity profile] trashcom.livejournal.com
я не знаю, что такое статистический достоверный вброс, т.к. не знаю, какие свойства должны быть у статитстики честных выборов.
но, имхо, сделать полученную корреляцию недостоверной реально. вопрос, сколько бы при этом получила ЕР, ну и вообще, куча вопросов. кстати, задача интересная сама по себе.
кстати, Вы натолкнули меня на мысль:
сделать закон, что тот, кто не пошёл на выборы без уважительной причины -- автоматически голосует за правящую партию. типа, раз ты молчишь - значит всё ок.

Date: 2009-10-14 03:58 pm (UTC)
From: [identity profile] sir66.livejournal.com
Ну по крайней мере отсутствие кореляции явка- процент голосующих за партию для всех партий.

С законом - это будет не правильно, мало ли почему человек не пришел, в жизни всякое бывает. Предположение, что все кто не голосует за правящую партию вообще говоря не подтверждается. Самый сильный аргумент - данные различных опросов, они как правило, показывают рейтинги более менее сходные с результатами партий на выборах. А люди там выбираются по случайному принципу. Если бы все кто не голосует были бы за правящую партию она бы имела в опросах радикально больший рейтинг.

Date: 2009-10-14 04:08 pm (UTC)
From: [identity profile] trashcom.livejournal.com
а мы не предполагаем. мы постулируем: все кто не пришёл, голосовал за ЕР и корреляция на совести граждан. в принципе, так оно сейчас и есть, ибо если бы люди пришли, вбросить было бы сложнее. но если принять этот закон, всё было бы легально, а значит меньше криков, споров и несогласий. и экономия на исках итд

Date: 2009-10-14 05:39 pm (UTC)
From: [identity profile] sir66.livejournal.com
Логика понятна, но это перебор. Я бы скорее предложил тогда ввести обязательное голосование. Но тут есть нюанс - вброс это вообще говоря преступление. Такое же как например подмена одних биллютеней другими (а в суму его пустую кладут грамоту другую, классика). Да, махинации усложнятся, но альтерантивные методы подтасовки не отменяются. Те кто мог подтасовать одним способом подтасуют и другим. Нужны другие подходы в принципе исключающие подтасовку.

Date: 2009-10-14 05:50 pm (UTC)
From: [identity profile] abba65.livejournal.com
Тогда проще постулировать другой закон: ЕР - правящая партия навсегда, выборы (даже такие, как 11.10) не проводить!
если принять этот закон, всё было бы легально, а значит меньше криков, споров и несогласий. и экономия на исках итд

Собственно, можно и на этом не останавливаться: постулировать, скажем, личное бессмертие Путина и его пожизненное (т.е. вечное) назначение на пост Царя всея РФ. Или Бога.

С легитимностью тоже проблем никаких.
Проблема, как обычно - с реальностью...

Date: 2009-10-14 10:37 pm (UTC)
From: [identity profile] gomberg.livejournal.com
Следы мухлежа будут всегда: хорошая халтура плохо получается даже у профессионалов. Вспоминается случай (из совсем другой, невыборной, оперы - это небольшой профессиональный полускандал), когда все статистические огрехи вцелом по базе данных были учтены и не ловились, все статистики выглядели нормально. Но это только по базе вцелом. А вот если ее поделить пополам все выглядело стандартно ужасно. Другой вопрос, что для этого кому-то должно было прийти в голову посмотреть с пристрастием. В том конкретном случае, насколько я знаю, кое-кто из участников спьяну чего-то сболтнул. А уж дальше найти проблемы было делом техники (обойдусь без имен и конкретики, поскольку дальше статистически-обоснованых подозрений там официально пока не дошло).

Date: 2009-10-14 11:16 pm (UTC)
From: [identity profile] trashcom.livejournal.com
"Следы мухлежа будут всегда". Никто ещё не видел мухлежа без следов, ибо такой мухляж нельзя увидеть )
имхо, весьма интересное упражнение, посчитать с каким распределением нужно вбрасывать, чтобы не порвать статистику

Date: 2009-10-15 12:51 am (UTC)
From: [identity profile] gomberg.livejournal.com
Не справитесь :) Человеку очень плохо даются реально "случайные" числа. Да, конечно, картинки подобной этой не будет, придется вылавливать по аномалиям в незначимых цифрах после запятой или еще по чему-то столь же эзотерическому. Можно, конечно, написать какую-нибудь очень умную программу и надеяться, что она все предусмотрит, но вряд ли оно стоит выделки. Отличить разум от неразумного случайного процесса можно практически всегда - это даже когда все под контролем. А тут ведь еще и не все под контролем: пока что есть еще участки, где въедливые наблюдатели устраивают скандалы и которые проще оставить в покое. Ну, т.е., можно, наверно, взять официальные результаты где-нибудь в Вашингтоне (где 92% честно проголосовали за Обаму) и преподнести как свои - так ведь какой-нибудь зануда, вроде автора этого журнала, цифры в лицо узнает :)))

Да и нахрен оно не нужно тем кто этим занимается. Пока власть сильна, никакие статистические данные ей не угрожают. Умеренная степень нахальства тут даже полезна: чтоб боялись. А когда она ослабеет, то о том, что выборы сфальсифицировали уж слишком сильно мы раньше узнаем не из статистических данных, а из наблюдения эмпирического факта битья окон.

Date: 2009-10-15 01:56 am (UTC)
From: [identity profile] trashcom.livejournal.com
"Человеку очень плохо даются реально "случайные" числа."
на выходе я хочу получить детерминированную функцию, которая мне скажет сколько надо класть за ЕР, сколько за КПРФ, итд, чтобы не заскрюапить статистику. ничего случайного.

Date: 2009-10-15 02:30 am (UTC)
From: [identity profile] gomberg.livejournal.com
Ну вот и зарубите. С вероятностью неотличимой от 100%. Вы поймаете те параметры, которые зададите, но всех параметров вы не зададите никогда, слишком их много. Собственно говоря, так оно и в этот раз произошло: в прошлый раз их поймали на концентрациях результатов кратных 5%. В этот раз они этого избежали. Но ничего страшного - поймались на чем-то еще. В описаном мной примере (не выборном) задача была ссимулировать случайную последовательность типа 10100010000011111100000100101110011010. Симулянты были люди грамотные и знали, что человеку свойственно слишком часто менять единицы на нули 101011010010101 - в природе такого не бывает. У них все, вцелом, в этом оказалось, на вид, чисто: они данные подогнали под известные стандартные параметры. Поймали их на том, что они вначале переборщили с компенсацией этой человеческой особенности, а потом подгоняли в конце последовательности под правильные средние результаты. В нашем случае можно, например, учитывать порядок публикации результатов и получить нетривиальные и неправдоподобные зависимости от него :) Можно смотреть на распределение частоты сотых долей процента - есть классические следы мухлежа на них.

Если вы генерируете нечестно большой набор цифр, чего-то зарубите наверняка. Не в корреляции так в распределении. Не в среднем, так в вариации. А если будете уж слишком сильно подгонять под известные честные результаты, так подгоните и под какую-нибудь их настоящую особенность, в России отсутствующую (специалист по той стране, которую вы взяли за эталон найдет сходство с какой-нибудь необычностью, которую он пол жизни длля своей Фингалии объяснял, и заинтересуется, откуда в России такое же). Естественно, внимательно искать будут только потому что подозревают. Индусов никому и в голову не приходит проверять: там Избирком вне подозрений. Ну так они заслужили.

Впрочем, власти тут вполне достойные народа. Я как-то раз говорил с коллегой из одной не очень высокоразвитой страны (беднее Индии). Он хотел провести сравнительное исследование восприятия коррупции в России и заказал опрос какой-то из российских социологических компаний. Вобщем, он их как-то так и поймал: не опрашивали они, данные придумали из офиса не выходя. Практическое исследование коррупции получилось славное, жаль не опубликуешь.

Date: 2009-10-15 02:39 am (UTC)
From: [identity profile] trashcom.livejournal.com
В описаном мной примере (не выборном) задача была ссимулировать случайную последовательность типа 10100010000011111100000100101110011010. Симулянты были люди грамотные и знали, что человеку свойственно слишком часто менять единицы на нули 101011010010101 - в природе такого не бывает.

надо было сгенерить белый шум и они с этим не справились?

Date: 2009-10-15 04:20 pm (UTC)
From: [identity profile] gomberg.livejournal.com
Им нужно было, чтобы получился белый шум. Подозреваю, что часть данных были правдой, но не были белым шумом. Они "подправили", но не сделали с нуля. Сгенерить белый шум, там где не все под полным контролем очень сложно. Ну так нынешние выборы - тот самый случай.

February 2026

S M T W T F S
1234567
891011 121314
15161718192021
22232425262728

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Feb. 26th, 2026 09:05 pm
Powered by Dreamwidth Studios