Анализ результатов выборов в Мосгордуму
Oct. 12th, 2009 10:49 amХороший статистический анализ прошедших выборов в Мосгордуму. Особенно мне понравилася вот этот график зависимости голосования за партии и явки. Тут сразу видно в пользу кого был вброс.
Но я пошел еще дальше. Я собрал данные вообще по всем участкам (да, их более трех тысяч) . И тут корреляция видна вобщем-то не хуже. Что такое корреляция 0,41 между явкой и голосованием за ЕдРо можно продемонстрировать и так. Я подсчитал суммарные данные по 146 участкам, где явка составила менее 20%, то есть там где вбросов не было или же они были совсем минимальны. Результаты такие:
Единая Россия 46,4%
КПРФ 21,0%
ЛДПР 9,8%
Яблоко 8,3%
Справедливая Россия 8,0%
Патриоты 3,1%
Вполне допускаю, что это достаточно продвинутые участки, скажем, тут и МГУ и некоторые другие престижные участки (поэтому тут Яблоко даже обошло СР), поэтому там, возможно, и члены участковых комиссий менее наглые, а контроль лучше.Но тем не менее, эти участки дают нам представление о раскладе сил, если бы не было массовых вбросов за ЕР. Вполне допускаю, что у ЕР было бы несколько больше этого. Лично я для себя, как точку отсчета, определил такие настоящие результаты этих выборов: ЕР 50%, КПРФ 20%, ЛДПР 9%, СР 8%, Яблоко 7%, Патриоты 3%. Единая Россия могла бы одержать на этих выборах победу без фальсификаций. Но вбросы были настолько значительны и настолько изменили результат выборов, что безусловно ставят под сомнение легитимность этой Думы. С другой стороны, те, кто считает что на самом деле победила бы КПРФ, или ЕдРо набрало бы совсем мало, тоже живут явно на "другой планете".

Но я пошел еще дальше. Я собрал данные вообще по всем участкам (да, их более трех тысяч) . И тут корреляция видна вобщем-то не хуже. Что такое корреляция 0,41 между явкой и голосованием за ЕдРо можно продемонстрировать и так. Я подсчитал суммарные данные по 146 участкам, где явка составила менее 20%, то есть там где вбросов не было или же они были совсем минимальны. Результаты такие:
Единая Россия 46,4%
КПРФ 21,0%
ЛДПР 9,8%
Яблоко 8,3%
Справедливая Россия 8,0%
Патриоты 3,1%
Вполне допускаю, что это достаточно продвинутые участки, скажем, тут и МГУ и некоторые другие престижные участки (поэтому тут Яблоко даже обошло СР), поэтому там, возможно, и члены участковых комиссий менее наглые, а контроль лучше.Но тем не менее, эти участки дают нам представление о раскладе сил, если бы не было массовых вбросов за ЕР. Вполне допускаю, что у ЕР было бы несколько больше этого. Лично я для себя, как точку отсчета, определил такие настоящие результаты этих выборов: ЕР 50%, КПРФ 20%, ЛДПР 9%, СР 8%, Яблоко 7%, Патриоты 3%. Единая Россия могла бы одержать на этих выборах победу без фальсификаций. Но вбросы были настолько значительны и настолько изменили результат выборов, что безусловно ставят под сомнение легитимность этой Думы. С другой стороны, те, кто считает что на самом деле победила бы КПРФ, или ЕдРо набрало бы совсем мало, тоже живут явно на "другой планете".

no subject
Date: 2009-10-13 08:27 pm (UTC)логика такая (поправьте, если я не прав):
зафиксированны вбросы (есть доказательства) и прочая нечисть на каком-то количестве участков. выдвигается гипотеза, что это беззаконие творится повсеместно, делается статистический тест, который эту гипотезу не отвергает.
так?
no subject
Date: 2009-10-13 08:37 pm (UTC)no subject
Date: 2009-10-13 08:53 pm (UTC)no subject
Date: 2009-10-13 09:00 pm (UTC)no subject
Date: 2009-10-13 09:07 pm (UTC)Statistical hypothesis testing, which involves a number of steps, is used to decide whether the data contradicts the null hypothesis. This is called significance testing. A null hypothesis is never proven by such methods, as the absence of evidence against the null hypothesis does not establish its truth. In other words, one may either reject, or not reject the null hypothesis; one cannot accept it.
Статистическая проверка гипотезы, включающая несколько этапов, используется для выяснения, противоречат ли данные гипотизе. Это называется проверка на значимость. Нуль-гипотезу нельзя доказать таким методом, ибо отсутствие данных против гипотезы не устанавливает её правдивость. Другими словами, можно либо отвергнуть, либо не отвергнуть нуль-гипотезу, но никак не принять её.
no subject
Date: 2009-10-14 02:44 am (UTC)Вчера у меня болела голова и я принял аспирин. Головная боль прошла, и, насколько я знаю, медицинские статистические исследования показывают, что прием аспирина снимает головную боль. Некоторые врачи утверждают, что существует некий химический механизм действия аспирина. Однако, как известно каждому приверженцу богини Афины, снимать головную боль может только она. Таким образом, статистические исследования медиков могут быть объяснены тем, что принятие аспирина является жертвой угодной богине и помогает привлечь ее внимание к недугу.
Надеюсь вы не станете спорить с тем, что "чисто статистически" химическая и афинофильская теории, в данном случае, неразличимы? Безусловно, врачи будут настаивать на первой, а мы (афинофилы) на второй: она ведь так просто объясняет имеющиеся данные, не правда ли?
no subject
Date: 2009-10-14 04:27 am (UTC)нуль-гипотеза, что от аспирина нету толка опровергается данными из второй группы. в этом всё фишка научных исследований, что должна быть контрольная группа.
no subject
Date: 2009-10-14 05:43 am (UTC)В нашем случае тут тоже вполне себе отвергается нуль-гипотеза, что явка и голосование за ЕР вообще не связаны. Ее можно отвергнуть, почти наверняка (сам статистический анализ не проводил, но на глазок) с вероятностью процентов 99. Наличие контрольной группы вам даст только тоже самое: вероятность, что таков результат случаен (что у принимавших аспирин голова не болела, а у не принимавших - болела) всегда будет (при подкидывании монетки 100 раз с положительной вероятностью все 100 раз абсолютно честно будет решка). Другой вопрос, что эта вероятность ничтожна - ну так она ничтожна в обоих примерах, и с аспирином и плацебо, и с голосованием. Это все та же самая статистика, роль контрольной группы тут играют участки с низкой явкой. Да, естественно, если бы не было вариации в явке, то сказать было бы ничего нельзя: но тут вариация есть. Да, это не лаборатория, контролируется тут меньше, поэтому исследования менее точные, требуют большего числа данных (здесь их достаточно) и, на самом деле, более сложных статистических методов (просто подсчет корреляций, конечно, не дело; здесь правда, на самом деле результаты регрессии даны, но, вообще говоря, надо хотя бы confidence intervals рассчитывать, но оно тут настолько очевидно, что простим неряшливость), но принципиальной разницы тут нет. Исследования с лабораторным контролем, в конечном итоге, дают точно такие же статистические утверждения, что и здесь.
Безусловно, отсутствие лабораторного контроля делает более сложным определение причинно-следственной связи (хотя и тут есть методы, я там в соседней подветке ссылку дал), но сам факт неслучайности связи (без ее направления) тут можно считать установленым с очень высокой вероятностью (в отличие от случайной корреляции на 6 точках в приведенном вами графике). Да, интерпретация лабораторных результатов, как правило, проще (я и сам предпочитаю лабораторные эксперименты с контролем), но тот факт, что что астрономы не могут, в отличие от просто физиков, загнать своих подследственных в лабораторию и потушить на пару минут Альдебаран, не делает астрофизику лженаукой.
"Доказать" именно "вброс" никакому статистическому анализу не под силу. Вброс это, конечно, только теория - но теория, объясняющая данные очень неплохо. Хотя, конечно, вполне возможно, что данные, на самом деле, сгенерированы волей Перуна.
no subject
Date: 2009-10-14 08:16 am (UTC)1) человек принял аспирин(плацебо, ничего) до того, как у него прошла голова
2) процент излечения в основной группе значительно выше, чем в контрольных
Из данных о выборах можно сделать вывод, что большая корреляция между явкой и голосами за ЕР вряд ли случайна. Вот и всё. Может ЕР целенаправленно агитировала тех, кто вообще не хотел идти? А может ЕР агитировала в районах, где ожидалась большая явка?
И тут ещё один нюанс: даже если корреляции не было бы, это не опровергало бы модель вброса. Просто вброс в этом случае был бы умным, с учётом предполагаемого распределения.
no subject
Date: 2009-10-14 01:10 pm (UTC)Ну а так, я с вами соглашусь. На определеном уровне кому-то оно по барабану:
1) там где выше явка - больше голосов у ЕР
2) ЕР Думу контролирует.
А уж почему так - Перун его знает :)
no subject
Date: 2009-10-14 03:56 pm (UTC)для обвинения -- это не аргумент. для возбуждения дела -- это тоже не аргумент, все эти жалобы на вбросы и фальсификации подаются кпрф-ом и ко уже который год.
единственное, для чего годятся эти графики, так это возбуждать сетевое сообщество. проблема в том, что статистикой легко манипулировать, а значит и теми, кто не знает азов этой статистики. и всё, к чему я призваю, это относится критически к импликациям, типа "корреляция => вброс"
no subject
Date: 2009-10-14 06:05 pm (UTC)no subject
Date: 2009-10-14 01:23 pm (UTC)В общем, получается, что если вброс делать уши из статистики наверняка вылезут ;)
Хотя конечно, строго однозначных выводов на основании только статистики сделать нельзя. Если например предположить, что все кто не ходит на выборы всем довольны посему если уж по каким то причинам мы их выманиваем на избирательный участок они голосуют за правящую партию - будет строго та же картина.
no subject
Date: 2009-10-14 03:46 pm (UTC)но, имхо, сделать полученную корреляцию недостоверной реально. вопрос, сколько бы при этом получила ЕР, ну и вообще, куча вопросов. кстати, задача интересная сама по себе.
кстати, Вы натолкнули меня на мысль:
сделать закон, что тот, кто не пошёл на выборы без уважительной причины -- автоматически голосует за правящую партию. типа, раз ты молчишь - значит всё ок.
no subject
Date: 2009-10-14 03:58 pm (UTC)С законом - это будет не правильно, мало ли почему человек не пришел, в жизни всякое бывает. Предположение, что все кто не голосует за правящую партию вообще говоря не подтверждается. Самый сильный аргумент - данные различных опросов, они как правило, показывают рейтинги более менее сходные с результатами партий на выборах. А люди там выбираются по случайному принципу. Если бы все кто не голосует были бы за правящую партию она бы имела в опросах радикально больший рейтинг.
no subject
Date: 2009-10-14 04:08 pm (UTC)no subject
Date: 2009-10-14 05:39 pm (UTC)no subject
Date: 2009-10-14 05:50 pm (UTC)если принять этот закон, всё было бы легально, а значит меньше криков, споров и несогласий. и экономия на исках итд
Собственно, можно и на этом не останавливаться: постулировать, скажем, личное бессмертие Путина и его пожизненное (т.е. вечное) назначение на пост Царя всея РФ. Или Бога.
С легитимностью тоже проблем никаких.
Проблема, как обычно - с реальностью...
no subject
Date: 2009-10-14 10:37 pm (UTC)no subject
Date: 2009-10-14 11:16 pm (UTC)имхо, весьма интересное упражнение, посчитать с каким распределением нужно вбрасывать, чтобы не порвать статистику
(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:(no subject)
From:no subject
Date: 2009-10-13 09:09 pm (UTC)no subject
Date: 2009-10-13 09:11 pm (UTC)no subject
Date: 2009-10-14 09:29 am (UTC)Снимаю шляпу за спокойствие у обоих спорщиков.
no subject
Date: 2009-10-14 02:33 am (UTC)Корреляции никак ничего не доказывают. Они только подсказывают, где искать. Любая корреляция чем-то вызвана. Может быть, просто так карты легли (но тогда и контрольные группы не помогут - может быть, что все поедатели огурцов померли чисто случайно? может быть, все может быть). В случае с графиком про лимоны оно довольно вероятно - точек мало. В случае с графиком в этом посте оно крайне маловероятно. Да, конечно, нужно провести формальную проверку гипотезы (хоть простенькую OLS и посчитать confidence intervals) - но, вобщем, даже просто глядя на график очевидно, что гипотезу о том, что явка и голосование за ЕР несвязаны мы сможем отвергнуть с вероятностью, где-нибудь, 99.9%
Однако даже это не есть "доказательство" конкретной теории причинно-следственной связи. Формально возможно, например, что высокая популярность ЕР и вызывала повышеную явку. Чтобы проверить так ли это потребовалось бы что-нибудь более sophisticated. Тут цитировали уже википедию - вот вам ссылочка насчет IV
http://en.wikipedia.org/wiki/Instrumental_variable
Т.е., надо найти нечто, с явкой коррелирующее, а с голосами за ЕР напрямую нет. Например, можно было бы посмотреть на географическое расположение участков и посчитать среднее расстояние от домов до мест голосования. Тогда у нас был бы инструмент, позволяющий выяснить что вызвало чего: явка число голосов за ЕР или наоборот. Да, безусловно, здесь это не сделано.
Но даже если оно и сделано и показано, что большая явка вызывает повышеное голосование за ЕР, то все равно "доказательства" именно вброса нет. Чисто статистически "доказать" нельзя вообще ничего. С этой точки зрения вполне возможно, что аспирин не имеет болеутоляющего действия, но принятие его является жертвой угодной Афине, а уж богиня может (если совершить жертву) и боль снять. Так же, вообще говоря, возможно что повышеная явка отражает повышеную сознательность граждан, а повышеная сознательность, как все мы знаем, вызывает и повышеную популярность ЕР. На имеющихся данных различить эти две гипотезы невозможно. Т.е., формально ваш оппонент прав.
По сути: если он в это сам верит, я готов продать ему бруклинский мост :) Вобщем, если бы я ничего не знал об этих выборах, я бы сказал, что надо искать подтасовки и крайне бы удивился, их не найдя. Таких картинок, по опыту, в "эталонных" ситуациях не бывает, но они бывают при мухлеже. Политическая ситуация в России должна быть уж очень уникальной, чтобы такие картинки появились честно. Другой вопрос, что формально методологически он прав: корреляция - и даже формальная проверка гипотезы - тут ничего не "доказывает", а только подсказывает, где и чего искать. "Доказательством" в этом смысле может быть только поимка за руку. Все, что мы можем сказать, это то, что статистически появление такой корреляции почти наверняка не случайно, что она могла бы быть вызвана "вбросом", и что адекватных альтернативных теорий возникновения такой корреляции нам с вами неизвестно (но, увы, понятие адекватности субъективно - с точки зрения поклонников Афины неадекватна именно теория, что какой-то там порошок может без вмешательства богини помочь при головной боли).
no subject
Date: 2009-10-14 11:02 am (UTC)