kireev | Являются ли опросы с выборкой 1600 человек "филькиными грамотами"?

Совершенно не ожидал такого невежества о том, что такое опросы, выборка и как они работают, от

germanych. Вот его критика выборки опросов в 1600 человек, которые он называет "филькиными грамотами":

1600 человек, Карл! В 137 населённых пунктах в 48 регионах. Это по 10-12 человек на населённый пункт и 30-35 человек на регион. На регион, Карл!

Такую выборку репрезентативной может считать только полный неук, который млеет от непонятных слов «репрезентативная выборка». Нет, вы правда считаете, что опрос по 10-12 человек на населённый пункт – это репрезентативная выборка? Или вы просто придуряетесь?

Я на самом деле такой аргумент слышал не раз: как тысяча (две или три) человек могут отражать мнение 145 миллионов? Причем, все же в ЖЖ как правило люди с высшим образованием и все равно такая детская простота. Но что тут говорить, когда, скажем, даже закончивший МГУ человек может писать такое. Но дальше

germanych пишет:

я закончил ВУЗ, который назывался экономико-статистическим.

На что я написал, что это еще более ужасно.

Я там привел лишь одно доказательство того, что такие суждения - полная чушь. Я привел пример с результатами выборов: это мне ближе и это сравнение данных опросов с тоже по сути опросами, но когда опрашивают миллионы людей и значительную часть населения. То есть это лучше всего помогает понять насколько опросы отражают реальное мнение людей. Помните как совпали опросы в первом туре во Франции? На самом деле все семь последних опросов очень точно показали результаты.

germanych думает, что это может быть просто совпадением. Все семь по четырем главным кандидатам, то есть по 28 позициям. И это при выборке от 1 до 2.8 тыс. человек. Нет, конечно, теоретически это может быть и совпадение. Но мы можем посмотреть и прошлые президентских выборов 2012 г.: отклонений чуть больше, но тем не менее опросы дали неплохую картину, это явно не случайный набор цифр. Можем и до этого смотреть, будут и определенные отклонения, но в целом, опросы во Франции однозначно отражают общественное мнение, и их невозможно назвать "филькиными грамотами". Минутку, но то во Франции, может быть она непоказательна, можно ли лишь на примере Франции говорить, что в принципе опросы с такой выборкой могут отражать общественное мнение? Да, именно так: это можно утверждать лишь на одном этом примере. Если во Франции с населением в десятки миллионов человек опросы с выборкой 1-3 тыс. человек, отражают общественное мнение, то значит, сама по себе такая выборка является достаточной. В других странах может быть иначе, но это уже тогда не проблема выборки, а особенности других стран или их опросов.

На самом деле, конечно, опросы хорошо отражают общественное мнение далеко не только во Франции, это только один хороший пример. На самом деле список выборов, на которых опросы очень даже хорошо предсказывают результаты выборов, огромен. Скажем, опросы часто хорошо работают в Германии, например, сравните их с результатами прошлых выборов. Или с результатами позапрошлых выборов. Даже последние опросы в Иране и то были очень хороши! Даже последний предвыборный опрос Левада-центра перед думскими выборами 2016 г. был очень приличным с учетом фальсификаций и преувеличения голосования за ЕР. Выборка все та же - 1600 человек, и этот опрос дал хорошее представление о настроениях россиян.

Разумеется, этот список неполный. И есть список выборов, на которых опросы в той или иной степени плохо показали результат: и такое запомоминается чаще. Но опросы и не могут всегда попадать в результат: это невозможно, и дело тут не только в качестве опросов, но и в массе других факторов: опросы фиксируют общественное мнение до выборов, а оно находится в динамике и часть избирателей определяется в день выборов или прямо на участке. Одни опрашиваемые придут на выборы, а другие не придут. А с другой стороны, часть тех, кто сказал, что не придет или не знает, вдруг придет. Респонденты могут стесняться озвучивать свои предпочтения. В ряде стран, в том числе в России и в США, значительная часть или даже большинство контактируемых вообще не идет на контакт с интервьюерами, то есть опрашивается меньшая часть тех, кто был проконтактирован. И т.д. и т.п. Могут быть и проблемы с самими опросами, которые не имеют никакого отношения к размеру выборки.

У нас будет длинный список выборов, на которых опросы хорошо себя показали и длинный список выборов, на которых опросы плохо себя показали. Причем, как пример второго сразу же ожидаемое в комментах указали на президентские выборы в США 2016 г.:

Достаточно вспомнить примерно 100% опросов, которые перед выборами в США отдавали подавляющее преимущество Хиллари.

Тут неверное чуть ли не каждое слово. Не 100%, не подавляющее и Хиллари победила по popular vote: то есть в список войдут выборы, на которых Хиллари набрала на 2.1% больше Трампа, а опросы показали на 3.3% от +6% у Клинтон до +2% у Трампа. Большинство же опросов уложилось в их стат. погрешность и это в стране с населением в два раза больше, чем в России. Но а по штатам? Да по штатам опросы были хуже, хотя население штатов всегда значительно меньше, чем население страны и по идее должно быть наоборот, ведь тогда опрос с такой маленькой выборкой должен быть несколько более репрезенативен. Но дело там было явно не в маленькой выборке, а в проценте белых с высшим или без высшего образования. Далее и

germanych пишет, что опросы показывали "уверенню победу Хиллари Клинтон", что с головой выдает в нем полного профана в этом вопросе: нет не показывали, а уверенная победа в электоральном колледже - это не то же самое, что уверенная победа в голосах избирателей, с чем надо сравнивать опросы, так как даже победа в трех штатах с отрывом в менее 1% может дать уверенную победу в электоральном колледже, что и было на этих выборах. То есть если опросы показали, скажем, небольшой перевес кандидата в нескольких штатах, а другой кандидат с минимальным перевесом победил в этих штатах, то само по себе отклонение небольшое, но оно приводит к большим последствиям в такой системе, когда победитель получает все голоса выборщиков штата, в том числе большого штата.

Кстати, если уж зашла речь об опросах по штатам. Gallup в своих ежедневных опросах спрашивал об одобрении Трампа. И за первую половину 2017 выдал результаты по штатам 81 тыс. человек: это как раз выборка обычного опроса для среднего штата: штат с население 6 миллионов должен иметь выборку примерно 1600 человек. Тут результаты настолько были похожи на результаты президентских выборов, что я даже не стал об этом отдельный пост делать. Надо же, явно справились с такой небольшой выборкой для каждого штата: а ведь многие штаты и даже в пределах городов тоже имеют крутейшие контрасты и по уровню доходов, по расам, образованию и т.д. И ничего, эти результаты явно отражают реальность.

Мне кажется, все, кто более-менее внимательно следит за выборами и опросами может даже без всяких примеров понять, что опросы бывают разные и точность или неточность у них бывает разная, но их результаты точно не случайны и во многих случаях действительно отражают общественное мнение не смотря на то, что они опрашивают мизерное число людей по сравнению с числом жителей стран, в том числе и мизерное число жителей для каждого населенного пункта. Конечно, опрос в 1600 человек не сможет отразить мнение каких-то небольших слоев населения, но страны - вполне.

Далее

germanych откровенно не просто перевирает то, что я сказал до этого, но приписывает мне полностью противоположное тому, что сказал я:

=И верить в то, что трёх десятков опрошенных достаточно для того, чтобы узнать мнение целого региона.=

А вот что до этого сказал я, сравните:
И выборка 10-12 на населенный пункт совершенно точно может быть репрезенативной, потому что репрезентативная она не для каждого отдельного населенного пункта, а для всей выборки по стране.

После того, как

germanych приписал мне полностью противоположеное тому, что написал я, он меня забанил, потому что я "хамлю", в смысле назвал его полным профаном. Профан - человек, совершенно несведущий в чем нибудь, невежда в какой нибудь области. Я вот полный профан в 99% областей человеческих знаний. Высказанные

germanych суждения выдают в нем профана в этой области, хотя в других он явно хорошо разбирается. Это может быть и обидно для него, но это так. Может быть случится чудо, он прочитает то, что написал я, и разбанит меня с глубочайшими извинениями?

Threaded | Top-Level Comments Only

From:

yaceya.livejournal.com

В России (и, соответственно, в головах россиян) со статистикой всегда дело плохо было. Да и не только в вопросе выборки - советский подход к "деланию статистики" по любой мало-мальски политической теме вообще убивал статистику больше чем любая политическая кампания против чего-нибудь. Так же в российский "common knowledge" кроме общей идеи о лживости статистики легко проникают мемы подтверждающие это.
Ну а что забанил, ну так а чего ещё хотеть в жежешечном бложике?

From:

lx-photos.livejournal.com

Годный псто.

From:

athanatoi.livejournal.com

Вы все правильно написали

Дополню только, что существует формула, по которой можно рассчитать число опрашиваемых для конкретной страны и с необходимой точностью и доверительным интервалом. Человек, занимающийся статистикой, обязан эти методологические вопросы знать.

И ещё. Случаи ошибок в опросах связаны как правило с ненадлежащим качеством технической процедуры опроса. Франция страна с самой сильной социологической школой, поэтому там таких косяков нет

Edited Date: 2017-08-17 04:22 pm (UTC)

From:

abba65.livejournal.com

Надежда на "разбанит меня с глубочайшими извинениями" - такое же невежество, как суждение germanych о выборках.

From:

crower

В статистике немало контр-интуитивных и нетривиальных вещей, которые могут выглядеть простыми. Отсюда нередко "понимание" видимости, а не сути.

PS. Называть профаном, imho, это ad hominem. ;)

From:

dmitrykogan.livejournal.com

Ключевой момент здесь - демографическое взвешивание, именно оно обеспечивает точность оценки и позволяет сократить размер выборки. Проблема в его качестве. В стабильных странах с устоявшимися традициями оно хорошо работает, в российском хаосе - едва ли. Тот же Левада отмечал, что определить политическую ориентацию человека по его демографии практически невозможно, скажем, западники растворены по всем возрастам, полам, образованиям и т.д. Так что относительно России этот парень прав

From:

kireev.livejournal.com

Западники как раз не растворены по всем образованиям: их больше среди людей с высшим образованием, это и результаты выборов всегда показывают. Да и процент голосов за западников - демократические партии, в российских опросах как раз не так уж сильно занижался или завышался. Единственный случай, который я припомню, это недооценка Яблока в 2011 г. Во всех других случаях его рейтинг и рейтинг СПС был сопоставим с их результатами на выборах.

From:

yaceya.livejournal.com

В любой стране случаются такие косяки. В той же Франции, насколько помню, знаментый выход во второй тур Ле Пен произошел при заметной недооценке количества его избирателей. Из-за величины разрыва Жоспен с командой явно расслабились - видел оценку что недооценка риска пролететь мимо второго тура привела к понижению явки сторонников Ширака и Жоспена на 15-18%.
Промашка опросов по Брекзиту и Трампу была куда меньшей. А случаи ошибок в таких странах как правило связаны с тем, что провести сферический опрос в вакууме нельзя - единой sampling frame хорошо отражающей население нет (приходится компилировать из ряда частично перекрывающих популяцию), доступность у разных групп разная, non-response варьируется - и чтобы обойти все эти сложности приходится делать большое число предположений, базирующихся на эксперном мнении.

From:

kireev.livejournal.com

Ле Пен в 2002 г. это действительно ошибка, но не такая уж и большая, если учесть динамику: у Ле Пена рейтинг стабильно рос, а у Жоспена стабильно падал - это прекрасно видно на графике https://en.wikipedia.org/wiki/Opinion_polling_for_the_French_presidential_election,_2002

From:

dmitrykogan.livejournal.com

Растворены еще как, многократно подтверждалось. Про высшее образование - такая же иллюзия, вся вертикаль власти и ее многочисленная обслуга с высшим образованием. Или, скажем, штабы Навального показали, что волонтеров в маленьком городке может быть больше, чем в областнойм центре, и никакая демография это не показывает. А уж с результатами выборов социологи лажают ВСЕГДА, вклюсая того же Леваду (в смысле по сравнению с очищенными от фальсификаций оценками). Короче, в России стандартная социология бесполезна

From:

almarrus.livejournal.com

>что написал я, он меня забанил

да для него это не впервой. Слишком напыщенно себя ведет без достаточных на то оснований.

From:

yaceya.livejournal.com

Не спорю, но то что база что Ширака, что Жоспена недооценивала необходимость прийти на первый тур вроде достаточно устоявшееся мнение специалистов.
p.s. В любом случае, это был в первую очередь пример

Edited Date: 2017-08-17 06:05 pm (UTC)

From:

kireev.livejournal.com

=Про высшее образование - такая же иллюзия, вся вертикаль власти и ее многочисленная обслуга с высшим образованием.=

Какая еще иллюзия, если это подтверждают буквально все результаты выборов? Голосование за Яблоко и демократов почти точно совпадает с географией лиц с высшим образованием. И у того же Навального в Москве была сильнейшая корреляция с высшим образованием. А по волонтерам - где-то может быть больше в маленьком городе, но есть ли у Вас такая полная статистика?

=А уж с результатами выборов социологи лажают ВСЕГДА=

Я подозреваю, что у Вас просто свои представления о настоящих результатах выборов, с которыми эти опросы не совпадают. Но даже в том случае, если Вы считает, что в 2016 г. ЕР получила гораздо меньше, чем считаю я, то Левада вполне прилично показал пропорции голосования за остальные партии.

From:

athanatoi.livejournal.com

По Шираку и Ле Пену просто не знаю, поэтому не могу сказать.

По второй части - социология все же оперирует выборкой, а значит не может точно предсказать. И все же в большинстве описанных вами случаев отклонение было в рамках погрешности.

По поводу разных респонс рейт абсолютно согласен. Но уже и из этого делают выводы. И выборы во Франции подтверждают это

From:

yaceya.livejournal.com

Беда то в том, что делая выводы о них мы вносим дополнительное предположение. Ну и создание работоспособной sampling frame - больная тема для практикующих социологов. Поэтому кроме неточности из-за стохастической ошибки всё-таки время от времени вылезают систематические. Ну, в любом случае, я считаю соцопросы делом нужным и полезным, и уж точно что их нельзя отбрасывать мотивируя тем что "1600 человек - это недостаточно".

From:

athanatoi.livejournal.com

Если они даже и растворены равномерно в населении, то в выборке тоже будут растворены

From:

dmitrykogan.livejournal.com

В количественном анализе корреляция ничего не стоит, это качественный инструмент. Речь о том, что демографическое взвешивание при малой статистике - крайне ненадежная технология, и вся практика российских соцопросов это подтверждает. По роду своей деятельности я часто занимаюсь классификацией на реальных данных, и простая демография, как правило, очень слабый индикатор чего-бы то ни было. Поэтому социологи и полезли сейчас в соцсети и текстовый анализ, чтобы получить более надежные предикторы.

From:

kireev.livejournal.com

Давайте я заменю слово корреляция на простое объяснение: мы можем пойти буквально в любое место на участки (нефальсифицированные), где живет очень повышенный процент людей с высшим образованием, и мы практически всегда увидим повышенный процент голосования за прозападные партии. Говорит ли это о чем-то?

На счет демографического взвешивания при малой статистике в российских условиях - не скажу, но российские опросы прежде всего ошибаются в оценке голосования за власть, и причина тут явно в не в демографическом взвешивании.

From:

nikki4499.livejournal.com

а как на результат опросов влияет то что опрашивают только в рабочее время и только по домашним телефонам? когда дома только пенсы и домохозяйки поклонники зомбо ящика?

From:

kireev.livejournal.com

Во-первых, откуда Вы знаете кто, когда и как опрашивает? Во-вторых, выборку можно просто взвешивать. В-третьих, в США, скажем, большинство кампаний переключилось на мобильные телефоны в дополнение к стационарным, интересно, почему это не может работать в России? Я сам не знаю, просто спрашиваю.

From:

dmitrykogan.livejournal.com

Демографическое взвешивание использует корректирующие веса для проекции выборки на все население. В нестабильном обществе эта технология приводит к значительному искажению результатов. Например, если в опросе 2% незамужних женщин с высшим образованием, и при этом только 10% из них поддерживает Навального, а в целом их 5% от населения, то эта пропорция будет распространена на несколько миллионов прекрасных дам с коэффициентом 2,5, что вряд ли оправдано.

From:

yaceya.livejournal.com

Кстати, когда продолжали использовать обычные телефоны в США такие проблемы тоже были. Но на то и нужны специалисты, чтобы разработать обзвон так, чтобы всё-же получить похожую на реальность выборку. Детали того как именно этого достичь - это уже то за что занимающиеся делом профессионально получают зарплату. Эти ноу-хау имеют элементы искусства и меняются со временем.

From:

nikki4499.livejournal.com

это не секрет где и когда опрашивают) в России может работать все, но почему то не работает((

From:

no-mad.livejournal.com

Сведущий человек погуглит "Расчет выборки" и попробует или формулу или онлайн калькуляторы. Хорошо видно, что при надежности 99%, погрешности 3.5% и генеральной совокупности в 145млн. достаточно опросить всего 1358 респондентов.

From:

22he-travnya.livejournal.com

... в США, а тем более в UK не голосуют в общенациональном округе, точнее, в США есть подобие такого голосования в виде презвыборов, но отдалённое подобие, а в UK бывает и прямое соответствие голосования в общенациональном округе - референдумы, но их было слишком мало, чтобы социологи опыт накопили

Edited Date: 2017-08-17 10:24 pm (UTC)

From:

yaceya.livejournal.com

И каким образом особенности избирательной системы меняют предсказание popular vote? Предсказали то его неплохо (уж получше чем в приведенном примере с 2002 годом во Франции), значит опыта оказалось вполне достаточно. Как нормально предсказывают каждые выборы общенациональную поддержку консераторо и лейбористов в ЮК (не смотря на то что выборы происходят в отдельных округах).
В общем, извините, но я не понял сути уточнения.

From:

alexanderr.livejournal.com

sqrt(1600)=40, т.е. грубо можно оценить точность как 2.5%

From:

lex-divina.livejournal.com

Скоро в качестве показателя нерепрезентативности полуторатысячных опросов начнут приводить расхождения между соцопросами (в т.ч. экзит-поллами) и официальными результатами выборов в российскую Госдуму.

2016 год (https://ru.wikipedia.org/wiki/%D0%92%D1%8B%D0%B1%D0%BE%D1%80%D1%8B_%D0%B2_%D0%93%D0%BE%D1%81%D1%83%D0%B4%D0%B0%D1%80%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%83%D1%8E_%D0%B4%D1%83%D0%BC%D1%83_(2016))
Рейтинг "Единой России" по данным последнего предвыборного опроса ВЦИОМ - 44,3%.
Официальный результат "Единой России" - 54,2%.
Расхождение - в 1,22 раза.

А благодаря умелому использованию мажоритарно-пропорциональной системы формирования парламента 44,3% рейтинга ЕР были конвертированы не в 54% даже, а в 76% мандатов.

В обычных странах в периоды кризисов результаты правящей партии на выборах снижаются, а в России они неуклонно растут. Потому что суверенная демократия и особый путь.
Однако данные соцопросов этого роста в полной мере не отражают. Что ж, тем хуже для данных.

From:

kireev.livejournal.com

Я вижу 44.3% за 3 июля, по последнему 41.1%, но это от всех опрошенных, а не от голосующих и определившихся с выбором. Так что реально там рейтинг ЕР был завышен.

From:

tash-v.livejournal.com

Возможно, проблема в том, что ваш оппонент говорит о ситуации с опросами в России, а вы пытаетесь иллюстрировать ошибочность его выводов на основе данных по западным странам. Просто отождествляете "как должно быть" с "как оно есть на самом деле".

Но я сильно сомневаюсь, что в западных странах опросы проводятся только по номерам домашних телефонов и только в рабочее время суток. По крайней мере в США я такого не наблюдаю. Если опрос производится, то это обычно делается в разные часы и дни (включая послерабочее время и выходные) и несколькими видами опроса (в том числе и анкетированием просто на улице) для охвата разных страт населения, а не только, грубо говоря, "неработающих домохозяек и пенсионеров".

From:

kireev.livejournal.com

Нет, проблема не в этом. Он ведь обозначил проблему малой выборкой, а она маленькая и в России и на Западе.

From:

irbis-s.livejournal.com

Я не перестаю (хотел сказать удивляться, но этот этап уже пройден) с интересом наблюдать, насколько серьезные проблемы с мышлением в головах у многих, вроде бы адекватных на вид, людей. Они готовы выдвигать сколь угодно дикие утверждения даже там, где вопрос лежит не в оценочной области, а в области точных наук.

Например, сторонники Путина просто не в силах признать, что идентичные, до десятых долей процента, результаты на сотнях участков одновременно в Саратове могут являться только фальсификацией. И это еще цветочки, но когда естественность данного события хором и искренне доказывают запутинцы с физ-мат образованием и соответствующей профессией, где-то с грохотом пробивается очередное дно.

Большинство людей - идиоты. Или становятся идиотами, когда разговор касается их священной коровы. Их не научили думать.

Edited Date: 2017-08-19 12:08 pm (UTC)

From:

athanatoi.livejournal.com

Теоретически такой риск есть.
Но в действительности взвешивание по субкатегориям не проводится.

From:

http://users.livejournal.com/_peter_/

Ну так Хиллари победила на 3 млн голосов. Опросы не соврали )

На счет 10-12 человек на город. Так никто же и не публикует рейтинги по отдельным городам.

Мне для объяснения работы соц. опросов нравится фраза - "чтобы понять вкус супа достаточно попробовать одну ложку, а не съесть всю тарелку"