WikiDer > Допустимая погрешность

Margin of error

Плотности вероятности опросов разного размера, каждый из которых имеет цветовую кодировку 95% доверительный интервал (ниже), погрешность (слева) и размер выборки (справа). Каждый интервал отражает диапазон, в котором можно иметь 95% уверенности в том, что истинный процент может быть найден, если заявленный процент составляет 50%. В погрешность составляет половину доверительного интервала (также радиус интервала). Чем больше выборка, тем меньше погрешность. Кроме того, чем меньше заявленный процент от 50%, тем меньше погрешность.

В погрешность статистика, выражающая количество случайных ошибка выборки в результате опрос. Чем больше погрешность, тем меньше уверенности в том, что результат опроса будет отражать результат опроса всего численность населения. Предел погрешности будет положительным, если совокупность не полностью выбрана, а результат измерения положительный. отклонение, то есть мера варьируется.

Период, термин погрешность часто используется в контексте, не связанном с опросом, чтобы указать ошибка наблюдения в отчетности измеренных величин. Он также используется в разговорная речь чтобы обозначить объем пространства или степень гибкости, которую можно иметь при достижении цели. Например, его часто используют в спорте. комментаторы при описании того, сколько точности требуется для достижения цели, очков или результата. А кегля для боулинга используемый в Соединенных Штатах, имеет ширину 4,75 дюйма, а мяч - 8,5 дюйма, поэтому можно сказать, что боулер имеет погрешность 21,75 дюйма при попытке ударить по определенной булавке, чтобы заработать запасную (например, 1 булавка осталась на переулок).

Концепция

Рассмотрим простой да нет опрос ${ displaystyle P}$ как образец ${ displaystyle n}$ респондентов, взятых из населения ${ Displaystyle N { текст {,}} (п << N)}$ сообщая процент ${ displaystyle p}$ из да ответы. Мы хотели бы знать, насколько близко ${ displaystyle p}$ к истинному результату опроса всего населения ${ displaystyle N}$ , без необходимости проводить его. Если бы, гипотетически, провести опрос ${ displaystyle P}$ по последующим образцам ${ displaystyle n}$ респонденты (недавно набранные из ${ displaystyle N}$ ), мы ожидаем, что последующие результаты ${ displaystyle p_ {1}, p_ {2}, ldots}$ быть нормально распределенным по ${ displaystyle { overline {p}}}$ . В погрешность описывает расстояние, в пределах которого ожидается, что указанный процент этих результатов будет отличаться от ${ displaystyle { overline {p}}}$ .

Согласно 68-95-99.7 правило, мы ожидаем, что 95% результатов ${ displaystyle p_ {1}, p_ {2}, ldots}$ попасть внутрь о два Стандартное отклонение ( ${ displaystyle pm 2 sigma _ {P}}$ ) по обе стороны от истинного среднего ${ displaystyle { overline {p}}}$ . Этот интервал называется доверительный интервал, а радиус (половина интервала) называется погрешность, что соответствует 95% уровень уверенности.

Как правило, на уровне уверенности ${ displaystyle gamma}$ , размер выборки ${ displaystyle n}$ населения с ожидаемым стандартным отклонением ${ displaystyle sigma}$ имеет погрешность

{ displaystyle MOE _ { gamma} = z _ { gamma} times { sqrt { frac { sigma ^ {2}} {n}}}}

куда ${ displaystyle z _ { gamma}}$ обозначает квантиль (также обычно z-оценка), и ${ displaystyle { sqrt { frac { sigma ^ {2}} {n}}}}$ это стандартная ошибка.

Стандартное отклонение и стандартная ошибка

Мы ожидаем, что нормально распределенные значения ${ displaystyle p_ {1}, p_ {2}, ldots}$ иметь стандартное отклонение, которое так или иначе зависит от ${ displaystyle n}$ . Меньший ${ displaystyle n}$ , тем шире поле. Это называется стандартная ошибка ${ displaystyle sigma _ { overline {p}}}$ .

Для единственного результата нашего опроса мы предполагать который ${ displaystyle p = { overline {p}}}$ , и это все последующие результаты ${ displaystyle p_ {1}, p_ {2}, ldots}$ вместе будет иметь различие ${ Displaystyle sigma _ {P} ^ {2} = P (1-P)}$ .

{ displaystyle { text {Стандартная ошибка}} = sigma _ { overline {p}} приблизительно { sqrt { frac { sigma _ {P} ^ {2}} {n}}} приблизительно { sqrt { frac {p (1-p)} {n}}}}

Обратите внимание, что ${ displaystyle p (1-p)}$ соответствует дисперсии Распределение Бернулли.

Максимальная погрешность при разных уровнях достоверности

Для уверенности уровень ${ displaystyle gamma}$ , есть соответствующая уверенность интервал о среднем ${ displaystyle mu pm z _ { gamma} sigma}$ , то есть интервал ${ displaystyle [ mu -z _ { gamma} sigma, mu + z _ { gamma} sigma]}$ в пределах каких значений ${ displaystyle P}$ должен упасть с вероятностью ${ displaystyle gamma}$ . Точные значения ${ displaystyle z _ { gamma}}$ даны квантильная функция нормального распределения (что приблизительно соответствует правилу 68-95-99.7).

Обратите внимание, что ${ displaystyle z _ { gamma}}$ не определено для ${ Displaystyle | гамма | geq 1}$ , то есть, ${ displaystyle z_ {1.00}}$ не определено, как и ${ displaystyle z_ {1.10}}$ .

${ displaystyle gamma}$	${ displaystyle z _ { gamma}}$	${ displaystyle gamma}$	${ displaystyle z _ { gamma}}$
0.68	0.994457883210	0.999	3.290526731492
0.90	1.644853626951	0.9999	3.890591886413
0.95	1.959963984540	0.99999	4.417173413469
0.98	2.326347874041	0.999999	4.891638475699
0.99	2.575829303549	0.9999999	5.326723886384
0.995	2.807033768344	0.99999999	5.730728868236
0.997	2.967737925342	0.999999999	6.109410204869

Лог-лог-графики

{ displaystyle MOE _ { gamma} (0,5)}

по сравнению с размером выборки п и уровень уверенности γ. Стрелки показывают, что максимальная погрешность для выборки размером 1000 составляет ± 3,1% при уровне достоверности 95% и ± 4,1% при 99%. Вставная парабола

{ displaystyle sigma _ {p} ^ {2} = p-p ^ {2}}

иллюстрирует взаимосвязь между

{ displaystyle sigma _ {p} ^ {2}}

в

{ displaystyle p = .0,71}

и

{ Displaystyle sigma _ {макс} ^ {2}}

в

{ displaystyle p = .0,5}

С ${ Displaystyle макс сигма _ {P} ^ {2} = макс P (1-P) = 0,25}$ в ${ displaystyle p = 0,5}$ , можно произвольно положить ${ displaystyle p = { overline {p}} = 0,5}$ рассчитать ${ displaystyle sigma _ {P}}$ , ${ displaystyle sigma _ { overline {p}}}$ , и ${ displaystyle z _ { gamma} sigma _ { overline {p}}}$ получить максимум предел погрешности для ${ displaystyle P}$ на заданном уровне уверенности ${ displaystyle gamma}$ и размер выборки ${ displaystyle n}$ , даже до получения реальных результатов. С ${ displaystyle p = 0,5, n = 1013}$

{ displaystyle MOE_ {95} (0,5) = z_ {0,95} sigma _ { overline {p}} приблизительно z_ {0,95} { sqrt { frac { sigma _ {P} ^ {2}} { n}}} = 1,96 { sqrt { frac {.25} {n}}} = 0,98 / { sqrt {n}} = pm 3,1 \%}

{ displaystyle MOE_ {99} (0,5) = z_ {0.99} sigma _ { overline {p}} приблизительно z_ {0.99} { sqrt { frac { sigma _ {P} ^ {2}} { n}}} = 2,58 { sqrt { frac {.25} {n}}} = 1,29 / { sqrt {n}} = pm 4.1 \%}

Кроме того, полезно для любых заявленных ${ displaystyle MOE_ {95}}$

{ displaystyle MOE_ {99} = { frac {z_ {0.99}} {z_ {0.95}}} MOE_ {95} примерно в 1,3 раза MOE_ {95}}

Конкретные пределы погрешности

Если опрос дает несколько процентных результатов (например, опрос, измеряющий одно предпочтение с множественным выбором), результат, наиболее близкий к 50%, будет иметь наибольшую погрешность. Обычно именно это число указывается как предел погрешности для всего опроса. Представьте себе опрос ${ displaystyle P}$ отчеты ${ displaystyle p_ {a}, p_ {b}, p_ {c}}$ в качестве ${ displaystyle 71 \%, 27 \%, 2 \%, n = 1013}$

{ displaystyle MOE_ {95} (P_ {a}) = z_ {0,95} sigma _ { overline {p_ {a}}} приблизительно 1,96 { sqrt { frac {p_ {a} (1-p_ { a})} {n}}} = 0,89 / { sqrt {n}} = pm 2,8 \%}

(как на рисунке выше)

{ displaystyle MOE_ {95} (P_ {b}) = z_ {0,95} sigma _ { overline {p_ {b}}} приблизительно 1,96 { sqrt { frac {p_ {b} (1-p_ { b})} {n}}} = 0,87 / { sqrt {n}} = pm 2,7 \%}

{ displaystyle MOE_ {95} (P_ {c}) = z_ {0,95} sigma _ { overline {p_ {c}}} приблизительно 1,96 { sqrt { frac {p_ {c} (1-p_ { c})} {n}}} = 0,27 / { sqrt {n}} = pm 0,8 \%}

Когда данный процент приближается к крайним значениям 0% или 100%, его погрешность приближается к ± 0%.

Сравнение процентов

Представьте себе опрос с множественным выбором ${ displaystyle P}$ отчеты ${ displaystyle p_ {a}, p_ {b}, p_ {c}}$ в качестве ${ displaystyle 46 \%, 42 \%, 12 \%, n = 1013}$ . Как описано выше, допустимая погрешность опроса обычно составляет ${ displaystyle MOE_ {95} (P_ {a})}$ , так как ${ displaystyle p_ {a}}$ ближе всего к 50%. Популярное понятие статистическая связь или же статистическая мертвая теплота, однако заботится не о точности отдельных результатов, а о точности рейтинг результатов. Что в первую очередь?

Если бы, гипотетически, провести опрос ${ displaystyle P}$ по последующим образцам ${ displaystyle n}$ респонденты (недавно набранные из ${ displaystyle N}$ ) и сообщить результат ${ displaystyle p_ {w} = p_ {a} -p_ {b}}$ , мы могли бы использовать стандартная ошибка разницы чтобы понять как ${ displaystyle p_ {w_ {1}}, p_ {w_ {2}}, p_ {w_ {3}}, ldots}$ ожидается падение около ${ displaystyle { overline {p_ {w}}}}$ . Для этого нам нужно применить сумма отклонений чтобы получить новую дисперсию, ${ displaystyle sigma _ {P_ {w}} ^ {2}}$ ,

{ displaystyle sigma _ {P_ {w}} ^ {2} = sigma _ {P_ {a} -P_ {b}} ^ {2} = sigma _ {P_ {a}} ^ {2} + sigma _ {P_ {b}} ^ {2} -2 sigma _ {P_ {a}, P_ {b}} = p_ {a} (1-p_ {a}) + p_ {b} (1- p_ {b}) + 2p_ {a} p_ {b}}

куда ${ displaystyle sigma _ {P_ {a}, P_ {b}} = - P_ {a} P_ {b}}$ это ковариация из ${ displaystyle P_ {a}}$ и ${ displaystyle P_ {b}}$ .

Таким образом (после упрощения),

{ displaystyle { text {Стандартная ошибка разницы}} = sigma _ { overline {w}} приблизительно { sqrt { frac { sigma _ {P_ {w}} ^ {2}} {n} }} = { sqrt { frac {p_ {a} + p_ {b} - (p_ {a} -p_ {b}) ^ {2}} {n}}} = 0,029, P_ {w} = P_ {a} -P_ {b}}

{ displaystyle MOE_ {95} (P_ {a}) = z_ {0.95} sigma _ { overline {p_ {a}}} приблизительно pm {3.1 \%}}

{ displaystyle MOE_ {95} (P_ {w}) = z_ {0,95} sigma _ { overline {w}} приблизительно pm {5,8 \%}}

Обратите внимание, что это предполагает, что ${ displaystyle P_ {c}}$ близка к постоянной, то есть респонденты, выбирающие либо A, либо B, почти никогда не выбирают C (делая ${ displaystyle P_ {a}}$ и ${ displaystyle P_ {b}}$ рядом с совершенно отрицательно коррелирован). При более близком соперничестве трех или более вариантов выбор правильной формулы для ${ displaystyle sigma _ {P_ {w}} ^ {2}}$ усложняется.

Эффект конечного размера популяции

Приведенные выше формулы для погрешности предполагают, что существует бесконечно большой численность населения и поэтому не зависят от численности населения ${ displaystyle N}$ , но только от размера выборки ${ displaystyle n}$ . В соответствии с теория выборки, это предположение разумно, когда фракция отбора проб маленький. Предел погрешности для конкретного метода выборки по существу одинаков, независимо от того, является ли исследуемая популяция размером школы, города, штата или страны, если выборка дробная часть маленький.

В случаях, когда доля выборки больше (на практике более 5%), аналитики могут скорректировать допустимую погрешность, используя поправка на конечную популяцию чтобы учесть дополнительную точность, полученную за счет выборки гораздо большего процента населения. FPC можно рассчитать по формуле^[1]

{ displaystyle operatorname {FPC} = { sqrt { frac {N-n} {N-1}}}}

... и так если опрос ${ displaystyle P}$ были проведены более 24%, скажем, электората в 300 000 избирателей

{ displaystyle MOE_ {95} (0,5) = z_ {0,95} sigma _ { overline {p}} приблизительно { frac {0,98} { sqrt {72,000}}} = pm 0,4 \%}

{ displaystyle MOE_ {95_ {FPC}} (0,5) = z_ {0,95} sigma _ { overline {p}} { sqrt { frac {Nn} {N-1}}} приблизительно { frac { 0,98} { sqrt {72 000}}} { sqrt { frac {300 000–72 000} {300 000–1}}} = pm 0,3 \%}

Интуитивно для достаточно большого ${ displaystyle N}$ ,

{ displaystyle lim _ {n to 0} { sqrt { frac {N-n} {N-1}}} приблизительно 1}

{ displaystyle lim _ {n to N} { sqrt { frac {N-n} {N-1}}} = 0}

В первом случае, ${ displaystyle n}$ настолько мал, что не требует коррекции. В последнем случае, опрос фактически становится переписи и ошибки выборки становится спорным.

Смотрите также

Примечания

^ Иссерлис, Л. (1918). «О значении среднего, рассчитанном по выборке». Журнал Королевского статистического общества. Блэквелл Паблишинг. 81 (1): 75–81. Дои:10.2307/2340569. JSTOR 2340569. (Уравнение 1)

внешняя ссылка

[1] Иссерлис, Л. (1918). «О значении среднего, рассчитанном по выборке». Журнал Королевского статистического общества. Блэквелл Паблишинг. 81 (1): 75–81. Дои:10.2307/2340569. JSTOR 2340569. (Уравнение 1)

[1]

Navigation