Формула доверительной вероятности при оценке генеральной средней. Средняя квадратическая ошибка повторной и бес­повторной выборок и построение доверительного интервала для генеральной средней

Зачем эта презентация? Во-первых, «средняя квадратическая / стандартная ошибка выборки» – длинное и сложное название, которое часто обрубают в задачах до «средней» или «стандартной» ошибки. То, что это одно и то же, в свое время было для меня настоящим открытием. Эта пресловутая ошибка бывает разная и записывается всегда по-разному, что здорово путает. Оказывается, эта штука много где попадается, но постоянно меняет обличья. Из-за этого мы зубрим целую кучу формул, когда можно обойтись однойдвумя.

Как ее обозначают? Как только не измывались над несчастной! Это варианты написания стандартной ошибки для средней в лекциях и учебниках. Над ошибкой доли издевались точно так же, или вообще забыли о ее существовании и записывали сразу формулой, что здорово путает несчастных студентов. Здесь я обозначу ее через «ε» , потому что это, хвала Богам, редкая буква, и ее не перепутать ни с моментом, ни с выборочным СКО.

Собственно, формула (корень из дисперсии на число элементов в выборке или СКО разделить на корень из объема выборки) Это основная формула, фундамент, основа основ. Достаточно выучить только её, а дальше просто поработать головой! Как? Читай дальше!

Разновидности и откуда они взялись 1. Для доли. У доли дисперсия считается необычно. Если долю изучаемого признака взять за p, а долю «всего остального» - за q, то дисперсия равна p*q или p*(1 p). Отсюда взялась формула:

Разновидности и откуда они взялись (2) 2. Где взять генеральное СКО? σ – это, вообще-то, генеральное СКО, которое вам в задаче фиг дадут. Есть выход – выборочная дисперсия S 2 , которая, как всем известно, смещена. Поэтому оцениваем генеральную так: (чтобы и не думала смещаться), и подставляем. А можно сразу так: Но есть такая фишка. Если n>30, разница между S и σ крайне мала ©, поэтому можно схитрить и написать проще:

Разновидности и откуда они взялись (3) «Откуда взялись еще какие-то скобки и энки? ? ? » Есть 2 метода формирования выборки, помним? – повторный и бесповторный. Так вот, все предыдущие формулы годятся для повторной выборки или когда выборка n по отношению к генеральной совокупности N настолько мала, что отношением n/N можно пренебречь. В случае, когда прям принципиально, что выборка бесповторная, или когда в задаче открытым текстом говорится, сколько единиц в генеральной совокупности, обязательно использовать.

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называют ошибкой репрезентативности. Различают систематические и случайные ошибки выборки.

Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.

Систематические ошибки могут быть связаны с нарушением правил отбора или условий реализации выборки.

Так, при обследовании бюджетов домашних хозяйств выборочную совокупность на протяжении более 40 лет строили на основе территориально-отраслевого принципа отбора, что было обусловлено основной целью бюджетного обследования – дать характеристику уровня жизни рабочих, служащих и колхозников. Выборочная совокупность распределялась по регионам и отраслям экономики РСФСР пропорционально общей численности занятых; для создания отраслевой выборки применяли типическую выборку с механическим отбором единиц внутри групп.

Главным критерием отбора была среднемесячная оплата труда. Принцип отбора обеспечивал пропорциональную представительность в выборочной совокупности работающих с различным уровнем заработной платы.

С появлением новых социальных групп (предпринимателей, фермеров, безработных) репрезентативность выборки нарушалась не только в силу различий со структурой генеральной совокупности, но и в связи с систематической ошибкой, которая возникала из-за несовпадения единицы отбора (работник) и единицы наблюдения (домохозяйство). Домохозяйство, имеющее более одного работающего члена семьи, имело и бо́льшую вероятность быть отобранным, чем домохозяйство, в составе которого был один работающий. Семьи, не имеющие занятых в обследуемых отраслях, выпадали из круга отбираемых единиц (домохозяйства пенсионеров, домохозяйства, существующие за счет индивидуальной трудовой деятельности, и т.п.). Оценка точности полученных результатов (границы доверительных интервалов, ошибки выборки) была затруднена, так как при построении выборки не использовались вероятностные модели.

В 1996–1997 гг. был внедрен принципиально новый подход к формированию выборки домашних хозяйств. В качестве основы для ее проведения использовали данные микропереписи населения 1994 г. Генеральную совокупность при отборе составили все типы домашних хозяйств, за исключением коллективных. А выборочную совокупность стали организовывать с учетом представительности состава и типов домашних хозяйств в пределах каждого субъекта РФ.

Измерение ошибок репрезентативности выборочных показателей основано на предположении о случайном характере их распределения при бесконечно большом числе выборок.

Количественную оценку надежности выборочного показателя используют, чтобы составить представление о генеральной характеристике. Это осуществляют либо на основе выборочного показателя с учетом его случайной ошибки, либо на основе выдвижения некоторой гипотезы (о величине средней дисперсии, характере распределения, связи) в отношении свойств генеральной совокупности.

Для проверки гипотезы оценивают согласованность эмпирических данных с гипотетическими.

Величина случайной ошибки репрезентативности зависит:

  • 1) от объема выборки;
  • 2) степени вариации изучаемого признака в генеральной совокупности;
  • 3) принятого способа формирования выборочной совокупности.

Различают среднюю (стандартную) и предельную ошибки выборки.

Средняя ошибка характеризует меру отклонений выборочных показателей от аналогичных показателей генеральной совокупности.

Предельной ошибкой принято считать максимально возможное расхождение выборочной и генеральной характеристик, т.е. максимум ошибки при заданной вероятности ее появления.

По данным выборочной совокупности можно оценить различные показатели (параметры) генеральной совокупности. Наиболее часто используют оценку:

  • – генеральной средней величины изучаемого признака (для многозначного количественного признака);
  • – генеральной доли (для альтернативного признака).

Основным принципом применения выборочного метода является обеспечение равной возможности для всех единиц генеральной совокупности быть отобранными в выборочную совокупность. При таком подходе соблюдается требование случайного, объективного отбора и, следовательно, ошибка выборки определяется прежде всего ее объемом (п ). С увеличением последнего величина средней ошибки уменьшается, характеристики выборочной совокупности приближаются к характеристикам генеральной совокупности.

При одинаковой численности выборочных совокупностей и прочих равных условиях ошибка выборки будет меньше в гой из них, которая отобрана из генеральной совокупности с меньшей вариацией изучаемого признака. Уменьшение вариации признака означает снижение величины дисперсии (– для количественного признака или – для альтернативного признака).

Зависимость величины ошибки выборки от способов формирования выборочной совокупности определяется по формулам средней ошибки выборки (табл. 5.2).

Дополним показатели табл. 5.2 следующими пояснениями.

Выборочная дисперсия несколько меньше генеральной, в математической статистике доказано, что

Таблица 5.2

Формулы расчета средней ошибки выборки мри различных способах отбора

Вид выборки

повторный для

бесповторный для

Собственно

случайная

(простая)

Серийная

(с равновеликими

Типическая (пропорционально объему групп)

Если выборочная совокупность имеет большой объем (т.е. п достаточно велико), то соотношение приближается к единице и выборочная дисперсия практически совпадает с генеральной.

Выборку считают безусловно большой при п > 100 и безусловно малой при п < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Они могут быть рассчитаны по следующим формулам:

где – средняя i -й серии; – общая средняя по всей выборочной совокупности;

где – доля единиц определенной категории в i -й серии; – доля единиц этой категории во всей выборочной совокупности; r – число отобранных серий.

4. Для определения средней ошибки типической выборки в случае отбора единиц пропорционально численности каждой группы в качестве показателя вариации выступает средняя из внутригрупповых дисперсий (– для количественного признака, для альтернативного признака). По правилу сложения дисперсий величина средней из внутригрупповых дисперсий меньше, чем величина общей дисперсии. Значение средней возможной ошибки типической выборки меньше, чем ошибка простой собственно-случайной выборки.

Часто используют комбинированный отбор: индивидуальный отбор единиц сочетают с групповым, типический отбор – с отбором сериями. При любом способе отбора с определенной вероятностью можно утверждать, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превысит некоторую величину, которую называют предельной ошибкой выборки.

Соотношение между пределом ошибки выборки (∆), гарантируемым с некоторой вероятностью F(t), и средней ошибкой выборки имеет вид: или , где t – коэффициент доверия, определяемый в зависимости от уровня вероятности F(t).

Значения функции F(t) и t определяются на основе специально составленных математических таблиц. Приведем некоторые из них, применяемые наиболее часто:

т

Таким образом, предельная ошибка выборки отвечает на вопрос о точности выборки с определенной вероятностью, величина которой зависит от значения коэффициента доверия t. Так, при t = 1 вероятность F(t ) отклонения выборочных характеристик от генеральных на величину однократной средней ошибки равна 0,683. Следовательно, в среднем из каждой 1000 выборок 683 дадут обобщающие показатели (среднюю, долю), которые будут отличаться от генеральных не более чем на величину однократной средней ошибки. При t = 2 вероятность F(t) равна 0,954, это означает, что из каждой 1000 выборок 954 дадут обобщающие показатели, которые будут отличаться от генеральных не более чем на двукратную среднюю ошибку выборки, и т.д.

Наряду с абсолютной величиной предельной ошибки выборки рассчитывают и относительную ошибку, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности:

На практике принято задавать величину ∆, как правило, в пределах 10% предполагаемого среднего уровня признака.

Расчет средней и предельной ошибок выборки позволяет определить пределы, в которых будут находиться характеристики генеральной совокупности:

Пределы, в которых с данной степенью вероятности будет заключена неизвестная величина изучаемого показателя в генеральной совокупности, называют доверительным интервалом, а вероятность F(t) доверительной вероятностью. Чем выше значение ∆, тем больше величина доверительного интервала и, следовательно, ниже точность оценки.

Рассмотрим следующий пример. Для определения среднего размера вклада в банке методом повторной случайной выборки было отобрано 200 валютных счетов вкладчиков. В результате установили, что средний размер вклада – 60 тыс. руб., дисперсия составила 32. При этом 40 счетов оказались до востребования. Необходимо с вероятностью 0,954 определить пределы, в которых находятся средний размер вклада на валютных счетах в банке и доля счетов до востребования.

Рассчитаем среднюю ошибку выборочной средней по формуле для повторного отбора

Предельная ошибка выборочной средней с вероятностью 0,954 составит

Следовательно, средний размер вклада на валютных счетах в банке находится в пределах тыс. руб.:

С вероятностью 0,954 можно утверждать, что средний размер вклада на валютных счетах в банке составляет от 59 200 до 60 800 руб.

Определим долю вкладов до востребования в выборочной совокупности:

Средняя ошибка выборочной доли

Предельная ошибка доли с вероятностью 0,954 составит

Таким образом, доля счетов до востребования в генеральной совокупности находится в пределах w :

С вероятностью 0,954 можно утверждать, что доля счетов до востребования в общем числе валютных счетов в банке составляет от 14,4 до 25,6%.

При конкретных исследованиях важно установить оптимальное соотношение между мерой надежности полученных результатов и величиной допустимой ошибки выборки. В связи с этим при организации выборочного наблюдения возникает вопрос, связанный с определением объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью. Расчет необходимого объема выборки проводится на основе формул предельной ошибки выборки в соответствии с видом и способом отбора (табл. 5.3).

Таблица 5.3

Формулы расчета численности выборки при собственно-случайном способе отбора

Продолжим пример, в котором представлены результаты выборочного обследования лицевых счетов вкладчиков банка.

Требуется установить, сколько необходимо обследовать счетов, чтобы с вероятностью 0,977 ошибка при определении среднего размера вклада не превысила 1,5 тыс. руб. Выразим из формулы предельной ошибки выборки для повторного отбора показатель численности выборки:

При определении необходимого объема выборки по приведенным формулам возникает трудность в нахождении значений σ2 и да, так как эти величины можно получить только после проведения выборочного обследования. В связи с этим вместо фактических значений данных показателей подставляют приближенные, которые могли быть определены на основе каких-либо пробных выборочных наблюдений или из аналитических предыдущих обследований.

В тех случаях, когда статистик знает среднее значение изучаемых признаков (например, из инструкций, законодательных актов и т.п.) или пределы, в которых этот признак варьируется, можно применить следующий расчет по приближенным формулам:

а произведение w(1 – w) заменить значением 0,25 (w = 0,5).

Чтобы получить более точный результат, принимают максимально возможное значение этих показателей. Если распределение признака в генеральной совокупности подчиняется нормальному закону, то размах вариации примерно равен 6σ (крайние значения отстоят в ту и другую сторону от средней на расстоянии 3σ). Отсюда , но если распределение заведомо асимметрично, то .

При любом виде выборки ее объем начинают рассчитывать по формуле повторного отбора

Если в результате расчета доля отбора (n ) превысит 5%, то проводят расчет по формуле бесповторного отбора.

Для типической выборки необходимо общий объем выборочной совокупности разделить между выделенными типами единиц. Расчет числа наблюдений из каждой группы зависит от названных ранее организационных форм типической выборки.

При типическом отборе единиц непропорционально численности групп общее число отбираемых единиц делят на число групп, полученная величина дает численность отбора из каждой типической группы:

где k – число выделенных типических групп.

При отборе единиц пропорционально численности типических групп число наблюдений по каждой группе определяют по формуле

где – объем выборки из i -й группы; – объем i -й группы.

При отборе с учетом вариации признака процент выборки из каждой группы должен быть пропорционален среднему квадратическому отклонению в этой группе (). Расчет численности () производят по формулам

При серийном отборе необходимую численность отбираемых серий определяют так же, как и при собственно-случайном отборе:

Повторный отбор

Бесповторный отбор

При этом дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.

При использовании выборочного наблюдения характеристика его результатов возможна на основе сопоставления полученных пределов ошибок выборочных показателей с величиной допустимой погрешности.

В связи с этим возникает задача определения вероятности того, что ошибка выборки не превысит допустимой погрешности. Решение этой задачи сводится к расчету на основе формулы предельной ошибки выборки величины t.

Продолжая рассмотрение примера выборочного обследования лицевых счетов клиентов банка, найдем вероятность, с которой можно утверждать, что ошибка при определении среднего размера вклада не превысит 785 руб.:

соответствующая доверительная вероятность составит 0,95.

В настоящее время практика выборочного наблюдения включает статистические наблюдения, осуществляемые:

  • – органами Росстата;
  • – другими министерствами и ведомствами (например, мониторинг предприятий в системе Банка России).

Известное обобщение опыта по организации выборочных обследований малых предприятий, населения и домашних хозяйств представлено в Методологических положениях по статистике. В них дано более широкое понятие выборочного наблюдения, чем это рассмотрено выше (табл. 5.4).

В статистической практике используют все четыре типа выборок, представленных в табл. 5.4. Однако обычно отдают предпочтение описанным выше вероятностным (случайным) выборкам, являющимся наиболее объективными, так как по ним можно оценить точность получаемых результатов по данным самой выборки.

Таблица 5.4

Типы выборок

В выборках квазислучайного типа предполагается наличие вероятностного отбора на том основании, что специалист, рассматривающий выборку, считает его допустимым. Примером использования квазислучайной выборки в статистической практике является "Выборочное обследование малых предприятий по изучению социальных процессов в малом предпринимательстве", проведенное в 1996 г. в некоторых регионах России. Единицы наблюдения (малые предприятия) отбирались экспертно с учетом представительства отраслей экономики из уже сформированной выборки обследования финансово-хозяйственной деятельности малых предприятий (форма "Сведения об основных показателях финансово-хозяйственной деятельности малого предприятия"). При обобщении выборочных данных предполагалось, что выборочная совокупность сформирована методом простого случайного отбора.

Прямое использование суждения эксперта является наиболее общим методом намеренного включения единиц в выборку. Примером такого способа отбора является монографический метод, предполагающий получение информации только от одной единицы наблюдения, являющейся типичной, по мнению организатора обследования – эксперта.

Выборки, сформированные на основе направленного отбора, реализуются с помощью объективной процедуры, но без использования вероятностного механизма. Широко известен метод основного массива, при котором в выборку включают наиболее крупные (существенные) единицы наблюдения, обеспечивающие основной вклад в показатель, например суммарное значение признака, представляющего основную цель обследования.

В статистической практике часто применяют комбинированный метод статистического наблюдения. Сочетание сплошного и выборочного методов наблюдения имеет два аспекта:

  • чередование во времени;
  • одновременное их использование (часть совокупности наблюдают на сплошной основе, а часть – выборочно).

Чередование периодических выборочных со сравнительно редкими сплошными обследованиями или переписями необходимо для уточнения состава исследуемой совокупности. В дальнейшем эту информацию используют как статистическую основу выборочного наблюдения. Примерами могут служить переписи населения и выборочные обследования домашних хозяйств в промежутках времени между их проведениями.

В данном случае требуется решать следующие задачи:

  • – определение состава признаков сплошного наблюдения, обеспечивающих организацию выборки;
  • – обоснование периодов чередования, т.е. когда сплошные данные теряют актуальность и нужны затраты на их обновление.

Одновременное использование в рамках одного обследования сплошного и выборочного наблюдений обусловлено неоднородностью встречающихся в статистической практике совокупностей. В особенности это справедливо для обследований экономической деятельности совокупности предприятий, для которой характерны скошенные распределения изучаемых признаков, когда некоторое число единиц имеет характеристики, сильно отличающиеся от основной массы значений. В этом случае такие единицы наблюдают на сплошной основе, а другую часть совокупности – выборочно.

При данной организации наблюдений основными задачами выступают:

  • – установление их оптимальной пропорции;
  • – разработка способов оценки точности результатов.

Типичным примером, иллюстрирующим данный аспект применения комбинированного метода, является общий принцип проведения обследований совокупности предприятий, в соответствии с которым обследования совокупности крупных и средних предприятий проводят преимущественно сплошным методом, а малых – выборочным.

Дальнейшее развитие методологии выборочного наблюдения осуществляют как в сочетании с организацией сплошного наблюдения, так и через организацию специальных обследований, проведение которых диктуется необходимостью получения дополнительной информации для решения конкретных задач. Так, организация обследований в области условий и уровня жизни населения предусмотрена в двух аспектах:

Обязательными компонентами могут стать ежегодные исследования доходов, расходов и потребления (аналог обследования бюджетов домашних хозяйств), включающие также базовые показатели условий жизни населения. Ежегодно по специальному плану обязательные компоненты должны дополняться единовременными обследованиями (модулями) условий жизни населения, направленными на углубленное изучение какой-либо выбранной социальной темы из их общего числа (например, активы домашних хозяйств, здоровье, питание, образование, условия труда, жилищные условия, досуг, социальная мобильность, безопасность и др.) с различной периодичностью, определяемой потребностью в показателях и ресурсными возможностями.

    Формула доверительной вероятности при оценке генераль ной доли признака. Средняя квадратическая ошибка повторной и бесповторной выборок и построение доверительного интервала для генеральной доли признака.

  1. Формула доверительной вероятности при оценке генеральной средней. Средняя квадратическая ошибка повторной и бес­повторной выборок и построение доверительного интервала для генеральной средней.

Построение доверительного интервала для гeнеральной средней и гeнеральной доли по большим выборкам . Для построения доверительных интервалов для параметров генеральных совокупностей м.б. реализованы 2 подхода, основанных на знании точного (при данном объеме выборки n) или асимптотического (при n → ∞) распределения выборочных характеристик (или некоторых функций от них). Первый подход реализован далее при построении интервальных оценок параметров для малых выборок. В данном параграфе рассматривается второй подход, применимый для больших выборок (порядка сотен наблюдений).

Теорема . Вер-ть того, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превзойдет число Δ > 0 (по абсолютной величине), равна:

Где

,

Где
.

Ф(t) - функция (интеграл вероятностей) Лапласа.

Формулы получили название формул доверительной вер-ти для средней и доли .

Среднее квадратическое отклонение выборочной средней и выборочной долисобственно-случайной выборки называетсясредней квадратической (стандартной) ошибкой выборки (для бесповторной выборки обозначаем соответственно и).

Следствие 1 . При заданной доверительной вер-ти γ предельная ошибка выборки равна t-кратной величине средней квадратической ошибки, где Ф(t) = γ, т.е.

,

.

Следствие 2 . Интервальные оценки (доверительные интервалы) для генеральной средней и генеральной доли могут быть найдены по формулам:

,

.

  1. Определение необходимого объема повторной и бесповтор­ной выборок при оценке генеральной средней и доли.

Для проведения выборочного наблюдения весьма важно правильно установить объем выборки n, к-ый в значительной степени определяет необходимые при этом временные, трудовые и стоимостные затраты для определения n необходимо задать надежность (доверительную вер-ть) оценки γ и точность (предельную ошибку выборки) Δ.

Если найден объем повторной выборки n, то объем соответствующей бесповторной выборки n" можно определить по формуле:

.

Т.к.
, то при одних и тех же точности и надежности оценок объем бесповторной выборки n" всегда меньше объема повторной выборки n.

  1. Статистическая гипотеза и статистический критерий. Ошибки 1-го и 2-го рода. Уровень значимости и мощность критерия. Принцип практической уверенности.

Определение . Статистической гипотезой называется любое предположение о виде или параметрах неизвестного закона распределения.

Различают простую и сложную статистические гипотезы . Простая гипотеза , в отличие от сложной, полностью определяет теоретическую функцию распределения СВ.

Проверяемую гипотезу обычно называют нулевой (или основной ) и обозначают Н 0 . Наряду с нулевой гипотезой рассматривают альтернативную , или конкурирующую , гипотезу H 1 , являющуюся логическим отрицанием Н 0 . Нулевая и альтернативная гипотезы представляют собой 2 возможности выбора, осуществляемого в задачах проверки статистических гипотез.

Суть проверки статистической гипотезы заключается в том, что используется специально составленная выборочная характеристика (статистика)
, полученная по выборке
, точное или приближенное распределение которой известно.

Затем по этому выборочному распределению определяется критическое значение - такое, что если гипотеза Н 0 верна, то вер-ть
мала; так что в соответствии с принципом практической уверенности в условиях данного исследования событие
можно (с некоторым риском) считать практически невозможным. Поэтому, если в данном конкретном случае обнаруживается отклонение
, то гипотеза Н 0 отвергается, в то время как появление значения
, считается совместимым с гипотезой Н 0 , которая тогда принимается (точнее, не отвергается). Правило, по которому гипотеза Н 0 отвергается или принимается, называется статистическим критерием или статистическим тестом .

Принцип практической уверенности:

Если вер-ть события А в данном испытании очень мала, то при однократном выполнении испытания можно быть уверенным в том, что событие А не произойдет, и в практической д-ти вести себя так, как будто событие А вообще невозможно.

Т.о., множество возможных значений статистики - критерия (критической статистики) разбивается на 2 непересекающихся подмножества:критическую область (область отклонения гипотезы) W и область допустимых значений (область принятия гипотезы) . Если фактически наблюдаемое значение статистики критерияпопадает в критическую область W, то гипотезу Н 0 отвергают. При этом возможны четыре случая:

Определение . Вероятность α допустить ошибку l-го рода, т.е. отвергнуть гипотезу Н 0 , когда она верна, называется уровнем значимости , или размером критерия .

Вероятность допустить ошибку 2-го рода, т.е. принять гипотезу Н 0 , когда она неверна, обычно обозначают β.

Определение . Вероятность (1-β) не допустить ошибку 2-го рода, т.е. отвергнуть гипотезу Н 0 , когда она неверна, называется мощностью (или функцией мощности ) критерия .

Следует предпочесть ту критическую область, при которой мощность критерия будет наибольшей.

Ошибка выборки - это объективно возникающее расхождение между характеристиками выборки и генеральной совокупности. Она зависит от ряда факторов: степени вариации изучаемого признака, численности выборки, методом отбора единиц в выборочную совокупность, принятого уровня достоверности результата исследования.

Для репрезентативности выборки важно обеспечить случайность отбора, с тем, чтобы все объекты генеральной совокупности имели равные вероятности попасть в выборку. Для обеспечения репрезентативности выборки применяют следующие способы отбора:

· собственно-случайная (простая случайная) выборка (последовательно отбирается первый случайно попавшийся объект);

· механическая (систематическая) выборка;

· типическая (стратифицированная, расслоенная) выборка (объекты отбираются пропорционально представительству различных типов объектов в генеральной совокупности);

· серийная (гнездовая) выборка.

Отбор единиц в выборочную совокупность может быть повторным или бесповторным. При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. При бесповторном отборе попавшая в выборку единица подвергается обследованию и в дальнейшей процедуре отбора не участвует

Выборочное наблюдение всегда связано с ошибкой, поскольку число отобранных единиц не равно исходной (генеральной) совокупности. Случайные ошибки выборки обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характеристики будут несколько различаться. Поэтому получаемые случайные ошибки должны быть статистически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка таких ошибок и является основной задачей, решаемой в теории выборочного наблюдения. Обратной задачей является определение такой минимально необходимой численности выборочной совокупности, при которой ошибка не превысит заданной величины. На выработку навыков в решении этих задач и направлен материал данного раздела.

Собственно-случайная выборка . Ее суть заключается в отборе единиц из генеральной совокупности в целом, без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков.

После проведения отбора с использованием одного из алгоритмов, реализующих принцип случайности, или на основе таблицы случайных чисел, определяются границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.

Средняя ошибка повторной собственно-случайной выборки определяется по формуле

где σ - среднее квадратическое отклонение изучаемого признака;

n - объем (число единиц) выборочной совокупности.

Предельная ошибка выборки связана с заданным уровнем вероятности. При решении представленных ниже задач требуемая вероятность составляет 0,954 (t = 2) или 0,997 (t = 3). С учетом выбранного уровня вероятности и соответствующего ему значения t предельная ошибка выборки составит:

Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:

При определении границ генеральной доли при расчете средней ошибки выборки используется дисперсия альтернативного признака, которая вычисляется по следующей формуле:

где w - выборочная доля, т. е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака.

При решении отдельных задач необходимо учитывать, что при неизвестной дисперсии альтернативного признака можно использовать ее максимально возможную величину, равную 0,25.

Пример . В результате выборочного обследования незанятого населения, ищущего работу, проведенного на основе собственно-случайной повторной выборки были получены данные, приведенные в табл. 1.14.

Таблица 1.14

Результаты выборочного обследования незанятого населения

С вероятностью 0,954 определите границы:

а) среднего возраста незанятого населения;

б) доли (удельного веса) лиц, моложе 25 лет, в общей численности незанятого населения.

Решение. Для определения средней ошибки выборки необходимо, прежде всего, определить выборочную среднюю величину и дисперсию изучаемого признака. Для этого, при ручном способе расчета целесообразно построить таблицу 1.15.

Таблица 1.15

Расчет среднего возраста незанятого населения и дисперсии

На основании данных таблицы рассчитываются необходимые показатели:

· выборочная средняя величина:

;

· дисперсия:

· среднеквадратичное отклонение:

.

Средняя ошибка выборки составит:

года.

Определим с вероятностью 0,954 (t = 2) предельную ошибку выборки:

года.

Установим границы генеральной средней: (41,2 - 1,6) (41,2+1,6) или:

Таким образом, на основании проведенного выборочного обследования с вероятностью 0,954 можно заключить, что средний возраст незанятого населения, ищущего работу, лежит в пределах от 40 до 43 лет.

Для ответа на вопрос, поставленный в пункте «б» данного примера, по выборочным данным определим долю лиц в возрасте до 25 лет и рассчитаем дисперсию доли:

Рассчитаем среднюю ошибку выборки:

Предельная ошибка выборки с заданной вероятностью составит:

Определим границы генеральной доли:

Следовательно, с вероятностью 0,954 можно утверждать, что доля лиц в возрасте до 25 лет в общей численности незанятого населения находится в пределах от 3,9 до 1 1,9%.

При расчете средней ошибки собственно-случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:

где N - объем (число единиц) генеральной совокупности/

Необходимый объем собственно-случайной повторной выборки определяется по формуле:

Если отбор бесповторный, то формула приобретает следующий вид:

Полученный на основе использования этих формул результат всегда округляется в большую сторону до целого значения.

Пример. Необходимо определить, сколько учащихся первых классов школ района необходимо отобрать в порядке собственно-случайной бесповторной выборки, чтобы с вероятностью 0,997 определить границы среднего роста первоклассников с предельной ошибкой 2 см. Известно, что всего в первых классах школ района обучается 1100 учеников, а дисперсия роста по результатам аналогичного обследования в другом районе составила 24.

Решение. Необходимый объем выборки при уровне вероятности 0,997 (t = 3) составит:

Таким образом, для получения данных о среднем росте первоклассников с заданной точностью необходимо обследовать 52 школьника.

Механическая выборка . Данная выборка заключается в отборе единиц из общего списка единиц генеральной совокупности через равные интервалы в соответствии с установленным процентом отбора. При решении задач на определение средней ошибки механической выборки, а также необходимой ее численности, следует использовать приведенные выше формулы, применяемые при собственно-случайном бесповторном отборе.

Так, при 2%-ной выборке отбирается каждая 50-я единица (1:0,02), при 5%-ной выборке - каждая 20-я единица (1:0,05) и т.д.

Таким образом, в соответствии с принятой долей отбора, генеральная совокупность как бы механически разбивается на равновеликие группы. Из каждой группы в выборку отбирается лишь одна единица.

Важной особенностью механической выборки является то, что формирование выборочной совокупности можно осуществить, не прибегая к составлению списков. На практике часто используют тот порядок, в котором фактически размещаются единицы генеральной совокупности. Например, последовательность выхода готовых изделий с конвейера или поточной линии, порядок размещения единиц партии товара при хранении, транспортировке, реализации и т.д.

Типическая выборка. Эта выборка применяется в тех случаях, когда единицы генеральной совокупности объединены в несколько крупных типичных групп. Отбор единиц в выборку производится внутри этих групп пропорционально их объему на основе использования собственно-случайной или механической выборки (при наличии необходимой информации отбор также может производиться пропорционально вариации изучаемого признака в группах).

Типическая выборка обычно применяется при изучении сложных статистических совокупностей. Например, при выборочном обследовании производительности труда работников торговли, состоящих из отдельных групп по квалификации.

Важной особенностью типической выборки является то, что она дает более точные результаты по сравнению с другими способами отбора единиц в выборочную совокупность.

Средняя ошибка типической выборки определяется по формулам:

(повторный отбор);

(бесповторный отбор),

где - средняя из внутригрупповых дисперсией.

Пример . В целях изучения доходов населения по трем районам области сформирована 2%-ная выборка, пропорциональная численности населения этих районов. Полученные результаты представлены в табл. 16.

Таблица 16

Результаты выборочного обследования доходов населения

Необходимо определить границы среднедушевых доходов населения по области в целом при уровне вероятности 0,997.

Решение. Рассчитаем среднюю из внутригрупповых дисперсий:

где N i - объем i -и группы;

n, - объем выборки из /-и группы.

Серийная выборка . Эта выборка используется в тех случаях, когда единицы изучаемой совокупности объединены в небольшие равновеликие группы или серии. Единицей отбора в этом случае является серия. Серии отбираются с использованием собственно-случайной либо механической выборки, а внутри отобранных серий обследуются все без исключения единицы.

В основе расчета средней ошибки серийной выборки лежит межгрупповая дисперсия:

(повторный отбор);

(бесповторный отбор),

где x i - число отобранных i - серий;

R - общее число серий.

Межгрупповую дисперсию при равновеликих группах вычисляют следующим образом:

где х i - средняя i-и серии;

х - общая средняя по всей выборочной совокупности.

Пример . В целях контроля качества комплектующих из партии изделий, упакованных в 50 ящиков по 20 изделий в каждом, была произведена 10%-ная серийная выборка. По попавшим в выборку ящикам среднее отклонение параметров изделия от нормы соответственно составило 9 мм, 11, 12, 8 и 14 мм. С вероятностью 0,954 определите среднее отклонение параметров по всей партии в целом.

Решение. Выборочная средняя:

мм.

Величина межгрупповой дисперсии:

С учетом установленной вероятности Р = 0,954 (t = 2) предельная ошибка выборки составит:

мм.

Произведенные расчеты позволяют заключить, что среднее отклонение параметров всех изделий от нормы находится в следующих границах:

Для определения необходимого объема серийной выборки при заданной предельной ошибке используются следующие формулы:

(повторный отбор);

(безповторный отбор).