Ошибки выборки. Задачи, решаемые при применении выборочного наблюдения

Расхождение между значениями показателей, полученных по выборке, и соответствующими параметрами генеральной совокупности называют ошибкой репрезентативности. Различают систематические и случайные ошибки выборки.

Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.

Систематические ошибки могут быть связаны с нарушением правил отбора или условий реализации выборки.

Так, при обследовании бюджетов домашних хозяйств выборочную совокупность на протяжении более 40 лет строили на основе территориально-отраслевого принципа отбора, что было обусловлено основной целью бюджетного обследования – дать характеристику уровня жизни рабочих, служащих и колхозников. Выборочная совокупность распределялась по регионам и отраслям экономики РСФСР пропорционально общей численности занятых; для создания отраслевой выборки применяли типическую выборку с механическим отбором единиц внутри групп.

Главным критерием отбора была среднемесячная оплата труда. Принцип отбора обеспечивал пропорциональную представительность в выборочной совокупности работающих с различным уровнем заработной платы.

С появлением новых социальных групп (предпринимателей, фермеров, безработных) репрезентативность выборки нарушалась не только в силу различий со структурой генеральной совокупности, но и в связи с систематической ошибкой, которая возникала из-за несовпадения единицы отбора (работник) и единицы наблюдения (домохозяйство). Домохозяйство, имеющее более одного работающего члена семьи, имело и бо́льшую вероятность быть отобранным, чем домохозяйство, в составе которого был один работающий. Семьи, не имеющие занятых в обследуемых отраслях, выпадали из круга отбираемых единиц (домохозяйства пенсионеров, домохозяйства, существующие за счет индивидуальной трудовой деятельности, и т.п.). Оценка точности полученных результатов (границы доверительных интервалов, ошибки выборки) была затруднена, так как при построении выборки не использовались вероятностные модели.

В 1996–1997 гг. был внедрен принципиально новый подход к формированию выборки домашних хозяйств. В качестве основы для ее проведения использовали данные микропереписи населения 1994 г. Генеральную совокупность при отборе составили все типы домашних хозяйств, за исключением коллективных. А выборочную совокупность стали организовывать с учетом представительности состава и типов домашних хозяйств в пределах каждого субъекта РФ.

Измерение ошибок репрезентативности выборочных показателей основано на предположении о случайном характере их распределения при бесконечно большом числе выборок.

Количественную оценку надежности выборочного показателя используют, чтобы составить представление о генеральной характеристике. Это осуществляют либо на основе выборочного показателя с учетом его случайной ошибки, либо на основе выдвижения некоторой гипотезы (о величине средней дисперсии, характере распределения, связи) в отношении свойств генеральной совокупности.

Для проверки гипотезы оценивают согласованность эмпирических данных с гипотетическими.

Величина случайной ошибки репрезентативности зависит:

  • 1) от объема выборки;
  • 2) степени вариации изучаемого признака в генеральной совокупности;
  • 3) принятого способа формирования выборочной совокупности.

Различают среднюю (стандартную) и предельную ошибки выборки.

Средняя ошибка характеризует меру отклонений выборочных показателей от аналогичных показателей генеральной совокупности.

Предельной ошибкой принято считать максимально возможное расхождение выборочной и генеральной характеристик, т.е. максимум ошибки при заданной вероятности ее появления.

По данным выборочной совокупности можно оценить различные показатели (параметры) генеральной совокупности. Наиболее часто используют оценку:

  • – генеральной средней величины изучаемого признака (для многозначного количественного признака);
  • – генеральной доли (для альтернативного признака).

Основным принципом применения выборочного метода является обеспечение равной возможности для всех единиц генеральной совокупности быть отобранными в выборочную совокупность. При таком подходе соблюдается требование случайного, объективного отбора и, следовательно, ошибка выборки определяется прежде всего ее объемом (п). С увеличением последнего величина средней ошибки уменьшается, характеристики выборочной совокупности приближаются к характеристикам генеральной совокупности.

При одинаковой численности выборочных совокупностей и прочих равных условиях ошибка выборки будет меньше в гой из них, которая отобрана из генеральной совокупности с меньшей вариацией изучаемого признака. Уменьшение вариации признака означает снижение величины дисперсии (– для количественного признака или – для альтернативного признака).

Зависимость величины ошибки выборки от способов формирования выборочной совокупности определяется по формулам средней ошибки выборки (табл. 5.2).

Дополним показатели табл. 5.2 следующими пояснениями.

  • 1. При расчете средней ошибки выборки для увеличения точности вместо множителя следует брать множитель , но при большой численности генеральной совокупности различие между этими выражениями практического значения не имеет.
  • 2. На практике величина дисперсии признака в генеральной совокупности, как правило, неизвестна, поэтому в формулы ошибки выборки подставляют дисперсию выборочной совокупности.

Выборочная дисперсия несколько меньше генеральной, в математической статистике доказано, что

Таблица 5.2

Формулы расчета средней ошибки выборки мри различных способах отбора

Вид выборки

Отбор

повторный для

бесповторный для

средней

доли

средней

доли

Собственно

случайная

(простая)

Серийная

(с равновеликими

сериями)

Типическая (пропорционально объему групп)

Если выборочная совокупность имеет большой объем (т.е. п достаточно велико), то соотношение приближается к единице и выборочная дисперсия практически совпадает с генеральной.

Выборку считают безусловно большой при п > 100 и безусловно малой при п < 30. При оценке результатов малой выборки указанное соотношение выборочной и генеральной дисперсии следует принимать во внимание.

Среднюю ошибку малой выборки можно рассчитать по формуле

  • 3. При серийном методе отбора с равновеликими сериями размеры вариации характеризуют межсерийные (межгрупповые) дисперсии:
    • – средних ();
    • – доли ().

Они могут быть рассчитаны по следующим формулам:

где – средняя i-й серии; – общая средняя по всей выборочной совокупности;

где – доля единиц определенной категории в i-й серии; – доля единиц этой категории во всей выборочной совокупности; r – число отобранных серий.

4. Для определения средней ошибки типической выборки в случае отбора единиц пропорционально численности каждой группы в качестве показателя вариации выступает средняя из внутригрупповых дисперсий (– для количественного признака, для альтернативного признака). По правилу сложения дисперсий величина средней из внутригрупповых дисперсий меньше, чем величина общей дисперсии. Значение средней возможной ошибки типической выборки меньше, чем ошибка простой собственно-случайной выборки.

Часто используют комбинированный отбор: индивидуальный отбор единиц сочетают с групповым, типический отбор – с отбором сериями. При любом способе отбора с определенной вероятностью можно утверждать, что отклонение выборочной средней (или доли) от генеральной средней (или доли) не превысит некоторую величину, которую называют предельной ошибкой выборки.

Соотношение между пределом ошибки выборки (∆), гарантируемым с некоторой вероятностью F(t), и средней ошибкой выборки имеет вид: или , где t – коэффициент доверия, определяемый в зависимости от уровня вероятности F(t).

Значения функции F(t) и t определяются на основе специально составленных математических таблиц. Приведем некоторые из них, применяемые наиболее часто:

ί

1,0

1,96

2,0

2,58

3,0

т

0,683

0,950

0,954

0,990

0,997

Таким образом, предельная ошибка выборки отвечает на вопрос о точности выборки с определенной вероятностью, величина которой зависит от значения коэффициента доверия t. Так, при t = 1 вероятность F(t) отклонения выборочных характеристик от генеральных на величину однократной средней ошибки равна 0,683. Следовательно, в среднем из каждой 1000 выборок 683 дадут обобщающие показатели (среднюю, долю), которые будут отличаться от генеральных не более чем на величину однократной средней ошибки. При t = 2 вероятность F(t) равна 0,954, это означает, что из каждой 1000 выборок 954 дадут обобщающие показатели, которые будут отличаться от генеральных не более чем на двукратную среднюю ошибку выборки, и т.д.

Наряду с абсолютной величиной предельной ошибки выборки рассчитывают и относительную ошибку, которая определяется как процентное отношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности:

  • • для средней ;
  • • для доли .

На практике принято задавать величину ∆, как правило, в пределах 10% предполагаемого среднего уровня признака.

Расчет средней и предельной ошибок выборки позволяет определить пределы, в которых будут находиться характеристики генеральной совокупности:

Пределы, в которых с данной степенью вероятности будет заключена неизвестная величина изучаемого показателя в генеральной совокупности, называют доверительным интервалом, а вероятность F(t)доверительной вероятностью. Чем выше значение ∆, тем больше величина доверительного интервала и, следовательно, ниже точность оценки.

Рассмотрим следующий пример. Для определения среднего размера вклада в банке методом повторной случайной выборки было отобрано 200 валютных счетов вкладчиков. В результате установили, что средний размер вклада – 60 тыс. руб., дисперсия составила 32. При этом 40 счетов оказались до востребования. Необходимо с вероятностью 0,954 определить пределы, в которых находятся средний размер вклада на валютных счетах в банке и доля счетов до востребования.

Рассчитаем среднюю ошибку выборочной средней по формуле для повторного отбора

Предельная ошибка выборочной средней с вероятностью 0,954 составит

Следовательно, средний размер вклада на валютных счетах в банке находится в пределах тыс. руб.:

С вероятностью 0,954 можно утверждать, что средний размер вклада на валютных счетах в банке составляет от 59 200 до 60 800 руб.

Определим долю вкладов до востребования в выборочной совокупности:

Средняя ошибка выборочной доли

Предельная ошибка доли с вероятностью 0,954 составит

Таким образом, доля счетов до востребования в генеральной совокупности находится в пределах w:

С вероятностью 0,954 можно утверждать, что доля счетов до востребования в общем числе валютных счетов в банке составляет от 14,4 до 25,6%.

При конкретных исследованиях важно установить оптимальное соотношение между мерой надежности полученных результатов и величиной допустимой ошибки выборки. В связи с этим при организации выборочного наблюдения возникает вопрос, связанный с определением объема выборки, необходимого для получения требуемой точности результатов с заданной вероятностью. Расчет необходимого объема выборки проводится на основе формул предельной ошибки выборки в соответствии с видом и способом отбора (табл. 5.3).

Таблица 5.3

Формулы расчета численности выборки при собственно-случайном способе отбора

Способ отбора

Формулы расчета для

средней

доли

Повторный

Бесповторный

Продолжим пример, в котором представлены результаты выборочного обследования лицевых счетов вкладчиков банка.

Требуется установить, сколько необходимо обследовать счетов, чтобы с вероятностью 0,977 ошибка при определении среднего размера вклада не превысила 1,5 тыс. руб. Выразим из формулы предельной ошибки выборки для повторного отбора показатель численности выборки:

При определении необходимого объема выборки по приведенным формулам возникает трудность в нахождении значений σ2 и да, так как эти величины можно получить только после проведения выборочного обследования. В связи с этим вместо фактических значений данных показателей подставляют приближенные, которые могли быть определены на основе каких-либо пробных выборочных наблюдений или из аналитических предыдущих обследований.

В тех случаях, когда статистик знает среднее значение изучаемых признаков (например, из инструкций, законодательных актов и т.п.) или пределы, в которых этот признак варьируется, можно применить следующий расчет по приближенным формулам:

а произведение w( 1 – w) заменить значением 0,25 (w = 0,5).

Чтобы получить более точный результат, принимают максимально возможное значение этих показателей. Если распределение признака в генеральной совокупности подчиняется нормальному закону, то размах вариации примерно равен 6σ (крайние значения отстоят в ту и другую сторону от средней на расстоянии 3σ). Отсюда , но если распределение заведомо асимметрично, то .

При любом виде выборки ее объем начинают рассчитывать по формуле повторного отбора

Если в результате расчета доля отбора (n) превысит 5%, то проводят расчет по формуле бесповторного отбора.

Для типической выборки необходимо общий объем выборочной совокупности разделить между выделенными типами единиц. Расчет числа наблюдений из каждой группы зависит от названных ранее организационных форм типической выборки.

При типическом отборе единиц непропорционально численности групп общее число отбираемых единиц делят на число групп, полученная величина дает численность отбора из каждой типической группы:

где k – число выделенных типических групп.

При отборе единиц пропорционально численности типических групп число наблюдений по каждой группе определяют по формуле

где – объем выборки из i-й группы; – объем i-й группы.

При отборе с учетом вариации признака процент выборки из каждой группы должен быть пропорционален среднему квадратическому отклонению в этой группе (). Расчет численности () производят по формулам

  • • для средней
  • • для доли

При серийном отборе необходимую численность отбираемых серий определяют так же, как и при собственно-случайном отборе:

• повторный отбор

• бесповторный отбор

При этом дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.

При использовании выборочного наблюдения характеристика его результатов возможна на основе сопоставления полученных пределов ошибок выборочных показателей с величиной допустимой погрешности.

В связи с этим возникает задача определения вероятности того, что ошибка выборки не превысит допустимой погрешности. Решение этой задачи сводится к расчету на основе формулы предельной ошибки выборки величины t.

Продолжая рассмотрение примера выборочного обследования лицевых счетов клиентов банка, найдем вероятность, с которой можно утверждать, что ошибка при определении среднего размера вклада не превысит 785 руб.:

соответствующая доверительная вероятность составит 0,95.

В настоящее время практика выборочного наблюдения включает статистические наблюдения, осуществляемые:

  • – органами Росстата;
  • – другими министерствами и ведомствами (например, мониторинг предприятий в системе Банка России).

Известное обобщение опыта по организации выборочных обследований малых предприятий, населения и домашних хозяйств представлено в Методологических положениях по статистике. В них дано более широкое понятие выборочного наблюдения, чем это рассмотрено выше (табл. 5.4).

В статистической практике используют все четыре типа выборок, представленных в табл. 5.4. Однако обычно отдают предпочтение описанным выше вероятностным (случайным) выборкам, являющимся наиболее объективными, так как по ним можно оценить точность получаемых результатов по данным самой выборки.

Таблица 5.4

Типы выборок

Процедура отбора

Типы выборок по способу формирования

Вероятностная

Выборки вероятностные (случайные).

Выборки квазислучайные

Невероятностная

Выборки на основе направленного отбора.

Выборки на основе суждения эксперта

В выборках квазислучайного типа предполагается наличие вероятностного отбора на том основании, что специалист, рассматривающий выборку, считает его допустимым. Примером использования квазислучайной выборки в статистической практике является "Выборочное обследование малых предприятий по изучению социальных процессов в малом предпринимательстве", проведенное в 1996 г. в некоторых регионах России. Единицы наблюдения (малые предприятия) отбирались экспертно с учетом представительства отраслей экономики из уже сформированной выборки обследования финансово-хозяйственной деятельности малых предприятий (форма "Сведения об основных показателях финансово-хозяйственной деятельности малого предприятия"). При обобщении выборочных данных предполагалось, что выборочная совокупность сформирована методом простого случайного отбора.

Прямое использование суждения эксперта является наиболее общим методом намеренного включения единиц в выборку. Примером такого способа отбора является монографический метод, предполагающий получение информации только от одной единицы наблюдения, являющейся типичной, по мнению организатора обследования – эксперта.

Выборки, сформированные на основе направленного отбора, реализуются с помощью объективной процедуры, но без использования вероятностного механизма. Широко известен метод основного массива, при котором в выборку включают наиболее крупные (существенные) единицы наблюдения, обеспечивающие основной вклад в показатель, например суммарное значение признака, представляющего основную цель обследования.

В статистической практике часто применяют комбинированный метод статистического наблюдения. Сочетание сплошного и выборочного методов наблюдения имеет два аспекта:

  • • чередование во времени;
  • • одновременное их использование (часть совокупности наблюдают на сплошной основе, а часть – выборочно).

Чередование периодических выборочных со сравнительно редкими сплошными обследованиями или переписями необходимо для уточнения состава исследуемой совокупности. В дальнейшем эту информацию используют как статистическую основу выборочного наблюдения. Примерами могут служить переписи населения и выборочные обследования домашних хозяйств в промежутках времени между их проведениями.

В данном случае требуется решать следующие задачи:

  • – определение состава признаков сплошного наблюдения, обеспечивающих организацию выборки;
  • – обоснование периодов чередования, т.е. когда сплошные данные теряют актуальность и нужны затраты на их обновление.

Одновременное использование в рамках одного обследования сплошного и выборочного наблюдений обусловлено неоднородностью встречающихся в статистической практике совокупностей. В особенности это справедливо для обследований экономической деятельности совокупности предприятий, для которой характерны скошенные распределения изучаемых признаков, когда некоторое число единиц имеет характеристики, сильно отличающиеся от основной массы значений. В этом случае такие единицы наблюдают на сплошной основе, а другую часть совокупности – выборочно.

При данной организации наблюдений основными задачами выступают:

  • – установление их оптимальной пропорции;
  • – разработка способов оценки точности результатов.

Типичным примером, иллюстрирующим данный аспект применения комбинированного метода, является общий принцип проведения обследований совокупности предприятий, в соответствии с которым обследования совокупности крупных и средних предприятий проводят преимущественно сплошным методом, а малых – выборочным.

Дальнейшее развитие методологии выборочного наблюдения осуществляют как в сочетании с организацией сплошного наблюдения, так и через организацию специальных обследований, проведение которых диктуется необходимостью получения дополнительной информации для решения конкретных задач. Так, организация обследований в области условий и уровня жизни населения предусмотрена в двух аспектах:

  • – обязательные компоненты;
  • – дополнительные модули в рамках комплексной системы показателей.

Обязательными компонентами могут стать ежегодные исследования доходов, расходов и потребления (аналог обследования бюджетов домашних хозяйств), включающие также базовые показатели условий жизни населения. Ежегодно по специальному плану обязательные компоненты должны дополняться единовременными обследованиями (модулями) условий жизни населения, направленными на углубленное изучение какой-либо выбранной социальной темы из их общего числа (например, активы домашних хозяйств, здоровье, питание, образование, условия труда, жилищные условия, досуг, социальная мобильность, безопасность и др.) с различной периодичностью, определяемой потребностью в показателях и ресурсными возможностями.

 
< Пред   СОДЕРЖАНИЕ     След >