Выявление ошибок наблюдения и контроль данных
и контроль данных
Контроль первичных данных при проведении статистического наблюдения
При подготовке наблюдения необходимо предусмотреть, как полученные в процессе статистического наблюдения первичные данные, в которых могут быть ошибки и искажения, будут проверены до начала их сводки.
В первую очередь проверяется полнота охвата единиц статистической совокупности. Для этого состав обследованных единиц сопоставляется с данными предыдущих или аналогичных наблюдений, а также со списками единиц, имевшихся до начала исследования и представленных в Статрегистре, реестрах землепользователей, налогоплательщиков, предпринимателей без образования юридического лица и владельцев транспортных средств, а также в базах данных. Все пропущенные единицы должны быть проверены и при их наличии обследованы, а при отсутствии — исключены из списков. При выборочном обследовании пропущенные единицы заменяются другими, с аналогичными свойствами.
Далее необходимо проверять полноту заполнения формуляров наблюдения, наличие пропусков в ответах на вопросы программы. В первую очередь осуществляется логический контроль и уясняется, обоснованы ли выявленные пропуски. Если, допустим, в кооперативе имеется 500 коров, в формуляре приведены сведения о реализации молока, но не указан валовой надой, налицо имеется явная ошибка, ее необходимо исправить, отправив запрос непосредственно на предприятие или используя другие документальные данные. Когда причины пропусков неясны, приходится уточнять данные с помощью повторного наблюдения. Путем использования логических взаимосвязей между признаками программы наблюдения или по данным предыдущих исследований могут быть рассчитаны возможные (восстановленные) значения. Иногда пропущенные значения заменяются средними для совокупности значениями, при этом на число восстановленных значений уменьшается число степеней свободы при расчете параметров совокупности.
Ошибки регистрации
При контроле данных необходимо учитывать характер возможных ошибок наблюдения. Ошибки регистрации касаются значения регистрируемых по единицам совокупности признаков. Они могут возникать из-за описок, округлений, оговорок, неправильной работы приборов, неточностей в первичных документах, искажения фактов, перестановки цифр и т. п. Эти ошибки бывают случайными и систематическими.
Случайные ошибки обычно не имеют видимых причин и определенной направленности, они могут как преувеличивать, так и преуменьшать значения признаков. При массовой записи они практически неизбежны, но при сводке данных взаимно погашаются и не меняют значения итоговых статистических показателей.
Систематические ошибки, в отличие от случайных, имеют определенную направленность; величина отдельных признаков при этом систематически завышается или занижается, что приводит к искажению сводных показателей. Такие ошибки должны быть исключены путем правильной организации наблюдения. Непреднамеренные систематические ошибки нередко возникают из-за неточных формулировок или неверного понимания вопросов программы. Поэтому так важно правильно составить программу, дать необходимые подсказы, четко разъяснить поставленные вопросы в инструкции, подготовить работников, осуществляющих наблюдение, и принять меры по повышению качества их работы. Систематические искажения, кроме того, возможны из-за неточности приборов, округления цифр в одну сторону, неосознанного стремления показать явление с лучшей стороны. Эти моменты также должны быть исключены.
Более опасны преднамеренные систематические ошибки, вызванные сознательным стремлением лиц, представляющих сведения, увеличить или уменьшить значения тех или иных признаков с корыстными целями (например, скрыть доходы от налогообложения, занизить или завысить показатели, по которым производится оценка деятельности руководителей). Эти ошибки имеют в сельском хозяйстве достаточно широкое распространение по целому ряду причин (подстраховка положения, опасность изменения признаков по не зависящим от респондента причинам и т. п.). Об этом свидетельствуют, например, данные обследования Центра экономической конъюнктуры при Правительстве РФ за 2003 г. Более трети (37 %) респондентов — руководители органов управления сельским хозяйством, руководители сельскохозяйственных организаций и главы крестьянских (фермерских) хозяйств, заявили, что в сельском хозяйстве данные о производстве продукции систематически занижаются. Ранее органы статистики имели право проверять такие данные на месте, а в современных условиях все зависит от реальной меры ответственности руководителей и специалистов за достоверность представляемых сведений, а также от экономического механизма хозяйствования, создающего или исключающего мотивы к их преднамеренному искажению.
В любом случае полученные значения признаков должны быть подвергнуты логическому и арифметическому контролю. При логическом контроле проверяются соответствие ответа поставленному вопросу, заранее установленным правилам и соотношениям, согласованность ответов между собой, их непротиворечивость. Так, хронически убыточное предприятие не может платить налоги на прибыль. Арифметический контроль призван обеспечить проверку количественных соотношений между признаками, например чтобы сумма частных показателей не превышала общего итога или равнялась ему, чтобы часть не была больше целого, а относительные показатели правильно рассчитаны как соотношение включенных в программу наблюдения абсолютных величин.
В последние годы стало широко практиковаться автоматическое статистическое редактирование первичных данных наблюдения, особенно выборочных, на основе стохастических методов замещения ошибочных значений или с помощью расчетных формул, аргументами в которых выступают признанные верными значения признаков. Приемы математической статистики позволяют оценить, насколько «естественно» зафиксированное значение признака для данной совокупности, и выявить «подозрительные» значения (которые могут быть следствием ошибки наблюдения). Однако при исследовании общественных явлений такие методики следуют применять крайне осторожно, поскольку эти явления очень динамичны, часто недостаточно изучены и иногда могут преподнести неожиданные сюрпризы. В частности, ни в коем случае нельзя заменять документально зафиксированные значения признаков расчетными и вносить какие-либо исправления по субъективным соображениям без фактической проверки их достоверности.
Особое внимание следует уделять оценке нетипичных признаков единиц наблюдения, имеющих экстремальные (чрезмерно низкие или высокие) значения. Эти значения признаков могут быть достоверными, и при сплошном наблюдении их следует использовать при сводке первичных данных. При выборочном же обследовании нетипичные значения могут сильно исказить выборочные характеристики. Поэтому вначале следует выявить их наличие, используя методы математической статистики (расчет стандартизированного отклонения и межквартильных рангов), а затем выявить причины появления. Если в выборку попадают единицы другой генеральной совокупности (^артефакты), их обычно исключают из выборки. При принадлежности единиц к данному типу явления учитывают их удельный вес в совокупности, чтобы не исказить сводные статистические показатели.