Полная версия

Главная

  • Увеличить шрифт
  • Уменьшить шрифт


<<   СОДЕРЖАНИЕ   >>

Классификация данных но числу переменных

По числу переменных различают одномерный, двумерный и многомерный массивы данных (см. рис. 1.1).

В одномерных наборах данных у каждого наблюдения регистрируется только один признак.

В этом случае статистические методы используются для определения основных характеристик этого признака:

  • • расчет средних значений и показателей вариации, размаха признака;
  • • группировка данных и построение вариационных рядов (дискретных и интервальных);
  • • графическое представление данных с целью их визуализации и анализа;
  • • исследование различий наблюдений или групп наблюдений, требующих особого рассмотрения (задача классификации и выявления аномальных наблюдений).

Примеры одномерных данных

В качестве одномерных данных могут выступать:

  • • цена некоторого продукта питания в разных магазинах г. Пскова;
  • • динамика числа семей, нуждающихся в улучшении жилищных условий, в г. Самаре;

Пример 1.1

Индексы цен на первичном рынке жилья по Российской Федерации (на конец года; в % по отношению к концу предыдущего года). Данные представлены в табличной форме и в виде точечно-линейного графика (line chart, time plot), построенного в программе MS Excel.

Год

Индекс цен, %

Год

Индекс цен, %

Год

Индекс цен, %

Год

Индекс цен, %

1998

156,9

2003

118.8

2008

110,3

2013

104.8

1999

146.3

2004

118,5

2009

92,4

2014

105,7

2000

113,1

2005

117,5

2010

100.3

2013

104,8

2001

125.1

2006

147,7

2011

106,7

2014

105,7

2002

122,5

2007

123,4

2012

110,7

Источник: Росстат. URL: gk.s.ru/free_doc/new_site/prices/housing/tab9.htm.

Пример 1.2

Уровень безработицы (в %, на конец месяца, в среднем за год) в России в 1994– 2015 гг. (в 2015 г. – среднее за первые шесть месяцев). Данные представлены в табличной форме и в виде лепестковой диаграммы (MS Excel).

Год

Уровень безработицы, %

Год

Уровень безработицы, %

Год

Уровень безработицы, %

1994

7,39

2002

8,06

2010

7.36

1995

8,53

2003

8,63

2011

6,51

1996

9,60

2004

8,16

2012

5,45

1997

10,81

2005

7,57

2013

5.50

1998

11,86

2006

7.17

2014

5,16

1999

12,74

2007

6.13

2015

5,65

2000

10,49

2008

6.36

2001

9,03

2009

8.38

Источник: URL: sophist.hse.ru/exes/tables/UNEMPL_M_SH.htni.

В многомерных (двумерных, трехмерных и т.д.) наборах данных у каждого наблюдения регистрируется несколько признаков.

Статистические методы в этом случае используются для решения задач:

  • • определения основных характеристик по каждому одномерному признаку;
  • • анализа наличия и степени зависимости между этими признаками;
  • • исследования вида зависимости одной переменной (результативной) от остальных (факторных);
  • • классификации наблюдений с целью получения однородных групп (кластеров) и выявления аномальных наблюдений;
  • • построения обобщающих, интегральных показателей с целью снижения размерности исходного признакового пространства;
  • • анализа рядов и прогнозирования (для временных данных).
 
<<   СОДЕРЖАНИЕ   >>