Основные меры расстояний

Основные меры расстояний для переменных, измеренных на метрических шкалах.

1. Евклидово расстояние.

Многомерное евклидово расстояние (1ц между двумя объектами i и ∕ определяется по формуле

(10.5)

где i = 1,2, ..., гг, k – число переменных.

Все переменные стандартизованы, не имеют размерности. Это обеспечивает возможность суммирования расстояний по разным переменным.

Другими словами, дц – это геометрическое расстояние между двумя объектами в многомерном пространстве. Многомерным пространством называют пространство, имеющее число измерений более трех. В нашем случае в формуле (10.5) имеем ^-мерное пространство.

Вычисление многомерного евклидова расстояния по формуле (10.5) чаще называют простым евклидовым расстоянием.

Взвешенное евклидово расстояние применяется в том случае, если переменные ранжированы между собой по степени важности, т.е. им присвоены веса. Вес показателя показывает, насколько важно учесть при классификации данный признак, т.е. при расчете меры сходства учитывается важность показателя, оцененная путем дополнительных исследований, например, экспертным путем.

Взвешенное евклидово расстояние рассчитывается следующим образом:

(10.6)

где Wj – вес у-го показателя,

Сумма всех весов должна равняться 1.

Если трудно определиться с важностью показателя и все веса равнозначны, то рекомендуется использовать простое евклидово расстояние.

2. Квадрат евклидова расстояния:

(10.7)

где– номер объекта,– объем выборки.

Квадрат евклидова расстояния находится как расстояние между двумя элементами г и ∕ через сумму квадратов разности значений всех переменных. Квадрат евклидова расстояния используется для придания больших весов наиболее удаленным друг от друга объектам. Особенно это важно использовать для стандартизованных переменных.

3. Расстояние Чебышева:

(10.8)

где

Расстояние Чебышева равно максимальному расстоянию между соответствующими координатами объектов. Расстояние Чебышева используют тогда, когда требуется определить различие двух объектов г и ∕ по какой-либо одной координате. Расстояние Чебышева является грубой мерой различия, так как значительная часть имеющейся информации игнорируется.

4. Расстояние Хэмминга (расстояние городских кварталов или манхэттенское расстояние):

(10.9)

где

Расстояние Хэмминга вычисляется как сумма абсолютных значений координатных расстояний. В большинстве случаев эта мера расстояний приводит к таким же результатам, как и простое евклидово расстояние.

5. Расстояние Минковского:

(10.10)

где

При р = 2 формула расстояния Минковского принимает вид евклидова расстояния; при р = 1 получаем расстояние Хэмминга.

Расстояния между объектами, рассчитанные по какой-либо из перечисленных выше формул, представляют в виде матрицы расстояний:

(10.11)

где

Как видим, матрица расстояний представляет собой квадратную матрицу типа "объект – объект" (порядка п), где в качестве элементов выступают расстояния между объектами в метрическом пространстве. Диагональные элементы такой матрицы равны нулю.

Матрица расстояний обладает следующими свойствами (аксиомами):

  • 1)(аксиома симметрии). Расстояние между объектами i и ∕ равно расстоянию между объектами ∕ и г,
  • 2)тогда и только тогда, когда i = j (аксиома тождества). Расстояние между объектом и им самим равно 0, поэтому на главной диагонали матрицы мы видим значения равные 0.
  • 3)(аксиома треугольника или неравенство треугольника). Расстояние между двумя любыми точками всегда меньше или равно (в случае, если три точки лежат на одной прямой) суммы расстояний от данных точек до какой-нибудь третьей точки.

Как отмечено выше, наряду с различными видами расстояний однородность объектов может быть определена при помощи меры степени близости (сходства). В качестве меры близости (сходства) может быть использован линейный коэффициент корреляции:

(10.12)

где

Использование меры сходства в кластерном анализе обеспечивает комбинацию двух методов многомерного статистического анализа: корреляционного и кластерного анализов. В этом случае в результате получаем корреляционную матрицу или матрицу корреляций (13):

(10.13)

где

Корреляционная матрица обладает следующими свойствами (аксиомами):

  • 1)(аксиома симметрии). Корреляция (теснота связи) между объектами i и j равна корреляции между объектами у и i;
  • 2)тогда и только тогда, когда i = j (аксиома тождества). Объект похож сам на себя, поэтому на главной диагонали значения корреляций равны 1.
 
< Пред   СОДЕРЖАНИЕ     След >