ГЛАВА 9 Методы многомерной ординации
9.1 Преобразование данных и вычисление матрицы расстояний
В большинстве случаев статистика оперирует с результатами предметно-ориентированной системы наблюдений, включающей два множества переменных:
\[\mathbf{X} \rightarrow \mathbf{Y},\]
где \(\mathbf{X}\) - фиксированные или случайно варьируемые факторы (в экологии, например, условия среды или наличие ресурсов), которые потенциально определяют свойства изучаемых объектов \(\mathbf{Y}\) (обилие видов, показатели здоровья и т.д.). С формальной точки зрения результаты мониторинга еще не представляют собой строго определенного информативного пространства, для создания которого необходимо в рамках поставленной задачи задать структуру данных и количественную меру отношений между объектами.
Как упоминалось в главе 1 при обсуждении природы многомерного отклика, современные сложные системы (прежде всего, экономические и экологические) часто включают связанные ансамбли данных, состоящие из некоторого количества однородных компонент \(S\), что определяет ряд особенностей построения моделей на их основе. Если отсортировать список \(S = \{x_1, x_2, \dots, x_s\}\) по частотам встречаемости элементов каждого класса \(N(x_i)\), то получим функцию рангового распределения \(\Phi(r) = N(\boldsymbol{x})\), оценивающую вероятности \(N(r)/N\) в зависимости от ранга \(r(\boldsymbol{x})\). Все устойчивые плотности таких распределений стартуют с больших величин \(N(r)\) и круто убывают при увеличении \(r\) приблизительно как гиперболы, имеющие длинные правосторонние “хвосты”. Математики по этому поводу обнаружили шутливую закономерность: “20% жителей выпивают 80% пива”.
Разумеется, в таких условиях классическая статистика, основанная на предположениях о нормальности, практически оказывается не вполне полезной. В частности, целью трансформации данных является уже не стабилизация дисперсии и среднего (сам смысл которых становится неясен), а повышение адекватности данных относительно поставленной задачи.
Поясним смысл сказанного на примере. Пусть мы планируем оценить сходство двух водоемов по обилию донных беспозвоночных организмов, взяв соответствующие гидробиологические пробы. Животный мир бентоса состоит из самых различных видов: от крупных моллюсков до мелких нематод, индивидуальный вес которых отличается в тысячи раз. Сравним водоемы, рассчитав евклидово расстояние двух векторов биомасс \(\{x_1, x_2, \dots, x_m\}\) для обнаруженных \(m\) видов. Мы увидим, что это расстояние целиком определяется разностью масс 1-2 видов крупнейших моллюсков, а остальные \((m - 1)\) видов даже не имело никакого смысла отлавливать. Если мы выполним, например, стандартизацию биомассы каждого вида на диапазоне [0, 1] и снова рассчитаем расстояние Евклида, то оно также не будет способствовать выяснению сути дела, поскольку доминирующие и функционально важные виды будут иметь ту же относительную значимость, что и случайные, маргинальные или редкие виды, часто играющие ничтожную роль в экосистеме. Читатель, далекий от проблем беспозвоночных, может мысленно трансформировать этот пример на сравнение уровней материальной обеспеченности жителей двух регионов, включая олигархов и дворников, или любой иной вариант.
П. Лежандр с соавторами (Legendre, Gallagher 2001; Legendre, Legendre, 2012) разработали общие правила многомерного анализа данных и построения хорошо интерпретируемых ординационных диаграмм. Основные способы трансформации и стандартизации данных, рекомендуемые ими (применительно к подсчету численности видов в экологических исследованиях), представлены функцией decostand()
в пакете vegan
:
decostand(x, method, MARGIN)
,
где MARGIN = 1
, если операция применяется к строкам таблицы x
, и 2
- если к столбцам (обычно именно это значение принимают по умолчанию).
Параметр method может принимать следующие значения:
normalize
- cумма квадратов значений по строкам делается равной 1;total
- деление на суммы по строкам;hellinger
- корень квадратный из значений по методуtotal
;max
- деление на максимумы по столбцам;freq
- деление на максимумы по столбцам и умножение на число ненулевых компонент;chi.square
- см. формулу (9.1) ниже;log
- логарифмическая трансформация (не требует добавления 1);range
- данные по столбцам стандартизуются на диапазоне [0, 1];standardize
- обычная стандартизацияx
к нулевому среднему и единичной дисперсии; см.scale(x, center = TRUE, scale = TRUE)
;pa
- приведение x к бинарной шкале (0/1).
В представленной выше ситуации с бентосом, рекомендуется либо простейшая логарифмическая трансформация, либо преобразование, приводящее к \(\chi^2\)-дистанции, которая является, видимо, наиболее разумным компромиссом при учете как роли ведущих компонент, так и вклада длинного правого “хвоста”. Такое преобразование имеет вид:
\[x'_{ij} = \sqrt{x_{++}}\frac{x_{ij}}{x_{i+}\sqrt{x_{j+}}}, \quad (9.1)\]
где \(x_{i+}\) - сумма по строкам, \(x_{+j}\) - сумма по столбцам, \(x_{++}\) - общая сумма элементов таблицы \(\boldsymbol{x}\).
Вторым важным этапом является спецификация метрики отношений между объектами. В частном случае при применении статистических методов информативное пространство может интерпретироваться как вероятностное: тогда пара векторов действительных чисел \(\{x_1, x_2, \dots, x_m\}\) и \(\{y_1, y_2, \dots, y_m\}\), описывающих произвольные объекты \(x\) и \(y\), будут трактоваться как выборочные реализации \(m\)-мерной случайной величины. В этом случае в качестве мер сходства между объектами могут выступать оценки ковариации \(\text{cov}(x, y) = \sum_{i=1}^m (x_i - m_x)(y_i - m_y)\), коэффициент корреляции \(r_{xy} = \text{cov}(x, y)/\sigma_x \sigma_y\) или произвольное ковариационное отношение \(K = [\text{cov}(x, y) - \text{cov}_{\min}]/[\text{cov}_{\max} - \text{cov}_{\min}]\), где \(m\) - математическое ожидание, \(\sigma\) - стандартное отклонение, \(\text{cov}_{\min}\) и \(\text{cov}_{\max}\) - экстремальные значения ковариации для теоретической (“эталонной”) выборки (Воробейчик, 1993).
В общем случае использование вероятностных представлений совершенно не обязательно. Часто пространство измеряемых переменных рассматривают как метрическое пространство, расстояния в котором определяются некоторой функцией \(\rho\), обладающей нехитрыми свойствами: а) тождества \(\rho(\mathbf{x, y}) = 0\) при \(\mathbf{x = y}\), б) симметрии \(\rho(\mathbf{x, y}) = \rho(\mathbf{y, x})\) и в) правила треугольника \(\rho(\mathbf{x, y}) + \rho(\mathbf{y, z}) \geq \rho(\mathbf{x, z})\). Конкретной дефиницией функции \(\rho\) может быть, например, обобщенная мера Минковского (см. раздел 3.4), наиболее популярными реализациями которой являются манхэттенская ("manhattan"
) или евклидова ("euclidean"
) дистанции, а также расстояние Хемминга ("binary"
), равное числу совпавших единиц для двух бинарных кодов. Эти опции являются основными для базовой функции R dist(x, method = "euclidean")
, вычисляющей матрицу дистанций между всеми парами объектов, которые представлены строками таблицы x
.
Более широкими возможностями обладает следующая функция из пакета vegan
:
vegdist(x, method = "bray", binary = FALSE)
,
где параметр method
охватывает значительную часть “изобретений” экологов в области мер сходства/расстояния: "manhattan"
, "euclidean"
, "canberra"
, "bray"
, "kulczynski"
, "jaccard"
, "gower"
, "altGower"
, "morisita"
, "horn"
, "mountford"
, "raup"
, "binomial"
, "chao"
и "cao"
. По умолчанию используется мера Брея-Кёртиса:10
\[M_{xy} = \frac{\sum_{i=1}^m[(x_i + y_i)\log(x_i+y_i)] - \sum_{i=1}^m x_i\log x_i - \sum_{i=1}^m y_i \log y_i}{[(N_x + N_y)\log (N_x + N_y)] - N_x \log N_x - N_y \log N_y}.\]
В ряде обзоров делаются попытки оценить, какие меры “завышают” или “занижают” сходство между объектами и каким коэффициентам следует отдать предпочтение в работе. По этому поводу можно заметить, что сходство/расстояние между объектами является типичным искусственно сконструированным (латентным) понятием, поэтому с теоретических позиций наилучшую формулу его количественного выражения нельзя найти без связи с каким-то внешним критерием оптимизации. Например, одним из критериев адекватности метрик является устойчивость последовательностей агрегирования объектов в более крупные таксоны, иерархические деревья и проч., которая часто оказывается специфичной для каждого набора данных.
Отметим также, что некоторые из вышеперечисленных мер (например, коэффициенты Жаккара и Съеренсена) являются коэквивалентными, т.е. они порождают одну и ту же предупорядоченность анализируемых объектов. Более сильное влияние на характер результатов оказывают различия в функциональной форме разностей \(x\) и \(y\), такие как абсолютная, квадратичная или логарифмическая.
Другие его названия: индекс Ренконена, процентное подобие, коэффициент общности, индекс Штейнгауза, количественная мера сходства Чекановского и т.д.↩