К методам снижения размерности многомерного признакового пространства относятся компонентный анализ и факторный анализ. Оба подхода позволяют на выходе получить небольшое число обобщенных характеристик, довольно полно описывающих изменчивость одного или нескольких латентных (ненаблюдаемых) признаков, стоящих за исходными частными критериями. Ни метод главных компонент, ни факторный анализ не делят переменные на зависимые и объясняющие.
Метод главных компонент (МГК) был предложен К. Пирсоном в 1901 г. и сейчас активно применяется во множестве естественных и социальных наук. С его помощью можно сжать изображения и видео, отделить значимую информацию от «шума», описать бактериальные геномы, составить индексы состояния окружающей среды, инвестиционной привлекательности регионов или коррупции в странах мира.
В МГК на входе имеется исходный набор признаков x >(1), x >(2), .., x >(p), измеренных в количественной шкале, который содержит в себе информацию, и этой информацией является дисперсия исходных показателей. МГК позволяет значительно уменьшить размерность исходного признакового пространства с минимальными потерями путем избавления от дублирующейся информации, содержащейся в сильно коррелированных признаках. Результатом является свертка имеющихся переменных в новые, некоррелированные между собой (ортогональные) «компоненты» y>1, y>2, .., y>p, первые несколько из которых объясняют большую долю общей дисперсии исходных признаков.
Полученная первая главная компонента y>1 максимально объясняет дисперсию исходных признаков. Вторая главная компонента y>2 объясняет максимально возможную долю оставшейся дисперсии и т.д. Доля дисперсии, которую объясняют последние компоненты, настолько мала, что от этих компонент можно отказаться без существенной потери информации. Количество компонент, которые будут извлечены по результатам МГК, зависит от исследователя и стоящей перед ним задачи. Существуют различные рекомендации относительно того, сколько главных компонент следует извлекать. Например, предлагается руководствоваться соображениями того, что извлеченные главные компоненты должны объяснять не менее 70–80% дисперсии исходных признаков [Analysis of multivariate social science data, 2008, р. 124]. Так или иначе важно, чтобы полученные компоненты могли быть содержательно интерпретированы. Интерпретация