Общей проблемой коэффициентов корреляции является возможность выявления так называемой ложной корреляции (spurious correlation), которая обнаруживается, если каждый из них по отдельности связан с третьей, неучтенной в анализе, переменной. Такая корреляция может в большей или меньшей степени поддаваться содержательной интерпретации, но именно влияние третьей переменной на первые две обусловливает установленную связь. Примером такой ситуации может быть отрицательная корреляция между объемами продаж мороженого и степенью твердости асфальтового покрытия. На самом деле, на оба показателя влияет погода, точнее – температура воздуха [Кимбл, 1982, с. 196]. На ложную корреляцию можно смотреть и иначе: это явление возникает тогда, когда анализу подвергаются чрезвычайно разнородные объекты. В таком случае взаимосвязь между какими‐то признаками может возникнуть как эффект разнородности.
К сожалению, в социальных науках в большинстве ситуаций нет понимания того, как устроен порождающий данные процесс, какова механика формирования числового значения показателя. Это делает угрозу ложных корреляций чрезвычайно серьезной и обусловливает особое внимание исследователей к другому инструменту изучения связи признаков – регрессии.
Регрессионный анализ позволяет описать направление и вид постулируемой статистической взаимосвязи между объясняемой переменной («отклика») и одной или несколькими объясняющими переменными на достаточно большой выборке. Это может быть как пространственная (кросс-секционная) выборка, так и временной ряд или пространственно-временная выборка. Результатом регрессионного анализа является доля объясненной изменчивости «отклика» (коэффициент детерминации R>2) и оценки степени связи предикторов с «откликом» (регрессионный коэффициент).
Линейная регрессионная модель с одной объясняющей переменной (парная регрессия) может быть записана следующим образом:
y>i = β>0 + β>1x>1 + ε>i,
где индексом i обозначается номер объекта, y>i – объясняемая переменная; x>i – первая объясняющая переменная, измеренная на i объекте; ε>i – случайный член (ошибка регрессионной модели, отражающая влияние факторов, неучтенных в рамках имеющейся спецификации, а также ошибки измерения признаков); коэффициент β>0 – константа – среднее значение зависимой переменной в том случае, если предиктор принимает значение ноль (поэтому константа не всегда имеет содержательную интерпретацию). Коэффициент β