Если анализируемые признаки x и y измерены в количественной шкале, то по выборке рассчитывается коэффициент корреляции r К. Пирсона. К минусам коэффициента Пирсона можно отнести его неустойчивость к нетипичным наблюдениям (статистическим выбросам), а также неспособность выявить нелинейную взаимосвязь. Этот недостаток преодолевают коэффициенты ранговой корреляции: Ч.Э. Спирмена (ρ) и М.Ж. Кендалла (τ). Они улавливают нелинейную монотонную связь, возрастающую или убывающую, и более устойчивы к нетипичным наблюдениям, поскольку «работают» с рангами единиц наблюдения.
Подчеркнем, что коэффициент корреляции является лишь выборочной оценкой теоретической корреляции (корреляции между признаками в генеральной совокупности), поэтому при работе с малыми выборками недостаточно знать значение коэффициента – требуется также проверить на его основе статистическую гипотезу о том, что корреляция генеральной совокупности равна нулю.
Общей проблемой коэффициентов корреляции является возможность выявления так называемой ложной корреляции (spurious correlation), которая обнаруживается, если каждый из них по отдельности связан с третьей, неучтенной в анализе, переменной. Такая корреляция может в большей или меньшей степени поддаваться содержательной интерпретации, но именно влияние третьей переменной на первые две обусловливает установленную связь. Примером такой ситуации может быть отрицательная корреляция между объемами продаж мороженого и степенью твердости асфальтового покрытия. На самом деле, на оба показателя влияет погода, точнее – температура воздуха [Кимбл, 1982, с. 196]. На ложную корреляцию можно смотреть и иначе: это явление возникает тогда, когда анализу подвергаются чрезвычайно разнородные объекты. В таком случае взаимосвязь между какими‐то признаками может возникнуть как эффект разнородности.
К сожалению, в социальных науках в большинстве ситуаций нет понимания того, как устроен порождающий данные процесс, какова механика формирования числового значения показателя. Это делает угрозу ложных корреляций чрезвычайно серьезной и обусловливает особое внимание исследователей к другому инструменту изучения связи признаков – регрессии.
Регрессионный анализ позволяет описать направление и вид постулируемой статистической взаимосвязи между объясняемой переменной («отклика») и одной или несколькими объясняющими переменными на достаточно большой выборке. Это может быть как пространственная (кросс-секционная) выборка, так и временной ряд или пространственно-временная выборка. Результатом регрессионного анализа является доля объясненной изменчивости «отклика»