Описанная логика работы с данными как результатами реализации случайных величин особенно естественна в случае количественных показателей, которые могут непосредственно отождествляться со случайными величинами. Так, случайной величиной можно назвать ВВП / человек в отдельном государстве, уровень безработицы, число респондентов в выборке, заявивших о поддержке некоторой реформы и др.
Основными числовыми характеристиками случайных величин, позволяющими описать данные в выборке, являются меры центральной (средней) тенденции и меры разброса относительно среднего. Они характеризуют распределение, которым описываются признаки, и могут способствовать выбору методов их анализа.
К мерам центральной тенденции относятся среднее арифметическое, медиана и мода. Среднее арифметическое является точечной оценкой математического ожидания E (x) (среднего значения в генеральной совокупности), медиана – значение показателя, меньше которого располагаются 50% наблюдений35, мода – наиболее распространенное значение, способ оценить среднее для категориальных переменных.
Дисперсия Var (x) – мера разброса относительно среднего. Она рассчитывается как усредненная сумма квадратов отклонений от среднего. Квадратный корень из дисперсии называется стандартным отклонением и тоже является мерой разброса, но имеет преимущество перед дисперсией поскольку измеряется в тех же самых единицах, что и сам признак, а дисперсия – в единицах в квадрате.
Определение типа шкалы и получение числовых, а также графических характеристик изучаемых признаков составляют подготовительный этап анализа данных. Исходя из полученной информации, требуется определить корректный метод для содержательной задачи, составляющей интерес исследователя: выявления взаимосвязи признаков, установления причинно-следственной связи, прогнозирования, классификации, снижения размерности и пр.
Задачу выявления связи между двумя номинальными признаками решает анализ таблиц сопряженности признаков, являющихся результатом их перекрестной классификации. Самая простая таблица сопряженности – это таблица 2x2, в которой строкам соответствуют два значения признака А, а столбцам – два значения признака В. В каждой ячейке таблицы указывается число объектов, для которого А и В принимают соответствующие строке и столбцу значения. Как правило, количество категорий признаков невелико, поэтому для включения в анализ непрерывного признака необходимо разбить его на категории. Например, можно создать возрастные группы или группы