Второе – проверяем корректность данных, путем использования фильтров или функционала сводной таблицы. Например, если у Вас переменная «Пол» принимает кроме значения 1 (мужчина) и 0 (женщина) еще какие-то числа – надо отобрать фильтром эти числа и понять откуда они «всплыли». Возможно, просто массив по конкретных строкам сместился в сторону, а возможно их надо удалить или запросить уточнение данных.
Третье – недостающие или пропущенные данные. Что с ними делать надо решать исходя из особенностей предмета, который Вы анализируете / исследуете. Обычно их либо выкидывают, либо заменяют средними значениями или модой.
Четвертое – преобразование данных. Это когда одни данные переводятся в другие. Это как перевести килограммы в граммы или вообще в категорийное понятие «большой / малый вес».
Например, Вы собрали данные о количестве детей у сотрудников, а потом решили поделить на категории: до 2 детей, 3—4 ребенка, 5 и более детей. Потому что именно в разрезе таких категорий Вы будете принимать управленческие решения (например, выплачивать тот или иной размер выходного пособия при сокращении).
Давайте посмотрим, как преобразование выглядит в Excel и PSPP. Только не пытайтесь сейчас запомнить окна и надписи на рисунках – это иллюстративные примеры: просто попытайтесь уловить логику шагов. Даже если не уловите – мы будем в деталях рассматривать эти вещи в других разделах.
Для преобразования в Excel Вы добавляете колонку и используете формулу ЕСЛИ, чтобы на основании данных колонки «количество детей» вывести новую переменную (рис. 19).
Рис. 19. Перекодирование в Excel через формулу =ЕСЛИ
В PSPP необходимо будет использовать функцию TRANSFORM / COMPUTE или RECODE или ПРЕОБРАЗОВАТЬ / ВЫЧИСЛИТЬ или ПЕРЕКОДИРОВАТЬ…: с ее помощью можно на основании имеющихся переменных вычислить любые другие переменные (рис.20).
Рис. 20. Перекодирование в PSPP
Кого картинки с формулами и окнами «напрягли» – «спокойствие, только спокойствие»: они не страшны, да и работа с ними занимает на самом деле секунды. Выглядят просто эти окна страшнее, чем для даже более сложных видов в анализа. Как я говорил, с этими функциями (как в Excel, так и в PSPP) мы еще отдельно познакомимся далее по ходу книги.
Что стоит еще просто упомянуть в части подготовки массива к анализу.
Есть еще процедура нормирования всего массива – приведение всех переменных к % значениям или вычитанием среднего с последующим делением на стандартное отклонение – но в этих вычислениях Вас запутывать не буду.
Есть еще взвешивание. Вам пока этим также баловаться не нужно – и вряд ли работая в организациях (кроме исследовательских социологических