Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…. Никита Сергеев. Читать онлайн. Newlib. NEWLIB.NET

Автор: Никита Сергеев
Издательство: Издательские решения
Серия:
Жанр произведения: Прочая образовательная литература
Год издания: 0
isbn: 9785005007346
Скачать книгу
аналитической обработки является «плоская» таблица (не сведенный отчет). См. рис. 18.

      Рис. 18. Базовая структура массива данных

      В массивах, с которыми Вы будете в основном сталкиваться в работе, по строкам идут случаи / объекты / процессы (компания, дата замера, человек, клиент и т.д.), а по колонкам – исследуемые переменные с их значениями для этих случаев / объектов / процессов.

      В массиве не должно быть никаких объединений ячеек или по несколько разных переменных в одной ячейке. Каждая переменная – отдельная колонка и ее значение для каждого объекта / случая записывается в отдельную ячейку.

      Мы не будем рассматривать нечеткий анализ (типа анализ текста, содержания, фото, видео и других форматов). Поэтому все значения переменных в массиве, по которым будут применяться методы анализа, надо оцифровать (записать цифрами). Например, если у Вас есть частота «покупки шмоток» в формате вариантов / альтернатив «Редко-Часто-Очень часто», то в массив должны быть заданы цифры 1, 2, 3, соответствующие этим вариантам / альтернативам. Исключениями могут быть только строчные переменные типа ФИО.

      Такая структура массива данных позволит принять его в обработку любыми статистическими пакетами – от ОСА и до SPSS и нашего PSPP. В Excel можно многое оставлять и «буквенным» (например, «пол» писать «м», «ж» или указывать частоту «часто-редко») – но специализированные прикладные статистические программы «буквенность» очень плохо воспринимают для анализа.

      Также специализированные программы еще потребуют создания так называемого «паспорта» для переменных, в котором будет задано имя, шкала переменной и описание ее альтернатив / вариантов.

      Например, переменную «Пол» надо будет записать в паспорте «Пол», задать 2 альтернативы с кодами 0=М, 1=Ж. А приводимую в пример ранее частоту покупок шмоток надо будет закодировать 1=Редко, 2=Часто, 3=Очень часто. Мы увидим, как выглядит «паспорт» далее, при знакомстве с программой PSPP.

      Сразу оговорюсь, что подготовка и «чистка» массива данных – это очень важная скурпулезная и дотошная работа. В книге в части рассмотрения этой проблематики мы ограничимся только базовыми, но самыми ключевыми вещами (другими словами, только минимумом достаточного).

      Консолидация данных в единый файл

      Часто данные содержатся в разных файлах или системах. И чтобы свести всё в единый массив, придется их собирать в одном файле.

      Хорошо, когда это могут сделать ИТ специалисты, предоставив единый файл согласно Вашего запроса.

      Но если этого не получается сделать, то может помочь такая функция Excel как ВПР (VLOOKUP). Она позволяет свести данные из множества разрозненных файлов в один файл-массив.

      Главное, чтобы во всех разрозненных файлах содержался единый идентифицирующий признак.

      Например, Вы работаете в компании и кадровые данные (пол, возраст, стаж, зарплата и т. д.) по сотрудникам содержатся в HR системе Ulcimus, фактические начисления и отчисления –