Аналитика и Data Science. Для не-аналитиков и даже 100% гуманитариев…. Никита Сергеев. Читать онлайн. Newlib. NEWLIB.NET

Автор: Никита Сергеев
Издательство: Издательские решения
Серия:
Жанр произведения: Прочая образовательная литература
Год издания: 0
isbn: 9785005007346
Скачать книгу
17. Примеры реальных распределений в социально-экономической реальности

      90% жителей страны владеют 2% капитала. 2 певца забирают 95% популярности. 99% тиража всех книг приходится на 1% авторов и т. д.

      В любом случае на практике реальное распределение отклоняется от этой кривой. Да и выборки данных, строго соответствующие нормальному распределению, на практике, как правило, не встречаются.

      Но тем не менее, в статистике перед исследованием важно понимать соответствует ли распределение наших данных по каждой переменной нормальному распределению.

      Для переменных, которые нормально распределены – используются одни параметры и критерии для сравнения (и среднее значение, дисперсия, стандартное отклонение – в этом случае информативные показатели).

      Для тех переменных, которые не соответствуют нормальному распределению – другие критерии (тут скорее более информативными будут ранги, мода, медиана и т.д.).

      Понять «на глаз» нормально ли распределены данные на самом деле может быть достаточно сложно. Бывает внешне похожее на нормальное распределение значимо от него отличается. А бывает наоборот – визуально не выглядящее нормальным распределение не имеет значимых отличий от нормального.

      Поэтому для определения «нормальности» распределения разработаны специальные статистические тесты. Мы на этом остановимся позже в практических разделах книги.

      Итоги раздела

      В этом разделе основные мысли, которые хотелось бы «осадить» в памяти читателя, следующие:

      1. Есть описательная и аналитическая статистика. Описательная статистика «ужимает» миллионы и миллиарды цифр к какому-то компактному числу, типичному для всего миллиона цифр. Аналитика позволяет находить скрытые закономерности, которые дают нам больше понимания о реальности и как она работает, а также строить прогнозы.

      2. Выборка и генеральная совокупность. Генеральная совокупность – вся целиком популяция исследуемых объектов. Выборка – выбранные из этой популяции объекты (часть генеральной совокупности). Но выборка должна быть репрезентативной – т.е., отражать генеральную совокупность.

      3. Переменные – это признаки / характеристики изучаемых нами объектов (люди, животные, товар, клиенты, организации и т.д.), которые могут принимать разные значения. Доход, пол, возраст, цвет и т. д.

      4. В практике стоит различать три типа шкал для измерения переменных. Номинальная: шкала наименований – город, пол, профессия и т. д. Категориальная / ординальная / порядковая: отражающая степень проявления какого-либо свойства, без точных измерений – высокий-низкий; больше-меньше; I – II – III место и т. д. Интервальная: отражает размерность или масштаб каждой переменной – доход, возраст в годах, расстояние и т. д.

      5. Мы выдвигаем наши предположения / суждения (как в виде мнений или домыслов, так и опыта) в виде гипотез, которые потом проверяем цифрами и аналитикой. В статистике фигурируют две гипотезы. Нулевая гипотеза (H0), гласящая что закономерностей,