Data Science для новичков. Руслан Назаров. Читать онлайн. Newlib. NEWLIB.NET

Автор: Руслан Назаров
Издательство: Издательские решения
Серия:
Жанр произведения:
Год издания: 0
isbn: 9785006028869
Скачать книгу
Интересно, что в интервалах 2.5—3.0 и 4.8—5.0 видны небольшие подъемы линии. При нормальном распределении этого быть не должно. Это означает, что оценки в указанных интервалах имеют вероятность большую, чем это предсказывает нормальное распределение. Дополнительная проверка на нормальность распределения с помощью статистических методов будет показана ниже.

      Гистограмму можно построить разными способами. В случае выше ширина столбика показывает частичный интервал, а высота – количество значений в этом интервале. Возможно построить гистограмму, где высота столбика будет показывать плотность. Подробнее см. в официальной документации функции (https://seaborn.pydata.org/generated/seaborn.histplot.html).

      Про интерпретацию гистограммы можно также прочитать в [учебнике для инженеров] (https://www.itl.nist.gov/div898/handbook/eda/section3/histogra.htm). Там же можно обнаружить различные типы гистограмм (как нормальную, так и, например, бимодальную), а также дополнительные статистические методы для определения типа распределения в зависимости от типа гистограммы. Гистограмма показывает:

      1) центральную характеристику данных;

      2) масштаб данных;

      3) скошенность;

      4) наличие выбросов;

      5) наличие нескольких мод в данных.

      Трансформация данных к нормальному распределению объясняется в 6.5.2. What to do when data are non-normal (https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm)

      Выбросы

      В учебнике для инженеров дано следующее определение выбросов:

      «Выбросы – это точки данных, которые получены не из того же распределения, из которого получена основная масса данных».

      То есть выброс – это такое значение, которое пришло не из того распределения, из которого пришли основные данные. В этом смысл того, чтобы определить распределение для большинства данных, а затем уже выброс. Редкие данные возможны и в границах распределения для основных данных, но вот выброс выходит вообще за границы распределения, то есть например за пределы колокола в нормальном распределении. В этом смысл того, что сначала надо найти отличающиеся от других данные, а затем проверить их на влиятельность.

      Вот рекомендации по обработке выбросов из учебника для инженеров:

      1. К каждому выбросу необходимо относиться серьезно. Не рекомендуется автоматически удалять выбросы. Наличие выбросов может быть не просто ошибкой в данных, выбросы могут сообщать важную информацию о данных. Поэтому надо постараться объяснить, чем вызваны выбросы в данных.

      2. Если гистограмма показывает наличие выбросов, то рекомендуется следующее:

      1) применить ящик с усами, который лучше гистограммы показывает наличие и количество выбросов;

      2) применить Grubbs’ Test или иные тесты для обнаружения выбросов.

      Рекомендуемые тесты на выбросы:

      1) Grubbs’ Test – если тест на единичный выброс;

      2) Tietjen-Moore Test – в случае, если в данных предполагается более одного выброса. Необходимо заранее знать точное количество выбросов.

      3) Generalized Extreme Studentized Deviate (ESD) Test – также, если в данных более одного выброса. Необходимо