Гистограмму можно построить разными способами. В случае выше ширина столбика показывает частичный интервал, а высота – количество значений в этом интервале. Возможно построить гистограмму, где высота столбика будет показывать плотность. Подробнее см. в официальной документации функции (https://seaborn.pydata.org/generated/seaborn.histplot.html).
Про интерпретацию гистограммы можно также прочитать в [учебнике для инженеров] (https://www.itl.nist.gov/div898/handbook/eda/section3/histogra.htm). Там же можно обнаружить различные типы гистограмм (как нормальную, так и, например, бимодальную), а также дополнительные статистические методы для определения типа распределения в зависимости от типа гистограммы. Гистограмма показывает:
1) центральную характеристику данных;
2) масштаб данных;
3) скошенность;
4) наличие выбросов;
5) наличие нескольких мод в данных.
Трансформация данных к нормальному распределению объясняется в 6.5.2. What to do when data are non-normal (https://www.itl.nist.gov/div898/handbook/pmc/section5/pmc52.htm)
Выбросы
В учебнике для инженеров дано следующее определение выбросов:
«Выбросы – это точки данных, которые получены не из того же распределения, из которого получена основная масса данных».
То есть выброс – это такое значение, которое пришло не из того распределения, из которого пришли основные данные. В этом смысл того, чтобы определить распределение для большинства данных, а затем уже выброс. Редкие данные возможны и в границах распределения для основных данных, но вот выброс выходит вообще за границы распределения, то есть например за пределы колокола в нормальном распределении. В этом смысл того, что сначала надо найти отличающиеся от других данные, а затем проверить их на влиятельность.
Вот рекомендации по обработке выбросов из учебника для инженеров:
1. К каждому выбросу необходимо относиться серьезно. Не рекомендуется автоматически удалять выбросы. Наличие выбросов может быть не просто ошибкой в данных, выбросы могут сообщать важную информацию о данных. Поэтому надо постараться объяснить, чем вызваны выбросы в данных.
2. Если гистограмма показывает наличие выбросов, то рекомендуется следующее:
1) применить ящик с усами, который лучше гистограммы показывает наличие и количество выбросов;
2) применить Grubbs’ Test или иные тесты для обнаружения выбросов.
Рекомендуемые тесты на выбросы:
1) Grubbs’ Test – если тест на единичный выброс;
2) Tietjen-Moore Test – в случае, если в данных предполагается более одного выброса. Необходимо заранее знать точное количество выбросов.
3) Generalized Extreme Studentized Deviate (ESD) Test – также, если в данных более одного выброса. Необходимо