Area under the ROC curve for the ada model on zz_1_5 [validate] is 0.8702
Area under the ROC curve for the rf model on zz_1_5 [validate] is 0.8904
Площадь под кривой ROC для модели rf равна 0.8904, а для модели ada равна 0.8702, что подтверждает визуальное наблюдение.
С большими допущениями можно считать, что чем больше показатель AUC, тем лучшей прогностической силой обладает модель. Однако следует знать, что:
– показатель AUC предназначен скорее для сравнительного анализа нескольких моделей;
– AUC не содержит никакой информации о чувствительности и специфичности модели.
В литературе иногда приводится следующая экспертная шкала для значений AUC, по которой можно судить о качестве модели:
Таблица 5.2. Шкала значений AUC
Идеальная модель обладает 100% чувствительностью и специфичностью. Однако на практике добиться этого невозможно, более того, невозможно одновременно повысить и чувствительность, и специфичность модели. Компромисс находится с помощью порога отсечения, т.к. пороговое значение влияет на соотношение Se и Sp. Можно говорить о задаче нахождения оптимального порога отсечения (optimal cut-off value).
Порог отсечения нужен для применения модели на практике: относить новые наблюдения к одному из двух классов. Для определения оптимального порога нужно задать критерий его определения, так как в разных задачах присутствует своя оптимальная стратегия. Критериями выбора порога отсечения могут выступать:
– требование минимальной величины чувствительности (специфичности) модели. Например, нужно обеспечить чувствительность теста не менее 80%. В этом случае оптимальным порогом будет максимальная специфичность (чувствительность), которая достигается при 80% (или значение, близкое к нему «справа» из-за дискретности ряда) чувствительности (специфичности);
– требование максимальной суммарной чувствительности и специфичности модели, т.е.
Cut_off = max (Se + Sp)
– Требование баланса между чувствительностью и специфичностью, т.е. когда Se примерно равно Sp:
Cut_off = min (Se – Sp)
Второе значение порога обычно предлагается пользователю по умолчанию. В третьем случае порог есть точка пересечения двух кривых, когда по оси X откладывается порог отсечения, а по оси Y – чувствительность и специфичность модели. Пересечение этих двух кривых и даст порог отсечения.
6. Линейные классификационные модели
Методы классификации стремятся классифицировать наблюдения в группы,