Точность модели – Для задач, где нужно выбрать определенный тип объектов в общей выборке и не ошибаться с типом этих объектов (но можно что-то и пропустить), эта мера показывает, какой процент прогнозов модели был правильным. Например, нужно определить и выбрать клиентов, которые с большей вероятностью купят определенный товар. Так, если модель правильно предсказала 85 из 100 случаев, то её точность составляет 85%.
Полнота модели – Когда модели нужно обнаружить определенный тип объектов в общей выборке и важно не пропустить объекты этого типа (но при этом, допускается ошибаться и обнаружить лишние объекты, которые на самом деле не относятся к искомому типу). Эта метрика показывает, сколько случаев из выборки модель учла. Например, когда модель применяется в медицине и ей нельзя пропустить больных с определенным диагнозом (так как в этом случае человек не узнает о своем диагнозе и не получит вовремя соответствующего лечения), но вполне можно предположить наличие болезни у здорового человека (так как потом его перепроверят и снимут ошибочно поставленный диагноз).
Перплексия (Perplexity) – это популярная метрика для оценки качества языковых моделей в задачах прогнозирования следующего слова. Перплексия интерпретируется как среднее число выборов, которые модель рассматривает при предсказании следующего слова. Например, перплексия, равная 10, означает, что при прогнозировании следующего слова модель в среднем «колеблется» между 10 словами. Меньшее значение перплексии указывает на лучшую модель. Модель с перплексией 1 была бы идеальной и всегда бы правильно предсказывала (знала вполне определенно) следующее слово.
Кроме этого, один из основных вызовов в машинном обучении – избежать недообучения и переобучения моделей.
Недообучение модели (Underfitting): Это происходит, когда модель слишком проста для сложности данных, и не может выучить закономерности в них. В результате такая модель плохо справляется как с обучающими, так и с тестовыми данными.
Переобучение модели (Overfitting): Здесь проблема противоположная. Модель становится слишком «узкоспециализированной» под обучающие данные и начинает «запоминать» их, но уже не может «понять» более общую закономерность и предсказать то, чего не было в обучающих данных. Поэтому переобученная модель может идеально работать на обучающем наборе данных, но плохо на новых-тестовых данных.
Оценка качества моделей машинного обучения – ключевой этап в процессе их создания. Выбор правильной метрики поможет