создает простое случайное разделение
createDataPartition (caret)
создает случайную выборку с разделением на классы
maxdissim (caret)
генерирует набор для тестирования, используя максимальную выборку несходства.
createDataPartition (caret)
создает случайную выборку с разделением на классы
Ресемплирование
createDataPartition (caret)
создает случайную выборку с разделением на классы с дополнительным параметром times
createResamples (caret)
для бутстрэпинга
createFolds (caret)
для k-свертки перекрестной проверки
createMultiFolds (caret)
для многократной перекрестной проверки
4. Регрессионные модели
4.1. Результативность регрессионных моделей
Для моделей, предсказывающих числовой результат, используется некоторая мера точности для оценки эффективности модели. Однако есть различные способы измерить точность, каждый с его собственным нюансом. Понять силу и слабость определенной модели, полагаясь исключительно на единственную метрику проблематично. Визуализация подгонки модели, особенно графики остатков, является чрезвычайно важным по отношению к пониманию пригодности модели к цели.
Когда результат – число, наиболее распространенный метод для оценки предсказательных возможностей модели – это среднеквадратичная ошибка (MSE). Эта метрика – функция остатков модели, которые являются наблюдаемыми величинами минус предсказания модели. Среднеквадратичная ошибка (MSE) вычисляется путем возведения остатков в квадрат и их суммирования. RMSE – это квадратный корень из MSE. Значение обычно интерпретируется или как далеко (в среднем) остатки от нуля, или как среднее расстояние между наблюдаемыми величинами и предсказаниями модели.
Другая общая метрика – коэффициент детерминации, обычно обозначаемый как R2. Это значение может быть интерпретировано как величина объясненной моделью информации в данных. Таким образом, значение R2, равное 0.75, подразумевает, что модель может объяснить три четверти изменения в результате. Есть много формул для вычисления этого показателя, хотя самая простая версия считает коэффициент корреляции между наблюдаемыми и ожидаемыми значениями с возведением его в квадрат.
Также важно понять, что R2 зависит от изменения в результате. Используя интерпретацию, что эта статистика измеряет соотношение дисперсии, объясненной моделью, нужно помнить, что знаменатель этого отношения вычисляется с использованием дисперсии выборки результата. Например, предположим, что у результата набора тестов есть дисперсия 4.2. Если бы RMSE предсказательной модели равнялись 1, то R2 составил бы примерно 76%. Если бы у нас был другой набор тестов с точно тем же самым RMSE, но результатами теста было