3. Обучение с подкреплением (Reinforcement Learning)
В этом случае модель (часто в этом случае ее называют ИИ-агентом) обучается сама, взаимодействуя со своей «средой обитания». Модель выполняет различные действия и в результате этих действий получает от среды отклик – награды («подкрепление») за правильные (полезные или эффективные) действия или штрафы за неправильные (вредные или не эффективные) действия. Модель стремится максимизировать сумму получаемых наград – то есть выполнять действия (или последовательности действий), которые дают как можно лучший результат. Примеры включают управление роботами (которые получают отклик от среды – плохо или хорошо они выполняют свои задачи), игровые агенты (получающие отклик от игровой среды – в случае выигрыша или проигрыша), системы рекомендаций (где отклик – это качество удовлетворения пользователей этими рекомендациями).
4. Обучение с частичным привлечением учителя (Semi-supervised Learning)
Машинное обучение с частичным привлечением учителя (также известное как обучение с полуконтролем или гибридное обучение), находится между Обучением с учителем (Supervised Learning) и Обучением без учителя (Unsupervised Learning). В этом случае модели подается комбинация помеченных и неразмеченных данных. Неразмеченные данные очень дешевы в отличие от размеченных данных (которые часто приходится помечать вручную). Процедура заключается в том, что алгоритм сначала использует все данные и алгоритмы обучения без учителя для кластеризации данных, а затем использует алгоритм обучения с учителем для определения меток для каждого класса. И если неразмеченные данные оказываются близки к одному из классов размеченных —то они с большей вероятностью принадлежат тому же классу.
5. Самостоятельное/автоматическое обучение (Self-supervised Learning)
Это относительно новый подход, где модель обучается на данных, генерируя сама себе задачи и ответы (чаще всего через маскировку части данных и попытки их угадывания). Задача модели – понять и усвоить скрытую структуру, которая есть в этих данных. Например, если данные – это связный текст, то модель может маскировать и пытаться предсказать следующее слово в предложении. Или для изображений модель может пытаться маскировать и восстанавливать части изображения. Или пытать предсказать цвет или другие параметры изображения. Таким образом, она учится на большом количестве данных (текстов, изображений, видео), без необходимости наличия внешних меток или участия человека. В результате модель усваивает структуру и внутренние связи в этих данных (которые могут быть даже неизвестны человеку). И когда эта структура усвоена – то модель можно дообучить для решения какой-нибудь специальной практической задачи (для решения которой нужно понимать эту структуру в данных). Например, можно дообучить модель