Ведущие мировые технологические гиганты (Facebook[6], Google, Amazon, Apple, Microsof) вкладывают огромные денежные средства в разработку технологий ИИ для применения в своей бизнес-нише.
В России ИИ также активно развивается. Разработанные технологические решения на основе ИИ (например, компьютерное зрение и обработка естественного языка) уже сейчас обладают значительной коммерческой привлекательностью и высоким экспортным потенциалом на мировом рынке.
§ 3. Наборы данных для обучения и тестирования алгоритмов искусственного интеллекта
Разработка любой системы ИИ базируется на обработке и использовании определенного набора данных. Чем больше данных обработает алгоритм ИИ, тем более точно и корректно он сможет формулировать выводы на их основе. На этапах тестирования и эксплуатации системы структура и свойства набора данных также играют ключевую роль.
Подготовка набора данных включает определенные процедуры (рис. 4).
Рис. 4. Процесс подготовки набора данных для обучения и тестирования систем ИИ. Источник: [Национальный стандарт РФ ГОСТ Ρ 59921.5…].
Подробнее рассмотрим основные процедуры. Задачи подготовки набора данных должны быть определены проблемой, целью создания системы ИИ, должны включать определение предметной области и выбор методов обработки данных. Например, в случае контролируемого машинного обучения алгоритм ИИ наблюдает набор размеченных данных и обучается функции, позволяющей предсказывать аннотацию для новых входных данных. Возможными типами задач контролируемого машинного обучения являются классификация и регрессия (аппроксимация и предсказание значения непрерывных параметров какого-либо объекта). При регрессии аннотация может принимать любое действительное значение, не ограничиваясь конечным набором категорий как при классификации.
В случае неконтролируемого машинного обучения алгоритм распознает паттерны (структуру) в неразмеченных данных. Возможными типами задач неконтролируемого машинного обучения являются кластеризация (группировка экземпляров данных в кластеры со сходными характеристиками) и детекция аномалий (идентификация редких экземпляров данных, существенно отличающихся от остальных).
Подход к формированию набора данных определяется необходимостью валидации системы ИИ.
Аналитическая валидация (analytical validation) – подтверждение способности системы ИИ точно, воспроизводимо и надежно генерировать предполагаемые технические результаты вычислений из входных данных.
В этом случае необходимо представление данных: синдромов, заболеваний, исходов, отражающее максимальную вариативность (то есть и частые, и редкие случаи представлены в одинаковом объеме). Набор данных для аналитической валидации должен быть подготовлен для определения следующих характеристик: производительность (например, время, затрачиваемое на обработку системы ИИ медицинского исследования при наличии функции