Иллюзия разума. Правда об искусственном интеллекте. Марк Линден. Читать онлайн. Newlib. NEWLIB.NET

Автор: Марк Линден
Издательство: Автор
Серия:
Жанр произведения:
Год издания: 2025
isbn:
Скачать книгу
ведь нейросеть не может выйти за рамки того, что уже было создано и зафиксировано людьми.

      Глава 3. Данные – «топливо» для ИИ

      Почему Big Data 5 так важны?

      В 2012 году произошёл переломный момент: нейросеть AlexNet, обученная на миллионе изображений из базы ImageNet, впервые показала точность, превосходящую человеческую в задаче распознавания объектов. Это был не просто технический успех – это доказательство простой истины: современный ИИ становится умнее не благодаря хитрым алгоритмам, а благодаря огромным объёмам данных.

      Но почему «больше данных» значит «лучше работает»? Представьте, что вы учитесь отличать оливки от винограда. Если вам покажут всего три примера, вы легко ошибётесь. Десять – уже лучше. Сотня – почти безошибочно. Нейросети работают по тому же принципу, только масштаб другой: где человеку хватает десятков примеров, алгоритму требуются миллионы.

      Современные модели поглощают данные с ненасытностью, которая поражает воображение. GPT-4 обучалась на триллионах слов – это всё равно что прочитать всю библиотеку Конгресса десятки раз. Системы компьютерного зрения анализируют миллиарды изображений – больше, чем любой человек увидит за всю жизнь. И это не прихоть разработчиков, а фундаментальная необходимость.

      Дело в том, что нейросети ищут закономерности в чистом виде – без здравого смысла, без врождённых знаний, без способности к абстракции. Они подобны инопланетянину, который изучает человеческую культуру исключительно через статистику. Чем больше данных, тем точнее выявляются корреляции: какие пиксели чаще встречаются у кошек, какие сочетания слов характерны для поэзии, какие ходы ведут к победе в шахматах.

      Однако здесь кроется парадокс. С одной стороны, нейросети достигают невероятной точности именно благодаря масштабам информации. С другой – они остаются «узкими специалистами»: модель, блестяще диагностирующая рак по рентгеновским снимкам, окажется беспомощной перед задачей отличить грустное лицо от весёлого. Она знает только то, чему её научили данные, и ровно в тех границах, которые эти данные определяют.

      Интересный эффект проявляется при сравнении с человеческим обучением. Ребёнку достаточно увидеть несколько собак, чтобы научиться узнавать их в разных позах, ракурсах и даже мультяшных изображениях. Нейросети же потребуются десятки тысяч фотографий, причём желательно – с разными породами, в разных условиях, под разными углами. И всё равно она может дать сбой, столкнувшись с необычным ракурсом, который не был представлен в обучающей выборке.

      Это подводит нас к ключевому выводу: Big Data – не просто «чем больше, тем лучше». Речь идёт о качестве, разнообразии и репрезентативности данных. Одно дело – миллион фотографий кошек, сделанных в идеальных условиях студии. Совсем другое – те же миллионы снимков, но включающих разные породы, освещение, ракурсы и фоны. Именно поэтому современные наборы данных стараются охватывать максимально широкий


<p>5</p>

Big Data (англ. «большие данные») – это огромные объемы структурированных и неструктурированных данных.