Языковые модели и мир будущего, или Путеводитель по ChatGPT. Руслан Акст. Читать онлайн. Newlib. NEWLIB.NET

Информация о произведении:

Автор:	Руслан Акст
Издательство:	Издательские решения
Серия:
Жанр произведения:
Год издания:	0
isbn:	9785006046016

Скачать книгу

преобразовать его в набор чисел, например, [0.2, 0.5, 0.7].

Этот набор чисел (или вектор) теперь представляет слово «кошка» для компьютера. Таким образом, вместо того чтобы работать с буквами и словами, модель работает с этими числовыми представлениями, что делает её обработку гораздо быстрее и эффективнее.

Так, слово «собака» может быть [0.3, 0.6, 0.1], а «лев» – [0.9, 0.4, 0.8]. Каждое слово получает свой уникальный числовой «портрет», который помогает модели понимать и обрабатывать текст.

Рекуррентные слои: Они используются для обработки последовательностей, таких как предложения или абзацы.

Рекуррентные нейронные сети (RNN) и их вариации, такие как LSTM (Long Short-Term Memory) и GRU (Gated Recurrent Units), являются популярными выборами для этих слоев, так как они способны «помнить» информацию из предыдущих частей последовательности.

Представьте, что вы читаете книгу и каждый раз, когда переворачиваете страницу, вы забываете, что произошло ранее. Было бы сложно понять историю, не так ли?

Но в реальной жизни, когда вы читаете книгу, вы помните события предыдущих страниц и используете эту информацию для понимания текущей страницы.

Рекуррентные нейронные сети (RNN) работают аналогичным образом. Когда они обрабатывают слова в предложении или абзаце, они «помнят» предыдущие слова и используют эту информацию для понимания текущего слова.

Например, в предложении «Я люблю свою собаку, потому что она…» слово «она» относится к «собаке», и RNN это «помнит».

Вариации RNN, такие как LSTM и GRU, улучшены таким образом, чтобы «помнить» информацию даже лучше и на более длительные периоды времени.

Трансформеры: Это современная архитектура, которая использует механизмы внимания для обработки информации.

Модели на основе трансформеров, такие как GPT (Generative Pre-trained Transformer) и BERT (Bidirectional Encoder Representations from Transformers), показали выдающиеся результаты в задачах языкового моделирования.

Про эти две модели мы поговорим в следующих главах подробней, сравним их принцип действия и попробуем дать им свою оценку.

Выходной слой: Обычно это полносвязный слой, который преобразует скрытые состояния модели в вероятности следующего слова или токена в последовательности.

Представьте себе завод по производству конфет. На первых этапах производства ингредиенты смешиваются, обрабатываются и формируются в полуфабрикаты.

Но перед тем, как конфеты упаковываются и отправляются в магазины, они проходят через последний этап – контрольное устройство, которое проверяет каждую конфету и определяет, подходит ли она для продажи.

Выходной слой в нейронной сети работает аналогично этому контрольному устройству. После того как вся информация была обработана внутри модели, выходной слой преобразует её в конечный результат.

В случае языковой модели, он определяет вероятности того, какое слово или токен будет следующим в последовательности.

Так, если модель читает фразу «Я люблю есть…", выходной слой может определить, что слова «яблоки»,

Скачать книгу