Как думает ChatGPT: эмбеддинг, токены и другая невидимая «начинка» нейросети

Человеческий язык принципиально неточен: естественной речи обычно сходит с рук некоторая расплывчатость и образность. Что касается компьютерного языка, то он, наоборот, должен быть точен и понятен. С одной стороны, он по своей природе обладает фундаментальной точностью, ведь определяемое им может быть однозначно выполнено на компьютере. Но если речь идет о большой языковой модели, все оказывается не так-то просто. Как на самом деле ИИ понимает человека и что помогает ему формулировать мысли — расскажем в этом материале.

Как мы находим общий язык c ChatGPT и что происходит внутри ИИ-разума? Эти ответы мы нашли в книге Стивена Вольфрама «Как устроен ChatGPT?» от издательства МИФ.

Эмбеддинг слов

Представим, что у нас есть словосочетание «the ___ cat [англ. кошка]». Опираясь на обширный массив текстовых данных в интернете, мы можем определить, какие слова с высокой вероятностью могут заполнить этот пробел. Аналогично, в словосочетании «___ black [англ. черная] ___» мы можем оценить вероятность появления различных сопутствующих слов.

Как можно описать эту задачу с точки зрения нейронной сети? Один из способов — присвоить уникальный идентификационный номер каждому из примерно 50 тысяч наиболее распространенных слов английского языка. Например, артикль the может получить номер 914, а слово cat (с пробелом перед ним) — 3542.