Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Мухи вредные и полезные Мухи вредные и полезные

Насекомые — это как бы параллельный мир, окружающий нас повсюду

Наука и жизнь
«Боюсь, что парень пользуется мной, чтобы забыть другую девушку» «Боюсь, что парень пользуется мной, чтобы забыть другую девушку»

Как справиться с тревогой в начале новых отношений?

Psychologies
Открыто соединение, способное «включаться» под действием лазера Открыто соединение, способное «включаться» под действием лазера

Созданный фосфонат позволит точнее и безопаснее воздействовать на организм

Популярная механика
Как критики оценили «Доктор Стрэндж. В мультивселенной безумия» от Marvel Как критики оценили «Доктор Стрэндж. В мультивселенной безумия» от Marvel

В мировой прокат вышел второй фильм о Стивене Стрэндже

РБК
Древних римлян обвинили в падении численности тюленей-монахов Древних римлян обвинили в падении численности тюленей-монахов

Численность тюленей-монахов сократилась в античности из-за активного промысла

N+1
Язык бога: лингвист расшифровал генетической код Язык бога: лингвист расшифровал генетической код

Язык бога: лингвист расшифровал генетической код

Вокруг света

Фэшн-провалы Кендалл Дженнер

VOICE
Музей боли и страха: выставка одежды жертв насилия с их историями Музей боли и страха: выставка одежды жертв насилия с их историями

Зачем нужны выставки, посвященные жертвам насилия?

VOICE
Мир во втором чтении Мир во втором чтении

Игорь Гулин об «Ангеле войны» Виктора Кривулина

Weekend
«Обойдетесь без свободной жизни»: почему мужчины хотят запретить аборты «Обойдетесь без свободной жизни»: почему мужчины хотят запретить аборты

Почему мужчины хотят принимать решение о материнстве вместо женщин

VOICE
Старые авто в состоянии новых. Как купить классическую машину без пробега Старые авто в состоянии новых. Как купить классическую машину без пробега

Автопроизводители взяли моду «допечатывать» тиражи старых машин

РБК
Бешеная сушка: как потерять вес без вреда для здоровья Бешеная сушка: как потерять вес без вреда для здоровья

Что такое сушка тела и в чем ее плюсы и минусы

VOICE
От 12 дней до 22 месяцев: удивительные сроки беременности в мире животных От 12 дней до 22 месяцев: удивительные сроки беременности в мире животных

Кому из детенышей не терпится появиться на свет?

Вокруг света
Пределы адаптации: как в Индии переносят катастрофическую жару Пределы адаптации: как в Индии переносят катастрофическую жару

Температура поверхности во многих районах Индии превысила 60 градусов

N+1
«Все врут»: кому выгодны фейковые новости? «Все врут»: кому выгодны фейковые новости?

Кому нужны фейковые новости?

Psychologies
Трудный и дорогостоящий проект: как открыть кризисный центр для женщин Трудный и дорогостоящий проект: как открыть кризисный центр для женщин

Открытие новых кризисных центров — трудоемкая задача. Как с ней справиться?

Forbes
Захватывающий дух тур по России, возрождение нанайского языка и заполярная живопись: 3 путешествия, на которые собирали всем миром Захватывающий дух тур по России, возрождение нанайского языка и заполярная живопись: 3 путешествия, на которые собирали всем миром

Необычных путешествиях, которые состоялись с помощью «народного финансирования»

Вокруг света
«Видел все, кроме смертной казни»: путешествие Антона Чехова на «край географии» «Видел все, кроме смертной казни»: путешествие Антона Чехова на «край географии»

21 апреля 1890 Антон Чехов отправился на Сахалин и далее вокруг Азии

Вокруг света
Квантовое туннелирование вызвало мутации в ДНК благодаря взаимодействию с окружением Квантовое туннелирование вызвало мутации в ДНК благодаря взаимодействию с окружением

Аутомеризация пары нуклеотидов должна встречаться на четыре порядка чаще

N+1
Тайные знаки: как угадать чей угодно знак зодиака — даже если он это скрывает Тайные знаки: как угадать чей угодно знак зодиака — даже если он это скрывает

Как в одно мгновение понять, какой знак зодиака перед тобой?

VOICE
Платежи в России: от расчетов по почте до моментальной оплаты на сайте. Как развивалась финансовая система Платежи в России: от расчетов по почте до моментальной оплаты на сайте. Как развивалась финансовая система

Свое начало современная российская платежная система берет в 80-х годах

ТехИнсайдер
Модный приговор: к чему может привести резкая смена образа? Модный приговор: к чему может привести резкая смена образа?

В чем опасность несоответствия имиджа и самого человека?

Psychologies
Лучшие фильмы Ирана Лучшие фильмы Ирана

Разбираемся, что из себя представляет иранское кино

Maxim
«Миллионные расходы»: как законопроект о такси изменит жизнь водителей и агрегаторов «Миллионные расходы»: как законопроект о такси изменит жизнь водителей и агрегаторов

Почему новый законопроект о такис критикуют агрегаторы?

Forbes
Топ-3 фильмов про космос с самыми реалистичными законами физики Топ-3 фильмов про космос с самыми реалистичными законами физики

Любите фильмы про космос? А знаете про их "ляпы", противоречащие законам физики?

ТехИнсайдер
Все дуэли Пушкина: сколько раз на самом деле стреляли во вспыльчивого Александра Сергеевича? Все дуэли Пушкина: сколько раз на самом деле стреляли во вспыльчивого Александра Сергеевича?

Взглянув на список дуэлей, можно увидеть, что редкий год Пушкина был без нее

ТехИнсайдер
Нюансы вкуса: почему важно пищевое разнообразие и как распространяется единообразие Нюансы вкуса: почему важно пищевое разнообразие и как распространяется единообразие

Мы теряем разнообразие всех сельскохозяйственных культур, которые кормят мир

Forbes
Дикие пионы Дикие пионы

Дикорастущие пионы в саду

Наука и жизнь
Бродский-читатель: литература на польском, Ахматова и книга с котятами. Что хранится в библиотеке Иосифа Бродского? Бродский-читатель: литература на польском, Ахматова и книга с котятами. Что хранится в библиотеке Иосифа Бродского?

Бродском-читатель: его книги и вкусы

Правила жизни
10 интересных фактов об Анне Павловой 10 интересных фактов об Анне Павловой

Мы собрали 10 фактов из жизни одной из самых известных балерин XX века

Культура.РФ
Открыть в приложении