Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Матерятся все: почему же тогда брань под запретом? Матерятся все: почему же тогда брань под запретом?

Историческое расследование психолингвиста о брани

Вокруг света
Фонды нового типа: как технологии меняют венчурную индустрию Фонды нового типа: как технологии меняют венчурную индустрию

Как меняются правила игры и бизнес-модели на венчурном рынке

Forbes
Инъекция надежды от психотерапевта Альфрида Лэнгле Инъекция надежды от психотерапевта Альфрида Лэнгле

Как организовать свою жизнь в новой реальности?

Psychologies
Где лечиться? Где лечиться?

В какую поликлинику идти – государственную или частную

Домашний Очаг
Новый японский динозавр помог разобраться в функциях когтей теризинозавров Новый японский динозавр помог разобраться в функциях когтей теризинозавров

Продвинутые теризинозавры при помощи когтей подтягивали к себе ветви деревьев

N+1
Еще 10 мест на Земле, которые выглядят словно пейзажи других планет Еще 10 мест на Земле, которые выглядят словно пейзажи других планет

В существование некоторых мест на нашей родной планете сложно поверить

ТехИнсайдер
Гороскоп зависимостей: что держит тебя в заложниках? Гороскоп зависимостей: что держит тебя в заложниках?

Сегодня наш Магический Шар рассказывает про наши зависимости

VOICE
Банановая диета для похудения на 3 и 7 дней: меню и результаты Банановая диета для похудения на 3 и 7 дней: меню и результаты

Пробовали ли вы худеть на бананах?

VOICE
Почему вы еще больше устаете, когда пытаетесь отдохнуть: 3 причины стресслаксации Почему вы еще больше устаете, когда пытаетесь отдохнуть: 3 причины стресслаксации

Весьма распространенное явление, которые психологи называют «стресслаксацией»

Psychologies
«Камень века» и «Божий дар»: 7 великих бриллиантовых афер «Камень века» и «Божий дар»: 7 великих бриллиантовых афер

О самых известных аферах, связанных с драгоценными камнями

РБК
Отсюда все беды: эти 4 ошибки портят твои свидания — исправляет эксперт Отсюда все беды: эти 4 ошибки портят твои свидания — исправляет эксперт

Эксперт по отношениям раскрывает, что может идти не так в ваших свиданиях

VOICE
Королева жмет на газ: история легендарного авто, «благородного авантюриста» Бентли Королева жмет на газ: история легендарного авто, «благородного авантюриста» Бентли

Уолтер Бентли создал автомобиль, за руль которого садятся самые богатые люди

Вокруг света
Удовольствие для себя или польза для других: что мотивирует нас работать? Удовольствие для себя или польза для других: что мотивирует нас работать?

Что придает нашей деятельности смысл

Psychologies
От них ждали «чудо-кнопку», с которой всё быстро учится, но так не бывает: как растёт приложение-школа китайского Laoshi От них ждали «чудо-кнопку», с которой всё быстро учится, но так не бывает: как растёт приложение-школа китайского Laoshi

Предприниматель Сергей Кондрашов учит россиян китайскому больше 10 лет

VC.RU
Как менялся российский рубль и что на него можно было купить Как менялся российский рубль и что на него можно было купить

Старые вши, ефимки, русы, моржовки — чем только не расплачивались на Руси

Вокруг света
8 отличных фильмов, если хочется погрустить 8 отличных фильмов, если хочется погрустить

Если хочется погрустить, то делайте это в компании трогательных историй

Правила жизни
Топ-10 видеорегистраторов 2022 года: рейтинг лучших моделей Топ-10 видеорегистраторов 2022 года: рейтинг лучших моделей

Если вы еще не купили видеорегистратор для автомобиля, самое время это сделать

CHIP
Что делать с ненавистью украинских родственников и близких друзей? Что делать с ненавистью украинских родственников и близких друзей?

Многие в России столкнулись с ненавистью родственников и друзей

Psychologies
«Никогда не рассказывайте ему об этом»: мужчины комментируют мнение женщины об отношениях «Никогда не рассказывайте ему об этом»: мужчины комментируют мнение женщины об отношениях

Как отличается взгляд женщин и мужчин на отношения?

Psychologies
Горячая ванна вместо тренировки: как работает новый лайфхак для похудения Горячая ванна вместо тренировки: как работает новый лайфхак для похудения

Не любишь спорт, но обожаешь домашние бьюти-процедуры? Значит, это судьба!

VOICE
«В этот момент я простил и принял свою маму»: как природа побеждает травму? «В этот момент я простил и принял свою маму»: как природа побеждает травму?

Выезд на природу — возможность разобраться в своих переживаниях

Psychologies
100 лет пионерам! История самой массовой детской организации в СССР 100 лет пионерам! История самой массовой детской организации в СССР

Вспоминаем, как все начиналось, какими были пионеры ну и немного ностальгируем!

VOICE
Неожиданные привычки, которые выдают в тебе интеллектуала Неожиданные привычки, которые выдают в тебе интеллектуала

Возможно, ты интеллектуал

Maxim
8 утренних ритуалов счастливых пар 8 утренних ритуалов счастливых пар

Что нужно, чтобы построить гармоничные отношения? Всего лишь несколько мелочей

Psychologies
Топ-3 фильмов про космос с самыми реалистичными законами физики Топ-3 фильмов про космос с самыми реалистичными законами физики

Любите фильмы про космос? А знаете про их "ляпы", противоречащие законам физики?

ТехИнсайдер
«Заговор военных»: анатомия мифа «Заговор военных»: анатомия мифа

Как появилась легенда о некоем «заговоре военных» для свержения Сталина

Дилетант
Как не пойти на дно и перезапустить бизнес в «новой реальности» Как не пойти на дно и перезапустить бизнес в «новой реальности»

О том, как обезопасить бизнес сегодня и переформатировать его под реалии завтра

Inc.
Найденный в Приазовье 61 год назад зуб назвали неандертальским Найденный в Приазовье 61 год назад зуб назвали неандертальским

Палеоантропологи изучили моляр, найденный во время раскопок памятника Рожок-1

N+1
Рай не в шалаше: что такое глэмпинги и почему они становятся все популярнее Рай не в шалаше: что такое глэмпинги и почему они становятся все популярнее

Отдыхать на природе можно не только в палатке, но и в весьма комфортных условиях

Вокруг света
Открыть в приложении