Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Тупик Тупик

Рассказ Аллы Горбуновой, героиня которого преподает философию

Esquire
10 самых перспективных альтернативных источников энергии для экологичного будущего 10 самых перспективных альтернативных источников энергии для экологичного будущего

Перспективы использования альтернативных источников энергии

ТехИнсайдер
Почему современные тренды ЗОЖ чаще всего ошибочны Почему современные тренды ЗОЖ чаще всего ошибочны

С чего на самом деле надо начинать заботу о своем здоровье

СНОБ
Платежи в России: от расчетов по почте до моментальной оплаты на сайте. Как развивалась финансовая система Платежи в России: от расчетов по почте до моментальной оплаты на сайте. Как развивалась финансовая система

Свое начало современная российская платежная система берет в 80-х годах

ТехИнсайдер
7 cекретов стиля Шайи Лабафа 7 cекретов стиля Шайи Лабафа

Учимся у голливудского бунтаря крутизне и самоиронии

Правила жизни
Что делают суперуспешные люди рано утром? Что делают суперуспешные люди рано утром?

Что общего у Марка Цукерберга, Анны Винтур и Тима Кука?

Psychologies
6 заболеваний, которые могут скрываться за обычным насморком 6 заболеваний, которые могут скрываться за обычным насморком

Часто при насморке все сразу тянутся за каплями. Но так ли все просто?

Лиза
Ехать некуда: образ заграницы в российской поп-музыке Ехать некуда: образ заграницы в российской поп-музыке

Культурному интуризму в музыке пришел конец?

Правила жизни
Малина круглый год Малина круглый год

«Юнионпарк» построил тепличный комплекс для выращивания ягоды за 400 млн руб.

Агроинвестор
Оборотная сторона стресса Оборотная сторона стресса

Наша жизнь – сплошной стресс и от него все беды. Но так ли это?

Лиза
Не впадать в зеленую тоску: как Дрю Бэрримор продвигает экоинициативы Не впадать в зеленую тоску: как Дрю Бэрримор продвигает экоинициативы

Тональность высказываний — шанс достучаться до самой широкой аудитории

Forbes
Коллективная победа Коллективная победа

Как заработать деньги на спортивном сообществе?

Forbes Life
Как распознавать чушь: проверенные техники не дать ввести себя в заблуждение Как распознавать чушь: проверенные техники не дать ввести себя в заблуждение

Что побуждает человека вводить других людей в заблуждение

Вокруг света
Семь нелепых автомобилей из крутых кинофильмов (и один велосипед) Семь нелепых автомобилей из крутых кинофильмов (и один велосипед)

Подборка чудных автомобилей из кино, контрастирующих с образами персонажей

Maxim
Капкан ипотеки Капкан ипотеки

За что могут выселить из квартиры и как этого избежать

Лиза
10 рабочих советов, как скинуть вес, от людей, которым удалось победить ожирение 10 рабочих советов, как скинуть вес, от людей, которым удалось победить ожирение

Только проверенные жизнью советы по похудению от реальных людей

Maxim
Борьба с глобальным потеплением при помощи диеты: что такое редукторианство и с чем его едят Борьба с глобальным потеплением при помощи диеты: что такое редукторианство и с чем его едят

Ученые ищут все новые способы борьбы с изменениями климата

Вокруг света
Илья Сачков — Forbes: «Сразу после моего задержания состоялась большая вечеринка» Илья Сачков — Forbes: «Сразу после моего задержания состоялась большая вечеринка»

Илья Сачков рассказал о своих мечтах, жизни в СИЗО и возможных причинах ареста

Forbes
Мудрость психопатов: чему нам стоит у них поучиться? Мудрость психопатов: чему нам стоит у них поучиться?

Психопаты достигают успеха и признания именно благодаря своим уникальным чертам

Psychologies
Как чистить наушники от серы, если они тихо играют: практическое руководство Как чистить наушники от серы, если они тихо играют: практическое руководство

Если ваша гарнитура стала работать тихо, ей можно вернуть нормальную громкость

CHIP
За что любят Тимоти Шаламе: эволюция от соседского парня до иконы стиля За что любят Тимоти Шаламе: эволюция от соседского парня до иконы стиля

с чего начиналась головокружительная карьера Тимоти Шаламе

VOICE
Чуть-чуть не хватило до 10 кг: 5 самых тяжелых новорожденных в мире. Фото Чуть-чуть не хватило до 10 кг: 5 самых тяжелых новорожденных в мире. Фото

Представляем подборку самых внушительных младенцев в истории

VOICE
Открываем сезон: 10 съедобных грибов и как их отличить от ложных Открываем сезон: 10 съедобных грибов и как их отличить от ложных

На что обратить внимание в сезон «тихой охоты»?

ТехИнсайдер
Как правильно восстанавливаться после травмы Как правильно восстанавливаться после травмы

Восстановление после травмы — своего рода искусство

ТехИнсайдер
Девочка, которая должна была стать сверхчеловеком: страшная история Мод Жюльен Девочка, которая должна была стать сверхчеловеком: страшная история Мод Жюльен

Мод Жульен в фантазиях Луи Дидье должна была стать полубогиней

VOICE
Сокровища нации Сокровища нации

На территории нашей страны десятки мест внесены в список наследия ЮНЕСКО

Лиза
Роскошные формы: 6 деталей картины Рубенса «Венера перед зеркалом» Роскошные формы: 6 деталей картины Рубенса «Венера перед зеркалом»

Если в России говорят «кустодиевская женщина», в Европе скажут «рубенсовская»

Вокруг света
Быть достаточно хорошим родителем: это как? Быть достаточно хорошим родителем: это как?

Что это значит, быть хорошими родителями?

Psychologies
Там дыра. Что астрономы увидели в центре Млечного Пути Там дыра. Что астрономы увидели в центре Млечного Пути

Почему на построение изображений из космоса уходит так много времени?

N+1
Не ной Не ной

Почему российские тренеры до сих пор работают по советской модели?

Forbes Life
Открыть в приложении