Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
«Люблю колоть морду»: как живет девушка с самыми большими скулами в мире «Люблю колоть морду»: как живет девушка с самыми большими скулами в мире

Главной фишкой Анастасии стало именно увеличение зоны скул

VOICE
Изнасилование, разводы и выкидыши: драмы легендарной актрисы Мэрилин Монро Изнасилование, разводы и выкидыши: драмы легендарной актрисы Мэрилин Монро

Мэрилин Монро прожила короткую, но очень насыщенную жизнь

Cosmopolitan
Кузбасс в сердце Кузбасс в сердце

Четыре дня в Кузбассе: маршрут, который изменит ваши познания об этом регионе

Отдых в России
USS Vermont: Ноев ковчег на военной службе USS Vermont: Ноев ковчег на военной службе

Если вы не верите в Ноя и его ковчег, то прямо сейчас поверьте

Популярная механика
Древних римлян обвинили в падении численности тюленей-монахов Древних римлян обвинили в падении численности тюленей-монахов

Численность тюленей-монахов сократилась в античности из-за активного промысла

N+1
Разбудивший зверя: как начиналась жизнь французского революционера Робеспьера Разбудивший зверя: как начиналась жизнь французского революционера Робеспьера

Роман о Французской революции — «Сердце бури», написанный Хилари Мантел

Forbes
Что такое «думскроллинг» и чем он опасен каждому россиянину Что такое «думскроллинг» и чем он опасен каждому россиянину

Хорошая новость для тех, кто любит плохие новости: думскроллинг лечится

Maxim
Седна, блуждающая во тьме Седна, блуждающая во тьме

Седна — карликовая планета, на которой царит вечная ночь

Наука и жизнь
Почему мышцы слабеют с возрастом и можно ли этого избежать Почему мышцы слабеют с возрастом и можно ли этого избежать

После 30 лет мышечные клетки человека могут утратить способность делиться

ТехИнсайдер
Устанавливаем Android-приложения в обход Google Play Store: подробная инструкция Устанавливаем Android-приложения в обход Google Play Store: подробная инструкция

Преимущество Android: возможность установки программ в обход магазина приложений

CHIP
Рождение легенды: как появился «тот самый» шрифт для логотипа «Вокруг Света» Рождение легенды: как появился «тот самый» шрифт для логотипа «Вокруг Света»

«Вокруг света» — журнал с историей

Вокруг света
Суперфуд из болота: 4 удивительных свойства клюквы Суперфуд из болота: 4 удивительных свойства клюквы

Маленькие красные плоды — настоящий кладезь полезных веществ

Вокруг света
Вода Сасси: все о легендарном напитке для похудения Вода Сасси: все о легендарном напитке для похудения

Может ли вода Сасси помочь избавиться от лишних килограммов?

РБК
Внутреннее неспокойствие: 10 вооруженных конфликтов на территории США Внутреннее неспокойствие: 10 вооруженных конфликтов на территории США

Некоторые военные и гражданские конфликты, происходившие на территории США

Вокруг света
Синтез пептида прошел на двух цепях РНК без участия рибосомы Синтез пептида прошел на двух цепях РНК без участия рибосомы

Как мог проходить синтез пептидов до возникновения жизни на Земле

N+1
«Слишком травмоопасно» и другие мифы о скейтбординге «Слишком травмоопасно» и другие мифы о скейтбординге

Популярные мифы вокруг скейтбординга и почему стоит попробовать встать на доску

Psychologies
Простой способ начисто отмыть бытовую технику, чтобы плита и холодильник сияли как новые Простой способ начисто отмыть бытовую технику, чтобы плита и холодильник сияли как новые

Как можно избежать утомительного отдраивания старых засохших пятен

ТехИнсайдер
Восстановление батареи ноутбука: дешевле, чем покупать новую Восстановление батареи ноутбука: дешевле, чем покупать новую

Почему полезно следить за батареей ноутбука

CHIP
Тогда и сейчас: где снимали фильм «Москва слезам не верит» Тогда и сейчас: где снимали фильм «Москва слезам не верит»

Как изменились места, снятые в фильме «Москва слезам не верит» сорок лет назад

Вокруг света
Судьба палача: как сложилась жизнь Тоньки-пулеметчицы после Второй Мировой, и кто ее сдал Судьба палача: как сложилась жизнь Тоньки-пулеметчицы после Второй Мировой, и кто ее сдал

Антонина Макарова получила славу женщины-палача

ТехИнсайдер
Жуткие фото, сделанные при еще более жутких обстоятельствах Жуткие фото, сделанные при еще более жутких обстоятельствах

Не всегда понятно, чего же страшного в этих снимках, но они реально пугают

Maxim
Быть достаточно хорошим родителем: это как? Быть достаточно хорошим родителем: это как?

Что это значит, быть хорошими родителями?

Psychologies
Во Франции раскопали поселение железного века с большим некрополем и кладом Во Франции раскопали поселение железного века с большим некрополем и кладом

Жители древнего поселения во Франции оказались умелыми металлургами

N+1
Что делать, если у вас с девушкой или даже женой противоположные взгляды на политику? Что делать, если у вас с девушкой или даже женой противоположные взгляды на политику?

Как уживаться вместе, если ваши политические взгляды не совпадают?

Maxim
Поле под контролем Поле под контролем

Почвенный агрохиманализ как способ сокращения затрат

Агроинвестор
Физики поймали магноны за превращением в фононы Физики поймали магноны за превращением в фононы

Магноны превращаются в фононы за десятки наносекунд

N+1
Тревожные звоночки: ученые научились проверять риск попадания в ДТП во время сна Тревожные звоночки: ученые научились проверять риск попадания в ДТП во время сна

Потенциально аварийные ситуации сопоставили с показателями здоровья

Вокруг света
Как правильно мыть голову: инструкция и советы экспертов Как правильно мыть голову: инструкция и советы экспертов

Обязательно ли мыть голову или можно сбрызнуть ее сухим шампунем?

РБК
Образцовые фасады: маршруты для прогулок по отреставрированной Москве Образцовые фасады: маршруты для прогулок по отреставрированной Москве

Куда стоит заглянуть во время прогулок по старой Москве

Forbes
Открыть в приложении