Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа? Как ученые отправляют послания иным цивилизациям и сколько нам ждать ответа?

METI — попытки передачи межзвездных посланий

Популярная механика
Удушающая забота: что такое синдром Мюнхгаузена и почему он опасен Удушающая забота: что такое синдром Мюнхгаузена и почему он опасен

Расстройство, при котором человек имитирует симптомы реальных заболеваний

Forbes
9 советов, как лучше запоминать новую информацию (это полезно в любом возрасте) 9 советов, как лучше запоминать новую информацию (это полезно в любом возрасте)

Учиться никогда не поздно, но как делать это эффективно

Playboy
Лунный грунт плохо подошел для выращивания резуховидок Лунный грунт плохо подошел для выращивания резуховидок

Растения в лунном грунте испытывали сильный стресс и медленно развивались

N+1
10 устройств на человека: как заработать на интернете вещей 10 устройств на человека: как заработать на интернете вещей

В каких направлениях будет развиваться Интернет вещей

Forbes
Неизведанная Калмыкия Неизведанная Калмыкия

Не обязательно ехать на край света, чтобы увидеть буддистские реликвии

Лиза
Поле под контролем Поле под контролем

Почвенный агрохиманализ как способ сокращения затрат

Агроинвестор
Girl, Interrupted. Почему всем, кто молод, стоит смотреть «Нику» — драму о поэтессе, которая перестала писать Girl, Interrupted. Почему всем, кто молод, стоит смотреть «Нику» — драму о поэтессе, которая перестала писать

Печальная история о родительском насилии и синдроме самозванца

Правила жизни
Внутреннее неспокойствие: 10 вооруженных конфликтов на территории США Внутреннее неспокойствие: 10 вооруженных конфликтов на территории США

Некоторые военные и гражданские конфликты, происходившие на территории США

Вокруг света
История одной вещи: авоська, которая всюду сопровождала советского гражданина История одной вещи: авоська, которая всюду сопровождала советского гражданина

Как сумка-сетка появилась в СССР и откуда взялось само слово «авоська»

Правила жизни
Не только чайник и тазик: 4 неожиданных способа помыться, если отключили горячую воду Не только чайник и тазик: 4 неожиданных способа помыться, если отключили горячую воду

Рассказываем, как мыть туды и сюды, если в кране нет воды

Maxim
Центр Галактики: как астрономы рассмотрели главную черную дыру Млечного Пути Центр Галактики: как астрономы рассмотрели главную черную дыру Млечного Пути

Как ученые получили снимок сверхмассивной черной дыры и почему это так важно?

Forbes
Чем полезны яблоки и сколько в них калорий Чем полезны яблоки и сколько в них калорий

Какие вещества содержатся в яблоках и почему их стоит включить в рацион

РБК
Краткая история виниловых проигрывателей в СССР Краткая история виниловых проигрывателей в СССР

Виниловых проигрыватели в СССР: иногда инженеры создавали нечто любопытное

Maxim
Что такое мезотерапия и от чего она помогает Что такое мезотерапия и от чего она помогает

Мезотерапию продвигают как безопасный способ доставить средства «вглубь» кожи

РБК
Роскошные формы: 6 деталей картины Рубенса «Венера перед зеркалом» Роскошные формы: 6 деталей картины Рубенса «Венера перед зеркалом»

Если в России говорят «кустодиевская женщина», в Европе скажут «рубенсовская»

Вокруг света
Бедный Рюрик… Бедный Рюрик…

Кто такой Рюрик?

Дилетант
21 килограмм: как выглядят самые толстые коты в мире 21 килограмм: как выглядят самые толстые коты в мире

Должно ли хорошего кота быть много?

VOICE
Какие находки XXI век оставит археологам будущего: новая геологическая эпоха Какие находки XXI век оставит археологам будущего: новая геологическая эпоха

Колоссальные залежи останков — ярчайший маркер целой геологической эпохи

ТехИнсайдер
10 современных романов, которые стоит прочитать на майских 10 современных романов, которые стоит прочитать на майских

Десять современных романов, которые помогут скоротать время

СНОБ
Пилюля свободы: как гормональная контрацепция связана с правами человека и экономикой Пилюля свободы: как гормональная контрацепция связана с правами человека и экономикой

Почему женщины вынуждены отказываться от гормональной контрацепции?

Forbes
«Обойдетесь без свободной жизни»: почему мужчины хотят запретить аборты «Обойдетесь без свободной жизни»: почему мужчины хотят запретить аборты

Почему мужчины хотят принимать решение о материнстве вместо женщин

VOICE
10 мощных российских тракторов: отечественная техника, за которую не стыдно 10 мощных российских тракторов: отечественная техника, за которую не стыдно

В России делаются свои трактора, причём на мировом уровне

ТехИнсайдер
Царица дома: 5 фактов о традиционной русской печи Царица дома: 5 фактов о традиционной русской печи

Русская печь всегда была настоящим национальным символом

Вокруг света
Кто создает в России магазины приложений на замену App Store и Google Play Кто создает в России магазины приложений на замену App Store и Google Play

Кто создает NashStore и RuStore и с какими проблемами они уже столкнулись?

Forbes
Московский Нострадамус Московский Нострадамус

Это имя уже почти три столетия служит синонимом тайных знаний

Дилетант
Что лучше: контактные линзы или очки. Выбор неочевиден Что лучше: контактные линзы или очки. Выбор неочевиден

Вокруг использования очков и линз ходит множество мифов. Как определиться?

ТехИнсайдер
Кто помог маме неизлечимо больного ребенка отстоять интересы сына и человеческое достоинство Кто помог маме неизлечимо больного ребенка отстоять интересы сына и человеческое достоинство

Как живут дети с миодистрофией Дюшенна

СНОБ
Имплантация зубов: мифы и реальность Имплантация зубов: мифы и реальность

Все «за» и «против» имплантации зубов

VOICE
Тело — это просто тело: что такое бодипозитив и бодинейтральность Тело — это просто тело: что такое бодипозитив и бодинейтральность

Отрывок из книги «Мудрость тела» Хиллари Л. МакБрайд

Forbes
Открыть в приложении