Самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах

Популярная механикаHi-Tech

Накликали беду: как правильно применять AI в работе с небольшим количеством данных

Когда люди слышат словосочетание «искусственный интеллект», многие представляют большие массивы данных. В этом есть смысл – самые известные AI-модели, такие как GPT-3, обучены на гигантских датасетах. Тем не менее, большинство методов обучения моделей страдают от так называемого “data hunger”, когда модели требуются десятки и сотни тысяч примеров для обучения, а также от чрезмерно высоких ресурсных затрат. Тем не менее, чаще всего данных в наличии у компаний сравнительно мало. Это может быть связано с политикой сбора данных, отсутствием единых правил хранения. А еще стоимостью разметки, так как для подготовки использования данных в AI-системе часто необходимо привлекать квалифицированных специалистов.

Рассмотрим один из популярных на сегодняшний день кейсов – основанную на AI проверку договоров (Kira Systems, Embedica). Предположим, что вы решили сделать аналогичную систему внутри компании, для этого вам потребуется множество договоров с правками юристов, чтобы обучить модель. Если с самими текстами проблем не будет, то получить размеченные данные окажется довольно сложно – к процессу нужно будет подключить целый штат специалистов. И даже спустя несколько месяцев дорогостоящей работы у вас будет всего несколько тысяч размеченных документов. А это никак нельзя назвать большими данными.

Чтобы подобные системы работали, компаниям нужно научиться строить AI-решения с данными из «наличия». 

Проблема малых данных в AI

Чтобы изучить новый материал, человеку не нужны сотни тысяч примеров, достаточно прочитать пару статей. Почему же ИИ так не может? 

В действительности человеческий мозг не обучается на маленьком объеме данных. Подумайте, ведь мы с рождения потребляем непрерывный поток информации через все органы чувств и только спустя несколько месяцев такого обучения начинаем говорить, различать объекты и людей, и то не всегда правильно. К моменту взросления нам уже не требуется много данных, чтобы решать простейшие задачи по распознаванию лиц друзей или чтению нового материала. Что касается юристов, с которых мы начинали, то даже профессионал своего дела за многолетнюю практику исследует тысячи, а не сотни тысяч договоров. Но ему это и не нужно, ведь он знает главное – язык. Так можно ли строить ИИ-системы, основываясь на том же принципе? 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Чем нынешние исследователи отличаются от тех, что были раньше Чем нынешние исследователи отличаются от тех, что были раньше

Кто же такой исследователь в современной реальности?

Популярная механика
Государева дорога Государева дорога

«Государева дорога» — маршрут, связанный с историей царской России

Отдых в России
Как пилотов защищают от серьезных аварий в «Формуле-1»? Как пилотов защищают от серьезных аварий в «Формуле-1»?

Как работает система защиты пилотов в «Формуле-1»?

Maxim
Что случилось с детьми-актерами из советского фильма «Приключения Буратино» Что случилось с детьми-актерами из советского фильма «Приключения Буратино»

Что стало с актерами-детьми из любимого многими «Приключения Буратино»

Maxim
Как наклеить защитное стекло на смартфон с первого раза: 6 простых шагов Как наклеить защитное стекло на смартфон с первого раза: 6 простых шагов

Лучше заранее позаботиться о защите своего гаджета и наклеить стекло. Но как?

TechInsider
Два по цене одного: как халява заставляет человека совершать неразумные поступки и драться за товары Два по цене одного: как халява заставляет человека совершать неразумные поступки и драться за товары

Почему мы так бурно реагируем на бесплатные товары и услуги?

VC.RU
Гигантский птерозавр кетцалькоатль оказался плохим летуном Гигантский птерозавр кетцалькоатль оказался плохим летуном

Огромный птерозавр кетцалькоатль мог подняться в воздух только в крайнем случае

N+1
Икра хариуса, галаган и конина: какие локальные продукты станут новыми деликатесами Икра хариуса, галаган и конина: какие локальные продукты станут новыми деликатесами

Какие локальные продукты заслужат звание новых российских деликатесов

Forbes
Восстановление батареи ноутбука: дешевле, чем покупать новую Восстановление батареи ноутбука: дешевле, чем покупать новую

Почему полезно следить за батареей ноутбука

CHIP
Как разблокировать iPhone, если ты забыла пароль? Как разблокировать iPhone, если ты забыла пароль?

Что делать, если разблокировать iPhone не получилось?

The Voicemag
Альтернативное сознание: интересные факты о галлюциногенах Альтернативное сознание: интересные факты о галлюциногенах

Примечательные химических соединениях, которые воздействуют на мозг

TechInsider
Ирина Шейк 25 лет спустя: как выглядит мама русской модели, покорившей мир Ирина Шейк 25 лет спустя: как выглядит мама русской модели, покорившей мир

Ольга Шайхлисламова со знаменитой дочерью Ириной Шейк невероятно похожи

The Voicemag
Импортозамещение: сравниваем российские сервисы, которые могут заменить Netflix и Spotify Импортозамещение: сравниваем российские сервисы, которые могут заменить Netflix и Spotify

Мы решили разобраться, сильно ли отечественные приложения уступают западным

Maxim
Худрук театра Моссовета Евгений Марчелли: Худрук театра Моссовета Евгений Марчелли:

Худрук театра Моссовета Евгений Марчелли не сторонник радикальных перемен

Караван историй
Бегство в себя: причины и опасности внутренней эмиграции Бегство в себя: причины и опасности внутренней эмиграции

Полезна или губительна внутренняя эмиграция?

Psychologies
Кровавые узы: судьбы жен и детей великих диктаторов Кровавые узы: судьбы жен и детей великих диктаторов

Имена диктаторов XX века вошли в историю, но судьбы их близких остаются в тени

Вокруг света
Почему мы отталкиваем тех, кого любим? Почему мы отталкиваем тех, кого любим?

Почему притяжение порой оборачивается отдалением?

Psychologies
Миллиардер Уоррен Баффет: 10 советов, как экономить деньги Миллиардер Уоррен Баффет: 10 советов, как экономить деньги

Как правильно относиться к деньгам, чтобы не потерять, а приумножить

Psychologies
Почему искусственный интеллект обыгрывает всех в Dota, но пока не выживет в реальном мире Почему искусственный интеллект обыгрывает всех в Dota, но пока не выживет в реальном мире

Почему машины быстро эволюционируют в виртуальном, а не в реальном мире?

TechInsider
Джессика Честейн Джессика Честейн

В чем секрет привлекательности Джессики Честейн?

Здоровье
Диетолог из Гарварда назвала 5 видов продуктов, которые заставляют вас чувствовать себя уставшими и тревожными Диетолог из Гарварда назвала 5 видов продуктов, которые заставляют вас чувствовать себя уставшими и тревожными

Какие продукты могут вызвать тревогу и усталость

Inc.
Золотые бьюти-правила Джеки Кеннеди: выбирай и заимствуй Золотые бьюти-правила Джеки Кеннеди: выбирай и заимствуй

Бьюти-ритуалы и привычки бывшей первой леди США миссис Ли Бувье Кеннеди Онассис

The Voicemag
Как сохранить здоровый мозг и избежать деменции в пожилом возрасте Как сохранить здоровый мозг и избежать деменции в пожилом возрасте

Рекомендации по укреплению когнитивных функций

Psychologies
7 крутых маринадов для шашлыка, которые вам точно пригодятся на майских праздниках 7 крутых маринадов для шашлыка, которые вам точно пригодятся на майских праздниках

Мясо само себя не приготовит: собрали для вас семь вкусных шашлычных маринадов

Популярная механика
На что способна NFC: и мы не о бесконтактных платежах На что способна NFC: и мы не о бесконтактных платежах

NFC может использоваться не только для бесконтактных платежей

CHIP
Свои виды Свои виды

Три яхтенных маршрута, стартующие в Москве и Петербурге

Robb Report
Рождение легенды: как появился «тот самый» шрифт для логотипа «Вокруг Света» Рождение легенды: как появился «тот самый» шрифт для логотипа «Вокруг Света»

«Вокруг света» — журнал с историей

Вокруг света
География чтения: 5 книг о Северной Африке География чтения: 5 книг о Северной Африке

Книги о загадочном континенте, который манит авантюристов и путешественников

Вокруг света
Как развивать эмоциональный интеллект и быть жизнестойким Как развивать эмоциональный интеллект и быть жизнестойким

Что такое эмоциональный интеллект и как его развить

СНОБ
Археологи обнаружили в Израиле 120-тысячелетнюю кость с гравировкой Археологи обнаружили в Израиле 120-тысячелетнюю кость с гравировкой

Во время раскопок памятника Нешер Рамла нашли фрагмент кости первобытного тура

N+1
Открыть в приложении