Новый метод обучения поможет роботам исследовать неизвестный окружающий мир

ТехИнсайдерHi-Tech

Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Новый метод обучения с подкреплением, разработанный Tinkoff Research, поможет роботам исследовать неизвестный окружающий мир и не погибнуть при этом исследовании. Метод получил название SAC-RND (Soft Actor Critic — Random Network Distillation). Он работает в 20 раз быстрее и надежнее, чем аналогичные разработки других ИИ-компаний.

Владимир Губайловский

6163a12bd08659e6198670497e8dd18a_ce_1545x1030x515x0.jpg
Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу

Неизвестность — это всегда опасность. Исследование неизвестной среды требует в первую очередь точности и осторожности.

М

етод обучения с подкреплением, получивший название RND (random network distillation) разработали в 2018 году в компании OpenAI. Разработали, потому что встали в тупик. ИИ-агенты замечательно (или по крайней мере неплохо) играли во все игры Atari кроме одной — «Месть Монтесумы». В среднем человек набирает в эту игру 4700 очков, а ИИ-агенты, разработанные OpenAI, четко набирали 0. И было непонятно, почему такой отличный метод, как обучение с подкреплением в этом случае не работает.

И тогда инженеры OpenAI изменили стратегию вознаграждения (подкрепления). Они сказали ИИ-агенту: самая большая твоя награда — это новые знания. То есть, самая интересная ситуация та, которую трудно предсказать. Если ты не знаешь, что там за углом, стоит свернуть. 

Авторизуйтесь, чтобы продолжить чтение. Это быстро и бесплатно.

Регистрируясь, я принимаю условия использования

Рекомендуемые статьи

Затерянные миры: 8 самых неисследованных мест Земли Затерянные миры: 8 самых неисследованных мест Земли

Рассказываем о самых таинственных уголках нашей планеты

ТехИнсайдер
Крис Рок и сольный дебют Мэй Мартин: шесть новых отличных стендапов 2023 года Крис Рок и сольный дебют Мэй Мартин: шесть новых отличных стендапов 2023 года

Шесть смешных и честных стендапов, вышедших в этом году

Forbes
Революция в мире моды: как технологии меняют нашу одежду Революция в мире моды: как технологии меняют нашу одежду

Как уже сейчас в новинках мира моды проявляются тренды гардероба будущего

Inc.
Сложный разговор Сложный разговор

Какой язык самый сложный? Тот, что труднее всего выучить?

Вокруг света
Исследование показало, что социальное дистанцирование не защищает от инфекций Исследование показало, что социальное дистанцирование не защищает от инфекций

Социальное дистанцирование не защищает от инфекций. А что защищает?

ТехИнсайдер
«Я падала в обморок, когда весила 45 кг»: Алена Шишкова призналась, что страдала от булимии и анорексии «Я падала в обморок, когда весила 45 кг»: Алена Шишкова призналась, что страдала от булимии и анорексии

Модель Алена Шишкова впервые откровенно рассказала о проблемах со здоровьем

VOICE
12 фильмов Венецианского кинофестиваля 12 фильмов Венецианского кинофестиваля

Старейший в мире Венецианский кинофестиваль в этом году проводится в 80-й раз

Weekend
«Пап, а ты когда придешь?» «Пап, а ты когда придешь?»

Какова роль мужчины в воспитании детей?

Psychologies
5 признаков человека, которого недолюбили в детстве 5 признаков человека, которого недолюбили в детстве

Как можно определить, что в детстве тебе не хватило родительской любви

VOICE
Как женщины борются со стереотипами о внешности и возрасте на рабочем месте Как женщины борются со стереотипами о внешности и возрасте на рабочем месте

Как стюардессы каждый день сталкиваются с дискриминацией по внешности и возрасту

Forbes
Банан на скотче и рассол: как художники превращают еду в искусство Банан на скотче и рассол: как художники превращают еду в искусство

Художники осваивают еду как средство выражения своих идей

РБК
Как появилась традиция кричать молодоженам «Горько!»? Как появилась традиция кричать молодоженам «Горько!»?

Разбираемся в славянских брачных обрядах

Культура.РФ
Клин с клином Клин с клином

Клинопись – древнейшая известная человечеству система письма

Вокруг света
3 типа привязанности: как от них зависят наши отношения с мужчинами 3 типа привязанности: как от них зависят наши отношения с мужчинами

Определи свой (и его) тип привязанности — и узнаешь, что со всем этим делать

VOICE
Биозавивка на волосах разной длины: виды, сроки и нюансы процедуры Биозавивка на волосах разной длины: виды, сроки и нюансы процедуры

В чем плюсы и минусы биозавивки и какой она получается на волосах разной длины

РБК
Искусство быть круглым. Как Смешарики говорят с детьми на серьезные темы Искусство быть круглым. Как Смешарики говорят с детьми на серьезные темы

Какие философские идеи поднимают Смешарики

СНОБ
Сумасшедшая на чердаке: как женское безумие в книгах было связано с борьбой за права Сумасшедшая на чердаке: как женское безумие в книгах было связано с борьбой за права

Как женское безумие было связано с эмансипацией и борьбой за гендерное равенство

Forbes
Фундаментальные инвестиции: почему России нужны крупные медицинские компании Фундаментальные инвестиции: почему России нужны крупные медицинские компании

Как в России следует развивать бизнес в сфере здравоохранения?

Forbes
Смерть любимого, потеря ребенка, вражда с Дарьей Мороз: сложная жизнь Виктории Исаковой Смерть любимого, потеря ребенка, вражда с Дарьей Мороз: сложная жизнь Виктории Исаковой

В жизни Виктории Исаковой были свои трагедии

VOICE
6 экранных пар, в любовь которых мы не поверили, как они ни старались 6 экранных пар, в любовь которых мы не поверили, как они ни старались

Экранные пары, которые нас совсем не тронули

VOICE
Катя Кабак: «Привычка ставить себя в неловкое положение — это суперсила» Катя Кабак: «Привычка ставить себя в неловкое положение — это суперсила»

Катя уверена: главное — не бояться пробовать новое

Коллекция. Караван историй
Ночь в таинственной спальне: викторианский роман о юности и познании телесности Ночь в таинственной спальне: викторианский роман о юности и познании телесности

Отрывок из викторианского романа «Золото, перина и ночная чертовщина»

Forbes
Деньги Деньги

Откуда в Дубае деньги?

Правила жизни
Кто придумал наркоз и гипс Кто придумал наркоз и гипс

История изобретения наркоза и гипса

СНОБ
Сказочное Охотоморье Сказочное Охотоморье

Супруги Кирилл Уютнов и Екатерина Васягина перезимовали на севере Сахалина

Отдых в России
В мозгу и сердце человека найдены следы микропластика: медики бьют тревогу В мозгу и сердце человека найдены следы микропластика: медики бьют тревогу

Микропластик присутствует повсюду, в том числе он проникает в наши тела

ТехИнсайдер
Большая разница? Мозги самцов и самок по-разному реагируют на хронический стресс Большая разница? Мозги самцов и самок по-разному реагируют на хронический стресс

Реакция клеток мозга на стресс отличается в зависимости от пола животного

ТехИнсайдер
Зоологи опознали белых медведей по ДНК из их следов на снегу Зоологи опознали белых медведей по ДНК из их следов на снегу

Американские зоологи нашли способ изучать белых медведей, не беспокоя их

N+1
Как выбрать арбуз и дыню? Как выбрать арбуз и дыню?

Одним нравится арбуз, другим дыня. Для всех они — олицетворение прекрасного лета

Psychologies
«Великий посад Москвы: подлинная история Китай-города» «Великий посад Москвы: подлинная история Китай-города»

Книга об одном из самых значимых исторических центров столицы

N+1
Открыть в приложении