Ученые Tinkoff Research вывели робота на правильную и безопасную дорогу
Новый метод обучения с подкреплением, разработанный Tinkoff Research, поможет роботам исследовать неизвестный окружающий мир и не погибнуть при этом исследовании. Метод получил название SAC-RND (Soft Actor Critic — Random Network Distillation). Он работает в 20 раз быстрее и надежнее, чем аналогичные разработки других ИИ-компаний.
Неизвестность — это всегда опасность. Исследование неизвестной среды требует в первую очередь точности и осторожности.
М
етод обучения с подкреплением, получивший название RND (random network distillation) разработали в 2018 году в компании OpenAI. Разработали, потому что встали в тупик. ИИ-агенты замечательно (или по крайней мере неплохо) играли во все игры Atari кроме одной — «Месть Монтесумы». В среднем человек набирает в эту игру 4700 очков, а ИИ-агенты, разработанные OpenAI, четко набирали 0. И было непонятно, почему такой отличный метод, как обучение с подкреплением в этом случае не работает.
И тогда инженеры OpenAI изменили стратегию вознаграждения (подкрепления). Они сказали ИИ-агенту: самая большая твоя награда — это новые знания. То есть, самая интересная ситуация та, которую трудно предсказать. Если ты не знаешь, что там за углом, стоит свернуть.