
Посмотрите на изображения выше. Если бы я попросил вас принести мне одеяло для пикника на травянистое поле, вы бы смогли? Конечно. Если бы я попросил вас принести тележку с едой для вечеринки, вы бы толкнули тележку по асфальтированной дорожке или по траве? Очевидно, проложенный путь.
Хотя ответы на эти вопросы могут показаться очевидными, современные мобильные роботы, скорее всего, потерпят неудачу при выполнении этих задач: они будут думать, что высокая трава такая же, как бетонная стена, и не будут знать разницу между гладкой дорожкой и ухабистой травой. Это потому, что большинство мобильных роботов думают исключительно с точки зрения геометрии: они обнаруживают, где находятся препятствия, и планируют пути вокруг этих воспринимаемых препятствий, чтобы достичь цели. Этот чисто геометрический взгляд на мир недостаточен для многих задач навигации. Геометрии просто недостаточно.

Можем ли мы разрешить роботам рассуждать о навигационных возможностях непосредственно из изображений? Чтобы исследовать этот вопрос, мы разработали робота, который может самостоятельно изучать физические атрибуты окружающей среды на основе своего собственного опыта в реальном мире, без какой-либо симуляции или человеческого наблюдения. Мы называем нашу систему обучения роботов BADGR: автономный робот Беркли .
BADGR работает:
- Автономный сбор данных
- Автоматическая маркировка данных с самоконтролем
- Обучение основанной на изображении модели прогнозирования нейронной сети
- Использование прогнозирующей модели для планирования на будущее и выполнения действий, которые приведут робота к выполнению желаемой навигационной задачи
Сбор информации

BADGR нужно большое количество разнообразных данных, чтобы успешно научиться ориентироваться. Робот собирает данные, используя простой, скоррелированный по времени контроллер случайного блуждания . По мере того, как робот собирает данные, если он испытывает столкновение или застревает, он выполняет простой контроллер сброса и затем продолжает сбор данных.
Самоконтролируемая маркировка данных
Затем BADGR просматривает данные и вычисляет метки для определенных навигационных событий, таких как положение робота и, если робот столкнулся или движется по неровной местности, и добавляет эти метки событий обратно в набор данных. Эти события помечаются тем, что человек пишет короткий фрагмент кода, который отображает необработанные данные датчика на соответствующую метку. В качестве примера, фрагмент кода для определения, находится ли робот на неровной местности, смотрит на датчик IMU и маркирует местность как неровную, если значения угловой скорости велики.
Мы описываем этот механизм маркировки как самоконтроль, потому что, хотя человеку приходится вручную писать этот фрагмент кода, фрагмент кода можно использовать для маркировки всех существующих и будущих данных без каких-либо дополнительных человеческих усилий.
Предиктивная модель нейронной сети

Затем BADGR использует данные для обучения модели прогнозирования глубокой нейронной сети. Нейронная сеть принимает в качестве входных данных текущее изображение с камеры и будущую последовательность запланированных действий и выводит прогнозы будущих соответствующих событий (например, столкнется ли робот или переместится по неровной местности). Предиктивная модель нейронной сети обучена предсказывать эти будущие события с максимально возможной точностью.
Планирование и навигация

При развертывании BADGR пользователь сначала определяет функцию вознаграждения, которая кодирует конкретную задачу, которую он хочет выполнить роботу. Например, функция вознаграждения может стимулировать движение к цели, препятствуя столкновениям или движению по неровной местности. Затем BADGR использует обученную прогностическую модель, наблюдение за текущим изображением и функцию вознаграждения для планирования последовательности действий, максимизирующих вознаграждение. Робот выполняет первое действие в этом плане, и BADGR продолжает чередовать планирование и выполнение, пока задача не будет завершена.
В наших экспериментах мы изучали, как BADGR может узнать о физических характеристиках окружающей среды на большом объекте за пределами площадки около Калифорнийского университета в Беркли . Мы сравнили наш подход с политикой, основанной на геометрии, которая использует лидар для планирования путей без столкновений. (Обратите внимание, что BADGR использует только встроенную камеру.)

Сначала мы рассмотрели задачу достижения цели местоположения GPS, избегая столкновений и неровной местности в городских условиях. Хотя политика, основанная на геометрии, всегда преуспевала в достижении цели, ей не удалось избежать ухабистой травы. БАДГР также всегда преуспевал в достижении цели и избегал неровной местности, проезжая по асфальтированным дорожкам. Обратите внимание, что мы никогда не говорили роботу ездить по дорожкам; BADGR автоматически узнал из изображений с бортовой камеры, что движение по бетонным дорожкам более плавное, чем движение по траве.
Мы также рассмотрели задачу достижения целевого местоположения GPS, избегая обоих столкновений и застрять в условиях бездорожья. Политика, основанная на геометрии, почти никогда не терпела крах или застревала на траве, но иногда отказывалась двигаться, потому что была окружена травой, которую она неправильно обозначила как непреодолимые препятствия.
BADGR почти всегда удавалось достигать цели, избегая столкновений и застрять, не ложно предсказывая, что вся трава была препятствием. Это потому, что БАДГР из опыта узнал, что большая часть травы на самом деле проходима.

В дополнение к способности узнавать о физических атрибутах среды, ключевым аспектом BADGR является его способность постоянно контролировать себя и улучшать модель, поскольку она собирает все больше и больше данных. Чтобы продемонстрировать эту возможность, мы провели контролируемое исследование, в котором BADGR собирает и обучает данные из одной области, перемещается в новую целевую область, не справляется с навигацией в этой области, но затем в конечном итоге добивается успеха в целевой области после сбора и обучения дополнительным данные из этой области.



Этот эксперимент не только демонстрирует, что BADGR может улучшаться по мере сбора большего количества данных, но также и то, что ранее накопленный опыт может фактически ускорить обучение, когда BADGR сталкивается с новой средой. А поскольку BADGR автономно собирает данные во все большем и большем количестве сред, для успешного обучения навигации в каждой новой среде требуется все меньше и меньше времени.
Мы также оценили, насколько хорошо BADGR ориентируется в новых условиях — от леса до городских зданий — не видно в данных обучения. Этот результат демонстрирует, что BADGR может обобщать данные в новых условиях, если он собирает и обучает на достаточно большом и разнообразном наборе данных.
Основная идея BADGR заключается в том, что благодаря автономному обучению на основе опыта непосредственно в реальном мире, BADGR может узнавать о навигационных возможностях, улучшать при сборе большего количества данных и обобщать в невидимых средах. Хотя мы считаем, что BADGR является многообещающим шагом на пути к полностью автоматизированной, самосовершенствующейся навигационной системе, остается ряд открытых проблем: как робот может безопасно собирать данные в новых средах или адаптироваться в режиме онлайн по мере поступления новых потоков данных, или справляться с нестатической средой, такой как люди, идущие вокруг?
Мы считаем, что решение этих и других задач имеет решающее значение для того, чтобы платформы обучения роботов могли учиться и действовать в реальном мире.