Наблюдая за людьми, роботы учатся выполнять сложные задачи, например, накрывать на стол.

Обучение интерактивных роботов может в один прекрасный день стать легкой работой для всех, даже для тех, у кого нет опыта программирования. Роботисты разрабатывают автоматизированных роботов, которые могут изучать новые задачи только наблюдая за людьми. Дома вы можете когда-нибудь показать домашнему роботу, как выполнять рутинную работу по дому. На рабочем месте вы можете обучать роботов, как новых сотрудников, показывать им, как выполнять множество обязанностей.

Добиваясь прогресса в этом видении, исследователи MIT разработали систему, которая позволяет этим типам роботов изучать сложные задачи, которые в противном случае поставили бы их в тупик со слишком многими запутанными правилами. Одной из таких задач является накрытие обеденного стола при определенных условиях.  

По своей сути, система «Планирование с неопределенными спецификациями» (PUnS) дает роботам возможность планирования, подобного человеку, для одновременного взвешивания многих неоднозначных — и потенциально противоречивых — требований для достижения конечной цели. При этом система всегда выбирает наиболее вероятное действие, основанное на «убеждении» о некоторых вероятных спецификациях для задачи, которую она должна выполнить.

В своей работе исследователи собрали набор данных с информацией о том, как восемь предметов — кружка, стакан, ложка, вилка, нож, обеденная тарелка, маленькая тарелка и миска — могут быть размещены на столе в различных конфигурациях. Роботизированная рука сначала наблюдала случайно выбранные человеческие демонстрации накрывания стола с объектами. Затем исследователи поставили задачу автоматически настроить стол в определенной конфигурации, в реальных экспериментах и ​​в симуляции, основываясь на увиденном.

Чтобы добиться успеха, робот должен был взвесить множество возможных вариантов размещения, даже когда предметы были преднамеренно удалены, сложены или спрятаны. Обычно все это слишком запутывает роботов. Но робот исследователей не допустил ошибок в нескольких реальных экспериментах, и лишь несколько ошибок в десятках тысяч смоделированных тестовых прогонов.  

«Идея состоит в том, чтобы передать программирование в руки экспертов по предметной области, которые могут программировать роботов интуитивно понятными способами, а не описывать приказы инженерам добавлять их код», — говорит первый автор Анкит Шах, аспирант кафедры аэронавтики. и Astronautics (AeroAstro) и Interactive Robotics Group, которые подчеркивают, что их работа — только один шаг в реализации этого видения. «Таким образом, роботам больше не придется выполнять запрограммированные задачи. Работники завода могут научить робота выполнять несколько сложных сборочных задач. Домашние роботы могут научиться складывать шкафы, загружать посудомоечную машину или накрывать на стол людей из дома ».

К работе над шахом присоединились AeroAstro и аспирант Interactive Robotics Group Шен Ли и руководитель группы Interactive Robotics Джули Шах, доцент AeroAstro и Лаборатории информатики и искусственного интеллекта.

Боты хеджируют ставки

Роботы отлично планируют задачи с четкими «спецификациями», которые помогают описать задачу, которую робот должен выполнить, учитывая его действия, среду и конечную цель. Умение накрывать на стол, наблюдая за демонстрациями, полно неопределенных спецификаций. Предметы должны быть размещены в определенных местах, в зависимости от меню и места для гостей, а также в определенных заказах, в зависимости от наличия товара или социальных условий. Существующие подходы к планированию не способны справиться с такими неопределенными характеристиками.

Популярный подход к планированию — «обучение с подкреплением», метод машинного обучения методом проб и ошибок, который вознаграждает и наказывает их за действия, выполняемые для выполнения задачи. Но для задач с неопределенными спецификациями сложно определить четкие вознаграждения и штрафы. Короче говоря, роботы никогда не учатся правильно на неправильном.

Система исследователей, называемая PUnS (для планирования с неопределенными спецификациями), позволяет роботу «верить» в различные возможные спецификации. Сама вера затем может быть использована для распределения вознаграждений и штрафов. «Робот, по сути, хеджирует свои ставки с точки зрения того, что предназначено для задачи, и выполняет действия, которые удовлетворяют его убеждениям, вместо того, чтобы мы давали ему четкие спецификации», — говорит Анкит Шах.

Система построена на «линейной временной логике» (LTL), выразительном языке, который позволяет автоматизировать рассуждения о текущих и будущих результатах. Исследователи определили в LTL шаблоны, которые моделируют различные временные условия, такие как то, что должно произойти сейчас, должно произойти в конечном итоге и должно происходить, пока не произойдет что-то еще. Наблюдения робота за 30 человеческими демонстрациями для накрытия стола дали распределение вероятностей по 25 различным формулам LTL. Каждая формула закодировала немного другое предпочтение — или спецификацию — для настройки таблицы. Это распределение вероятностей становится его верой.

«Каждая формула кодирует что-то свое, но когда робот рассматривает различные комбинации всех шаблонов и пытается удовлетворить все вместе, в конце концов он делает правильные вещи», — говорит Анкит Шах.

Следующие критерии

Исследователи также разработали несколько критериев, которые направляют робота к полному убеждению в отношении этих формул-кандидатов. Один, например, удовлетворяет наиболее вероятной формуле, которая отбрасывает все остальное, кроме шаблона с наибольшей вероятностью. Другие удовлетворяют наибольшему числу уникальных формул, не учитывая их общую вероятность, или они удовлетворяют нескольким формулам, которые представляют наибольшую общую вероятность. Другой просто сводит к минимуму ошибку, поэтому система игнорирует формулы с высокой вероятностью отказа.

Дизайнеры могут выбрать любой из четырех критериев, которые необходимо установить перед тренировкой и тестированием. У каждого есть свой компромисс между гибкостью и неприятием риска. Выбор критериев полностью зависит от поставленной задачи. Например, в критических ситуациях безопасности проектировщик может ограничить возможность отказа. Но там, где последствия отказов не так серьезны, разработчики могут предоставить роботам большую гибкость, чтобы попробовать разные подходы.

С учетом критериев исследователи разработали алгоритм для преобразования убеждения робота — распределения вероятностей, указывающего на желаемую формулу — в эквивалентную задачу обучения с подкреплением. Эта модель будет пинговать робота с вознаграждением или штрафом за действие, которое оно предпринимает, основываясь на спецификации, которой оно решено следовать.

В симуляциях, когда робот предлагал накрыть стол в разных конфигурациях, он сделал только шесть ошибок из 20 000 попыток. В реальных демонстрациях это демонстрировало поведение, подобное тому, как человек будет выполнять задачу. Например, если элемент изначально не был виден, робот завершит настройку остальной части таблицы без элемента. Затем, когда вилка была обнаружена, она установила вилку в нужном месте. «Вот где гибкость очень важна», — говорит Анкит Шах. «В противном случае он застрянет, когда он ожидает разместить вилку и не завершит остальную часть настройки стола».

Затем исследователи надеются изменить систему, чтобы роботы могли изменить свое поведение на основе устных инструкций, исправлений или оценки работы робота пользователем. «Скажем, человек демонстрирует роботу, как накрывать на стол только в одном месте. Человек может сказать: «сделайте то же самое для всех остальных мест» или «вместо этого поставьте нож перед вилкой», — говорит Анкит Шах. «Мы хотим разработать методы для естественной адаптации системы к этим словесным командам без дополнительных демонстраций».  

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *