Люди редко используют только одно чувство, чтобы понять мир, но роботы обычно полагаются только на зрение и, все чаще, на прикосновение. Исследователи из Университета Карнеги-Меллона обнаружили, что восприятие роботов можно заметно улучшить, если добавить еще одно чувство: слух.
В том, что, по их словам, является первым крупномасштабным исследованием взаимодействия между звуком и действием робота, исследователи из Института робототехники CMU обнаружили, что звуки могут помочь роботу различать объекты, такие как металлическая отвертка и металлический гаечный ключ. Слух также может помочь роботам определить, какое действие вызвало звук, и помочь им использовать звуки для прогнозирования физических свойств новых объектов.
«Большая предварительная работа в других областях показала, что звук может быть полезен, но не было ясно, насколько он будет полезен в робототехнике», — сказал Леррел Пинто, недавно получивший докторскую степень. по специальности робототехника в CMU и этой осенью присоединится к факультету Нью-Йоркского университета. Он и его коллеги обнаружили, что производительность была довольно высокой: роботы, которые использовали звук, успешно классифицируют объекты в 76% случаев.
Результаты были настолько обнадеживающими, добавил он, что может оказаться полезным оснастить будущих роботов инструментальными тростью, позволяющими им нажимать на объекты, которые они хотят идентифицировать.
Исследователи представили свои выводы в прошлом месяце во время виртуальной конференции по робототехнике и системам. Среди других членов команды были Абхинав Гупта, адъюнкт-профессор робототехники, и Дхирадж Ганди, бывший магистрант, ныне научный сотрудник Питтсбургской лаборатории Facebook Artificial Intelligence Research.
Исследователи из Университета Карнеги-Меллона разработали устройство под названием Tilt-Bot для создания набора действий, видео и звука для улучшения восприятия роботов. Объекты помещались в лоток, прикрепленный к руке робота, которая затем произвольно перемещала лоток во время записи видео и звука. Предоставлено: Университет Карнеги-Меллона.
Для выполнения своего исследования исследователи создали большой набор данных, одновременно записывая видео и аудио 60 обычных объектов, таких как игрушечные блоки, ручные инструменты, обувь, яблоки и теннисные мячи, когда они скользили или катились по лотку и врезались в его стенки. , С тех пор они выпустили этот набор данных, каталогизирующий 15 000 взаимодействий, для использования другими исследователями.
Команда зафиксировала эти взаимодействия с помощью экспериментального устройства, которое они назвали Tilt-Bot — квадратного лотка, прикрепленного к руке робота Сойера. Это был эффективный способ создания большого набора данных ; они могли поместить объект в лоток и позволить Сойеру провести несколько часов, перемещая лоток в случайных направлениях с различными уровнями наклона, пока камеры и микрофоны записывали каждое действие.
Они также собирали некоторые данные за пределами лотка, используя Сойера для толкания предметов на поверхность.
Хотя размер этого набора данных беспрецедентен, другие исследователи также изучали, как интеллектуальные агенты могут собирать информацию из звука. Например, Оливер Кремер, доцент кафедры робототехники, руководил исследованием использования звука для оценки количества гранулированных материалов, таких как рис или макароны, путем встряхивания контейнера или оценки потока этих материалов из совка.
Пинто сказал, что польза звука для роботов поэтому неудивительна, хотя он и другие были удивлены тем, насколько полезной он оказался. Они обнаружили, например, что робот может использовать то, что он узнал о звуке одного набора объектов, чтобы делать прогнозы о физических свойствах ранее невидимых объектов.
«Я думаю, что было действительно захватывающе, так это то, что когда он терпел неудачу, он терпел неудачу в том, что вы ожидали от него», — сказал он. Например, робот не мог использовать звук, чтобы отличить красный блок от зеленого. «Но если бы это был другой объект , например, кубик вместо чашки, он мог бы это выяснить».