В последние годы исследователи разработали все большее количество вычислительных методов, позволяющих реализовать у роботов человеческие способности. Однако большинство разработанных к настоящему времени техник просто сосредоточены на искусственном воспроизведении органов зрения и осязания, не обращая внимания на другие чувства, такие как слуховое восприятие.
Группа исследователей из Университета Карнеги-Меллона (CMU) недавно провела исследование, изучающее возможность использования звука для разработки роботов с более продвинутыми возможностями восприятия. В их статье, опубликованной в журнале Robotics: Science and Systems , представлен самый большой собранный на сегодняшний день набор данных «звук-действие-видение», который был собран в виде роботизированной платформы под названием Tilt-Bot и взаимодействовал с широким спектром объектов.
«В обучении роботов мы часто используем только визуальные данные для восприятия, но у людей больше сенсорных возможностей, чем просто зрение», — сказал TechXplore Леррел Пинто, один из исследователей, проводивших исследование. «Звук является ключевым компонентом обучения и понимания нашей физической среды. Итак, мы задали вопрос: что звук может купить нам в робототехнике? Чтобы ответить на этот вопрос, мы создали Tilt-Bot, робота, который может взаимодействовать с объектами и собирать крупномасштабный аудиовизуальный набор данных взаимодействий ».
По сути, Tilt-Bot — это роботизированный лоток, который наклоняет предметы, пока они не коснутся одной из стенок лотка. Пинто и его коллеги разместили контактные микрофоны на стенках роботизированного лотка, чтобы записывать звуки, издаваемые при ударе объектов о стену, и использовали камеру над головой, чтобы визуально фиксировать движения каждого объекта .
Исследователи собрали как визуальные, так и аудиоданные для более чем 15 000 взаимодействий Tilt-Bot с 60 различными объектами. Это позволило им составить новый набор данных изображений и аудиоданных, который может помочь обучить роботов создавать ассоциации между действиями, изображениями и звуками.
В своей статье Пинто и его коллеги использовали этот набор данных для изучения взаимосвязи между звуком и действием в робототехнических приложениях и собрали ряд интересных результатов. Во-первых, они обнаружили, что анализ звукозаписей движущихся объектов и ударов по поверхности может позволить машинам различать разные объекты, например различать металлическую отвертку и металлический гаечный ключ.
«Одним из захватывающих предварительных результатов нашего исследования было то, что только по звуку можно распознать тип объекта с точностью почти 80%», — пояснил Пинто. «Мы также показали, что машина может изучать аудио-представления объектов, которые впоследствии могут помочь в решении роботизированных задач. Например, при распознавании звука пустого бокала для вина робот может понять, что для манипулирования им потребуются действия, отличные от тех, которые он будет работать при обращении с полным бокалом вина «.
Интересно, что Пинто и его коллеги показали, что звукозаписи иногда могут предоставить более ценную информацию, чем визуальные представления, для решения задач робототехники, поскольку их также можно использовать для эффективного прогнозирования будущих движений объекта. В серии экспериментов с использованием объектов, с которыми робот не сталкивался во время обучения, они обнаружили, что аудио-вложения, собранные во время взаимодействия их робота с этими объектами, могут предсказывать прямые модели (то есть, как лучше всего манипулировать объектом в будущем) на 24% лучше. чем пассивные визуальные вложения.
Набор данных, собранный этой командой исследователей, может в конечном итоге помочь в разработке роботов, которые могут выбирать свои действия и стратегии манипулирования объектами на основе как аудиозаписей, так и изображений, собранных в их окрестностях. Пинто и его коллеги сейчас планируют дальнейшие исследования по изучению возможностей анализа звука для создания роботов с более продвинутыми возможностями.
«Эта работа — только первый шаг к целостной интеграции звука в робототехнику», — сказал Пинто. «В нашей будущей работе мы будем искать более практические применения звука и действия».