Робот с четырьмя руками использует интеллект , чтобы сочинять собственную музыку

 Центр музыкальных технологий под руководством Gil Weinberg , имеет репутацию делать невероятные музыкальные вещи с роботами, с сочетанием творчества и технических знаний в области робототехники и искусственного интеллекта. Мы видели такие проекты, как кибернетическая вторая рука для барабанщика , кибернетическая третья рука (!) Для барабанщика , а также ряд интересных исследований о том, как роботы могут динамически сотрудничать с людьми в контексте импровизационной музыки. Это последнее, что обычно представляет собой Шимон, выразительный робот-маримба с четырьмя руками, который может анализировать музыку в реальном времени и импровизировать вместе с людьми-исполнителями .

Это впечатляющее зрелище, но таланты Шимона в основном ограничивались риффами на то, что делали другие люди-музыканты. Теперь Шимон использует глубокое обучение для создания структурированных, последовательных и совершенно уникальных композиций. 

Это самое первое оригинальное музыкальное произведение Шимона, что-то вроде классического и джазового фьюжн:

Учитель Шимона (своего рода) — доктор философии Технологического института Джорджии. студент Мейсон Бретан . Мелодия и гармоническая структура, которые вы слышите, являются результатом начальной мелодии длиной четыре такта, проходящей через нейронную сеть, которая была обучена почти на 5000 полных песнях (включая музыку Бетховена, The Beatles, Леди Гаги, Майлза Дэвиса, и Джон Колтрейн), а также 2 миллиона мотивов, риффов, отрывков и других основополагающих музыкальных элементов.

Во второй части, которую придумал Шимон, Бретан использовал более быструю начальную мелодию, а Шимон придумал нечто совершенно иное, но заметно более живое:

Важно понимать, что Shimon не просто смешивает разные музыкальные фрагменты, на которые он был запрограммирован, или использует какой-то генератор случайной музыки. Особенность того, что здесь делает Шимон, заключается в том, что его глубокая нейронная сеть, по сути, прослушала эти тысячи песен, а ее композиции представляют все, что он узнал из их анализа. Он способен генерировать гармонии и аккорды и фокусируется (как это делают люди) на общей структуре композиции, а не просто на том, какая нота должна идти следующей в существующей последовательности.

Бретан называет это «музыкальной семантикой более высокого уровня». Музыка Шимона — это не то, с чем мы можем отождествляться на данном этапе, потому что мы слышим творческий результат системы глубокого обучения. Вайнберг называет музыку Шимона «красивой, вдохновляющей и странной», и мы должны согласиться: это нечто связное и структурированное, но в то же время совершенно уникальное.

Для получения более подробной информации мы поговорили с Бретаном и профессором Вайнбергом по электронной почте:

IEEE Spectrum : Отражают ли композиции, выбранные вами для демонстрации видео, то, что придумывает Шимон? Или вы выбрали те, которые вышли особенно хорошо?

Гил Вайнберг: Это первые две композиции, которые Шимон написал с помощью глубокого обучения. С нашей стороны нет выбора. Они представляют набор данных, которым Шимон научился, и исходный мотив, которым он питался. Можно представить, что если мы расширим набор данных, включив в него другую музыку, и если мы предоставим различные виды исходных мелодий, музыка, которую создаст Shimon, будет совершенно другой.

Если вы обучили робота только одному типу музыки (скажем, классической музыке или даже классической музыке определенного композитора или школы композиторов), в какой степени сочиняемая им музыка могла быть идентифицирована как имеющая отношение к обучающей выборке?

Вайнберг: Музыка Шимона очень сильно связана с обучающей выборкой, поэтому, если бы в наборе данных был только один композитор, музыку, вероятно, можно было бы легко идентифицировать с этим композитором (или жанром). Есть еще один важный параметр — исходная музыка, которая может привести к значительным вариациям результата.

Почему вы скармливаете Шимону мотивы, риффы, отрывки и другие музыкальные фрагменты, а также целые песни? Как он объединяет эти две вещи?

Мейсон Бретан: Мы хотим, чтобы сеть изучила важные структурные концепции. Если мы нарисуем аналог языка, чтобы кто-то написал рассказ, ему или ей необходимо понять концепцию слов, предложений, абзацев и так далее. В музыке такие вещи, как отрывки, мотивы, отрывки и т. Д., Являются в некоторой степени аналогичными компонентами. Чтобы поощрять изучение этих музыкальных концепций, мы не говорим прямо: «Вот мотив, вот полная песня, вот отрывок». Вместо этого мы обучаем сеть динамически, варьируя длину последовательности, так что иногда сеть должна предсказывать следующую меру, исходя только из предыдущей меры, или иногда с учетом предыдущих 2 мер, или иногда с учетом предыдущих 8 мер, полностью вверх. до 16 мер.

Не могли бы вы дать нам более подробное описание процесса, который Шимон использует для написания оригинальной музыки?

Бретан: Первый (и, возможно, самый важный) шаг — это изучение эффективного числового представления небольшого фрагмента музыки, например, отдельного удара или нескольких долей музыки. Это называется «нейронным внедрением». В языковом моделировании вы, возможно, слышали о «слово в вектор» или «word2vec», которые представляют собой метод для сети для изучения концепций слов, таких как слова «хорошо», «отлично», «приятно» и «замечательно». »- все они семантически похожи. Аналогичный процесс выполняется в этой работе для музыки, так что сеть учится эффективно представлять небольшие музыкальные фрагменты, чтобы похожие фрагменты были сгруппированы ближе друг к другу.

Вторая часть — это моделирование последовательности и прогнозирование этих векторов музыкальных фрагментов. Регулярная нейронная сеть обучается делать прогнозы с учетом предыдущих измерений музыки. Это не совсем тот тип обучения с подкреплением, который обычно используется в робототехнике, когда робот изучает последовательность дискретных действий для решения некоторой проблемы. Вместо этого Шимон предсказывает последовательность чисел в непрерывном пространстве. Скажем, учитывая последовательность «1, 2, 1, 2, 1, 2, 1», сеть обучена предсказывать число «2». Это означает, что во время обучения, чем дальше он находится от числа «2», тем более существенно обновляются параметры. Итак, как только сеть обучена, ей передается семя, чтобы предоставить некоторый контекст, а затем она постоянно делает прогнозы, которые составляют композицию Шимона.

Есть ли у Шимона особый стиль как композитор? Можете ли вы уточнить, чем композиции Шимона отличаются от музыки, которую создают люди?

Вайнберг: Основная идея, лежащая в основе всех наших роботизированных музыкантов, состоит в том, чтобы объединить музыку, которую мы, люди, любим и ценим (с использованием машинного прослушивания и машинного обучения), и новые способы играть и думать о музыке (с использованием алгоритмов, которые люди не могут или не умеют) т использовать). Здесь архитектуры глубокого обучения нацелены на захват музыкальных концепций и паттернов, которые используются людьми. На этапе генерации мы можем поиграть с алгоритмами, чтобы добавить математические перестановки, которые основаны на машинах и могут привести к новой музыке, которая может быть красивой, вдохновляющей и странной.

Есть ли практическое применение этой технике обучения и импровизации помимо музыкальной композиции?

Вайнберг: Мы используем сети LSTM (Long Short Term Memory) и выбор единиц; оба подхода могут использоваться (и использовались) в языковом моделировании и генерации, что может быть эквивалентно «импровизации». 

Над чем ты работаешь дальше?

Вайнберг: Мы начали изучать использование глубокого обучения, чтобы учиться не только на основе символических обозначений, но и на основе человеческого исполнения музыки в наборе данных. Это может позволить роботу узнать не только,  какие ноты играть, но и как их играть, чтобы музыка звучала насыщенно и выразительно (управляя такими параметрами, как микровинхронизация, артикуляция и интонация).

Бретан: Следующие большие вопросы, которые у меня возникают, касаются взаимодействия и того, как развитие более глубокого понимания воплощения влияет на композиционные и перцептивные процессы музыки. У Шимона четыре руки: как это влияет на его интерпретацию музыки по сравнению с человеком с двумя руками и 10 пальцами?

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *