(图片来源:CC0 Public Domain)
滚石乐队用他们80年代的热门歌曲“It's Only Rock'n Roll”总结了流行音乐。
但是,硅谷的科学家发现,让机器学习创造音乐和歌词并不简单。
OpenAI这周宣布他们创建了一个名为Jukebox的开源系统,能编写独特的旋律和和声,并能使用多种不同音乐流派不同流行乐手的风格创作歌词和发声演唱。
结果不尽如人意,但是仍让人印象深刻。有时JukeBox能演奏让人信服的歌曲,模仿滚石以吉他为中心的高昂音乐风格,Ella Fitzgerald的黄金嗓音,Elton John 的音调,还有几乎完全准确的Rod Stewart的沙哑嗓音。
但是Elvis Presley的风格中却产生了非常明显的奇怪混音,叫“Mitosis”,其中一句“From dust we came with humble start; From dirt to lipid to cell to heart. With [mitosis] with [meiosis] with time; At last we woke up with a mind.”还有,以著名的Chuck Berry风格演唱歌曲“Merry Christmas Baby”可能会吓到小孩子。
坦率地说,还有很多工作需要做。正如来自TechCrunch的Devin Coldewey所描述的那样,Jukebox的一些作品听起来像是“还不错,但像是醉酒的演唱,像是在一片毒品烟雾中听到的卡拉OK音”。
尽管如此,该项目仍是AI音乐创作领域中重要且值得称赞的一步。
为了训练AI创作歌曲,OpenAI建立了含有120万首歌的庞大数据库。
“我们证明了我们的模型能创造多种音乐类型的歌曲,像是摇滚、嘻哈,还有爵士。”OpenAI在他们博客上发表的一份报告中提到,“它们可以捕捉旋律、节奏,远程作曲和生成多种不同乐器的音色,还能附带生成对应乐手的声音和风格。”
电脑程序已经参与音乐创作几十年了。PG音乐公司的软件“盒子里的音乐(Band in A Box)”是最令人印象深刻的作品之一,使用者可以输入和弦,用它以十几种音乐风格中任一种创作独特的旋律和多声部的和声。在2018年,谷歌推出了Musical Transformer,能创作容易被记住的热门歌曲。OpenAI去年推出了MuseNet,能创作独特的旋律,但是不能写歌词。
Jukebox似乎是第一个能同时创作歌词和加入人声的电脑程序。
该程序的技术说明能在线获取。一个关键问题是程序需要处理大量的音乐数据,OpenAI表示,以CD质量(44 kHz, 16-bit)播放一首常见的4分钟的歌曲有超过1000万的时间步长。自动编码器将压缩数据,删除不相关的信息并将结果返回到程序中。就算使用这种压缩方式,渲染一分钟的音频仍需要大约9个小时。
之后一定会有改进的程序。OpenAI指出了程序目前的局限性:“虽然Jukebox代表了向音乐质量、相关性、音频长度,以及对音乐家、音乐流派还有歌词适应性上的前进,但是在这些程序产生的音乐和人为创造的音乐之间仍存在巨大差距。”
比如,Jukebox不能编写更大的音乐主题比如说合唱和重复语句。
OpenAI是在旧金山的一家实验室。他们表示他们的任务是“保证人工智能使全人类受益”。
作者:Peter Grad
翻译:王嘉钰
审校:郝豪
引进来源:Tech Xplore