
美国麻省理工学院的科研人员开发出一套人工智能系统,能够分辨出音乐中不同乐器发出的声音,并单独调音。

人们可以借助均衡器对歌曲旋律中的低音进行调节,但麻省理工学院计算机科学与人工智能实验室(Computer Science and Artificial Intelligence Lab,CSAIL)的科研人员带来了更好的解决方案。他们的PixelPlayer系统使用人工智能来分辨同一段音乐中不同乐器的声音,然后对不同声音进行调整,让音乐听起来更洪亮或更柔和。
如果使用音视频作为输入数据,经过充分训练的PixelPlayer系统会分离伴音音频并识别声音来源,然后计算图像中每个像素的音量并对其进行“空间定位”,即识别视频片段中生成类似声波的部分。科研人员将在2018年9月的欧洲计算机视觉会议上发表该研究成果。
“我们预期的最好情况是,可以识别出哪些乐器会发出哪类声音,”CSAIL博士赵航(音)说道:“我们对自己能够实际上在像素级别对乐器进行空间定位感到惊讶。能够做到这一点增加了很多可能性,例如只需点击视频即可编辑各个乐器的音轨音频。”
PixelPlayer的核心是基于乐器组合多模态来源(Multimod