星期六资讯网 http://www.xingqiliu.cc 原标题:跟郎朗媳妇有一拼的AI,只看奏琴行动,完善复现原声 金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 见地过「听歌识曲」,体验过看弹奏行动识曲吗? 就像最近的一档综艺节目中,郎朗比划了几个弹钢琴的行动,他媳妇(吉娜·爱丽丝)秒答:《柴可夫斯基第一协奏曲》! 来自华盛顿大学的研究团队提出了一种新要领Audeo,就解锁云云神奇的操作——仅仅根据钢琴师弹奏时的行动,就能直接复现原声音乐。 先来体验下这种神奇的感觉。 下面便是钢琴师演奏时的动图,我们能看到的,仅仅就是手指在钢琴键盘上的变换。 然后,你知道这是哪首曲子吗? 大部门人(大概郎朗级别的大神们可以)应该是猜不到的。 但AI可以,下面便是这项技能复现的原声音乐。 那么,这般神奇的操作是怎么实现的呢? 三步实现「看行动识音乐」 简朴来说,Audeo要领主要包括三大步骤,分别是: 钢琴按键检测 天生曲谱内容 合成音乐 钢琴按键检测 这个步骤可以理解为一个多标签(multi一label )分类问题。 输入是弹钢琴视频中5个连续的帧,将它们输入到Video2Roll Net中,颠末ResNet18、特性变换、特性细化(refinement)和相干学习的处置惩罚,末了输出中心帧的按键预测。 值得注意的是,在这个步骤中,研究职员没有直接使用ResNet18,而是在此基础上做了算法改进,提出了Video2Roll Net。 如许做的缘故原由很简朴,就是ResNet18检测到的「精度」不敷过细,下面2张热力图的对比,便一目了然地展示了2种要领的效果。 天生曲谱内容 在第二个步骤中,就需要将 Roll 转换为 Midi(乐器数字接口),以便合成音乐。 但在上步天生出来的 roll ,没措施直接转换成 Midi,一个至关紧张的缘故原由就是—— Roll 不包罗时间信息。 别的,由于 Midi 比力依赖音频流,以是经常出现的一个征象就是:演奏者按一个钢琴键的时间较长时,相应频率的幅度会渐渐衰减为零,也就是在 Midi 中会被标志为零。 像下面这张图中显示的那样,就会造成不匹配的征象。 而且,研究职员表示: 这种不匹配的征象,是经常产生的。 于是,研究职员便提出了一个叫 Roll2Midi Net的要领解决了这个问题。 主要是在二者之间加入了一个天生反抗网络(GAN),来调治并解决上述问题。 合成音乐 末了一步,就是根据调治好的 Midi 来天生音乐,主要历程如下图所示。 将 Midi 作为输入,颠末一个上采样,尔后可以选择通过「Midi 合成器软件」,也可以选择使用「PerfNet+Unet+GriffinLim」的组合方式来天生音乐。 至于 Audeo 要领与其它要领的定量比力,主要集中在第二个焦点步骤。 可以明显看到,研究职员在第二步骤中提出来的 Roll2Midi Net要领,在各项评测指标中,都具有一定上风。 合成音乐还可以转换成别的乐器 固然,Audeo 除了精准复现视频中的钢琴音乐外,另有一个更有意思的玩法。 它可以将钢琴原声,转换成其他乐器的声音。 比方,可以将钢琴音乐转换成吉他的声音。 还可以将钢琴音乐转换成日本十三弦古筝的声音。 这个有趣的玩法,主要得益于「合成音乐」这个步骤,选择的要领差别,得到的结果便差别。 研究团队 这项研究由华盛顿大学的三位研究职员配合完成,研究还入围了本届CVPR。 △从左至右:Kun Su、Xiulong Liu和Eli Shlizerman 论文一作是Kun Su,本科就读于美国纽约州伦斯勒理工大学(RPI),目前在华盛顿大学攻读电子与计算机工程系攻读硕士。 △Kun Su 研究的另一位作者是Xiulong Liu,本科在上交大就读,硕士结业于华盛顿大学,目前在OneClick.ai 担任数据科学家。 △Xiulong Liu 论文末了一位作者是Eli Shlizerman,华盛顿大学应用数学及电子与计算机工程助理教授。 目前专攻生物神经网络和人工神经网络的基本特性,通过联合时空数据分析、呆板学习和动力体系理论的要领将这两个体系接洽起来。 △Eli Shlizerman 那么问题来了,如果以郎朗的手速弹奏钢琴,这个AI的效果还会云云惊艳吗? 论文地址: https://arxiv.org/abs/2006.14348 作者系网易新闻·网易号“各有态度”签约作者 — 完 — 原标题:《跟郎朗媳妇有得一拼的AI,只看奏琴行动,完善复现原声 | CVPR 2020》 阅读原文 ![]() |
![]() 鲜花 |
![]() 握手 |
![]() 雷人 |
![]() 路过 |
![]() 鸡蛋 |
分享
邀请