MIT计算机科学和人工智能实验室的研究人员开发了一款视觉指示声音AI系统(Vis),可以“观看”无声的视频并且生成一段声音,效果逼真,以至于多数观众无法分辨出这些声音是否是计算机生成的。研究人员称他们的深度学习算法是第一个通过“声音图灵测试”的,生成的声音能以假乱真。Vis能对棍子击打、刮擦或者捅一系列物体时发出的声音进行分析。 MIT团队“训练”Vis的方法是,向其输入包含4.6万种声音的1000段视频,这些声音是鼓槌在不同坚实度的物体上敲打或划过而产生的。之后,帮计算机在大量数据中找到模式的深度学习算法对这些声音进行解构。为了从无声视频片断中预测一种新声音,Vis会查看最可能与每个视频画面相关的音频属性,并把这些音频串在一起编辑成连贯的声音。

7 收藏


直接登录

推荐关注