当前位置:首 页 --> 方案设计
VR中的声音听起来体验如何?和传统音频有什么区别?
发布时间:2016/3/9 14:37:00 来源:
首先声明它需要很高的计算密集度(computationally intensive),也需要耗费大量的计算成本,我是烧的是titan,手机盒子啥的就别考虑了……一台顶配PC可以跑50个以上的sound,而一台普通的手机则只能跑2-3个这样的sound,所以它在兼容性上也非常受制约。
先讲一个三自由度的VR声,在cardboard design lab上的一个场景,你看着火,然后触发了猫头鹰很诡异的叫声,因为声音定位得很准,你转过头马上看见了猫头鹰,然后它飞快地逃走了。
再讲六自由度的,我在之前在oculus share上玩的一个游戏。
当黑到一定程度的时候,视觉就失去作用了。这时玩家就需要空间来定位。比如将声源放在3D空间中的某个位置,你会感觉它就在空间中的那个位置,无论你摇晃转动头部都感觉它在那里。
因为你的眼睛没有视觉信号,所以这里的触发也由声音来完成,比如你走过草地的沙沙声,你踩到树枝的咔擦声,都会引来狼,或者惊飞了树上的鸟。
比如的右边传来奇怪的声音,你马上转过头去,向右边走去,这就诱导你:『右边的东西可以交互』
想象你在黑暗中感受整个空间:我们周围发生的事和保证我们的安全。
什么地方响你就转眼转头集中注意力去听那里
我们都知道在VR中,最重要的两个元素一个是(视觉暗示)visual cue,另一个是(听觉暗示)audio cue。
VR在视觉上最重要的三个要素是
—————————————————————————————————————
VR audio的最终目标是形成一个声场。
在这个场中由无数个speaker构成。
你站在中间,听声音从四周传来。你走到左边,哦,那里是小提琴,然后你走到右边,哟,那里是在敲的打鼓……这也许就是未来六自由度VR音乐会的形式。
对于声音的position tracking的感觉,最直接的是『当你向左右转头的时候,你感觉到声音仍然在那个地方。』
6自由度远距离audio
6自由度近距离audio
3自由度远距离audio
3自由度近距离audio
原来的stereo、全局声音也不存在了,在3D Audio中,声音都是来自某个点(声源)。所以3D audio的设计,需要你在用户能够达到的任何地方,它的360度里都要放上发声器……
而各个方向的声音一直存在,相互作用、相互影响,形成环绕的混响回声(convolution reverb)。
因为是一直存在的,所以如果声音听起来感觉不爽(比如声音音量太大,音乐太难听),用户就直接摘掉耳机甚至HMD了。
所以音乐就不是全局的音乐,而是由VR中某个东西播放出来的。
所以,为了替代原来的,比如你要播放背景音乐,就不能是全局的。而要找个东西来播放,比如收音机、唱片……这些实实在在的东西。
传统的5.1声道的使用场景是:你仔细地看着屏幕,一动不动,声音是来自黏在你耳朵上的耳机或者固定在地板天花板上音响。你每次聚焦一个点,而这个焦点是导演安排给你的,就只能听到声源传到那个点的声音。
但是在VR中,你就在屏幕里面,用户可以聚焦在任何地方。
你可以望着这里,并听到相应的声音。
你也可以望着这里,听到因为你的位置变化而产生各种变化的声音。
传统的5.1中也没有center speaker的概念。
如果运用在VR社交中,那么你听到的声音就确实来自于人嘴巴的位置了。
下面重点分享一些demo——
在你的头的四周放上四个emitter
头顶上方可以听到巨大的水流声,感觉自己就在水下。
你感觉到头顶的东西好像有些重量,忍不住弯腰驼背。
这里用了一个低通滤波器(low pass filter)来模仿水下的声音,它的高频很快会在空气中失去活力。
我平常用得比较多的滤波器有:
再复杂的声音都是由简单的Mono组成的,就是所谓的单通道(single channel)。让复杂的声音由mono构成,而不是Area Sources。(比如大瀑布的流水、奔腾的河流、熙攘的人群,这些声音都是Area Sources。)
但是在VR中,每个声音都来自正确位置的声源,你会感到声源是是实实在在存在的。
你会听到大地的轰隆震动声来自它的两只脚,左边的轰隆声来自左脚,右边的轰隆声来自右脚,头顶的龙咆哮来自它的龙口。
(一般来说,物体的声音默认放在它的臀部还有脚接触地面的地方,所以播放的时候有『跨步』的声音和『脚踩大地的声音』)
(你可以看见下图的三个loop)
两个loop,一个在你前面,一个在你后面
所有混音师以前的技能也受到了挑战,你不再是把声音混在一个平面里了,而是把它混在一整个空间里,你可以把声音放在用户的头顶,把声音放在用户的身后,把声音放在用户的脚下……stereo不再适用了,
你可以听到声音来自龙的咆哮。
当然,另外的细节就是在城堡vaode其他地方添加各种细节的声音,你能听到来自四方的风声。
然后还有车子之间相互碰撞的声音。
(转译一段oculus audio SDK中的内容)
但其实也不是所以的sound都需要spatialize的,比如:
先讲一个三自由度的VR声,在cardboard design lab上的一个场景,你看着火,然后触发了猫头鹰很诡异的叫声,因为声音定位得很准,你转过头马上看见了猫头鹰,然后它飞快地逃走了。
再讲六自由度的,我在之前在oculus share上玩的一个游戏。
声音成了可交互的元素游戏叫《Pastoral》,里面很黑很黑。
当黑到一定程度的时候,视觉就失去作用了。这时玩家就需要空间来定位。比如将声源放在3D空间中的某个位置,你会感觉它就在空间中的那个位置,无论你摇晃转动头部都感觉它在那里。
因为你的眼睛没有视觉信号,所以这里的触发也由声音来完成,比如你走过草地的沙沙声,你踩到树枝的咔擦声,都会引来狼,或者惊飞了树上的鸟。
比如的右边传来奇怪的声音,你马上转过头去,向右边走去,这就诱导你:『右边的东西可以交互』
想象你在黑暗中感受整个空间:我们周围发生的事和保证我们的安全。
什么地方响你就转眼转头集中注意力去听那里
我们都知道在VR中,最重要的两个元素一个是(视觉暗示)visual cue,另一个是(听觉暗示)audio cue。
VR在视觉上最重要的三个要素是
- 分辨率(resolution)
- 延迟(latency)
- 和追踪(tracking)
- 方向(direction)声音从什么地方来?最基本的三自由度就会对声音有这个需求。见《人耳是怎么区分前后和上下的?》当我们听声音的时候,总喜欢轻轻调整脑袋和身体,这就是在给audio进行定位。
- 距离(distance)声音离你有多远?带position tracking的六自由度就会产生这个需求。见《声音的距离感是是如何产生的? 》
—————————————————————————————————————
虚拟现实的本质是欺骗,而VR 中的3D audio,目的也是为了欺骗用户,让用户相信『这个声音来自那个空间里的某个特别的音源』。
如果你戴着VR头显,而声音是扁的,感觉耳朵被黏住了,在听觉上你就感觉不到空间感了。VR audio的最终目标是形成一个声场。
在这个场中由无数个speaker构成。
你站在中间,听声音从四周传来。你走到左边,哦,那里是小提琴,然后你走到右边,哟,那里是在敲的打鼓……这也许就是未来六自由度VR音乐会的形式。
对于声音的position tracking的感觉,最直接的是『当你向左右转头的时候,你感觉到声音仍然在那个地方。』
6自由度远距离audio
6自由度近距离audio
3自由度远距离audio
3自由度近距离audio
3D Audio3D Audio你可以理解为来自于各个方向的声音,传统的2D平面的声音只有左右前后,而3D Audio可以来自与后方,也可以来自于你的身体的下方。无论你怎么转头,都感觉声音就在空间中的那个地方,你甚至可以找到它。
原来的stereo、全局声音也不存在了,在3D Audio中,声音都是来自某个点(声源)。所以3D audio的设计,需要你在用户能够达到的任何地方,它的360度里都要放上发声器……
而各个方向的声音一直存在,相互作用、相互影响,形成环绕的混响回声(convolution reverb)。
因为是一直存在的,所以如果声音听起来感觉不爽(比如声音音量太大,音乐太难听),用户就直接摘掉耳机甚至HMD了。
所以音乐就不是全局的音乐,而是由VR中某个东西播放出来的。
所以,为了替代原来的,比如你要播放背景音乐,就不能是全局的。而要找个东西来播放,比如收音机、唱片……这些实实在在的东西。
传统的5.1声道的使用场景是:你仔细地看着屏幕,一动不动,声音是来自黏在你耳朵上的耳机或者固定在地板天花板上音响。你每次聚焦一个点,而这个焦点是导演安排给你的,就只能听到声源传到那个点的声音。
但是在VR中,你就在屏幕里面,用户可以聚焦在任何地方。
你可以望着这里,并听到相应的声音。
你也可以望着这里,听到因为你的位置变化而产生各种变化的声音。
传统的5.1中也没有center speaker的概念。
如果运用在VR社交中,那么你听到的声音就确实来自于人嘴巴的位置了。
下面重点分享一些demo——
房间demo你会听到有排气扇(vent)的声音,然后你抬起头,『哇,原来声音来自那个排气扇』。你听到电视机的声音,转过头去,『哇,声音是电视机发出来的』
潜水艇demo比如这个潜水艇,可以听到周围的机器声音,每个机器都发出奇怪的声音。外围是巨大的水声,头顶则是水管运输水的声音。
在你的头的四周放上四个emitter
头顶上方可以听到巨大的水流声,感觉自己就在水下。
你感觉到头顶的东西好像有些重量,忍不住弯腰驼背。
这里用了一个低通滤波器(low pass filter)来模仿水下的声音,它的高频很快会在空气中失去活力。
我平常用得比较多的滤波器有:
- 滤波(filtering)
- 均衡(equalization)
- 失真(distortion)
- 镶边(flanging)
再复杂的声音都是由简单的Mono组成的,就是所谓的单通道(single channel)。让复杂的声音由mono构成,而不是Area Sources。(比如大瀑布的流水、奔腾的河流、熙攘的人群,这些声音都是Area Sources。)
霸王龙demo在传统的立体声中,我们把audio放在root里。你只能听到声音来自那头龙,但是都是在一个平面上。
但是在VR中,每个声音都来自正确位置的声源,你会感到声源是是实实在在存在的。
你会听到大地的轰隆震动声来自它的两只脚,左边的轰隆声来自左脚,右边的轰隆声来自右脚,头顶的龙咆哮来自它的龙口。
(一般来说,物体的声音默认放在它的臀部还有脚接触地面的地方,所以播放的时候有『跨步』的声音和『脚踩大地的声音』)
恐高demo当你在这样一个VR空间里的时候你会感觉到一阵恐高的眩晕感(vertigo),如果这时还听见下方剧烈的风咆哮的话。
(你可以看见下图的三个loop)
两个loop,一个在你前面,一个在你后面
龙吼demo在VR里所有的声音资源都是mono的。如果是普通的2D声音的话,你就感觉耳机像是被粘在自己耳朵上一样。
所有混音师以前的技能也受到了挑战,你不再是把声音混在一个平面里了,而是把它混在一整个空间里,你可以把声音放在用户的头顶,把声音放在用户的身后,把声音放在用户的脚下……stereo不再适用了,
你可以听到声音来自龙的咆哮。
当然,另外的细节就是在城堡vaode其他地方添加各种细节的声音,你能听到来自四方的风声。
矿井demo当你经过这个矿洞的时候,你的背后传来仔ZZZ的声音,于是你回头看到了灯笼。这个过程相当于你的视觉反馈了你的听觉暗示。
然后还有车子之间相互碰撞的声音。
(转译一段oculus audio SDK中的内容)
声音穿过空间的时候,会在表面形成反射,造成了一系列的回声。早期反射(Early Reflections)可以帮助我们定位。然后回声不断地传播(propagate)、削弱(diminish)、和其它物体交互,而造成了晚期回响尾声(late reverberation tail)。补充一点,关于画外音(voiceover)
鞋盒房间(shoebox room)就是利用前面说的Initial Time Delay用来模仿回声,它是一个简化的环境几何学(environment's geometry),它是一种非常理想的情况,不考虑遮挡,而且假定每个表面的对频率的吸收相等。因为盒子是六面体,它的六个面都有回声,所以用户会产生处在一个room中从而产生空间感。就拿国际象棋来说,你站在局外玩,Presence和Immersion的感觉远远不如身处其中玩。一个是身处局外的outside scene,一个是身处其中的inside Scene……我不由想起小说中常听到的『局外人』,那些游离于生活之外的人们。
但其实也不是所以的sound都需要spatialize的,比如:
- 全局的界面元素:按钮、转场、暗示和一些其他控件。
- 一些页面的解说(Narration)
- 你所扮演的avatar,它的心跳、它喝水吃饭的声音
|
||||||
|
||||||