腾讯听听音箱到底怎么样?

发布时间:2018-05-17 13:38

——腾讯听听用起来到底怎么样?值不值得买?腾讯听听的产品策划亲自为大家答疑解惑。


腾讯听听在立项时就意识到同类产品的同质化以及低价的竞争,因此早期就决定采取差异化的方式设计产品。


差异化的点有几块,一个是内容,一个是带锂电池,另外一个便是目前得到大家好评,并被解读为“音质好”的音乐体验


我们设计时之所以强调的是的“音乐体验”,而不是用户直接感受到的“音质“,是因为产品最终提供给大家的是一种服务带来的体验。而“音质”虽然非常重要,但仍只是这个服务体系中的一个要素。我们想提供的是一套完整的服务,只有服务中的所有要素都满足,才会有更好的体验。


我们把一个完整的音乐体验流程分为三个环节:听音乐前,听音乐中,听音乐后,每一个环节都有我们的打磨和思考。


一、 听音乐前的体验

首先是产品给人的整体感觉认识。

作为一个音乐的载体,音箱是一个实物,这个具象的产品会带来一部分音乐属性的感知。这种属性可以通过一些元素来把握:

  • 视觉上的:外包装风格、产品ID、颜色、灯光等;

  • 触感质感上的:材质、重量等;


不同用户群体的音乐爱好以及适合他们的的属性特征是不一样的。经过综合考虑,我们最终选择了简约的ID风格:通过材质、工艺、灯光等多个维度去打磨营造出我们想要的那种可以很自然的与家居环境融合,却又不失较为专业的音乐属性。


其次是破冰,用户开口之前的引导和推荐。


语音交互是一种新的交互方式,不同于之前基于纯视觉的音乐类APP引导和推荐,使用场景是脱离APP通过语音的方式进行。再加上中国的文化比较内敛,不同于欧美人喜欢直接的语言表达,很多人开口说话的意愿没那么高。因此如何破冰,引导用户快速的用起来,感受到音箱准确、快速的反馈非常重要。


很早期的时候我们一度认为APP只是一个过渡,只是用来配置网络的工具,因此比较弱化APP的作用。但经过测试后发现,在这种新的交互方式下,用户面对一个“黑盒子“的时候,对于可以做什么比较茫然,还是需要图文式的、比较直接的介绍和推荐,让用户明确知道有哪些技能,可以做什么,怎么说。


因此我们重新强化了APP的地位。当通过APP点击之后,听听音箱能立马播放出音乐,这样就极大地消除了用户的不安全感和激发大家的探索欲望。

除了常规的APP图文式引导之外,我们还进行了很多基于语音交互式的引导设计。


比如主动告知用户有哪些播放音乐的方式,播放音乐时可以进行哪些操作等等。


再就是通过传统的卡片式说明书,给出最直接的介绍说明,也作为最后一道心理安全保障,指引大家操作,消除大家的不安全感。另外还要考虑到老年人可能视力不够好,因此特意将字体调大一点,方便他们进行阅读。

再就是,同一个意思不同的表达,我们如何支持。


当你想播放一首歌曲、一类型音乐,或者想随便听点什么的时候,你可能会说“我要听……”“给我放一首……”“来点……”,同一个意思可能会有不同的表达。但如果你们的说法没法得到正确识别和反馈,那么整个体验就中止了。


因此对不同表达的支持需要重点攻克。当然这块非常难,也是团队一直在努力打磨的地方,因为这里涉及到除了基础的语音识别、理解之外,就是用户表述音乐的各种维度。比如按照曲风来划分的:流行,古典,民谣,电子…;按照语言来划分的:华语,英文,日韩…;按照歌手来划分的:刘德华,周杰伦,王菲…;按照音乐元素来划分的:吉他、钢琴、其它器乐等… 这是一个工作量很大且需要持续运营的工作。


除了在需要正确识别这些意图之外,后端还需要和QQ音乐相对应的标签对应起来。如果QQ音乐没有对应的标签列表,那么为了更好的用户体验,听听音箱团队就自己去做运营和维护。


二、听音乐中的体验

在听音乐中影响用户体验的主要是通过声音传给大家的听觉感受(音质)和期间的交互。


先说音质

一个音箱的音质表现,主要由以下几个元素组成:硬件的设计,结构的设计和材料,EQ算法,播放的内容源。


  • 硬件选型

硬件选型主要是喇叭扬声器以及PA等关键器件。选择喇叭时需要考虑的因素有:

1, 根据听音的环境来选择。根据中国主要的城市家庭空间环境大小,我们把最高声压设立为100dB左右,这个基本达到了一个比较好的音质保真需求。考虑到100dB的声压声音会很大,某些场景下可能会对用户(儿童、老人)造成不适,我们后期又通过软件根据环境进行智能限制最高声压大小。


2, 根据产品空间来进行选型。产品空间的大小,直接决定了声学系统的空间、喇叭的尺寸,而喇叭尺寸大小直接决定了其低频的表现能力。大尺寸的低音扬声器的低频出得自然顺畅,气定神闲,小尺寸的低频受到物理限制,很难做出质感。因此在空间和价格允许的前提下,我们尽量选择大尺寸的喇叭。

3, 根据产品声音品质和特质定位来进行选型。声音品质和特质主要是指高中低音,以及声场的表现。在智能音箱的体积限制下,目前采用二分频或三分频设计还不太现实,因此多数智能音箱只采用1个全频喇叭,顶多再加一个提升低频的被动振膜。而听听音箱为了达到更好的效果,最后我们选择了双大尺寸全频喇叭,加双大尺寸被动振膜的设计。


4, 除此之外,还要考虑到成本预算。根据产品的成本预算是每个产品都离不开的条件,在成本和效果的最终平衡下,需要对成本或者效果做取舍。


  • 声学结构和材料


常见的声学结构有密闭式腔体、倒相式腔体、被动振膜等。密闭箱相对失真较小,声音干净清晰,具有质感,不过不利于散热;倒相式箱体低频效率高一些,相对成本也低,设计简单,但是倒相管需要较大的体积,不适合在小体积箱体上使用。


考虑到尺寸、低频量感、散热等因素后,腾讯听听选择了对称式的双喇叭双被动振膜结构。这里不仅解决了音质的表现,还照顾到了对麦克风拾音的影响。喇叭在推动空气的时候可能对音箱本身产生推力,造成音箱的震动,进而影响音箱的表现,更重要的是影响麦克风的拾音。而双对称式的设计可以充分抵消喇叭在各个方向上的能量,很好地解决了这个问题。

与结构相关的还有腔体外部的网罩与网布。


网罩: 除了要考虑到开孔率(要达到40%以上,否则影响高音部分效果)和强度(对音腔的整体保护性),还有要注意开孔的形状以及整体设计要和外面的网布匹配起来,保证包布之后不会有凹陷以及影响手感。


网布:前面提到我们这一块网布是从一千多种布样中挑选出来的,是因为这一块布料其实包含很多科技元素在里面,涉及到材料与编制工艺,比如Google采用的是一种类似内衣面料改进的,属于针织的工艺;而B&O、Vifa等采用的是羊毛混纺材料,使用的是梭织的工艺。


而不论采用何种材料工艺,最终呈现出的面料必须通过声学测试,网布透声率(透气,声音就是气流)要高,否则对高音部分影响明显。Google和B&O的两种做法都有一条接缝,我们为了呈现一种一体化的视觉效果,采用了筒状的针织布料,通过工艺处理后,使得产品更加的简约美观。


  • 声学算法

与硬件结构相互匹配的,需要声学算法(音效算法)来将硬件性能发挥到最优,这里面的主要的算法供应商有很多,主要是要实现以下几个效果:多段的EQ、虚拟低音补偿,等响补偿,立体声&声场增,以及动态的喇叭音圈位移控制(防止喇叭振膜位移过大造成打网)等。


除了实现这些效果之外,智能音箱还有一个问题需要考虑,音量均衡。由于智能音箱背后会承载各个渠道来源的内容,比如音乐,相声,有声书,新闻,儿童读物,自身的TTS等等,在切换内容时每个渠道原有内容默认的音量大小不一致给用户带来的冲击是很不舒服的。


这里一方面我们要尽量的去控制内容源的品质稳定性,另外一方面就需要运用到音量均衡的技术。简单的说就是对内容源进行动态预测,预感接下来音量突然增幅大的地方稍微往下拉一点,跌幅大的地方往上抬一点,在不影响内容质量的前提下,保证用户的耳朵不会受到忽大忽小声音的冲击。


  • 独创的动态EQ

在做到以上的几点之后,音箱应该可以呈现出一个还不错的效果,但这些是每一家都能做的。而我们想在这里做出差异化,事实上我们确实也做到了,并且申请了相关的专利。


传统的音箱包在播放音乐时,只会有一种默认的EQ(可以理解为一种EQ就是某一种声音的风格,对比天天P图的话就是一种EQ对应一个特效),不论你播放何种类型的歌曲,它都以这一种特效进行处理和表现。如果简单的理解,从小体积音箱来看,B&O北欧风格音色清丽,音染少,高中低音均衡,分离度音场层次适中,适合听清澈的人声、流行类音乐;Bose是典型的美式风格,音染重,偏向中低音,低音强,但牺牲中高音,适合听摇滚、R&B。


前面也提到作为一个智能音箱,背后承载着很多类型的内容,且作为一个放置在家庭中使用的产品,面对的是一个家庭的成员,大家对于内容类型的需求是不一样的。父母喜欢戏曲,年轻人喜欢流行,小孩需要听儿歌,如果音箱是一个固定的音色表现,在表达不同内容时会表现较差。比如用类似Bose的音色去播放儿童歌曲或者故事的时候,就会显得声音不是很清晰和透亮,比较浊。


面对这种情况,我们采取了动态EQ的做法,前期根据不同类型的音乐以及内容源我们根据音箱的硬件表现进行了多个EQ的调校,在用户播放音乐时,我们对将要播放的音乐类型进行检测,之后动态的调取事先调校好的EQ比如播放流行歌曲,就加载适合流行的EQ。下一首如果你点了钢琴曲,系统又自动加载适合钢琴的EQ,这样便可以让每一首音乐都有最好的表现。这样一个小小的创新,在实际的表现效果上来看是非常不错的。


总结一下听听音箱跟同类产品在听音体验上的优势,大概就是下面这样:



  • 再说说播放音乐中的交互


在听音乐的不同场景下,用户除了聆听,还会有各种各样的感受和需求,不同于视觉展示与交互,通过语音交互方式进行时,我们决定对不同类型的需求做不一样的处理。


对于播放、暂停、听下、快进、下一首、上一首等控制类的需求,我们不仅要在语音说法上满足支持以达到正确识别,更要追求响应速度,不需要过多的TTS交互,部分还需要针对性的进行重点语料训练,并优化系统链路,保证这种指令的快速响应;


对于收藏、添加到歌单、这首歌叫什么、歌手是谁、延时停止等一类的功能性的需求,我们要将用户在交互中的情感感受放在优先级较高的位置,并需要语音上的反馈操作结果,这里我们也仔细打磨了TTS的交互。


三、听音乐后的体验

听音乐之后的体验不是直接在这个过程中被感知的,而是通过前两个过程来体现。


比如记录并分析用户听了哪些类型的歌曲,在用户下一次播放时进行个性化的推荐,这是比较常规的做法。但是音箱放在家庭中心时,使用人员可能会有很多,在这种情况下,如果只依靠现有的推荐算法模式,很可能出现以下情况:

你家里有一个音箱,父母经常拿来听戏曲,孩子经常拿来听儿歌,当你想随便听点什么时候,音箱可能就会给你播放黄梅戏或者拔萝卜之类。


为了避免以上的问题,我们正在尝试通过声纹识别的方式进行不同身份的识别,进而将听歌习惯等数据根据不同的身份进行绑定。这样在下一次播放音乐时就可以根据当前用户进行智能化的推荐,让每个家庭成员都有自己的独享音乐空间。

powered by 励志天下 © 2017 WwW.lizhi123.net