中国是全球玩具生产大国,世界玩具产品总量的80%以上都是在中国制造。不过,有数据显示2005年中国出口传统玩具的增幅微弱,尤其是科技含量较低的毛绒、塑料等类型的玩具,由于利润空间小、受欢迎程度低,已经很难在市场上占据更多的份额。
很长一段时间内,玩具产品将保持两大发展趋势:一是益智、创新的玩具,包括电子、机械类玩具;另一方面,智能玩具方兴未艾,智能化、人性化并具备图文识别、语音识别、传感器等技术的产品会大受欢迎。信息产业部在《2006年电子信息产业发展基金项目指南》中,将“多媒体益智娱乐产品”作为一项国家支持的产业化项目,也说明了玩具产品的市场动向。
将人工智能引入玩具产品设计,使玩具具有人机交互的能力;而通过互联网技术,在线可更新的剧本使得创意保持一定的新鲜感,并可根据用户的需求进行定制。这种全新的玩具设计方案将会是玩具业在技术上的又一次飞跃,使得寓教于乐成为可能。
北京凌声芯语音科技有限公司根据当前玩具产品的业界动向,针对传统玩具和语音科技、娱乐元素和益智教育、传统玩具和互联网这三方面,结合设计开发了新型的智能玩具开发系统。该系统在硬件上基于清华大学和英飞凌公司共同设计开发的低成本、低功耗语音处理专用芯片UniLite(凌声芯公司在UniLite上实现了低码率、高品质的语音编解码算法,特定人/非特定人语音识别算法)。
此外为实现智能玩具的剧本创意,我们还设计了剧本转换软件ITADL,可以将不同创意的剧本快捷方便地转换成映射文件下载到硬件中去。凌声芯公司在智能玩具领域,能够从底层的硬件结构、语音处理算法和顶层的玩具开发系统提供技术支持,具体结构如图1所示。
UniLite芯片简介
UniLite是一款用于语音处理的专用芯片,芯片采用高集成度的SoC系统结构以0.18um半导体工艺制造,以16位定点DSP(104MIPS)为核心,片内集成了直接双访问快速SRAM、ADC/DAC(有效精度为12位)、多种通信接口和通用GPIO等设备,外部只需扩展闪存、电源芯片、启动芯片等少量芯片即可构成完整的系统应用。UniLite芯片使用TQFP6?封装,同时采用了低功耗设计技术,非常适合应用到采用干电池/锂电池供电的移动设备中。使用UniLite芯片构成智能玩具中的语音处理系统,只需要增加很少的外围器件,不再需要增加编解码器,可以有效的减少产品成本。
语音识别技术
语音是人类最自然、最方便的交互形式,如果玩具能够听懂人说的话,那么人和玩具之间就能够产生很丰富的交流,这样的玩具更能够吸引人的注意力,赢得用户的欢迎。凌声芯公司推出的智能玩具设计方案采用语音技术实现人机交互。
目前市场上已有一些具有语音识别功能的玩具,鉴于成本原因,大都采用特定人语音识别技术,识别词条少、更新词表需要再训练,使用很不方便。而凌声芯公司的智能玩具开发系统采用基于子词的非特定人语音识别算法。该算法的主要优点在于:
1. 统性能稳定,在较大规模识别任务下系统具有较高识别率,而且在噪声环境下仍能保持较高的识别率。
2. 特别适合中文普通话的识别任务,为当前语音识别的主流技术,其使用者可以是男性、女性,不同的年龄层次,甚至带有地方口音的普通话都可以很好地识别出来。
3. 模型参数的规模不随识别任务的变化而变化,可通过音素拼接的方式得到识别词表中各词条的识别模板。
4. 目前的硬件处理能力已经可以达到识别200词条语音命令,并在200词以内都能够达到很高的识别率。
5. 修改识别任务时不需要任何训练,只要将识别词条以GB2312/GBK(包含繁体)/Unicode/汉语拼音等任意的形式下载到硬件中去,即可进行识别。
图1:凌声芯公司提供智能玩具开发技术支持
统计不同规模词表识别任务下的识别率,如表1所示。
表1:不同词表规模下系统的识别性能
在200词以内,其识别率都达到了98%以上,而且识别的速度非常快,200词识别集系统的响应时间是0.086倍实时,即一句话说完之后,只需要花费讲这句话的时间的0.086倍就可以得到识别结果,使用时几乎感觉不到等待时间。
这种基于子词的非特定人语音识别技术为智能玩具实现复杂功能、保持识别性能、网络下载等提供了可靠的技术保证。
剧本创意实现
在硬件系统和嵌入式语音技术的基础上,凌声芯提供了ITDAL玩具开发系统,该系统包括脚本编写、脚本编译、脚本仿真、脚本执行几个过程。ITDAL软件可以方便快捷地实现一个玩具剧本,将文本形式的剧本创意实现并下载到硬件中。这里的剧本内容可以包括文化、历史、地理知识;可以包括童话、儿歌、唐诗宋词等等。
图2给出了一个智能玩具剧本的实例。
图2:智能玩具的剧本实例
玩具根据剧本的要求可以先提出一个问题:“你好,问你一个问题,请问道家学派的创始人是老子还是孔子?”。剧本的设计者必须将用户所有可能的回答事先考虑到,并且对应每个回答设计玩具的进一步应答,例如在上面提到的剧本中,用户可能的回答除了包括“孔子”、“老子”这两个回答外,另外可能的答案包括“曾子/孟子/不会/我不会/不知道/我不知道/我不明白/不玩了/再见”等其它答案。玩具根据用户的回答,做出回应。
目前该系统支持的剧本是玩具主导整个流程,还不能够支持由用户发问的形式,因为考虑到嵌入式芯片的运算能力,还不能支持开放集合的语音识别,只能支持到有限集合的语音识别。对于上面提到的语音识别剧本实例,用户可能的回答形成的整个集合作为识别集。如果用户作出的回答不在事先设定的集合内,系统就会将用户的回答误识别成集合内的某个词,因此在剧本设计时,对每个问题的识别集,需要考虑用户所有可能的回答。
智能玩具开发系统
在凌声芯的智能玩具系统中,玩具的提问和玩具的应答采用的是语音压缩编解码技术,用户回答玩具的提问后使用的是非特定人语音识别技术。这样的三个步骤在ITDAL中看作一个剧本节点,一个完整的剧本包括多个这样的剧本节点。ITDAL将剧本节点中的玩具提示音、用户可能的回答集合、对于每个回答的应答进行重新脚本释义,并经过编译仿真,即可生成最终的映射文件下载到玩具中。
该系统在硬件上还实现了从PC机的下载功能,可以实现“数据库网站”到玩具终端的剧本更新,大大地提高了玩具的新颖性,同时在娱乐性的基础上增加教育益智的功能。
图3是智能玩具开发系统的剧本创意到下载的流程示意图。
图3:智能玩具开发系统流程图
对于一个设计好的剧本创意,根据其内容,录制玩具的发音(提示音),同时准备识别词表。然后在PC机上根据ITDAL系统将剧本进行编辑处理,结合提示音文件生成最终的映射文件。将准备好的映射文件通过USB口下载到玩具终端,剧本的实现工作就完成了。
对于这样一个可以提供剧本下载更新的玩具,推出市场的同时需要提供一个数据库网站的支持,该网站提供各种玩具创意的映射文件下载,用户购买一个玩具之后,如果对其创意感到厌倦,就可以到网站下载新的创意,保持玩具持续的新鲜感。此外,用户还可以根据自身需要在网站上定制自己的个性化玩具。
|
||||||
|
||||||