探索语音合成及识别技术在数字电视新媒体领域的运用

以江苏有线云媒体电视“电视阅读”业务为例

　　摘要：在“三网融合”背景下，有线数字电视新媒体业务正蓬勃发展，新业务的拓展及新的用户体验需求催生语音技术的运用。本文以江苏有线云媒体电视“电视阅读”业务为例，重点介绍语音技术相关概念及在数字机顶盒终端的应用探索。

　　关键词：语音技术电视阅读有线数字电视三网融合

1、背景

　　已故苹果公司创始人乔布斯早在1983年的美国一场国际设计研讨会的演讲提到了涉及到语音识别功能。他说，要识别一种语言比识别声音更难，因为语言是上下连贯的，“这玩意儿很难”。当时他做梦都没能预想到现今苹果产品中Siri这么智能的语音识别系统。可以说时至今日，以苹果Iphone为代表的移动电话语音技术应用已经相当成熟。苹果的Siri就使用了Nuance的相关技术，Nuance是一家在语音识别领域有着深厚积累的公司。去年起有消息显示Nuance正在同芯片制造商合作，试图让手机在休眠状态也能听到语音指令并做出相应的反应；而且Nuance目前积极拓展汽车行业，将语音技术普及到中低端汽车中。

　　随着现在汽车工业的飞速发展，人们对车载语音技术的应用需求也越来越多，如GPS导航、车载电话、移动办公等智能化、人性化的车载语音技术应用。以车载阅读为例，随着无线互联网和办公自动化的日益普及，越来越多的信息（如书报刊、OFFICE文档、Email等）正以数字文字的形式存在，但受车载环境的限制，用眼睛来阅读文字信息无论对司机和乘客都存在极大不便，目前高端汽车已着手将语音合成技术用于车载音响系统，就可让汽车音响不仅能听广播和CD，还能够让用户自主选择收听的各种文字信息，甚至可以通过麦克风输入用声音进行人机交互。

　　相比前两者而言，基于有线数字电视机顶盒的新媒体语音技术应用还刚起步。当前，我国的“三网融合”正向广度深度发展，正逐步推进广电、通信和互联网的资源有效整合，这给广电行业带来新的发展机遇。特别是有线电视网络传播的信息多媒体化，用户基于电视机顶盒端的家庭娱乐、语言学习应用、生活类服务等需求也不断增加，“电视阅读”就是其中一个典型；另外，基于有线数字电视机顶盒端的功能应用也多样化，如可视通话VOIP业务、有线通WIFI应用等。所有这些，使得传统电视遥控器的操作方式、节目搜索模式和输入方式难以应对，需要更具人性化的交互手段，其中“电视阅读”相关的语音控制技术就不失为一个好的解决方法。

（江苏有线云媒体电视菜单示意图）

2语音技术概述

　　提到语音控制技术，我们有必要对此领域先有个概要了解。语音技术在计算机领域中的关键技术有自动语音识别技术（ASR）和语音合成技术（TTS）。近代语音技术是随着计算机技术和数字信号处理技术的发展而发展起来的，让计算机（机器人）能像人类一样听、看、说、感觉，一直是业界设想的未来人机交互的发展方向，其中语音是最被看好的人机交互方式。

　　计算机能听懂人类的语言就要用到语音识别技术，但由于人类语音存在多意性、复杂性及随意性等特点，所以语音识别的技术仍然是个难点。一般语音识别任务大体可分为3类，即孤立词识别（isolated word recognition），关键词识别（或称关键词检出，keyword spotting）和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“机器人”、“说话”这两个词。

　　让计算机“说话”需要用到语音合成技术，其核心是文字语言转换技术 (Text to Speech)，它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术，解决的主要问题就是如何将文字信息转化为可听的声音信息，也即让机器像人一样开口说话。我们所说的“让机器像人一样开口说话”与传统的声音回放设备（系统）有着本质的区别。传统的声音回放设备（系统），如CD机，是通过预先录制声音然后回放来实现“让机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本转换成具有高自然度的语音，从而真正实现让机器“像人一样开口说话”。

3语音技术在江苏有线“电视阅读”业务中的应用

　　3.1“电视阅读”业务概况

　　江苏有线云媒体电视的“电视阅读”业务是继电脑阅读、手机阅读等电子阅读之后的一种全新阅读方式，它将传统的电视技术与计算机技术、互联网技术进行“融合”，并且具有便于版权保护、传输通畅安全、不易受黑客攻击、维护成本低等优点。目前随着广电网络技术的改善，及机顶盒技术的发展，业务的发展在技术层面已经具备条件，其可与电脑阅读、手机阅读结合满足跨终端阅读的需求，是“三网融合”新媒体的一个典型应用，更重要的是，“电视阅读”也是语音技术在有线数字电视新媒体应用中的典型。

　　“电视阅读”业务是基于机顶盒java中间件系统开发的数字电视应用，业务整体开发运用标准的J2EE技术，是通行的WEB技术，技术框架结构清晰，具有浏览器端灵活显示风格和布局。目前，已经商用的是语音技术应有主要有少儿有声读物，报刊新闻朗读等。

　　少儿有声读物包含睡前故事、少儿安全、双语乐园，主要通过语言互动方式，通过语言合成和交互方式，让家庭数字电视终端前的儿童通过寓教于乐形式更好接收。

（少儿有声读物示意图）

　　报刊新闻朗读提供100多份报纸、50份杂志的电视阅读，包括《扬子晚报》、《文汇报》、《体坛周报》、《人物周刊》等。

（电视报纸示意图）

　　3.2“电视阅读”语音库介绍

　　不管是语音合成或识别技术，都需要语音库作基础支撑。江苏有线云媒体电视“电视阅读”业务通过语音朗读的功能集成，改变了现有新媒体终端只能视觉阅读的基本操作，多感官化的消费体验可以极大提升阅读产品的适应性，解决老人、儿童及视觉障碍人士等的个性化阅读需求。用户如需进入语音朗读模式，则通过按动屏幕或遥控器上的“朗读”按钮，即可听到标准人声朗读，且能实现暂停、停止、快读、慢读等。

　　目前，江苏有线云媒体电视“电视阅读”业务通过集成目前国内最先进的语音库，支持广泛的文本字符范围和多种代码页，包括所有常见的代码页：UTF-16；UTF-8(CP65001)；简体中文GB18030(CP936,兼容GB2312-80、GBK)；繁体中文Big5(CP950,支持HKSCS)；Phonetic Plain(金山词霸音标字体)以及国标拼音等字符。支持任意普通文本播报，支持中英文中字、词、句、篇章朗读。其中，中文支持Unicode 5.0 标准定义的所有汉字。支持全/半角的字母、数字、号码、时间、日期、标点、常见符号的朗读，并且还根据实际应用场景智能判断使用中/英不同方式朗读。同时，还可以对诸如人名、地名、电话号码等等一些特殊应用场景文本进行自动判断和智能处理，使得播报合成正确率有很大提升。这些先进的语音技术使电视阅读不只可以看报纸、杂志、图书，更可以听报、听杂志、听书，方便老人、儿童获取资讯。并根据用户使用习惯实现了翻页自动朗读等人性化功能。另外，在提供高性能机器语音合成与发布的基础上，支持人工配音，使得语音读报更加声色并茂、富于感染力，更可扩展支持本地方言，实现区域化个性服务。

　　3.3数字电视机顶盒两种语音实现方式

　　目前江苏有线云媒体电视“电视阅读”通过嵌入式和非嵌入式两种语音合成方式实现除“常规阅览”外的“语音朗读”模式，将两种方式进行了有机组合。

　　嵌入式语音合成方式不受操作系统限制，不增加额外的硬件成本，并针对嵌入式设备资源受限等特点，在资源占用、可移植性等方面都做了突破性改进，其合成效果整体上已超过了普通人的说话水平。其优点是基本不占用网络带宽，响应速度快，效率高；缺点则是语音资源库相对简单，受终端硬件配置限制。

（嵌入式语音朗读系统逻辑示意图）

　　同时，江苏有线为兼顾原来用户老旧机顶盒硬件性能偏低的实际情况同时提供服务器端非嵌入式语音合成方式提供高质量的语音服务。

（服务器端语音朗读系统流程示意图）

　　这种方式先通过初始化获取引擎所需要的音库信息，同时加载引擎资源；再设置语音合成参数，包括数字读法，音量、音速、基频等基础参数。调用语音合成函数，将文本资源转化为语音流或语音数据，最后结束流程，释放资源，完成一次合成过过程。其优点是部署灵活，不受终端限制，语音资源库丰富；缺点是用户同时并发会占用网络带宽资源较大，前端成本也较高，用户响应速度受限。

3.4“电视阅读”继续对语音技术的应用进行探索

　　“电视阅读”业务后续主要语音识别实现语音遥控器及智能语音搜索功能。此项功能不仅能运用于“电视阅读”业务，也为数字电视整体的遥控器操作及内容搜索带来便利性。

（语音人机交互示意图）

　　目前“电视阅读”中的语音关键词搜索功能，按照报刊名/书名、关键词、日期、刊号、作者、地区、类型等多种分类查询，方便用户快速搜索到所需读物。用户可通过各种搜索方式，搜索到一段时间内的所有报纸、杂志期刊内容，充分发挥网络存储的集成优势，并利用关联功能实现增值效益。通过搜索版面、搜索热词等针对电视定制的功能，为用户提供快速查找、定位所需信息的服务。

　　另外，基于“电视阅读”业务中的少儿语言类交互学习、微信方式的用户沟通，及紧急语音广播等，都可通过语音技术实现，在此不作赘述。

4结语

　　“电视阅读”业务是语音技术在江苏有线云媒体电视中新媒体业务应用的开拓者，通过该业务的探索，我们可以看到，作为未来最被看好的人机交互方式之一，语音技术对机顶盒遥控操作、电视内容收看方式等的演进都有具有开拓意义。另外，语音技术在数字机顶盒的运用，也可实现互联网微信方式的即时通讯工具等，使得有线运营商能通过多样化的“三网融合”业务黏着用户。总之，语音技术在有线数字电视新媒体业务中的应用会带来更多的社会效益和经济效益。

　　（文/季小康）

　　参考文献：

　　[1]lydia_emyeu,乔布斯1983年演讲录音（完整版）[EB/OL],http://www.weiphone.com/apple/news/2012-10-03/Jobs_1983_speech_recording_full_version__493311.shtml,2012,(10)

　　[2] Leon，手机永不眠：Nuance计划让手机在休眠时也能接收语音指令[EB/OL]，http://www.36kr.com/p/155510.html，2012,(9)

　　[3]中国信息产业网，Nuance公司：未来语音技术将普及到中低端车型[EB/OL],http://www.cnii.com.cn/thingsnet/2013-05/27/content_1155338_2.htm,2013,（5）

　　[4]李坚,科大讯飞：语音技术的三大种类[EB/OL],http://www.eet-china.com/ART_8800653566_617703_NT_a1cfe9bd.HTM, 2011,(10)

　　[5]董向林，基于特定人小词汇量的车载语音识别的研究[D]，武汉：武汉理工大学，2010.

　　[6]蔡莲红,黄德智,蔡锐,现代语音技术基础与应用[M].清华大学出版社,2003,(11)

　　[7]江苏有线电视阅读项目可行性报告[R],2011.