北京捷通公司致力于中文信息处理和智能人机交互技术的研究、开发和应用。公司嵌入式事业部以自主知识产权的手写识别(HWR: Hand Writing Recognition)、文语转换(TTS: Text to Speech)和语音识别(ASR:
Automatic Speech Recognition)三大核心技术为基础, 为智能终端设备人机交互应用提供一流的软件产品和解决方案,在手机应用领域开发了系列应用软件产品。
一、TTS
在手机中的系列应用
1.1 来电播报
来电播报是一个优秀的附加功能,对手机用户吸引力较大。它具体表现如下:
就像QQ来信类似,当来信息时,轻轻咳嗽一声,好像一个很礼貌秘书向主人提示:
1、已有存号的情况:
“阿吭,某某来电了,接听吗?”
2、没有存号的情况:
“阿吭,0123456789 来电,听吗?”
3、经过设置,带有捷通华声的区号判断功能
“吭 ——, 87打头,这是一个崇文区打来的电话”
“彩玲 ——
,
这是一个来自汕头的长途 ……”
“玲 ——,
来自美国的国际长途 ……”
1.2 语音报时
语音报时,把手机变成一个会说话的手表。按一下特定功能键,手机即开始播报:
“北京时间 上午11点29分, 29日,星期四”
1.3 日程提示
日程提示亲切和蔼,对于手机厂商和用户的亲和效果较好。
“日程语音提示,按任意键继续 ——”,如果无反应,自动停止。
用户按任意键之后:
“1,今天,广州分公司代表回京”,“2,今天,给新风公司报价”
“明天,开发区软件出口促进会议”
用户按动双键(或特定键),立即停止播报。
1.4 短信读者
l
“短信读者”的预设定
即经过设置之后,“短信读者”将始终处于待命状态,直到关机,或者关闭“短信读者”状态。
l
来短信的语音通知
当有短信发来的时候,将自动播报“嘀, 00点00份,
收到一(或几条)条短信”
l
收到短信,并且通知了用户之后,在3秒钟内,用户打任意键即进入朗读状态。
l
在朗读过程中,按任意键停止朗读。
l
以上是自动接收、朗读短信的情况。如果是主动选择“短信读者”,“短信读者”将依次反应下列信息:
☆ 有多少篇短信未读
☆ 批量阅读未读短信。
1.5 状态播报
状态播报包括:
l
电池情况的语音播报,如果手机需要充电了,系统将自动播报:
“电池电力不足,需要充电了”
l
话费提示,如果话费不足,需要充值,系统将自动提示:
“话费不足,应当充值了。”

二、ASR在手机中的系列应用
2.1 语音拨号
“语音拨号”的基本功能:
捷通华声“语音拨号”是应用语音识别技术和语音合成技术,以及与通信设备相关的嵌入式技术,为手机设备研制的一种利用语音直接拨号的软件产品。
它实现了手机通话操作的“动口不动手”,用户只需说出“张三”,张三的电话就可以拨通。
“语音拨号”功能的获取:
获取“语音拨号”功能的渠道有两个:
一个是手机设备出厂时预装了“语音拨号”的功能。
另一个是用手机通过运营商的网站下载本程序。
语音拨号的一般过程:
1)从第一画面进入拨号程序。
2)听到“请说出人名”的提示后说出要与之通信的人名。
3)本系统将根据你的语音计算出数名声音类似的人名,第一条为首选。
4)如果第一条正确,且该人名仅有一个号码,按键拨号,或在默认时间内自动拨号,通话;如果该人名的联系电话多余一条,则启动“个人电话表”,选择,拨号。
5)如果第一条不正确,其余条中有正确的,按动上下键选择正确,按键,通话;如果该人名的联系电话多余一条,则启动“个人电话表”,选择,拨号。
6)如果都不正确,按C键,返回第一画面。
语音查询号码的过程:
1)从第一画面进入查询程序。
2)听到“请说出人名”的提示后说出要与之通信的人名。
3)本系统将根据你的语音计算出数名声音类似的人名,第一条为首选。
4)如果第一条正确,按键打开内容画面,或在默认时间内显示该记录;如果愿意通话按Call键开始拨号,通话。
5)如果第一条不正确,其余条中有正确的,按动上下键选择正确,按键,显示该人名的内容;如果愿意通话按Call键开始拨号,通话。
6)如果都不正确,按C键,返回第一画面。
添加新人名:
1) 从第一画面进入添加新人名程序。
2)该程序启动手机原配的人名输入程序。
3)新人名输入后,返回第一画面。
发现并修改不完整的号码:
在拨号或查询时,本系统将对不完整号码进行排查。譬如以“13”开头的手机号码必须是11位,不等于11位的属于不完整。
1)(系统发现电话号码不对)系统提示“信息不完全,是否补充?”
[回答限于“补充”和“不补充”]
2)(如果回答是“补充”)———— 调动《编辑器》进行容纳的修改,修改并保存之后系统进行完整性测试,如果继续无效,则继续执行上一条。
3)(如果回答是“不补充”)———— 系统提示:“信息不全,现在返回”,返回第一界面。
以上是“语音拨号”的使用说明。

2.2 语音命令导航
2.2.1 关于语音导航的启动方式问题
有三种方法可供选择:硬式启动(按一次在指定时间内接收一次)、软式启动(在桌面或者任务栏有一个重复开关,例如Insert键的使用)、始终启动(智能型,只要言词是关于系统的,并且语调清晰、音量足够大)。
硬式启动方式:
指定一个固定按键,输入一次,按动一次,3秒至5秒钟内即自动关闭,再输入时再次按动。
其优点是:指令明确、状态清楚,及时关闭输入状态,降低语音输入时的内存负担。容易恢复其他输入法的使用。
推荐使用此种方法。
软式启动方式:
所谓“软式启动方式”就是一种设置状态,经过确认之后,它始终有两种状态:“有效”和“无效”,并且在二者之间切换。切换的目的是防止录入无用信息的录入,或者按一下专用标志,更换状态,或者更换状态本身也可以使用语音命令。
其优点是:节省一个设备本身的按钮,或许提高软件和硬件之间的通用性(怕有的有富余按钮,有的没有多余按钮)。
始终启动方式
这是一种全智能的语音导航方式,类似于人的神经反射系统。
人在平时接受外界声音信息不断。他能够弄清楚,那些与自己有关,哪些与自己无关;哪些属于一般信息,哪些属于命令信息?
“始终启动方式”的声学物理依据是,人发布命令时和一般说话时在强度、语调、语法和断句上都不一样,应当是容易判断的。
此法的制约因素是系统的智能计算能力是否可以满足需要?
2.2.2 语音导航的列表
列表提示是本产品的一个重要表现方式。它的主要作用是根据一条命令的线索,把该命令所涉及的菜单、子菜单以及其他相关命令,用列表的方式表现出来。一是线路更清楚,二是提示出命令的标准用词,使用户的下一步命令更清楚。
列表的举例
例1)
第一个命令:“邮件系统”
列表:
收信箱 (表达出内几封邮件? 未读几封?)
发信箱
写新邮件
联系人
例2)
游戏软件(以下反应出所包含的)
接龙
扑克牌
挖金子
……
没有列表的情况
有的情况没有列表,例如“清扫桌面”、“重新启动”、“关机”等,即不包括下层内容
2.2.3 语音导航的词条学习
设立“语音导航的词条学习”的目的有两个,一是补充桌面系统在发展中出现的新词条,二是当用户想使用自己习惯的命令语汇时,特意改变命令。
新加词条
增加新词条有一定难度。它基本是个“录制”过程,一边操作一边录音。到一个目录,录制一句,直到“录制”结束。
现有词条的改变
改变现有词条的操作相对简单。 基本是调出系统现有命令,然后输入同一条命令的新的说法。要量也不算太大。
捷通华声嵌入式语音合成eJTTS技术特点
1) 捷通eJTTS技术,运用增加音库压缩算法和声调变换算法形成核心技术。具有如下特点:
a) 系统输出语音清晰度高。
b) 系统输出可懂性高。
c) 输出自然度基本与人正常说话持平。
d) 音库大小可缩扩,小音库仅为400K-- 4MB,特定域音库<100K
2) 支持环境
a) OS : Window CE 2.1(Palm-size PC, Handheld PC),
3.0(Pocket PC),4.1以上, Nucleus,PalmOS,Embedded Linux、Symbian等
b) CPU: DragonBall,MIPS, SH3, SH4, ARM7, StrongARM、ARM9, Xscale等
3) 性能指标

捷通华声嵌入式语音识别eJASR技术参数
1)技术特点
特定人有限词条识别。
2) 支持环境
OS: Window CE 2.1(Palm-size PC,
Handheld PC)、3.0(Pocket PC)、4.1以上,
Palm OS, Linux, Symbian, Nucleus, HOPEN等。
CPU: MIPS, SH3, SH4, ARM7, StrongARM, ARM9,
Xscale等。
3)技术指标(非特定人有限词条)
