北京捷通公司致力于中文信息处理和智能人机交互技术的研究、开发和应用。公司嵌入式事业部以自主知识产权的手写识别(HWR: Hand Writing Recognition)、文语转换(TTS: Text to Speech)和语音识别(ASR: Automatic Speech Recognition)三大核心技术为基础,为智能终端设备人机交互应用提供一流的软件产品和解决方案,在学习机应用领域开发了系列应用软件产品。
一、捷通嵌入式手写识别 与学习机实现“我写你认”
1.1 产品特性
1.1.1 目录查询
1)
不用逐一点击各级菜单
2)
免却记忆某项功能在某级菜单中的繁琐
3)
模糊查询,节约时间
1.1.2 单词查询
1)
汉译英
A.
在触摸屏上输入汉字,不论是汉字写得不规范的低年级学生,还是连笔书写的高年级学生,无需特意改变你的书写习惯,均可识别。
B.
笔顺联想和词组联想功能,大大节省查询时间。
英译汉:识别范围只设置为26个英文字母的大小写,识别率更高。

1.1.3 个人设置
词典里个人可以设置的课程表、电话本、日程、常用语、下载的音乐名称等,无论是汉字、字母、数字、标点,都可以用手写方式输入。
1.2 技术详述
汉字手写识别技术中,系统记录文字图像抬笔、落笔、笔迹上各像素的空间位置,以及各笔段之间时间关系等信息,并对这些信息进行处理。在处理过程中,系统以一定的规则提取信息特征,再由识别模块将信息特征与识别库的特征进行比较,加以识别,最后转化为计算机所使用的文字代码。而笔输入的识别特征库是基于多人以习惯笔顺书写的统计特征建立的。识别过程如图:

表述手写识别性能最关键的一个参数是识别率。影响识别率的主要因素有坐标序列的特征抽取和识别字典的模板创建。其中特征抽取算法是手写识别的最关键技术,也是各厂商技术水平高低的体现。
捷通HWR技术,运用句法结构自学习算法和基于特征统计算法的多核心融和技术。具有如下特点:
a)
识别率高;
b)
识别速度快;
c)
无笔顺限制;
d)
数据字典大小可缩扩。
附:性能指标

支持环境
OS: WinCE , Nucleus , Embedded Linux , Symbian , Palm Os , HOPEN , pSOS , UCOS
等
CPU:Dragon Ball (Motorola 68000) EZ(16M)
和VZ(33M) , MIPS , SH3 , SH4
, ARM7 , Strong ARM , ARM9 , Xscale 等
二、捷通嵌入式语音合成 与学习机实现“你说我听”
2.1 产品特性
2.1.1 复读
1)
自带语音合成功能,报读声音自然流畅、清晰易懂。
2)
复读次数、间隔时间可由个人设定。
3)
学生可自己设置需要加深学习的单词、短语来跟读。

2.1.2 词典
1)
英译汉:不用按键,自动报读所查单词的中文释义,节约时间。
2)
汉译英:自动朗读所查词语的中、英文释义,无论汉语还是英文,发音标准,清晰易懂。
3)
英译英:报读英文释义,发音标准,加深对单词的印象,营造优秀的外语学习氛围,培养良好语感。
2.1.3 提醒
可自由设定日程提示、语音报时等,准时语音播报,重要事件不致遗漏。
2.1.4 音乐提示
歌曲名称自动播报,学习机伴你轻松度过休闲时光。
2.1.5 其它学习机中的文字信息
只要是文字信息,无论汉语、英语,均可报读。
2.2 技术详述
语音合成又称文语转换(Text-to-Speech, TTS),是利用计算机将任意组合的文本文件转化为声音文件,并通过声卡、电话语音卡等多媒体设备将声音输出的技术,简单说就是让机器把文字资料“读”出来。
捷通华声TTS 技术中音库大小、音色均可调,这种特点是捷通华声jTTS 能够移植到掌上电脑的关键特点。捷通eJTTS 技术,运用增加音库压缩算法和声调变换算法形成核心技术。具有如下特点:
a)
系统输出语音清晰度高;
b)
系统输出可懂性高;
c)
输出自然度基本与人正常说话持平;
d)
音库大小可缩扩,小音库仅为400K-- 4MB,特定域音库<100K。
学习机嵌入TTS体系结构如图所示:

附:性能指标

支持环境
OS : Window CE 2.1(Palm-size PC, Handheld
PC), 3.0(Pocket PC),4.1以上, Nucleus,
PalmOS,Embedded Linux、Symbian等。
CPU: DragonBall,MIPS,
SH3, SH4, ARM7, StrongARM、ARM9, Xscale等。
三、捷通嵌入式语音识别 与学习机实现“我说你听”
3.1 产品特性
3.1.1 进入菜单
首先打开热键,语音提示“请说命令”(可以设置其它),说出你要查找的菜单,系统判断后做出反馈,“请问是‘单词复习’吗”,回答“是”“对”即确认,系统自动进入,否则会再给第二个选项。如“请问是‘单词查找’吗”,是与此相似发音的词条,确认后进入,否则返回上级菜单,重新说出语音命令。

3.1.2 查找歌曲
点击进入此功能后,打开热键,按照上面的方法操作,此时识别范围是此功能项下的词条。
3.1.3 查找联系人
语音进入此功能,或者点击进入后,打开热键,按照上面的方法操作,选项里依旧会报读出要选的功能待确认,否则给出第二个选项。针对人名相似读音的存在,此功能可以更好的保证查找的准确性。
3.1.4 其他学习机里的菜单项
操作方法同上。
3.2 技术详述
3.2.1 体系结构图:

3.2.2 性能
1)
特定人有限词条识别
a)
在识别前,系统会采集用户的发音进行训练,进行特征提取并存为模板;
b)
总的识别词条数目在100 条以下,要识别的命令可以不确定;
c)
每个模板大小不超过1K,识别率99%以上。
2)
非特定人有限词条识别
系统会事先训练并提供某个命令集合的标准模板,用户使用时无需训练。总的识别词条数目、
模板大小和特定人有限词条类似,识别率98%以上。要求命令集合是事先确定的。
3)
非特定人自定义词条识别
a)
不需要用户进行任何训练,而且命令集可以由用户自己定义;
b)
不是提供某个特定命令集合的模板,而是提供了所有汉字语音的模型;
c)
对于任意用户自己希望加入的词条,系统都能加以识别;
d)
增加词条并不增加模型数目,因此并不增加内存的使用;
e)
识别总字典<2M,总的词条数目在500 条时,识别率可达95%;词条数目在1000 条时,
识别率可达90%。