智能终端人机交互的三张王牌
------捷通灵感嵌入式全面解决方案:eJHWR+eJTTS+eJASR
人类自然形成的与自然界沟通的认知习惯和形式必定是人机交互的发展方向,研究者们也正在努力让未来的计算机能听、能看、能说、能感觉。
------微软副总裁 李开复
任何不便于人们使用的智能设计都将是失败的设计,不会赢得大众的青睐,让用户操作艰涩的美好功能都将窒息在设备的内核里,带不来效益。
------北京捷通华文 灵 感
1.1嵌入式智能终端的发展趋势
智能终端设备的研发生产由传统的垂直产业链结构逐渐向开放的水平的产业链结构演进,硬件平台、操作系统、应用软件、系统集成等各个环节越来越专业化、标准化,开放带来的竞争越来越激烈,也促进了整个产业的蓬勃发展。在如此市场氛围中,任何新技术和新产品的催生,都必须紧贴用户的需求,这里所说的用户,更多的要考虑产品的实际使用者、操作者。在智能化、特性化和功能集成的新产品大潮里,永远不要忽略一点,那就是:所有的美好理念都必须经过“人机交互”这道大门向用户展示,那些让用户操作起来艰难晦涩的“智能和创新”毫无疑问都将“窒息”在设备的内核里!
1.2嵌入式系统对智能人机交互技术的迫切需求
相对于一般的桌面系统而言,嵌入式系统对智能人机交互技术的需求更为迫切。这是因为嵌入式系统具有如下几个显著特征:
l
应用行业千差万别,信息的交互模式具有多样性;
l
运行环境不确定,尤其是移动终端;
l
实际用户即嵌入式设备的操作者分布面广,性别年龄、性格爱好、语言习惯等各不相同,文化水平也参差不齐;
l
为便于用户携带和系统集成,嵌入式终端追求体积的小型化,没有键盘或只有数字键盘,显示屏幕小或者根本没有显示屏幕;
l
开放式的研发与生产架构,产品技术升级快,市场需求变化多端,产业链不同层级都面临着激烈的竞争。
上述特点决定了嵌入式终端系统在人机交互技术的需求走向,即最大程度的使用人类自然形成的交流与认知形式,使嵌入式终端的设计更趋智能化、人性化,让设备在人机交互中能听、能看、能说、能感觉。
1.3智能人机交互的三大核心技术
当“计算机”的概念早已超越PC,被广泛的嵌入到各种家用电器设备、生活空间、移动通讯设备中时,人们迫切的需要在三维空间中挥洒自如的和计算机进行交流而不仅仅是晦涩的按键操作。受各种因素的制约,手写和语音是当前人们最能接受同时也是最切实可行的嵌入式人机交互方式,手写识别(Hand Writing
Recognition—HWR)、语音合成(亦称文语转换,Text to Speech—TTS) 和语音识别(Automatic Speech
Recognition—ASR)便是当前嵌入式移动终端智能人机交互的三大核心技术。这一点在下文“捷通灵感嵌入式全面解决方案:eJHWR+eJTTS+eJASR”中会有逐一描述。当然,随着科学技术的发展,未来的某一天,也许人们一个眼神,甚至一个大脑的闪念都能被计算机领会,对设备进行操作。但毫无疑问的是所有的商家都不会傻等着那一天的到来而忽略眼前闪亮可行的智能人机交互技术。
2.1捷通灵感嵌入式全面解决方案
2.1.1灵感嵌入式设计结构模型

图1、灵感嵌入式在一款手机操作系统的移植设计结构模型
2.1.2实现目标
捷通灵感嵌入式充分利用人类自然形成的交流习惯,与计算机进行全方位立体交互,逐步缩小在用户适应计算机、即“以计算机为中心”的计算模式下计算机应用软件功能的灵活性与人机交互能力的巨大反差,让身边的智能设备“有眼”、“有口”、“有耳”,实现“以用户为中心”的人机交互应用。
相对于传统的键盘输入而言,手写识别技术让人们从繁琐的按键操作中解脱出来,让计算机“看懂”我们的书法;语音合成技术让计算机“打开尊口”,把文本信息以语音的方式播报;语音识别技术则让计算机“听懂”用户的语音命令,按用户的旨意对设备进行操作。
捷通灵感嵌入式技术,以自主知识产权的手写识别eJHWR, 语音合成eJTTS和语音识别eJASR技术,向用户提供全面的嵌入式人机交互解决方案。而且,智能终端厂商可以就eJHWR、eJTTS和eJASR三种引擎按需索取、自由组合,达到最佳的应用效果,实现产品的高度智能化、人性化。
eJHWR—捷通灵感嵌入式手写识别,与电脑实现“我写你认”;
eJTTS—捷通灵感嵌入式语音合成,与设备实现“你说我听”;
eJASR—捷通灵感嵌入式语音识别,与机器实现“我说你听”。
2.1.3设计流程
捷通根据市场中不同嵌入式操作系统同时并存的格局,采取全面合作的市场开发策略,基本实现与各种市场中应用的操作系统的挂接并支持多种CPU芯片。
针对不同的硬件平台和操作系统,捷通灵感提供相应的软件开发工具包SDK。包括eJHWR_SDK, eJTTS_SDK 和 eJASR_SDK 供嵌入式设计厂商选择进行移植开发。

图2、灵感嵌入式应用一般设计流程
捷通灵感嵌入式方案面向嵌入式智能终端寻求全方位合作商机,愿与品牌厂商、系统集成商、操作系统提供商等产业链不同层级的环节展开多渠道、多模式的交流与合作,共同推动嵌入式智能交互产品技术与市场的蓬勃发展。
2.1.4应用前景
为了适应携带使用方便和广大系统集成设计的需求,嵌入式智能终端必然在追求整体体积小型化基础上争取显示屏幕的最大化,所以手写和语音正逐步成为信息终端人机接口的关键技术。基于捷通灵感的嵌入式手写和语音交互技术,在智能数据终端的数据输入、语音命令导航、远程语音控制等方面有着十分广阔的应用前景。
目前比较成型的应用大致分为如下几个方面:
l
智能商务终端: 掌上电脑、智能手机、PDA、智能固话终端等
l
GPS/GIS终端: 个人终端、车载终端
l
智能学习终端: eBOOK 、电子词典、智能玩具等
l
高智能机器人: 工业机器人、家庭机器人
l
其他数据终端: 大型数据库查询终端、酒店管理系统输入终端、智能报警器、数字电视互动遥控器、卡拉OK点歌器、信息家电控制器等。
2.2捷通华文嵌入式手写识别eJHWR
2.2.1体系结构
联机手写识别是指将在手写设备上书写时产生的有序轨迹信息转化为汉字内码的过程,实际上是手写轨迹的坐标序列到汉字内码的一个映射过程。下述图3、eJHWR体系结构即描述了一个识别过程:

图3、eJHWR体系结构
2.2.2技术性能
表述手写识别性能最关键的一个参数是识别率。影响识别率的主要因素有坐标序列的特征抽取和识别字典的模板创建。其中特征抽取算法是手写识别的最关键技术,也是各厂商技术水平高低的体现。
捷通华文首席科学家、我国知名模式识别专家北京大学教授顾小凤先生应用自己几十年致力于手写识别技术的研究与应用的宝贵经验,指导华文研究团队不断创新,开发完成了具有国内外最高水平的中文手写识别技术,并在嵌入式应用中获得重大突破,为捷通华文公司成为专业化的中文手写技术与产品提供商奠定了坚实的基础。
捷通华文HWR技术,运用句法结构自学习算法和基于特征统计算法的多核心融和技术。具有如下特点:
l
识别率高。
l
识别速度快。
l
无笔顺限制。
l
数据字典大小可缩扩。
表一、eJHWR的各项指标
|
项 目
|
指 标
|
|
字符集
|
支持GB_2312,GBK,BIG5,Unicode
|
|
识别范围
|
中文(简体6763+繁体5401)
数字、英文、符号、笔势
|
|
正楷识别率
|
99.9%
|
|
连笔识别率
|
98%
|
|
无笔顺识别率
|
95%
|
|
识别速度
|
0.4秒/字~0.6秒/字(在MIPS 33M下)
|
|
字典大小
|
600K~1.2M
|
|
程序占用空间
|
40-80K
|
|
栈空间
|
< 4K
|
|
自适应能力
|
支持
|
2.2.3支持环境
OS: WinCE ,
Nucleus, Embedded Linux , Symbian,
Palm Os, HOPEN, pSOS, UCOS等
CPU:
DragonBall(Motorola 68000) EZ(16M)
和VZ(33M),
MIPS, SH3, SH4, ARM7, StrongARM, ARM9, Xscale等
2.2.4应用方案
捷通嵌入式手写识别eJHWR可以广泛的应用于掌上电脑、PDA, 智能手机, eBook, GPS/GIS终端、数据库查询、酒店菜单输入、OA(办公自动化)用户终端等涉及数据查询和数据输入的领域。此外,随着手机、固话间短消息业务的开通,eJHWR手写识别技术在智能固话终端也呈现出强劲的市场需求。
使用eJHWR可以带来如下主要功能:
l
文本输入— 取代键盘输入的频繁按键,文字符号夹杂时免去频繁的输入方式切换,遇到不确定读音的文字也可照常书写。