一、捷通华文十年欲磨一剑
著有《金匮要略方论本义》的我国清代伟大医学家魏念庭在其著作中写到:“勿以其迂缓而舍之 , 王道无近功 , 欲速则不达。”
后来人们把唐代伟大诗人杜甫《春夜喜雨》中的著名诗句“润物细无声”和魏念庭的“王道无近功”配在一起,用来诠释荀子“不积跬步,无以至千里;不积小流,无以成江海”的哲学思想。
现代的教育家、管理专家和杰出人士也一再倡导“把简单的事情做好”的道理,“把一件简单的事做好就是不简单,把每一件平凡的事做好就是不平凡。”这就是海尔总裁张瑞敏常说的一句格言。是的,一件简单的事情,如果你能够倾尽自己的全力,把它做到最好,做到最完美,它也会成为必杀之技。为你赢得更多更好的机会。
这里所谓“简单的事情”,不是指我们日常一般的起居举止,而多指职场上人们每天都会遇到,或者每天都在做的事情,尤其是那些似乎简单对待、细致对待都无有大碍的东西,更指那些大家公认有意义,但是比较费时费力,甚至一时见不到效益的事情。
在汉语 HCI 和自然语言理解领域就有这样一件“简单的事情”,那就是汉语独有的“分词技术”,因为汉语的方块字是连续排版的,词汇之间的关系是人们通过自己的语言知识来实现切分的,问题似乎很简单。
二、中文信息自动化处理中的简单与恢宏
“交钱包你上大学。”“已经取得和尚未取得结业证都要参加这次考试。”这里边的“钱包”、“和尚”都是很常用的词汇,本着高频优先的原则,它们很容易被切分成独立词汇,但是在这里是不对的,汉语在进行机器切分时常见此类问题。
由于问题的简单,好像不成为问题,汉语机器处理的各类工作诸如:机器翻译、自动校对、文章主题提取、语义搜索以及中文语料库词频统计都在发展着。
关于汉语机器处理的这些重要领域,在项目开始时其伟大意义无不频繁地见诸于报端和网络,读了这些消息也的确鼓舞人心,但是虎头蛇尾似乎成了它们发展的规律。
确实如此,这些领域的随便哪一个都很重要,譬如“机器翻译”对于网络时代的中外海量的信息交流,有效利用英文海量的科学文化信息,降低企业和政府部门的翻译工作成本无疑是一条必由之路;
“自动校对” —— 无疑在网络时代人们用笔越来越少,尽管五笔字型输入法是公认的高效并且低错,但是汉语拼音依然是使用者最众多的输入方法,因此随之而生的错别字发生率很高,错别字甚至经常发生在严肃的教科书里面。错别字的广泛存在已经不断威胁着汉语的纯洁性,造成以讹传讹,习以为常,被大众接受的后果。语言学家对此无不忧心忡忡。因此汉语的“自动校对”功能在不久的将来必然要成为汉字输入法中不可或缺的一环。
“文章主题提取”—— 微软的 WORD 带有这个功能,但是用的人很少,因为它提取出来的主题或者缩写往往叫人感觉不知所云,所以后来的版本干脆取消了这个功能。比尔盖茨有个伟大的设想,那就是“超级文本”的思想,目标是叫计算机学会透过人的不同表达方式、不同的语序、不同的词藻而分析出来的相同的意思,由此开来,让计算机理解画面的图像,理解人的语音。
“文章主题提取”对于实现全社会的舆论自动监控、自动的民意调查、未成年不宜内容的自动过滤、政府文牍的机器化与半机器化处理、智能的网络搜索具有决定性意义。我们知道政府机构的工作主要是文牍的处理,文牍处理占据了公务员 60% 以上的工作时间,国家每年要为此付出上万亿元的代价,如果文牍自动化处理得以实现即将大大推进政府结构精简的历史进程。同时论文造假已经成为现代生活的一大痼疾,“文章主题提取”将使社会获得识别论文真假的手段,从而大大提高全社会论文的水平和真实价值。
“语义搜索”的价值更是难以估量,尽管这个概念才刚刚提出,投资家已经为之兴奋、为它雀跃了。因为文本级的搜索引擎已经造就了谷歌、雅虎以及摆渡这些爆炸式成长的企业,成为了真实的网络神话。然而使用过这些搜索引擎的人都有这样的感觉,第一主题词很重要,词汇错一点儿搜索结果就会完全不同;第二过滤功能差,过时信息很多,就是说它是按图索骥的,它不能在语义侧面上进行搜索。一旦实现了“语义搜索”,搜索的准确性将成倍增长,搜索将超越具体语序和词汇的羁绊,搜索引擎就会真的成为人的名符其实的秘书。更要的是,搜索引擎将因此获得相同信息过滤和过时信息屏蔽的功能。到那时,搜索引擎本身恐怕就具备了商业(贸易与服务)、科教(传播与交流)的门户功能,社会形态将因为它而发生变化。这种搜索引擎的垄断潜质令人激动又令人恐惧。
“中文语料库词频统计”—— 这是一项具有国家职能色彩的工作,尤其在当代社会各项事业发展迅猛、国内人员迁徙频繁、国内外交流频繁,语言的发展很快。如果一个国家不能有效掌控本国语言的变化,那么不规范应用就会扩大对标准语言的冲击作用,造成历史性后果。“大语料库词频统计”,不光是国家权威的字词典编篡机构的事情,全社会都应当关心。法国政府多年来一直抓法语纯洁性问题,英国则发挥牛津辞典的权威作用密切注视语言的每个细微变化,日本则由政府文教机关直接编写标准日语。在新中国成立后,国家非常重视汉语的文字改革,设立了国家文字改革委员会,至今一直保留“国家语委”这个政府编制,是中国进行语言规范化工作的有利条件。
“语料库词频统计”也不像一般人认为的那样简单,譬如:“我上了他一回当。”这句话的关键动词是“上当”,尽管两个词素分离了却肯定是一个词,如果把词频统计为“上”和“当”就降低了统计的作用,因为“上”“当”本身就是两个非常活跃,而且词类、词义都很丰富的词汇。可见这件似乎容易的词频统计并不容易。
三、捷通华文坚持做着“简单的事情”
以上所列关于汉语机器处理的几个领域,如同一颗大树的几个分支,每一个领域都有毋庸置疑的伟大意义和惊人的市场潜力。
但是这些粗枝大干都无不和中文分词这个简单的工作密不可分,捷通华文就看中了这项简单的不能再简单的工作,并且为此已经默默耕耘了数年。
捷通华文的中文分词要分到什么程度呢?
—— 要达到自动分出“主谓宾动状”的程度。
例句 1 :“爷爷过不惯都市生活。”
切分成为: 爷爷‖过 - 不 - 惯︱都市生活。 (SVO 结构 )
例句 2 :“他是一个个子不高但是非常结实的小伙子。”
切分成为:他‖是︱ < 一个 << 个子 不高 > 但是 < 非常 结实 >> 的小伙子 > 。 (SCP 主系表结构 )
例句 3 :“会计算资金表的人没在。”
切分成为: < 会 计算 资金 - 表 的 人 > ‖没在。 (SV 结构 )
这可能是国内到目前为止,最清楚、最准确并且直接划分到语法成分的中文分词技术。业内人士一看便知道这项技术可是非同小可,它抓到了汉语机器化处理的根,当然其市场潜力亦不可小觑。
四、手勤且笃志 激励成果早出
捷通华文的中文分词之树要长成什么样子呢?有没有一个大体的规划呢?当然有。
第一步内容是:精确中文语料库词频统计的基本功能。
A 部分: 精确的“中文语料库词频统计”,利用网络资源,每年处理数以亿计的中文文字资料,内容包括从国家新闻到网民博客,从商业、科技文字到网络小说,形成捷通华文特有的大语料库综合指数。
这个部分的具体结果包括《中国中文词频大年鉴》、《中国中文新词汇年鉴》。
B 部分:大范围的中文语料自动校对系统,统计、汇总所发现的错误词语、不规范语言现象、以及错句病句。
这部分成果可供国家语委掌控现代汉语发展现状,并供大专院校、辞书编纂机构研究用。
第二步内容是:基于中文准确分词的中文句型的大规模的机器化处理的初步工作。
中文不同印欧语系的最大特点在于,印欧语系注重词形的变化,时态、语态、数态都是通过词汇变形实现的,而中文基本没有这些词汇变化,各种语义都是通过词汇搭配实现的。
比尔盖茨在听取微软中国关于汉语特点及其机器处理的规划时指出:“中文处理需要建模。”他不愧为一个大师,一下就抓到了中文处理的要点。
中文的希望正在于此,具有象形文字遗风的汉字在电脑处理方面似乎比拼音文字语系麻烦,但是同时它又是可以率先实现语义级机器处理的语言。
中国人的脑海里存储了大量的汉语句型,但是截止目前为止,我们还没有一套可以反映现代汉语组句规律的句型库,因为这也是看似容易,但是实际建立时就很难。例如汉语常常有 SVO 这样很简单的标准句型,但是又同时把 SVO 打乱,非常灵活(如:我不吃羊肉;羊肉我不吃;我羊肉不吃)。除了较标准的句型,中文的很多活跃的词汇自身还带有句型,即由词汇决定的句型。另外有的句型是作用于上下句的,甚至作用于相邻的段落。如此几个类型叠加、组合起来就变得非常复杂了,所以我们从众多关于中文机器处理的论文里看到很多闪光的内容,但是这些内容多属于局部的、有限语料的,禁不住通用大语料库的考验。
所以国内现在几乎所有中文输入法的联想功能都是简单的联想,即联想限于相邻词汇的联想,而根本没有语义级的、连贯的理想功能;所以现在国内语言科研单位和大专院校一直急需《中文句型总库》,显然《中文句型总库》对于研究中文机器处理是一件功德无量的事情。
第三步内容是:实现外国人学中文的机器化辅助教学
随着中国国际影响的剧增,现在世界上学中文的人越来越多。世界上一直有一种误解,认为汉语是世界上最难学的语言。最近德国特里尔大学的汉学教授卜松山( Prof. Karl-Heinz Pohl )撰文指出这是极大的误解。 卜松山 教授说,学汉语其实不难,至少语法简单,没有复杂的词尾变化和变格。但是很多外国人学汉语的时候对四声音调难以掌握到位, " 妈妈骂马 " 就是经典练习,说不好的话意思都拧了。汉语中有 5 万个汉字,一般较少用到那么多,读书看报只需要掌握 1500 - 3000 个汉字便可以应对了。只要你肯于记住这些汉字,那么汉语就是世界上最容易学的语言之一。
这是外国人认识汉语的明显进步,我们应当利用电脑和网络大大地助汉语学习一臂之力。
捷通华文的中文自动分词和语法成分分析,将使汉语学习的效率获得极大的提高,它很容易发展成为一种在线学习工具,进而发展成为一个巨大产业,对于汉语的传播,对于之外交流的促进,同样是一件功德无量的事情。
第四步内容是:中文信息现代化处理的总推进。
这个“总推进”包括:文章主题自动提取(辑要或缩写)、机器翻译、语义搜索和汉语的全语音识别。
其实“总推进”中的四项内容中哪一项,单拿出来都一个大产业,只是由于它们的研发难度都较大,都要建立在前三步工作成熟的基础之上才能得以大步推进,基于这个共同点,这里且将它们放在一起,并且称之为“总推进”。
由此看来汉语无疑是一个伟大宝库,有世界四分之一人口使用的语言当然伟大,同时因此这里还孕育了惊人的商机。
润物细无声,王道无近功。
捷通华文经常用这句话来勉励自己,在中文分词这个田园上安于寂寞,而苦苦耕耘。
安于寂寞,当然也要只争朝夕,汉语自动化处理这个领域,在五笔字型、手写输入、中文搜索成功之后已经寂静了好几年了,人们对于新的突破已经到了时不可待的地步,我们必须尽快地前进!
这个出于学术严谨的原则,捷通华文将在所处理的语料库达到亿字规模才能推出这套技术,唯这样才能避免以往的“先热后冷”的尴尬,才能起到真正掀起一次中文信息的革命热潮。
由于中文信息处理的产业很大,结构宏繁,捷通华文将弘扬大局观,适时扩大合作,在本研究领域合理共享资源,好在建设百年企业,和建设汉语信息自动化处理的百年大计在功利上是一致的。
企盼着这一天早日到来。
更多信息请登陆公司网站:
www.sinovoice.com.cn