[英库拼音输入法Beta专题测试,云输入2.0] 影库拼音输入法
每个中文用户都需要学会的一项基础PC操作技能就是“打字”,从单字输入到词语输入,再到借助搜索引擎技术实现的整句输入,如今的汉字输入法已经处在一个新的发展拐点。将搜索引擎技术与输入法结合之后,候选词的动态排序和词库的动态更新功能大大提高了汉字输入的准确性和命中率,但可惜的是中文输入法对于搜索引擎技术的挖掘也止步于此,在技术创新上并没有走得更远。
经过微软亚洲研究院与微软中国Office商务软件部1年左右的联合研发,微软终于推出了自己的第一款云输入法——“英库拼音”。该产品基于微软的“英库(Engkoo)”技术。“英库”是微软于2009年推出的自然语言领域的技术集合。它借助云计算平台以及先进的自然语言处理技术和语音处理技术,为中英文词典、机器翻译、语言辅助学习、中英文输入以及写作等语言相关的应用提供基础技术。英库拼音输入法是继英库词典(现名必应词典)之后,微软亚洲研究院在“英库”技术基础上的又一项研究成果。通过云计算技术提供的强大存储和处理能力,英库拼音不仅让中文输入更快捷、精准和智能,而且创新性地将输入由文本扩展至更为丰富的多媒体信息,为用户带来了与众不同的使用体验。
基本输入命中率
对于汉字输入系统而言,准确性是最核心的竞争力。在包含“非主流、微电影、火星文、 秒杀、人肉搜索、经济适用男、萝莉、腐女、伤不起、凤凰男、裸婚、御姐、穿越、吐槽、车震、跑酷、基友、你懂的、腹黑、正太”在内的20个当前最热门的搜索关键词的输入测试中,英库拼音测试版将其中的18个热门词汇排列在了候选词的首位,只有“腐女”的默认排序是第3位,“基友”的默认排序是第12位。而目前国内用户量最大的输入法搜狗拼音将17个热门词汇排在候选词的首位,“腐女”、“基友”和“你懂的”都排位靠后。
在最容易写错的20个成语测试中,英库拼音的准确率为100%,而搜狗拼音在保证首个候选词正确的同时,画蛇添足地将括号中的错误写法排在了候选词的第2位,例如按部就班(按步就班)、别出心裁(别出新裁)和矫揉造作(挢揉造作)。另外,从实际体验来说,英库拼音在整句输入上的准确率之高也令人刮目相看。
不难看出,还处在公开测试阶段的英库拼音的中文引擎核心性能拥有极高的水准,甚至在一些关键指标上优于已经“出道”多年的主流拼音输入法。但英库拼音输入法真正的独家秘笈并不在于此。
增强的字词输入
云计算技术使英库拼音输入法创新性地实现了更自然的中英文混合输入,用户无需通过额外按键(通常是[Shift]键)反复切换中英文的输入模式,拼音和英文即可被准确识别,而且能够很自然地融合在一起输入。例如可以直接输入“weiruankinect”得到“微软kinect”或者输入“chipxindiannao”得到“chip新电脑”。英库拼音输入法的这一功能对于用户,尤其是有双语输入习惯的用户而言有重要的意义,目前还没有任何其他产品可以做到这一点。
另外,英库拼音还能够更智能地输入英文单词。开启“英文输入小帮手”功能后,在英文输入模式下,英库输入法可以智能地辅助我们完成英文输入任务。像其他英文输入法一样,它拥有最基本的单词自动补充和纠正功能。更特别的地方在于,如果我们一时想不起单词的拼写,那么直接按照汉语拼音的拼写方式将单词的读音大致拼出来,英文输入助手就会提供读音相近的词供我们选择;如果完全不知道要用哪个单词,那么直接输入该单词的汉语拼音,英库拼音还可以为我们提供英文单词的建议。例如输入“feiniks”就可以得到我们想输入的单词“phoenix”(凤凰),输入汉语拼音“hangtianfeiji”,就可以得到单词“space shuttle”(航天飞机)。
懂你的输入法
传统的中文输入法只能输入文字和一些简易的表情。但是英库拼音输入法创新性地将输入由文本扩展至更为丰富的图片、地图和网页等多媒体信息。
输入字母[v],然后选择第一个候选种类“图片”,接下来输入想要的关键词,例如“超极本”,就可以得到来自必应图片搜索引擎搜索到的图片“候选词”,我们不需要打开浏览器就可以将搜索到的图片(缩略图)插入到正在编辑的文档中;选择第二个候选种类“地图”,然后输入想要的地名,例如“奥体中心”,就可以得到当地奥体中心的地图位置信息;选择第三个候选种类“网页”,然后输入关键词,例如“新电脑”,就可以得到从必应搜索中截取的搜索结果摘要和网址。
除了能帮助用户输入更丰富的信息之外,英库拼音还能更好地解读用户的输入意图,它可以智能地识别用户所处的情景和输入习惯。例如在MSN聊天窗口中输入“哈哈”,就会出现表情图片,但在记事本中输入相同关键字,表情图片这种候选结果则不会出现;在Word中使用“V模式”搜索地图可以得到地图的图片截图,但是在记事本中输入相同关键字则能得到该地图的链接地址;和朋友聊天时说到想去看最近流行的电影(例如“看变形金刚”),就可以在候选词中看到电影视频的缩略图,将鼠标放在缩略图上,视频即可自动播放。
另外,聪明的输入法还应该会不断地“自学习”。例如,当英库拼音输入法发现很多用户选择进入“V模式”搜索某个词条的图片时,它就会知道并记录下来,下一次直接输入这个词条即会显示出图片候选项。
结论
虽然英库拼音输入法刚刚推出第一个公开测试版本,很多创新的功能还处在雏形阶段,还有许多难题需要攻克,例如目前的“V模式”还有很多限制,实用性有待考验,但是它的设计理念为我们带来了惊喜。随着后续版本功能上的不断完善和设计上的进一步优化,相信微软产品的中文输入体验将会迎来大幅度的革新。不过更重要的是,它意味着更智能的云输入2.0时代即将到来,借助云计算、数据挖掘和机器学习技术,更懂用户的输入体验就在不远处。
让输入法更聪明
微软的基础研究之一就是千方百计通过网络挖掘来发现刚刚出现的新词汇。网络挖掘与机器学习也是相关联的。他们教会机器,什么是词汇,什么是语言,其中的基本内容之一是建立语言模型。这也是输入法的核心。基础研究的意义在于从最基本的层面上改善IME体验,让它更加精确、速度更快。
英库是以前的工作和现在的工作之间的一次过渡。他们希望把顶尖的研发成果带给大家,这也是英库拼音输入法的重要差别化因素之一。未来版本中,英库拼音还将增加更多的功能,让它变得更聪明,这样用户就可以集中精力进行交谈或者完成写作任务,而无需担心其背后的细节。
研发挑战
在基础研究过程中,你必须沿着一条从未走过的道路前行,如何判断自己所走的是一条正确的道路,这是最主要的挑战。但幸运的是,车继伟的Office团队在工程设计方面为我们提供了极大的支持,让我们判断出自己是否在朝着正确的方向前进,因此我们能够按时,甚至提前交付高质量的产品。
——Matthew Scott
微软亚洲研究院创新工程中心高级研发主管
用户行为调研是一个很复杂的过程,我们有传统的行为调研、数据分析,也会做前一版的数据分析,看现在的设计模式。微妙之处在于,有些决定是设计主导,有些决定则是数据或者行为分析主导,我们需要在两者之间取得平衡。同样,在用户选择和机器智能之间取得平衡,也是比较大的挑战。
——车继伟
微软中国Office商务软件部产品规划总监