这不再是一个简单的词库。决不是将10万词条拼在一起就是词库的做法。这个词库精心考虑并且解决了很多问题,可谓举世无双,世间仅有,不可多得,我对它的敬佩,简直如滔滔江水,延绵不绝!
1:经过复杂而精心考虑的词频分配,配合点讯的词库压制分为2500个频段的特点,词频越高,频段越细。比起上一版本明显提高输出速度,特别是3字词的速度。同时避免调整词频产生的词频混乱问题。
2:分离2,3,4以及以上的字数词条,实现2字词条比3字词条优先,3字又比4字优先等,避免输入两个字的词语的时候点讯会按声母匹配出来一堆长长的词条的麻烦。如果需要简拼,请用隔音符。
3:2字词分离第二字读音为zi,ci,si的词条,实现zi,ci,si的词条比zh,ch,sh的词条优先,避免了要输入“燕子”而优先输出的是“研制”等按Zh优先匹配的做法。
这是拇指键盘和梅花按词频和声母双重优先匹配的特有问题,只有通过此办法解决。所以此词库特别适合拇指键盘使用。输出优先法则为:
字数词条:
2字>3字>4字以上
第二个字读音:
ai,bi,ci>chx,
pi,qi,ri,si>shx,
xi,yi,zi>zhx,
a>bx,
e>dx,
i>gx,
o>mx,
u>tx.
4:去掉废词若干,改掉错音词若干。
技术公开。但是主要是耗费大量人力物力,相信没人会为这事自己重复做一遍。
---------------目前只完成了ai,bi,ci>chx;pi,qi,ri,si>shx;xi,yi,zi>zhx,部分,耗费大量人力物力,不再做了。剩下的就交给点讯去改进吧。我已经将规则提交上去了--------------
输入请注意:
1,绝大部分聊天用语都已包含,比如:有空聊,下次聊,很久不见了,想死你了,烦死了,吃了吗,下次见……等等,大可以放心随意输入即可,充分利用,速度大大的提高了,不需要自己造词。
2,另外出一个医学版,包含部分医学词汇,仅少量基础词汇和常见药物,仅足够日常生活使用,打论文还是必须得在电脑上完成。大部分长词条可以通过基础词汇组合得到。所以这个词库更适合医学专业的朋友使用,输入的时候也不需要单个字输入,尽可以打词组。
本词库的特点是:精〔精挑细选〕,准〔准确校正〕,全〔力求包含最多专业基础词汇〕,快〔速度不会明显延迟〕,偏〔偏重于聊天口语〕
20080926发现:〔因是手机上传,我的手机上网不包月,流量要费用,所以只传医学版,此个版本只比普通版多出1300医学基础词条,普通人使用完全不受影响,暂时不打算上传普通版。〕
——已经修正——
乍暖还寒——错音,huan
上窜下跳——错词〔正确:上蹿下跳〕
像模像样——错音,mu
综合症——错词〔正确:综合征〕
另外加上一些常用短语,如〔这类词组不需要全部打完,只要在点讯上打出前四五个字就会自动上屏〕:
哑巴吃黄连有苦说不出;
落花有意流水无情;
麻雀虽小五脏俱全;
明枪易挡暗箭难防;
嫁鸡随鸡嫁狗随狗;
医学词条举例〔包括名词和药物〕:
整联蛋白zheng'lian'dan'bai 0
整装制片zheng'zhuang'zhi'pian 0
知柏地黄丸zhi'bai'di'huang'wan 0
炙贝zhi'bei 0
指端zhi'duan 0
脂肪栓塞zhi'fang'shuan'se 0
阿米替林a'mi'ti'lin 0
阿普洛尔a'pu'luo'er 0
阿曲库铵a'qu'ku'an 0
阿司咪唑a'si'mi'zuo 0
阿斯综合征a'si'zong'he'zheng 0
阿糖胞苷a'tang'bao'gan 0
等等。
20080925有更新,改变如下:
会展——删除(“汇展”为正确用法)
知书达理——错词〔应为“知书达礼”,另有:通情达理〕
外传——多音字
高材生——错词,应为“高才生”
猪蹄膀——错词,应为“猪蹄髈”
增加大约有一千句左右常用短语和口语。比如:左顾右盼,等等。
20090912中秋节前来点小礼物吧。因为很多人支持,所以把码表也开放出来。这个码表好处就是很规范,甚至可以用来教小孩子~~~~~~
20080907,既然做了,就拿上来吧。没什么大改动。就是最近没什么生意,很有空,往里面加入少量词组而已。
[ 本帖最后由 wulishui 于 2008-10-8 19:44 编辑 ]
附件: 您所在的用户组无法下载或查看附件