Google
      
发新话题
打印

[原创] 顶级 梅花6 词库,词量10.9万。

本主题由 szeas 于 2008-9-28 23:36 设置高亮

顶级 梅花6 词库,词量10.9万。

——不是要你顶,也不是要你宣传,只是提醒你一句,当某一天遇到一个需要你帮助的人的时候,请伸出你的手!——

因为觉得这个人间太过冷漠,特别是网络。很多人都只是想得到,不愿意一点付出。感到很失望。所以已经撤销了其他所有论坛下载。
可是帝国还是值得称赞的地方。一直以来,在这里都是得到,没有为大家做出什么,大家气氛也好。
那么,就唯一在这里提供下载,别无分店。

说明:PPC,s60梅花6通用。S60必须在电脑端解压再复制到手机中使用,否则会出问题。

20080711增加8万版本,适合s60使用,不会卡。附件在二楼。如有发现错误,请跟帖留言。
与官方不同:
1,非官方词频。更符合聊天习惯,首选准确率高。其实词频并不是本人制取,算是盗版所得,不过半年来不断经过调整,已经不是原来的能比了。在此感谢拼音加加论坛和紫光输入法。
2,加入本人原创聊天口语用语约10000条。适合聊天。当然,不会有粗话。
3,修正官方大多数错词错音。
4,词汇量集中在2字和3字,请输入的时候
5,精确校错,比如“像”与“象”与“相”,“账”与“帐”,“覆”与“复”混淆不清问题,以及大部分多音字错音,以及口语和书面语读音问题。
6,经过词频和拼音双重优化排序,可以明显减轻由于词库增大而造成延迟的问题。
注意特点可提高输入速度。

--------------------版权没有,盗版不究-------------------

20080912中秋节前加上600口语。多谢各位。去掉重复的“秘技”.


20080903小量改正和增加1700多口语词条。因为本人喜欢紫光,所以将这个词库做了个紫光版,方便使用。如果你需要高准确率,而且喜欢聊天,和少废词,可以考虑使用这个词库,并且其他词库可以关闭,因为紫光智能组词功能几乎可以用10万词库来满足绝大多数日常需要。紫光词库较大,所以不在这里上传,放在点讯梅花论坛了。修正少量异形词如下:


鱼叉——渔
鱼钩——渔
鱼钓——渔
鱼船——渔
密技——秘技
作伴——做伴
制做群——制作群
做弄出——删除
化做——化作
装做——装作
伪装做——伪装作
做诗——作诗



20080819有一两个异形词,去掉。有一部分废词,去掉。有一个错误读音,改正。

20080813发现多个异形词,如“关於”的“於”,“阙如”的“阙”,等,去除。剔除很多废词,再度精简。调整了几个常用词词频。



20080801校正记录请看压缩包里面的说明文件。
与dante326联合,经过很多网友帮助,强力校对纠错,错别字、错词绝大部分被剔除,准确度将全面超越官方词库!现在开始,11万版本由我制作发布,8.8万精简版分支出去由 dante326制作发布,纠错精确度相同。并且经过我们以及其它网友努力,克服了词库词频过高导致词条比单个字优先候选的问题,以后输入jia,将不是“篱笆”首选而是“家”,输入“bang”将不是“保护”首选,而是“帮”,所以大家可以灵活使用隔音符。请各位多多支持!
感谢以下朋友在词库校对以及发布上的贡献(排名不分先后):
lovegl
beckyer
dante326
chinayankai
huyibing


20080729。恐怕没有太多时间做啦!不过经过大家努力,发现很多错误,特别是错别字。现有发现的都已校正,记录见二楼。同时,13万〔实际上只为12万〕和8万精简版本将分支出去由不同人员制作,本人只制作13万的。并且错误同步校正,资源共享。如陆续发现错误,请分清版本,然后联系我们。另外同时提供一个高字频字库,两个文件一并覆盖系统自带的,可以避免因为词库增大导致单个字选字困难问题〔覆盖后单个字优先候选〕,使用中需要灵活使用隔音符。尽量用全拼。输入中尽量使用双字和三字词。
算是得到很多人帮助,所以从此恢复其他论坛更新,但因为手机上传不容易,所以所有下载均指向本帖。

20080723。昨夜一夜没睡。为了个早产的弄了一夜。最后没死。不过家属不要了。不过没睡就去看看我的词库,发现存在“炭”与“碳”混淆不清问题,比如“炭素”等等“炭酸”,是错词〔官方词库上有的,这部分集合的是官方词库词条〕,剔除之。“曝”与“暴”问题,暂时没有十分肯定的答案,按点讯论坛讨论结果实行。事实上现在词库只有121000条词条,原先有近1000条重复,过滤掉了。现在唯一梦想就是立刻能睡着。暂时不上传。

20080721有人说“么佬族”影响他使用。鉴于很少用到这个词语,所以还是去掉。“曝光”、“暴光”读pu'guang没错,不过为旧读音,改正为新读音。“呀呀学语”为错词,剔除。鉴于拼音为软件生成,错误无法避免,发现一个改正一个。并进一步精简。放心,这些精简掉的词可能你一辈子都不会用到。

20080719发现有:“篷”与“蓬”混淆不清问题,校正。

20080718,修改已发现的“分”与“份”,“气”与“汽”混淆不清的问题,去掉一个漏网之鱼“算帐”。词频改变了,8万的和以前不同,只是在前80000条截取出来制作。剩下的5万丢弃。所以词汇量会小很多。附件在二楼。好累,暂时不玩了,现在基本上也比市面上所有词库错误都小。大家如果发现问题,发消息给我。以后改正。

20080714如无意外,将提供双重排序优化版和8万版。13万请先到点讯论坛下载。
为了版本版本混乱不清的问题,接近13万的还是用13万称呼,接近8万的还是用8万称呼。

20080713 05:50集中修改“像”与“象”混淆不清的问题。〔新华字典分得很清楚,相似的是“像”,如:好像,相像,像话,像我,等。和图像、音像、雕像,偶像等有关的为“像”,如:摄像头,显像管,录像等。其余的为“象”,如:想象,现象,形象,象形,等,本例按这个标准改正。即使老牌智能ABC都无法避免,照样混淆不清,唯有微软拼音准确率高〕。如有漏网之鱼,希望大家指出。大版为12.7万,小版为8.9万。附件还没上传!!!稍候!!!

像片,录相,照像机为错词,去除。

20080716增加强制词频取词版本,只做了13万的.如果你以往版本能顺利使用,这个版本不需要更新,如果你以往版本用得卡,那么请试试这个版本.


20080711增加8万〔实际上为8万5左右〕低端机器版。你的机能用哪个版本?试试看用吧,反正不要钱!

20080709唯一在帝国发布。

20080628修正一个错音。加入300聊天用词。


20080620遇到太多困难。停止制作,停止下载,并且永不再发布!

20080526取消一些错词,纪念5.12地震,增加“汶川大地震”,“全国哀悼日”。以往版本可完美使用的无须更换。梅花6 beta1一下版本无须重启,beta2必须覆盖后重启。
另加一个英文词库,在官方基础上加1000多四六级基础词汇和汉语拼音,以后可以和A4一样输入拼音而无须一个个字母打。

20080427再生成一个,力求减少错词。附上还没完成的TOUCH皮肤大家试用。没有延迟的,不会闪屏,放心使用。只完成了拼音10,数字,英文10,del1。其余还没完成。


原先的已经无意中损坏,新的是严格按照标准普通话制作,所以平时有读别音习惯的哥们使用上要改正一下使用习惯啦!比如“好好地de”,“努力地de”,严格读de,而不是其他输入法的读“di”。“血”按照新华字典统一读xue,读xie的是方言,“谁”按照书面语统一读“shui”,不读口语的shei。特意花钱上网吧做的,个位要珍惜啊!


20080403闲得无聊,再更新了一次。剔除一些错误成语用语。

使用了大词库后会有一定输入延迟,经验证明有两个方法可以减轻延迟。
第一是使用官方的“touch”面板,经验证明只有这个面板没有延迟。不过可惜的是这个面板太难看。
第二是增大字体缓存,打开sktools,打开“系统调整——字体缓存大小”,填上131072。重启。此举并不会明显耗用系统内存,不过输入法输入延迟却可以明显减轻。


20080401再发现一两个错音,改正了。删除一些在PPC上几乎一辈子都用不到的词条,稍微减轻一下词库体积。本来没打算发上来,不过看斑竹加我那么多JB,还是放上来啦!

20080326削减掉2万无关人名以及非正规词语以及错词,剩下14万9千多词条.修正近十多处多音字错音(比如"没药",药名应为"mo'yao"等),建议配合官方的touch皮肤(安装6.0 beta1自带该皮肤)或者其他QWERTY15键皮肤(818经过使用只有这两种皮肤最完美无延迟),几乎可以达到毫无延迟的使用.
这是最后一个版本。以后有空加无聊的时候可能才会再做这东西。实在太耗费人力物力,要靠人工去筛选词条,去掉两万多,而且靠人工去校正多音字可不是说笑的。
码表文件放上来,有兴趣的自己玩.


更新自己原创四千口语词汇,方便聊天输入,比如吃了,吃过,去哪里,我没有,发短信,好不好,不理等之类的,需要打双词条以上才能发挥作用。另外在官方基础上加入约三万常用词汇,和医学词汇,词库经过排序优化查询速度,比官方六万词库并没有延迟。修改了官方词库几处错词错音,不过有可能会带入新的错误,因为拼音是软件自动生成,多音字没有排错功能,需要使用中发现改进。官方词频并不完美,以后慢慢修改它符合自己使用习惯。现在手机上网,争取明晚放上来。不过感觉梅花输入习惯并不比a4好用,我主要看中了梅花可以自己做词库这个优点,自己做符合自己使用习惯的词库。

初步修正了官方词库中发现的一部分错别字和别音字,如下:

衣衫蓝缕---(错词,应为“衣衫褴褛”。)
番禺---(地名读pan'yu,无fan'yu这个词)
还得---(读hai'dei,不是hai'de)
有时侯 you|shi|hou 531----是否错词?如“有时候”的“时候”?(无“时侯”这个词)
长在 chang|zai 700---zhang zai?(生长在?)
还礼 hai|li 95---huan li(还为“归还”意思)
还魂 hai|hun 42---huan hun(同上)
清还 qing|hai 20---qing huan(同上)
血债血还 xue|zhai|xue|hai 3---...huan(同上)
可得 ke|de 515--ke dei?(是“唾手可得”的“可得de”还是“你可得dei”的“得dei”?我按后者修改)
覆没 fu|mei 67---fu mo(同“全军覆没mo”)
湮没无闻 yan|mei|wu|wen 8---yan mo(请查字典)
解铃还需系铃人 jie|ling|hai|xu|xi|ling|ren 5---重复了,删除掉。
不致于 bu|zhi|yu 70---官方错词?是“不至于”吧?应无“不致于”,不过紫光词库确有“不致于”此此。我按前者修改。
朱熔基 zhu|rong|ji 1241---去除算啦,虽然无错
爱滋病---(用“艾滋病”,力求最通用啦,删除。)

20080220修正几处词库错词以及错误拼音,并且调整词频,更适合使用习惯,欢迎使用!
20080221修改
桑葚 sang|shen 58——错词
拉拉队 la|la|dui 7——20080711说明:并无错,只是一个偏词而已,保留了。

20080306更新
1.16万,1.5M左右。
2.词组与第一版相差不大。
3.多音字大部分经过辞典校对。
4.完全不采用官方的词频,而是来源于网络,首选准确率更加准确。
5.经过优化排序,速度要比第一版快一点。使用上经过对比跟官方6万没有很明显减慢,除非同时打开3个以上程序才会有感觉。
6.词组量集中在两字与三字词(达14万左右),使用上建议双字、三字连打。

缺点:
体积大,可惜内存的不要用。



如大家发现有错,请跟帖,我改正。使用时建议打双字和三字此条,速度最快。成语除外。
只适用于梅花6,请解压后放到\program files\PlumSIP6\下覆盖原词库文件。如果你担心不能使用,覆盖前请将原CH2改名为CH20,以便还原。以上词库都经过实际使用,使用完美。请输入32541424,如果可以出现“我是谁”,即表示成功,呵呵~~~~~


S60的必须在电脑上解压,不能在手机上解压,否则无法使用!!!!!!
S60三版使用方法:解压后找把当前输入法切换为其他,再把文件(中文为ch2,英文为en1)覆盖到:C:/Data/dayhandinput/lib/文件夹内里,再切换到到点讯立刻使用.

[ 本帖最后由 wulishui 于 2008-10-7 09:25 编辑 ]
附件: 您所在的用户组无法下载或查看附件
本帖最近评分记录
  • 独孤天马 金币 +5 支持你,继续努力。 2008-8-10 21:17
  • epzhlp 金币 +5 原创内容,感谢啦~~~ 2008-8-3 21:14
  • ngiaoe 金币 +1 感谢楼主辛苦劳作!! 2008-8-2 09:39
  • walkinger 金币 +1 感谢! 2008-7-24 09:33
  • xianjue114 技术 +1 原创内容 2008-7-14 15:28

TOP

这不再是一个简单的词库。决不是将10万词条拼在一起就是词库的做法。这个词库精心考虑并且解决了很多问题,可谓举世无双,世间仅有,不可多得,我对它的敬佩,简直如滔滔江水,延绵不绝!
1:经过复杂而精心考虑的词频分配,配合点讯的词库压制分为2500个频段的特点,词频越高,频段越细。比起上一版本明显提高输出速度,特别是3字词的速度。同时避免调整词频产生的词频混乱问题。
2:分离2,3,4以及以上的字数词条,实现2字词条比3字词条优先,3字又比4字优先等,避免输入两个字的词语的时候点讯会按声母匹配出来一堆长长的词条的麻烦。如果需要简拼,请用隔音符。
3:2字词分离第二字读音为zi,ci,si的词条,实现zi,ci,si的词条比zh,ch,sh的词条优先,避免了要输入“燕子”而优先输出的是“研制”等按Zh优先匹配的做法。
这是拇指键盘和梅花按词频和声母双重优先匹配的特有问题,只有通过此办法解决。所以此词库特别适合拇指键盘使用。输出优先法则为:
字数词条:
2字>3字>4字以上
第二个字读音:
ai,bi,ci>chx,
pi,qi,ri,si>shx,
xi,yi,zi>zhx,
a>bx,
e>dx,
i>gx,
o>mx,
u>tx.
4:去掉废词若干,改掉错音词若干。
技术公开。但是主要是耗费大量人力物力,相信没人会为这事自己重复做一遍。

---------------目前只完成了ai,bi,ci>chx;pi,qi,ri,si>shx;xi,yi,zi>zhx,部分,耗费大量人力物力,不再做了。剩下的就交给点讯去改进吧。我已经将规则提交上去了--------------

输入请注意:

1,绝大部分聊天用语都已包含,比如:有空聊,下次聊,很久不见了,想死你了,烦死了,吃了吗,下次见……等等,大可以放心随意输入即可,充分利用,速度大大的提高了,不需要自己造词。

2,另外出一个医学版,包含部分医学词汇,仅少量基础词汇和常见药物,仅足够日常生活使用,打论文还是必须得在电脑上完成。大部分长词条可以通过基础词汇组合得到。所以这个词库更适合医学专业的朋友使用,输入的时候也不需要单个字输入,尽可以打词组。

本词库的特点是:精〔精挑细选〕,准〔准确校正〕,全〔力求包含最多专业基础词汇〕,快〔速度不会明显延迟〕,偏〔偏重于聊天口语〕

20080926发现:〔因是手机上传,我的手机上网不包月,流量要费用,所以只传医学版,此个版本只比普通版多出1300医学基础词条,普通人使用完全不受影响,暂时不打算上传普通版。〕

——已经修正——
乍暖还寒——错音,huan
上窜下跳——错词〔正确:上蹿下跳〕
像模像样——错音,mu
综合症——错词〔正确:综合征〕

另外加上一些常用短语,如〔这类词组不需要全部打完,只要在点讯上打出前四五个字就会自动上屏〕:
哑巴吃黄连有苦说不出;
落花有意流水无情;
麻雀虽小五脏俱全;
明枪易挡暗箭难防;
嫁鸡随鸡嫁狗随狗;

医学词条举例〔包括名词和药物〕:
整联蛋白zheng'lian'dan'bai        0
整装制片zheng'zhuang'zhi'pian        0
知柏地黄丸zhi'bai'di'huang'wan        0
炙贝zhi'bei        0
指端zhi'duan        0
脂肪栓塞zhi'fang'shuan'se        0
阿米替林a'mi'ti'lin        0
阿普洛尔a'pu'luo'er        0
阿曲库铵a'qu'ku'an        0
阿司咪唑a'si'mi'zuo        0
阿斯综合征a'si'zong'he'zheng        0
阿糖胞苷a'tang'bao'gan        0
等等。


20080925有更新,改变如下:
会展——删除(“汇展”为正确用法)
知书达理——错词〔应为“知书达礼”,另有:通情达理〕
外传——多音字
高材生——错词,应为“高才生”
猪蹄膀——错词,应为“猪蹄髈”
增加大约有一千句左右常用短语和口语。比如:左顾右盼,等等。


20090912中秋节前来点小礼物吧。因为很多人支持,所以把码表也开放出来。这个码表好处就是很规范,甚至可以用来教小孩子~~~~~~



20080907,既然做了,就拿上来吧。没什么大改动。就是最近没什么生意,很有空,往里面加入少量词组而已。

[ 本帖最后由 wulishui 于 2008-10-8 19:44 编辑 ]
附件: 您所在的用户组无法下载或查看附件
本帖最近评分记录
  • kuboy 金币 +1 帝国因为您的贡献而精彩 2008-8-31 14:18
  • mgrbao 金币 +2 原创内容 2008-8-23 11:11
  • polaris008 贡献 +1 修正辛苦! 2008-8-20 15:30
  • polaris008 金币 +2 修正辛苦! 2008-8-20 15:30
  • epzhlp 金币 +5 又有修正?兄弟辛苦了~~~再加金支持~~~~ 2008-8-9 22:52

TOP

这个板凳一直是我的,做板凳上等你出新的,很久没来了,忙着考资格证

[ 本帖最后由 karl0557 于 2008-8-14 00:30 编辑 ]

TOP

还有说一下,我用的是N70,S60v2的机子,用起来一点不觉得卡,很好的楼主,S60没有你想的那么不济,虽然可能确实比WM差些(我没用过WM,不好说)

TOP

感谢分享
dopod830
IPL:2.20.0001
SPL:2.G4.4PDA
GSM:02.69.21
OS:9.5.0.0  CHS

TOP

感谢楼主的分享
请问做一个A4的嘛,或者告诉我A4词库的制作方法

拜谢了
www.colaandice.cn

TOP

SFASD.FJ ASDF ;AKSD;LF ASKJDF LAJS'D JFLSJD 'LKFJA'LSD 'LKASD F
本帖最近评分记录
  • 龙抬头 金币 -1 恶意灌水 2008-7-20 22:54

TOP

谢谢楼主!

TOP

强烈支持,谢谢了

TOP

不错类  支持下 呵呵

TOP

发新话题