返回列表 回复 发帖 点我体验网上斗地主的乐趣

[原创] 顶级 梅花6,6.1词库,词量14万,"20090325"版。

相关搜索: 梅花, 词库, quot
——不是要你顶,也不是要你宣传,只是提醒你一句,当某一天遇到一个需要你帮助的人的时候,请伸出你的手!——
因为觉得这个人间太过冷漠,特别是网络。很多人都只是想得到,不愿意一点付出。感到很失望。所以已经撤销了其他所有论坛下载。
可是帝国还是值得称赞的地方。一直以来,在这里都是得到,没有为大家做出什么,大家气氛也好。
那么,就唯一在这里提供下载,别无分店。
说明:PPC,s60梅花6通用。S60必须在电脑端解压再复制到手机中使用,否则会出问题。
20080711增加8万版本,适合s60使用,不会卡。附件在二楼。如有发现错误,请跟帖留言。
与官方不同:
1,非官方词频。更符合聊天习惯,首选准确率高。其实词频并不是本人制取,算是盗版所得,不过半年来不断经过调整,已经不是原来的能比了。在此感谢拼音加加论坛和紫光输入法。
2,加入本人原创聊天口语用语约10000条。适合聊天。当然,不会有粗话。
3,修正官方大多数错词错音。
4,词汇量集中在2字和3字,请输入的时候
5,精确校错,比如“像”与“象”与“相”,“账”与“帐”,“覆”与“复”混淆不清问题,以及大部分多音字错音,以及口语和书面语读音问题。
6,经过词频和拼音双重优化排序,可以明显减轻由于词库增大而造成延迟的问题。
注意特点可提高输入速度。
--------------------版权没有,盗版不究-------------------
20080912中秋节前加上600口语。多谢各位。去掉重复的“秘技”.
20080903小量改正和增加1700多口语词条。因为本人喜欢紫光,所以将这个词库做了个紫光版,方便使用。如果你需要高准确率,而且喜欢聊天,和少废词,可以考虑使用这个词库,并且其他词库可以关闭,因为紫光智能组词功能几乎可以用10万词库来满足绝大多数日常需要。紫光词库较大,所以不在这里上传,放在点讯梅花论坛了。修正少量异形词如下:
鱼叉——渔
鱼钩——渔
鱼钓——渔
鱼船——渔
密技——秘技
作伴——做伴
制做群——制作群
做弄出——删除
化做——化作
装做——装作
伪装做——伪装作
做诗——作诗
20080819有一两个异形词,去掉。有一部分废词,去掉。有一个错误读音,改正。
20080813发现多个异形词,如“关於”的“於”,“阙如”的“阙”,等,去除。剔除很多废词,再度精简。调整了几个常用词词频。
20080801校正记录请看压缩包里面的说明文件。
与dante326联合,经过很多网友帮助,强力校对纠错,错别字、错词绝大部分被剔除,准确度将全面超越官方词库!现在开始,11万版本由我制作发布,8.8万精简版分支出去由 dante326制作发布,纠错精确度相同。并且经过我们以及其它网友努力,克服了词库词频过高导致词条比单个字优先候选的问题,以后输入jia,将不是“篱笆”首选而是“家”,输入“bang”将不是“保护”首选,而是“帮”,所以大家可以灵活使用隔音符。请各位多多支持!
感谢以下朋友在词库校对以及发布上的贡献(排名不分先后):
lovegl
beckyer
dante326
chinayankai
huyibing
20080729。恐怕没有太多时间做啦!不过经过大家努力,发现很多错误,特别是错别字。现有发现的都已校正,记录见二楼。同时,13万〔实际上只为12万〕和8万精简版本将分支出去由不同人员制作,本人只制作13万的。并且错误同步校正,资源共享。如陆续发现错误,请分清版本,然后联系我们。另外同时提供一个高字频字库,两个文件一并覆盖系统自带的,可以避免因为词库增大导致单个字选字困难问题〔覆盖后单个字优先候选〕,使用中需要灵活使用隔音符。尽量用全拼。输入中尽量使用双字和三字词。
算是得到很多人帮助,所以从此恢复其他论坛更新,但因为手机上传不容易,所以所有下载均指向本帖。
20080723。昨夜一夜没睡。为了个早产的弄了一夜。最后没死。不过家属不要了。不过没睡就去看看我的词库,发现存在“炭”与“碳”混淆不清问题,比如“炭素”等等“炭酸”,是错词〔官方词库上有的,这部分集合的是官方词库词条〕,剔除之。“曝”与“暴”问题,暂时没有十分肯定的答案,按点讯论坛讨论结果实行。事实上现在词库只有121000条词条,原先有近1000条重复,过滤掉了。现在唯一梦想就是立刻能睡着。暂时不上传。
20080721有人说“么佬族”影响他使用。鉴于很少用到这个词语,所以还是去掉。“曝光”、“暴光”读pu'guang没错,不过为旧读音,改正为新读音。“呀呀学语”为错词,剔除。鉴于拼音为软件生成,错误无法避免,发现一个改正一个。并进一步精简。放心,这些精简掉的词可能你一辈子都不会用到。
20080719发现有:“篷”与“蓬”混淆不清问题,校正。
20080718,修改已发现的“分”与“份”,“气”与“汽”混淆不清的问题,去掉一个漏网之鱼“算帐”。词频改变了,8万的和以前不同,只是在前80000条截取出来制作。剩下的5万丢弃。所以词汇量会小很多。附件在二楼。好累,暂时不玩了,现在基本上也比市面上所有词库错误都小。大家如果发现问题,发消息给我。以后改正。
20080714如无意外,将提供双重排序优化版和8万版。13万请先到点讯论坛下载。
为了版本版本混乱不清的问题,接近13万的还是用13万称呼,接近8万的还是用8万称呼。
20080713 05:50集中修改“像”与“象”混淆不清的问题。〔新华字典分得很清楚,相似的是“像”,如:好像,相像,像话,像我,等。和图像、音像、雕像,偶像等有关的为“像”,如:摄像头,显像管,录像等。其余的为“象”,如:想象,现象,形象,象形,等,本例按这个标准改正。即使老牌智能ABC都无法避免,照样混淆不清,唯有微软拼音准确率高〕。如有漏网之鱼,希望大家指出。大版为12.7万,小版为8.9万。附件还没上传!!!稍候!!!
像片,录相,照像机为错词,去除。
20080716增加强制词频取词版本,只做了13万的.如果你以往版本能顺利使用,这个版本不需要更新,如果你以往版本用得卡,那么请试试这个版本.
20080711增加8万〔实际上为8万5左右〕低端机器版。你的机能用哪个版本?试试看用吧,反正不要钱!
20080709唯一在帝国发布。
20080628修正一个错音。加入300聊天用词。
20080620遇到太多困难。停止制作,停止下载,并且永不再发布!
20080526取消一些错词,纪念5.12地震,增加“汶川大地震”,“全国哀悼日”。以往版本可完美使用的无须更换。梅花6 beta1一下版本无须重启,beta2必须覆盖后重启。
另加一个英文词库,在官方基础上加1000多四六级基础词汇和汉语拼音,以后可以和A4一样输入拼音而无须一个个字母打。
20080427再生成一个,力求减少错词。附上还没完成的TOUCH皮肤大家试用。没有延迟的,不会闪屏,放心使用。只完成了拼音10,数字,英文10,del1。其余还没完成。
原先的已经无意中损坏,新的是严格按照标准普通话制作,所以平时有读别音习惯的哥们使用上要改正一下使用习惯啦!比如“好好地de”,“努力地de”,严格读de,而不是其他输入法的读“di”。“血”按照新华字典统一读xue,读xie的是方言,“谁”按照书面语统一读“shui”,不读口语的shei。特意花钱上网吧做的,个位要珍惜啊!
20080403闲得无聊,再更新了一次。剔除一些错误成语用语。
使用了大词库后会有一定输入延迟,经验证明有两个方法可以减轻延迟。
第一是使用官方的“touch”面板,经验证明只有这个面板没有延迟。不过可惜的是这个面板太难看。
第二是增大字体缓存,打开sktools,打开“系统调整——字体缓存大小”,填上131072。重启。此举并不会明显耗用系统内存,不过输入法输入延迟却可以明显减轻。
20080401再发现一两个错音,改正了。删除一些在PPC上几乎一辈子都用不到的词条,稍微减轻一下词库体积。本来没打算发上来,不过看斑竹加我那么多JB,还是放上来啦!
20080326削减掉2万无关人名以及非正规词语以及错词,剩下14万9千多词条.修正近十多处多音字错音(比如"没药",药名应为"mo'yao"等),建议配合官方的touch皮肤(安装6.0 beta1自带该皮肤)或者其他QWERTY15键皮肤(818经过使用只有这两种皮肤最完美无延迟),几乎可以达到毫无延迟的使用.
这是最后一个版本。以后有空加无聊的时候可能才会再做这东西。实在太耗费人力物力,要靠人工去筛选词条,去掉两万多,而且靠人工去校正多音字可不是说笑的。
码表文件放上来,有兴趣的自己玩.
更新自己原创四千口语词汇,方便聊天输入,比如吃了,吃过,去哪里,我没有,发短信,好不好,不理等之类的,需要打双词条以上才能发挥作用。另外在官方基础上加入约三万常用词汇,和医学词汇,词库经过排序优化查询速度,比官方六万词库并没有延迟。修改了官方词库几处错词错音,不过有可能会带入新的错误,因为拼音是软件自动生成,多音字没有排错功能,需要使用中发现改进。官方词频并不完美,以后慢慢修改它符合自己使用习惯。现在手机上网,争取明晚放上来。不过感觉梅花输入习惯并不比a4好用,我主要看中了梅花可以自己做词库这个优点,自己做符合自己使用习惯的词库。
初步修正了官方词库中发现的一部分错别字和别音字,如下:
衣衫蓝缕---(错词,应为“衣衫褴褛”。)
番禺---(地名读pan'yu,无fan'yu这个词)
还得---(读hai'dei,不是hai'de)
有时侯 you|shi|hou 531----是否错词?如“有时候”的“时候”?(无“时侯”这个词)
长在 chang|zai 700---zhang zai?(生长在?)
还礼 hai|li 95---huan li(还为“归还”意思)
还魂 hai|hun 42---huan hun(同上)
清还 qing|hai 20---qing huan(同上)
血债血还 xue|zhai|xue|hai 3---...huan(同上)
可得 ke|de 515--ke dei?(是“唾手可得”的“可得de”还是“你可得dei”的“得dei”?我按后者修改)
覆没 fu|mei 67---fu mo(同“全军覆没mo”)
湮没无闻 yan|mei|wu|wen 8---yan mo(请查字典)
解铃还需系铃人 jie|ling|hai|xu|xi|ling|ren 5---重复了,删除掉。
不致于 bu|zhi|yu 70---官方错词?是“不至于”吧?应无“不致于”,不过紫光词库确有“不致于”此此。我按前者修改。
朱熔基 zhu|rong|ji 1241---去除算啦,虽然无错
爱滋病---(用“艾滋病”,力求最通用啦,删除。)
20080220修正几处词库错词以及错误拼音,并且调整词频,更适合使用习惯,欢迎使用!
20080221修改
桑葚 sang|shen 58——错词
拉拉队 la|la|dui 7——20080711说明:并无错,只是一个偏词而已,保留了。
20080306更新
1.16万,1.5M左右。
2.词组与第一版相差不大。
3.多音字大部分经过辞典校对。
4.完全不采用官方的词频,而是来源于网络,首选准确率更加准确。
5.经过优化排序,速度要比第一版快一点。使用上经过对比跟官方6万没有很明显减慢,除非同时打开3个以上程序才会有感觉。
6.词组量集中在两字与三字词(达14万左右),使用上建议双字、三字连打。
缺点:
体积大,可惜内存的不要用。
如大家发现有错,请跟帖,我改正。使用时建议打双字和三字此条,速度最快。成语除外。
只适用于梅花6,请解压后放到\program files\PlumSIP6\下覆盖原词库文件。如果你担心不能使用,覆盖前请将原CH2改名为CH20,以便还原。以上词库都经过实际使用,使用完美。请输入32541424,如果可以出现“我是谁”,即表示成功,呵呵~~~~~
S60的必须在电脑上解压,不能在手机上解压,否则无法使用!!!!!!
S60三版使用方法:解压后找把当前输入法切换为其他,再把文件(中文为ch2,英文为en1)覆盖到:C:/Data/dayhandinput/lib/文件夹内里,再切换到到点讯立刻使用.

[ 本帖最后由 wulishui 于 2009-3-25 13:55 编辑 ]
附件: 您所在的用户组无法下载或查看附件, 点我体验网上斗地主的乐趣
9

评分次数

  • aobocodoeo

  • chinayankai

  • 独孤天马

  • epzhlp

  • ngiaoe

这不再是一个简单的词库。决不是将10万词条拼在一起就是词库的做法。这个词库精心考虑并且解决了很多问题,可谓举世无双,世间仅有,不可多得,我对它的敬佩,简直如滔滔江水,延绵不绝!
1:经过复杂而精心考虑的词频分配,配合点讯的词库压制分为2500个频段的特点,词频越高,频段越细。比起上一版本明显提高输出速度,特别是3字词的速度。同时避免调整词频产生的词频混乱问题。
2:分离2,3,4以及以上的字数词条,实现2字词条比3字词条优先,3字又比4字优先等,避免输入两个字的词语的时候点讯会按声母匹配出来一堆长长的词条的麻烦。如果需要简拼,请用隔音符。
3:2字词分离第二字读音为zi,ci,si的词条,实现zi,ci,si的词条比zh,ch,sh的词条优先,避免了要输入“燕子”而优先输出的是“研制”等按Zh优先匹配的做法。

这是拇指键盘和梅花按词频和声母双重优先匹配的特有问题,只有通过此办法解决。所以此词库特别适合拇指键盘使用。输出优先法则为:
字数词条:
2字>3字>4字以上
第二个字读音:
ai,bi,ci>chx,
pi,qi,ri,si>shx,
xi,yi,zi>zhx,
a>bx,
e>dx,
i>gx,
o>mx,
u>tx.
4:去掉废词若干,改掉错音词若干。
技术公开。但是主要是耗费大量人力物力,相信没人会为这事自己重复做一遍。
---------------以上规则点讯已经实现,所以不再做这方面努力了--------------
输入请注意:
1,绝大部分聊天用语都已包含,比如:有空聊,下次聊,很久不见了,想死你了,烦死了,吃了吗,下次见……等等,大可以放心随意输入即可,充分利用,速度大大的提高了,不需要自己造词。成语包含10000条以上,请不要两个字分开输入,以免造成使用不便。请充分利用使用点讯“‘”隔音符号,输入长词条时候尤其有效。
词条部分组成如下:
2字:5万
3字:3万
4字:1.5万
5字以上:1万
2,另外出一个医学版,包含部分医学词汇,仅少量基础词汇和常见药物,仅足够日常生活使用,打论文还是必须得在电脑上完成。大部分长词条可以通过基础词汇组合得到。所以这个词库更适合医学专业的朋友使用,输入的时候也不需要单个字输入,尽可以打词组。
本词库的特点是:精〔精挑细选〕,准〔准确校正〕,全〔力求包含最多专业基础词汇〕,快〔速度不会明显延迟〕,偏〔偏重于聊天口语〕
20090325-------附件过于大,难以上传,请移步点讯论坛下载。
气缸——
难捱——
形而上——
名声大振——
之迷——
不止是——
做出贡献——作
风烟——
为人处事——
眼睁睁的——地
姨夫——
相当地——
做参考——作
跑的快——
不只一次——
不惟——
情深义重——
声名大振——
醉熏熏——
引伸出——申
劈啪声——
引伸到——申
称砣——
意气洋洋——
豆牙菜——
绿豆芽
浑球儿——
无遮敝的——蔽
横折勾——钩
太过份了——过分
再那里呢——
礼轻情义重——
急来报佛脚——抱
经年——
南纬——
英磅——
三级管——
核实验——
重振旗鼓——重整旗鼓,注意改音
另外改正几个:已-己 混淆问题。
着--增加多音字(非纠错,增加同一词不同读音不同用法)
以下省略100多条
。。。



20080309

成份

签定
交待
渡假
涅磐
降伏
精减
卤莽
苞谷
倾刻
浮浅
捣腾
欠收
屏除
分枝
日圆
欢渡
烟雾弹
茄克衫
满州里
喝采声
雷锋塔
坚忍不拔
惊惶失措
满山遍野
不加思索
倍受青睐
倍受欢迎
钮扣电池
反覆无常
不良份子
长嘘短叹
不知所错
彻头彻底

20090214,英文修正词库加码表。
20090213,没人为我流泪。码表密码就是特征码声母。
2009.02.13 17:30
这个词库,整整做了一年。
作者,是一个每一次都用心去爱,
却,每一次都得不到爱情的男孩。
爱,
在何处?
我苦苦追寻。
她就在我的身旁,
能抚摸到她柔软的秀发,
闻到她幽幽的馨香,
却牵不到她的小手,
却触摸不着她的心,
读懂不了她的思想。
苦,
何为边?
何处是岸?
我奋力遨游,
迷失了方向,
始终找不到终点。
恋,
何为恋?
我努力追求,
用心去付出,
失去了自我,
却有始无终。
得到无言的结局,
她不声不响。
情,
为何物?
摧人心肺,
却教人忘却了痛楚!
孰对孰错?今生无悔。
爱过,痛过,恨过。
我还是一如既往的我。
我还是会用心去爱,
如果还能遇到真爱。
如果一定要加一个期限,
我愿意,
用一生一世。
如果非要定一个程度,
我愿意,
是我的所有。


2009年2月7日。还是14万。并没有改正什么,只是加了几百口语词。特征码是“失去情人的情人节”。既然不存在希望,就不要再苦苦坚持,说一声再见,各自分飞。纪念昨天2009年2月6日失去我所喜欢的人。情人节,没有情人的人,或者被人抛弃的人,一定要好好生活。

只看该作者
为了祖国的下一代,遵循1985年多音字异读标准,如下:
1.阴yin1〔第一音,不再有第四音〕,荫yin4。
按此规定,树阴,林X道,林阴路……等全部是yin1,不再有“树荫”等。封妻荫子,荫庇……等是yin4。〔注意以后教小孩子是这样的,已经是法律层面问题〕
2.露lou,露丑,露阴,露臀,露脐,露脸……等不经意的露,读lou〔一般都是口语〕。其余读lu,如:面露微笑,目露凶光,显山露水,真人不露相……。
3.粘zhan〔不再有nian音〕,作为动词,如:粘连,胶粘……
黏nian,作为形容词,如:黏性,黏液,黏结,黏人〔这是个形容词〕,很黏,黏合……
词库词汇量极其丰富,如果你用以往的拼音输入无法发现词语,就要想一下是不是输错了。如发现错误,可以反馈。

20090113更新一个。新加6000常用词条。改正多初错误。因为压缩包体积超过帝国允许最大限制,所以并没有上传到这里来。如有需要,请到点讯官方论坛查询我的帖子下载即可。
20081115更新一个,增加自造词3333个总词汇量为11万5百,多数包括在2、3字部分,输入的时候请充分利用。兼容点讯6,6.1内核版本。
20081106更新一个。不等点讯了。调整了部分很常用的词频,首选会更合理。加入小量自造词,删除小量错词,精简小量废词,太过繁琐,所以没有记录。词汇量10.7万。
20081027最后一个大幅度校正版本将会随着点讯新内核的推出而推出。精简,排错,整编查对。点讯新版将可以支持至少20万词库而不会有明显的延迟,精确匹配将减少重码60%,找词不再困难。所以,不分医学版本了。之后,前路茫茫,不知该去何方..............
20080926发现:〔因是手机上传,我的手机上网不包月,流量要费用,所以只传医学版,此个版本只比普通版多出1300医学基础词条,普通人使用完全不受影响,暂时不打算上传普通版。〕
——已经修正——
乍暖还寒——错音,huan
上窜下跳——错词〔正确:上蹿下跳〕
像模像样——错音,mu
综合症——错词〔正确:综合征〕
另外加上一些常用短语,如〔这类词组不需要全部打完,只要在点讯上打出前四五个字就会自动上屏〕:
哑巴吃黄连有苦说不出;
落花有意流水无情;
麻雀虽小五脏俱全;
明枪易挡暗箭难防;
嫁鸡随鸡嫁狗随狗;
医学词条举例〔包括名词和药物〕:
整联蛋白zheng'lian'dan'bai

[ 本帖最后由 wulishui 于 2009-4-27 18:01 编辑 ]
附件: 您所在的用户组无法下载或查看附件, 点我体验网上斗地主的乐趣
10

评分次数

  • dismal

  • chinayankai

  • kuboy

  • mgrbao

  • polaris008

这个板凳一直是我的,做板凳上等你出新的,很久没来了,忙着考资格证

[ 本帖最后由 karl0557 于 2008-8-14 00:30 编辑 ]
还有说一下,我用的是N70,S60v2的机子,用起来一点不觉得卡,很好的楼主,S60没有你想的那么不济,虽然可能确实比WM差些(我没用过WM,不好说)
感谢分享
dopod830
IPL:2.20.0001
SPL:2.G4.4PDA
GSM:02.19.21
OS:kk23502 10.0.0.0  CHS
感谢楼主的分享
请问做一个A4的嘛,或者告诉我A4词库的制作方法

拜谢了
www.colaandice.cn
SFASD.FJ ASDF ;AKSD;LF ASKJDF LAJS'D JFLSJD 'LKFJA'LSD 'LKASD F
1

评分次数

谢谢楼主!
强烈支持,谢谢了
不错类  支持下 呵呵
返回列表