神刀安全网

制作MDict词库

(2013年1月27日)周末花了一天多的时间,把网上下载下来的159M的MDict词库(金山词霸2007年合集)进行了修改编辑,这个过程很艰辛,不停地摸索着做,对Grep、UltraEdit、NotePad++、MdxBuilder、GetDict.exe都有了一些了解。基本上达到了目的。现在把这过程记录一下,留着备忘。

我手机上运行着深蓝词典,用了这个159M的词库,由于嫌这个词库显示丑陋,多余无用的词太多,所以萌生了修改它的想法。

第一步是要从MDX格式的词库中导出txt格式的文本,才能对它进行编辑,几经查找和尝试,终于找到GetDict.exe,导出了txt文本,它是每个单词一行的Html+C的格式,方便把不同来源的单词分开,但不是MDX所要求的源文本。为了把无用的单词去掉,我需要对它进行处理。由于这个文件太大(约890M),家里的电脑不能装UltrEdit,其它软件都打不开它(单位的电脑能装,但处理效率太低),经过研究,终于找到了Linux下的Grep可以完成此项任务,并且速度超快。由于合集中的词库太多,都需要手工选择,所以还是花了好几个小时的时间才把每个词库分开,分别保存为一个一个的文件。从中选出了15个对我可能有用的词库,进行下一步的处理。(由于不熟悉,没有人指导,都靠自己摸索,前面这些工作花了一整天加半个晚上的时间)。

第二步是对那15个字库的源文本进行加工。为把源文本转换为MDX需要的格式,使用了MdxBuilder,先将其转换为MDX文件,选项里选上“Allow export to text”,然后用用MdxExport.exe将上一步得到的mdx文件转换为txt文件,即得到了MDX所要求的“每单词三行”文本格式。但里面有很多/< > /” /& 需要替换为 < > ” &后才能用。这个环节又花了半个晚上加一上午,才把15个文件整理完毕。这个过程使我对正则表达式有了一些了解,对NotePad++也熟悉了一些:NotePad++的搜索替换速度很快,能使用正则表达式,但缺点是文件太大后(约100M),经常执行一半就异常退出了。为了处理一些大文件(约140M),我不得不把文件分成两个,再进行处理。

第三步,使用MdxBuilder将处理完毕的词库文本文件进行转换,得到最终MDX格式的词库文件。完成所有任务。

把它们装到我的手机上,界面好看多了。使用自己动手做的东西,感觉就是好。

转载本站任何文章请注明:转载至神刀安全网,谢谢神刀安全网 » 制作MDict词库

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址