Mozc UT Dictionary
(last updated: 20120428)
I'm using the Bing Search API to get the hit numbers of
the words in my dictionaries.
Microsoft will change the policy and we will need to pay
"$40 (USD) per month for up to 20,000 queries each month".
I need to change the way to make my dictionaries.
Additional Japanese dictionary for Mozc.
It will add over 350,000 words.
I modified these dictionaries:
+ Japanese names (I wrote it) + alt-cannadic
+ hatena keywords + SKK-JISYO.L
+ EDICT +
station names
+ niconico daihyakka IME dictionary (default: false)
My big thanks go to the authors/maintainers of the dictionaries.
mozc-ut includes these dictionaries too:
+ zip code dictionary and place names
(generated from Japan Post's zip code)
e.g.
001-0021 ⇨ 北海道札幌市北区北二十一条西
あかんちょうちちゃっぷ ⇨ 阿寒町知茶布
If you need the latest zip code and place names,
apply the mozcdic-ut patch to the official Mozc.
⇨ See "Advanced".
It will get the latest Japan Post's zip code file.
Notes:
If you want to show an old candidate window,
remove mozc-renderer*.deb.
I removed scim-mozc from debian/rules.
scim-mozc will be
deprecated.
Download:
Patched source code (NICODIC="false"):
mozc-ut-1.5.1053.102.20120428.7z
(I added an
Issue 145 patch.)
Patch:
mozcdic-ut-20120428.tar.bz2
(It doesn't include an Issue 145 patch.)
License:
altcanna, jinmei, skk: GPL
hatena: unknown
edict: Creative Commons Attribution-ShareAlike Licence (V3.0)
ekimei: redistributable
zip code:
public domain
niconico: unknown
ruby/shell scripts: GPL
I think we can redistribute hatena's yomigana-hyouki pairs,
but I can't believe we can redistribute niconico's pairs.
If you want to make redistributable mozc-ut,
keep NICODIC="false" in "generate-mozc-ut.sh" please.
Install:
$ 7z x mozc-ut-1.5.1053.102.20120428.7z
$ cd mozc-ut-1.5.1053.102.20120428/
If you are using Ubuntu, run them:
$ debuild -b -uc -us
$ cd ..
$ sudo dpkg -i mozc*.deb ibus-mozc*.deb
[Advanced] Generate your mozc-ut:
1. Put the official mozc and mozcdic-ut in mozc-tmp.
$ mkdir mozc-tmp
$ mv mozc-1.5.1053.102.tar.bz2 mozc-tmp/
$ mv mozcdic-ut-20120428.tar.bz2 mozc-tmp/
$ cd mozc-tmp/
$ tar jxf mozcdic-ut-20120428.tar.bz2
2. Change MOZCVER.
$ cd mozcdic-ut-20120428/
Open "generate-mozc-ut.sh".
If you use mozc-1.5.1053.102,
you don't need to change MOZCVER="1.5.1053.102".
If you want to use the niconico dictionary,
please change the lines
NICODIC="false"
#NICODIC="true"
to
#NICODIC="false"
NICODIC="true"
3. Generate the mozc-ut package.
$ ./generate-mozc-ut.sh
Wait for a few minutes.
4. Install mozc-ut.
$ cd ../mozc-ut-1.5.1053.102.20120428/
Build mozc-ut.
Mozc UT辞書
■ 内容
Mozc用の追加辞書です。
バージョンにもよりますが35万語以上追加します。
■ 収録基準
bingで単語のヒット数を検索し、一定数以上ヒットしたものを収録しています。
ヒット数以外にも各種の条件を設定して、
収録単語を増やしつつもなるべくMozcの変換を壊さないよう気をつけています。
人名はなるべく多く収録するため基準を甘めにしていますが、
それ以外の単語は抑制的に収録しています。
■ 辞書の形式
読み 品詞 ヒット数 表記
ヒット数は「キーボード」が75万件ヒットする場合の数値。
例えば「冷蔵庫」が400万件ヒットして「キーボード」が150万件ヒットする場合、
補正して200万件にする。
bingで得られるヒット数は時期によって差が激しいので、
「マイナーな単語を除外する」という程度の効果しかないと思います。
mozc-word-diff
Mozc公式辞書のバージョン間でどの単語が追加/削除されたのかを調べるツールです。
mozc-word-diff-20110718.tar.bz2