Modified Anthy

(last updated: 20110409)

Dictionaries and patches for G-HAL's Anthy

Dictionaries and patches for better Kana-Kanji conversion.

The encoding of my dictionaries is UTF8.
You need scim-anthy >= 1.2.7 or
uim compiled with "--without-anthy --with-anthy-utf8".
単語の優劣を決定するのにYahoo APIでのヒット数をベースにしていたのですが、
最近はヒット数の精度が下がっていて実用に堪えません。
http://groups.yahoo.co.jp/group/YJDN-search/message/498

さらに4月からは利用条件が変わって1日1000件までしか検索できなくなる。
http://developer.yahoo.co.jp/webapi/search/premium.html

Google Custom Search APIは1日100件しか検索できない。

ひとまずBing APIで新語を検索させていただくことにしました。
To distributors:
You need to update /etc/anthy.conf.
Don't use "%config(noreplace)" for anthy.spec.
To users:
After you install this package, please remove ~/.anthy and
restart uim/scim/ibus etc.

Patched source code:
anthy-9100h-20110409ut.tar.bz2

Patches for G-HAL's anthy:
anthy-ut-patches-20110409.tar.bz2

Devel files:
anthydic-ut-devel-20110409.tar.bz2

Features

1. New big dictionaries (I added huge entries and vagus' alt-cannadic)
2. The latest ZIP code dictionary
3. Improved learning systems (I added G-HAL's patch)
4. vagus' alt-depgraph (depgraph is a list for word connection)

使用前の注意

・辞書のエンコーディングをUTF8に変更しました。
uim では --without-anthy --with-anthy-utf8 でコンパイルしてください。
scim-anthy では 1.2.7 以降はUTF8がデフォルトになっています。
「1」を変換したときに「①」の候補が出れば成功です。

・G-HALさんのパッチに合わせて頻度を調整しています。
パッチなしだと今ひとつな変換結果になるかもしれません。

辞書の特徴

01. 単語の頻度情報を、ウェブ検索でのヒット数に基づいて変更
   取得したヒット数を適当に操作したのち偏差値を計算し、
   品詞や文字数に応じてさらに数値を加工して頻度を作っています。
   それだけだと特殊な読みを持つ単語が高頻度になることがあるので、
   強制的に修正する要素も追加しています。
02. 人名を大量に追加
   芸能人の名前はたいてい打てる。
03. 郵便番号辞書を最新版に更新
   「3650067」で「埼玉県鴻巣市すみれ野」が出る。
04. 地名辞書を追加
   郵便番号の町域に従って入力すれば、マイナーな地名も変換できる。
   「せたかまちもとよし」で「瀬高町本吉」が出る。
05. 名詞を大量に追加
   新語もある程度はカバーしています。
06. 駅名を追加
07. 読み仮名の "う゛ぁう゛ぃ..." から "ばび..." を自動生成
   "すてぃーう゛んすぴるばーぐ" でも "すてぃーぶんすぴるばーぐ" でも
   "スティーヴン・スピルバーグ" に変換できる。

HOME