GoogleIMEにAV女優の名前はどれくらいあるのか?

有名人の名前に強いと言われているGoogleIMEだが、たまにAV女優の名前で変換できないことがある、変わった読み方多いしね。中には変換できるものもあるので、有名どころは登録されているのだろうか。

というわけで、調べてみてある程度使えそうなら、辞書にして登録して使おう。ネット上にそういうかな漢字変換用外部辞書も無かったので。古いのはあったが。

必要なのはAV女優の名前リストと、その名前がGoogleIMEに登録されているかどうか引き出す方法。リストの方はありがたいことにwikipediaにある程度まとまっていた。下手すりゃdmmあたりからチマチマ持ってこなきゃならなかったので、整形は必要だがかなり楽。

今回の調査のポイントがGoogleIMEの登録情報。辞書はかな漢字変換の重要パーツなのでおいそれとは解析できないようになっている。昔は全ダンプで来た気がするが。で、今回これを見つけたのでやる気になったというのが、googleが提供しているオンラインでの漢字変換ウェブサービス
Google 日本語入力 - CGI API デベロッパーガイド

Google CGI API for Japanese Input

Google CGI API for Japanese Input は、日本語変換をインターネット上で実現するための、CGI サービスです。
リクエスト

http://www.google.com/transliterate に対して HTTP リクエストを発行します。GET メソッドを使ってください。以下の CGI パラメータを(URL エンコードした上で)指定します。

wikipediaから拾ってきた名前(よみ)をこのウェブサービスに投げて、帰ってきたものと漢字表記が一致すれば、googleIMEに登録されてる、とする。文節を区切らないようにパラメータの末尾に','を付けるのがポイント。

もちろん、このウェブサービスと、アプリとしてのGoogleIMEの辞書が同じとは言い切れないが、変換できたもの、できなかったものをアプリの方で手検算した感じでは、かなり近似だと思う。

さてこの結果

  1. GoogleIME登録女優人数 1281人
  2. 未登録数 4080人
  3. ひらがな、カタカナのみのため反別不能(今回は登録不要) 275人

1+2+3=wikipediaのAV女優登録数

やはり未登録数がそれなりにある。登録されてるのは有名どころが多く、「麻美ゆま」とかは登録されてる。有名だと思っても昔の人、「朝岡実嶺」なんかは未登録だったりする。Cは「つぼみ」とか「Rio」とかのパターン。

今回の成果物はこちら。AV女優辞書はGoogleIME形式。



AV女優辞書zip
https://emata.googlecode.com/svn/trunk/java/wikiAV/AVdicForGoogleIME.zip

AV女優辞書(上記2)
https://emata.googlecode.com/svn/trunk/java/wikiAV/AVdic.txt

GoogleIMEに登録されていたAV女優(辞書形式)(上記1)
https://emata.googlecode.com/svn/trunk/java/wikiAV/in_dic.txt

無変換(辞書形式)(上記3)
https://emata.googlecode.com/svn/trunk/java/wikiAV/muhenkan_dic.txt

今回のソース
https://emata.googlecode.com/svn/trunk/java/wikiAV/Main.java



この手法を使って、はてなキーワードから作る辞書も刈り込みができると思うが、はてなキーワードはノイズが多すぎるからもう有用じゃないかな。