はてなキーワードをIMEに辞書登録してみる その2

はい、単語および推測辞書を登録しました。データ登録数は完全に英数字排除で20万件近くになりました。

さて、IMEベンチマークなんですが、古くは「貴社の記者は汽車で帰社した」なんてのがありますが、これは文脈読みの高度な技術だったりするので、今回の単語力の判断とは関係なし。
GoogoleIMEが登場した時の話題で「すごい!○○が変換できた!」なんてのは

  • 声優の名前
  • 差別語
  • エロ関連

なんていう偏ったパターンでベンチマークやってたりします。まあ、ネットでダラダラやる分にはそれでもOKなんですが。
この辺のことをカバーする分には、はてなキーワードニコニコ大百科でも充分なわけです(あれ?充分?十分?)。

で、ベンチマーク開始。と思って始めたのですが、声優の名前とかは普通に出ます。はてなもニコニコも同じように出ます。むしろスクリーンショットとるのが面倒くさいレベル。この辺はGoogleIMEにも匹敵。
はてなとニコニコの辞書外した状態のATOK(標準搭載の人名辞典は組み込む)でも声優関連はかなりダメ。
「人名辞書入れてるのに何故・・」という疑問も沸きますが、この人名辞典って姓と名を別々に持ってるロジックみたいです。
例えば、「はとやまゆきお」で変換すると、「はとやま+ゆきお」という区切りの変換候補になって第一候補「鳩山+由紀夫」になります。これは係り受け的なものの強さを判定するロジックがATOK自体にあって、それを利用していることが予想されます。「ゆきお」だけで変換すると「幸夫」のような、ありがちな名前が最初に出ます。これは賢いようで、微妙に不安だったりします。
例えば誤記が多いであろう「あべしんぞう」。変換候補は「あべ+しんぞう -> 安倍+晋三」なんですが、この「あべ」の第一候補の「安倍」に確信が持てるか、ということになってきます。初期状態ならば「安倍」が強いのですが、学習を重ねるうちに「阿部」の方が強くなる恐れもあります。それだったらバシーンと区切りなしの「あべしんぞう」が出てくれた方が安心だったりします。優秀な文脈解析に頼るあまり、姓+名の辞書があだになるパターンというのもあるんですね。

差別語に関してはニコニコも、はてなも無し。詳しく書くのもはばかられるのでやりませんが、ニコニコのユーザー層を考えると顧客満足度が低くなるのでは、と危惧されます。やはり、ジャストシステムは真っ当な企業。ちなみにGoogleIMEはちゃんと出ます。さすがグーグルさん。自由のためなら人権なんて知ったことか、という姿勢は好感が持てます。

最後にエロ関連。「せいじょうい=正常位」が一発で出るのはGoogleIMEだけです。ATOKの標準のみならず、はてなでもニコニコでもダメ。元ネタにもないので、まあ誰も使わない言葉ということで。ちなみにwikipediaにはあったりしますので、これを取り込むかというのはまた別の話題で。wikipediaはエロ頑張ってるようで「騎上位」だと、「それは騎乗位の間違いでは?」と人力サジェストしてくれます。

そもそもIMEの使い勝手ってのはスペック云々よりも個人の体感によるところが大きく、上記のベンチマークを鑑みても「どうでもいい」と思う使い方の人もいるでしょう。
個人的にはATOKはてな+ニコニコでもある程度の満足は得られるが、それでもGoogleIMEの節操の無い単語力は捨てがたい、と言ったところでしょうか。

単語力以外のGoogleIMEの魅力は強力な予測候補表示です。ATOKでは省入力候補は能動的にtabを押さないと1個(おそらく直近の確定)しか提示してくれません。tabを押せばフルに展開されます。それに比べてGoogleIMEではかなり積極的にサジェストしてくれます。この辺は設計哲学というか、省入力候補の検索という計算機コストのかかる作業を積極的にやりたくないATOKと、検索だったらどんと来いというGoogleの違いでしょう。一応、ATOKの方も環境設定で省入力候補の提示頻度も設定できるのですが、表示候補数まではいじれません。この辺はGoogleIMEからも学ぶところはあると思うのですが。

さて、GoogleIMEの単語力と省入力候補のサジェストは最強のように思えますが、これが思わぬ弊害を生むパターンもあります。例えば「まっとうな」。ATOKだと「真っ当な」となりますが、GoogleIMEだと「全うな」なんてのも候補として上がってきます。これを排除するのは相当なコストがかかるだろうな、と素人目にも予想が付きます。やはり人的コストのかかったものはATOKが強い。わかち書きのエキスパートが中にいそうなので、良くなりそうな傾向はあるのですが。
こういう作業はGoogleは無視かな、と思っていたのですが、最初期のGoogleIMEでは「とまつはるか」が「戸松遙」と「戸松遥」という、いかにもな誤記が登録されていたのですが、バージョンアップで誤記が消えました。中の人がチマチマ削ったのか、中の天才達が何か良いロジックあるいは参照テーブルを見つけたのか、とにかく少しずつ辞書も良くなる展開を見せている雰囲気はあります。

さて、現状でどうしたものか・・・。