Delen via


IME の学習方式の紹介

今回は、IME の学習の基本的な方式について、従来のものと、Office IME 2007 とを対比して紹介します。 

 

Vista IMEを含む従来のIME は、ユーザが第一候補でないものを選び確定したときや、カタカナ変換したときなどに、その単語や前後の単語を含めた情報を記録します。その記録は、次回に同じ読みの文節が入力されたときに利用されます。最近使った単語を優先するというのは、かな漢字変換というものが実用化されてから以降というもの、ずっと引き継がれてきた学習の基本設計です。

 

一方、IME 2007 では、まず、確定入力された単語の並びや単語事態の使用回数を記録します。これをここでは「使用情報」と呼びましょう。また従来の IME の学習と同様に、ユーザが第一候補でないものを選んだという情報も記録します。これをここでは「選択情報」と呼びましょう。IME 2007 は、これらの2つの情報を、次回に同じ読みが入力されたときに、利用します。違いは、「使用情報」も利用しているという点です。

 

従来の学習方式と、IME 2007のそれとを比較してみます。

 

Vista IMEを含む従来のIMEは、「選択情報」のみに基づくため、当然、最近使用した単語が次回でてきやすいという特徴があります。ところで、最近使用した単語が優先され、前後のコンテキストにそぐわない箇所で変換結果として出てくることを、副作用と言います。従来の学習は、そのような副作用に対策のために、さまざまなヒューリスティックルールを導入し、複雑な処理を行っています。こういうケースは、さっき使った単語を優先していい、こういうケースは、さっき使用した単語が出てはまずい、などです。そういうルールを重ねていった結果、結局複雑になっていきました。

 

一方、IME 2007は、基礎とする文法を Trigram に変えるにあたり、学習の原理も見直しました。従来の使用感を維持するために、「選択情報」を利用します。が、副作用を押さえるために、ヒューリスティックルールを積み上げるのではなく、ユーザが入力した文の統計を利用するという単純な原理を導入しました。ユーザの「使用情報」を利用するため、正しい操作を繰り返した場合には、次第に、その人の入力文章に合った文法情報が蓄積されていきます。それは、「選択情報」と組み合わされて、短期的には「選択情報」が優先され、長期的には「使用情報」が重みを増していって短期的な「選択情報」による副作用を抑制しつつそのユーザの使い方にどんどんマッチしていくように組み合わされて利用されます。

 

ただ、反面、「使用情報」を「選択情報」と組み合わせるため、最近使用した単語が次回に出やすいという傾向が、弱くなりがちです。IME チームでは、いかに副作用なしにこの欠点をなくすかということに、取り組み、まずは最初の成果としてhttp://www.microsoft.com/japan/office/2007/ime/fixmodule.mspx をリリースしました。現在、もっと洗練すべき取り組んでいます。

 

佐藤