テキスト入力装置、それを含む翻訳装置、テキスト入力方法及びコンピュータプログラム

【課題】扱いが容易で信頼姓の高い翻訳が可能な装置の
提供。
【解決手段】タッチパネルディスプレイを備えた翻訳装置は、アイコン１１８を表示するためのアイコン表示ユニットを含む。アイコンを選択することにより、アイコンのシーケンスが入力され、アイコンシーケンスフィールド１２０に表示される。ユーザがソース生成ボタン１２６を押すと、アイコンのシーケンスに対応する単語のシーケンスから完全型のソース文が推定される。もしソース文が満足のいくものであれば、翻訳ボタン１２４を選択することでソース文がターゲット文に翻訳され、これが翻訳文フィールド１３０に表示される。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は自然言語処理に関し、特に、ピクチャー又はアイコンベースのテキスト処理装置と、それを含む機械翻訳とに関する。
【背景技術】
【０００２】
最近は機械翻訳（ＭａｃｈｉｎｅＴｒａｎｓｌａｔｉｏｎ：ＭＴ）サービスに対する需要が大いに増しているが、これは、多くの言語の組合せにおいて実用的レベルまで翻訳の品質が改良されてきたからである。機械翻訳のアプリケーションに共通のプラットフォームの１つとして、必要な時にどこでも用いることのできる携帯機器がある。ＭＴシステムが広まるにつれ、ＭＴに関し、翻訳品質以外の周辺的な問題に光が当てられるようになってきた。実世界のＭＴアプリケーションが直面する重大な問題は、ＭＴシステムに入力としてユーザが与える可能性のあるものが実に様々であるということである。例えば、入力には、間違えたり、標準からはずれたり、又は文法に従わなかったりする文、短縮された単語、絵文字、単語の置換え（例えば、「ｙｏｕ」の代わりに「ｕ」と書く等）等が含まれている。このような現象はＭＴシステムの性能を低下させるが、本質的には、ＭＴシステムが取組もうとしている、それ自体既に十分な難問である中心的な問題に対して、周辺的な事項である。
【０００３】
このような問題に対処する１つの方法は、不規則な用法とそれに対応する正確な用法とから成る大規模なコーパスを収集し、教師付き方法で言語を規則化するように学習させることであろう。しかし、この方策には明らかに限界がある。現実のユーザが標準からはずれるやり方はユーザのコミュニケーションのモード又はコード、内容、さらにはユーザのウィットにも依存するからである。
【０００４】
ＭＴドメインでは、これまで、２つのコミュニケーションチャネルが研究されてきた。図１に示すように、第１のコミュニケーションチャネル４０は、ソース言語４２とターゲット言語４６との間の翻訳であって、これはソース言語４２とターゲット言語４６との間に置かれる中間の言語である中間言語（インターリンガ）４４を介して行なうことができる。中間言語４４が自然言語である場合は、コミュニケーションチャネルは２つのＭＴシステムの連結でよい。第１はソース言語４２から中間言語４４へのものであり、第２は中間言語４４からターゲット言語４６へのものである。また、翻訳はコミュニケーションチャネル５０を介しても達成できる。これはソース言語５２からターゲット言語５４への直接翻訳処理である。これは、広範に研究されている、最新の統計的機械翻訳システムを用いて達成できる。
【先行技術文献】
【非特許文献】
【０００５】
【非特許文献１】ｐｉｃＴｒａｎｓ。２０１０年。簡単なピクチャーベースの翻訳システム。７ジリオン。[オンライン]http://www.7zillion.com/iPhone/PicTrans/、アクセス日２０１１年１月１８日。
【非特許文献２】指さし。２０１０年。指さし。情報センタ出版局。[オンライン]、http://www.yubisashi.com/free/t/iphone/、アクセス日２０１１年１月１８日。
【非特許文献３】ＴｅｘＴｒａ．２０１０年。（ＮＩＣＴによるテキスト翻訳機）。ＮＩＣＴ。［オンライン］、http://mastar.jp/translation/textra-en.html、アクセス日２０１１年１月１８日。
【非特許文献４】ＶｏｉｃｅＴｒａ。２０１０年。（ＮＩＣＴによる音声翻訳機）。ＮＩＣＴ。[オンライン]、http://mastar.jp/translation/voicetra-en.html、アクセス日２０１１年１月１８日。
【発明の概要】
【発明が解決しようとする課題】
【０００６】
人が母国語を異にする人と意思の疎通を図ろうとする場合、ＭＴは便利な道具である。しかし、完全なＭＴシステムを持ち歩くわけにはいかない。携帯電話、又は無線通信能力を備えた携帯タブレット型コンピュータ等の携帯機器は、これらが完全なＭＴシステムと通信可能である限りにおいて、有用である。しかし、携帯機器でテキストを入力するのは、面倒で、多くのキーを押す必要があり、間違えやすい。ごく短い文でも、携帯機器で入力するのは困難である。このような場合、携帯機器以外の手段を用いた従来の方法が便利である。例えば、多くの場合、意思の疎通を図ろうとする人は、画像、記号、身振り等のコミュニケーション手段を持っており、ほかの手段がうまくいかない場合にはしばしば、これらの手段を用いる。実際、アイコンベースのコミュニケーションは、コミュニケーション手段が全くない地域の人々と意思の疎通を図ろうとする外交官の間では長い歴史がある。コミュニケーションはピクチャーを主として用いた本を用いて行なわれる。この本は、表現したいと願う内容の意味を示すアイコンを含み、外交官はそれらを指さすだけで外国の人々と意思の疎通を図る。
【０００７】
例えば、図４に示すように、ピクチャーブックは２つのピクチャー８０及び８２を含む。ピクチャー８０には「Ｉｗａｎｔｔｏｇｏｔｏ」という英語のテキストと、対応の日本語のテキストが付されている。ピクチャー８２には、「ｒｅｓｔａｕｒａｎｔ」という英語のテキストと、対応の日本語のテキストと、ナイフ及びフォークのピクチャーとがある。ユーザが、「Ｉｗａｎｔｔｏｇｏｔｏｔｈｅｒｅｓｔａｕｒａｎｔ」（私はレストランに行きたい）という表現を翻訳したいとする。このピクチャーブックがあれば、ユーザはおそらく図５に示すように上記した２つのピクチャーを指さすであろう。すなわちピクチャー８０（「Ｉｗａｎｔｔｏｇｏｔｏ」）を指さし、それからピクチャー８２（「ｒｅｓｔａｕｒａｎｔ」）を指さす。
【０００８】
ピクチャーベースのコミュニケーションに関しては、携帯型の装置用に様々なアプリケーションが提案されている。前者の領域では、ＰｉｃｔＴｒａｎｓ（ｐｉｃ−Ｔｒａｎｓ，２０１０：非特許文献１）はピクチャーのアイコンのみを示し、指さし（指さし、２０１０：非特許文献２）（指でさすことを意味する）はアイコンをタップすると音声が出るが、これらのシステムは言語の生成は何ら行なわず、これは人間のユーザに任されている。
【０００９】
逆に、ハンドヘルドの装置用に、かなりの数の機械翻訳システムも提案されている。例えば、ｔｅｘＴｒａ（ｔｅｘＴｒａ，２０１０：非特許文献３）テキスト翻訳システム及びｖｏｉｃｅＴｒａ（ＶｏｉｃｅＴｒａ、２０１０：非特許文献４）発話翻訳システムがあるが、われわれの承知している限りでは、これらには、アイコンを備えたユーザインターフェイスを採用しているものはない。
【００１０】
ピクチャーベースのアプリケーションは扱いが容易であるが、ソース文の表現可能性は限られている。音声ベースの機械翻訳アプリケーションは扱いが容易であるが、音声認識には誤りが多いと思われる。テキストベースの機械翻訳は最も翻訳の信頼性が高いが、テキスト入力はその携帯機器の入力システムに依存し、ほとんどの場合面倒である。
【００１１】
したがって、この発明の目的は、扱いが容易で信頼性の高い翻訳を生成する装置及び方法を提供することである。
【００１２】
この発明の別の目的は、ソーステキストを容易に入力し信頼性の高い翻訳を生成する装置及び方法を提供することである。
【課題を解決するための手段】
【００１３】
この発明の第１の局面にしたがえば、タッチパネルディスプレイと関連して用いられるテキスト入力装置は、前記タッチパネルディスプレイに接続され、前記タッチパネルディスプレイにアイコンの組を表示するための手段と、前記タッチパネルディスプレイに接続され、ユーザによる前記タッチパネルディスプレイに表示された前記アイコンの１つ又は２つ以上のシーケンスの入力を受けるための入力受信手段と、前記タッチパネルディスプレイに接続され、前記入力受信手段を用いて前記ユーザによって入力されたアイコンのシーケンスを前記タッチパネルディスプレイに表示するための手段と、前記アイコンのシーケンスを所定の言語の完全な文に翻訳する翻訳手段と、を含む。
【００１４】
好ましくは、テキスト入力装置は、前記タッチパネルディスプレイ及び前記翻訳手段に接続され、前記翻訳手段によって翻訳された前記完全な文を前記タッチパネルディスプレイに表示するための手段をさらに含む。
【００１５】
さらに好ましくは、テキスト入力装置は、各々が前記アイコンとそれぞれ関連する、前記所定の言語のフレーズを記憶するための記憶手段と、前記記憶手段及び前記入力受信手段に接続され、前記アイコンの各々について前記記憶手段から引出されたフレーズを連結することにより外部言語のテキストを生成するための手段とをさらに含む。前記翻訳手段は文の対のコーパスで前記外部言語のテキストを前記所定の言語の文に翻訳するように統計的にトレーニングされたフレーズベースの統計的機械翻訳ユニットを含んでもよく、前記対の各々は、前記所定言語の第１の語彙内の語を含むフレーズのシーケンスと、前記第１の語彙より大きい第２の語彙内の語を含む前記所定言語の文と、を含む。
【００１６】
さらに好ましくは、前記第１の語彙は前記所定言語の内容語を含む。
【００１７】
統計的機械翻訳ユニットは、文仮説を構築するのに用いられるバイリンガルフレーズ対を、先行する部分的仮説の末尾にこれらのフレーズ対を付加することに関連するモデル確率とともに表す、探索グラフを出力してもよい。前記文は前記探索グラフにおいて最も尤度の高い経路に対応する仮説であり得る。
【００１８】
テキスト入力装置はさらに、前記アイコンシーケンス中のアイコンの１つのユーザによる選択を受ける手段と、前記ユーザの選択に応答して、前記探索グラフの前記ユーザによって選択された前記アイコンに対応するノードまでの部分から引出された複数個の部分仮説を示すための手段とを含んでもよい。
【００１９】
この発明の第２の局面にしたがえば、翻訳装置は、上述のテキスト入力装置のいずれかにしたがったテキスト入力装置と、前記テキスト入力装置によって出力される前記文をターゲット言語の翻訳文に翻訳するための統計的機械翻訳装置と、前記翻訳文を前記タッチパネルディスプレイに表示するための手段と、を含む。
【００２０】
好ましくは、翻訳装置はさらに、前記タッチパネルディスプレイから予め規定されたコマンドを受けるための手段と、前記予め規定されたコマンドに応答して前記翻訳文を前記所定言語に逆翻訳し、前記逆翻訳された文を前記タッチパネルディスプレイに表示するための手段とを含む。
【００２１】
この発明の第３の局面にしたがえば、タッチパネルディスプレイに関連してテキストを入力する方法は、前記タッチパネルディスプレイにアイコンの組を表示するステップと、ユーザによる、前記タッチパネルディスプレイに表示された前記アイコンの１つ又は２つ以上のシーケンスの入力を受けるステップと、前記受けるステップで入力されたアイコンのシーケンスを前記タッチパネルディスプレイに表示するステップと、前記アイコンのシーケンスを所定の言語の完全な文に翻訳するステップと、を含む。
【００２２】
この発明の第４の局面にしたがえば、コンピュータプログラムは、タッチパネルディスプレイを備えたコンピュータを、前記タッチパネルディスプレイに接続され、前記タッチパネルディスプレイにアイコンの組を表示するための手段と、前記タッチパネルディスプレイに接続され、ユーザによる前記タッチパネルディスプレイに表示された前記アイコンの１つ又は２つ以上のシーケンスの入力を受けるための入力受信手段と、前記タッチパネルディスプレイに接続され、前記入力受信手段を用いて前記ユーザによって入力されたアイコンのシーケンスを前記タッチパネルディスプレイに表示するための手段と、前記アイコンのシーケンスを所定の言語の完全な文に翻訳する翻訳手段、として機能させる。
【図面の簡単な説明】
【００２３】
【図１】先行技術の第１のコミュニケーションチャネル４０を示す図である。
【図２】先行技術の第２のコミュニケーションチャネル５０を示す図である。
【図３】この発明のコミュニケーションチャネル６０を示す図である。
【図４】ピクチャーブックにあるピクチャーの例を示す図である。
【図５】ユーザが図４に示すピクチャーブックを操作する様子を示す図である。
【図６】この発明の１実施の形態のアイコンベースの翻訳アプリケーションのユーザインターフェイス（ＵｓｅｒＩｎｔｅｒｆａｃｅ：ＵＩ）画面１００を示す図である。
【図７】翻訳とその逆翻訳のトグルを示す図である。
【図８】この発明の第１の実施の形態のアイコンベースの翻訳システムのブロック図である。
【図９】図８に示す翻訳システムの翻訳サーバの機能的ブロック図である。
【図１０】ソース言語−ソース言語（ｓｏｕｒｃｅ−ｔｏ−ｓｏｕｃｅ：Ｓ−ＴＯ−Ｓ）ＳＭＴエンジンをトレーニングするプログラムの制御の流れを示すフローチャートである。
【図１１】アイコンベースのソース文と完全型のソース文とのアライメント例を示す図である。
【図１２】この発明にしたがった携帯機器で実行されるアイコンベースの翻訳アプリケーションの制御の流れを示すフローチャートである。
【図１３】アイコン追加ルーチンの詳細な制御の流れを示す図である。
【図１４】アイコンテキストのシーケンスから完全型のソース文を生成するルーチンの詳細な制御の流れを示す図である。
【図１５】完全型のソース文を改良するルーチンの詳細な制御の流れを示す図である。
【図１６】翻訳操作の詳細な制御の流れを示す図である。
【図１７】人間による操作がある場合の、アイコンの組のサイズに対する、未遭遇データの範囲を示すグラフである。
【図１８】人間による操作なしの場合の、アイコンの組のサイズに対する、未遭遇データの範囲を示すグラフである。
【図１９】欠落した不変化詞を回復するための隠れｎ−グラム法に対する、ＳＭＴアプローチを用いたソース文生成品質を表形式で示す図である。
【図２０】アイコンベースの翻訳アプリケーションが実行される携帯機器の斜視図である。
【図２１】図２０に示す機器のブロック図である。
【図２２】この発明の一実施の形態の翻訳サーバとして機能するコンピュータの正面図である。
【図２３】図２２に示すコンピュータのブロック図である。
【発明を実施するための形態】
【００２４】
上述の図面を参照してこの発明を説明する。以下の説明及び図面では、同一の構成要素には同一の参照番号を付してある。したがって、それらについての詳細な説明は繰返さない。それらの機能もまた同様であるので、その詳細な説明は繰返さない。
【００２５】
１．外部言語
この実施の形態は、対話者のいずれからも見える外部言語（Extralingua）を用いる。図３を参照して、ユーザは、両者とも、外部言語６２を、以下の３つのＭＴシステムの支援を用いて対話的に操作できる。第１は外部言語６２とソース言語６４との間のもの、第２はソース言語６４とターゲット言語６６との間のもの、第３は外部言語６２とターゲット言語６６との間のものである。このような外部言語が存在するならそもそもなぜＭＴが必要なのか疑問に思うかもしれない。実はこの点が重要なのである。対話者同士には互いに意思の疎通ができる共通の言語が無い。これまでは図１及び図２に示すように単一のＭＴチャネルを用いてこのギャップを埋める方法のみを考えてきた。しかし、多くの状況において、対話者は、画像、記号、身振り等のコミュニケーション手段を持っており、ほかの手段がうまくいかない場合には、これらの手段を用いることが多い。このコミュニケーションの別のモードをＭＴチャネルと独立して並列に採用することもできるが、この発明の思想は、第２のコミュニケーションチャネルを直接機械翻訳システムに緊密に結合することを探求しようとするものである。
【００２６】
このアプローチには多くの利点がある。第１に、何よりもまず、ユーザ間のコミュニケーションの品質が改善される。外部言語６２を採用することにより、ユーザは２つの別種のチャネルを介して意思の疎通を図ることが可能になる。ＭＴ出力が完全であるとは期待できないので、これを補強する、又はこれと矛盾を生じるような第２の独立したコミュニケーションモードがあれば、より良い相互理解につながる。第２に、この提案はまたＭＴの品質も改善する。ユーザ入力処理を外部言語へのユーザインターフェイスで支援することができ、それによって入力を規則正しくし、予期しないエントリの数を減じることができるからである。
【００２７】
外部言語６２の概念は、２つの大きな問題を提示する。
【００２８】
−外部言語はどのような形をとるべきか？
−どうすればこの外部言語を効果的にＭＴシステムに統合できるか？
原理的には、外部言語は対話者によって共有できる、言語型のコミュニケーション媒体であればどのようなものでもよい。画像、記号、公式又は国際的な自然言語であってもよい。この実施の形態では、このような外部言語のアプローチが単純な抽象的言語によっても効果的であることを示すために、まず初めの例としてアイコンを採用した。
【００２９】
２．アイコンベースの翻訳システム
ピクチャーベースの翻訳支援具は紙の本の形で使われてきて、現在はハンドヘルドの装置に統合されているが、先行技術の非特許文献１又は２に示されるように、機械翻訳システムと組合わされてはいない。簡潔に言えば、この実施の形態において、ユーザはタッチスクリーンに現れるピクチャーのアイコンを、ちょうどピクチャーベースの翻訳支援具と同じように、タップする。システムはこれらの選択されたアイコンのシーケンスから可能な文を自動的に生成し、それらを機械翻訳に供給して、翻訳結果が表示できるようにする。ピクチャーブックとは異なり、アイコンのシーケンスはディスプレイ上に維持されてユーザが見ることができ、必要に応じて操作できる。入力が完了すると、システムは自動的に又は要求に応じてソース言語で完全型の文を生成し、これがその後機械翻訳ソフトウェアで翻訳されて、アイコンのシーケンスとともにスクリーン上に表示される。
【００３０】
後述するように、この実施の形態では、アイコンのシーケンスは携帯機器のタッチスクリーンで入力される。遠隔の翻訳サーバで完全型のソース文の探索ツリーが生成される。探索ツリーを用いて、ユーザは携帯機器上で完全型のソース文を改良する。この改良されたソース文が翻訳サーバに送られる。翻訳文が携帯機器に送り返され、ユーザに提示される。
【００３１】
この実施の形態では、このユーザインターフェイスを介してコミュニケーションすることにより、ユーザは本の同じ見開きからのみの組合せを想定してデザインされたピクチャーブックでできるよりもかなり多くのピクチャーを組合せることができ、このためアプリケーションは本よりずっと豊かな表現を実現できる。機械翻訳システムはピクチャーベースのモードに支援された、詳細で正確な翻訳を提供することができ、これは基本的な概念を伝えるのにより迅速な方法を提供するのみならず、機械翻訳の誤りをとらえ、ユーザにその文の再試行を許して誤解を避けるような、機械翻訳出力の「セカンドオピニオン」も与える。
【００３２】
携帯機器上のＭＴに適用した場合、このようなシステムは非常に有利である。これら形態機器上でのユーザの入力は、テキスト入力の場合は面倒だろうし、音声入力では誤りが多いだろう。この結果、ユーザはより簡単で信頼のおける、ピクチャーブックの翻訳支援具等の言語間コミュニケーション方法を好むようになっており、最近、紙の形でも、電子的翻訳支援アプリケーションの形でも、広く用いられるようになってきている。
【００３３】
２．１ユーザインターフェイス
携帯機器で実行されるアプリケーションの完全なユーザインターフェイスの図を図６に示す。簡単に言えば、このアプリケーションはユーザが表現したいものをバイリンガルで注釈を付けたアイコンのシーケンスで入力できるようにする。これは本質的にはピクチャーブックと同じ思想である。
【００３４】
図６を参照して、この実施の形態のＵＩは、ソース言語とターゲット言語との間で言語をトグルするＵＩ言語トグルボタン１１０、所望のアイコンカテゴリをユーザに選択させるカテゴリボタン１１２、選択されたアイコンカテゴリのうち、所望のサブカテゴリをユーザに選択させるサブカテゴリボタン１１４、アイコンの順序を並べ替えるアイコンソートボタン１１６、及び各々がソース言語フレーズとターゲット言語フレーズとの対を保持し、フレーズの意味を図形で表すアイコンがついた、一組のアイコン１１８とを含む。この実施の形態では、アイコン上のテキストは必須ではない。図形がうまくデザインされていれば、テキストはアイコンから省略してもよい。各アイコン１１８はこのシステムを実現するプログラムにおいてオブジェクトとして実現される。各アイコンオブジェクトは表示のためのそれ自身の図形データと、そのアイコンに関連したソース言語及びターゲット言語の単語又はフレーズを有する。アイコンデータはプログラムの一部であってもよく、ハードディスクドライブ等の記憶装置に記憶される。
【００３５】
ＵＩはさらに、アイコンのシーケンス（例えば、アイコン１４０、１４２及び１４４）を入力順に表示するための、入力アイコンシーケンス用のアイコンシーケンスフィールド１２０と、アイコンのシーケンスから完全型のソース文の生成を起動するソース生成ボタン１２６と、アイコンのシーケンスから生成された完全型のソース文を表示するためのソース文フィールド１２２と、ソース文フィールド１２２のソース文の翻訳文を表示する翻訳文フィールド１３０と、ソース文フィールド１２２に示された完全型のソース文の翻訳を起動し、翻訳文が翻訳文フィールド１３０に現れるようにさせる翻訳ボタン１２４と、アイコンシーケンスフィールド１２０、ソース文フィールド１２２、及び翻訳文フィールド１３０をクリアするためのクリアボタン１２８と、翻訳文フィールド１３０に示された翻訳文の他の言語への翻訳を起動するチェックボタン１３２とを含む。ユーザがアイコン１１８の１つを選択すると、選択されたアイコンはアイコンシーケンスフィールド１２０内のアイコンのシーケンスに追加される。これは、アイコンの図形表現のシーケンスが生成されるだけでなく、アイコンシーケンスにしたがって単語又はフレーズを連結することにより、アイコンに関連する単語又はフレーズのシーケンスも生成されることを意味する。
【００３６】
ソース生成ボタン１２６は必ずしも必要でない。例えば、２個又はそれ以上のアイコンが選択された場合、完全なソーステキストを自動的に推定してもよい。又は、ソース言語によっては、例えば特定のクラスの単語又はフレーズによって推定が自動的に起動してもよい。
【００３７】
ユーザはＵＩ言語トグルボタン１１０を押すことによってユーザインターフェイスを自身の言語に切換えることができる。翻訳処理は以下のように進む。
【００３８】
（１）ユーザがカテゴリボタン１１２のいずれかを押すことにより、表現したいと思う概念のカテゴリを選択する。
【００３９】
（２）ユーザがサブカテゴリボタン１１４の１つを押すことによりサブカテゴリを選択する。
【００４０】
（３）ユーザがアイコン１１８の中からアイコンを選ぶと、そのアイコンがアイコンシーケンスフィールド１２０内のアイコンシーケンスに追加される。
【００４１】
（３ａ）もしユーザが入力を続けたい場合には、（１）に戻り、シーケンスに別のアイコンを選択する。
【００４２】
（３ｂ）もしアイコンシーケンスが完了であれば、ソース生成ボタン１２６を押し、続いてステップ（４）に進む。アイコンシーケンスフィールド１２０内のアイコンシーケンスは完全型のソース文に翻訳され、ソース言語文がソース文フィールド１２２に現れる。この翻訳はソース言語からソース言語への翻訳である。完全なソース言語は、後述するフレーズベースのソース言語−ソース言語ＳＭＴによって、アイコンのシーケンスに基づいて、又はより具体的にはアイコンテキストのシーケンスに基づいて、遠隔のサーバにおいて推定される。
【００４３】
（４）ユーザはシステムを対話的に操作することにより、ソース文を改良する（後述する。）。ユーザはアイコンシーケンスフィールド１２０内のアイコンのいずれか１つを選択することによりソース文を改良できる。
【００４４】
（５）完全型のソース文に満足な場合は、ユーザは翻訳ボタン１２４をクリックする。これによって遠隔サーバ内のＳＭＴシステムがソース文フィールド１２２内の文をターゲット言語に翻訳することになる。
【００４５】
（６）翻訳文フィールド１３０に翻訳文が現れる。
【００４６】
図７を参照して、一旦翻訳が完了すると、チェックボタン１３２を押すことにより翻訳文フィールド１３０内のターゲット文のソース言語への逆翻訳が示され、ユーザが翻訳を検証できる。チェックボタン１３２をもう一度押すと、逆翻訳が翻訳文に置き換わる。
【００４７】
２．２システムアーキテクチャ
図８を参照して、翻訳システム１５０は、ネットワーク１５６により接続された携帯機器１５２とサーバコンピュータ１５４とを含む。携帯機器１５２はネットワーク１５６によりサーバコンピュータ１５４に接続され、このサーバコンピュータ１５４には３つの異なる機械翻訳サーバ処理が内蔵されている。第１のサーバ処理はアイコンシーケンスを完全型のソース文に翻訳し、デコード処理の探索グラフを、携帯機器１５２上で実行されているＵＩアプリケーションに返す。この処理は統計的機械翻訳（ＳＭＴ）によって実現され、この実施の形態ではこれをソース言語−ソース言語ＳＭＴと呼ぶ。他の２つのサーバ処理はソース言語からターゲット言語への翻訳と、ターゲット言語からソース言語への逆翻訳とを行なう。これらの処理は最新のＳＭＴによって実現され、それぞれソース言語−ターゲット言語ＳＭＴ、ターゲット言語−ソース言語ＳＭＴと呼ぶ。
【００４８】
ＵＩ言語をトグルすることによって、２人のユーザ１６０及び１６２はともに携帯機器１５２上のＵＩアプリケーションを利用できる。したがって、図９に示すように、２つのソース言語−ソース言語ＳＭＴ１７４及び１７６がコンピュータ１５４内に内蔵されている。このシステムが日本語と英語との間のものであるとすれば、ＳＭＴ１７４は日−日（日本語から日本語）のＳＭＴであって、日本語のアイコンテキストシーケンスを日本語の完全型のソース文に翻訳し、ＳＭＴ１７６は英−英（英語から英語）のＳＭＴ１７６であって英語のアイコンテキストシーケンスを英語の完全型のソース文に翻訳する。
【００４９】
したがって、この実施の形態では、サーバコンピュータ１５４は日−日ＳＭＴ１７４と、英−英ＳＭＴ１７６と、日−英ＳＭＴ１７８と、英−日ＳＭＴ１８０と、サーバコンピュータ１５４にネットワーク１５６への接続を与えるネットワークインターフェイスカード（ＮｅｔｗｏｒｋＩｎｔｅｒｆａｃｅＣａｒｄ：ＮＩＣ）１７０と、図８の携帯機器１５２等の遠隔携帯機器（図示せず）からの要求を、日−日ＳＭＴ１７４、英−英ＳＭＴ１７６、日−英ＳＭＴ１７８及び英−日ＳＭＴ１８０の間に配信し、携帯機器に応答を返す要求配信処理１７２とを有する。
【００５０】
３．外部言語からソース文への変換
３．１機械翻訳
外部言語を完全型のソース文に変換する作業は、字訳生成作業と極めて類似しており、これは単語並べ替え処理での一方向制約を用いたフレーズベースの統計的機械翻訳システム（ＳＭＴ）（Ｆｉｎｃｈ及びＳｕｍｉｔａ、２００８年；Ｒａｍａ及びＧａｌｉ、２００９年）を用いて行なうことができる。ここでも同様のアプローチを採用したが、ＳＭＴシステムのためのフレーズテーブルを引出すのにはベイズ共セグメント化アプローチ（次のセクションで説明する。）を用いた。
【００５１】
アイコンテキストシーケンスを完全型のソース文に翻訳するようにＳＭＴシステムをトレーニングするために、単語の削除によってトレーニングコーパスを生成する。この実施の形態と実験では、ソース言語として日本語を用いた。すなわち、図１０に示すように、日本語コーパス２００を準備する。日本語コーパス２００には、公に入手可能なＭｅＣａｂ（Ｋｕｄｏ、２００８年）等の形態素解析ツールを用いた形態素解析が行なわれる。本システムでアイコンで表されるであろう種類の内容語（例えば、名詞、動詞、形容詞等）を表す品詞（Ｐａｒｔ−Ｏｆ−Ｓｐｅｅｃｈ：ＰＯＳ）タグの組が手で集められ、ステップ２０６で残りの単語のクラス（不変化詞、形式名詞、助動詞）がソース文から削除される。さらに全ての語彙素の活用形はこのステップでその見出し語に還元される。この処理の結果、バイリンガル（日本語から日本語）のトレーニングコーパス２１０が得られ、これは外部言語を示す、ソース側の内容語（語幹の形）のシーケンスと、ターゲット側である、完全型のソース文とからなる。トレーニングコーパス２１０のソース側内容語は語彙が限られており、一方で、ターゲット文側の完全なソース単語は、より大きな語彙からなる。
【００５２】
後述する実験では、フレーズベースの機械翻訳デコーダ（日−日ＳＭＴ１７４）を用い、このモデルを対数線形フレームワーク（Ｏｃｈ及びＮｅｙ、２００２年）と統合した。トレーニングコーパス２１０内でのフレーズ対の発見と抽出は、ベイズバイリンガルアライメント部（Ｆｉｎｃｈ及びＳｕｍｉｔａ、２０１０年）を用いて行なわれた。この処理では、Ｋｎｅｓｓｅｒ−Ｎｅｙ平滑化によって構築された５−グラム言語モデルが用いられた。システムは、対数線形モデルの重みを最適化するために取りのけておいた開発データ上で、ＢＬＥＵスコア（Ｐａｐｉｎｅｎｉら、２００１年）に関する最小誤差率トレーニング（ｍｉｎｉｍｕｍｅｒｒｏｒｒａｔｅｔｒａｉｎｉｎｇ：ＭＥＲＴ）手順（Ｏｃｈ、２００３年）を用いて、標準的なやり方でトレーニングされた。
【００５３】
機械翻訳システムは、旅行会話集で典型的に見られるような表現からなる約７００，０００のバイリンガル文対でトレーニングされた。これは非常に限られたドメインであり、このドメイン内の文は非常に短い傾向がある（コーパスの英語側で平均７語）ため、翻訳は極めて容易であった。機械翻訳システムは最新のシステムであり、限定したドメインの短い文に限って適用した結果、高品質の翻訳が可能であった。
【００５４】
３．２ベイズ共セグメント化
全てのフレーズベースの統計的機械翻訳システムにおいて中心となるのは、フレーズテーブルである。このテーブルは、翻訳を構築するのに用いられる構成要素の基本的な組である。
【００５５】
フレーズベースのＳＭＴシステムの通常のトレーニング処理の間のフレーズテーブルの作成は、しばしばＧＩＺＡ＋＋（Ｏｃｈ及びＮｅｙ、２００３年）を用いる単語アライメントステップと、これに続く、ヒューリスティクス（例えば、ＭＯＳＥＳ（Ｋｏｅｈｎら、２００７年）ツールキットのｇｒｏｗ−ｄｉａｇ−ｆｉｎａｌ−ａｎｄ）を用いたフレーズ対抽出ステップとから成る。このアプローチは実際には非常にうまく働くが、ソースとターゲットとで非対称であり、データを過学習するおそれの大きい最大尤度法に基づいている。
【００５６】
ここで共セグメント化に用いたモデルは、Ｆｉｎｃｈ及びＳｕｍｉｔａ、２０１０年、に類似のディリクレプロセスモデルである。ここでベイズのアプローチを用いた理由は、その結果が、一方向にアライメント可能なシーケンスに対しＧＩＺＡ＋＋／ＭＯＳＥＳヒューリスティックス（Ｆｉｎｃｈ及びＳｕｍｉｔａ、２０１０年）を用いるよりも効果的であることを示したばかりでなく、コーパスの、首尾一貫した単一のバイリンガルセグメント化をもたらすからである。この一貫性はこのモデルを構築するのに非常に望ましい特性であると考えられる。このシステムは、これらフレーズ対を組合せるだけで自然言語を生成するからである。
【００５７】
図１１に共セグメント化処理を例示する。図１１を参照して、日本語アイコンテキスト２２０のシーケンスが完全な日本語文２２２とアライメントされる。日本語のアイコンテキスト２２０のシーケンスは外部言語の文と考えられ、一方、日本語文２２２は日本語の文である。したがって、これら２つの文又は単語シーケンスは英語の文と日本語の文との場合と同様に、アライメントできる。図１１の例では、アイコンテキスト２３０（タクシー）、２３２（レストラン）及び２３４（行く）がフレーズ２４０（タクシーで）、２４２（レストランに）及び２４４（行きたいのですが）とアライメントされている。
【００５８】
３．３ユーザの操作
図１２を参照して、図６に示すアイコンベースの翻訳アプリケーションのＵＩ画面１００を実現するメインプログラムは、以下の制御構造を有する。プログラムはステップ２６０で始まり、ここではシステムの初期化が行なわれる。このステップでは、プログラムにメモリロケーションが割当てられ、このプログラムを実行するためのベースアドレスが決定され、メモリロケーションが初期化され、スクリーンが初期化される。
【００５９】
次のステップ２６２で、システムはユーザの入力を待つ。ユーザの入力が検出されると、システムはユーザによってどのボタン又はタブがタッチされたかを判断し、ステップ２６４から２８２に制御を分岐させる。
【００６０】
ユーザがＵＩ言語トグルボタン１１０（図６）をタッチすると、制御の流れはステップ２６４に進み、ここでＵＩ言語がこの実施の形態では日本語と英語との間でトグルし、その後制御はステップ２６２に戻る。ユーザがカテゴリボタン１１２及びサブカテゴリボタン１１４の１つをタッチすると、対応のアイコンの組がアイコン記憶部（図示せず）から読出されて、タッチスクリーン上に配列され、制御はステップ２６２に戻る。ユーザがアイコンソートボタン１１６の１つをタッチすると、制御はステップ２７０に進み、ここでアイコン１１８が選択された順序で並べ替えられ、制御はステップ２６２に戻る。これらのステップは通常の処理であると考えられ、当業者によって容易に実現可能である。したがって、これらのステップの詳細はここでは説明しない。
【００６１】
ユーザがアイコン１１８のうち１つをタッチすると、制御はステップ２７２に進む。図１３を参照して、ステップ２７２はアイコンをアイコンシーケンスフィールド１２０内のアイコンのアイコンシーケンスの末尾に追加するステップ３００と、アイコンテキストをテキストシーケンスの末尾に追加するステップ３０２（図示せず）と、アイコンシーケンスフィールド１２０を更新してこのルーチンから出るステップ３０４とを含む。
【００６２】
ユーザがソース生成ボタン１２６をタッチすると、制御はステップ２７４に進む。図１４を参照して、ステップ２７４はアイコンシーケンスフィールド１２０内のアイコンシーケンスに対応するアイコンテキストシーケンスを日−日ＳＭＴ１７４に送るステップ３２０（図９を参照）と、日−日ＳＭＴ１７４から探索グラフが送り返されるのを待つステップ３２２と、この探索グラフを記憶部に記憶するステップ３２４（図示せず）と、探索グラフのうち最も尤度の高い経路を探すステップ３２６と、ステップ３２６で見つかった最も尤度高い経路に対応するソーステキストをソース文フィールド１２２のための記憶部に記憶するステップ３２８と、ソース文フィールド１２２を更新するステップ３３０と、を含む。ステップ３３０の後、制御はステップ２６２に戻る（図１２）。
【００６３】
機械翻訳システムの出力は、探索グラフであって、完全型のソース文仮説を構築するのに用いられるバイリンガルフレーズ対を、先行する部分的仮説の末尾にこれらのフレーズ対を付加することに関連するモデル確率とともに表したものである。このグラフは機械翻訳システムからユーザインターフェイスクライアントに与えられ、これは図形中の情報を用いて、操作処理の間に入力を連続して再デコードする必要なしに、ユーザに満足のいく結果を与える。
【００６４】
このシステムでは、外部言語からの生成処理に続いて、上述のステップ２７４の処理の結果として、与えられた入力文に対し完全型のソース文の最も尤度の高い仮説がユーザに提示される。この文がユーザの意図した意味に合わなければ、ユーザはアイコンシーケンスを対話的に操作することにより、生成された文を改良できる。これは図１２のステップ２７６で行なわれる。
【００６５】
ユーザはアイコンシーケンスフィールド１２０に表示されているアイコンシーケンスの中のどのアイコンをタップしてもよい。図１２を参照して、制御はステップ２７６に進む。
【００６６】
図１５を参照して、ステップ２７６はステップ３４０を含み、ここではユーザインターフェイスが探索グラフを調べ、ユーザに対し、選択されたアイコンの翻訳にいたる範囲で、かつ選択されたアイコンの翻訳を含む、部分的な翻訳仮説のｎベストリストを提示する。これに応じて、ユーザは部分的翻訳仮説の１つを選択できる。この実施の形態では、システムに直接テキスト入力することはできないが、そのようにすることも可能であり、おそらく実世界のシステムではこれが必要であろう。入力をこのように制限することによって支払うべき対価は、表現の豊かさであるので、以下のセクションでは、このことを念頭においてこのシステムを実験的に検討する。
【００６７】
ステップ２７６はさらに、ステップ３４０でのユーザの入力に基づいて新たな完全型のソーステキストを生成するステップ３４２と、新たな完全型のソーステキストをソース文フィールド１２２のための記憶部に記憶するステップ３４４と、ソース文フィールド１２２を更新するステップ３４６と、を含む。ステップ３４６の後、制御はステップ２６２に戻る。
【００６８】
再び図１２を参照して、ユーザがクリアボタン１２８（図６を参照）をタッチすると、制御はステップ２７８に進み、ここでアイコンシーケンスフィールド１２０、ソース文フィールド１２２及び翻訳文フィールド１３０がクリアされ、制御はステップ２６２に戻る。
【００６９】
ユーザが翻訳ボタン１２４（図６を参照）をタッチすると、制御はステップ２８０に進む。図１６を参照して、ステップ２８０は、ソース文フィールド１２２の完全型のソース文を図９に示す日−英ＳＭＴ１７８に送るステップ３６０と、日−英ＳＭＴ１７８からの応答（翻訳）を待つステップ３６２と、翻訳文を受取り、翻訳文フィールド１３０用の記憶部に記憶するステップ３６６と、翻訳文フィールド１３０を更新するステップ３６８とを含み、制御はステップ２６２に戻る（図１２を参照）。
【００７０】
ユーザがチェックボタン１３２をタッチすると（図６を参照）、制御はステップ２８２に進む。この実施の形態では、ステップ２８２において、翻訳文フィールド１３０に示されたテキストが日本語のテキストか（逆翻訳）又は英語の翻訳であるかに依存して、翻訳文フィールド１３０に示されたテキストが日−英ＳＭＴ１７８又は英−日ＳＭＴ１８０に送られる。日−英ＳＭＴ１７８又は英−日ＳＭＴ１８０から翻訳文又は逆翻訳文が送り返され、翻訳文フィールド１３０に示され、制御はステップ２６２に戻る。
【００７１】
上の実施の形態はソース言語（例えば日本語）からターゲット言語（例えば英語）への翻訳に関連して説明されたが、上述の装置が逆方向への翻訳、すなわち英語から日本語への翻訳にも使用できることは当業者には明らかであろう。さらに、サーバコンピュータ１５４（図９を参照）が英−英ＳＭＴ１７６を有していない場合でも、これは依然として日本語から英語へのアイコンベースの翻訳装置として機能する。
【００７２】
４．評価
４．１表現力
アイコン駆動のユーザ入力について懸念される主な点の１つは、ドメイン内におけるその表現力である。文をその携帯機器で利用可能なアイコンのみを用いて表現しなければならないからである。このため、システムの評価を行なって、ＵＩ画面１００が表すことのできるドメイン内の文の比率を判断した。この目的のために、トレーニングコーパス２１０（図１０を参照）と同じサンプルから抽出し取りのけておいたデータの組から１００個の文のサンプルを採り、各々の文からアイコン駆動のインターフェイスとそのソース文生成処理とを用いて意味的に均等な形を生成できるかどうかを判断した。現在のプロトタイプの開発ははまだ十分ではないので、数値表現（価格、電話番号、日付、時刻等）を扱うアイコンの組を含んでいない。このため、評価用の組からはこれらを含む文を除いた（数値表現を含む文を除いた後の評価用の組のサイズは１００文であった。）。しかし、数値表現の扱いは比較的直截的なので、将来この機能を付加することに格別困難があるとは思われない。評価で用いたアイコンの組は、日−英ＳＭＴ１７８及び英−日ＳＭＴ１８０をトレーニングするのに用いたトレーニングコーパスの英語側で最もよく用いられる２０１０個の内容語であり、トレーニングコーパス中で２８回以上出現した内容語である。この値は、ユーザインターフェイスのアイコンの数が、実世界で役立つ応用を構築するのに必要なアイコン数の概算である２０００個程度になるように選ばれた。
【００７３】
この評価データの文の７４％で、意味的に均等な文を生成可能であることが分かった。これを、より少ない数のアイコンが用いられた例についての（１００個の評価文からランダムに採った３０個のサンプル文に基づく）統計とともに、図１７のグラフ３８０に示す。ユーザインターフェイスを簡素化したことを考えれば、この守備範囲は高レベルであると思われる。出力に対し人による訂正がない場合の２つの方法の比較を図１８に示す。ここでもまた、ＭＴ法（グラフ３９０で示す）がｎ−グラム法（グラフ３９２で示す）よりも高い性能を示した。これと、この方法が一般に全ての言語に応用可能であると期待できることと考え併せれば、この発明の目的に関しこの方法がそれだけ良い生成技術であるといっても過言ではないであろう。
【００７４】
４．２効率
これらの文を外部言語を用いて入力するのに必要とされたキーを押す動作の回数を、装置のテキスト入力インターフェイスを用いて入力した場合に必要とされたであろう回数と比較検討した。ここでは、アイコンの各々を選択するのにキーを３回押す必要があると仮定したが、多くの場合同じアイコンサブカテゴリからのアイコンを用いることができるので、そのようなアイコンはキーを１回押すだけで済む。したがって、ここでの推定は必要とされるキーを押す動作の回数の上限を表す。キーを１回押すのにかかる時間は、アイコンの入力とテキストの入力とでは同じではないが、実験ではこれは測定しなかった。さらに、入力処理でのユーザの入力誤りの影響も測定しなかった。ソース文が意図した意味になるように、ユーザがシステムを対話的に操作するために必要なキーを押す追加の動作は測定に含めた。
【００７５】
この実験で、この実施の形態にしたがった外部言語の入力システムでは、テキスト入力方法のキーを押す動作の回数の５７％しか必要としないことが分かった。キーを押す動作の回数はテキスト入力の１６５０回に対し、外部言語の入力方法では９４１回である。これは、外部言語の入力システムが、効率的なテキスト入力システムとして利用できることを意味する。
【００７６】
４．３ソース文生成の品質
この発明のシステムの最初の版では、欠落する機能語を回復するのに単純な言語モデルベースのアプローチを用いた。このアプローチは、形が非常に規則的で、機能を示すのに内容語に近接して不変化詞を用い、限定詞を含まない日本語には適している。内容語の対であって機能語がその左又は右についているものを含むバイグラムをトレーニングデータから抽出し、これらのバイグラムを生成処理において対応の内容語の場所に挿入した。この発明のモデルは、これら可能な置換の全てから結果として生じる仮説の組に、５グラム言語モデルでスコア付けし、最も高い言語モデルスコアとなった仮説を最良の候補として選択する。探索空間を管理可能なサイズに削減するため、ビーム探索法を用いた。
【００７７】
この発明のシステムのソース生成構成要素の品質を、いずれもｎ−グラム精度に基づく機械翻訳性能を測定する一般的な方法である、ＢＬＥＵスコア（Ｐａｐｉｎｅｎｉら、２００１年）及びＮＩＳＴスコア（Ｄｏｄｄｉｎｇｔｏｎ、２００２年）について、ＮＩＳＴ機械翻訳評価スコアスクリプトのバージョン１３ａを用いて評価した。評価データの中から、数値表現を含む文を除去した。この除去により、当初５１０個の日本語文の組が４５５個の文に減じられた。これらの文をＭｅＣａｂ形態素解析器に供給し、発明のシステムのアイコンとは関係のない単語を除いた。実験結果を表の形で図１９に示す。
【００７８】
隠れｎ−グラム（見出し語化済み）とＳＭＴ生成とのスコアは全く同じ入力から導出したものである。この例で隠れｎ−グラムのスコアが低いのは、活用形を生成できないからである。したがって、第２の実験では、活用した語の正しい表層形式から隠れｎ−グラムを生成できるようにした。これはこのモデルに、活用を予測する必要があるＳＭＴ生成モデルに対し不当な優位性を与えることになった。それにも関わらず、ＳＭＴ処理で生成されたソース文は用いられたどちらの評価基準でもより高いスコアであった。
【００７９】
５．コンピュータによる実現
この発明の実施の形態の上述の説明から明らかなように、携帯機器１５２とサーバコンピュータ１５４とはコンピュータハードウェアで実現可能である。携帯機器１５２はユーザが持ち運ぶので、そのリソースは限られるが、サーバコンピュータ１５４にはそのような制限はない。したがって、それらの構成は互いに異なる。
【００８０】
図２０及び図２１を参照して、この実施の形態の携帯機器１５２はタブレット型のコンピュータであって、液晶表示装置（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ：ＬＤＣ）４２０上に形成されたタッチパネル４１８を有し、ユーザがテキストの入力をしたり、ＬＣＤ４２０に表示された何らかのボタンをタッチしたりできる。携帯機器１５２はさらに、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ：中央処理装置）４１０と、フラッシュＲＯＭ（Ｒｅａｄ−Ｏｎｌy Ｍｅｍｏｒｙ：読出専用メモリ）４１２と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ：ランダムアクセスメモリ）４１４と、入出力インターフェイス（Ｉ／Ｆ）４１６と、ネットワークインターフェイス４２２と、ハードウェアボタン４２４と、を含む。これらの構成要素は全て、バス４２６に接続される。ＣＰＵ４１０はバス４２６を介してこれらのいずれにもアクセス可能である。
【００８１】
図２２を参照して、この実施の形態のサーバコンピュータ１５４にハードウェアリソースを提供するコンピュータシステム４３０は、コンピュータ４４０を含む。コンピュータシステム４３０はさらに、全てコンピュータ４４０に接続された、モニタ４４２、キーボード４４６及びマウス４４８を含む。コンピュータ４４０はＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ：ディジタル多用途ディスク）４６２からデータを読出し、又はＤＶＤ４６２にデータを書込むためのＤＶＤドライブ４５０と、リムーバブルメモリ４６４からデータを読出し又はデータを書込むためのメモリポート４５２と、を有する。
【００８２】
図２３を参照して、コンピュータ４４０はさらに、ＣＰＵ４５６と、ＣＰＵ４５６に接続されたバス４６６とを含む。ＤＶＤドライブ４５０とメモリポート４５２とはバス４６６に接続されており、バス４６６を介してＣＰＵ４５６にアクセス可能である。コンピュータ４４０はさらに、コンピュータ４４０のブートプログラムを記憶するＲＯＭ４５８と、ＣＰＵ４５６によって使用される作業領域及びＣＰＵ４５６によって実行されるプログラムの記憶領域を提供するＲＡＭ４６０と、ＳＭＴが使用するコーパスデータ、翻訳モデル及び言語モデル、並びにトレーニング処理と翻訳処理との間に使用される他のデータを記憶するハードディスクドライブ（ＨＤＤ）４５４と、を含む。
【００８３】
コンピュータ４４０はさらにＮＩＣ１７０を含み、これは図９にも示されるが、バス４６６に接続されてコンピュータ４４０に、典型的にはＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）（図示せず）及び無線通信である、ネットワークへの接続を与える。
【００８４】
上述の実施の形態のサーバコンピュータ１５４を実現するソフトウェアは、ＤＶＤ４６２等の記録媒体に記録されたオブジェクトコードの形で配信されてもよいし、リムーバブルメモリ４６４に記憶され、ＤＶＤドライブ４５０又はメモリポート４５２等の読出装置を介してコンピュータ４４０に提供され、ＨＤＤ４５４に記憶されてもよい。ＣＰＵ４５６がプログラムを実行する際に、プログラムはＨＤＤ４５４から読出されてＲＡＭ４６０に記憶される。ＣＰＵ４５６の図示しないプログラムカウンタによって指定されるアドレスからＣＰＵ４５６によって命令がフェッチされ、ＣＰＵ４５６によって処理される。ＣＰＵ４５６は、ＣＰＵ４５６内のレジスタ、ＲＡＭ４６０又はＨＤＤ４５４の、命令のオペランドによって指定されるアドレスから処理すべきデータを読出し、処理の結果を、これもまた命令のオペランドによって指定される、ＣＰＵ４５６内のレジスタ、ＲＡＭ４６０又はＨＤＤ４５４に記憶する。
【００８５】
コンピュータシステム４３０の一般的な動作は周知であるので、その詳細はここでは説明しない。
【００８６】
ソフトウェアの配信の仕方について、これは必ずしも記録媒体に固定されていなくてもよい。例えば、ソフトウェアは別のシステムからコンピュータ４４０にネットワーク及びＮＩＣ１７０を介して送信されてもよい。ソフトウェアの一部をＨＤＤ４５４に記憶し、ソフトウェアの残りの部分をネットワークからＨＤＤ４５４に取り込んで、実行の際にそれらを統合してもよい。
【００８７】
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム（ＯＳ）によって提供される機能を利用し、所望の目的にしたがって制御されたやり方で機能を実行する。したがって、ＯＳ又はサードパーティによって提供される機能を含まず、一般的な機能を実行する命令の組合せのみを指定するプログラムもまた、全体として所望の目的を達成する制御構造を有する限り、この発明の範囲に含まれる。
【００８８】
６．結論
この発明は、外部言語と呼ばれる抽象的言語を用いてコミュニケーションの際に両当事者が伝えようとしている意味的内容を明示する、機械翻訳の新たな入力の枠組みを提供する。この外部言語は機械翻訳システムに対しトランスペアレントで信頼性のあるセカンドオピニオンとして働くのみならず、携帯機器で実行されるアプリケーションにうまく適合する、主たるユーザ入力の方法として用いることができる。
【００８９】
この発明の実施の形態、発明の思想を実施するシステムの具体例、及びその特性のいくつかの実験的説明を提示した。この実施の形態では、旅行者のための２つの異なる翻訳方法の思想を結びつけた。ピクチャーブックと、統計的機械翻訳とである。このアプローチはピクチャーブックの単純ながら力強い表現の利点を全て提供すると同時に、ソース文でのユーザの意味を明瞭に言い表すことのできる自然言語をターゲット言語で生成できる。発明者らの評価によれば、アイコンベースの入力システムはこの基本旅行表現コーパスのドメインにおいて文の約７４％をカバーし、さらに、テキストのみの入力方法に対し、翻訳すべき表現を入力するのに必要なキーを押す回数は大幅に減じられた。
【００９０】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【００９１】
参考文献
Ｇ．Ｄｏｄｄｉｎｇｔｏｎ．２００２年。Ｎグラム共起統計を用いた機械翻訳品質の自動評価。ＨＬＴ会議予稿集、サンディエゴ、カリフォルニア。
【００９２】
ＡｎｄｒｅｗＦｉｎｃｈ及びＥｉｉｃｈｉｒｏＳｕｍｉｔａ．２００８年。フレーズベースの機械翻訳。第３回ＮＬＰ国際合同会議予稿集、第１巻。ハイデラバード、インド。
【００９３】
ＡｎｄｒｅｗＦｉｎｃｈ及びＥｉｉｃｈｉｒｏＳｕｍｉｔａ．２０１０年。字訳のためのバイリンガルセグメント化のベイズモデル。ＩＷＳＬＴ予稿集、パリ、フランス。
【００９４】
ＰｈｉｌｉｐｐＫｏｅｈｎら、２００７年．Ｍｏｓｅｓ：統計的機械翻訳のためのオープンソースツールキット。ＡＣＬ２００７：デモ及び紙セッションの予稿集、第１７７−１８０ページ、プラハ、チェコ共和国、６月。
【００９５】
Ｔ．Ｋｕｄｏ．２００８年。ＭｅＣａｂ．［オンライン］、http://mecab.sourceforge.net/で入手可能。
【００９６】
ＦｒａｎｚＪｏｓｅｆＯｃｈ及びＨｅｒｍａｎｎＮｅｙ．２００２年。統計的機械翻訳のための識別的トレーニング及び最大エントロピモデル。第４０回コンピュータ言語学会年次会合（ＡＣＬ２００２）予稿集、第２９５−３０２ページ。
【００９７】
ＦｒａｎｚＪｏｓｅｆＯｃｈ及びＨｅｒｍａｎｎＮｅｙ２００３年。様々な統計的アライメントモデルの系統的比較。コンピュータ言語、２９（１）：１９−５１。
【００９８】
ＫｉｓｈｏｒｅＰａｐｉｎｅｎｉら、２００１年．Ｂｌｅｕ：機械翻訳の自動評価方法。ＡＣＬ’０２：コンピュータ言語学会第４０回年次会合予稿集、第３１１−３１８ページ、モリスタウン、ＮＪ、ＵＳＡ、コンピュータ言語学会。
【００９９】
ＴａｒａｋａＲａｍａ及びＫａｒｔｈｉｋＧａｌｉ．２００９年。フレーズベースの統計的機械翻訳課題としての機械翻訳モデル。ＮＥＷＳ’０９：固有表現ワークショップ：音訳の共有タスク、第１２４−１２７ページ、モリスタウン、ＮＪ、ＵＳＡ、コンピュータ言語学会。
【符号の説明】
【０１００】
４０、５０、６０コミュニケーションチャネル
４２、５２及び６４ソース言語
４４中間言語
４６、５６及び６６ターゲット言語
６２外部言語
８０及び８２ピクチャー
１００ＵＩ画面
１１０ＵＩ言語トグルボタン
１１２カテゴリボタン
１１４サブカテゴリボタン
１１６アイコンソートボタン
１１８、１４０、１４２及び１４４アイコン
１２０アイコンシーケンスフィールド
１２２ソース文フィールド
１２４翻訳ボタン
１２６ソース生成ボタン
１２８クリアボタン
１３０翻訳文フィールド
１３２チェックボタン
１５０翻訳システム
１５２携帯機器
１５４サーバコンピュータ
１５６ネットワーク

【特許請求の範囲】
【請求項１】
タッチパネルディスプレイと関連して用いられるテキスト入力装置であって、
前記タッチパネルディスプレイに接続され、前記タッチパネルディスプレイにアイコンの組を表示する手段と、
前記タッチパネルディスプレイに接続され、ユーザによる前記タッチパネルディスプレイに表示された前記アイコンの１つ又は２つ以上のシーケンスの入力を受ける入力受信手段と、
前記タッチパネルディスプレイに接続され、前記入力受信手段を用いて前記ユーザによって入力されたアイコンのシーケンスを前記タッチパネルディスプレイに表示する手段と、
前記アイコンのシーケンスを所定の言語の完全型の文に翻訳する翻訳手段と、を含むテキスト入力装置。
【請求項２】
前記タッチパネルディスプレイ及び前記翻訳手段に接続され、前記翻訳手段によって翻訳された前記完全型の文を前記タッチパネルディスプレイに表示する手段をさらに含む、請求項１に記載のテキスト入力装置。
【請求項３】
各々が前記アイコンとそれぞれ関連する、前記所定の言語のフレーズを記憶する記憶手段と、
前記記憶手段及び前記入力受信手段に接続され、前記アイコンの各々について前記記憶手段から抽出されたフレーズを連結することにより外部言語のテキストを生成する手段とをさらに含み、
前記翻訳手段は、文の対のコーパスで前記外部言語のテキストを前記所定の言語の文に翻訳するように統計的にトレーニングされたフレーズベースの統計的機械翻訳ユニットを含み、前記対の各々は、前記所定言語の第１の語彙内の語を含むフレーズのシーケンスと、前記第１の語彙より大きい第２の語彙内の語を含む前記所定言語の文と、を含む、請求項１又は請求項２に記載のテキスト入力装置。
【請求項４】
前記第１の語彙は前記所定言語の内容語を含む、請求項３に記載のテキスト入力装置。
【請求項５】
前記統計的機械翻訳ユニットは、文仮説を構築するのに用いられるバイリンガルフレーズ対を、先行する部分的仮説の末尾にこれらのフレーズ対を追加することに関連するモデル確率とともに表す、探索グラフを出力するものであり、
前記文は、前記探索グラフにおいて最も尤度の高いな経路に対応する仮説である、請求項３又は請求項４に記載のテキスト入力装置。
【請求項６】
前記アイコンシーケンス中のアイコンの１つのユーザによる選択を受ける手段と、
前記ユーザの選択に応答して、前記探索グラフの前記ユーザによって選択された前記アイコンに対応するノードまでの部分から引出された複数個の部分仮説を示す手段と、をさらに含む、請求項５に記載のテキスト入力装置。
【請求項７】
請求項１から請求項６のいずれかに記載のテキスト入力装置と、
前記テキスト入力装置によって出力される前記文をターゲット言語の翻訳文に翻訳する統計的機械翻訳装置と、
前記翻訳文を前記タッチパネルディスプレイに表示する手段と、を含む、翻訳装置。
【請求項８】
前記タッチパネルディスプレイから予め規定されたコマンドを受ける手段と、
前記予め規定されたコマンドに応答して前記翻訳文を前記所定言語に逆翻訳し、前記逆翻訳された文を前記タッチパネルディスプレイに表示する手段と、をさらに含む、請求項７に記載の翻訳装置。
【請求項９】
タッチパネルディスプレイに関連してテキストを入力する方法であって、
前記タッチパネルディスプレイにアイコンの組を表示するステップと、
ユーザによる、前記タッチパネルディスプレイに表示された前記アイコンの１つまたは２つ以上のシーケンスの入力を受けるステップと、
前記受けるステップで入力されたアイコンのシーケンスを前記タッチパネルディスプレイに表示するステップと、
前記アイコンのシーケンスを所定の言語の完全型の文に翻訳するステップと、を含む、テキスト入力方法。
【請求項１０】
コンピュータプログラムであって、タッチパネルディスプレイを備えたコンピュータを、
前記タッチパネルディスプレイに接続され、前記タッチパネルディスプレイにアイコンの組を表示する手段と、
前記タッチパネルディスプレイに接続され、ユーザによる前記タッチパネルディスプレイに表示された前記アイコンの１つ又は２つ以上のシーケンスの入力を受ける入力受信手段と、
前記タッチパネルディスプレイに接続され、前記入力受信手段を用いて前記ユーザによって入力されたアイコンのシーケンスを前記タッチパネルディスプレイに表示する手段と、
前記アイコンのシーケンスを所定の言語の完全型の文に翻訳する翻訳手段、として機能させる、コンピュータプログラム。

【図１】