説明

句テーブル生成器及びそのためのコンピュータプログラム

【課題】複数のソース言語単語セグメント化方式をSMTデコード処理に統合して翻訳の品質を高める、単語セグメント化システム及び単語セグメント化方法を提供する。
【解決手段】句テーブル生成器10は、翻訳対のバイリンガルコーパス32及び34を記憶する記憶部30を含む。翻訳対の各々は第1の言語34のソース文と、第2の言語32のターゲット文とを含む。生成器はさらに、コーパスを利用して統計的機械翻訳機(SMT)をトレーニングする分類器トレーニング装置12を含む。SMTはトレーニングの間に句テーブル16を出力する。生成器10はさらに、複数の句テーブル16を統合された句テーブル20に統合するための句テーブルマージ部18を含む。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は自然言語処理(Natural Language Processing:NLP)の前処理に関し、特に、SMT(Statistical Machine Translation:統計的機械翻訳)又は自然言語理解における入力テキストを信頼性高くセグメント化することに関する。
【背景技術】
【0002】
単語セグメント化の作業、すなわち連続したテキストにおいて単語の境界を特定することは、自然言語理解、情報抽出及び機械翻訳等のデータ駆動のNLP応用では基本的な前処理ステップのひとつである。英語等のインド−ヨーロッパ系言語と異なり、中国語、日本語等のアジア系言語の多くは、意味のある単語単位を区別するのに空白文字を用いない。
【0003】
これら言語の単語セグメント化には以下の課題がある。
【0004】
(1)多義性。たとえば、中国語では、単一の文字が、ある文脈では構成要素のひとつであり、別の文脈ではそれだけでひとつの単語であり得る。
【0005】
(2)未知語。すなわち、既存の単語を組合せると、例えば「ホワイトハウス」等の固有名詞等の新たな単語になりうる。
【0006】
これまでに提案された方法には以下のものがある。
【0007】
(a)純粋に辞書ベースのアプローチでは、最長一致ヒューリスティックスによってこれらの課題に対処しているが、その精度は、利用される辞書の守備範囲に大いに依存する。
【0008】
(b)ユニグラム単語分布又は標準的nグラム言語モデルに基づく確率的セグメント化モデル。
【0009】
(c)ディリクレプロセスに基づくノンパラメトリックなベイズ推論のアプローチであって、ユニグラム及びバイグラムの単語依存性を組込んだもの。
【0010】
モノリンガルの確率モデルを用いても、良好な機械翻訳性能が得られるとは限らない。モノリンガルのみならずバイリンガルの情報も考慮して単語セグメント化を行なういくつかのアプローチから改良がなされる。
【先行技術文献】
【非特許文献】
【0011】
【非特許文献1】J.シュー、J.ガオ、K.トウタノバ、及びH.ネイ。SMTのためのベイズ半教師付き中国語単語セグメント化。COLING(コンピュータ言語国際会議)予稿集、第1017−1024ページ、マンチェスター、UK、2008年。(J. Xu, J. Gao, K. Toutanova, and H. Ney. Bayesian Semi-Supervised Chinese Word Segmentation for SMT. In Proc. of the COLING(International Conference on Computational Linguistics), pages 1017-1024, Manchester, UK, 2008.)
【非特許文献2】A.ラトナパルキ。品詞タグ付けのための最大エントロピモデル。EMNLP(自然言語処理の経験的方法に関する会議)予稿集、ペンシルバニア、USA、1996年。(A. Ratnaparkhi. A Maximum Entropy Model for Part-Of-Speech Tagging. In Proc. of the EMNLP (The Conference on Empirical Methods on Natural Language Processing), Pennsylvania, USA, 1996.)
【非特許文献3】M.ポールら、統計的機械翻訳のための言語独立単語セグメント化、IUCS(国際ユニバーサルコミュニケーションシンポジウム)予稿集、36−40ページ、2009年。(M. Paul et al., Language Independent Word Segmentation for Statistical Machine Translation, Proceedings of the IUCS (International Universal Communication Symposium), pp. 36-40, 2009.)
【発明の概要】
【発明が解決しようとする課題】
【0012】
言語資源の入手しやすさの点から、最近の研究は中国語から英語へのSMTのための中国語の単語セグメント化(Chinese word segmentation:CWS)の最適化に焦点をあてている。例えば、非特許文献1はCWSのためのベイズ半教師付きアプローチであって、上述のディリクレプロセスに基づくものを提案している。この生成的モデルは、まず市販の分離器を用いて中国語のテキストをセグメント化し、SMTに好適な新たな単語の種類と分布とを学習する。
【0013】
しかし、セグメント化の一貫性と翻訳単位の粒度ともまた、CWSを改良するには重要である。
【0014】
これに関連して、非特許文献3には、文字単位で分離されたソース言語と単語セグメント化されたターゲット言語訳文例とからなるパラレルテキストコーパスから開始して、MT翻訳の品質を最適化する単語セグメント化を自動的に学習するブートストラップ法が提案されている。以前のアプローチとは対照的に、このシステムは言語独立であり、文分離器の更新と分離器によってセグメント化されたテキストでトレーニングされたSMTエンジンによる翻訳結果の評価とを繰返すことによって得られる、MTに最適な単語セグメント化を統合している。
【0015】
しかし、上述のとおり、翻訳の品質は利用される翻訳単位に大いに依存する。守備範囲と統計的モデルの翻訳作業の複雑さとのトレードオフを達成するために、翻訳単位の複数のレベルの粒度を組合せる必要がある。もしこのような組合せが達成されれば、(1)スパースであるが、所与の入力文の文脈において意味のあるより大きな翻訳単位を扱うことが可能であり、かつ(2)トレーニングコーパスには頻出するがその訳がかなりあいまいであるようなより小さな翻訳単位を扱うことも可能な、翻訳モデルが得られるであろう。これまでに提案された方法はいずれも、この課題を解決していない。
【0016】
したがって、この発明の目的の一つは、複数のソース言語単語セグメント化方式をSMTデコード処理に統合して翻訳の品質を高める、単語セグメント化システム及び単語セグメント化方法を提供することである。
【課題を解決するための手段】
【0017】
ある局面にしたがえば、この発明は、第1の言語と第2の言語との翻訳を行うSMTシステムで用いられる句テーブルを生成するための句テーブル生成器に関する。前記句テーブル生成器は翻訳対のバイリンガルコーパスを記憶するための手段を含み、翻訳対の各々は前記第1の言語のソース文と第2の言語のターゲット文とを含み、前記句テーブル生成器はさらに、前記バイリンガルコーパスを利用して統計的機械翻訳手段をトレーニングするためのトレーニング手段を含み、前記統計的機械翻訳手段は前記トレーニング手段のトレーニングの間に複数個の句テーブルを出力する。
【0018】
前記複数個の句テーブルの各々は、前記第1の言語のソース句、前記第2の言語のターゲット句、及び前記ソース句がトレーニングの間に前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含む。前記複数個の句テーブルは前記バイリンガルコーパスの前記ソース文の異なるセグメント化を反映する。
【0019】
前記句テーブル生成器はさらに、前記複数個の句テーブルを、前記複数個の句テーブルにおいて同一のソース及びターゲット句対を有するエントリ対がそれぞれ単一のエントリに統合された統合句テーブルに統合するための句テーブル統合手段を含む。
【0020】
好ましくは、前記トレーニング手段は、前記バイリンガルコーパス中の前記ソース文を予め定められた区切りによって文字列にセグメント化するための文字ベースの第1の分離器と、前記ソース文と前記ターゲット文との翻訳対を含むバイリンガルトレーニングコーパスを利用して統計的機械翻訳手段をトレーニングするための第1のトレーニング手段と、を含む。前記統計的機械翻訳手段はトレーニングの間に前記バイリンガルトレーニングコーパス内の前記翻訳対の各々を対応付ける。前記統計的機械翻訳手段はトレーニングの間に句テーブルを出力する。前記句テーブルは、ソース句、ターゲット句、及びトレーニングの間に前記ソース句が前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含む。
【0021】
前記トレーニング手段はさらに、前記トレーニング手段によってトレーニングされた前記統計的機械翻訳手段の性能を評価するための評価手段と、前記統計的機械翻訳手段による対応付けの結果を利用して、前記バイリンガルコーパスの前記ソース文の第2の分離器をトレーニングするための第2のトレーニング手段と、前記バイリンガルコーパス中の前記ソース文を、前記第2のトレーニング手段によってトレーニングされた前記第2の分離器を利用して、前記予め定められた区切りによって分離されたセグメント列に分離するためのセグメント化手段と、前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段及び前記第2の分離器を、性能に関する予め定められた終了条件が満足されるまで繰返し動作するよう制御するための繰返し制御手段と、を含む。前記繰返し制御手段は、第1回目の繰返しに、前記第1の分離器によってセグメント化されたソース文を含む前記バイリンガルコーパスを選択し、その後の繰返しで前記第2の分離器によってセグメント化された前記ソース文を有する前記バイリンガルコーパスを選択する。前記繰返し制御手段は、前記選択されたバイリンガルコーパスを前記バイリンガルトレーニングコーパスとして利用して前記第1のトレーニング手段に前記統計的機械翻訳手段をトレーニングさせる。
【0022】
さらに好ましくは、前記第2のトレーニング手段は、前記統計的機械翻訳手段による前記対応付けの結果を利用して前記バイリンガルコーパスの前記ソース文内の各文字に注釈を付け、各文字が単語の終端であるか否かを示す注釈を各文字に付与するための手段と、前記バイリンガルコーパスの前記ソース文における各文字の予め定められた特徴量セットを抽出するための手段とを含み、前記予め定められた特徴量セットは前記ソース文の対象の文字のコンテキストと、前記ソース文と対にされたターゲット文における対象の文字と対応付けされた句のコンテキストとを反映し、さらに前記第2の分離器で用いられる確率モデルをトレーニングするための手段を含み、前記確率モデルは前記抽出手段によって抽出された前記特徴量の組の統計的分析によって、ソース言語文中の文字が単語の終端であるか否かの確率を推定するのに用いられる。
【0023】
さらに好ましくは、前記確率モデルは最大エントロピモデルを含む。
【0024】
前記繰返し制御手段は前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段、及び前記第2の分離器を、前記評価手段による評価が先行する繰返しでの前記評価手段の評価より悪くなるまで繰返し動作するよう制御する。
【0025】
好ましくは、前記句テーブル統合手段は、前記複数個の句テーブルの各々のエントリの各々におけるソース句を前記予め定められた区切りでセグメント化するためのソース分離手段と、前記複数個のエントリの各々と同一のソース及びターゲット句対を有するエントリ数でスコアを除算して、前記複数個のエントリの各々のスコアを調整するためのスコア調整手段と、前記複数個の句テーブルを連結して、連結句テーブルにするための連結手段と、連結句テーブルのエントリを、同一のソース及びターゲット句対を有するエントリが1つを除いて削除され、削除されたエントリのスコアが残る1つに加算されるようにマージするためのマージ手段とを含む。
【0026】
この発明の第2の局面は、コンピュータ上で実行されるとコンピュータを上述のいずれかの装置として機能させる、コンピュータプログラムに関する。
【0027】
この発明の第3の局面は、上述のコンピュータプログラムを記憶するコンピュータ可読媒体に関する。
【図面の簡単な説明】
【0028】
【図1】この発明の実施例にしたがったSMTの全体構成を示す概略図である。
【図2】この発明の1実施例にしたがった繰返しブートストラップ法を示す図である。
【図3】ソース言語とターゲット言語との翻訳対を示す図である。
【図4】コンピュータ上でこの発明の実施例を実現するプログラムのフロー図である。
【図5】元の翻訳対と、ソース言語文が文字ベースでセグメント化された翻訳対との例を示す図である。
【図6】句テーブルをマージする処理を示す図である。
【図7】この発明の実施例において句テーブルをマージするコンピュータプログラムの制御の流れを示すフロー図である。
【図8】この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。
【図9】この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。
【図10】この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。
【図11】この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。
【図12】この発明の実施例において句テーブルのマージの間の句テーブルの遷移を示す図である。
【図13】コンピュータシステム320の正面図である。
【図14】コンピュータシステム320のブロック図である。
【発明を実施するための形態】
【0029】
ここで提案するシステムは、多数のソース言語セグメント化方式をSMTデコード処理に統合して翻訳の品質を高める、非特許文献3で提案の単語セグメント化方法を具体化している。ここで提案するシステムはさらに、SMTのトレーニングプロセスで得られる句テーブルを利用する。この方法は言語独立であり、どのような単語セグメント化方式にも対応できる。すなわち、これは(そのようなセグメント化ツールが利用可能であれば)言語学的に動機づけされたセグメント化方式と組合せることも、モノリンガル又はバイリンガルコーパスから自動的に学習されたセグメント化方式と組合せることもできる。ソース言語側を文字単位で分離し、SMTモデルの同一の翻訳対で異なった形にセグメント化されたものをマージすることにより、複数の単語セグメント化を組合せ、最終的な翻訳モデルとする。セグメント化の学習プロセスでは、SMTは翻訳プロセスで用いられることになる句テーブルを生成する。以下で説明する実施例では、これらの句テーブルを組合せて単一の句テーブルとする。この句テーブルはは翻訳単位に関する、複数のレベルの粒度の組合せを含む。
【0030】
[概観]
先行のアプローチとは対照的に、この実施例では、最初のセグメント化を得るために、言語学的に導かれた単語セグメント化ツールが存在しなくてもよい、言語に依存しないアプローチを提案する。提案される方法は、パラレルコーパスを用い、文字列となっているソース言語の文をターゲット言語の空白文字で分離された単語単位に対応付ける。同じターゲット単語に対応付けされた連続する文字がマージされたより大きなソース言語単位になる。したがって、翻訳単位の粒度は、所与のバイリンガルコーパスの文脈により規定される。対応付けの誤りの副作用を最小にし、かつセグメント化の一貫性を保つために、最大エントロピ(Maximum−Entropy:ME)アルゴリズムを適用し、再セグメント化されたバイリンガルコーパスでトレーニングされる、SMTシステムの翻訳品質を最適化するソース言語単語セグメント化の学習が行われる。
【0031】
現代のSMTシステムには、GIZA++等のトークン−単語対応付けサブシステムが組込まれている。このようなサブシステムは、ソース言語文のトークンとターゲット言語文の単語との間の最も確率の高い対応付けを出力するものとして知られているが、その対応付け精度は時として疑問である。
【0032】
5つのアジア系言語(日本語、韓国語、タイ語、中国語(標準中国語、台湾語))から英語への翻訳に、提案のセグメント化方法を適用した実験を行なった。実験の結果、提案の方法は、文字ごとに区切られたソース言語文を翻訳するベースラインシステムより性能がよく、言語学的ツールでセグメント化されたバイリンガルコーパスでトレーニングされたSMTモジュールと同様の翻訳結果を得ることが分かった。
(単語セグメント化)
この実施例で利用される単語セグメント化は2つのステップからなる。第1のステップでは、ユニグラムにセグメント化されたソース言語文字列と、空白文字で分けられたターゲット言語の単語とからなるパラレルテキストコーパス上で、標準的SMTモデルがトレーニングされる。SMTトレーニング手順の文字−単語対応付けの結果を利用して、それぞれのバイリンガルコーパスで同じターゲット言語の単語に対応付けされた連続したソース言語の文字を特定し、これらの文字をマージしてより大きな翻訳単位とする。
【0033】
第2のステップでは、単語セグメント化の作業を文字タグ付け課題として扱うが、ここでは2つのタグのみを用いる。すなわち、所与のソース言語の文字がターゲット言語の単語と対応付けられたマージ文字列の最後のものであれば「WB」(word boundary:単語境界)であり、そうでなければ「NB」(no boundary:非境界)である。対応付けに基づく単語境界注釈を用いて、ME法が適用され、最適なソース言語単語セグメント化が学習される。
(1)MEタグ付けモデル
MEモデルは、分類と予測とのための汎用の機械学習技術を提供する。これらは多くの特徴量を扱うことのできる多用途のツールであり、文境界検出又は品詞タグ付けを含む広範なNLP作業において非常に有効であることが知られている。
【0034】
ME分類器は指数的モデルであって、複数の二値特徴量関数及びそれらの重みからなる。モデルは、トレーニングデータによって課される制約により、確率モデルのエントロピを最大にするよう重みを調節することでトレーニングされる。実験では条件付きMEモデルを用い、ここで所与の特徴量の組に対する結果の条件付き確率は非特許文献2でモデル化されている。モデルは以下の形である:
【0035】
【数1】

ここで、
tは予測されるタグであり、
cはtのコンテキストであり、
γは正規化係数であり、
Kはモデル内の特徴量の数であり、
は二値特徴量関数であり、
αは特徴量関数fkの重みであり、
はデフォルトモデルである。
【0036】
特徴量の組をテーブル1に示す。辞書によるコンテキスト特徴量はタグtが注釈として付けられた(タグ付けされた)ターゲット単語を含む。cはタグ付けされたコンテキスト単位(例えば文字、または単語)を示し、c−2、…c+2は周囲のコンテキスト単位を示す。tは現在のタグを示し、t−1は先行するタグを示し、以下同様である。タグコンテキスト特徴量は、先行するタグ列のコンテキストに関する情報を供給する。この条件付きモデルは分類器として用いることができる。モデルは繰返しトレーニングされ、実験には改良された繰返しスケーリングアルゴリズム(Improved Iterative Scaling:IIS)を用いた。
【0037】
【表1】

(2)繰返しブートストラップ法
SMTのための最適単語セグメント化を学習する提案の繰返しブートストラップ法は、図1に示すシステムによって実現され、その分類トレーニングを図2にまとめた。
【0038】
図1を参照して、この実施例のSMTシステム10は、バイリンガルコーパス30上で分類器(図示せず)をトレーニングし、分類器のトレーニングの繰返し中にSMTで得られた句テーブル16の組を出力する分類器トレーニング装置12と、句テーブル16をマージされた句テーブル20にマージして1つの句テーブルを生成する句テーブルマージ部18とを含む。ここで句テーブル16内で同一のソース−ターゲット句対を有するエントリ(見出し)は組合されて単一のエントリとされる。SMTシステム10はさらに、入力テキスト22をセグメント化するためのユニグラム分離器36を用い、さらに、セグメント化されたテキストの翻訳の間にマージされた句テーブル20を用いて、入力テキスト22を翻訳文26に翻訳するSMTを含む。
【0039】
図2を参照して、バイリンガルコーパス30は、ターゲット言語テキスト32とソース言語テキスト34とを含む。ターゲット言語テキスト32の各々は、ソース言語テキスト34の1つと対になっている。
【0040】
図3を参照して、翻訳対110は、ソース言語文112と、その文112の翻訳であるターゲット言語文114とを含む。
【0041】
再び図2を参照して、分類器トレーニング装置12は以下の繰返しプロセスを実現する機能ブロックを含む。最初の繰返し(0回目繰返し)では、ソース言語テキスト34の各々がユニグラム分離器36により文字ごとに、ユニグラムセグメント化されたソース言語文38に分割される。ユニグラム分離器36は単に、ソース言語テキスト34の隣接する文字の各々の間に空白を挿入するだけである。
【0042】
ターゲット言語テキスト32とユニグラムセグメント化されたソース言語文38とを含むバイリンガルコーパスを利用してSMT40をトレーニングする。これは最初の繰返しなので、このSMT40を「SMT」と呼ぶ。SMT40のトレーニングの間に、ターゲット言語テキスト32とユニグラムセグメント化されたソース言語文38との文の対の各々が対応付けされる。SMT40の学習プロセスの間に、SMT40により句テーブル41も生成される。句テーブル41は0回目の繰返しで生成されるので、このテーブルを「PT」と呼ぶ。
【0043】
次の繰返しが始まる前に、ソース言語文開発セット(図示せず)をターゲット言語文にデコードさせることによってSMT40を評価し、さらにデコードされた結果を、BLEU(K.パピネニにより提案、「BLEU:機械翻訳の自動評価法」第40回ACL予稿集、第311−318ページ、フィラデルフィア、US,2002年、(K. Papineni, “BLEU:a Method for Automatic Evaluation of Machine Translation”, in Proceedings of the 40th ACL, pages 311-318, Philadelphia, US, 2002))又はMETEOR(S.ベネルジらにより提案、「METEOR:MT評価のための自動尺度」ACL予稿集第65−72ページ、アンアーバー、US、2005年(S. Banerjee et al., “METEOR:An Automatic Metric for MT Evaluation” in Proceedings of the ACL, pages 65-72, Ann Arbor, US, 2005.))等の自動評価器によって評価する。評価結果42のスコアを保存する。SMT40のトレーニングの間に、トークン―単語対応付けの結果44が抽出される。
【0044】
この実施例では、ユニグラムセグメント化されたソース言語文38に、SMT40による対応付けの結果44によって注釈が付けられる。例えば、SMT40のトレーニングにおいて、ある文字がある単語の終端であると判断されると、その単語に「WE」(Word End:語終端)というラベルが付され、そうでなければ「NE」(Not End:非終端)とされる。注釈付きソース言語文を用いてME分類器のトレーニングを行なう。この実施例では、ユニグラムセグメント化されたソース言語文38の注釈付き文字の各々について、テーブル1に示すようなコンテキスト特徴量の組が導出される。ME分類器46(ME)は、トレーニングデータにより所与の制約が課された場合に確率モデルのエントロピが最大になるようにトレーニングされ、より長い翻訳単位の取扱いが可能であると期待される。MEモデルは特徴量の組により統計的にトレーニングされる。この実施例では、上述のとおり、ME分類器46に対し条件付きMEモデルを用いる。
【0045】
それぞれのバイリンガルコーパス30の最初の文字−単語の対応付けからME分類器46の学習が終わると、その後、同様の動作が繰返される。この繰返しを「1回目」の繰返しと呼ぶ。一回目の繰返しでは、獲得されたME分類器46を適用してセグメント化されていないパラレルコーパスのソース言語テキスト34を再セグメント化する。この動作の結果、ターゲット言語テキスト32とソース言語文48とを含む、別の形でセグメント化されたバイリンガルコーパスが得られる。このコーパスは別のSMT(SMT)50の再トレーニングと再評価に利用でき、これによって、最初のSMT(SMT)より良好な翻訳性能と期待されるものが達成される。
【0046】
教師なしMEタグ付け方法を、SMTエンジンのトレーニングの際に抽出されるトークン−単語対応付けに適用することもでき、これによってより長い翻訳単位の取扱いが可能なME分類器56(ME)を得ることができる。
【0047】
トレーニングの間に、セグメント化されたソース言語文48のセグメントの各々がターゲット言語テキスト32の対応する単語と対応付けられる。対応付けの結果54がSMT50から抽出され、これを利用してセグメント化されたソース言語文48に注釈が付けられる。注釈付きのセグメント化されたソース言語文48を用いて次の繰返しのME分類器56(ME分類器)をトレーニングする。さらに、SMT50のトレーニングの間に、句テーブル51が生成される。このテーブルを「PT」と呼ぶ。エントリのいくつかはPT51内のソース句であって、PT41と異なり、2又はそれ以上の文字からなる語を含むと予想される。
【0048】
一方で、SMT50の性能を、ソース言語の開発セットの文をデコードすることによって評価する。評価結果52を、最初の繰返しの評価結果42を保存したものと比較する。もし結果52が結果42より良好であれば、繰返しが継続される。そうでなければ、この段階で繰返しを中止し、ME分類器46がソース言語文のセグメント化に最適な分類器として出力される。
【0049】
もし結果52が保存された結果42より良好であれば、評価結果52が保存され、ソース言語テキスト34がME分類器56によりセグメント化されてセグメント化ソース言語文58が結果として得られる。バイリンガルコーパス30とセグメント化ソース言語文58とを含むバイリンガルコーパスを利用してSMT60(SMT)をトレーニングする。SMT60のトレーニングの間のソース言語文の対応付けの結果(図示せず)が抽出される。SMT60の性能は、自動評価器で評価される。SMT60の評価結果62が保存された結果52より悪ければ、繰返しは終了し、ME分類器46が最適な分類器として出力される。もし評価結果62が保存された結果52より良好なら、次の繰返しが行われる。さらにここでも、SMT60のトレーニングの間に、句テーブル61(PT)が生成される。エントリのいくつかは句テーブルPT41及びPT51よりも長い語を含むソース句を有すると期待される。
【0050】
ME分類器のトレーニング、ME分類器を用いたソース言語テキスト34のセグメント化、セグメント化ソース言語文を含むバイリンガルコーパスによるSMTのトレーニング、結果の句テーブルの生成、及びSMT性能の評価はこのようにして、評価結果が、先行する評価結果より悪くなるまで繰返される。
【0051】
すなわち、図2を参照して、ME分類器76が(J−1)回目の繰返しで(J−2)回目のSMTトレーニングでのバイリンガルコーパスの対応付けを利用してトレーニングされると仮定する。(J−1)回目の繰返しでは、ソース言語テキスト34はME分類器76によってセグメント化される。結果として得られるセグメント化されたテキスト78は、ターゲット言語テキスト32とともにSMT80(SMTJ−1)のトレーニングに利用される。トレーニングの間に、句テーブルPTJ−181が生成される。SMT80の性能が評価される。もし評価結果82が先行する結果より良好なら、結果82が保存され、SMT80のトレーニングにおける対応付けの結果が抽出される。ME分類器86は対応付けの結果84を用いてトレーニングされる。ソース言語テキスト34はセグメント化されてセグメント化ソース言語文88になる。ターゲット言語テキスト32とセグメント化ソース言語文88とを含むバイリンガルコーパスを利用してSMT90をトレーニングする。トレーニングの間に、句テーブルPT91が生成される。SMT90の性能が自動評価器によって評価され、評価結果92が先行する評価結果82と比較される。ここでは、結果92が結果82より悪いと仮定する。ここで繰返しが中止され、先行する繰返しで得られた分類器76が最適分類器として特定され、記憶される。
【0052】
このようなブートストラップ法が一連のSMTすなわちSMTと句テーブルPTとを繰返し生成し、そのたびに翻訳の複雑さが少なくなる。なぜなら、より大きな塊を1のステップで翻訳することができ、語順又は語の明瞭化の誤りを発生させることがなくなるからである。しかし、ある時点で、トレーニングコーパスから学習した翻訳単位の長さの増大によりオーバーフィッティングが生じ、遭遇したことのない文を翻訳する際の翻訳性能が低下する。したがって、トレーニングコーパスのJ回目の再セグメント化が、遭遇していないテストの組について、前回の繰返しより低い自動評価スコアをもたらした場合には、ブートストラップ法は中止される。そして、最も高い自動翻訳スコアを達成したME分類器76(MEJ−1)が繰返しブートストラップ法の最終的な単語分離器として選択され出力される。
【0053】
この実施例では特に、句テーブルPT41、PT51、…PTJ−181を利用して図1に示す組合せ句テーブル20を作成する。これらの句テーブルをマージして句テーブル20を作成する処理については後述する。
【0054】
[プログラム構造]
図4を参照して、このトークン分類器トレーニング装置12を実現するコンピュータプログラムは、バイリンガルコーパス30のソース言語テキスト34をユニグラムにセグメント化してユニグラムセグメント化されたソース言語文48を得るステップ140で開始し、その後、ターゲット言語テキスト32とセグメント化ソース言語文48とを含むバイリンガルコーパスを利用してSMT40をトレーニングするステップ142を含む。
【0055】
図5を参照して、バイリンガルコーパス30は、ソース言語文及び対応のターゲット言語文を含む文対240等の多数の翻訳対(文対)を含む。図5(A)は手動でセグメント化されたソース文を含む対240を示し、図5(B)はユニグラムセグメント化されたソース言語文を含む対242を示す。ここで、「ユニグラムセグメント化」とは、「1文字ずつにセグメント化された」という意味である。
【0056】
プログラムはさらに、BLEUまたはMETEOR等の自動評価器を用いてSMTの性能を評価するステップ(144)と、評価の結果を得て、これが最初の繰返しであるか否かを判断するステップ(146)を含む。もしステップ146の判断がYESなら、制御はステップ150に進む。そうでなければ、制御はステップ148に進む。ステップ148で、ステップ144で計算された評価結果が先行する結果よりも悪いか否かが判断される。もし判断がYESならば、制御はステップ164に進み、ここで先行する繰返しで得られたME分類器が最適な分類器として出力され、制御は一連のプログラムを終了する。もしステップ148の判断がNOなら、制御はステップ150に進む。
【0057】
ステップ150で、ステップ144で計算された結果がメモリロケーションに保存される。
【0058】
プログラムはさらに、直前に得られたME分類器をメモリロケーションに記憶するステップ(152)と、先行するSMTトレーニングステップからの対応付けの結果を抽出するステップ(154)と、対応付けの結果を用いてソース言語文に注釈を付けるステップ(156)と、セグメント化されたソース言語文のトークンの各々について特徴量セットを抽出するステップ(158)と、抽出された特徴量セットを利用して今回の繰返しのME分類器をトレーニングするステップ(160)と、ステップ160で得られたME分類器でソース言語文をセグメント化し(162)、制御をステップ142に戻すステップと、を含む。
【0059】
最初の繰返しでは、ユニグラムセグメント化されたソース言語文を含むバイリンガルコーパスが選択されてSMTのトレーニングに用いられる。これに続く繰返しでは、ステップ160でトレーニングされたME分類器を利用してセグメント化されたバイリンガルコーパスが選択され、SMTのトレーニングに用いられる。ユニグラムのセグメント化は文字ベースなので、ステップ140のセグメント化は言語に依存しない。したがって、言語学的に導かれた単語セグメント化ツールは不要である。
【0060】
SMTのトレーニング中の対応付けには周知のツールがあるが、対応付けの結果はいくつかの対応誤りを含むことがある。対応付けの結果を直接バイリンガルコーパスのセグメント化に適用すると、結果に誤りが多くなるであろう。しかし、SMTトレーニングの対応付けの結果を利用してME分類器を統計的にトレーニングすることにより、ME分類器のセグメント化結果は比較的誤りが少なくなるであろう。上述の繰返しの終わりに結果として得られるME分類器は、SMT性能が繰返しの間に得られるSMTの中で最良となる、という意味で、結果として最適なものとなるであろう。
【0061】
[句テーブルのマージ]
図6を参照して、句テーブルは以下のようにマージ(統合)される。図6(A)は0回目の繰返しで得られる句テーブルの例であるテーブル250を示す。図6(A)に示すように、ソース文字列は全て文字にセグメント化され、これは文字間におかれた空間で示される。例えば、エントリ252のソース文字列は「a_b_c」である(アンダースコアは文字間を分離するスペースを示す)。
【0062】
「1回目」の繰返しで得られた句テーブル260では、対応付けの結果としてより長い語が認められ、したがっていくつかのエントリは2又はそれ以上の文字からなる語を有するであろう。例えば、テーブル260において、エントリ262と264とのソースはそれぞれ「ab_c」と「a_bc」であり、ここで「ab」と「bc」とはそれぞれ新たに認められた単語である。
【0063】
上述のように、これが繰返される。例えば、2回目の繰返しでは、テーブル270が得られる。いくつかのより長い語がさらに認められ、句テーブルのソース句のいくつかはさらに長い語を含むことになる。テーブル270の場合、ソースエントリ272は「abc」であり、これは3つの文字「a」、「b」及び「c」からなる1語である。
【0064】
テーブル250、260及び270を参照して、当業者には、エントリ252及び262のソース句が元の表現で同じ文字の文字列「abc」を有すること、さらに同一のターゲット語の文字列「X YZ 9」を有することが理解されるであろう。
【0065】
別の形でセグメント化されたソース言語コーパスによってトレーニングされた統計的翻訳モデルは、各翻訳モデルのソース側を文字単位で分離し、同一の句翻訳対の確率を合計し、マージされた翻訳モデルの再スコアリングをすることによってマージ可能である。したがって、デコードの際に、より長い翻訳単位を選択できるため、適用可能な場合には翻訳作業の複雑さを減じることができる。他方で、単一繰返しモデルでのオーバーフィッティングの問題は回避できる。なぜなら、多数のより小さなソース言語翻訳単位を開発して、所与のソース言語入力部分をカバーし、関連付けられたターゲット句表現の連結に基づいて翻訳仮説を生成することができるからである。さらに、同じ表層の文字列をカバーしているが、ソース言語句のセグメント化のみが異なるソース/ターゲット翻訳対の翻訳可能性が、マージ処理により向上する。したがって、種々の繰返しモデルによってこのような翻訳対がより頻繁に学習されれば、SMTデコーダによりそれぞれのターゲット言語の表現はより頻繁に開発されることになる。
【0066】
繰返しにより得られる句テーブルは、この実施例ではコンピュータプログラムによりマージされる。プログラムの制御フローを図7に示す。図8から図12を参照して、具体例を説明する。
【0067】
図8はこの処理によってマージすべき句テーブル400及び420を示し、これらはそれぞれ0回目と1回目の繰返しとによって得られたものである。テーブル400のソース句の各々が文字にセグメント化される。例えば、エントリ410のソース句は文字「、 お 元 気」という文字列である。これに対し、テーブル420のエントリのいくつかの句には、2又はそれ以上の文字からなる語が含まれる。例えば、エントリ430にはソース句「、 お 元気」があり、ここで語「元気」は2文字の語である。同様に、エントリ432にはソース句「はじめまして 、」があり、ここで「はじめまして」は6文字の語である。図6を参照して述べたように、句テーブルの各々において各エントリは、ターゲット句、翻訳確率Φ(S|T)、辞書的重みlex(S|T)、句翻訳確率Φ(T|S)、辞書的重みlex(T|S)及び句ペナルティPPを含むスコアを有する。この実施例では、句ペナルティPPは全てのエントリにおいて常にexp(1)=2.718に等しい。辞書的重みは語の対応付けから得られる語の翻訳確率の積である。
【0068】
図7を参照して、プログラムはステップ300で開始し、ここで全ての句テーブルのソース句が文字にセグメント化される。図9はステップ300後の句テーブル400及び420を示す。図9を参照して、句テーブル400はステップ300以前と変わらない。これに対して、テーブル420の各エントリのソース句は各々、文字ごとにセグメント化されている。例えば、エントリ430のソース句はここでは「、 お 元 気」であり、エントリ432のソース句は「は じ め ま し て」である。
【0069】
図9でテーブル400と410を比較すれば明らかなように、テーブル400及び420のエントリ410及び430のソース及びターゲット句対はそれぞれステップ300の後でも同一であり、したがって、エントリ410及び430はマージ可能である。
【0070】
エントリ410及び430等のエントリをマージする前に、ステップ302でそれらのそれぞれのスコアを、翻訳確率Φ(S|T)、辞書的重みlex(S|T)、句翻訳確率Φ(T|S)及び辞書的重みlex(T|S)をマージすべきエントリの数で除算することによって調整する。この実施例では、句ペナルティは常に同じである。したがって、句ペナルティは調整しない。
【0071】
すなわち、同一のソース及びターゲット句、「、 お 元 気」と「How’re you doing」(エントリ410及び430)を有するエントリの数は2であるから、エントリ410及び430の翻訳確率Φ(S|T)、辞書的重みlex(S|T)、句翻訳確率Φ(T|S)及び辞書的重みlex(T|S)を2で除算する。
【0072】
図10において、スコアは全句テーブルの全エントリを参照して調整されていること、図9及び図10にはテーブルの1部のみしか示されていないことに注意されたい。このため、図10においてテーブル400及び420のスコアは図9のものとは一貫しない。
【0073】
スコアの調整後、句テーブル400及び420はステップ304で連結される。すなわち、例えばテーブル420の全てのエントリがテーブル400に付加され、その後ソース及びターゲット句の昇順でソートされて、図11に示すような新たなテーブル570となる。
【0074】
次に、ステップ306で、エントリ410及び430等の同一のソース及びターゲット句対を有するエントリがマージされる。すなわち、同一のエントリは最初のものを除きテーブルから削除され、それらのスコアは残りのエントリのそれぞれのスコアに加算される。この結果得られる句テーブル600の例を図12に示す。テーブル600の最初のエントリ602は図11のテーブル570の最初の2つのエントリをマージして得られたものである。テーブル570の6番目と7番目とのエントリは、マージされてテーブル600の5番目のエントリとなっている。
最後のステップ308で、マージされた句テーブルが図1に示すマージ後の句テーブル20として出力され、さらにSMT24に与えられる。
【0075】
[実験結果]
提案のセグメント化方法を5つのアジア系言語(日本語、韓国語、タイ語、中国語(標準中国語、台湾語))から英語への翻訳に適用した。SMTモデルのトレーニングには、標準的な単語対応付け及び言語モデル化ツールを用いた。デコーダのパラメータのチューニングには最小誤り率トレーニングを用いた。翻訳には、オープンソースツールキットMOSESと同等のマルチスタック句ベースデコーダを用いた。翻訳品質の評価には、標準的自動評価尺度、すなわちBLEUを用いた。以下の表は実験の結果をまとめたものである。ここでは、所与のスコアがパーセンテージの値としてリストされている。
【0076】
【表2】

テーブル2において、「文字」は、文字ごとにセグメント化されたソーステキスト(各文字間に空白文字を挿入したもの)を翻訳の為に用いるベースラインシステムを指す。
【0077】
「学習済」はバイリンガルでトレーニングされた語セグメント化方式(非特許文献3)によってセグメント化されたコーパスでトレーニングされたSMTである。
【0078】
「マージ」は、SMTであってその翻訳モデルがこの実施例で提案された複数の語セグメント化方式を統合しているものである。
【0079】
テーブル2に示されるように、句テーブルのマージを組込んだSMTは日本語、韓国語、中国語及び台湾語において最も高いスコアを示した。タイ語では最高ではなかったが最高(「学習済」)にごく近い。このように、本発明の句テーブルをマージする方策は、意味のある単語単位を分離するのに空白文字を用いない言語の信頼性の高い翻訳を達成するのに効果的であることが検証された。
【0080】
[コンピュータによる実現]
このように構成されたプログラムはコンピュータで実行されると、図1に示されるシステムと、図2に示すその動作とを実現するものであることが当業者には理解されるであろう。
【0081】
図13を参照して、コンピュータシステム320はコンピュータ340と、全てコンピュータ340に接続された、モニタ342と、キーボード346と、マウス348とを含む。さらに、コンピュータ340はDVD(Digital Versatile Disc:ディジタル多用途ディスク)ドライブ350と、半導体メモリポート352と、を含む。
【0082】
図14を参照して、コンピュータ340はさらに、DVDドライブ350及び半導体メモリポート352に接続されたバス366と、上述の装置を実現するコンピュータプログラムを実行するCPU(Central Processing Unit)356と、コンピュータ340のブートアッププログラムを記憶するROM(Read Only Memory)358と、CPU356によって用いられる作業領域及びCPU356によって実行されるプログラムの記憶領域を提供するRAM(Random Access Memory)360と、バイリンガルコーパス30(図2を参照)及び他のデータを記憶するハードディスクドライブ(Hard Disk Drive:HDD)364とを含む。
【0083】
コンピュータ340が翻訳トレーニング装置として用いられる場合、HDD364はSMTモジュールのためのプログラムをさらに記憶し、バイリンガルコーパスとテストセットとを記憶する。
【0084】
コンピュータ340はさらに、バス366に接続され、コンピュータ340をネットワーク382に接続するネットワークインターフェース(I/F)380を含む。
【0085】
上述の実施例のシステムを実現するソフトウェアはDVD368又は半導体メモリ370等の記録媒体に記録されたオブジェクトコードの形で配布されてもよく、DVDドライブ350又は半導体メモリポート352等の読出装置によってコンピュータ340に提供され、HDD364に記憶されてもよい。CPU356がプログラムを実行する際には、プログラムはHDD364から読出され、RAM360に記憶される。CPU356内の図示しないプログラムカウンタから指定されるアドレスからCPU356に命令がフェッチされ実行される。CPU356はCPU356、RAM360又はHDD364内のレジスタから処理すべきデータを読出し、処理の結果をまたCPU356、RAM360又はHDD364内のレジスタに記憶する。
【0086】
コンピュータシステム320の一般的な動作は公知であるので、その詳細はここでは説明しない。
【0087】
ソフトウェア配布の方法については、必ずしも記憶媒体に固定されていなくてもよい。例えば、ソフトウェアは別のコンピュータからコンピュータ340にネットワーク382を介して送信されてもよい。ソフトウェアの一部をHDD364に記憶し、ソフトウェアの残りの部分をネットワークからHDD364に取込んで、実行の際に統合してもよい。
【0088】
典型的には、現代のコンピュータはコンピュータのオペレーティングシステム(Operating System:OS)によって提供される機能を利用し、これらの機能を所望の目的にしたがって制御されたやり方で実行する。したがって、これら機能を含まず、OSによって、又は第三者によって提供され、一般的機能の実行の順序の組合せのみを指定するのみのプログラムもまた、そのプログラムが全体として所望の目的を達成する制御構造を有するのであれば、この発明の範囲に含まれる。
【0089】
上述の実施例では、繰返しは評価結果が先行する繰返しの評価結果よりも悪いステップ148(図4を参照)で止まる。しかし、この発明はそのような実施例に限定されない。例えば、繰返しは、評価が先行する評価結果より高くないときに停止されてもよいし、一回の繰返しの評価結果に代えて、予め定められた繰返しの評価結果の移動平均を利用してもよい。
【0090】
さらに、バイリンガルコーパスのソース言語文の文字にタグ付けするためのME分類器に代えて、ME以外の統計的モデルを用いてもよい。SVM(Support Vector Machine)又は判断ツリーをMEに代えて用いてもよい。
【0091】
[結論]
この実施例は、現在のSMTシステムの性能を改良するために、意味のある単語単位を分離するのに空白文字を用いない文を、教師なしでセグメント化する、新たな言語に依存しない方法を提案する。提案の方法はソース言語について何ら言語学的情報必要とせず、このため、形態素的分析ツールが利用できないこともしばしばである比較的マイナーな言語の翻訳のためのSMTシステムを構築するのに重要である。加えて、開発費用は、バイリンガルコーパスの生成についてのみで、言語学的単語セグメント化ツールの開発、またはデータセットを人手でセグメント化するために人に支払う費用にくらべはるかに少ない。
【0092】
さらに、この実施例では分離器のトレーニング過程で得られた多レベルの句テーブルを統合している。このため、この実施例では多レベルの単語セグメント化粒度を翻訳に利用する。この結果、より信頼性が高く、より品質の良い翻訳結果が得られる。
【0093】
今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。
【符号の説明】
【0094】
10 SMTシステム
12 分類器トレーニング装置
16、41、51、61、81及び91 句テーブル
18 句テーブルマージ部
20 マージされた句テーブル
22 入力テキスト
24、40、50、60、80、90 SMT
26 翻訳文
30 バイリンガルコーパス
32 ターゲット言語テキスト
34 ソース言語テキスト
36 ユニグラム分離器
42、52、62、82、92 評価結果
44、54、84 トークン対単語対応付け結果
46、56、76、86 ME分類器
48、58、78、88 セグメント化されたソース言語文

【特許請求の範囲】
【請求項1】
第1の言語と第2の言語との統計的機械翻訳で用いられる句テーブルを生成するための句テーブル生成器であって、
前記句テーブル生成器は
翻訳対のバイリンガルコーパスを記憶するための手段を含み、翻訳対の各々は前記第1の言語のソース文と第2の言語のターゲット文とを含み、さらに
前記バイリンガルコーパスを利用して統計的機械翻訳手段をトレーニングするためのトレーニング手段を含み、前記統計的機械翻訳手段は前記トレーニング手段のトレーニングの間に複数個の句テーブルを出力し、
前記複数個の句テーブルの各々は、前記第1の言語のソース句、前記第2の言語のターゲット句、及び前記ソース句がトレーニングの間に前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含み、
前記複数個の句テーブルは前記バイリンガルコーパスの前記ソース文の異なるセグメント化を反映しており、さらに
前記複数個の句テーブルを、前記複数個の句テーブルにおいて同一のソース及びターゲット句対を有するエントリ対がそれぞれ単一のエントリに統合された統合句テーブルに統合するための句テーブル統合手段を含む、句テーブル生成器。
【請求項2】
前記トレーニング手段は
前記バイリンガルコーパス中の前記ソース文を予め定められた区切りによって文字列にセグメント化するための文字ベースの第1の分離器と、
前記ソース文と前記ターゲット文との翻訳対を含むバイリンガルトレーニングコーパスを利用して統計的機械翻訳手段をトレーニングするための第1のトレーニング手段と、を含み、
前記統計的機械翻訳手段はトレーニングの間に前記バイリンガルトレーニングコーパス内の前記翻訳対の各々を対応付け、
前記統計的機械翻訳手段はトレーニングの間に句テーブルを出力し、前記句テーブルは、ソース句、ターゲット句、及びトレーニングの間に前記ソース句が前記ターゲット句に翻訳される確率を示すスコアを各々が含むエントリを含み、さらに
前記トレーニング手段によってトレーニングされた前記統計的機械翻訳手段の性能を評価するための評価手段と、
前記統計的機械翻訳手段による対応付けの結果を利用して、前記バイリンガルコーパスの前記ソース文の第2の分離器をトレーニングするための第2のトレーニング手段と、
前記バイリンガルコーパス中の前記ソース文を、前記第2のトレーニング手段によってトレーニングされた前記第2の分離器を利用して、前記予め定められた区切りによって分離されたセグメント列に分離するためのセグメント化手段と、
前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段及び前記第2の分離器を、性能に関する予め定められた終了条件が満足されるまで繰返し動作するよう制御するための繰返し制御手段と、を含み、
前記繰返し制御手段は、第1回目の繰返しに、前記第1の分離器によってセグメント化されたソース文を含む前記バイリンガルコーパスを選択し、その後の繰返しで前記第2の分離器によってセグメント化された前記ソース文を有する前記バイリンガルコーパスを選択し、前記選択されたバイリンガルコーパスを前記バイリンガルトレーニングコーパスとして利用して前記第1のトレーニング手段に前記統計的機械翻訳手段をトレーニングさせる、請求項1に記載の句テーブル生成器。
【請求項3】
前記第2のトレーニング手段は、
前記統計的機械翻訳手段による前記対応付けの結果を利用して前記バイリンガルコーパスの前記ソース文内の各文字に注釈を付け、各文字が単語の終端であるか否かを示す注釈を各文字に付与するための手段と、
前記バイリンガルコーパスの前記ソース文における各文字の予め定められた特徴量セットを抽出するための手段とを含み、前記予め定められた特徴量セットは前記ソース文の対象の文字のコンテキストと、前記ソース文と対にされたターゲット文における対象の文字と対応付けされた句のコンテキストとを反映し、さらに
前記第2の分離器で用いられる確率モデルをトレーニングするための手段を含み、前記確率モデルは前記抽出手段によって抽出された前記特徴量の組の統計的分析によって、ソース文中の文字が単語の終端であるか否かの確率を推定するのに用いられる、請求項2に記載の句テーブル生成器。
【請求項4】
前記確率モデルは最大エントロピモデルを含む、請求項3に記載の句テーブル生成器。
【請求項5】
前記繰返し制御手段は、前記第1のトレーニング手段、前記評価手段、前記第2のトレーニング手段、及び前記第2の分離器を、前記評価手段による評価が先行する繰返しでの前記評価手段の評価より悪くなるまで繰返し動作するよう制御する、請求項2から4のいずれかに記載の句テーブル生成器。
【請求項6】
前記句テーブル統合手段は
前記複数個の句テーブルの各々のエントリの各々におけるソース句を前記予め定められた区切りでセグメント化するためのソース分離手段と、
前記複数個のエントリの各々と同一のソース及びターゲット句対を有するエントリ数でスコアを除算して、前記複数個のエントリの各々のスコアを調整するためのスコア調整手段と、
前記複数個の句テーブルを連結して、連結句テーブルにするための連結手段と、
前記連結句テーブルのエントリを、同一のソース及びターゲット句対を有するエントリが1つを除いて削除され、削除されたエントリのスコアが残る1つに加算されるようにマージするためのマージング手段とを含む、請求項1から5のいずれかに記載の句テーブル生成器。
【請求項7】
コンピュータによって実行されると、前記コンピュータを請求項1から請求項6のいずれかに記載の装置として機能させる、コンピュータプログラム。
【請求項8】
請求項7に記載のコンピュータプログラムを記録したコンピュータ可読媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate


【公開番号】特開2011−180941(P2011−180941A)
【公開日】平成23年9月15日(2011.9.15)
【国際特許分類】
【外国語出願】
【出願番号】特願2010−46158(P2010−46158)
【出願日】平成22年3月3日(2010.3.3)
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】