説明

処理単位分割装置、処理単位分割方法、及びプログラム

【課題】テキストデータを翻訳や、その他の処理の処理単位に分割する場合に、その精度を向上させる。
【解決手段】原言語のテキストデータが形態素に分割された形態素列情報が記憶される処理対象形態素列情報記憶部13と、原言語の教師テキストデータが形態素に分割された教師形態素列情報と、原言語の教師テキストデータ及びそれに対応する目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示すと共に、その分割位置が原言語及び目的言語の教師テキストデータで共通するかどうかを示す教師分割情報とを有する教師データが記憶される教師データ記憶部14と、教師データを用いて機械学習し、原言語のテキストデータにおける処理単位の分割位置を示す分割情報を構成する分割部15と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストデータを翻訳単位等の処理単位に分割する処理単位分割装置等に関する。
【背景技術】
【0002】
話し言葉(特に独話)は、話者が長く話し続けることから、区切りが明確でない、一文が長くなるなどの特徴がある。そのため、従来、話し言葉を適切な単位に分割する試みが行われてきていた(例えば、非特許文献1〜4参照)。
【非特許文献1】西光雅弘、河原達也、高梨克也、「隣接文節間の係り受け情報に着目した話し言葉のチャンキングの評価」、情報処理学会研究報告、SLP−61−4、2006年
【非特許文献2】西光雅弘、高梨克也、河原達也、「係り受けとポーズ・フィラーの情報を用いた話し言葉の段階的チャンキング」、電子情報通信学会技術研究報告、SP2005−137、NLC2005−104、2005年
【非特許文献3】笠浩一郎、松原茂樹、稲垣康善、「同時的な日英対話翻訳のための日本語発話文の分割」、電子情報通信学会技術研究報告、NLC2006−56、SP2006−112、2006年
【非特許文献4】柏岡秀紀、「節境界を考慮した長文の単語アライメント」、言語処理学会第11回年次大会、2005年3月
【発明の開示】
【発明が解決しようとする課題】
【0003】
従来例において、節境界を分割単位であると仮定して、テキストデータの節境界を求め、その節境界で分割する手法も提案されているが、節境界は必ずしもプロの通訳者が分割する翻訳単位とは一致しないことがわかっている。例えば、本願の発明者が16の講演を対象とした調査によれば、節境界が翻訳単位と一致したのは約60%に過ぎなかった。
一般的に言うと、テキストデータを翻訳や、その他の処理の処理単位に分割する場合に、その精度を向上させることが求められていた。
【0004】
本発明は、上記問題点を解決するためになされたものであり、テキストデータの処理単位への分割をより高い精度で実現することができる処理単位分割装置等を提供することを目的とする。
【課題を解決するための手段】
【0005】
上記目的を達成するため、本発明による処理単位分割装置は、原言語のテキストデータを処理単位に分割する処理単位分割装置であって、原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される処理対象形態素列情報記憶部と、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記処理対象形態素列情報記憶部で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、を備えたものである。
【0006】
このような構成により、原言語のテキストデータを処理単位に分割することができる。また、その分割を、より高い精度で実現することができる。例えば、翻訳単位に分割する場合には、プロの翻訳家による分割と同様の分割となるように、精度の高いテキストデータの分割を行うことができうる。
【0007】
また、本発明による処理単位分割装置では、前記分割部が構成した分割情報を少なくとも出力する出力部をさらに備えてもよい。
このような構成により、出力された分割情報によって、テキストデータがどこで分割されたのかを知ることができうる。
【0008】
また、本発明による処理単位分割装置では、原言語のテキストデータを受け付ける受付部と、前記受付部が受け付けた原言語のテキストデータを形態素に分割して処理対象形態素列情報記憶部に蓄積する形態素解析部と、をさらに備えてもよい。
【0009】
このような構成により、テキストデータの受け付けから、そのテキストデータを処理単位への分割までの一連の処理を処理単位分割装置において実行することができるようになる。
【0010】
また、本発明による処理単位分割装置では、前記原言語のテキストデータは、発話された音声に対応したテキストデータであってもよい。
このような構成により、特に、発話された音声に対応したテキストデータは、区切りが明確でない、一文が長くなるなどの特徴があり、適切に分割することが必要であるが、その分割を行うことができうる。
【0011】
また、本発明による処理単位分割装置では、前記処理単位は、原言語のテキストデータを目的言語に翻訳するための翻訳単位であってもよい。
このような構成により、原言語のテキストデータを、適切な翻訳単位に分割することが可能となりうる。その結果、翻訳の結果もより適切なものになると考えられ得る。
【発明の効果】
【0012】
本発明による処理単位分割装置等によれば、分割位置が原言語の教師テキストデータと、目的言語の教師テキストデータとにおいて共通するかどうかを示す情報を教師データが含むことによって、より高い精度でテキストデータの処理単位への分割を行うことができる。
【発明を実施するための最良の形態】
【0013】
以下、本発明による処理単位分割装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
【0014】
(実施の形態1)
本発明の実施の形態1による処理単位分割装置について、図面を参照しながら説明する。本実施の形態による処理単位分割装置は、原言語のテキストデータを翻訳単位等の処理単位に分割するものである。
【0015】
図1は、本実施の形態による処理単位分割装置1の構成を示すブロック図である。図1において、本実施の形態による処理単位分割装置1は、受付部11と、形態素解析部12と、処理対象形態素列情報記憶部13と、教師データ記憶部14と、分割部15と、出力部16とを備える。
【0016】
受付部11は、原言語のテキストデータを受け付ける。この原言語のテキストデータは、例えば、発話された音声に対応したテキストデータであってもよく、それ以外のテキストデータであってもよい。発話された音声に対応したテキストデータは、例えば、発話された音声をマイク等で集音して音声データに変換し、その音声データに対して音声認識を実行することによって作成されてもよく、発話された音声を人が聞いてキーボード等で入力することによって作成されてもよく、あるいは、その他の方法によって作成されてもよい。
【0017】
ここで、この受け付けは、例えば、入力デバイス(例えば、キーボードやマウス、タッチパネルなど)から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された情報の受け付けでもよい。なお、受付部11は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、受付部11は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。本実施の形態では、発話された音声がマイク2で集音され、音声認識装置3によって音声認識されて、音声認識装置3からテキストデータが受付部11に入力される場合について説明する。
【0018】
形態素解析部12は、受付部11が受け付けた原言語のテキストデータを形態素に分割して処理対象形態素列情報記憶部13に蓄積する。この形態素解析の処理については、すでに広く知られており、その詳細な説明を省略する。例えば、この形態素解析の処理のために、「茶筌(ChaSen)」(http://chasen.naist.jp)を用いてもよい。形態素解析部12は、原言語のテキストデータを形態素に分割し、各形態素について品詞を特定してもよく、さらに、各形態素について品詞の活用形を特定してもよい。本実施の形態では、形態素解析部12は、各形態素について品詞と活用形とを特定する場合について説明する。
【0019】
処理対象形態素列情報記憶部13では、原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される。形態素列情報は、前述の形態素解析部12によって蓄積されるものであり、例えば、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素毎に対応付けて有する情報である。
【0020】
なお、本実施の形態では、形態素解析部12が形態素列情報を処理対象形態素列情報記憶部13に蓄積する場合について説明するが、そうでなくてもよく、その場合に、処理対象形態素列情報記憶部13に形態素列情報が蓄積される過程は問わない。例えば、別の装置等で形態素解析された結果である形態素列情報が記録媒体を介して処理対象形態素列情報記憶部13で記憶されるようになってもよく、通信回線等を介して送信された形態素列情報が処理対象形態素列情報記憶部13で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された形態素列情報が処理対象形態素列情報記憶部13で記憶されるようになってもよい。ここで、形態素列情報が形態素解析部12以外によって構成される場合には、処理単位分割装置1は、受付部11や形態素解析部12を有していなくてもよい。処理対象形態素列情報記憶部13は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
【0021】
教師データ記憶部14では、教師データが記憶される。ここで、教師データは、教師形態素列情報と、教師分割情報とを有する。教師形態素列情報は、原言語の教師テキストデータが形態素に分割された情報である。教師形態素列情報は、前述の形態素列情報と同様のものであり、例えば、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素毎に対応付けて有する情報である。
【0022】
教師分割情報は、原言語の教師テキストデータ及びその原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、その分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である。
【0023】
処理単位は、例えば、原言語のテキストデータを目的言語に翻訳するための翻訳単位であってもよく、テキストデータを字幕に表示する単位であってもよく、講演をリアルタイムで音声認識している際に、その音声認識後のテキストを講演の聴衆に提示する単位であってもよく、あるいは、その他の処理単位であってもよい。本実施の形態では、処理単位が翻訳単位である場合について説明する。なお、字幕に表示する単位等にテキストデータを分割するために、処理単位分割装置1による処理を実行する場合であっても、翻訳単位に分割する処理を行い、その翻訳単位でテキストデータを字幕に表示する処理等を行ってもよい。
【0024】
処理単位が翻訳単位である場合には、この教師分割情報は、例えば、次のようにして作成される。まず、教師形態素列情報に対応する原言語の教師テキストデータを翻訳し、目的言語の教師テキストデータを得る。この翻訳は、プロの翻訳家(通訳者)が翻訳する。また、その翻訳をした翻訳家とは異なるプロの翻訳家が、原言語の教師テキストデータと、目的言語の教師テキストデータとを翻訳単位に分割する。そして、それらの分割の結果を用いて、例えば、人手によって、あるいは機械的な処理によって、原言語の教師テキストデータの分割位置を示す情報と、その分割位置が原言語の教師テキストデータ、及び、目的言語の教師テキストデータにおいて共通するかどうかを示す情報とを有する教師分割情報を構成する。なお、処理単位が翻訳単位以外である場合には、翻訳後に、原言語の教師テキストデータと、目的言語の教師テキストデータとを、その処理単位に分割すればよい。
【0025】
この教師分割情報は、例えば、教師形態素列情報に挿入された分割記号(ただし、原言語及び目的言語の教師テキストデータにおいて共通する分割かどうかを示すものであるとする)であってもよく、原言語の教師テキストデータにおける位置を示す情報(例えば、ポインタなど)と、その位置における分割が原言語の教師テキストデータ、及び、目的言語の教師テキストデータにおいて共通するかどうかを示す情報とを対応付けて有する情報であってもよく、あるいは、その他の情報であってもよい。
【0026】
教師データ記憶部14は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。教師データ記憶部14に教師データが記憶される過程は問わない。例えば、記録媒体を介して教師データが教師データ記憶部14で記憶されるようになってもよく、通信回線等を介して送信された教師データが教師データ記憶部14で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された教師データが教師データ記憶部14で記憶されるようになってもよい。
【0027】
なお、処理対象形態素列情報記憶部13や教師データ記憶部14での記憶は、外部のストレージデバイス等から読み出した教師データ等のRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。
【0028】
また、処理対象形態素列情報記憶部13と、教師データ記憶部14とは、同一の記録媒体によって実現されてもよい。その場合には、形態素列情報を記憶している領域が処理対象形態素列情報記憶部13となり、教師データを記憶している領域が教師データ記憶部14となる。
【0029】
分割部15は、教師データ記憶部14で記憶されている教師データを用いて機械学習を行うことにより、原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する。分割部15が処理単位の分割位置を示す分割情報を構成する対象となる原言語のテキストデータは、処理対象形態素列情報記憶部13で記憶されている形態素列情報に対応するものである。したがって、例えば、分割部15は、処理対象形態素列情報記憶部13で記憶されている形態素列情報に翻訳単位の分割位置を示す分割情報を挿入することによって、分割情報を構成してもよく、形態素列情報に対応する原言語のテキストデータにおける分割位置を示す情報(例えば、ポインタなど)を形態素列情報とは別途、図示しない記録媒体等に蓄積することによって、分割情報を構成してもよく、あるいは、その他の方法によって分割情報を構成してもよい。
【0030】
なお、この分割情報は、原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報を有していてもよく、有していなくてもよい。後者の場合には、分割情報は、単に分割位置であることのみを示すことになる。
【0031】
分割部15で用いられる機械学習は、例えば、サポートベクターマシンによる機械学習であってもよく、それ以外の機械学習であってもよい。サポートベクターマシン以外の機械学習は、例えば、最大エントロピーを用いた機械学習や、シンプルベイス法を用いた機械学習等であってもよく、適切な機械学習を行うことができるのであれば、その種類を問わない。なお、本実施の形態では、機械学習がサポートベクターマシンによる機械学習である場合について説明する。例えば、分割部15による分割情報の構成の処理のために、「YamCha」を用いてもよい。「YamCha」については、次の文献を参照されたい。
【0032】
文献:T.kudo,Y.Matsumoto,「Chunking with support vector machines」,Proc. of the 2nd meeting North American Chapter of the Association for Computational Linguistics,2001年
【0033】
出力部16は、分割部15が構成した分割情報を少なくとも出力する。出力部16は、分割情報と共に、形態素列情報に対応する原言語のテキストデータや、形態素列情報そのものを出力してもよい。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、出力部16は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部16は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
【0034】
この出力部16によって出力された分割情報の示す分割位置で分割された原言語のテキストデータを用いて、その処理単位毎の処理が行われることになる。例えば、その処理単位毎の翻訳が行われることになる。この翻訳は、機械翻訳であることが一般的であるが、人による翻訳であってもよい。いずれの場合であっても、プロの翻訳家によって分割されたのと同様の適切な翻訳単位の分割位置を知ることができるため、精度の高い翻訳を行うことができると考えられる。また、前述のように、その処理単位毎に字幕を表示してもよく、講演を音声認識したテキストを、その処理単位毎に提示してもよい。
【0035】
なお、原言語と目的言語とは、異なる言語であれば、どのような言語であってもよい。例えば、原言語が日本語であり、目的言語が英語であってもよく、原言語が中国語であり、目的言語がフランス語であってもよく、その他の言語の組合せであってもよい。
【0036】
次に、本実施の形態による処理単位分割装置1の動作について、図2のフローチャートを用いて説明する。
(ステップS101)受付部11は、原言語のテキストデータを受け付けたかどうか判断する。そして、受け付けた場合には、ステップS102に進み、そうでない場合には、受け付けるまでステップS101の処理を繰り返す。
【0037】
(ステップS102)形態素解析部12は、受付部11が受け付けた原言語のテキストデータを形態素解析して、形態素列情報を作成する。
(ステップS103)形態素解析部12は、作成した形態素列情報を、処理対象形態素列情報記憶部13に蓄積する。
【0038】
(ステップS104)分割部15は、教師データ記憶部14で記憶されている教師データを用いて、機械学習を行う。
(ステップS105)分割部15は、ステップS104における機械学習の結果を用いて、処理対象形態素列情報記憶部13で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す分割情報を構成する。
【0039】
(ステップS106)出力部16は、分割部15が構成した分割情報を少なくとも出力する。そして、ステップS101に戻る。
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0040】
次に、本実施の形態による処理単位分割装置1の動作について、具体例を用いて説明する。この具体例では、処理単位が翻訳単位であるとする。原言語は日本語であり、目的言語は英語であるとする。
【0041】
また、この具体例では、原言語の教師テキストデータ、及び目的言語の教師テキストデータとして、名古屋大学同時通訳データベース(独話)を用いた。そのデータベースについては、次の文献を参照されたい。
【0042】
文献:H.Tohyama,S.Matsubara,N.kawaguchi,Y.Inagaki,「Construction and utilization of Bilingual Speech Corpus for Simultaneous Machine Interpretation Research」,Proc of 9th Europian Conf. on Speech Communication and Technology,2005年
【0043】
そのデータベースに含まれる日本語のテキストデータと、同時通訳者によって通訳された英語のテキストデータとを、同時通訳者とは別のプロの通訳者が、日本語のテキストデータと、英語のテキストデータとでそれぞれ独立に分割する。図3は、その分割の一例を示す図である。同時通訳者の発話には意訳や省略が含まれるため、図3で示されるように、日本語のテキストデータの分割と、英語のテキストデータの分割とは必ずしも1対1の対応にはならない。図3において、「私は便宜的に…」の先頭と、「それぞれの時期は…」の先頭とは、それぞれ日本語のテキストデータでも、英語のテキストデータでも分割位置となっているが、「若干の重複重なりが…」の先頭は、日本語のテキストデータでは分割位置であるが、英語のテキストデータでは分割位置となっていない。このような違いが、教師データの教師分割情報で示されることになる。
【0044】
図4は、教師データ記憶部14で記憶されている教師データの一例を示す図である。図4において、教師形態素列情報と、教師分割情報とが対応付けられている。教師形態素列情報は、表層情報と、品詞情報と、活用形情報とを含んでいる。例えば、表層情報「言う」は、品詞が「動詞−自立」であり、活用形が「基本形」であることが示されている。教師分割情報は、分割位置を示すものであり、「BJE」は、日本語の教師テキストデータでも、英語の教師テキストデータでも分割位置であることを示す記号である。「BJ」は、日本語の教師テキストデータでは分割位置であるが、英語の教師テキストデータでは分割位置ではないことを示す記号である。「I」は、日本語の教師テキストデータでも、英語の教師テキストデータでも分割位置でないことを示す記号である。教師分割情報として、BJEやBJが付与されている場合には、そのBJE等に対応する表層情報の先頭で分割されることになる。図4では、例えば、「私普段から親しく…」の先頭が、日本語と英語で共通する翻訳単位の分割位置であることが示されている。また、例えば、「えご指名でございますので…」の先頭が、日本語のみでの翻訳単位の分割位置であることが示されている。なお、「YamCha」を用いる場合には、教師データにおいて、文の区切りを示すために空行を挿入する必要があるため、そのような教師データを用いる必要がある(図4において、文の区切りに空行を挿入すればよい)。
【0045】
次に、処理単位分割装置1の具体的な動作について説明する。ある講演者の発話した音声がマイク2で集音され、音声認識装置3で音声認識されて、音声認識後のテキストデータが処理単位分割装置1に入力されたとする。音声認識されたテキストデータは、「おはようございます。ただ今ご紹介いただきました鈴木でございます。どうぞよろしくお願いします。…」であったとする。すると、そのテキストデータは、受付部11で受け付けられ、形態素解析部12に渡される(ステップS101)。形態素解析部12は、そのテキストデータを形態素解析して(ステップS102)、形態素毎の表層情報と、品詞情報と、活用形情報とを有する形態素列情報を処理対象形態素列情報記憶部13に蓄積する(ステップS103)。図5は、そのようにして蓄積された形態素列情報の一例を示す情報である。なお、図5において、分割情報はまだ構成されていないため、すべて空欄となっている。
【0046】
次に、分割部15は、教師データ記憶部14で記憶されている図4で示される教師データを読み出して、機械学習を行う(ステップS104)。そして、分割部15は、処理対象形態素列情報記憶部13から図5で示される形態素列情報を読み出して、機械学習を行ったデータを用いて、形態素列情報の各レコードに分割情報「BJE」「BJ」「I」のいずれが付与されるのかを決定し、それぞれ付与された分割情報を処理対象形態素列情報記憶部13に蓄積する(ステップS105)。図6は、そのようにして分割情報の付与された後の、形態素列情報と分割情報との対応を示す図である。
【0047】
その後、出力部16は、処理対象形態素列情報記憶部13から形態素列情報の表層情報と、分割情報とを読み出して出力する(ステップS106)。この出力は、例えば、ディスプレイへの表示であってもよい。出力された情報は、例えば、図7で示されるように、表層情報と、分割情報を単に対応付けるだけの情報であってもよく、あるいは、図8で示されるように、表層情報(すなわち、受付部11が受け付けたテキストデータ)をBJE、またはBJの区切り毎に改行して表示した情報であってもよい。図8の場合には、BJEとBJが区別されないことになる。また、図8の場合には、各行毎に翻訳を行うことになる。
【0048】
次に、本実施の形態による処理単位分割装置1での処理単位の分割の実験について説明し、その効果について説明する。この実験でも、前述の名古屋大学同時通訳データベースに含まれる16の講演に対応したコーパスを用いた。そして、16の講演のうち、1の講演をテストデータとし、残りの15の講演を教師データとして用いて実験を行った。また、データ量が少ないため、テストデータを順番に代えながら、16回繰り返して実験を行う交叉検定を行った。また、機械学習としては、YamChaを用いるものとする。
【0049】
また、本実施の形態による処理単位分割装置1での処理単位の分割と比較するための比較例として、教師分割情報として「B」と「I」しか付与しない教師分割情報を用いた。すなわち、この教師分割情報では、分割位置が日本語の教師テキストデータと、英語の教師テキストデータとで共通するかどうかは示されないことになる。換言すれば、この教師分割情報には、英語の教師テキストデータにおける分割位置の情報が含まれないことになる。このように、この比較例では、教師データは、教師形態素列情報と、日英の分割位置の共通/非共通の区別のない教師分割位置情報とを有する。一方、本実施の形態による処理単位分割装置1では、前述のように教師データは、教師形態素列情報と、日英の分割位置の共通/非共通の区別のある教師分割位置情報とを有する。図9は、その実験結果を示す図である。図9で示されるように、本実施の形態による処理単位分割装置1での処理の方が、比較例の処理よりも適合率が高いことがわかる。したがって、本実施の形態による処理単位分割装置1では、高い精度でテキストデータの分割を行うことができていることがわかる。なお、この適合率の算出において、プロの通訳者によって日英のテキストデータを分割したものと比較することによって、正否を決定した。また、適合率の算出において、本実施の形態による処理単位分割装置1の処理では、「BJ」の分割位置を「BJE」と判断したもの、あるいは、その逆の「BJE」の分割位置を「BJ」と判断したものは不正解であるとした。
【0050】
なお、この実験において、YamChaのパラメータの設定は次の通りである。ある分割情報が「BJ」「BJE」「I」のいずれであるかを決定するために、その決定する分割情報の付近の7個の形態素列情報を用いる。すなわち、その決定する分割情報に対応する形態素列情報(これを「形態素列情報A」とする)と、形態素列情報Aよりも前の(図5では上方向の)3個の形態素列情報と、形態素列情報Aよりも後の(図5では下方向の)3個の形態素列情報とを用いる(すなわち、YamChaのstasic feature F:−3,−2,−1,0,1,2,3となる)。また、その決定する分割情報よりも前の3個の分類情報も用いる(すなわち、YamChaのdynamic feature T:−3,−2,−1となる)。
【0051】
また、この実験において、SVMの多項式カーネルの次数は、2次であり、多クラスの識別(すなわち、「BJ」「BJE」「I」の識別)には、pairwise法を用いている。
【0052】
以上のように、本実施の形態による処理単位分割装置1では、教師データに含まれる教師分割情報として、分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報を用いたことによって、処理単位への分割を、より高い精度で行うことができるようになる。その結果、その処理単位毎に行う処理、例えば、翻訳処理等の精度も向上するものと考えられる。
【0053】
なお、本実施の形態では、形態素列情報、及び教師形態素列情報が、表層情報と、品詞情報と、活用形情報とを含む場合について説明したが、これは一例であって、形態素列情報、及び教師形態素列情報は、表層情報と、品詞情報とを含むものであってもよく(この場合には、形態素解析は、形態素への分割と品詞の特定とを行うことになる)、形態素列情報、及び教師形態素列情報は、表層情報のみを含むものであってもよい(この場合には、形態素解析は、形態素への分割のみを行うことになる)。
【0054】
また、本実施の形態では、処理単位分割装置1が出力部16を備える場合について説明したが、処理単位分割装置1は、出力部16を備えていなくてもよい。例えば、分割部15が構成した分割情報を処理対象形態素列情報記憶部13に蓄積する場合には、その蓄積によって処理が終了してもよい。そして、例えば、その処理対象形態素列情報記憶部13が処理単位分割装置1に対して着脱可能な記録媒体である場合には、その処理対象形態素列情報記憶部13を処理単位分割装置1から外して、他の装置に装着することによって、その分割情報を利用してもよい。
【0055】
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
【0056】
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における処理単位分割装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、原言語のテキストデータを処理単位に分割する装置として機能させるためのプログラムであって、教師データ記憶部で記憶されている、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、処理対象形態素列情報記憶部で記憶されている、原言語のテキストデータが形態素に分割された情報である形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部として機能させるためのものである。
【0057】
このプログラムにおいて、コンピュータを、前記分割部が構成した分割情報を少なくとも出力する出力部としてさらに機能させてもよい。
【0058】
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
【0059】
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
【0060】
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0061】
図10は、上記プログラムを実行して、上記実施の形態による処理単位分割装置1を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
【0062】
図10において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
【0063】
図11は、コンピュータシステムを示す図である。図11において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
【0064】
コンピュータシステム100に、上記実施の形態による処理単位分割装置1の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
【0065】
プログラムは、コンピュータ101に、上記実施の形態による処理単位分割装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
【0066】
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0067】
以上より、本発明による処理単位分割装置等によれば、テキストデータを適切な処理単位に分割することができ、例えば、テキストデータを翻訳単位や、字幕に表示する単位に分割する装置として有用である。
【図面の簡単な説明】
【0068】
【図1】本発明の実施の形態1による処理単位分割装置の構成を示すブロック図
【図2】同実施の形態による処理単位分割装置の動作を示すフローチャート
【図3】同実施の形態における日本語のテキストデータと、英語のテキストデータとの分割の対応の一例を示す図
【図4】同実施の形態における教師データの一例を示す図
【図5】同実施の形態における処理対象形態素列情報記憶部で記憶されている情報の一例を示す図
【図6】同実施の形態における処理対象形態素列情報記憶部で記憶されている情報の一例を示す図
【図7】同実施の形態における出力部が出力した情報の一例を示す図
【図8】同実施の形態における出力部が出力した情報の一例を示す図
【図9】同実施の形態における実験結果を示す図
【図10】同実施の形態におけるコンピュータシステムの外観一例を示す模式図
【図11】同実施の形態におけるコンピュータシステムの構成の一例を示す図
【符号の説明】
【0069】
1 処理単位分割装置
2 マイク
3 音声認識装置
11 受付部
12 形態素解析部
13 処理対象形態素列情報記憶部
14 教師データ記憶部
15 分割部
16 出力部

【特許請求の範囲】
【請求項1】
原言語のテキストデータを処理単位に分割する処理単位分割装置であって、
原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される処理対象形態素列情報記憶部と、
原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、
前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記処理対象形態素列情報記憶部で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、を備えた処理単位分割装置。
【請求項2】
前記分割部が構成した分割情報を少なくとも出力する出力部をさらに備えた、請求項1記載の処理単位分割装置。
【請求項3】
前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素毎に対応付けて有する情報である、請求項1または請求項2記載の処理単位分割装置。
【請求項4】
前記機械学習は、サポートベクターマシンによる機械学習である、請求項1から請求項3いずれか記載の処理単位分割装置。
【請求項5】
原言語のテキストデータを受け付ける受付部と、
前記受付部が受け付けた原言語のテキストデータを形態素に分割して処理対象形態素列情報記憶部に蓄積する形態素解析部と、をさらに備えた請求項1から請求項4いずれか記載の処理単位分割装置。
【請求項6】
前記原言語のテキストデータは、発話された音声に対応したテキストデータである、請求項1から請求項5いずれか記載の処理単位分割装置。
【請求項7】
前記処理単位は、原言語のテキストデータを目的言語に翻訳するための翻訳単位である、請求項1から請求項6いずれか記載の処理単位分割装置。
【請求項8】
原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される処理対象形態素列情報記憶部と、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、分割部とを用いて、原言語のテキストデータを処理単位に分割する処理単位分割方法であって、
前記分割部が、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記処理対象形態素列情報記憶部で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割ステップを備えた処理単位分割方法。
【請求項9】
コンピュータを、
原言語のテキストデータを処理単位に分割する装置として機能させるためのプログラムであって、
教師データ記憶部で記憶されている、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、処理対象形態素列情報記憶部で記憶されている、原言語のテキストデータが形態素に分割された情報である形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2008−269122(P2008−269122A)
【公開日】平成20年11月6日(2008.11.6)
【国際特許分類】
【出願番号】特願2007−108873(P2007−108873)
【出願日】平成19年4月18日(2007.4.18)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成19年3月6日 社団法人日本音響学会発行の「日本音響学会2007年春季研究発表会講演論文集」に発表
【出願人】(301022471)独立行政法人情報通信研究機構 (1,071)
【Fターム(参考)】