処理単位分割装置、処理単位分割方法、及びプログラム

【課題】テキストデータを翻訳や、その他の処理の処理単位に分割する場合に、その精度を向上させる。
【解決手段】原言語のテキストデータが形態素に分割された形態素列情報が記憶される処理対象形態素列情報記憶部１３と、原言語の教師テキストデータが形態素に分割された教師形態素列情報と、原言語の教師テキストデータ及びそれに対応する目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示すと共に、その分割位置が原言語及び目的言語の教師テキストデータで共通するかどうかを示す教師分割情報とを有する教師データが記憶される教師データ記憶部１４と、教師データを用いて機械学習し、原言語のテキストデータにおける処理単位の分割位置を示す分割情報を構成する分割部１５と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキストデータを翻訳単位等の処理単位に分割する処理単位分割装置等に関する。
【背景技術】
【０００２】
話し言葉（特に独話）は、話者が長く話し続けることから、区切りが明確でない、一文が長くなるなどの特徴がある。そのため、従来、話し言葉を適切な単位に分割する試みが行われてきていた（例えば、非特許文献１〜４参照）。
【非特許文献１】西光雅弘、河原達也、高梨克也、「隣接文節間の係り受け情報に着目した話し言葉のチャンキングの評価」、情報処理学会研究報告、ＳＬＰ−６１−４、２００６年
【非特許文献２】西光雅弘、高梨克也、河原達也、「係り受けとポーズ・フィラーの情報を用いた話し言葉の段階的チャンキング」、電子情報通信学会技術研究報告、ＳＰ２００５−１３７、ＮＬＣ２００５−１０４、２００５年
【非特許文献３】笠浩一郎、松原茂樹、稲垣康善、「同時的な日英対話翻訳のための日本語発話文の分割」、電子情報通信学会技術研究報告、ＮＬＣ２００６−５６、ＳＰ２００６−１１２、２００６年
【非特許文献４】柏岡秀紀、「節境界を考慮した長文の単語アライメント」、言語処理学会第１１回年次大会、２００５年３月
【発明の開示】
【発明が解決しようとする課題】
【０００３】
従来例において、節境界を分割単位であると仮定して、テキストデータの節境界を求め、その節境界で分割する手法も提案されているが、節境界は必ずしもプロの通訳者が分割する翻訳単位とは一致しないことがわかっている。例えば、本願の発明者が１６の講演を対象とした調査によれば、節境界が翻訳単位と一致したのは約６０％に過ぎなかった。
一般的に言うと、テキストデータを翻訳や、その他の処理の処理単位に分割する場合に、その精度を向上させることが求められていた。
【０００４】
本発明は、上記問題点を解決するためになされたものであり、テキストデータの処理単位への分割をより高い精度で実現することができる処理単位分割装置等を提供することを目的とする。
【課題を解決するための手段】
【０００５】
上記目的を達成するため、本発明による処理単位分割装置は、原言語のテキストデータを処理単位に分割する処理単位分割装置であって、原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される処理対象形態素列情報記憶部と、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記処理対象形態素列情報記憶部で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、を備えたものである。
【０００６】
このような構成により、原言語のテキストデータを処理単位に分割することができる。また、その分割を、より高い精度で実現することができる。例えば、翻訳単位に分割する場合には、プロの翻訳家による分割と同様の分割となるように、精度の高いテキストデータの分割を行うことができうる。
【０００７】
また、本発明による処理単位分割装置では、前記分割部が構成した分割情報を少なくとも出力する出力部をさらに備えてもよい。
このような構成により、出力された分割情報によって、テキストデータがどこで分割されたのかを知ることができうる。
【０００８】
また、本発明による処理単位分割装置では、原言語のテキストデータを受け付ける受付部と、前記受付部が受け付けた原言語のテキストデータを形態素に分割して処理対象形態素列情報記憶部に蓄積する形態素解析部と、をさらに備えてもよい。
【０００９】
このような構成により、テキストデータの受け付けから、そのテキストデータを処理単位への分割までの一連の処理を処理単位分割装置において実行することができるようになる。
【００１０】
また、本発明による処理単位分割装置では、前記原言語のテキストデータは、発話された音声に対応したテキストデータであってもよい。
このような構成により、特に、発話された音声に対応したテキストデータは、区切りが明確でない、一文が長くなるなどの特徴があり、適切に分割することが必要であるが、その分割を行うことができうる。
【００１１】
また、本発明による処理単位分割装置では、前記処理単位は、原言語のテキストデータを目的言語に翻訳するための翻訳単位であってもよい。
このような構成により、原言語のテキストデータを、適切な翻訳単位に分割することが可能となりうる。その結果、翻訳の結果もより適切なものになると考えられ得る。
【発明の効果】
【００１２】
本発明による処理単位分割装置等によれば、分割位置が原言語の教師テキストデータと、目的言語の教師テキストデータとにおいて共通するかどうかを示す情報を教師データが含むことによって、より高い精度でテキストデータの処理単位への分割を行うことができる。
【発明を実施するための最良の形態】
【００１３】
以下、本発明による処理単位分割装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
【００１４】
（実施の形態１）
本発明の実施の形態１による処理単位分割装置について、図面を参照しながら説明する。本実施の形態による処理単位分割装置は、原言語のテキストデータを翻訳単位等の処理単位に分割するものである。
【００１５】
図１は、本実施の形態による処理単位分割装置１の構成を示すブロック図である。図１において、本実施の形態による処理単位分割装置１は、受付部１１と、形態素解析部１２と、処理対象形態素列情報記憶部１３と、教師データ記憶部１４と、分割部１５と、出力部１６とを備える。
【００１６】
受付部１１は、原言語のテキストデータを受け付ける。この原言語のテキストデータは、例えば、発話された音声に対応したテキストデータであってもよく、それ以外のテキストデータであってもよい。発話された音声に対応したテキストデータは、例えば、発話された音声をマイク等で集音して音声データに変換し、その音声データに対して音声認識を実行することによって作成されてもよく、発話された音声を人が聞いてキーボード等で入力することによって作成されてもよく、あるいは、その他の方法によって作成されてもよい。
【００１７】
ここで、この受け付けは、例えば、入力デバイス（例えば、キーボードやマウス、タッチパネルなど）から入力された情報の受け付けでもよく、有線もしくは無線の通信回線を介して送信された情報の受信でもよく、所定の記録媒体（例えば、光ディスクや磁気ディスク、半導体メモリなど）から読み出された情報の受け付けでもよい。なお、受付部１１は、受け付けを行うためのデバイス（例えば、モデムやネットワークカードなど）を含んでもよく、あるいは含まなくてもよい。また、受付部１１は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。本実施の形態では、発話された音声がマイク２で集音され、音声認識装置３によって音声認識されて、音声認識装置３からテキストデータが受付部１１に入力される場合について説明する。
【００１８】
形態素解析部１２は、受付部１１が受け付けた原言語のテキストデータを形態素に分割して処理対象形態素列情報記憶部１３に蓄積する。この形態素解析の処理については、すでに広く知られており、その詳細な説明を省略する。例えば、この形態素解析の処理のために、「茶筌（ＣｈａＳｅｎ）」（ｈｔｔｐ：／／ｃｈａｓｅｎ．ｎａｉｓｔ．ｊｐ）を用いてもよい。形態素解析部１２は、原言語のテキストデータを形態素に分割し、各形態素について品詞を特定してもよく、さらに、各形態素について品詞の活用形を特定してもよい。本実施の形態では、形態素解析部１２は、各形態素について品詞と活用形とを特定する場合について説明する。
【００１９】
処理対象形態素列情報記憶部１３では、原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される。形態素列情報は、前述の形態素解析部１２によって蓄積されるものであり、例えば、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素毎に対応付けて有する情報である。
【００２０】
なお、本実施の形態では、形態素解析部１２が形態素列情報を処理対象形態素列情報記憶部１３に蓄積する場合について説明するが、そうでなくてもよく、その場合に、処理対象形態素列情報記憶部１３に形態素列情報が蓄積される過程は問わない。例えば、別の装置等で形態素解析された結果である形態素列情報が記録媒体を介して処理対象形態素列情報記憶部１３で記憶されるようになってもよく、通信回線等を介して送信された形態素列情報が処理対象形態素列情報記憶部１３で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された形態素列情報が処理対象形態素列情報記憶部１３で記憶されるようになってもよい。ここで、形態素列情報が形態素解析部１２以外によって構成される場合には、処理単位分割装置１は、受付部１１や形態素解析部１２を有していなくてもよい。処理対象形態素列情報記憶部１３は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。
【００２１】
教師データ記憶部１４では、教師データが記憶される。ここで、教師データは、教師形態素列情報と、教師分割情報とを有する。教師形態素列情報は、原言語の教師テキストデータが形態素に分割された情報である。教師形態素列情報は、前述の形態素列情報と同様のものであり、例えば、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素毎に対応付けて有する情報である。
【００２２】
教師分割情報は、原言語の教師テキストデータ及びその原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、その分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である。
【００２３】
処理単位は、例えば、原言語のテキストデータを目的言語に翻訳するための翻訳単位であってもよく、テキストデータを字幕に表示する単位であってもよく、講演をリアルタイムで音声認識している際に、その音声認識後のテキストを講演の聴衆に提示する単位であってもよく、あるいは、その他の処理単位であってもよい。本実施の形態では、処理単位が翻訳単位である場合について説明する。なお、字幕に表示する単位等にテキストデータを分割するために、処理単位分割装置１による処理を実行する場合であっても、翻訳単位に分割する処理を行い、その翻訳単位でテキストデータを字幕に表示する処理等を行ってもよい。
【００２４】
処理単位が翻訳単位である場合には、この教師分割情報は、例えば、次のようにして作成される。まず、教師形態素列情報に対応する原言語の教師テキストデータを翻訳し、目的言語の教師テキストデータを得る。この翻訳は、プロの翻訳家（通訳者）が翻訳する。また、その翻訳をした翻訳家とは異なるプロの翻訳家が、原言語の教師テキストデータと、目的言語の教師テキストデータとを翻訳単位に分割する。そして、それらの分割の結果を用いて、例えば、人手によって、あるいは機械的な処理によって、原言語の教師テキストデータの分割位置を示す情報と、その分割位置が原言語の教師テキストデータ、及び、目的言語の教師テキストデータにおいて共通するかどうかを示す情報とを有する教師分割情報を構成する。なお、処理単位が翻訳単位以外である場合には、翻訳後に、原言語の教師テキストデータと、目的言語の教師テキストデータとを、その処理単位に分割すればよい。
【００２５】
この教師分割情報は、例えば、教師形態素列情報に挿入された分割記号（ただし、原言語及び目的言語の教師テキストデータにおいて共通する分割かどうかを示すものであるとする）であってもよく、原言語の教師テキストデータにおける位置を示す情報（例えば、ポインタなど）と、その位置における分割が原言語の教師テキストデータ、及び、目的言語の教師テキストデータにおいて共通するかどうかを示す情報とを対応付けて有する情報であってもよく、あるいは、その他の情報であってもよい。
【００２６】
教師データ記憶部１４は、所定の記録媒体（例えば、半導体メモリや磁気ディスク、光ディスクなど）によって実現されうる。教師データ記憶部１４に教師データが記憶される過程は問わない。例えば、記録媒体を介して教師データが教師データ記憶部１４で記憶されるようになってもよく、通信回線等を介して送信された教師データが教師データ記憶部１４で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された教師データが教師データ記憶部１４で記憶されるようになってもよい。
【００２７】
なお、処理対象形態素列情報記憶部１３や教師データ記憶部１４での記憶は、外部のストレージデバイス等から読み出した教師データ等のＲＡＭ等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。
【００２８】
また、処理対象形態素列情報記憶部１３と、教師データ記憶部１４とは、同一の記録媒体によって実現されてもよい。その場合には、形態素列情報を記憶している領域が処理対象形態素列情報記憶部１３となり、教師データを記憶している領域が教師データ記憶部１４となる。
【００２９】
分割部１５は、教師データ記憶部１４で記憶されている教師データを用いて機械学習を行うことにより、原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する。分割部１５が処理単位の分割位置を示す分割情報を構成する対象となる原言語のテキストデータは、処理対象形態素列情報記憶部１３で記憶されている形態素列情報に対応するものである。したがって、例えば、分割部１５は、処理対象形態素列情報記憶部１３で記憶されている形態素列情報に翻訳単位の分割位置を示す分割情報を挿入することによって、分割情報を構成してもよく、形態素列情報に対応する原言語のテキストデータにおける分割位置を示す情報（例えば、ポインタなど）を形態素列情報とは別途、図示しない記録媒体等に蓄積することによって、分割情報を構成してもよく、あるいは、その他の方法によって分割情報を構成してもよい。
【００３０】
なお、この分割情報は、原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報を有していてもよく、有していなくてもよい。後者の場合には、分割情報は、単に分割位置であることのみを示すことになる。
【００３１】
分割部１５で用いられる機械学習は、例えば、サポートベクターマシンによる機械学習であってもよく、それ以外の機械学習であってもよい。サポートベクターマシン以外の機械学習は、例えば、最大エントロピーを用いた機械学習や、シンプルベイス法を用いた機械学習等であってもよく、適切な機械学習を行うことができるのであれば、その種類を問わない。なお、本実施の形態では、機械学習がサポートベクターマシンによる機械学習である場合について説明する。例えば、分割部１５による分割情報の構成の処理のために、「ＹａｍＣｈａ」を用いてもよい。「ＹａｍＣｈａ」については、次の文献を参照されたい。
【００３２】
文献：Ｔ．ｋｕｄｏ，Ｙ．Ｍａｔｓｕｍｏｔｏ，「Ｃｈｕｎｋｉｎｇｗｉｔｈｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ」，Ｐｒｏｃ．ｏｆｔｈｅ２ｎｄｍｅｅｔｉｎｇＮｏｒｔｈＡｍｅｒｉｃａｎＣｈａｐｔｅｒｏｆｔｈｅＡｓｓｏｃｉａｔｉｏｎｆｏｒＣｏｍｐｕｔａｔｉｏｎａｌＬｉｎｇｕｉｓｔｉｃｓ，２００１年
【００３３】
出力部１６は、分割部１５が構成した分割情報を少なくとも出力する。出力部１６は、分割情報と共に、形態素列情報に対応する原言語のテキストデータや、形態素列情報そのものを出力してもよい。ここで、この出力は、例えば、表示デバイス（例えば、ＣＲＴや液晶ディスプレイなど）への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、出力部１６は、出力を行うデバイス（例えば、表示デバイスやプリンタなど）を含んでもよく、あるいは含まなくてもよい。また、出力部１６は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
【００３４】
この出力部１６によって出力された分割情報の示す分割位置で分割された原言語のテキストデータを用いて、その処理単位毎の処理が行われることになる。例えば、その処理単位毎の翻訳が行われることになる。この翻訳は、機械翻訳であることが一般的であるが、人による翻訳であってもよい。いずれの場合であっても、プロの翻訳家によって分割されたのと同様の適切な翻訳単位の分割位置を知ることができるため、精度の高い翻訳を行うことができると考えられる。また、前述のように、その処理単位毎に字幕を表示してもよく、講演を音声認識したテキストを、その処理単位毎に提示してもよい。
【００３５】
なお、原言語と目的言語とは、異なる言語であれば、どのような言語であってもよい。例えば、原言語が日本語であり、目的言語が英語であってもよく、原言語が中国語であり、目的言語がフランス語であってもよく、その他の言語の組合せであってもよい。
【００３６】
次に、本実施の形態による処理単位分割装置１の動作について、図２のフローチャートを用いて説明する。
（ステップＳ１０１）受付部１１は、原言語のテキストデータを受け付けたかどうか判断する。そして、受け付けた場合には、ステップＳ１０２に進み、そうでない場合には、受け付けるまでステップＳ１０１の処理を繰り返す。
【００３７】
（ステップＳ１０２）形態素解析部１２は、受付部１１が受け付けた原言語のテキストデータを形態素解析して、形態素列情報を作成する。
（ステップＳ１０３）形態素解析部１２は、作成した形態素列情報を、処理対象形態素列情報記憶部１３に蓄積する。
【００３８】
（ステップＳ１０４）分割部１５は、教師データ記憶部１４で記憶されている教師データを用いて、機械学習を行う。
（ステップＳ１０５）分割部１５は、ステップＳ１０４における機械学習の結果を用いて、処理対象形態素列情報記憶部１３で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す分割情報を構成する。
【００３９】
（ステップＳ１０６）出力部１６は、分割部１５が構成した分割情報を少なくとも出力する。そして、ステップＳ１０１に戻る。
なお、図２のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【００４０】
次に、本実施の形態による処理単位分割装置１の動作について、具体例を用いて説明する。この具体例では、処理単位が翻訳単位であるとする。原言語は日本語であり、目的言語は英語であるとする。
【００４１】
また、この具体例では、原言語の教師テキストデータ、及び目的言語の教師テキストデータとして、名古屋大学同時通訳データベース（独話）を用いた。そのデータベースについては、次の文献を参照されたい。
【００４２】
文献：Ｈ．Ｔｏｈｙａｍａ，Ｓ．Ｍａｔｓｕｂａｒａ，Ｎ．ｋａｗａｇｕｃｈｉ，Ｙ．Ｉｎａｇａｋｉ，「ＣｏｎｓｔｒｕｃｔｉｏｎａｎｄｕｔｉｌｉｚａｔｉｏｎｏｆＢｉｌｉｎｇｕａｌＳｐｅｅｃｈＣｏｒｐｕｓｆｏｒＳｉｍｕｌｔａｎｅｏｕｓＭａｃｈｉｎｅＩｎｔｅｒｐｒｅｔａｔｉｏｎＲｅｓｅａｒｃｈ」，Ｐｒｏｃｏｆ９ｔｈＥｕｒｏｐｉａｎＣｏｎｆ．ｏｎＳｐｅｅｃｈＣｏｍｍｕｎｉｃａｔｉｏｎａｎｄＴｅｃｈｎｏｌｏｇｙ，２００５年
【００４３】
そのデータベースに含まれる日本語のテキストデータと、同時通訳者によって通訳された英語のテキストデータとを、同時通訳者とは別のプロの通訳者が、日本語のテキストデータと、英語のテキストデータとでそれぞれ独立に分割する。図３は、その分割の一例を示す図である。同時通訳者の発話には意訳や省略が含まれるため、図３で示されるように、日本語のテキストデータの分割と、英語のテキストデータの分割とは必ずしも１対１の対応にはならない。図３において、「私は便宜的に…」の先頭と、「それぞれの時期は…」の先頭とは、それぞれ日本語のテキストデータでも、英語のテキストデータでも分割位置となっているが、「若干の重複重なりが…」の先頭は、日本語のテキストデータでは分割位置であるが、英語のテキストデータでは分割位置となっていない。このような違いが、教師データの教師分割情報で示されることになる。
【００４４】
図４は、教師データ記憶部１４で記憶されている教師データの一例を示す図である。図４において、教師形態素列情報と、教師分割情報とが対応付けられている。教師形態素列情報は、表層情報と、品詞情報と、活用形情報とを含んでいる。例えば、表層情報「言う」は、品詞が「動詞−自立」であり、活用形が「基本形」であることが示されている。教師分割情報は、分割位置を示すものであり、「ＢＪＥ」は、日本語の教師テキストデータでも、英語の教師テキストデータでも分割位置であることを示す記号である。「ＢＪ」は、日本語の教師テキストデータでは分割位置であるが、英語の教師テキストデータでは分割位置ではないことを示す記号である。「Ｉ」は、日本語の教師テキストデータでも、英語の教師テキストデータでも分割位置でないことを示す記号である。教師分割情報として、ＢＪＥやＢＪが付与されている場合には、そのＢＪＥ等に対応する表層情報の先頭で分割されることになる。図４では、例えば、「私普段から親しく…」の先頭が、日本語と英語で共通する翻訳単位の分割位置であることが示されている。また、例えば、「えご指名でございますので…」の先頭が、日本語のみでの翻訳単位の分割位置であることが示されている。なお、「ＹａｍＣｈａ」を用いる場合には、教師データにおいて、文の区切りを示すために空行を挿入する必要があるため、そのような教師データを用いる必要がある（図４において、文の区切りに空行を挿入すればよい）。
【００４５】
次に、処理単位分割装置１の具体的な動作について説明する。ある講演者の発話した音声がマイク２で集音され、音声認識装置３で音声認識されて、音声認識後のテキストデータが処理単位分割装置１に入力されたとする。音声認識されたテキストデータは、「おはようございます。ただ今ご紹介いただきました鈴木でございます。どうぞよろしくお願いします。…」であったとする。すると、そのテキストデータは、受付部１１で受け付けられ、形態素解析部１２に渡される（ステップＳ１０１）。形態素解析部１２は、そのテキストデータを形態素解析して（ステップＳ１０２）、形態素毎の表層情報と、品詞情報と、活用形情報とを有する形態素列情報を処理対象形態素列情報記憶部１３に蓄積する（ステップＳ１０３）。図５は、そのようにして蓄積された形態素列情報の一例を示す情報である。なお、図５において、分割情報はまだ構成されていないため、すべて空欄となっている。
【００４６】
次に、分割部１５は、教師データ記憶部１４で記憶されている図４で示される教師データを読み出して、機械学習を行う（ステップＳ１０４）。そして、分割部１５は、処理対象形態素列情報記憶部１３から図５で示される形態素列情報を読み出して、機械学習を行ったデータを用いて、形態素列情報の各レコードに分割情報「ＢＪＥ」「ＢＪ」「Ｉ」のいずれが付与されるのかを決定し、それぞれ付与された分割情報を処理対象形態素列情報記憶部１３に蓄積する（ステップＳ１０５）。図６は、そのようにして分割情報の付与された後の、形態素列情報と分割情報との対応を示す図である。
【００４７】
その後、出力部１６は、処理対象形態素列情報記憶部１３から形態素列情報の表層情報と、分割情報とを読み出して出力する（ステップＳ１０６）。この出力は、例えば、ディスプレイへの表示であってもよい。出力された情報は、例えば、図７で示されるように、表層情報と、分割情報を単に対応付けるだけの情報であってもよく、あるいは、図８で示されるように、表層情報（すなわち、受付部１１が受け付けたテキストデータ）をＢＪＥ、またはＢＪの区切り毎に改行して表示した情報であってもよい。図８の場合には、ＢＪＥとＢＪが区別されないことになる。また、図８の場合には、各行毎に翻訳を行うことになる。
【００４８】
次に、本実施の形態による処理単位分割装置１での処理単位の分割の実験について説明し、その効果について説明する。この実験でも、前述の名古屋大学同時通訳データベースに含まれる１６の講演に対応したコーパスを用いた。そして、１６の講演のうち、１の講演をテストデータとし、残りの１５の講演を教師データとして用いて実験を行った。また、データ量が少ないため、テストデータを順番に代えながら、１６回繰り返して実験を行う交叉検定を行った。また、機械学習としては、ＹａｍＣｈａを用いるものとする。
【００４９】
また、本実施の形態による処理単位分割装置１での処理単位の分割と比較するための比較例として、教師分割情報として「Ｂ」と「Ｉ」しか付与しない教師分割情報を用いた。すなわち、この教師分割情報では、分割位置が日本語の教師テキストデータと、英語の教師テキストデータとで共通するかどうかは示されないことになる。換言すれば、この教師分割情報には、英語の教師テキストデータにおける分割位置の情報が含まれないことになる。このように、この比較例では、教師データは、教師形態素列情報と、日英の分割位置の共通／非共通の区別のない教師分割位置情報とを有する。一方、本実施の形態による処理単位分割装置１では、前述のように教師データは、教師形態素列情報と、日英の分割位置の共通／非共通の区別のある教師分割位置情報とを有する。図９は、その実験結果を示す図である。図９で示されるように、本実施の形態による処理単位分割装置１での処理の方が、比較例の処理よりも適合率が高いことがわかる。したがって、本実施の形態による処理単位分割装置１では、高い精度でテキストデータの分割を行うことができていることがわかる。なお、この適合率の算出において、プロの通訳者によって日英のテキストデータを分割したものと比較することによって、正否を決定した。また、適合率の算出において、本実施の形態による処理単位分割装置１の処理では、「ＢＪ」の分割位置を「ＢＪＥ」と判断したもの、あるいは、その逆の「ＢＪＥ」の分割位置を「ＢＪ」と判断したものは不正解であるとした。
【００５０】
なお、この実験において、ＹａｍＣｈａのパラメータの設定は次の通りである。ある分割情報が「ＢＪ」「ＢＪＥ」「Ｉ」のいずれであるかを決定するために、その決定する分割情報の付近の７個の形態素列情報を用いる。すなわち、その決定する分割情報に対応する形態素列情報（これを「形態素列情報Ａ」とする）と、形態素列情報Ａよりも前の（図５では上方向の）３個の形態素列情報と、形態素列情報Ａよりも後の（図５では下方向の）３個の形態素列情報とを用いる（すなわち、ＹａｍＣｈａのｓｔａｓｉｃｆｅａｔｕｒｅＦ：−３，−２，−１，０，１，２，３となる）。また、その決定する分割情報よりも前の３個の分類情報も用いる（すなわち、ＹａｍＣｈａのｄｙｎａｍｉｃｆｅａｔｕｒｅＴ：−３，−２，−１となる）。
【００５１】
また、この実験において、ＳＶＭの多項式カーネルの次数は、２次であり、多クラスの識別（すなわち、「ＢＪ」「ＢＪＥ」「Ｉ」の識別）には、ｐａｉｒｗｉｓｅ法を用いている。
【００５２】
以上のように、本実施の形態による処理単位分割装置１では、教師データに含まれる教師分割情報として、分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報を用いたことによって、処理単位への分割を、より高い精度で行うことができるようになる。その結果、その処理単位毎に行う処理、例えば、翻訳処理等の精度も向上するものと考えられる。
【００５３】
なお、本実施の形態では、形態素列情報、及び教師形態素列情報が、表層情報と、品詞情報と、活用形情報とを含む場合について説明したが、これは一例であって、形態素列情報、及び教師形態素列情報は、表層情報と、品詞情報とを含むものであってもよく（この場合には、形態素解析は、形態素への分割と品詞の特定とを行うことになる）、形態素列情報、及び教師形態素列情報は、表層情報のみを含むものであってもよい（この場合には、形態素解析は、形態素への分割のみを行うことになる）。
【００５４】
また、本実施の形態では、処理単位分割装置１が出力部１６を備える場合について説明したが、処理単位分割装置１は、出力部１６を備えていなくてもよい。例えば、分割部１５が構成した分割情報を処理対象形態素列情報記憶部１３に蓄積する場合には、その蓄積によって処理が終了してもよい。そして、例えば、その処理対象形態素列情報記憶部１３が処理単位分割装置１に対して着脱可能な記録媒体である場合には、その処理対象形態素列情報記憶部１３を処理単位分割装置１から外して、他の装置に装着することによって、その分割情報を利用してもよい。
【００５５】
また、上記実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
【００５６】
また、上記実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをＣＰＵ等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における処理単位分割装置１を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、原言語のテキストデータを処理単位に分割する装置として機能させるためのプログラムであって、教師データ記憶部で記憶されている、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、処理対象形態素列情報記憶部で記憶されている、原言語のテキストデータが形態素に分割された情報である形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部として機能させるためのものである。
【００５７】
このプログラムにおいて、コンピュータを、前記分割部が構成した分割情報を少なくとも出力する出力部としてさらに機能させてもよい。
【００５８】
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
【００５９】
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体（例えば、ＣＤ−ＲＯＭなどの光ディスクや磁気ディスク、半導体メモリなど）に記録されたプログラムが読み出されることによって実行されてもよい。
【００６０】
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【００６１】
図１０は、上記プログラムを実行して、上記実施の形態による処理単位分割装置１を実現するコンピュータの外観の一例を示す模式図である。上記実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
【００６２】
図１０において、コンピュータシステム１００は、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブ１０５、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ１０６を含むコンピュータ１０１と、キーボード１０２と、マウス１０３と、モニタ１０４とを備える。
【００６３】
図１１は、コンピュータシステムを示す図である。図１１において、コンピュータ１０１は、ＣＤ−ＲＯＭドライブ１０５、ＦＤドライブ１０６に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２と、ＣＰＵ１１１に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク１１４と、ＣＰＵ１１１、ＲＯＭ１１２等を相互に接続するバス１１５とを備える。なお、コンピュータ１０１は、ＬＡＮへの接続を提供する図示しないネットワークカードを含んでいてもよい。
【００６４】
コンピュータシステム１００に、上記実施の形態による処理単位分割装置１の機能を実行させるプログラムは、ＣＤ−ＲＯＭ１２１、またはＦＤ１２２に記憶されて、ＣＤ−ＲＯＭドライブ１０５、またはＦＤドライブ１０６に挿入され、ハードディスク１１４に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ１０１に送信され、ハードディスク１１４に記憶されてもよい。プログラムは実行の際にＲＡＭ１１３にロードされる。なお、プログラムは、ＣＤ−ＲＯＭ１２１やＦＤ１２２、またはネットワークから直接、ロードされてもよい。
【００６５】
プログラムは、コンピュータ１０１に、上記実施の形態による処理単位分割装置１の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム１００がどのように動作するのかについては周知であり、詳細な説明は省略する。
【００６６】
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【００６７】
以上より、本発明による処理単位分割装置等によれば、テキストデータを適切な処理単位に分割することができ、例えば、テキストデータを翻訳単位や、字幕に表示する単位に分割する装置として有用である。
【図面の簡単な説明】
【００６８】
【図１】本発明の実施の形態１による処理単位分割装置の構成を示すブロック図
【図２】同実施の形態による処理単位分割装置の動作を示すフローチャート
【図３】同実施の形態における日本語のテキストデータと、英語のテキストデータとの分割の対応の一例を示す図
【図４】同実施の形態における教師データの一例を示す図
【図５】同実施の形態における処理対象形態素列情報記憶部で記憶されている情報の一例を示す図
【図６】同実施の形態における処理対象形態素列情報記憶部で記憶されている情報の一例を示す図
【図７】同実施の形態における出力部が出力した情報の一例を示す図
【図８】同実施の形態における出力部が出力した情報の一例を示す図
【図９】同実施の形態における実験結果を示す図
【図１０】同実施の形態におけるコンピュータシステムの外観一例を示す模式図
【図１１】同実施の形態におけるコンピュータシステムの構成の一例を示す図
【符号の説明】
【００６９】
１処理単位分割装置
２マイク
３音声認識装置
１１受付部
１２形態素解析部
１３処理対象形態素列情報記憶部
１４教師データ記憶部
１５分割部
１６出力部

【特許請求の範囲】
【請求項１】
原言語のテキストデータを処理単位に分割する処理単位分割装置であって、
原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される処理対象形態素列情報記憶部と、
原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、
前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記処理対象形態素列情報記憶部で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部と、を備えた処理単位分割装置。
【請求項２】
前記分割部が構成した分割情報を少なくとも出力する出力部をさらに備えた、請求項１記載の処理単位分割装置。
【請求項３】
前記形態素列情報、及び前記教師形態素列情報はそれぞれ、表層を示す情報である表層情報、品詞を示す情報である品詞情報、活用形を示す情報である活用形情報を形態素毎に対応付けて有する情報である、請求項１または請求項２記載の処理単位分割装置。
【請求項４】
前記機械学習は、サポートベクターマシンによる機械学習である、請求項１から請求項３いずれか記載の処理単位分割装置。
【請求項５】
原言語のテキストデータを受け付ける受付部と、
前記受付部が受け付けた原言語のテキストデータを形態素に分割して処理対象形態素列情報記憶部に蓄積する形態素解析部と、をさらに備えた請求項１から請求項４いずれか記載の処理単位分割装置。
【請求項６】
前記原言語のテキストデータは、発話された音声に対応したテキストデータである、請求項１から請求項５いずれか記載の処理単位分割装置。
【請求項７】
前記処理単位は、原言語のテキストデータを目的言語に翻訳するための翻訳単位である、請求項１から請求項６いずれか記載の処理単位分割装置。
【請求項８】
原言語のテキストデータが形態素に分割された情報である形態素列情報が記憶される処理対象形態素列情報記憶部と、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データが記憶される教師データ記憶部と、分割部とを用いて、原言語のテキストデータを処理単位に分割する処理単位分割方法であって、
前記分割部が、前記教師データ記憶部で記憶されている教師データを用いて機械学習を行うことにより、前記処理対象形態素列情報記憶部で記憶されている形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割ステップを備えた処理単位分割方法。
【請求項９】
コンピュータを、
原言語のテキストデータを処理単位に分割する装置として機能させるためのプログラムであって、
教師データ記憶部で記憶されている、原言語の教師テキストデータが形態素に分割された情報である教師形態素列情報と、前記原言語の教師テキストデータ及び前記原言語の教師テキストデータを目的言語に翻訳した目的言語の教師テキストデータをそれぞれ独立に処理単位に分割した場合における、原言語の教師テキストデータの分割位置を示す情報であって、当該分割位置が原言語の教師テキストデータと目的言語の教師テキストデータとにおいて共通するかどうかを示す情報である教師分割情報とを有する教師データを用いて機械学習を行うことにより、処理対象形態素列情報記憶部で記憶されている、原言語のテキストデータが形態素に分割された情報である形態素列情報に対応する原言語のテキストデータにおける処理単位の分割位置を示す情報である分割情報を構成する分割部として機能させるためのプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【公開番号】特開２００８−２６９１２２（Ｐ２００８−２６９１２２Ａ）
【公開日】平成２０年１１月６日（２００８．１１．６）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 自然言語データの取扱い (7,890)
        
        自動言語解析，例．構文解析，綴字訂正 (543)
- 楽器；音響 (32,226)
  - 音声の分析または合成；音声認識；音響分析または処理 (17,022)
    - 音声認識 (6,879)

【出願番号】特願２００７−１０８８７３（Ｐ２００７−１０８８７３）
【出願日】平成１９年４月１８日（２００７．４．１８）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　平成１９年３月６日　社団法人日本音響学会発行の「日本音響学会２００７年春季研究発表会講演論文集」に発表
【出願人】（３０１０２２４７１）独立行政法人情報通信研究機構 (1,071)
【Ｆターム（参考）】

[ Back to top ]

処理単位分割装置、処理単位分割方法、及びプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

処理単位分割装置、処理単位分割方法、及びプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク