説明

テキスト分割装置、テキスト分割学習装置、テキスト分割方法、テキスト分割学習方法、プログラム

【課題】あらかじめ決められた話題に合わせて、個々の境界ごとに最適な特徴パラメータを用いてテキストを分割する。
【解決手段】本発明のテキスト分割装置は、単語分割部、削除部、ベクトル化部、学習情報取得部、線形変換学習部、重心学習部、分割対象情報取得部、割付部を備える。線形変換学習部は、隣接する2つの話題ブロックの組ごとに、割付けられた単語の単語ベクトルを用いて、隣接する話題ブロックを分離するための線形変換係数ベクトルを求める。重心学習部は、隣接する2つの話題ブロックの組ごとに、各話題ブロックに割付けられた単語の単語ベクトルを用いて各話題ブロックの重心点を求める。割付部は、線形変換係数ベクトルと前記重心点を用いて、前記分割対象のテキストの単語をどの話題ブロックに割付けるかを決める。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、あらかじめ与えられた話題ブロックごとに、テキストを記述内容に応じて文単位に分割するテキスト分割装置、テキスト分割学習装置、テキスト分割方法、テキスト分割学習方法、プログラムに関する。
【背景技術】
【0002】
近年、急速な計算機の性能向上に伴い、大量のテキスト(文の集合)を蓄積・処理することが可能となってきている。蓄積されたテキストを人手で整理・管理することは一般的に困難であるため、テキストを内容的なまとまりの単位(意味段落)に分割するテキスト分割の技術がこれまで様々提案されており(非特許文献1)、この技術をベースに、テキストの必要な部分の取り出しや、要約の作成といった処理を行うことができる。その結果、人間によるテキスト全体の内容把握や、テキストの分類・検索の精度向上が可能となる。
【0003】
一方、音声認識技術の性能向上により、多少の認識誤りは含まれるものの、人が発話した音声をテキストに変換し、蓄積することも可能となってきている(非特許文献2)。例えば、コールセンタの通話音声を全て音声認識してテキスト化することで、通話の検索はもとより、テキストマイニング等の統計処理により、オペレータの応対品質向上やマーケティング情報抽出などに用いることが期待されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】別所克人、「クラスタ内変動最小基準に基づくテキストセグメンテーション」、情報処理学会論文誌、Vol.47、No.3, pp.957-967 (2006).
【非特許文献2】野田喜昭、高橋敏、「コンタクトセンタ向け音声処理技術の展開」、NTT技術ジャーナル、Vol.18、No.11、pp.8-10 (2006).
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記のコールセンタの通話音声のように、比較的厳密に通話内容(話題)やその順番が、スクリプト等であらかじめ決められているテキストを入力として、非特許文献1のような従来のテキスト分割技術を用いた場合、単語の概念ベクトルなどのある特徴パラメータの変化が大きいところを境界として分割されるため、あらかじめ決められた通話内容(話題)や順番通りにテキストが分割されない場合がある。また、1つの概念ベクトル空間内で全ての境界を決定するため、ある境界の決定にとっては最適な特徴パラメータになっていない可能性がある。
【0006】
本発明は、上記のコールセンタの通話音声等のような応用を想定して、あらかじめ決められた内容(話題)や順番に合わせて、個々の境界ごとに最適な特徴パラメータを用いてテキストを分割する技術を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明のテキスト分割装置は、単語分割部、削除部、ベクトル化部、学習情報取得部、線形変換学習部、重心学習部、分割対象情報取得部、割付部を備える。単語分割部は、入力されたテキストを形態素解析により単語に分割する。削除部は、内容語以外を削除する。ベクトル化部は、各単語をベクトル化し、単語ベクトルを得る。学習情報取得部は、学習用テキスト、複数の話題ブロックの情報、学習用テキストの単語を前記話題ブロックのいずれに割付けるのかの情報を取得する。線形変換学習部は、隣接する2つの話題ブロックの組ごとに、割付けられた単語の単語ベクトルを用いて、隣接する話題ブロックを分離するための線形変換係数ベクトルを求める。重心学習部は、隣接する2つの話題ブロックの組ごとに、各話題ブロックに割付けられた単語の単語ベクトルを用いて各話題ブロックの重心点を求める。分割対象情報取得部は、分割対象のテキストを取得する。割付部は、仮割付手段、距離計算手段、総和計算手段、繰返し制御手段を有し、線形変換係数ベクトルと前記重心点を用いて、前記分割対象のテキストの単語をどの話題ブロックに割付けるかを決める。なお、仮割付手段は、分割対象のテキストの単語をあらかじめ定めた方法で、当該単語の属する話題ブロックと、どちらの隣接する話題ブロックと分離するために使用するのかを仮割付けする。距離計算手段は、隣接する2つの話題ブロックの組ごとに、当該2つの話題ブロックの組の線形変換係数ベクトルによって当該2つの話題ブロックを分離するために仮割付けされた単語の単語ベクトルを写像し、写像された空間上で、単語ベクトルと当該単語が仮割付けされた話題ブロックの当該空間上での前記重心点との距離を求める。総和計算手段は、前記距離の総和を求める。繰返し制御手段は、前記仮割付手段、前記距離計算手段、前記総和計算手段の処理を、前記あらかじめ定めた方法に定められたすべての仮割付を行うまで繰返し、前記総和が最も小さい仮割付けを、分割対象のテキストの単語の割付けとする。
【発明の効果】
【0008】
本発明のテキスト分割装置によれば、隣接する2つの話題ブロックの組ごとに線形変換係数ベクトルと重心点を学習しておき、分割する際には隣接する2つの話題ブロックの組ごとに当該話題ブロックの組用の線形変換係数ベクトルと重心点とを用いてテキストを分割する。したがって、必ず話題ブロックの組ごとに最適な特徴パラメータで分割できる。
【図面の簡単な説明】
【0009】
【図1】比較的厳密に通話内容(話題)やその順番があらかじめ決められている場合の話題ブロックの例を示す図。
【図2】実施例1のテキスト分割装置の機能構成例を示す図。
【図3】学習時の処理フローを示す図。
【図4】学習用テキストを人手で話題ブロックごとに割付けるイメージを示す図。
【図5】隣接する2つの話題ブロックを分離するための線形変換ベクトルを求めるときのイメージを示す図。
【図6】学習が終了したときに得られる学習結果のイメージを示す図。
【図7】テキストを分割するときの処理フローを示す図。
【図8】距離計算手段182の詳細な処理フローを示す図。
【図9】割付けのイメージを示す図。
【図10】本変形例のテキスト分割学習装置の機能構成例を示す図。
【図11】本変形例のテキスト分割装置の機能構成例を示す図。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0011】
図1に、比較的厳密に通話内容(話題)やその順番があらかじめ決められている場合の話題ブロックの例を示す。図1の例では、話題は「最初の挨拶」「用件確認」「本人確認」「問題の発生条件確認」・・・「最後の挨拶」のように変化する。これらの1つ1つを話題ブロックと呼ぶことにする。コールセンタのように話題の流れが厳密に決まっている場合は、ほとんどすべての会話があらかじめ定めた話題ブロックの流れに従って進む。
【0012】
図2に実施例1のテキスト分割装置の機能構成例を、図3に学習時の処理フローを示す。図4は学習用テキストを人手で話題ブロックごとに割付けるイメージを示す図、図5は隣接する2つの話題ブロックを分離するための線形変換ベクトルを求めるときのイメージを示す図、図6は学習が終了したときに得られる学習結果のイメージを示す図である。テキスト分割装置100は、単語分割部110、削除部120、ベクトル化部130、学習情報取得部140、線形変換学習部150、重心学習部160、分割対象情報取得部170、割付部180、記録部190を備える。記録部190は、内容語辞書、入力された学習用の情報、学習結果、分割対象のテキストなどを記録する。なお、内容語辞書とは、テキストの内容を理解するために必要な単語(名詞、動詞、形容詞など)が登録されている辞書である。
【0013】
まず、学習時の処理フローについて説明する。学習情報取得部140は、学習用テキスト、複数の話題ブロックの情報、学習用テキストの単語を前記話題ブロックのいずれに割付けるのかの情報を取得する(S140)。学習用テキストとは、図4に示された「学習用通話1」のようなテキストである。複数の話題ブロックの情報とは、図1に示した話題ブロックの流れ(話題フロー)である。学習用テキストの単語を前記話題ブロックのいずれに割付けるのかの情報とは、図4に示しているように学習用テキストを文単位に話題ブロックに割付けた情報である。
【0014】
単語分割部110は、入力されたテキストを形態素解析により単語に分割する(S110)。なお、学習用テキストは、文単位に話題ブロックに割付けられているので、同一の文の単語は同一の話題ブロックに割付けられることになる。また、単語に分割した後に、人手で文単位に単語を、話題ブロックに割付けてもかまわない。
【0015】
削除部120は、記録部190に記録された内容語辞書を参照し、内容語以外を削除する(S120)。ベクトル化部130は、各単語をベクトル化し、単語ベクトルVijを得る(S130)。ここで、iはテキスト中の文の番号、jは文中の単語の番号を表す。ベクトル化では、非特許文献1などに示されているように、例えば、単語間の共起関係を用いる概念ベクトルなどを利用すればよい。
【0016】
線形変換学習部150は、隣接する2つの話題ブロックの組ごとに、割付けられた単語の単語ベクトルを用いて、隣接する話題ブロックを分離するための線形変換係数ベクトルCpqrを求め、記録部190に記録する(S150)。ここで、pは2つの話題ブロックの組の前側の話題ブロックの番号、qは2つの話題ブロックの組の後側の話題ブロックの番号、rは何番目の線形変換係数ベクトルであるかを示す数値である。図5の「よく判別する軸」が線形変換係数ベクトルCpqrに相当する。線形変換係数ベクトルCpqrは、例えば以下のように求めればよい。2つの話題ブロックの組ごとに、当該2つの話題ブロックに割付けされた単語の単語ベクトルを用いて、話題ブロック間の分散・共分散行列Aと話題ブロック内の分散・共分散行列Bを求める。そして、
|A−λB|=0
となる固有値λを求め、固有ベクトルを前記線形変換係数ベクトルCpqrとする。分散・共分散行列の求め方などついては、参考文献1(R. A. Johnson, D. W. Wichern共著, 西田俊夫訳, “多変量解析の徹底研究”, 現代数学社, 1992年.)、参考文献2(生松宏規, 大堀哲史, 小杉信, “モザイク表現とFisher判別分析法を用いた照明方向にロバストな顔画像の認識”, 信学技報, IE2001-112, pp.21-28, 2001年11月.)の4.1節に示された方法を用いればよい。
【0017】
重心学習部160は、隣接する2つの話題ブロックの組ごとに、各話題ブロックに割付けられた単語の単語ベクトルを用いて各話題ブロックの重心点Gpqsを求め、記録部190に記録する(S160)。ここで、pは2つの話題ブロックの組の前側の話題ブロックの番号、qは2つの話題ブロックの組の後側の話題ブロックの番号、sはpまたはqである。つまり、話題ブロックpとqとを分離するベクトル空間上でのpの重心点またはqの重心点を示している。学習が終了すると、図6に示すように隣接する2つの話題ブロックごとに、話題ブロックを分離するための線形変換係数ベクトルCpqrと、当該線形変換係数ベクトルCpqrで写像されたベクトル空間での単語ベクトルの重心点Gpqsが求められ、記録部190に記録された状態となる。
【0018】
図7は、テキストを分割するときの処理フローを示す図である。図8に距離計算手段182の詳細な処理フローを、図9に割付けのイメージを示す。分割対象情報取得部170は、分割対象のテキストを取得する(S170)。割付部180は、仮割付手段181、距離計算手段182、総和計算手段183、繰返し制御手段184を有し、線形変換係数ベクトルCpqrと重心点Gpqsを用いて、分割対象のテキストの単語をどの話題ブロックに割付けるかを決める(S180)。具体的には以下のような処理を行えばよい。仮割付手段181は、分割対象のテキストの単語をあらかじめ定めた方法で、当該単語の属する話題ブロックと、どちらの隣接する話題ブロックと分離するために使用するのかを仮割付けする(S181)。例えば、図9の例では、*1の単語は、「最初の挨拶」の話題ブロックに属することと、隣接する「用件確認」の話題ブロックと分離するために使用することが仮割付けされている。*2の単語は、「用件確認」の話題ブロックに属することと、隣接する「最初の挨拶」の話題ブロックと分離するために使用することが仮割付けされている。*3の単語は、「用件確認」の話題ブロックに属することと、隣接する「本人確認」の話題ブロックと分離するために使用することが仮割付けされている。あらかじめ定めた方法とは、ステップS181〜S184の繰返し処理で順次仮割付けを変更していくための方法である。単純な方法としては、少なくとも1つの文をそれぞれの話題ブロックに割付けるようにしながら、時間方向で文の順番が入れ替わらない範囲で文単位ですべての組合せを仮割付けするまで繰り返す方法がある。ただし、文の数が膨大になると処理時間も膨大になってしまうため、動的計画法を用いて仮割付けを行えばよい。
【0019】
距離計算手段182は、隣接する2つの話題ブロックの組ごとに、当該2つの話題ブロックの組の線形変換係数ベクトルCpqrによって当該2つの話題ブロックを分離するために仮割付けされた単語の単語ベクトルを写像し、写像された空間上で、単語ベクトルと当該単語が仮割付けされた話題ブロックの当該空間上での前記重心点との距離を求める(S182)。より具体的には、以下のように処理すればよい(図8参照)。まず、いずれかの隣接する2つの話題ブロックの組(話題ブロックp、q)を選定する(S1821)。話題ブロックpに属し話題ブロックpとqとを分離するための単語の単語ベクトルと、話題ブロックqに属し話題ブロックpとqとを分離するための単語の単語ベクトルとを、線形変換係数ベクトルCpqrを用いて線形変換(写像)する(S1822)。そして、写像された空間上で、単語ベクトルと当該単語が仮割付けされた話題ブロックの当該空間上での前記重心点Gpqsとの距離を求める(S1823)。例えば、ステップS1821で「最初の挨拶」と「用件確認」とが選択されたとする。この場合は、p=1、q=2である。ステップS1822では、図9の*1の単語と*2の単語を、線形変換係数ベクトルC12rを用いて線形変換(写像)する。ステップS1823では、写像された空間上で、図9の*1の単語ごとに重心点G121との距離を求め、図9の*2の単語ごとに重心点G122との距離を求める。このような処理を、隣接する話題ブロックの全組合せについて行ったかを確認し、全組合せに対して行っていない場合はステップS1821に戻り組合せを変更する。全組合せに対して行った場合にはステップS182を終了する(S1824)。
【0020】
総和計算手段183は、ステップS182で求めた各単語とその単語と対応する重心点Gpqsとの距離の総和を求める(S183)。繰返し制御手段184は、仮割付手段181、距離計算手段182、総和計算手段183を、あらかじめ定めた方法に定められたすべての仮割付を行うまで繰返す(S184)。そして、総和計算手段183が求めた総和が最も小さい仮割付けを、分割対象のテキストの単語の割付けとし、その結果に基づいてテキストを分割する(S185)。
【0021】
実施例1のテキスト分割装置によれば、隣接する2つの話題ブロックの組ごとに線形変換係数ベクトルと重心点を学習しておき、分割する際には隣接する2つの話題ブロックの組ごとに当該話題ブロックの組用の線形変換係数ベクトルと重心点とを用いてテキストを分割する。したがって、必ず話題ブロックの組ごとに最適な特徴パラメータで分割できる。
【0022】
[変形例]
実施例1のテキスト分割装置は、1つの装置で学習と分割とを行ったが、学習結果を得るための装置(テキスト分割学習装置)とテキストを分割する装置(テキスト分割装置)とを別にしてもよい。図10は、本変形例のテキスト分割学習装置の機能構成例を示す図である。また、図11は、本変形例のテキスト分割装置の機能構成例を示す図である。テキスト分割学習装置200は、学習に必要な構成部のみを備えており、図3と同じ処理フローで学習を行う。テキスト分割装置100’は、テキストの分割に必要な構成部のみを備えている。なお、テキスト分割装置100’の記録部190には、あらかじめ話題ブロック、線形変換係数ベクトルCpqr、重心点Gpqsが記録されている。そして、テキスト分割装置100’は、図7と同じ処理フローでテキストの分割を行う。したがって、本変形例のテキスト分割装置100’でも実施例1と同じ効果が得られる。
なお、プログラムによって上記の各処理を実行させることで、コンピュータを実施例1のテキスト分割装置、および変形例のテキスト分割学習装置とテキスト分割装置として機能させてもよい。
【産業上の利用可能性】
【0023】
本発明は、コールセンタのような話題の流れが固定している場合に、話題ごとに文を分割する装置として利用できる。
【符号の説明】
【0024】
100、100’ テキスト分割装置 110 単語分割部
120 削除部 130 ベクトル化部
140 学習情報取得部 150 線形変換学習部
160 重心学習部 170 分割対象情報取得部
180 割付部 181 仮割付手段
182 距離計算手段 183 総和計算手段
184 繰返し制御手段 190 記録部
200 テキスト分割学習装置

【特許請求の範囲】
【請求項1】
入力されたテキストを形態素解析により単語に分割する単語分割部と、
内容語以外を削除する削除部と、
各単語をベクトル化し、単語ベクトルを得るベクトル化部と、
学習用テキスト、複数の話題ブロックの情報、学習用テキストの単語を前記話題ブロックのいずれに割付けるのかの情報を取得する学習情報取得部と、
隣接する2つの話題ブロックの組ごとに、割付けられた単語の単語ベクトルを用いて、隣接する話題ブロックを分離するための線形変換係数ベクトルを求める線形変換学習部と、
隣接する2つの話題ブロックの組ごとに、各話題ブロックに割付けられた単語の単語ベクトルを用いて各話題ブロックの重心点を求める重心学習部と、
分割対象のテキストを取得する分割対象情報取得部と、
前記線形変換係数ベクトルと前記重心点を用いて、前記分割対象のテキストの単語をどの話題ブロックに割付けるかを決める割付部と、
を備え、
前記割付部は、
分割対象のテキストの単語をあらかじめ定めた方法で、当該単語の属する話題ブロックと、どちらの隣接する話題ブロックと分離するために使用するのかを仮割付けする仮割付手段と、
隣接する2つの話題ブロックの組ごとに、当該2つの話題ブロックの組の線形変換係数ベクトルによって当該2つの話題ブロックを分離するために仮割付けされた単語の単語ベクトルを写像し、写像された空間上で、単語ベクトルと当該単語が仮割付けされた話題ブロックの当該空間上での前記重心点との距離を求める距離計算手段と、
前記距離の総和を求める総和計算手段と、
前記仮割付手段、前記距離計算手段、前記総和計算手段の処理を、前記あらかじめ定めた方法に定められたすべての仮割付を行うまで繰返し、前記総和が最も小さい仮割付けを、分割対象のテキストの単語の割付けとする繰返し制御手段と
を有する
ことを特徴とするテキスト分割装置。
【請求項2】
入力されたテキストを形態素解析により単語に分割する単語分割部と、
内容語以外を削除する削除部と、
各単語をベクトル化し、単語ベクトルを得るベクトル化部と、
学習用テキスト、複数の話題ブロックの情報、学習用テキストの単語を前記話題ブロックのいずれに割付けるのかの情報を取得する学習情報取得部と、
隣接する2つの話題ブロックの組ごとに、割付けられた単語の単語ベクトルを用いて、隣接する話題ブロックを分離するための線形変換係数ベクトルを求める線形変換学習部と、
隣接する2つの話題ブロックの組ごとに、各話題ブロックに割付けられた単語の単語ベクトルを用いて各話題ブロックの重心点を求める重心学習部と、
を備えるテキスト分割学習装置。
【請求項3】
入力されたテキストを形態素解析により単語に分割する単語分割部と、
内容語以外を削除する削除部と、
各単語をベクトル化し、単語ベクトルを得るベクトル化部と、
分割対象のテキストを取得する分割対象情報取得部と、
記録部と、
前記線形変換係数ベクトルと前記重心点を用いて、前記分割対象のテキストの単語をどの話題ブロックに割付けるかを決める割付部と、
を備え、
前記記録部は、あらかじめ
複数の話題ブロックの情報、隣接する話題ブロックを分離するための線形変換係数ベクトル、各話題ブロックの重心点
を記録し、
前記割付部は、
分割対象のテキストの単語をあらかじめ定めた方法で、当該単語の属する話題ブロックと、どちらの隣接する話題ブロックと分離するために使用するのかを仮割付けする仮割付手段と、
隣接する2つの話題ブロックの組ごとに、当該2つの話題ブロックの組の線形変換係数ベクトルによって当該2つの話題ブロックを分離するために仮割付けされた単語の単語ベクトルを写像し、写像された空間上で、単語ベクトルと当該単語が仮割付けされた話題ブロックの当該空間上での前記重心点との距離を求める距離計算手段と、
前記距離の総和を求める総和計算手段と、
前記仮割付手段、前記距離計算手段、前記総和計算手段の処理を、前記あらかじめ定めた方法に定められたすべての仮割付を行うまで繰返し、前記総和が最も小さい仮割付けを、分割対象のテキストの単語の割付けとする繰返し制御手段と
を有する
ことを特徴とするテキスト分割装置。
【請求項4】
請求項1または3記載のテキスト分割装置であって、
前記仮割付手段は、時間方向で文の順番が入れ替わらない範囲で文単位で前記分割対象のテキストの単語を仮割付けする
ことを特徴とするテキスト分割装置。
【請求項5】
テキスト分割装置によって、入力されたテキストを話題ブロックごとに分割するテキスト分割方法であって、
学習用テキスト、複数の話題ブロックの情報、学習用テキストの単語を前記話題ブロックのいずれに割付けるのかの情報を取得する学習情報取得ステップと、
学習用テキストを形態素解析により単語に分割する学習単語分割ステップと、
前記学習単語分割ステップによって求められた単語から、内容語以外を削除する学習削除ステップと、
前記学習削除ステップで内容語以外が削除された後の各単語をベクトル化し、学習単語ベクトルを得る学習ベクトル化ステップと、
隣接する2つの話題ブロックの組ごとに、割付けられた単語の学習単語ベクトルを用いて、隣接する話題ブロックを分離するための線形変換係数ベクトルを求める線形変換学習ステップと、
隣接する2つの話題ブロックの組ごとに、各話題ブロックに割付けられた単語の学習単語ベクトルを用いて各話題ブロックの重心点を求める重心学習ステップと、
分割対象のテキストを取得する分割対象情報取得ステップと、
分割対象のテキストを形態素解析により単語に分割する単語分割ステップと、
前記単語分割ステップによって求められた単語から、内容語以外を削除する削除ステップと、
前記削除ステップで内容語以外が削除された後の各単語をベクトル化し、単語ベクトルを得るベクトル化ステップと、
前記線形変換係数ベクトルと前記重心点を用いて、前記分割対象のテキストの単語をどの話題ブロックに割付けるかを決める割付ステップと、
を有し、
前記割付ステップは、
分割対象のテキストの単語をあらかじめ定めた方法で、当該単語の属する話題ブロックと、どちらの隣接する話題ブロックと分離するために使用するのかを仮割付けする仮割付サブステップと、
隣接する2つの話題ブロックの組ごとに、当該2つの話題ブロックの組の線形変換係数ベクトルによって当該2つの話題ブロックを分離するために仮割付けされた単語の単語ベクトルを写像し、写像された空間上で、単語ベクトルと当該単語が仮割付けされた話題ブロックの当該空間上での前記重心点との距離を求める距離計算サブステップと、
前記距離の総和を求める総和計算サブステップと、
前記仮割付手段、前記距離計算手段、前記総和計算手段の処理を、前記あらかじめ定めた方法に定められたすべての仮割付を行うまで繰返し、前記総和が最も小さい仮割付けを、分割対象のテキストの単語の割付けとする繰返し制御サブステップと
を有する
ことを特徴とするテキスト分割方法。
【請求項6】
テキスト分割学習装置によって、入力されたテキストを話題ブロックごとに分割するための学習結果を得るテキスト分割学習方法であって、
学習用テキスト、複数の話題ブロックの情報、学習用テキストの単語を前記話題ブロックのいずれに割付けるのかの情報を取得する学習情報取得ステップと、
学習用テキストを形態素解析により単語に分割する学習単語分割ステップと、
前記学習単語分割ステップによって求められた単語から、内容語以外を削除する学習削除ステップと、
前記学習削除ステップで内容語以外が削除された後の各単語をベクトル化し、学習単語ベクトルを得る学習ベクトル化ステップと、
隣接する2つの話題ブロックの組ごとに、割付けられた単語の学習単語ベクトルを用いて、隣接する話題ブロックを分離するための線形変換係数ベクトルを求める線形変換学習ステップと、
隣接する2つの話題ブロックの組ごとに、各話題ブロックに割付けられた単語の学習単語ベクトルを用いて各話題ブロックの重心点を求める重心学習ステップと、
を有するテキスト分割学習方法。
【請求項7】
あらかじめ複数の話題ブロックの情報、隣接する話題ブロックを分離するための線形変換係数ベクトル、各話題ブロックの重心点を記録したテキスト分割装置によって、入力されたテキストを話題ブロックごとに分割するテキスト分割方法であって、
分割対象のテキストを取得する分割対象情報取得ステップと、
分割対象のテキストを形態素解析により単語に分割する単語分割ステップと、
前記単語分割ステップによって求められた単語から、内容語以外を削除する削除ステップと、
前記削除ステップで内容語以外が削除された後の各単語をベクトル化し、単語ベクトルを得るベクトル化ステップと、
前記線形変換係数ベクトルと前記重心点を用いて、前記分割対象のテキストの単語をどの話題ブロックに割付けるかを決める割付ステップと、
を有し、
前記割付ステップは、
分割対象のテキストの単語をあらかじめ定めた方法で、当該単語の属する話題ブロックと、どちらの隣接する話題ブロックと分離するために使用するのかを仮割付けする仮割付サブステップと、
隣接する2つの話題ブロックの組ごとに、当該2つの話題ブロックの組の線形変換係数ベクトルによって当該2つの話題ブロックを分離するために仮割付けされた単語の単語ベクトルを写像し、写像された空間上で、単語ベクトルと当該単語が仮割付けされた話題ブロックの当該空間上での前記重心点との距離を求める距離計算サブステップと、
前記距離の総和を求める総和計算サブステップと、
前記仮割付手段、前記距離計算手段、前記総和計算手段の処理を、前記あらかじめ定めた方法に定められたすべての仮割付を行うまで繰返し、前記総和が最も小さい仮割付けを、分割対象のテキストの単語の割付けとする繰返し制御サブステップと
を有する
ことを特徴とするテキスト分割方法。
【請求項8】
請求項5または7記載のテキスト分割方法であって、
前記仮割付サブステップは、時間方向で文の順番が入れ替わらない範囲で文単位で前記分割対象のテキストの単語を仮割付けする
ことを特徴とするテキスト分割方法。
【請求項9】
請求項1、3、4のいずれかに記載のテキスト分割装置、または請求項2記載のテキスト分割学習装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−93943(P2012−93943A)
【公開日】平成24年5月17日(2012.5.17)
【国際特許分類】
【出願番号】特願2010−240445(P2010−240445)
【出願日】平成22年10月27日(2010.10.27)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】