説明

話者交替推定装置、話者識別装置、及びコンピュータプログラム

【課題】発話者が交替したか否かを推定することが可能な話者交替推定装置を提供する。
【解決手段】無音区間で区切られた発話の内容を表すテキスト情報Daから発話の末尾部分である発話末語を抽出する発話末語抽出部11と、抽出された発話末語に基づいて発話者が交替したか否かを推定する話者交替推定部12と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、話者交替推定装置、話者識別装置、及びコンピュータプログラムに関する。
【背景技術】
【0002】
音声データからその発話者が誰であるかを識別する話者識別装置がある。この話者識別装置は、例えば、ニュース番組の音声や会議の録音音声に、発話者を示す発話者情報をメタデータとして付加する、等の目的のために利用することが可能である。
【0003】
従来、発話者を識別する方法として、音響尤度など発話の音響的な特徴に関する基準を用いて識別を行う方法が知られている(非特許文献1,2参照)。
【非特許文献1】S. Chen他、Proc. DARPA Speech Recognition Workshop、pp.127-132、1998年
【非特許文献2】S. E. Tranter他、IEEE Trans. Speech Audio Process 14、pp.1557-1565、2006年
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来方法では、音声の音響的特徴のみを用いて発話者を識別するため、発話者の識別精度があまり高くないという問題があった。例えば、声質の似ている発話者Aと発話者Bが対話をしている場合、両者それぞれの音声は音響的特徴の差が小さいことから、発話者がAからBに切り替わった後も発話者がAであると誤認識してしまうことがある。また、同一の発話者の話がまだ続くにもかかわらず、発話者が変化したと誤判断してしまうこともある。
【0005】
本発明は上記の点に鑑みてなされたものであり、第1の目的は、発話者が交替したか否かを推定することが可能な話者交替推定装置を提供することにある。また、本発明の第2の目的は、精度良く発話者を識別することが可能な話者識別装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明は、上記の課題を解決するためになされたものであり、無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、を備えることを特徴とする話者交替推定装置である。
【0007】
この構成によれば、発話末語の内容に応じて、発話者が交替したか交替していないかが推定される。即ち、通常、ある一つのまとまりを持った発言内容の終了部分には、発言内容の途中とは異なる終了部分に特有の言葉が用いられるので、発話末語に着目することにより、発話者が交替したか否かを判断することができる。
【0008】
また、本発明は、上記の話者交替推定装置において、発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段を備え、前記推定手段は、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて発話者が交替したか否かを推定することを特徴とする。
【0009】
この構成によれば、発話者が交替したか否かを表す確率を得ることができる。
【0010】
また、本発明は、上記の話者交替推定装置において、無音区間で区切られた複数の連続する発話の内容を表すテキスト情報と、前記複数の発話毎の発話者を示す発話者情報と、を含む学習データを入力する入力手段と、前記入力された学習データのテキスト情報から一の発話の発話末語を抽出し、該一の発話に対応する発話者情報及び該一の発話に引き続いてなされた発話に対応する発話者情報に基づいて、該一の発話から抽出された発話末語についての前記話者交替確率記憶手段における前記確率を更新する更新手段と、を備えることを特徴とする。
【0011】
この構成によれば、一の発話とそれに引き続いてなされた発話のそれぞれの発話者情報から、それら2つの連続する発話が同一人によるものか別人によるものかが分かる。そしてその結果に従って、当該一の発話の発話末語について、その発話末語を末尾とする発話の後に発話者が交替する確率が更新される。これにより、発話者が交替する確率が学習によって信頼性のあるものに更新されていき、発話者が交替したか否かを高精度に判断することが可能となる。
【0012】
また、本発明は、上記の話者交替推定装置と、音声を入力し該音声の音響的特徴を抽出する音響分析手段と、前記音声に含まれる各発話の発話者を識別する話者識別手段と、を備え、前記話者交替推定装置は、前記音声に含まれる各発話について発話者が交替したか否かを推定し、前記話者識別手段は、前記音響分析手段によって抽出された音響的特徴と、前記話者交替推定装置による推定結果と、に基づいて発話者の識別を行うことを特徴とする話者識別装置である。
【0013】
この構成によれば、音声の音響的特徴と発話者が交替したか否かの推定結果の両方に基づいて発話者の識別が行われる。したがって、従来のように音声の音響的特徴だけから発話者を識別する方法と比較して、発話者の識別精度を向上させることができる。即ち、例えば、発話者が交替したと推定された場合、そのことを加味して話者識別を行うので、実際に発話者が交替しているにもかかわらず発話者が交替前と同じであると誤認識してしまうおそれが減少する。また逆に、発話者が交替していないと推定された場合、発話者が同じである(発言内容がまだ続く)のに発話者が変化したと誤判断してしまうおそれが減少する。
【発明の効果】
【0014】
本発明によれば、発話者が交替したか否かを推定することが可能である。また、本発明によれば、精度良く発話者を識別することが可能である。
【発明を実施するための最良の形態】
【0015】
以下、図面を参照しながら本発明の実施形態について詳しく説明する。
図1は、本発明の一実施形態による話者交替推定装置の構成を示すブロック図である。話者交替推定装置は、発話者が交替したか否かの推定を行う装置であり、入力された発話テキストデータDaに基づいて、発話者が交替したことの確からしさを表す話者交替確率を推定結果として出力する。なお、発話者が誰であるかの識別は、後述の話者識別装置が行う。図1において、話者交替推定装置10は、発話末語抽出部11と、話者交替推定部12と、話者交替確率記憶部13と、学習データ解析部14と、話者交替確率更新部15と、を含んで構成される。
【0016】
発話末語抽出部11は、入力された発話テキストデータDaから、発話の末尾部分である発話末語を抽出し、抽出した発話末語を話者交替推定部12へ出力する。発話テキストデータDaは、1発話分の発話の内容を文字(テキスト)で表したデータである。発話とは、発話者が話した内容のうち、ある所定の無音区間で区切られた部分をいう。
【0017】
図2は発話の例を説明する図である。図2において、発話者Aは、「・・・・は、・・・・で、・・・・も・・・・ですが、・・・・でしょうか。」と発言し、発話者Bは、「はい、・・・・」と発言している。ここで、発話者Aの発言において、「・・・・は、・・・・で、」と「・・・・も・・・・ですが、」の間と、「・・・・も・・・・ですが、」と「・・・・でしょうか。」の間には、無音区間が存在している。無音区間の長さは、例えば0.5〜1秒程度である。例えば発話者Aは、これら無音区間では一呼吸おいて喋っている。また、発話者Aの発言と発話者Bの発言の間にも、無音区間が存在している。この例において、「・・・・は、・・・・で、」と「・・・・も・・・・ですが、」と「・・・・でしょうか。」と「はい、・・・・」の各部分が、発話(1発話分)である。つまり、上記発話テキストデータDaは、例えば「・・・・でしょうか。」というテキストデータである。
【0018】
発話末語抽出部11は、発話テキストデータDaとして例えば「・・・・でしょうか。」というデータが入力された場合、発話末語として「でしょうか」というデータを抽出する。また、発話末語抽出部11は、発話テキストデータDaとして例えば「・・・・は、・・・・で、」というデータが入力された場合、発話末語として「で」というデータを抽出する。発話のうちどの部分を発話末語(末尾部分)とするかは、例えば、発話テキストデータDaを単語や文節で分け、その最後の単語又は文節を発話末語とする。単語や文節の認識には、周知の形態素解析などの技術を利用可能である。
【0019】
話者交替推定部12は、発話末語抽出部11から入力された発話末語に基づいて、話者交替確率記憶部13を参照することにより話者交替確率を求める。話者交替確率とは、発話末語抽出部11へ入力された発話テキストデータDaにかかる発話の後に、発話者が交替する(例えば発話者Aから発話者Bへ交替する)確からしさを表す確率である。
【0020】
話者交替確率記憶部13は、発話末候補語それぞれに対応する話者交替確率をデータベース(以下、話者交替モデルという)として記憶している。発話末候補語は発話末語の候補、即ち発話の末尾部分になり得る言葉(単語や文節)である。
【0021】
図3は、話者交替確率記憶部13が記憶している話者交替モデルの一例である。図3において、「など」、「や」、「も」、「で」、「が」、「を」という発話末候補語の話者交替確率は3%未満であり、「でしょうか」という発話末候補語の話者交替確率は83%であり、「んでしょうか」という発話末候補語の話者交替確率は84%であり、「ですか」という発話末候補語の話者交替確率は94%である。後述するように、予め多数の学習データを解析することによって、これら話者交替確率が計算され、話者交替モデルが作られる。
【0022】
ここで、「でしょうか」や「んでしょうか」のような発話末候補語は、発話者が他の発話者(話をしている相手)に問い掛けをする言葉であるため、それらの言葉が発せられた後に発話者が交替する可能性が高い。よって、話者交替確率は高い数値となっている。一方、「など」や「や」のような発話末候補語は、問い掛けをする言葉ではなく、話の途中で使われる言葉であるため、それらの言葉が発せられた後に発話者が交替する可能性は低い。よって、話者交替確率は低い数値となっている。
【0023】
具体例で話者交替推定部12の処理を説明する。図2における1つ目の発話テキストデータ「・・・・は、・・・・で、」の場合、話者交替推定部12へは「で」という発話末語が入力される。話者交替推定部12は、話者交替確率記憶部13の話者交替モデルから、この発話末語「で」に対応する話者交替確率「3%未満」を取得する。「・・・・は、・・・・で、」という発話は話の途中の発話であるので、このように低い話者交替確率が得られることになる。また、図2における3つ目の発話テキストデータ「・・・・でしょうか。」の場合、話者交替推定部12へは「でしょうか」という発話末語が入力される。話者交替推定部12は、話者交替確率記憶部13の話者交替モデルから、この発話末語「でしょうか」に対応する話者交替確率「83%」を取得する。「・・・・でしょうか。」という発話は問い掛けをする発話であり、次に問い掛けられた相手の発話者が発言することが予想される発話であるので、83%という高い話者交替確率が得られることになる。
【0024】
このようにして、発話テキストデータDaの発話末語から話者交替確率が求められ、これにより当該発話の後に発話者が交替したか否かが推定される。
【0025】
次に、上述の話者交替モデル(話者交替確率)を更新するための構成について説明する。
【0026】
学習データ解析部14は、入力される学習データを解析し、その学習データに含まれる発話末語が発話者の交替を伴うものであるか否かを判定する。学習データは、連続して発言された複数の発話のデータであり、各発話について学習用発話テキストデータDbと発話者情報Pとを有している。各学習用発話テキストデータDb1,Db2,…は、前述の発話テキストデータDaと同様、1発話分の発話の内容を文字(テキスト)で表したデータであり、それぞれ当該発話に対応する発話者を示す発話者情報P1,P2,…が付加されている。なお、この学習データは、予め、学習データ作成者が発話内容を聴いて発話者情報Pを特定することによって、作成されたものである。
【0027】
図4は、学習データを具体的に説明する図である。図4の学習データは、図2に示した発話の例を学習データとしたものであり、ここに示されている各発話は発話者Aと発話者Bとにより連続して発言されたものである。図4において、学習データは、「・・・・は、・・・・で、」という学習用発話テキストデータDb1及びその発話者を示す「発話者A」という発話者情報P1と、「・・・・も・・・・ですが、」という学習用発話テキストデータDb2及びその発話者を示す「発話者A」という発話者情報P2と、「・・・・でしょうか。」という学習用発話テキストデータDb3及びその発話者を示す「発話者A」という発話者情報P3と、「はい、・・・・」いう学習用発話テキストデータDb4及びその発話者を示す「発話者B」という発話者情報P4と、を含んでいる。
【0028】
学習データ解析部14の解析処理を説明する。学習データ解析部14は、まず、上記の学習データから1つの学習用発話テキストデータDbを選択して、その学習用発話テキストデータDbの発話末語を抽出する(発話末語の抽出処理は前述した発話末語抽出部11と同様)。次に、学習データ解析部14は、当該選択した学習用発話テキストデータDbに対応する発話者情報Pと、それに続く学習用発話テキストデータDbに対応する発話者情報Pとを比較する。そして、学習データ解析部14は、比較した発話者情報Pが同一の場合、上記抽出した発話末語は発話者の交替を伴わないものであると判定する。また、学習データ解析部14は、比較した発話者情報Pが異なる場合、上記抽出した発話末語は発話者の交替を伴うものであると判定する。学習データ解析部14は、このような解析を学習データに含まれる全ての発話について行い、各発話の発話末語とその判定結果を話者交替確率更新部15へ出力する。
【0029】
例えば、図4の1つ目の発話を解析すると、学習用発話テキストデータDb1の発話末語は「で」であり、また、発話者情報P1(発話者A)及び発話者情報P2(発話者A)よりこの発話末語「で」は発話者の交替を伴わないとの判定結果が得られる。また、図4の3つ目の発話を解析すると、学習用発話テキストデータDb3の発話末語は「でしょうか」であり、また、発話者情報P3(発話者A)及び発話者情報P4(発話者B)よりこの発話末語「でしょうか」は発話者の交替を伴うとの判定結果が得られる。
【0030】
話者交替確率更新部15は、学習データ解析部14から得られた解析結果に基づいて、話者交替確率記憶部13の話者交替モデルにおける話者交替確率を更新する。具体的には、発話者の交替を伴うとの判定結果が入力された場合、話者交替確率更新部15は、対応する発話末語の話者交替確率を増加させる。また、発話者の交替を伴わないとの判定結果が入力された場合、話者交替確率更新部15は、対応する発話末語の話者交替確率を減少させる。
【0031】
更新(増加あるいは減少)後の話者交替確率の値は、例えば次のように決定する。発話末候補語毎に、過去の学習において判定結果が「発話者の交替を伴う」であったサンプル数Aと、学習に用いた総サンプル数Bとを話者交替確率記憶部13に記憶しておく。現時点の話者交替確率pはp=A/Bである。話者交替確率更新部15は、話者交替確率記憶部13からサンプル数A及び総サンプル数Bを読み出して、今回の学習における判定結果が「発話者の交替を伴う」の場合、更新後の話者交替確率p’をp’=(A+1)/(B+1)とする。また、今回の学習における判定結果が「発話者の交替を伴わない」の場合、更新後の話者交替確率p’をp’=A/(B+1)とする。
【0032】
このようにして、話者交替確率が学習により更新されることにより、その後に話者交替推定部12が実施する話者交替の推定処理の精度を向上させることができる。
【0033】
次に、以上説明した話者交替推定装置10を利用して発話者の識別を行う話者識別装置について説明する。
図5は、本発明の一実施形態による話者識別装置の構成を示すブロック図である。話者識別装置100は、入力された音声データの発話者が誰であるかを識別する装置であり、音響分析部20と、音声認識デコーダ部30と、話者識別部40と、話者モデル記憶部50と、図1に示した話者交替推定装置10と、を含んで構成される。
【0034】
音響分析部20は、入力された音声データを分析して、その音声データの音響的特徴を表す特徴ベクトルを算出する。特徴ベクトルの算出方法は次のとおりである。まず、音響分析部20は、入力された音声データから所定の時間幅のデータを切り出し、切り出した音声データをフーリエ変換して音声データのパワースペクトルを得る。次に、音響分析部20は、得られたパワースペクトルをコサイン変換又は直交変換することによりケプストラムを得る。このケプストラムの各係数(メル周波数ケプストラム係数)から、特徴ベクトルが構成される。このようにして算出された特徴ベクトルは、音声認識デコーダ部30と話者識別部40へそれぞれ出力される。
【0035】
音声認識デコーダ部30は、上記入力された特徴ベクトルから、音声データに含まれる音声を認識し、音声認識結果として当該音声を表す文字あるいは文字列を生成する。音声認識デコーダ部30は、この音声認識結果の文字あるいは文字列を前述の発話テキストデータとして話者交替推定装置10へ出力する。
【0036】
話者交替推定装置10は、前述した動作を行って、音声認識デコーダ部30から入力された発話テキストデータに基づき話者交替確率を計算する。この話者交替確率は話者識別部40へ出力される。
【0037】
話者識別部40は、音響分析部20から入力された特徴ベクトルと話者交替推定装置10から入力された話者交替確率とに基づいて、音声データの発話者を識別する処理を行う。以下、話者モデル記憶部50にK人の発話者の音響的特徴を示す話者モデルλ(k=1,2,…,K)が記憶されているとして、話者識別部40の処理の詳細を説明する。
【0038】
まず、現在の発話yの音声データが話者識別装置100に入力されると、話者識別部40は、発話開始からT秒後に、次式で表されるΔBICmodを全ての発話者k(k=1,2,…,K)について計算する。但し、xは発話者kの音声の特徴ベクトル、St−1は直前の発話yt−1の発話者を示す番号(1≦St−1≦K)、Wt−1は直前の発話yt−1の発話末語である。
【0039】
【数1】

【0040】
ここで、p(X|Y)は条件Yの下で事象Xの生じる条件付き確率である。右辺分子第1項は、話者モデルλxkにおける特徴ベクトルxの音響尤度(発生確率)を表し、右辺分子第2項は、話者モデルλytにおける現在の発話の特徴ベクトルy(但し発話開始からT秒間分)の音響尤度を表している。また、右辺分母第1項は、上記の2つの発話y及びxを1つの発話とみなした場合の話者モデルλxkytにおける、当該1つの発話とみなした特徴ベクトルxの音響尤度を表している。
【0041】
よって、上記ΔBICmodの式において、右辺の分子第1項と第2項及び分母第1項からなる部分(音響尤度比)は、現在の発話yの発話者と同一の発話者kに対して、その値が最小となる。この音響尤度比の部分は、非特許文献2で提案されたΔBIC(BICはBayesian Information Criterionの略)に対応しており、発話の音響的特徴のみに依存している。つまり、非特許文献2のΔBICでは、発話の音響的特徴のみに基づく音響尤度比が最小値をとるkを探索することによって話者を識別するが、例えば、話者モデルλxk1とλxk2が類似している場合、k1に対して音響尤度比が最小値をとるとともに、k2に対する音響尤度比がその最小値に近い値になる、といった状況が起こり得るため、前述のように識別精度が低下してしまう。
【0042】
本発明における話者識別部40が計算する上式のΔBICmodは、このような問題点を改善するために従来のΔBICを改良したものであり、上記の音響尤度比に加えて、直前の発話yt−1の発話末語Wt−1に関する情報、即ち、右辺の分母第2項と分子第3項も考慮している。ここで、右辺分母第2項は、直前の発話yt−1の発話者がSt−1であってその発話末語がWt−1であるとき、現在の発話yの発話者Sがkである確率を表し、右辺分子第3項は、同様に現在の発話yの発話者Sがkでない確率を表している。これら各項は、発話末語Wt−1に対する話者交替確率(p(C|Wt−1)と表記する)を用いて次のように書き表すことができる。なお、現在の発話yが最初の発話である場合、話者交替確率は0.5とする。
【0043】
【数2】

【0044】
よって、上記ΔBICmodの式において、右辺の分母第2項と分子第3項からなる比rは、次のように値が変化する。
【0045】
(1)直前の発話yt−1が話の途中の発話である場合
この場合、前述の説明から、話者交替確率は小さい値をとる。そのため、直前の発話者と同一人のkに対して(つまり上式でk=St−1)、比rの値は小さくなり、直前の発話者と別人のkに対して(つまり上式でk≠St−1)、比rの値は大きくなる。例えば、図2の例で直前の発話が「・・・・は、・・・・で、」であり現在の発話が「・・・・も・・・・ですが、」である(発話者はともにA)場合、kを発話者Aとしたとき、
r=0.03/(1−0.03)≒0.031
となり、kを発話者A以外としたとき、
r={(1−0.03)/9+(8/9)×0.03}/0.03≒4.48
となる。但し、話者交替確率は図3から3%であり、また、K=10とした。
【0046】
(2)直前の発話yt−1が話の終了部分の発話(他者への問い掛け等)である場合
この場合、前述の説明から、話者交替確率は大きい値をとる。そのため、直前の発話者と同一人のkに対して(つまり上式でk=St−1)、比rの値は大きくなり、直前の発話者と別人のkに対して(つまり上式でk≠St−1)、比rの値は小さくなる。例えば、図2の例で直前の発話が発話者Aの「・・・・でしょうか。」であり現在の発話が発話者Bの「はい、・・・・」である場合、kを発話者Aとしたとき、
r=0.83/(1−0.83)≒4.88
となり、kを発話者A以外としたとき、
r={(1−0.83)/9+(8/9)×0.83}/0.83≒0.912
となる。但し、話者交替確率は図3から83%であり、また、K=10とした。
【0047】
このように、本発明で用いるΔBICmodの式によれば、直前の発話yt−1の発話末語Wt−1に基づく話者交替確率が考慮されているので、現在の発話yの発話者を正しく識別することが可能となる。つまり、上記(1)の場合、全てのkについてΔBICmodを計算すると、直前の発話者と同一の発話者に対応するkについてのΔBICmodの値が、それ以外のkについてのΔBICmodの値よりも小さい値をとることになる。したがって、ΔBICmodが最小値をとるkを探索することによって、直前の発話者と同一の発話者を見つけ出すことができ、話の途中の発話に適合した話者識別を行うことができる。また、上記(2)の場合、同様に全てのkについてΔBICmodを計算すると、直前の発話者と同一の発話者に対応するkについてのΔBICmodの値が、それ以外のkについてのΔBICmodの値よりも大きい値をとることになる。したがって、ΔBICmodが最小値をとるkを探索したとすると、直前の発話者と同一の発話者が探索されてしまうことがなく、発話者の交替を伴う発話に適合した話者識別を行うことができる。
【0048】
話者識別部40は、以上のようにして全ての発話者kについて計算したΔBICmodから、最小値のΔBICmodを選び出し、その選んだΔBICmodのkに対応する発話者を、現在の発話yの発話者であると判定する。これが発話yの発話開始からT秒後の話者識別結果である。この話者識別の処理では、上述の説明から理解されるように、音響尤度比からの話者識別が困難な状況であっても、また、発話開始直後で音響尤度比の信頼度が小さい場合であっても、高い精度で発話者を識別することができる。
【0049】
なお、上記のΔBICmodの式において、右辺のαPの項と値βは、ΔBICmodの最小値が負の値となるように調整するためのものであり、その値は、話者識別の結果を用いて適宜更新するようにしておく。話者識別部40は、全てのkについてΔBICmodの値が正であれば、話者モデル記憶部50のK人の話者モデルλには、現在の発話yに対応する発話者が含まれないと判定する。
【0050】
こうして発話開始からT秒後に話者識別処理を行った後、話者識別部40は、更に、現在の発話yの終了時に同様の話者識別処理を行う。この時点では、音響尤度比の信頼度が発話開始T秒後の時点よりも大きいことが期待できるため、より高い精度で話者識別を行うことができる。話者識別部40は、発話終了時の話者識別結果を用いて、識別結果の発話者に対応する話者モデル記憶部50の話者モデルを更新してもよい。また、発話終了時の話者識別処理でも現在の発話yに対応する発話者がいずれの話者モデルにも含まれないと判定された場合、話者識別部40は、現在の発話yから識別された発話者の話者モデルを新たに作成し、話者モデル記憶部50に記憶するようにしてもよい。
【0051】
以上、図面を参照してこの発明の一実施形態について詳しく説明してきたが、具体的な構成は上述のものに限られることはなく、この発明の要旨を逸脱しない範囲内において様々な設計変更等をすることが可能である。
例えば、本実施形態の話者交替推定装置10及び話者識別装置100は、コンピュータを用いて実現することができる。例えば、発話末語抽出部11、話者交替推定部12、学習データ解析部14、話者交替確率更新部15、音響分析部20、音声認識デコーダ部30、及び話者識別部40の各部は、それぞれの機能を実現するためのコンピュータプログラムをコンピュータのCPU(中央処理装置)に読み込ませて実行させることによって実現することができ、話者交替確率記憶部13及び話者モデル記憶部50の各部は、それぞれ話者交替モデル、話者モデルをハードディスクドライブ等の記憶装置に記憶させることによって実現することができる。
【図面の簡単な説明】
【0052】
【図1】本発明の一実施形態による話者交替推定装置の構成を示すブロック図である。
【図2】発話の例を説明する図である。
【図3】話者交替モデルの一例である。
【図4】学習データを具体的に説明する図である。
【図5】本発明の一実施形態による話者識別装置の構成を示すブロック図である。
【符号の説明】
【0053】
10…話者交替推定装置 11…発話末語抽出部 12…話者交替推定部 13…話者交替確率記憶部 14…学習データ解析部 15…話者交替確率更新部 20…音響分析部 30…音声認識デコーダ部 40…話者識別部 50…話者モデル記憶部

【特許請求の範囲】
【請求項1】
無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、
前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、
を備えることを特徴とする話者交替推定装置。
【請求項2】
発話の末尾部分の候補である各発話末候補語と、該発話末候補語を末尾とする発話の後に発話者が交替する確率と、を対応付けて記憶する話者交替確率記憶手段を備え、
前記推定手段は、前記話者交替確率記憶手段から、前記発話末語抽出手段により抽出された発話末語に対応する確率を求め、該求めた確率に基づいて発話者が交替したか否かを推定する
ことを特徴とする請求項1に記載の話者交替推定装置。
【請求項3】
無音区間で区切られた複数の連続する発話の内容を表すテキスト情報と、前記複数の発話毎の発話者を示す発話者情報と、を含む学習データを入力する入力手段と、
前記入力された学習データのテキスト情報から一の発話の発話末語を抽出し、該一の発話に対応する発話者情報及び該一の発話に引き続いてなされた発話に対応する発話者情報に基づいて、該一の発話から抽出された発話末語についての前記話者交替確率記憶手段における前記確率を更新する更新手段と、
を備えることを特徴とする請求項2に記載の話者交替推定装置。
【請求項4】
請求項1から請求項3のいずれか1の項に記載の話者交替推定装置と、
音声を入力し該音声の音響的特徴を抽出する音響分析手段と、
前記音声に含まれる各発話の発話者を識別する話者識別手段と、を備え、
前記話者交替推定装置は、前記音声に含まれる各発話について発話者が交替したか否かを推定し、
前記話者識別手段は、前記音響分析手段によって抽出された音響的特徴と、前記話者交替推定装置による推定結果と、に基づいて発話者の識別を行う
ことを特徴とする話者識別装置。
【請求項5】
無音区間で区切られた発話の内容を表すテキスト情報から発話の末尾部分である発話末語を抽出する発話末語抽出手段と、
前記抽出された発話末語に基づいて発話者が交替したか否かを推定する推定手段と、
としてコンピュータを機能させるためのコンピュータプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−54574(P2010−54574A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−216484(P2008−216484)
【出願日】平成20年8月26日(2008.8.26)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】