人物名付与装置および方法

【課題】受信した映像だけから所望の出演者が登場しているシーンを特定する。
【解決手段】話者名を示す情報で特定された話者名と話者の発話時間とを含む話者時間を第１区間として取得する手段１０３と、映像中の有音区間から発話を含む第２区間を取得する手段１０１と、第２区間が第１区間に含まれる場合に第２区間の音声波形から話者を特徴付ける第１特徴量を抽出し第１区間に対応する話者名と特徴量とを対応付ける手段１０５と、話者毎の特徴量から話者の話者モデルを作成する手段１０６と、認識対象となる発話時間である第３区間を取得する手段１０８と、第２区間が第３区間に含まれる場合に第２区間の音声波形から話者を特徴付ける第２特徴量を抽出する手段１０９と、話者毎の話者モデルの特徴量と第２特徴量との類似度を計算する手段１１０と、類似度のうち、設定条件の話者モデルの話者名を出演者として認識する手段１１１と、を具備する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、受信した映像だけから出演者が登場しているシーンに人物名を付与することができる人物名付与装置および方法に関する。
【背景技術】
【０００２】
音楽番組では、複数の出演者が順にトークや演奏を行なう場合があるが、ＨＤＤレコーダ等に録画した音楽番組に対してユーザーが見たい出演者のシーンの映像を再生したいという要望がある。シーン毎に出演者の出演者名が付与されていると、ユーザーが見たい出演者のシーンを選択することが容易になる。このような視聴を可能とする従来技術として、受信し記録した番組から顔画像を検出し、予め顔画像データベースに記憶した顔画像と照合を行って当該顔画像に対応する人物を識別して、識別した情報を、当該人物の番組における登場時間を反映したポイントとともに登場人物データベースとして管理し、ユーザーが番組の視聴を所望する際には、登場人物データベースおよびポイントを参照して、登場人物が出演している割合を算出し、高い順に提示する（例えば、特許文献１参照）。
【特許文献１】特開２００６−３３６５９公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
しかしながら、上述した従来技術を用いて所望の出演者の場面を再生するには、顔画像データベースに人物名を別途登録しなければならず、新人や未知の人物が出演している場合はデータベースの更新が必要である。このように従来の方式では、顔画像あるいは音声データベースに人物名を別途登録しなければならず、新人が出演している場合はデータベースを更新する必要がある。
【０００４】
本発明は、このような事情を考慮してなされたもので、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与する人物名付与装置および方法を提供することを目的とする。
【課題を解決するための手段】
【０００５】
上述の課題を解決するため、本発明の人物名付与装置は、映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第１発話区間として取得する第１取得手段と、映像中の有音区間から発話を含む第２発話区間を取得する第２取得手段と、前記第２発話区間が前記第１発話区間に含まれる場合に該第２発話区間の音声波形から話者を特徴付ける第１特徴量を抽出し該第１発話区間に対応する話者名と該特徴量とを対応付ける対応付け手段と、話者毎の特徴量から話者の話者モデルを作成する作成手段と、話者名と話者モデルとを関連付けて記憶する記憶手段と、前記発話内容情報から、認識対象となる発話時間である第３発話区間を取得する第３取得手段と、前記第２発話区間が前記第３発話区間に含まれる場合に該第２発話区間の音声波形から話者を特徴付ける第２特徴量を抽出する抽出手段と、話者毎の話者モデルの特徴量と、前記第２特徴量との類似度を計算する計算手段と、前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識する認識手段と、を具備することを特徴とする。
【発明の効果】
【０００６】
本発明の人物名付与装置および方法によれば、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与することができる。
【発明を実施するための最良の形態】
【０００７】
以下、図面を参照しながら本発明の実施形態に係る人物名付与装置および方法について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
実施形態の人物名付与装置について図１を参照して説明する。
実施形態の人物名付与装置は、有音区間抽出部１０１、発話信頼性判定部１０２、話者情報取得部１０３、発話区間補正部１０４、話者特徴量抽出部１０５、話者モデル作成部１０６、話者モデル記憶部１０７、認識対象時間取得部１０８、認識特徴量抽出部１０９、類似度計算部１１０、認識部１１１を含む。
【０００８】
有音区間抽出部１０１は、映像の音声から設定されたシフト間隔で設定された区間幅の区間のうち、有音区間を抽出する。有音区間抽出部１０１の動作については後に図５を参照して説明する。
【０００９】
発話信頼性判定部１０２は、有音区間が観客音や音楽を含まない区間であるかどうかを判定し、観客音や音楽を含まない区間を第２発話区間として抽出する。発話信頼性判定部１０２の動作については後に図６を参照して説明する。
【００１０】
話者情報取得部１０３は、映像中の発話内容と発話時間からなる発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間からなる話者情報を取得する。発話内容情報は例えばクローズドキャプションであり後に図１２を参照して説明する。話者情報の一例は後に図１３を参照して説明する。話者情報取得部１０３の動作については後に図３を参照して説明し、より具体的な動作については後の具体例で説明する。発話区間補正部１０４は、話者情報取得部１０３が取得する話者情報に含まれる発話時間を補正して、話者名と話者の補正された発話時間とを話者特徴量抽出部１０５に渡す。以下、この補正された発話時間を第１発話区間と呼ぶ。発話区間補正部１０４の動作については後に図４を参照して説明し、より具体的な動作については後の具体例で説明する。
【００１１】
話者特徴量抽出部１０５は、話者情報の発話時間に対応する第１発話区間の音声波形から話者を特徴づける特徴量を抽出して話者名と特徴量を対応付ける。話者特徴量抽出部１０５の動作については後に図７を参照して説明し、より具体的な動作については後の具体例で説明する。
【００１２】
話者モデル作成部１０６は、話者特徴量抽出部１０５で抽出された話者毎の特徴量から話者の話者モデルを作成する。話者モデル作成部１０６の動作については後に図５を参照して説明する。
話者モデル記憶部１０７は、話者モデル作成部１０６が作成した話者毎の話者モデルを記憶する。
【００１３】
認識対象時間取得部１０８は、映像中の発話内容と発話時間からなる発話内容情報から、認識対象となる発話時間からなる認識対象時間情報を取得する。以下、この発話時間を第３発話区間と呼ぶ。認識対象時間取得部１０８の動作については後に図８を参照して説明し、より具体的な動作については後の具体例で説明する。
【００１４】
認識特徴量抽出部１０９は、認識対象時間情報の発話時間に対応する発話区間（第３発話区間）の音声波形から話者を特徴づける特徴量を抽出する。認識特徴量抽出部１０９の動作については後に図９を参照して説明し、より具体的な動作については後の具体例で説明する。
【００１５】
類似度計算部１１０は、話者モデル記憶部１０７が記憶している話者毎の話者モデルと、認識対象時間情報の発話時間に対応する発話区間（第３発話区間）毎の特徴量との類似度を計算する。類似度計算部１１０の動作については後に図９を参照して説明し、より具体的な動作については後の具体例で説明する。
【００１６】
認識部１１１は、類似度計算部１１０が計算した類似度のうちの設定した条件の話者モデルの話者名を出演者として判定し出力する。認識部１１１の動作については後に図９を参照して説明し、より具体的な動作については後の具体例で説明する。
【００１７】
次に、図１の人物名付与装置の動作（映像から話者を認識するまで）の一例について図２を参照して説明する。
始めに、話者情報取得部１０３が、映像中の発話内容と発話時間とからなる発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間（第１発話区間）とからなる話者情報を抽出する（ステップＳ２０１）。次に、発話区間補正部１０４が、話者情報に含まれる発話時間（第１発話区間）を補正する（ステップＳ２０２）。次に、話者モデル作成部１０６が、有音区間抽出部１０１および発話信頼性判定部１０２によって特定された映像中の音声の発話区間（第２発話区間）から話者毎の話者モデルを作成する（ステップＳ２０３）。更に、認識対象時間取得部１０８が、映像中の発話内容と発話時間からなる発話内容情報から、認識対象となる発話時間（第３発話区間）からなる認識対象時間情報を抽出する（ステップＳ２０４）。最後に、認識特徴量抽出部１０９が認識対象時間情報に含まれる発話時間に対応する発話区間（第３発話区間）の音声波形から特徴量を抽出し、類似度計算部１１０が第３発話区間毎の特徴量と話者毎の話者モデルの特徴量との類似度を計算し、認識部１１１が発話区間の話者名を判定する（ステップＳ２０５）。以下、それぞれのステップの詳細な動作について図面を参照して説明する。
【００１８】
次に、図２における話者情報を抽出する処理（ステップＳ２０１）の一例について図３を参照して説明する。ステップＳ２０１は話者情報取得部１０３が行う。
始めに、映像に付属している発話内容と発話時間からなる発話内容情報を取得する（ステップＳ３０１）。次に、発話内容情報の発話内容に話者名であることを示す話者名特定情報で特定された話者名が存在するかどうかを判定する（ステップＳ３０２）。ステップＳ３０２で、話者名特定情報で特定された話者名が存在しなければ、次の発話内容情報が存在するかどうかを判定する（ステップＳ３０４）。ステップＳ３０２で、話者名特定情報で特定された話者名が存在すれば、話者名と発話内容の発話時間とを対応付け（ステップＳ３０３）、次の発話内容情報が存在するかどうかを判定する（ステップＳ３０４）。ステップＳ３０４で次の発話内容情報が存在すればステップＳ３０１に戻り次の発話内容情報を取得し、次の発話内容情報が存在しなければ動作を終了する。
【００１９】
次に、図２の発話時間を補正する処理（ステップＳ２０２）の一例について図４を参照して説明する。ステップＳ２０２は発話区間補正部１０４が行う。
始めに、映像から発話内容情報を取得する（ステップＳ３０１）。発話内容情報に含まれる発話内容から話者名を除いた台詞内容を形態素解析し、読みを付与する（ステップＳ４０１）。次に、台詞内容の読みを音声認識の文法に設定する（ステップＳ４０２）。映像から発話内容情報に含まれる発話時間に対応する音声を取得する（ステップＳ４０３）。ステップＳ４０３で取得した音声を音声認識し（ステップＳ４０４）、発話内容情報に含まれる発話時間を音声認識結果による発話時間（第１発話区間）の時間情報に置換する（ステップＳ４０５）。次の発話内容情報が存在すればステップＳ３０１に戻り、存在しなければ動作を終了する（ステップＳ４０６）。
【００２０】
次に、図２における話者モデルを作成する処理（ステップＳ２０３）の一例について図５を参照して説明する。
始めに、有音区間抽出部１０１および発話信頼性判定部１０２が映像中の音声の発話区間（第２発話区間）を抽出する（ステップＳ５０１）。次に、話者特徴量抽出部１０５が話者情報に含まれる発話時間に対応する発話区間が補正された第１発話区間の音声波形から話者の特徴量を抽出し、話者情報に含まれる話者名と特徴量を対応付ける（ステップＳ５０２）。次に、話者モデル作成部１０６が話者名に対応付けた特徴量を話者毎に話者モデルとして作成する（ステップＳ５０３）。最後に、話者モデル記憶部１０７が話者毎の話者モデルを記憶する（ステップＳ５０４）。話者名と対応付けた特徴量に対して話者毎に話者モデルとして作成する処理（ステップＳ５０３）では、“Y. Linde, A. Buzo, and R. M. Gray “An algorithm for vector quantizer design” IEEE Trans. Commun. vol. COM-28, no. 1, pp. 84-95, Jan. 1980.”に用いられているＶＱモデル、あるいは“Reynolds, D. A., Rose, R. C. “Robust text-independent speaker identification using Gaussian Mixture Speaker Models” IEEE Tans. Speech and Audio Processing. Vol. 3 no. 1, pp. 72-83, Jan. 1995.”に用いられているＧＭＭモデル等を用いて話者の特徴量を作成し、話者毎に話者モデルを記憶する（ステップＳ５０４）。この時、話者情報の発話時間に対応する全ての発話区間の総時間が閾値以上の話者のみ、話者モデルを作成してもよい。
【００２１】
ステップＳ５０１、ステップＳ５０２の詳細な動作については以下に示す。
【００２２】
次に、図５における映像中の音声の発話区間（第２発話区間）を抽出する処理（ステップＳ５０１）の一例について図６を参照して説明する。
始めに、有音区間抽出部１０１が映像中の音声区間を取得する（ステップＳ６０１）。例えば、映像中の音声から設定したフレーム時間の音声を取得する。次に、有音区間抽出部１０１がステップＳ６０１で取得された音声区間が有音区間であるかどうかを判定する（ステップＳ６０２）。有音区間の判定はＦＦＴにより得られるパワースペクトルの平均が閾値以上のフレームを有音フレームと判定する等、有音区間を判定する方法であれば既存のいかなる方法を用いてもよい。
【００２３】
ステップＳ６０２で有音区間であると判定されれば、発話信頼性判定部１０２が、この有音区間が笑い声、拍手、歓声等の観客音または音楽を含む区間であるかどうかを判定する（ステップＳ６０３）。例えば、信頼性のある有音フレームを抽出する。有音フレームが笑い声、拍手、歓声等の観客音または音楽を含んでいなければ、信頼性があると判定し、抽出する。観客音を判定する方法は、例えば左右チャンネル間差分によりアナウンサーや解説者の音声を除去した差分音声のパワースペクトルの特徴量と観客音モデル特徴量との相関をとって閾値以上の区間を観客音区間とする。観客音の判定は上記の方法に限らず、特開平０９−２０６２９１公報に記載の方法等、既存のいかなる方法を用いてもよい。音楽を判定する方法は、例えば、スペクトルのピークが周波数方向に時間的に安定していれば音楽区間とする。音楽の判定は上記の方法に限らず、特開平１０−３０７５８０公報に記載の方法等、既存のいかなる方法を用いてもよい。
【００２４】
ステップＳ６０３で観客音または音楽を含む区間ではないと判定されれば、発話信頼性判定部１０２が有音区間を第２発話区間として抽出し（ステップＳ６０４）、次の音声区間が存在するかどうかを判定する（ステップＳ６０５）。例えば、有音フレームを発話区間として抽出し、設定したシフト幅にシフトした音声フレームが存在するかどうかを判定する。次の音声区間が存在すると判定されればステップＳ６０１に戻り、次の音声区間が存在しないと判定されれば動作を終了する。
【００２５】
次に、図５における話者情報の発話時間に対応する発話区間が補正された第１発話区間の音声波形から話者の特徴量を抽出し、話者名と特徴量を対応付ける処理（ステップＳ５０２）の一例について図７を参照して説明する。ステップＳ５０２は話者特徴量抽出部１０５が行う。
始めに、発話信頼性判定部１０２から第２発話区間を取得する（ステップＳ７０１）。次に、発話区間補正部１０４から話者情報の話者名と第１発話区間を取得する（ステップＳ７０２）。次に、図７のステップＳ７０１で取得した第２発話区間がステップＳ７０２で取得した第１発話区間内であるかどうかを判定する（ステップＳ７０３）。第２発話区間が第１発話区間内であると判定されれば、第２発話区間の特徴量を抽出し（ステップＳ７０４）、ステップＳ７０４で取得した特徴量と話者名とを対応付け（ステップＳ７０５）、次の話者情報が存在するかどうかを判定する（ステップＳ７０６）。次の話者情報が存在すると判定されれば、ステップＳ７０２に戻る。次の話者情報が存在しないと判定されれば、次の第２発話区間が存在するかどうかを判定する（ステップＳ７０７）。次の第２発話区間が存在すると判定されればステップＳ７０１に戻り、次の第２発話区間が存在しないと判定されれば動作を終了する。
【００２６】
次に、図２における認識対象時間情報を抽出する処理（ステップＳ２０４）の一例について図８を参照して説明する。ステップＳ２０４は認識対象時間取得部１０８が行う。
始めに、映像に付属している発話内容と発話時間からなる発話内容情報を取得する（ステップＳ３０１）。次に、発話内容が発話でないことを示す情報かどうかを判定する（ステップＳ８０１）。発話でないことを示す情報ではないと判定されたならば、第３発話区間を取得する（ステップＳ８０２）。次の発話内容情報が存在するかどうかを判定する（ステップＳ８０３）。次の発話内容情報が存在すると判定されればステップＳ３０１に戻り、次の発話内容情報を取得する。次の発話内容情報が存在しないと判定されれば動作を終了する。
【００２７】
次に、図２における話者を認識する処理（ステップＳ２０５）の一例について図９を参照して説明する。
始めに、類似度計算部１１０が、その内部に含んでいる、最大類似度が第１閾値以上の回数をカウントする回数カウンタ（図示せず）を初期化する（ステップＳ９０１）。次に、認識特徴量抽出部１０９が第２発話区間を取得する（ステップＳ９０２）。次に、認識特徴量抽出部１０９が認識対象時間情報の第３発話区間を取得する（ステップＳ９０３）。認識特徴量抽出部１０９がステップＳ９０２で取得した第２発話区間が第３発話区間内であるかどうかを判定する（ステップＳ９０４）。第２発話区間が第３発話区間内であると判定されれば、認識特徴量抽出部１０９が第２発話区間の特徴量を抽出する（ステップＳ９０５）。第２発話区間が第３発話区間内でないと判定されれば、ステップＳ９１４に進む。
【００２８】
類似度計算部１１０がステップＳ９０５で抽出した特徴量と記憶している話者モデルの特徴量との類似度を計算する（ステップＳ９０６）。類似度計算部１１０が第１閾値以上の最大類似度の話者モデルが存在するかどうかを判定する（ステップＳ９０７）。類似度計算部１１０が、ステップＳ９０７で最大類似度の話者モデルが存在すると判定されれば、カウントしている話者モデルと同一かどうかを判定する（ステップＳ９０８）。類似度計算部１１０が、ステップＳ９０７で最大類似度の話者モデルが存在しないと判定された場合、もしくはステップＳ９０８で同一でないと判定された場合には、回数カウンタをリセットし（ステップＳ９０９）、カウントしている話者モデルを新たな話者モデルに設定する（ステップＳ９１０）。類似度計算部１１０がステップＳ９０８でカウントしている話者モデルと同一であると判定された場合、もしくはステップＳ９１０の後に、回数カウンタを更新する（ステップＳ９１１）。次に、類似度計算部１１０が、回数カウンタが設定された第２閾値以上かどうかを判定する（ステップＳ９１２）。
【００２９】
認識部１１１は、回数カウンタが第２閾値以上であると判定されれば、カウントしている話者モデルの出演者名と第２発話区間とを対応付ける（ステップＳ９１３）。回数カウンタが第２閾値以上でないと判定された場合はステップＳ９１３を省略しステップＳ９１４に進む。認識特徴量抽出部１０９が次の認識対象時間情報が存在するかどうかを判定する（ステップＳ９１４）。次の認識対象時間情報が存在すれると判定されればステップＳ９０３に戻る。認識特徴量抽出部１０９は、次の認識対象時間情報が存在しなければ、次の第２発話区間が存在するかどうかを判定する（ステップＳ９１５）。次の第２発話区間が存在すればステップＳ９０２に戻り、次の第２発話区間が存在しなければ動作を終了する。
【００３０】
次に、図９における第２発話区間の特徴量を取得する処理（ステップＳ９０５）の動作について図１０を参照して説明する。ステップＳ９０５は認識特徴量抽出部１０９が行う。
始めに、発話信頼性判定部１０２から第２発話区間を取得する（ステップＳ７０１）。次に、認識対象時間取得部１０８から第３発話区間を取得する（ステップＳ１００１）。次に、図９のステップＳ７０１で取得した第２発話区間がステップＳ１００１で取得した第３発話区間内であるかどうかを判定する（ステップＳ１００２）。第２発話区間が第３発話区間内であると判定されれば、第２発話区間の特徴量を抽出する（ステップＳ１００３）。次の第２発話区間が存在するかどうかを判定する（ステップＳ１００４）。次の第２発話区間が存在すると判定されれば図１０のステップＳ７０１に戻り、次の第２発話区間が存在しないと判定されれば動作を終了する。
【００３１】
次に、図９における抽出した特徴量と記憶している話者モデルの特徴量との類似度を計算し、閾値以上の最大類似度の話者モデルを識別する処理（ステップＳ９０６）の一例について図１１を参照して説明する。ステップＳ９０６は類似度計算部１１０が行う。
始めに、話者モデル記憶部１０７から話者モデルを取得する（ステップＳ１００１）。次に、ステップＳ９０５で抽出した第２発話区間の特徴量と話者モデル毎の特徴量との、予め設定された区間数分の平均類似度を計算する（ステップＳ１１０２）。ここで区間数の区間は、抽出された特徴量の第２発話区間のことを示す。
【００３２】
類似度計算部１１０は、抽出した特徴量と話者モデルの特徴量との、予め設定された区間数分の平均類似度を計算する（Ｓ７０２）。類似度計算部１１０は、区間数分の特徴量を保持しておき、新たな特徴量の入力に対して平均類似度を求める。例えば、話者モデルの作成にＶＱモデルを用いている場合は、過去の設定されたフレーム数のＶＱ歪を考える。ＶＱ歪は、抽出した特徴量と話者モデルの特徴量との相違度（抽出した特徴量と話者モデルの特徴量との距離）を示す。したがって、ＶＱ歪の逆数は類似度に対応する。抽出した特徴量と、予め設定された区間数分の話者モデル毎の特徴量とのＶＱ歪（相違度）の総和を区間数で除算した値の逆数をとることによって平均類似度を求める。
【００３３】
次に平均類似度が設定された閾値以上であるかどうかを判定する（ステップＳ１１０３）。平均類似度が閾値以上であると判定されれば、平均類似度が話者モデルのうちの最大値かどうかを判定する（ステップＳ１１０４）。最大値であると判定されれば最大値の平均類似度を更新し（ステップＳ１１０５）、最大値の話者モデルを設定する（ステップＳ１１０６）。次の話者モデルが存在するかどうかを判定する（ステップＳ１００７）。話者モデルが存在すれば、ステップＳ１１０１に戻り、存在しなければ動作を終了する。
【００３４】
（具体的動作例）
以下、上記の発話内容情報がクローズドキャプションである場合の人物名付与装置の具体的な動作例について説明する。クローズドキャプションの一例を図１２に示す。
デジタル放送のプロトコルであるＭＰＥＧ２−ＴＳでは、オーディオ／ビデオ以外に放送用途に必要な各種データ（クローズドキャプション、ＥＰＧ、ＢＭＬ等）の多重伝送が可能になっている。クローズドキャプションは難聴者のテレビ視聴を支援するために出演者の発話内容を発話時間等とともにテキストデータで送信されたものである。
【００３５】
クローズドキャプションでは、映像に複数の出演者が映っている場合や映像に発話者が映っていない場合等、どの出演者が発話しているかが映像だけでは判別できない場合に括弧等の記号で括られた出演者名が発話内容の前に書かれてある場合がある。しかし、クローズドキャプションの全ての発話内容に出演者名が含まれているわけではないので、クローズドキャプションのみではどのシーンどの出演者が発話しているかを全て把握できるとは限らない。
【００３６】
図３に示すフローチャートを用いて図２の話者情報を抽出する処理（ステップＳ２０１）を説明する。
始めに、話者情報取得部１０３が、発話内容と発話時間からなるクローズドキャプションを取得する（ステップＳ３０１）。例えば、地上デジタル放送に含まれるクローズドキャプションに関しては、社団法人電波産業界が定める「デジタル放送におけるデータ放送符号化方式と伝送方式標準規格（ＡＲＩＢＳＴＤ−Ｂ２４）」に基づき伝送される。クローズドキャプションの伝送にはＰＥＳ（Packetized Elementary Stream）フォーマットが用いられ、この中には表示指示時刻と字幕文データが含まれる。また、字幕文データには、表示すべき文字情報と画面制御・文字位置移動といった制御記号が含まれる。ステップＳ２０１では、表示指示時刻を用いてクローズドキャプション表示の開始時刻を算出する。また終了時刻を、画面制御による画面消去指示が発生した時刻、もしくは次の表示内容が存在するクローズドキャプションの表示指示時刻のどちらか早い時刻とすることにより、「開始時刻，終了時刻，発話内容」の３つ組を取得することができる。
【００３７】
図１２は、伝送されてくるクローズドキャプションを上記の３つ組を用いて模式的に表したものである。最初に図１２に従って「００：０４：４６．０６７，００：０４：５０．３８９，（兵田）宇多畑光さんです！」が取得された場合、話者情報取得部１０３がクローズドキャプションの発話内容に話者名であることを示す話者名特定情報で特定された話者名が存在するかどうかを判定する（ステップＳ３０２）。この場合話者名であることを示す括弧記号で括られた「兵田」が存在するので、話者名「兵田」と発話時間「００：０４：４６．０６７，００：０４：５０．３８９」とを対応付ける（ステップＳ３０３）。次のクローズドキャプションが存在するかを判定する（ステップＳ３０４）。
【００３８】
図１２の例では次のクローズドキャプションが存在するのでステップＳ３０１に戻り、クローズドキャプション「００：０４：５０．３８９，００：０４：５５．７２８，もう１年ぐらい前ですよボウリング対決やって以来。」を取得する（ステップＳ３０１）。話者名であることを示す括弧記号で括られた話者名が存在するかどうかを判定する（ステップＳ３０２）。この場合、括弧記号で括られた話者名が存在しないので、次のクローズドキャプションが存在するかを判定する（ステップＳ３０４）。これらのステップをクローズドキャプションが存在しなくなるまで処理する。括弧記号で括られた話者名が発話内容に複数出現した場合には、発話時間を話者名数で分割してそれぞれの時間に話者名を対応付けてもよいし、話者名と発話時間の対応付けを行なわないとしてもよい。
【００３９】
話者情報の例を図１３に示す。なお、話者名はＥＰＧ（Electronic Program Guide）の出演者名情報を利用してフルネームに補正している。発話区間補正部１０４が行う発話時間を補正する処理（ステップＳ２０２）では、クローズドキャプションの発話時間を補正する。クローズドキャプションでは、発話内容が短い場合に表示時間を他の発話内容と揃えるために、実際の発話時間よりも長い発話時間にしている場合がある。そのため、発話時間を実際の発話時間に補正する処理を行なう。
【００４０】
音声認識により音声を認識し、認識結果とクローズドキャプションの発話内容を比較し、発話内容と音声認識結果とが同一であれば、音声が認識された時間に発話内容情報の発話時間を補正する。音声認識の方法は、例えば、記憶しておいた認識対象とする単語の各音声モデルと、音声の特徴パラメータ系列との類似度あるいは距離を求め、類似度が最大（あるいは距離が最小）の音声モデルと対応付けられた単語を認識結果として出力する。照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、ＤＰ（動的計画法）で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める方法や、ＨＭＭ（隠れマルコフモデル）を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する方法等がある。音声認識の方法は上記に限らず、映像から音声を認識し、音声出現区間を検出する機能を有する方法であれば、既存のいかなる音声認識方法を用いてもよい。
【００４１】
次に、図７を用いて図５における話者名毎の特徴を抽出する処理（Ｓ３０２）を説明する。話者特徴量抽出部１０５は、始めに、ステップＳ５０１で抽出した第２発話区間である音声フレームを取得する（ステップＳ７０１）。次に話者情報の話者名と発話時間（第１発話区間）を取得する（ステップＳ７０２）。図１３に示した話者情報の場合、話者名「兵田雅力」と発話時間「００：０４：４６．０６７，００：０４：５０．３８９」を取得する（ステップＳ７０２）。次にステップＳ７０１で取得した第２発話区間が、ステップＳ７０２で取得した第１発話区間内であるかどうかを判定する（ステップＳ７０３）。音声フレーム（第２発話区間）が発話時間（第１発話区間）内であれば、音声フレームの特徴量を抽出する（ステップＳ７０４）。特徴量はＬＰＣケプストラムやＭＦＣＣ等、話者毎の分類を目的とする音響特徴量であればよい。次に、ステップＳ７０２で取得した話者名「兵田雅力」と特徴量を対応付ける（ステップＳ７０５）。次の話者情報が存在するかどうかを判定する（ステップＳ７０６）。次の話者情報が存在すれば、ステップＳ７０２に戻る。図１３では、次の話者情報が存在するので、次の話者情報である話者名「公本人士」と発話時間「００：０４：５５．７２８，００：０４：５８．７４７」を取得する（ステップＳ７０２）。同様にして音声フレーム（第２発話区間）が発話時間（第１発話区間）内であれば、音声フレームの特徴を抽出し、話者情報の最後まで、ステップＳ７０２からステップＳ７０６を繰り返す。ステップＳ７０６において、次の話者情報が存在しなければ、次の音声フレームが存在するかどうかを判定する（ステップＳ７０７）。音声フレームが存在すれば、ステップＳ７０１に戻り、次の音声フレームを取得し、話者情報の先頭からステップＳ７０２からステップＳ７０６を繰り返す。音声フレームが存在しなくなるまで、これらのステップを繰り返す。
【００４２】
次に図８を用いて、図２の認識対象時間情報を抽出する処理（ステップＳ２０４）を説明する。ステップＳ２０４は認識対象時間取得部１０８が行う。
クローズドキャプションでは、音楽やＣＭ等の発話がない場合は発話時間が省略されるか、発話でないないことを示す情報が発話内容に記されている。始めに、クローズドキャプションの発話内容と発話時間を取得する（ステップＳ３０１）。図１２では、「００：０４：４６．０６７，００：０４：５０．３８９，（兵田）宇多畑光さんです！」を取得する。次に、発話内容が発話でないことを示す情報かどうかを判定する（ステップＳ８０１）。発話でないことを示す情報ではないならば、発話時間（第３発話区間）を取得する（ステップＳ８０２）。発話でないことを示す情報ではないので、発話時間「００：０４：４６．０６７，００：０４：５０．３８９」を取得する。次のクローズドキャプションが存在するかを判定する（ステップＳ８０３）。
【００４３】
次のクローズドキャプションが存在すれば、ステップＳ３０１に戻り、次のクローズドキャプション「００：０４：５０．３８９，００：０４：５５．７２８，もう１年ぐらい前ですよボウリング対決やって以来。」を取得する。次に、発話内容が発話でないことを示す情報かどうかを判定する（ステップＳ８０１）。発話でないことを示す情報ではないならば、発話時間（第３発話区間）を取得する（ステップＳ８０２）。発話でないことを示す情報ではないので、発話時間「００：０４：５０．３８９，００：０４：５５．７２８」を取得する。次のクローズドキャプションが存在するかを判定する（ステップＳ８０３）。次のクローズドキャプションが存在しなくなるまで、ステップＳ３０１からステップＳ８０３のステップを繰り返す。認識対象時間情報を抽出した結果の例を図１４に示す。認識対象時間情報を抽出する処理は、映像中の音声の全ての時間を認識対象時間としてもよい。
【００４４】
次に図９および図１１を用いて、図２における話者を認識する処理（ステップＳ２０５）を説明する。
始めに、類似度計算部１１０が最大類似度が閾値以上の回数をカウントする回数カウンタを「０」に設定する（ステップＳ９０１）。次に認識特徴量抽出部１０９が音声フレーム（第２発話区間）を取得する（ステップＳ９０２）。次に認識特徴量抽出部１０９が認識対象時間情報の発話時間（第３発話区間）を取得する（ステップＳ９０３）。図１４の例では、認識対象時間「００：０４：４６．０６７，００：０４：５０．３８９」を取得する。認識特徴量抽出部１０９が取得した音声フレームが発話時間内であるかどうかを判定する（ステップＳ９０４）。認識特徴量抽出部１０９が音声フレームが発話時間内であれば、音声フレームの特徴量を抽出する（ステップＳ９０５）。この時、話者名毎の特徴を抽出する処理（ステップＳ５０２）で用いた算出方法で特徴量を抽出する。
【００４５】
類似度計算部１１０が抽出した特徴量に対して記憶している話者モデルとの類似度を計算し、閾値以上の最大類似度の話者モデルを識別する（ステップＳ９０６）。類似度計算部１１０が閾値以上の最大類似度の話者モデルが存在するかどうかを判定する（ステップＳ９０７）。類似度計算部１１０が最大類似度の話者モデルが存在すれば、カウントしている話者モデルと同一かを判定する（ステップＳ９０８）。類似度計算部１１０が、同一でなければ回数カウンタを「０」にリセットし（ステップＳ９０９）、カウントしている話者モデルを新たな話者モデルに設定する（ステップＳ９１０）。類似度計算部１１０がカウントしている話者モデルと同一であれば回数カウンタを「１」増加する（ステップＳ９１１）。次に類似度計算部１１０が回数カウンタが設定された閾値以上かどうかを判定する（ステップＳ９１２）。
【００４６】
認識部１１１は、回数カウンタが閾値以上であれば、カウントしている話者モデルの出演者名と音声区間を対応付ける（ステップＳ９１３）。認識特徴量抽出部１０９が次の認識対象時間情報が存在するかどうかを判定する（ステップＳ９１４）。次の認識対象時間情報が存在すれば、ステップＳ９０３に戻る。図１４では、認識対象時間「００：０４：５０．３８９，００：０４：５５．７２８」を取得する。次の認識対象時間情報が存在しなければ、認識特徴量抽出部１０９が次の音声フレームが存在するかどうかを判定する（ステップＳ９１５）。次の音声フレームが存在すればステップＳ９０２に戻り、次の音声フレームが存在しなければ動作を終了する。
【００４７】
以上に示した実施形態によれば、映像中の音声から話者モデルを作成することによって、音声データベースの更新が不要になり、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与することができる。また、音声と文字情報だけを利用することによって処理時間を短縮できる。
【００４８】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【００４９】
【図１】実施形態の人物名付与装置のブロック図。
【図２】図１の人物名付与装置の動作の一例を示すフローチャート。
【図３】図２のステップＳ２０１を示すフローチャート。
【図４】図２のステップＳ２０２を示すフローチャート。
【図５】図２のステップＳ２０３を示すフローチャート。
【図６】図５のステップＳ５０１を示すフローチャート。
【図７】図５のステップＳ５０２を示すフローチャート。
【図８】図２のステップＳ２０４を示すフローチャート。
【図９】図２のステップＳ２０５を示すフローチャート。
【図１０】図９のステップＳ９０５を示すフローチャート。
【図１１】図９のステップＳ９０６を示すフローチャート。
【図１２】発話内容情報であるクローズドキャプションの一例を示す図。
【図１３】話者情報の一例を示す図。
【図１４】図１の認識対象時間取得部が図１２の発話内容情報から取得する認識対象時間情報を示す図。
【符号の説明】
【００５０】
１０１・・・有音区間抽出部、１０２・・・発話信頼性判定部、１０３・・・話者情報取得部、１０４・・・発話区間補正部、１０５・・・話者特徴量抽出部、１０６・・・話者モデル作成部、１０７・・・話者モデル記憶部、１０８・・・認識対象時間取得部、１０９・・・認識特徴量抽出部、１１０・・・類似度計算部、１１１・・・認識部。

【特許請求の範囲】
【請求項１】
映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第１発話区間として取得する第１取得手段と、
映像中の有音区間から発話を含む第２発話区間を取得する第２取得手段と、
前記第２発話区間が前記第１発話区間に含まれる場合に該第２発話区間の音声波形から話者を特徴付ける第１特徴量を抽出し該第１発話区間に対応する話者名と該特徴量とを対応付ける対応付け手段と、
話者毎の特徴量から話者の話者モデルを作成する作成手段と、
話者名と話者モデルとを関連付けて記憶する記憶手段と、
前記発話内容情報から、認識対象となる発話時間である第３発話区間を取得する第３取得手段と、
前記第２発話区間が前記第３発話区間に含まれる場合に該第２発話区間の音声波形から話者を特徴付ける第２特徴量を抽出する抽出手段と、
話者毎の話者モデルの特徴量と、前記第２特徴量との類似度を計算する計算手段と、
前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識する認識手段と、を具備することを特徴とする人物名付与装置。
【請求項２】
前記話者情報に含まれる発話時間を補正して補正された発話時間を前記第１発話区間として設定する設定手段をさらに具備し、
前記第２取得手段は、映像中の音声から設定された区間幅の区間から、設定されたシフト間隔で前記有音区間を抽出する抽出手段と、
前記有音区間から発話でない区間を除いた第２発話区間を取得する取得手段と、を含むことを特徴とする請求項１に記載の人物名付与装置。
【請求項３】
前記取得手段は、前記有音区間から観客音を含む区間を信頼性の無い区間として判定し該区間を前記第２発話区間として取得しないことを特徴とする請求項２に記載の人物名付与装置。
【請求項４】
前記取得手段は、前記有音区間から音楽を含む区間を信頼性の無い区間として判定し該区間を前記第２発話区間として取得しないことを特徴とする請求項２に記載の人物名付与装置。
【請求項５】
前記設定手段は、前記発話内容情報に含まれる発話内容と映像中の音声の音声認識結果とを比較し、該発話内容と該音声認識結果とが同一であれば、音声が認識された時間に発話内容情報の発話時間を補正することを特徴とする請求項２に記載の人物名付与装置。
【請求項６】
前記第１取得手段は、前記発話内容情報としてクローズドキャプションから前記話者情報を取得することを特徴とする請求項１から請求項５のいずれか１項に記載の人物名付与装置。
【請求項７】
前記第１取得手段は、１つの発話内容に複数の話者名が出現した場合に発話時間を話者名の数で分割して話者名毎に話者名と発話時間との対応付けることを特徴とする請求項６に記載の人物名付与装置。
【請求項８】
前記第１取得手段は、１つの発話内容に複数の話者名が出現した場合に前記第１発話区間を取得しないことを特徴とする請求項６に記載の人物名付与装置。
【請求項９】
前記作成手段は、前記第１発話区間の総時間が閾値以上の話者に対してのみ、話者モデルを作成することを特徴とする請求項１から請求項８のいずれか１項に記載の人物名付与装置。
【請求項１０】
映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第１発話区間として取得し、
映像中の有音区間から発話を含む第２発話区間を取得し、
前記第２発話区間が前記第１発話区間に含まれる場合に該第２発話区間の音声波形から話者を特徴付ける第１特徴量を抽出し該第１発話区間に対応する話者名と該特徴量とを対応付け、
話者毎の特徴量から話者の話者モデルを作成し、
話者名と話者モデルとを関連付けて記憶する記憶手段を用意し、
前記発話内容情報から、認識対象となる発話時間である第３発話区間を取得し、
前記第２発話区間が前記第３発話区間に含まれる場合に該第２発話区間の音声波形から話者を特徴付ける第２特徴量を抽出し、
話者毎の話者モデルの特徴量と、前記第２特徴量との類似度を計算し、
前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識することを特徴とする人物名付与方法。
【請求項１１】
前記話者情報に含まれる発話時間を補正して補正された発話時間を前記第１発話区間として設定することをさらに具備し、
前記第２発話区間を取得することは、映像中の音声から設定された区間幅の区間から、設定されたシフト間隔で前記有音区間を抽出し、前記有音区間から発話でない区間を除いた第２発話区間を取得することを含むことを特徴とする請求項１０に記載の人物名付与方法。

【図１】