人物名付与装置および方法
【課題】受信した映像だけから所望の出演者が登場しているシーンを特定する。
【解決手段】話者名を示す情報で特定された話者名と話者の発話時間とを含む話者時間を第1区間として取得する手段103と、映像中の有音区間から発話を含む第2区間を取得する手段101と、第2区間が第1区間に含まれる場合に第2区間の音声波形から話者を特徴付ける第1特徴量を抽出し第1区間に対応する話者名と特徴量とを対応付ける手段105と、話者毎の特徴量から話者の話者モデルを作成する手段106と、認識対象となる発話時間である第3区間を取得する手段108と、第2区間が第3区間に含まれる場合に第2区間の音声波形から話者を特徴付ける第2特徴量を抽出する手段109と、話者毎の話者モデルの特徴量と第2特徴量との類似度を計算する手段110と、類似度のうち、設定条件の話者モデルの話者名を出演者として認識する手段111と、を具備する。
【解決手段】話者名を示す情報で特定された話者名と話者の発話時間とを含む話者時間を第1区間として取得する手段103と、映像中の有音区間から発話を含む第2区間を取得する手段101と、第2区間が第1区間に含まれる場合に第2区間の音声波形から話者を特徴付ける第1特徴量を抽出し第1区間に対応する話者名と特徴量とを対応付ける手段105と、話者毎の特徴量から話者の話者モデルを作成する手段106と、認識対象となる発話時間である第3区間を取得する手段108と、第2区間が第3区間に含まれる場合に第2区間の音声波形から話者を特徴付ける第2特徴量を抽出する手段109と、話者毎の話者モデルの特徴量と第2特徴量との類似度を計算する手段110と、類似度のうち、設定条件の話者モデルの話者名を出演者として認識する手段111と、を具備する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、受信した映像だけから出演者が登場しているシーンに人物名を付与することができる人物名付与装置および方法に関する。
【背景技術】
【0002】
音楽番組では、複数の出演者が順にトークや演奏を行なう場合があるが、HDDレコーダ等に録画した音楽番組に対してユーザーが見たい出演者のシーンの映像を再生したいという要望がある。シーン毎に出演者の出演者名が付与されていると、ユーザーが見たい出演者のシーンを選択することが容易になる。このような視聴を可能とする従来技術として、受信し記録した番組から顔画像を検出し、予め顔画像データベースに記憶した顔画像と照合を行って当該顔画像に対応する人物を識別して、識別した情報を、当該人物の番組における登場時間を反映したポイントとともに登場人物データベースとして管理し、ユーザーが番組の視聴を所望する際には、登場人物データベースおよびポイントを参照して、登場人物が出演している割合を算出し、高い順に提示する(例えば、特許文献1参照)。
【特許文献1】特開2006−33659公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述した従来技術を用いて所望の出演者の場面を再生するには、顔画像データベースに人物名を別途登録しなければならず、新人や未知の人物が出演している場合はデータベースの更新が必要である。このように従来の方式では、顔画像あるいは音声データベースに人物名を別途登録しなければならず、新人が出演している場合はデータベースを更新する必要がある。
【0004】
本発明は、このような事情を考慮してなされたもので、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与する人物名付与装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
上述の課題を解決するため、本発明の人物名付与装置は、映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第1発話区間として取得する第1取得手段と、映像中の有音区間から発話を含む第2発話区間を取得する第2取得手段と、前記第2発話区間が前記第1発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第1特徴量を抽出し該第1発話区間に対応する話者名と該特徴量とを対応付ける対応付け手段と、話者毎の特徴量から話者の話者モデルを作成する作成手段と、話者名と話者モデルとを関連付けて記憶する記憶手段と、前記発話内容情報から、認識対象となる発話時間である第3発話区間を取得する第3取得手段と、前記第2発話区間が前記第3発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第2特徴量を抽出する抽出手段と、話者毎の話者モデルの特徴量と、前記第2特徴量との類似度を計算する計算手段と、前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識する認識手段と、を具備することを特徴とする。
【発明の効果】
【0006】
本発明の人物名付与装置および方法によれば、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与することができる。
【発明を実施するための最良の形態】
【0007】
以下、図面を参照しながら本発明の実施形態に係る人物名付与装置および方法について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
実施形態の人物名付与装置について図1を参照して説明する。
実施形態の人物名付与装置は、有音区間抽出部101、発話信頼性判定部102、話者情報取得部103、発話区間補正部104、話者特徴量抽出部105、話者モデル作成部106、話者モデル記憶部107、認識対象時間取得部108、認識特徴量抽出部109、類似度計算部110、認識部111を含む。
【0008】
有音区間抽出部101は、映像の音声から設定されたシフト間隔で設定された区間幅の区間のうち、有音区間を抽出する。有音区間抽出部101の動作については後に図5を参照して説明する。
【0009】
発話信頼性判定部102は、有音区間が観客音や音楽を含まない区間であるかどうかを判定し、観客音や音楽を含まない区間を第2発話区間として抽出する。発話信頼性判定部102の動作については後に図6を参照して説明する。
【0010】
話者情報取得部103は、映像中の発話内容と発話時間からなる発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間からなる話者情報を取得する。発話内容情報は例えばクローズドキャプションであり後に図12を参照して説明する。話者情報の一例は後に図13を参照して説明する。話者情報取得部103の動作については後に図3を参照して説明し、より具体的な動作については後の具体例で説明する。 発話区間補正部104は、話者情報取得部103が取得する話者情報に含まれる発話時間を補正して、話者名と話者の補正された発話時間とを話者特徴量抽出部105に渡す。以下、この補正された発話時間を第1発話区間と呼ぶ。発話区間補正部104の動作については後に図4を参照して説明し、より具体的な動作については後の具体例で説明する。
【0011】
話者特徴量抽出部105は、話者情報の発話時間に対応する第1発話区間の音声波形から話者を特徴づける特徴量を抽出して話者名と特徴量を対応付ける。話者特徴量抽出部105の動作については後に図7を参照して説明し、より具体的な動作については後の具体例で説明する。
【0012】
話者モデル作成部106は、話者特徴量抽出部105で抽出された話者毎の特徴量から話者の話者モデルを作成する。話者モデル作成部106の動作については後に図5を参照して説明する。
話者モデル記憶部107は、話者モデル作成部106が作成した話者毎の話者モデルを記憶する。
【0013】
認識対象時間取得部108は、映像中の発話内容と発話時間からなる発話内容情報から、認識対象となる発話時間からなる認識対象時間情報を取得する。以下、この発話時間を第3発話区間と呼ぶ。認識対象時間取得部108の動作については後に図8を参照して説明し、より具体的な動作については後の具体例で説明する。
【0014】
認識特徴量抽出部109は、認識対象時間情報の発話時間に対応する発話区間(第3発話区間)の音声波形から話者を特徴づける特徴量を抽出する。認識特徴量抽出部109の動作については後に図9を参照して説明し、より具体的な動作については後の具体例で説明する。
【0015】
類似度計算部110は、話者モデル記憶部107が記憶している話者毎の話者モデルと、認識対象時間情報の発話時間に対応する発話区間(第3発話区間)毎の特徴量との類似度を計算する。類似度計算部110の動作については後に図9を参照して説明し、より具体的な動作については後の具体例で説明する。
【0016】
認識部111は、類似度計算部110が計算した類似度のうちの設定した条件の話者モデルの話者名を出演者として判定し出力する。認識部111の動作については後に図9を参照して説明し、より具体的な動作については後の具体例で説明する。
【0017】
次に、図1の人物名付与装置の動作(映像から話者を認識するまで)の一例について図2を参照して説明する。
始めに、話者情報取得部103が、映像中の発話内容と発話時間とからなる発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間(第1発話区間)とからなる話者情報を抽出する(ステップS201)。次に、発話区間補正部104が、話者情報に含まれる発話時間(第1発話区間)を補正する(ステップS202)。次に、話者モデル作成部106が、有音区間抽出部101および発話信頼性判定部102によって特定された映像中の音声の発話区間(第2発話区間)から話者毎の話者モデルを作成する(ステップS203)。更に、認識対象時間取得部108が、映像中の発話内容と発話時間からなる発話内容情報から、認識対象となる発話時間(第3発話区間)からなる認識対象時間情報を抽出する(ステップS204)。最後に、認識特徴量抽出部109が認識対象時間情報に含まれる発話時間に対応する発話区間(第3発話区間)の音声波形から特徴量を抽出し、類似度計算部110が第3発話区間毎の特徴量と話者毎の話者モデルの特徴量との類似度を計算し、認識部111が発話区間の話者名を判定する(ステップS205)。以下、それぞれのステップの詳細な動作について図面を参照して説明する。
【0018】
次に、図2における話者情報を抽出する処理(ステップS201)の一例について図3を参照して説明する。ステップS201は話者情報取得部103が行う。
始めに、映像に付属している発話内容と発話時間からなる発話内容情報を取得する(ステップS301)。次に、発話内容情報の発話内容に話者名であることを示す話者名特定情報で特定された話者名が存在するかどうかを判定する(ステップS302)。ステップS302で、話者名特定情報で特定された話者名が存在しなければ、次の発話内容情報が存在するかどうかを判定する(ステップS304)。ステップS302で、話者名特定情報で特定された話者名が存在すれば、話者名と発話内容の発話時間とを対応付け(ステップS303)、次の発話内容情報が存在するかどうかを判定する(ステップS304)。ステップS304で次の発話内容情報が存在すればステップS301に戻り次の発話内容情報を取得し、次の発話内容情報が存在しなければ動作を終了する。
【0019】
次に、図2の発話時間を補正する処理(ステップS202)の一例について図4を参照して説明する。ステップS202は発話区間補正部104が行う。
始めに、映像から発話内容情報を取得する(ステップS301)。発話内容情報に含まれる発話内容から話者名を除いた台詞内容を形態素解析し、読みを付与する(ステップS401)。次に、台詞内容の読みを音声認識の文法に設定する(ステップS402)。映像から発話内容情報に含まれる発話時間に対応する音声を取得する(ステップS403)。ステップS403で取得した音声を音声認識し(ステップS404)、発話内容情報に含まれる発話時間を音声認識結果による発話時間(第1発話区間)の時間情報に置換する(ステップS405)。次の発話内容情報が存在すればステップS301に戻り、存在しなければ動作を終了する(ステップS406)。
【0020】
次に、図2における話者モデルを作成する処理(ステップS203)の一例について図5を参照して説明する。
始めに、有音区間抽出部101および発話信頼性判定部102が映像中の音声の発話区間(第2発話区間)を抽出する(ステップS501)。次に、話者特徴量抽出部105が話者情報に含まれる発話時間に対応する発話区間が補正された第1発話区間の音声波形から話者の特徴量を抽出し、話者情報に含まれる話者名と特徴量を対応付ける(ステップS502)。次に、話者モデル作成部106が話者名に対応付けた特徴量を話者毎に話者モデルとして作成する(ステップS503)。最後に、話者モデル記憶部107が話者毎の話者モデルを記憶する(ステップS504)。話者名と対応付けた特徴量に対して話者毎に話者モデルとして作成する処理(ステップS503)では、“Y. Linde, A. Buzo, and R. M. Gray “An algorithm for vector quantizer design” IEEE Trans. Commun. vol. COM-28, no. 1, pp. 84-95, Jan. 1980.”に用いられているVQモデル、あるいは“Reynolds, D. A., Rose, R. C. “Robust text-independent speaker identification using Gaussian Mixture Speaker Models” IEEE Tans. Speech and Audio Processing. Vol. 3 no. 1, pp. 72-83, Jan. 1995.”に用いられているGMMモデル等を用いて話者の特徴量を作成し、話者毎に話者モデルを記憶する(ステップS504)。この時、話者情報の発話時間に対応する全ての発話区間の総時間が閾値以上の話者のみ、話者モデルを作成してもよい。
【0021】
ステップS501、ステップS502の詳細な動作については以下に示す。
【0022】
次に、図5における映像中の音声の発話区間(第2発話区間)を抽出する処理(ステップS501)の一例について図6を参照して説明する。
始めに、有音区間抽出部101が映像中の音声区間を取得する(ステップS601)。例えば、映像中の音声から設定したフレーム時間の音声を取得する。次に、有音区間抽出部101がステップS601で取得された音声区間が有音区間であるかどうかを判定する(ステップS602)。有音区間の判定はFFTにより得られるパワースペクトルの平均が閾値以上のフレームを有音フレームと判定する等、有音区間を判定する方法であれば既存のいかなる方法を用いてもよい。
【0023】
ステップS602で有音区間であると判定されれば、発話信頼性判定部102が、この有音区間が笑い声、拍手、歓声等の観客音または音楽を含む区間であるかどうかを判定する(ステップS603)。例えば、信頼性のある有音フレームを抽出する。有音フレームが笑い声、拍手、歓声等の観客音または音楽を含んでいなければ、信頼性があると判定し、抽出する。観客音を判定する方法は、例えば左右チャンネル間差分によりアナウンサーや解説者の音声を除去した差分音声のパワースペクトルの特徴量と観客音モデル特徴量との相関をとって閾値以上の区間を観客音区間とする。観客音の判定は上記の方法に限らず、特開平09−206291公報に記載の方法等、既存のいかなる方法を用いてもよい。音楽を判定する方法は、例えば、スペクトルのピークが周波数方向に時間的に安定していれば音楽区間とする。音楽の判定は上記の方法に限らず、特開平10−307580公報に記載の方法等、既存のいかなる方法を用いてもよい。
【0024】
ステップS603で観客音または音楽を含む区間ではないと判定されれば、発話信頼性判定部102が有音区間を第2発話区間として抽出し(ステップS604)、次の音声区間が存在するかどうかを判定する(ステップS605)。例えば、有音フレームを発話区間として抽出し、設定したシフト幅にシフトした音声フレームが存在するかどうかを判定する。次の音声区間が存在すると判定されればステップS601に戻り、次の音声区間が存在しないと判定されれば動作を終了する。
【0025】
次に、図5における話者情報の発話時間に対応する発話区間が補正された第1発話区間の音声波形から話者の特徴量を抽出し、話者名と特徴量を対応付ける処理(ステップS502)の一例について図7を参照して説明する。ステップS502は話者特徴量抽出部105が行う。
始めに、発話信頼性判定部102から第2発話区間を取得する(ステップS701)。次に、発話区間補正部104から話者情報の話者名と第1発話区間を取得する(ステップS702)。次に、図7のステップS701で取得した第2発話区間がステップS702で取得した第1発話区間内であるかどうかを判定する(ステップS703)。第2発話区間が第1発話区間内であると判定されれば、第2発話区間の特徴量を抽出し(ステップS704)、ステップS704で取得した特徴量と話者名とを対応付け(ステップS705)、次の話者情報が存在するかどうかを判定する(ステップS706)。次の話者情報が存在すると判定されれば、ステップS702に戻る。次の話者情報が存在しないと判定されれば、次の第2発話区間が存在するかどうかを判定する(ステップS707)。次の第2発話区間が存在すると判定されればステップS701に戻り、次の第2発話区間が存在しないと判定されれば動作を終了する。
【0026】
次に、図2における認識対象時間情報を抽出する処理(ステップS204)の一例について図8を参照して説明する。ステップS204は認識対象時間取得部108が行う。
始めに、映像に付属している発話内容と発話時間からなる発話内容情報を取得する(ステップS301)。次に、発話内容が発話でないことを示す情報かどうかを判定する(ステップS801)。発話でないことを示す情報ではないと判定されたならば、第3発話区間を取得する(ステップS802)。次の発話内容情報が存在するかどうかを判定する(ステップS803)。次の発話内容情報が存在すると判定されればステップS301に戻り、次の発話内容情報を取得する。次の発話内容情報が存在しないと判定されれば動作を終了する。
【0027】
次に、図2における話者を認識する処理(ステップS205)の一例について図9を参照して説明する。
始めに、類似度計算部110が、その内部に含んでいる、最大類似度が第1閾値以上の回数をカウントする回数カウンタ(図示せず)を初期化する(ステップS901)。次に、認識特徴量抽出部109が第2発話区間を取得する(ステップS902)。次に、認識特徴量抽出部109が認識対象時間情報の第3発話区間を取得する(ステップS903)。認識特徴量抽出部109がステップS902で取得した第2発話区間が第3発話区間内であるかどうかを判定する(ステップS904)。第2発話区間が第3発話区間内であると判定されれば、認識特徴量抽出部109が第2発話区間の特徴量を抽出する(ステップS905)。第2発話区間が第3発話区間内でないと判定されれば、ステップS914に進む。
【0028】
類似度計算部110がステップS905で抽出した特徴量と記憶している話者モデルの特徴量との類似度を計算する(ステップS906)。類似度計算部110が第1閾値以上の最大類似度の話者モデルが存在するかどうかを判定する(ステップS907)。類似度計算部110が、ステップS907で最大類似度の話者モデルが存在すると判定されれば、カウントしている話者モデルと同一かどうかを判定する(ステップS908)。類似度計算部110が、ステップS907で最大類似度の話者モデルが存在しないと判定された場合、もしくはステップS908で同一でないと判定された場合には、回数カウンタをリセットし(ステップS909)、カウントしている話者モデルを新たな話者モデルに設定する(ステップS910)。類似度計算部110がステップS908でカウントしている話者モデルと同一であると判定された場合、もしくはステップS910の後に、回数カウンタを更新する(ステップS911)。次に、類似度計算部110が、回数カウンタが設定された第2閾値以上かどうかを判定する(ステップS912)。
【0029】
認識部111は、回数カウンタが第2閾値以上であると判定されれば、カウントしている話者モデルの出演者名と第2発話区間とを対応付ける(ステップS913)。回数カウンタが第2閾値以上でないと判定された場合はステップS913を省略しステップS914に進む。認識特徴量抽出部109が次の認識対象時間情報が存在するかどうかを判定する(ステップS914)。次の認識対象時間情報が存在すれると判定されればステップS903に戻る。認識特徴量抽出部109は、次の認識対象時間情報が存在しなければ、次の第2発話区間が存在するかどうかを判定する(ステップS915)。次の第2発話区間が存在すればステップS902に戻り、次の第2発話区間が存在しなければ動作を終了する。
【0030】
次に、図9における第2発話区間の特徴量を取得する処理(ステップS905)の動作について図10を参照して説明する。ステップS905は認識特徴量抽出部109が行う。
始めに、発話信頼性判定部102から第2発話区間を取得する(ステップS701)。次に、認識対象時間取得部108から第3発話区間を取得する(ステップS1001)。次に、図9のステップS701で取得した第2発話区間がステップS1001で取得した第3発話区間内であるかどうかを判定する(ステップS1002)。第2発話区間が第3発話区間内であると判定されれば、第2発話区間の特徴量を抽出する(ステップS1003)。次の第2発話区間が存在するかどうかを判定する(ステップS1004)。次の第2発話区間が存在すると判定されれば図10のステップS701に戻り、次の第2発話区間が存在しないと判定されれば動作を終了する。
【0031】
次に、図9における抽出した特徴量と記憶している話者モデルの特徴量との類似度を計算し、閾値以上の最大類似度の話者モデルを識別する処理(ステップS906)の一例について図11を参照して説明する。ステップS906は類似度計算部110が行う。
始めに、話者モデル記憶部107から話者モデルを取得する(ステップS1001)。次に、ステップS905で抽出した第2発話区間の特徴量と話者モデル毎の特徴量との、予め設定された区間数分の平均類似度を計算する(ステップS1102)。ここで区間数の区間は、抽出された特徴量の第2発話区間のことを示す。
【0032】
類似度計算部110は、抽出した特徴量と話者モデルの特徴量との、予め設定された区間数分の平均類似度を計算する(S702)。類似度計算部110は、区間数分の特徴量を保持しておき、新たな特徴量の入力に対して平均類似度を求める。例えば、話者モデルの作成にVQモデルを用いている場合は、過去の設定されたフレーム数のVQ歪を考える。VQ歪は、抽出した特徴量と話者モデルの特徴量との相違度(抽出した特徴量と話者モデルの特徴量との距離)を示す。したがって、VQ歪の逆数は類似度に対応する。抽出した特徴量と、予め設定された区間数分の話者モデル毎の特徴量とのVQ歪(相違度)の総和を区間数で除算した値の逆数をとることによって平均類似度を求める。
【0033】
次に平均類似度が設定された閾値以上であるかどうかを判定する(ステップS1103)。平均類似度が閾値以上であると判定されれば、平均類似度が話者モデルのうちの最大値かどうかを判定する(ステップS1104)。最大値であると判定されれば最大値の平均類似度を更新し(ステップS1105)、最大値の話者モデルを設定する(ステップS1106)。次の話者モデルが存在するかどうかを判定する(ステップS1007)。話者モデルが存在すれば、ステップS1101に戻り、存在しなければ動作を終了する。
【0034】
(具体的動作例)
以下、上記の発話内容情報がクローズドキャプションである場合の人物名付与装置の具体的な動作例について説明する。クローズドキャプションの一例を図12に示す。
デジタル放送のプロトコルであるMPEG2−TSでは、オーディオ/ビデオ以外に放送用途に必要な各種データ(クローズドキャプション、EPG、BML等)の多重伝送が可能になっている。クローズドキャプションは難聴者のテレビ視聴を支援するために出演者の発話内容を発話時間等とともにテキストデータで送信されたものである。
【0035】
クローズドキャプションでは、映像に複数の出演者が映っている場合や映像に発話者が映っていない場合等、どの出演者が発話しているかが映像だけでは判別できない場合に括弧等の記号で括られた出演者名が発話内容の前に書かれてある場合がある。しかし、クローズドキャプションの全ての発話内容に出演者名が含まれているわけではないので、クローズドキャプションのみではどのシーンどの出演者が発話しているかを全て把握できるとは限らない。
【0036】
図3に示すフローチャートを用いて図2の話者情報を抽出する処理(ステップS201)を説明する。
始めに、話者情報取得部103が、発話内容と発話時間からなるクローズドキャプションを取得する(ステップS301)。例えば、地上デジタル放送に含まれるクローズドキャプションに関しては、社団法人 電波産業界が定める「デジタル放送におけるデータ放送符号化方式と伝送方式 標準規格(ARIB STD−B24)」に基づき伝送される。クローズドキャプションの伝送にはPES(Packetized Elementary Stream)フォーマットが用いられ、この中には表示指示時刻と字幕文データが含まれる。また、字幕文データには、表示すべき文字情報と画面制御・文字位置移動といった制御記号が含まれる。ステップS201では、表示指示時刻を用いてクローズドキャプション表示の開始時刻を算出する。また終了時刻を、画面制御による画面消去指示が発生した時刻、もしくは次の表示内容が存在するクローズドキャプションの表示指示時刻のどちらか早い時刻とすることにより、「開始時刻,終了時刻,発話内容」の3つ組を取得することができる。
【0037】
図12は、伝送されてくるクローズドキャプションを上記の3つ組を用いて模式的に表したものである。最初に図12に従って「00:04:46.067,00:04:50.389,(兵田)宇多畑光さんです!」が取得された場合、話者情報取得部103がクローズドキャプションの発話内容に話者名であることを示す話者名特定情報で特定された話者名が存在するかどうかを判定する(ステップS302)。この場合話者名であることを示す括弧記号で括られた「兵田」が存在するので、話者名「兵田」と発話時間「00:04:46.067,00:04:50.389」とを対応付ける(ステップS303)。次のクローズドキャプションが存在するかを判定する(ステップS304)。
【0038】
図12の例では次のクローズドキャプションが存在するのでステップS301に戻り、クローズドキャプション「00:04:50.389,00:04:55.728,もう 1年ぐらい前ですよボウリング対決 やって以来。」を取得する(ステップS301)。話者名であることを示す括弧記号で括られた話者名が存在するかどうかを判定する(ステップS302)。この場合、括弧記号で括られた話者名が存在しないので、次のクローズドキャプションが存在するかを判定する(ステップS304)。これらのステップをクローズドキャプションが存在しなくなるまで処理する。括弧記号で括られた話者名が発話内容に複数出現した場合には、発話時間を話者名数で分割してそれぞれの時間に話者名を対応付けてもよいし、話者名と発話時間の対応付けを行なわないとしてもよい。
【0039】
話者情報の例を図13に示す。なお、話者名はEPG(Electronic Program Guide)の出演者名情報を利用してフルネームに補正している。発話区間補正部104が行う発話時間を補正する処理(ステップS202)では、クローズドキャプションの発話時間を補正する。クローズドキャプションでは、発話内容が短い場合に表示時間を他の発話内容と揃えるために、実際の発話時間よりも長い発話時間にしている場合がある。そのため、発話時間を実際の発話時間に補正する処理を行なう。
【0040】
音声認識により音声を認識し、認識結果とクローズドキャプションの発話内容を比較し、発話内容と音声認識結果とが同一であれば、音声が認識された時間に発話内容情報の発話時間を補正する。音声認識の方法は、例えば、記憶しておいた認識対象とする単語の各音声モデルと、音声の特徴パラメータ系列との類似度あるいは距離を求め、類似度が最大(あるいは距離が最小)の音声モデルと対応付けられた単語を認識結果として出力する。照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画法)で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める方法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する方法等がある。音声認識の方法は上記に限らず、映像から音声を認識し、音声出現区間を検出する機能を有する方法であれば、既存のいかなる音声認識方法を用いてもよい。
【0041】
次に、図7を用いて図5における話者名毎の特徴を抽出する処理(S302)を説明する。話者特徴量抽出部105は、始めに、ステップS501で抽出した第2発話区間である音声フレームを取得する(ステップS701)。次に話者情報の話者名と発話時間(第1発話区間)を取得する(ステップS702)。図13に示した話者情報の場合、話者名「兵田雅力」と発話時間「00:04:46.067,00:04:50.389」を取得する(ステップS702)。次にステップS701で取得した第2発話区間が、ステップS702で取得した第1発話区間内であるかどうかを判定する(ステップS703)。音声フレーム(第2発話区間)が発話時間(第1発話区間)内であれば、音声フレームの特徴量を抽出する(ステップS704)。特徴量はLPCケプストラムやMFCC等、話者毎の分類を目的とする音響特徴量であればよい。次に、ステップS702で取得した話者名「兵田雅力」と特徴量を対応付ける(ステップS705)。次の話者情報が存在するかどうかを判定する(ステップS706)。次の話者情報が存在すれば、ステップS702に戻る。図13では、次の話者情報が存在するので、次の話者情報である話者名「公本人士」と発話時間「00:04:55.728,00:04:58.747」を取得する(ステップS702)。同様にして音声フレーム(第2発話区間)が発話時間(第1発話区間)内であれば、音声フレームの特徴を抽出し、話者情報の最後まで、ステップS702からステップS706を繰り返す。ステップS706において、次の話者情報が存在しなければ、次の音声フレームが存在するかどうかを判定する(ステップS707)。音声フレームが存在すれば、ステップS701に戻り、次の音声フレームを取得し、話者情報の先頭からステップS702からステップS706を繰り返す。音声フレームが存在しなくなるまで、これらのステップを繰り返す。
【0042】
次に図8を用いて、図2の認識対象時間情報を抽出する処理(ステップS204)を説明する。ステップS204は認識対象時間取得部108が行う。
クローズドキャプションでは、音楽やCM等の発話がない場合は発話時間が省略されるか、発話でないないことを示す情報が発話内容に記されている。始めに、クローズドキャプションの発話内容と発話時間を取得する(ステップS301)。図12では、「00:04:46.067,00:04:50.389,(兵田)宇多畑光さんです!」を取得する。次に、発話内容が発話でないことを示す情報かどうかを判定する(ステップS801)。発話でないことを示す情報ではないならば、発話時間(第3発話区間)を取得する(ステップS802)。発話でないことを示す情報ではないので、発話時間「00:04:46.067,00:04:50.389」を取得する。次のクローズドキャプションが存在するかを判定する(ステップS803)。
【0043】
次のクローズドキャプションが存在すれば、ステップS301に戻り、次のクローズドキャプション「00:04:50.389,00:04:55.728,もう 1年ぐらい前ですよボウリング対決 やって以来。」を取得する。次に、発話内容が発話でないことを示す情報かどうかを判定する(ステップS801)。発話でないことを示す情報ではないならば、発話時間(第3発話区間)を取得する(ステップS802)。発話でないことを示す情報ではないので、発話時間「00:04:50.389,00:04:55.728」を取得する。次のクローズドキャプションが存在するかを判定する(ステップS803)。次のクローズドキャプションが存在しなくなるまで、ステップS301からステップS803のステップを繰り返す。認識対象時間情報を抽出した結果の例を図14に示す。認識対象時間情報を抽出する処理は、映像中の音声の全ての時間を認識対象時間としてもよい。
【0044】
次に図9および図11を用いて、図2における話者を認識する処理(ステップS205)を説明する。
始めに、類似度計算部110が最大類似度が閾値以上の回数をカウントする回数カウンタを「0」に設定する(ステップS901)。次に認識特徴量抽出部109が音声フレーム(第2発話区間)を取得する(ステップS902)。次に認識特徴量抽出部109が認識対象時間情報の発話時間(第3発話区間)を取得する(ステップS903)。図14の例では、認識対象時間「00:04:46.067,00:04:50.389」を取得する。認識特徴量抽出部109が取得した音声フレームが発話時間内であるかどうかを判定する(ステップS904)。認識特徴量抽出部109が音声フレームが発話時間内であれば、音声フレームの特徴量を抽出する(ステップS905)。この時、話者名毎の特徴を抽出する処理(ステップS502)で用いた算出方法で特徴量を抽出する。
【0045】
類似度計算部110が抽出した特徴量に対して記憶している話者モデルとの類似度を計算し、閾値以上の最大類似度の話者モデルを識別する(ステップS906)。類似度計算部110が閾値以上の最大類似度の話者モデルが存在するかどうかを判定する(ステップS907)。類似度計算部110が最大類似度の話者モデルが存在すれば、カウントしている話者モデルと同一かを判定する(ステップS908)。類似度計算部110が、同一でなければ回数カウンタを「0」にリセットし(ステップS909)、カウントしている話者モデルを新たな話者モデルに設定する(ステップS910)。類似度計算部110がカウントしている話者モデルと同一であれば回数カウンタを「1」増加する(ステップS911)。次に類似度計算部110が回数カウンタが設定された閾値以上かどうかを判定する(ステップS912)。
【0046】
認識部111は、回数カウンタが閾値以上であれば、カウントしている話者モデルの出演者名と音声区間を対応付ける(ステップS913)。認識特徴量抽出部109が次の認識対象時間情報が存在するかどうかを判定する(ステップS914)。次の認識対象時間情報が存在すれば、ステップS903に戻る。図14では、認識対象時間「00:04:50.389,00:04:55.728」を取得する。次の認識対象時間情報が存在しなければ、認識特徴量抽出部109が次の音声フレームが存在するかどうかを判定する(ステップS915)。次の音声フレームが存在すればステップS902に戻り、次の音声フレームが存在しなければ動作を終了する。
【0047】
以上に示した実施形態によれば、映像中の音声から話者モデルを作成することによって、音声データベースの更新が不要になり、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与することができる。また、音声と文字情報だけを利用することによって処理時間を短縮できる。
【0048】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0049】
【図1】実施形態の人物名付与装置のブロック図。
【図2】図1の人物名付与装置の動作の一例を示すフローチャート。
【図3】図2のステップS201を示すフローチャート。
【図4】図2のステップS202を示すフローチャート。
【図5】図2のステップS203を示すフローチャート。
【図6】図5のステップS501を示すフローチャート。
【図7】図5のステップS502を示すフローチャート。
【図8】図2のステップS204を示すフローチャート。
【図9】図2のステップS205を示すフローチャート。
【図10】図9のステップS905を示すフローチャート。
【図11】図9のステップS906を示すフローチャート。
【図12】発話内容情報であるクローズドキャプションの一例を示す図。
【図13】話者情報の一例を示す図。
【図14】図1の認識対象時間取得部が図12の発話内容情報から取得する認識対象時間情報を示す図。
【符号の説明】
【0050】
101・・・有音区間抽出部、102・・・発話信頼性判定部、103・・・話者情報取得部、104・・・発話区間補正部、105・・・話者特徴量抽出部、106・・・話者モデル作成部、107・・・話者モデル記憶部、108・・・認識対象時間取得部、109・・・認識特徴量抽出部、110・・・類似度計算部、111・・・認識部。
【技術分野】
【0001】
本発明は、受信した映像だけから出演者が登場しているシーンに人物名を付与することができる人物名付与装置および方法に関する。
【背景技術】
【0002】
音楽番組では、複数の出演者が順にトークや演奏を行なう場合があるが、HDDレコーダ等に録画した音楽番組に対してユーザーが見たい出演者のシーンの映像を再生したいという要望がある。シーン毎に出演者の出演者名が付与されていると、ユーザーが見たい出演者のシーンを選択することが容易になる。このような視聴を可能とする従来技術として、受信し記録した番組から顔画像を検出し、予め顔画像データベースに記憶した顔画像と照合を行って当該顔画像に対応する人物を識別して、識別した情報を、当該人物の番組における登場時間を反映したポイントとともに登場人物データベースとして管理し、ユーザーが番組の視聴を所望する際には、登場人物データベースおよびポイントを参照して、登場人物が出演している割合を算出し、高い順に提示する(例えば、特許文献1参照)。
【特許文献1】特開2006−33659公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、上述した従来技術を用いて所望の出演者の場面を再生するには、顔画像データベースに人物名を別途登録しなければならず、新人や未知の人物が出演している場合はデータベースの更新が必要である。このように従来の方式では、顔画像あるいは音声データベースに人物名を別途登録しなければならず、新人が出演している場合はデータベースを更新する必要がある。
【0004】
本発明は、このような事情を考慮してなされたもので、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与する人物名付与装置および方法を提供することを目的とする。
【課題を解決するための手段】
【0005】
上述の課題を解決するため、本発明の人物名付与装置は、映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第1発話区間として取得する第1取得手段と、映像中の有音区間から発話を含む第2発話区間を取得する第2取得手段と、前記第2発話区間が前記第1発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第1特徴量を抽出し該第1発話区間に対応する話者名と該特徴量とを対応付ける対応付け手段と、話者毎の特徴量から話者の話者モデルを作成する作成手段と、話者名と話者モデルとを関連付けて記憶する記憶手段と、前記発話内容情報から、認識対象となる発話時間である第3発話区間を取得する第3取得手段と、前記第2発話区間が前記第3発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第2特徴量を抽出する抽出手段と、話者毎の話者モデルの特徴量と、前記第2特徴量との類似度を計算する計算手段と、前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識する認識手段と、を具備することを特徴とする。
【発明の効果】
【0006】
本発明の人物名付与装置および方法によれば、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与することができる。
【発明を実施するための最良の形態】
【0007】
以下、図面を参照しながら本発明の実施形態に係る人物名付与装置および方法について詳細に説明する。なお、以下の実施形態では、同一の番号を付した部分については同様の動作を行うものとして、重ねての説明を省略する。
実施形態の人物名付与装置について図1を参照して説明する。
実施形態の人物名付与装置は、有音区間抽出部101、発話信頼性判定部102、話者情報取得部103、発話区間補正部104、話者特徴量抽出部105、話者モデル作成部106、話者モデル記憶部107、認識対象時間取得部108、認識特徴量抽出部109、類似度計算部110、認識部111を含む。
【0008】
有音区間抽出部101は、映像の音声から設定されたシフト間隔で設定された区間幅の区間のうち、有音区間を抽出する。有音区間抽出部101の動作については後に図5を参照して説明する。
【0009】
発話信頼性判定部102は、有音区間が観客音や音楽を含まない区間であるかどうかを判定し、観客音や音楽を含まない区間を第2発話区間として抽出する。発話信頼性判定部102の動作については後に図6を参照して説明する。
【0010】
話者情報取得部103は、映像中の発話内容と発話時間からなる発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間からなる話者情報を取得する。発話内容情報は例えばクローズドキャプションであり後に図12を参照して説明する。話者情報の一例は後に図13を参照して説明する。話者情報取得部103の動作については後に図3を参照して説明し、より具体的な動作については後の具体例で説明する。 発話区間補正部104は、話者情報取得部103が取得する話者情報に含まれる発話時間を補正して、話者名と話者の補正された発話時間とを話者特徴量抽出部105に渡す。以下、この補正された発話時間を第1発話区間と呼ぶ。発話区間補正部104の動作については後に図4を参照して説明し、より具体的な動作については後の具体例で説明する。
【0011】
話者特徴量抽出部105は、話者情報の発話時間に対応する第1発話区間の音声波形から話者を特徴づける特徴量を抽出して話者名と特徴量を対応付ける。話者特徴量抽出部105の動作については後に図7を参照して説明し、より具体的な動作については後の具体例で説明する。
【0012】
話者モデル作成部106は、話者特徴量抽出部105で抽出された話者毎の特徴量から話者の話者モデルを作成する。話者モデル作成部106の動作については後に図5を参照して説明する。
話者モデル記憶部107は、話者モデル作成部106が作成した話者毎の話者モデルを記憶する。
【0013】
認識対象時間取得部108は、映像中の発話内容と発話時間からなる発話内容情報から、認識対象となる発話時間からなる認識対象時間情報を取得する。以下、この発話時間を第3発話区間と呼ぶ。認識対象時間取得部108の動作については後に図8を参照して説明し、より具体的な動作については後の具体例で説明する。
【0014】
認識特徴量抽出部109は、認識対象時間情報の発話時間に対応する発話区間(第3発話区間)の音声波形から話者を特徴づける特徴量を抽出する。認識特徴量抽出部109の動作については後に図9を参照して説明し、より具体的な動作については後の具体例で説明する。
【0015】
類似度計算部110は、話者モデル記憶部107が記憶している話者毎の話者モデルと、認識対象時間情報の発話時間に対応する発話区間(第3発話区間)毎の特徴量との類似度を計算する。類似度計算部110の動作については後に図9を参照して説明し、より具体的な動作については後の具体例で説明する。
【0016】
認識部111は、類似度計算部110が計算した類似度のうちの設定した条件の話者モデルの話者名を出演者として判定し出力する。認識部111の動作については後に図9を参照して説明し、より具体的な動作については後の具体例で説明する。
【0017】
次に、図1の人物名付与装置の動作(映像から話者を認識するまで)の一例について図2を参照して説明する。
始めに、話者情報取得部103が、映像中の発話内容と発話時間とからなる発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間(第1発話区間)とからなる話者情報を抽出する(ステップS201)。次に、発話区間補正部104が、話者情報に含まれる発話時間(第1発話区間)を補正する(ステップS202)。次に、話者モデル作成部106が、有音区間抽出部101および発話信頼性判定部102によって特定された映像中の音声の発話区間(第2発話区間)から話者毎の話者モデルを作成する(ステップS203)。更に、認識対象時間取得部108が、映像中の発話内容と発話時間からなる発話内容情報から、認識対象となる発話時間(第3発話区間)からなる認識対象時間情報を抽出する(ステップS204)。最後に、認識特徴量抽出部109が認識対象時間情報に含まれる発話時間に対応する発話区間(第3発話区間)の音声波形から特徴量を抽出し、類似度計算部110が第3発話区間毎の特徴量と話者毎の話者モデルの特徴量との類似度を計算し、認識部111が発話区間の話者名を判定する(ステップS205)。以下、それぞれのステップの詳細な動作について図面を参照して説明する。
【0018】
次に、図2における話者情報を抽出する処理(ステップS201)の一例について図3を参照して説明する。ステップS201は話者情報取得部103が行う。
始めに、映像に付属している発話内容と発話時間からなる発話内容情報を取得する(ステップS301)。次に、発話内容情報の発話内容に話者名であることを示す話者名特定情報で特定された話者名が存在するかどうかを判定する(ステップS302)。ステップS302で、話者名特定情報で特定された話者名が存在しなければ、次の発話内容情報が存在するかどうかを判定する(ステップS304)。ステップS302で、話者名特定情報で特定された話者名が存在すれば、話者名と発話内容の発話時間とを対応付け(ステップS303)、次の発話内容情報が存在するかどうかを判定する(ステップS304)。ステップS304で次の発話内容情報が存在すればステップS301に戻り次の発話内容情報を取得し、次の発話内容情報が存在しなければ動作を終了する。
【0019】
次に、図2の発話時間を補正する処理(ステップS202)の一例について図4を参照して説明する。ステップS202は発話区間補正部104が行う。
始めに、映像から発話内容情報を取得する(ステップS301)。発話内容情報に含まれる発話内容から話者名を除いた台詞内容を形態素解析し、読みを付与する(ステップS401)。次に、台詞内容の読みを音声認識の文法に設定する(ステップS402)。映像から発話内容情報に含まれる発話時間に対応する音声を取得する(ステップS403)。ステップS403で取得した音声を音声認識し(ステップS404)、発話内容情報に含まれる発話時間を音声認識結果による発話時間(第1発話区間)の時間情報に置換する(ステップS405)。次の発話内容情報が存在すればステップS301に戻り、存在しなければ動作を終了する(ステップS406)。
【0020】
次に、図2における話者モデルを作成する処理(ステップS203)の一例について図5を参照して説明する。
始めに、有音区間抽出部101および発話信頼性判定部102が映像中の音声の発話区間(第2発話区間)を抽出する(ステップS501)。次に、話者特徴量抽出部105が話者情報に含まれる発話時間に対応する発話区間が補正された第1発話区間の音声波形から話者の特徴量を抽出し、話者情報に含まれる話者名と特徴量を対応付ける(ステップS502)。次に、話者モデル作成部106が話者名に対応付けた特徴量を話者毎に話者モデルとして作成する(ステップS503)。最後に、話者モデル記憶部107が話者毎の話者モデルを記憶する(ステップS504)。話者名と対応付けた特徴量に対して話者毎に話者モデルとして作成する処理(ステップS503)では、“Y. Linde, A. Buzo, and R. M. Gray “An algorithm for vector quantizer design” IEEE Trans. Commun. vol. COM-28, no. 1, pp. 84-95, Jan. 1980.”に用いられているVQモデル、あるいは“Reynolds, D. A., Rose, R. C. “Robust text-independent speaker identification using Gaussian Mixture Speaker Models” IEEE Tans. Speech and Audio Processing. Vol. 3 no. 1, pp. 72-83, Jan. 1995.”に用いられているGMMモデル等を用いて話者の特徴量を作成し、話者毎に話者モデルを記憶する(ステップS504)。この時、話者情報の発話時間に対応する全ての発話区間の総時間が閾値以上の話者のみ、話者モデルを作成してもよい。
【0021】
ステップS501、ステップS502の詳細な動作については以下に示す。
【0022】
次に、図5における映像中の音声の発話区間(第2発話区間)を抽出する処理(ステップS501)の一例について図6を参照して説明する。
始めに、有音区間抽出部101が映像中の音声区間を取得する(ステップS601)。例えば、映像中の音声から設定したフレーム時間の音声を取得する。次に、有音区間抽出部101がステップS601で取得された音声区間が有音区間であるかどうかを判定する(ステップS602)。有音区間の判定はFFTにより得られるパワースペクトルの平均が閾値以上のフレームを有音フレームと判定する等、有音区間を判定する方法であれば既存のいかなる方法を用いてもよい。
【0023】
ステップS602で有音区間であると判定されれば、発話信頼性判定部102が、この有音区間が笑い声、拍手、歓声等の観客音または音楽を含む区間であるかどうかを判定する(ステップS603)。例えば、信頼性のある有音フレームを抽出する。有音フレームが笑い声、拍手、歓声等の観客音または音楽を含んでいなければ、信頼性があると判定し、抽出する。観客音を判定する方法は、例えば左右チャンネル間差分によりアナウンサーや解説者の音声を除去した差分音声のパワースペクトルの特徴量と観客音モデル特徴量との相関をとって閾値以上の区間を観客音区間とする。観客音の判定は上記の方法に限らず、特開平09−206291公報に記載の方法等、既存のいかなる方法を用いてもよい。音楽を判定する方法は、例えば、スペクトルのピークが周波数方向に時間的に安定していれば音楽区間とする。音楽の判定は上記の方法に限らず、特開平10−307580公報に記載の方法等、既存のいかなる方法を用いてもよい。
【0024】
ステップS603で観客音または音楽を含む区間ではないと判定されれば、発話信頼性判定部102が有音区間を第2発話区間として抽出し(ステップS604)、次の音声区間が存在するかどうかを判定する(ステップS605)。例えば、有音フレームを発話区間として抽出し、設定したシフト幅にシフトした音声フレームが存在するかどうかを判定する。次の音声区間が存在すると判定されればステップS601に戻り、次の音声区間が存在しないと判定されれば動作を終了する。
【0025】
次に、図5における話者情報の発話時間に対応する発話区間が補正された第1発話区間の音声波形から話者の特徴量を抽出し、話者名と特徴量を対応付ける処理(ステップS502)の一例について図7を参照して説明する。ステップS502は話者特徴量抽出部105が行う。
始めに、発話信頼性判定部102から第2発話区間を取得する(ステップS701)。次に、発話区間補正部104から話者情報の話者名と第1発話区間を取得する(ステップS702)。次に、図7のステップS701で取得した第2発話区間がステップS702で取得した第1発話区間内であるかどうかを判定する(ステップS703)。第2発話区間が第1発話区間内であると判定されれば、第2発話区間の特徴量を抽出し(ステップS704)、ステップS704で取得した特徴量と話者名とを対応付け(ステップS705)、次の話者情報が存在するかどうかを判定する(ステップS706)。次の話者情報が存在すると判定されれば、ステップS702に戻る。次の話者情報が存在しないと判定されれば、次の第2発話区間が存在するかどうかを判定する(ステップS707)。次の第2発話区間が存在すると判定されればステップS701に戻り、次の第2発話区間が存在しないと判定されれば動作を終了する。
【0026】
次に、図2における認識対象時間情報を抽出する処理(ステップS204)の一例について図8を参照して説明する。ステップS204は認識対象時間取得部108が行う。
始めに、映像に付属している発話内容と発話時間からなる発話内容情報を取得する(ステップS301)。次に、発話内容が発話でないことを示す情報かどうかを判定する(ステップS801)。発話でないことを示す情報ではないと判定されたならば、第3発話区間を取得する(ステップS802)。次の発話内容情報が存在するかどうかを判定する(ステップS803)。次の発話内容情報が存在すると判定されればステップS301に戻り、次の発話内容情報を取得する。次の発話内容情報が存在しないと判定されれば動作を終了する。
【0027】
次に、図2における話者を認識する処理(ステップS205)の一例について図9を参照して説明する。
始めに、類似度計算部110が、その内部に含んでいる、最大類似度が第1閾値以上の回数をカウントする回数カウンタ(図示せず)を初期化する(ステップS901)。次に、認識特徴量抽出部109が第2発話区間を取得する(ステップS902)。次に、認識特徴量抽出部109が認識対象時間情報の第3発話区間を取得する(ステップS903)。認識特徴量抽出部109がステップS902で取得した第2発話区間が第3発話区間内であるかどうかを判定する(ステップS904)。第2発話区間が第3発話区間内であると判定されれば、認識特徴量抽出部109が第2発話区間の特徴量を抽出する(ステップS905)。第2発話区間が第3発話区間内でないと判定されれば、ステップS914に進む。
【0028】
類似度計算部110がステップS905で抽出した特徴量と記憶している話者モデルの特徴量との類似度を計算する(ステップS906)。類似度計算部110が第1閾値以上の最大類似度の話者モデルが存在するかどうかを判定する(ステップS907)。類似度計算部110が、ステップS907で最大類似度の話者モデルが存在すると判定されれば、カウントしている話者モデルと同一かどうかを判定する(ステップS908)。類似度計算部110が、ステップS907で最大類似度の話者モデルが存在しないと判定された場合、もしくはステップS908で同一でないと判定された場合には、回数カウンタをリセットし(ステップS909)、カウントしている話者モデルを新たな話者モデルに設定する(ステップS910)。類似度計算部110がステップS908でカウントしている話者モデルと同一であると判定された場合、もしくはステップS910の後に、回数カウンタを更新する(ステップS911)。次に、類似度計算部110が、回数カウンタが設定された第2閾値以上かどうかを判定する(ステップS912)。
【0029】
認識部111は、回数カウンタが第2閾値以上であると判定されれば、カウントしている話者モデルの出演者名と第2発話区間とを対応付ける(ステップS913)。回数カウンタが第2閾値以上でないと判定された場合はステップS913を省略しステップS914に進む。認識特徴量抽出部109が次の認識対象時間情報が存在するかどうかを判定する(ステップS914)。次の認識対象時間情報が存在すれると判定されればステップS903に戻る。認識特徴量抽出部109は、次の認識対象時間情報が存在しなければ、次の第2発話区間が存在するかどうかを判定する(ステップS915)。次の第2発話区間が存在すればステップS902に戻り、次の第2発話区間が存在しなければ動作を終了する。
【0030】
次に、図9における第2発話区間の特徴量を取得する処理(ステップS905)の動作について図10を参照して説明する。ステップS905は認識特徴量抽出部109が行う。
始めに、発話信頼性判定部102から第2発話区間を取得する(ステップS701)。次に、認識対象時間取得部108から第3発話区間を取得する(ステップS1001)。次に、図9のステップS701で取得した第2発話区間がステップS1001で取得した第3発話区間内であるかどうかを判定する(ステップS1002)。第2発話区間が第3発話区間内であると判定されれば、第2発話区間の特徴量を抽出する(ステップS1003)。次の第2発話区間が存在するかどうかを判定する(ステップS1004)。次の第2発話区間が存在すると判定されれば図10のステップS701に戻り、次の第2発話区間が存在しないと判定されれば動作を終了する。
【0031】
次に、図9における抽出した特徴量と記憶している話者モデルの特徴量との類似度を計算し、閾値以上の最大類似度の話者モデルを識別する処理(ステップS906)の一例について図11を参照して説明する。ステップS906は類似度計算部110が行う。
始めに、話者モデル記憶部107から話者モデルを取得する(ステップS1001)。次に、ステップS905で抽出した第2発話区間の特徴量と話者モデル毎の特徴量との、予め設定された区間数分の平均類似度を計算する(ステップS1102)。ここで区間数の区間は、抽出された特徴量の第2発話区間のことを示す。
【0032】
類似度計算部110は、抽出した特徴量と話者モデルの特徴量との、予め設定された区間数分の平均類似度を計算する(S702)。類似度計算部110は、区間数分の特徴量を保持しておき、新たな特徴量の入力に対して平均類似度を求める。例えば、話者モデルの作成にVQモデルを用いている場合は、過去の設定されたフレーム数のVQ歪を考える。VQ歪は、抽出した特徴量と話者モデルの特徴量との相違度(抽出した特徴量と話者モデルの特徴量との距離)を示す。したがって、VQ歪の逆数は類似度に対応する。抽出した特徴量と、予め設定された区間数分の話者モデル毎の特徴量とのVQ歪(相違度)の総和を区間数で除算した値の逆数をとることによって平均類似度を求める。
【0033】
次に平均類似度が設定された閾値以上であるかどうかを判定する(ステップS1103)。平均類似度が閾値以上であると判定されれば、平均類似度が話者モデルのうちの最大値かどうかを判定する(ステップS1104)。最大値であると判定されれば最大値の平均類似度を更新し(ステップS1105)、最大値の話者モデルを設定する(ステップS1106)。次の話者モデルが存在するかどうかを判定する(ステップS1007)。話者モデルが存在すれば、ステップS1101に戻り、存在しなければ動作を終了する。
【0034】
(具体的動作例)
以下、上記の発話内容情報がクローズドキャプションである場合の人物名付与装置の具体的な動作例について説明する。クローズドキャプションの一例を図12に示す。
デジタル放送のプロトコルであるMPEG2−TSでは、オーディオ/ビデオ以外に放送用途に必要な各種データ(クローズドキャプション、EPG、BML等)の多重伝送が可能になっている。クローズドキャプションは難聴者のテレビ視聴を支援するために出演者の発話内容を発話時間等とともにテキストデータで送信されたものである。
【0035】
クローズドキャプションでは、映像に複数の出演者が映っている場合や映像に発話者が映っていない場合等、どの出演者が発話しているかが映像だけでは判別できない場合に括弧等の記号で括られた出演者名が発話内容の前に書かれてある場合がある。しかし、クローズドキャプションの全ての発話内容に出演者名が含まれているわけではないので、クローズドキャプションのみではどのシーンどの出演者が発話しているかを全て把握できるとは限らない。
【0036】
図3に示すフローチャートを用いて図2の話者情報を抽出する処理(ステップS201)を説明する。
始めに、話者情報取得部103が、発話内容と発話時間からなるクローズドキャプションを取得する(ステップS301)。例えば、地上デジタル放送に含まれるクローズドキャプションに関しては、社団法人 電波産業界が定める「デジタル放送におけるデータ放送符号化方式と伝送方式 標準規格(ARIB STD−B24)」に基づき伝送される。クローズドキャプションの伝送にはPES(Packetized Elementary Stream)フォーマットが用いられ、この中には表示指示時刻と字幕文データが含まれる。また、字幕文データには、表示すべき文字情報と画面制御・文字位置移動といった制御記号が含まれる。ステップS201では、表示指示時刻を用いてクローズドキャプション表示の開始時刻を算出する。また終了時刻を、画面制御による画面消去指示が発生した時刻、もしくは次の表示内容が存在するクローズドキャプションの表示指示時刻のどちらか早い時刻とすることにより、「開始時刻,終了時刻,発話内容」の3つ組を取得することができる。
【0037】
図12は、伝送されてくるクローズドキャプションを上記の3つ組を用いて模式的に表したものである。最初に図12に従って「00:04:46.067,00:04:50.389,(兵田)宇多畑光さんです!」が取得された場合、話者情報取得部103がクローズドキャプションの発話内容に話者名であることを示す話者名特定情報で特定された話者名が存在するかどうかを判定する(ステップS302)。この場合話者名であることを示す括弧記号で括られた「兵田」が存在するので、話者名「兵田」と発話時間「00:04:46.067,00:04:50.389」とを対応付ける(ステップS303)。次のクローズドキャプションが存在するかを判定する(ステップS304)。
【0038】
図12の例では次のクローズドキャプションが存在するのでステップS301に戻り、クローズドキャプション「00:04:50.389,00:04:55.728,もう 1年ぐらい前ですよボウリング対決 やって以来。」を取得する(ステップS301)。話者名であることを示す括弧記号で括られた話者名が存在するかどうかを判定する(ステップS302)。この場合、括弧記号で括られた話者名が存在しないので、次のクローズドキャプションが存在するかを判定する(ステップS304)。これらのステップをクローズドキャプションが存在しなくなるまで処理する。括弧記号で括られた話者名が発話内容に複数出現した場合には、発話時間を話者名数で分割してそれぞれの時間に話者名を対応付けてもよいし、話者名と発話時間の対応付けを行なわないとしてもよい。
【0039】
話者情報の例を図13に示す。なお、話者名はEPG(Electronic Program Guide)の出演者名情報を利用してフルネームに補正している。発話区間補正部104が行う発話時間を補正する処理(ステップS202)では、クローズドキャプションの発話時間を補正する。クローズドキャプションでは、発話内容が短い場合に表示時間を他の発話内容と揃えるために、実際の発話時間よりも長い発話時間にしている場合がある。そのため、発話時間を実際の発話時間に補正する処理を行なう。
【0040】
音声認識により音声を認識し、認識結果とクローズドキャプションの発話内容を比較し、発話内容と音声認識結果とが同一であれば、音声が認識された時間に発話内容情報の発話時間を補正する。音声認識の方法は、例えば、記憶しておいた認識対象とする単語の各音声モデルと、音声の特徴パラメータ系列との類似度あるいは距離を求め、類似度が最大(あるいは距離が最小)の音声モデルと対応付けられた単語を認識結果として出力する。照合方法としては、音声モデルも特徴パラメータ系列で表現しておき、DP(動的計画法)で音声モデルの特徴パラメータ系列と入力音声の特徴パラメータ系列の距離を求める方法や、HMM(隠れマルコフモデル)を用いて音声モデルを表現しておき、入力音声の特徴パラメータ系列が入力されたときの各音声モデルの確率を計算する方法等がある。音声認識の方法は上記に限らず、映像から音声を認識し、音声出現区間を検出する機能を有する方法であれば、既存のいかなる音声認識方法を用いてもよい。
【0041】
次に、図7を用いて図5における話者名毎の特徴を抽出する処理(S302)を説明する。話者特徴量抽出部105は、始めに、ステップS501で抽出した第2発話区間である音声フレームを取得する(ステップS701)。次に話者情報の話者名と発話時間(第1発話区間)を取得する(ステップS702)。図13に示した話者情報の場合、話者名「兵田雅力」と発話時間「00:04:46.067,00:04:50.389」を取得する(ステップS702)。次にステップS701で取得した第2発話区間が、ステップS702で取得した第1発話区間内であるかどうかを判定する(ステップS703)。音声フレーム(第2発話区間)が発話時間(第1発話区間)内であれば、音声フレームの特徴量を抽出する(ステップS704)。特徴量はLPCケプストラムやMFCC等、話者毎の分類を目的とする音響特徴量であればよい。次に、ステップS702で取得した話者名「兵田雅力」と特徴量を対応付ける(ステップS705)。次の話者情報が存在するかどうかを判定する(ステップS706)。次の話者情報が存在すれば、ステップS702に戻る。図13では、次の話者情報が存在するので、次の話者情報である話者名「公本人士」と発話時間「00:04:55.728,00:04:58.747」を取得する(ステップS702)。同様にして音声フレーム(第2発話区間)が発話時間(第1発話区間)内であれば、音声フレームの特徴を抽出し、話者情報の最後まで、ステップS702からステップS706を繰り返す。ステップS706において、次の話者情報が存在しなければ、次の音声フレームが存在するかどうかを判定する(ステップS707)。音声フレームが存在すれば、ステップS701に戻り、次の音声フレームを取得し、話者情報の先頭からステップS702からステップS706を繰り返す。音声フレームが存在しなくなるまで、これらのステップを繰り返す。
【0042】
次に図8を用いて、図2の認識対象時間情報を抽出する処理(ステップS204)を説明する。ステップS204は認識対象時間取得部108が行う。
クローズドキャプションでは、音楽やCM等の発話がない場合は発話時間が省略されるか、発話でないないことを示す情報が発話内容に記されている。始めに、クローズドキャプションの発話内容と発話時間を取得する(ステップS301)。図12では、「00:04:46.067,00:04:50.389,(兵田)宇多畑光さんです!」を取得する。次に、発話内容が発話でないことを示す情報かどうかを判定する(ステップS801)。発話でないことを示す情報ではないならば、発話時間(第3発話区間)を取得する(ステップS802)。発話でないことを示す情報ではないので、発話時間「00:04:46.067,00:04:50.389」を取得する。次のクローズドキャプションが存在するかを判定する(ステップS803)。
【0043】
次のクローズドキャプションが存在すれば、ステップS301に戻り、次のクローズドキャプション「00:04:50.389,00:04:55.728,もう 1年ぐらい前ですよボウリング対決 やって以来。」を取得する。次に、発話内容が発話でないことを示す情報かどうかを判定する(ステップS801)。発話でないことを示す情報ではないならば、発話時間(第3発話区間)を取得する(ステップS802)。発話でないことを示す情報ではないので、発話時間「00:04:50.389,00:04:55.728」を取得する。次のクローズドキャプションが存在するかを判定する(ステップS803)。次のクローズドキャプションが存在しなくなるまで、ステップS301からステップS803のステップを繰り返す。認識対象時間情報を抽出した結果の例を図14に示す。認識対象時間情報を抽出する処理は、映像中の音声の全ての時間を認識対象時間としてもよい。
【0044】
次に図9および図11を用いて、図2における話者を認識する処理(ステップS205)を説明する。
始めに、類似度計算部110が最大類似度が閾値以上の回数をカウントする回数カウンタを「0」に設定する(ステップS901)。次に認識特徴量抽出部109が音声フレーム(第2発話区間)を取得する(ステップS902)。次に認識特徴量抽出部109が認識対象時間情報の発話時間(第3発話区間)を取得する(ステップS903)。図14の例では、認識対象時間「00:04:46.067,00:04:50.389」を取得する。認識特徴量抽出部109が取得した音声フレームが発話時間内であるかどうかを判定する(ステップS904)。認識特徴量抽出部109が音声フレームが発話時間内であれば、音声フレームの特徴量を抽出する(ステップS905)。この時、話者名毎の特徴を抽出する処理(ステップS502)で用いた算出方法で特徴量を抽出する。
【0045】
類似度計算部110が抽出した特徴量に対して記憶している話者モデルとの類似度を計算し、閾値以上の最大類似度の話者モデルを識別する(ステップS906)。類似度計算部110が閾値以上の最大類似度の話者モデルが存在するかどうかを判定する(ステップS907)。類似度計算部110が最大類似度の話者モデルが存在すれば、カウントしている話者モデルと同一かを判定する(ステップS908)。類似度計算部110が、同一でなければ回数カウンタを「0」にリセットし(ステップS909)、カウントしている話者モデルを新たな話者モデルに設定する(ステップS910)。類似度計算部110がカウントしている話者モデルと同一であれば回数カウンタを「1」増加する(ステップS911)。次に類似度計算部110が回数カウンタが設定された閾値以上かどうかを判定する(ステップS912)。
【0046】
認識部111は、回数カウンタが閾値以上であれば、カウントしている話者モデルの出演者名と音声区間を対応付ける(ステップS913)。認識特徴量抽出部109が次の認識対象時間情報が存在するかどうかを判定する(ステップS914)。次の認識対象時間情報が存在すれば、ステップS903に戻る。図14では、認識対象時間「00:04:50.389,00:04:55.728」を取得する。次の認識対象時間情報が存在しなければ、認識特徴量抽出部109が次の音声フレームが存在するかどうかを判定する(ステップS915)。次の音声フレームが存在すればステップS902に戻り、次の音声フレームが存在しなければ動作を終了する。
【0047】
以上に示した実施形態によれば、映像中の音声から話者モデルを作成することによって、音声データベースの更新が不要になり、受信した映像だけから所望の出演者が登場しているシーンに人物名を付与することができる。また、音声と文字情報だけを利用することによって処理時間を短縮できる。
【0048】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【図面の簡単な説明】
【0049】
【図1】実施形態の人物名付与装置のブロック図。
【図2】図1の人物名付与装置の動作の一例を示すフローチャート。
【図3】図2のステップS201を示すフローチャート。
【図4】図2のステップS202を示すフローチャート。
【図5】図2のステップS203を示すフローチャート。
【図6】図5のステップS501を示すフローチャート。
【図7】図5のステップS502を示すフローチャート。
【図8】図2のステップS204を示すフローチャート。
【図9】図2のステップS205を示すフローチャート。
【図10】図9のステップS905を示すフローチャート。
【図11】図9のステップS906を示すフローチャート。
【図12】発話内容情報であるクローズドキャプションの一例を示す図。
【図13】話者情報の一例を示す図。
【図14】図1の認識対象時間取得部が図12の発話内容情報から取得する認識対象時間情報を示す図。
【符号の説明】
【0050】
101・・・有音区間抽出部、102・・・発話信頼性判定部、103・・・話者情報取得部、104・・・発話区間補正部、105・・・話者特徴量抽出部、106・・・話者モデル作成部、107・・・話者モデル記憶部、108・・・認識対象時間取得部、109・・・認識特徴量抽出部、110・・・類似度計算部、111・・・認識部。
【特許請求の範囲】
【請求項1】
映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第1発話区間として取得する第1取得手段と、
映像中の有音区間から発話を含む第2発話区間を取得する第2取得手段と、
前記第2発話区間が前記第1発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第1特徴量を抽出し該第1発話区間に対応する話者名と該特徴量とを対応付ける対応付け手段と、
話者毎の特徴量から話者の話者モデルを作成する作成手段と、
話者名と話者モデルとを関連付けて記憶する記憶手段と、
前記発話内容情報から、認識対象となる発話時間である第3発話区間を取得する第3取得手段と、
前記第2発話区間が前記第3発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第2特徴量を抽出する抽出手段と、
話者毎の話者モデルの特徴量と、前記第2特徴量との類似度を計算する計算手段と、
前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識する認識手段と、を具備することを特徴とする人物名付与装置。
【請求項2】
前記話者情報に含まれる発話時間を補正して補正された発話時間を前記第1発話区間として設定する設定手段をさらに具備し、
前記第2取得手段は、映像中の音声から設定された区間幅の区間から、設定されたシフト間隔で前記有音区間を抽出する抽出手段と、
前記有音区間から発話でない区間を除いた第2発話区間を取得する取得手段と、を含むことを特徴とする請求項1に記載の人物名付与装置。
【請求項3】
前記取得手段は、前記有音区間から観客音を含む区間を信頼性の無い区間として判定し該区間を前記第2発話区間として取得しないことを特徴とする請求項2に記載の人物名付与装置。
【請求項4】
前記取得手段は、前記有音区間から音楽を含む区間を信頼性の無い区間として判定し該区間を前記第2発話区間として取得しないことを特徴とする請求項2に記載の人物名付与装置。
【請求項5】
前記設定手段は、前記発話内容情報に含まれる発話内容と映像中の音声の音声認識結果とを比較し、該発話内容と該音声認識結果とが同一であれば、音声が認識された時間に発話内容情報の発話時間を補正することを特徴とする請求項2に記載の人物名付与装置。
【請求項6】
前記第1取得手段は、前記発話内容情報としてクローズドキャプションから前記話者情報を取得することを特徴とする請求項1から請求項5のいずれか1項に記載の人物名付与装置。
【請求項7】
前記第1取得手段は、1つの発話内容に複数の話者名が出現した場合に発話時間を話者名の数で分割して話者名毎に話者名と発話時間との対応付けることを特徴とする請求項6に記載の人物名付与装置。
【請求項8】
前記第1取得手段は、1つの発話内容に複数の話者名が出現した場合に前記第1発話区間を取得しないことを特徴とする請求項6に記載の人物名付与装置。
【請求項9】
前記作成手段は、前記第1発話区間の総時間が閾値以上の話者に対してのみ、話者モデルを作成することを特徴とする請求項1から請求項8のいずれか1項に記載の人物名付与装置。
【請求項10】
映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第1発話区間として取得し、
映像中の有音区間から発話を含む第2発話区間を取得し、
前記第2発話区間が前記第1発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第1特徴量を抽出し該第1発話区間に対応する話者名と該特徴量とを対応付け、
話者毎の特徴量から話者の話者モデルを作成し、
話者名と話者モデルとを関連付けて記憶する記憶手段を用意し、
前記発話内容情報から、認識対象となる発話時間である第3発話区間を取得し、
前記第2発話区間が前記第3発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第2特徴量を抽出し、
話者毎の話者モデルの特徴量と、前記第2特徴量との類似度を計算し、
前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識することを特徴とする人物名付与方法。
【請求項11】
前記話者情報に含まれる発話時間を補正して補正された発話時間を前記第1発話区間として設定することをさらに具備し、
前記第2発話区間を取得することは、映像中の音声から設定された区間幅の区間から、設定されたシフト間隔で前記有音区間を抽出し、前記有音区間から発話でない区間を除いた第2発話区間を取得することを含むことを特徴とする請求項10に記載の人物名付与方法。
【請求項1】
映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第1発話区間として取得する第1取得手段と、
映像中の有音区間から発話を含む第2発話区間を取得する第2取得手段と、
前記第2発話区間が前記第1発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第1特徴量を抽出し該第1発話区間に対応する話者名と該特徴量とを対応付ける対応付け手段と、
話者毎の特徴量から話者の話者モデルを作成する作成手段と、
話者名と話者モデルとを関連付けて記憶する記憶手段と、
前記発話内容情報から、認識対象となる発話時間である第3発話区間を取得する第3取得手段と、
前記第2発話区間が前記第3発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第2特徴量を抽出する抽出手段と、
話者毎の話者モデルの特徴量と、前記第2特徴量との類似度を計算する計算手段と、
前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識する認識手段と、を具備することを特徴とする人物名付与装置。
【請求項2】
前記話者情報に含まれる発話時間を補正して補正された発話時間を前記第1発話区間として設定する設定手段をさらに具備し、
前記第2取得手段は、映像中の音声から設定された区間幅の区間から、設定されたシフト間隔で前記有音区間を抽出する抽出手段と、
前記有音区間から発話でない区間を除いた第2発話区間を取得する取得手段と、を含むことを特徴とする請求項1に記載の人物名付与装置。
【請求項3】
前記取得手段は、前記有音区間から観客音を含む区間を信頼性の無い区間として判定し該区間を前記第2発話区間として取得しないことを特徴とする請求項2に記載の人物名付与装置。
【請求項4】
前記取得手段は、前記有音区間から音楽を含む区間を信頼性の無い区間として判定し該区間を前記第2発話区間として取得しないことを特徴とする請求項2に記載の人物名付与装置。
【請求項5】
前記設定手段は、前記発話内容情報に含まれる発話内容と映像中の音声の音声認識結果とを比較し、該発話内容と該音声認識結果とが同一であれば、音声が認識された時間に発話内容情報の発話時間を補正することを特徴とする請求項2に記載の人物名付与装置。
【請求項6】
前記第1取得手段は、前記発話内容情報としてクローズドキャプションから前記話者情報を取得することを特徴とする請求項1から請求項5のいずれか1項に記載の人物名付与装置。
【請求項7】
前記第1取得手段は、1つの発話内容に複数の話者名が出現した場合に発話時間を話者名の数で分割して話者名毎に話者名と発話時間との対応付けることを特徴とする請求項6に記載の人物名付与装置。
【請求項8】
前記第1取得手段は、1つの発話内容に複数の話者名が出現した場合に前記第1発話区間を取得しないことを特徴とする請求項6に記載の人物名付与装置。
【請求項9】
前記作成手段は、前記第1発話区間の総時間が閾値以上の話者に対してのみ、話者モデルを作成することを特徴とする請求項1から請求項8のいずれか1項に記載の人物名付与装置。
【請求項10】
映像中の発話内容と発話時間とを含む、該映像に付属している発話内容情報から、話者名であることを示す話者名特定情報で特定された話者名と話者の発話時間とを含む話者情報を取得し、該話者時間を第1発話区間として取得し、
映像中の有音区間から発話を含む第2発話区間を取得し、
前記第2発話区間が前記第1発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第1特徴量を抽出し該第1発話区間に対応する話者名と該特徴量とを対応付け、
話者毎の特徴量から話者の話者モデルを作成し、
話者名と話者モデルとを関連付けて記憶する記憶手段を用意し、
前記発話内容情報から、認識対象となる発話時間である第3発話区間を取得し、
前記第2発話区間が前記第3発話区間に含まれる場合に該第2発話区間の音声波形から話者を特徴付ける第2特徴量を抽出し、
話者毎の話者モデルの特徴量と、前記第2特徴量との類似度を計算し、
前記類似度のうち、設定した条件の話者モデルの話者名を出演者として認識することを特徴とする人物名付与方法。
【請求項11】
前記話者情報に含まれる発話時間を補正して補正された発話時間を前記第1発話区間として設定することをさらに具備し、
前記第2発話区間を取得することは、映像中の音声から設定された区間幅の区間から、設定されたシフト間隔で前記有音区間を抽出し、前記有音区間から発話でない区間を除いた第2発話区間を取得することを含むことを特徴とする請求項10に記載の人物名付与方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【公開番号】特開2009−237285(P2009−237285A)
【公開日】平成21年10月15日(2009.10.15)
【国際特許分類】
【出願番号】特願2008−83430(P2008−83430)
【出願日】平成20年3月27日(2008.3.27)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
【公開日】平成21年10月15日(2009.10.15)
【国際特許分類】
【出願日】平成20年3月27日(2008.3.27)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】
[ Back to top ]