情報処理装置およびその動作方法

【課題】予め動画像の撮影者の声を登録することなく、動画像の撮影者の声を決定する。
【解決手段】本発明に係る情報処理装置は、複数の音声区間に対応する音声を表す第１のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置であって、前記第１のデータストリームと、複数の画像からなる前記動画像を表す第２のデータストリームとを取得し、前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定し、特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、特定の話者の声を決定する技術に関する。
【背景技術】
【０００２】
従来、画像から、人物を示すオブジェクト（例えば、顔）を検出する技術が知られている（例えば、特許文献１）。また、顔を検出する技術を用いて、映像（動画像）に含まれる人物の顔を検出し、動画像データに関連付けておくことで、該動画像のダイジェストを再生する技術、該動画像のうち人物の顔が含まれるシーンを検索する技術が知られている（例えば、特許文献２）。
【０００３】
ここで、一般家庭で撮影されるホームビデオ等では、人物が写っていないシーンでも撮影者が「南の島に旅行に来ました」、「今日は入園式です」のような発声をすることがある。そして、このように撮影内容を発声し、説明しているシーンはハイライトシーンとして有効である場合がある。
【０００４】
従来、カメラやビデオカメラなど動画像を撮影する機能を備えた装置において、撮影者の音声区間を検出する技術として、被写体側の音声を収録するマイクロフォンとは別に、撮影者用のマイクロフォンを備えた装置が知られている（例えば、特許文献３）。また、事前に撮影者の声を登録しておき、入力された音声に対して話者認識を行って、所定の基準を満たす音を、撮影者の声として処理する技術が知られている（例えば、特許文献４）。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００９−０８７２５０号公報
【特許文献２】特開２００７−２８１８５８号公報
【特許文献３】特開２００７−１０４４０５号公報
【特許文献４】特開２００７−２６６６６１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００６】
しかしながら、被写体用と撮影者用に二つのマイクロフォンを設けると、部品点数が増え、装置の製造コストが増大する。また、事前に撮影者の声を登録すると、声を登録する手間がかかる他、事前登録していない撮影者の声は検出できないという問題もある。本発明は、このような課題を解決しようとするものであり、事前に撮影者の声を登録することなく、撮影者の声を決定することを目的とする。
【課題を解決するための手段】
【０００７】
上記の課題を解決するために、本発明に係る情報処理装置は、複数の音声区間に対応する音声を表す第１のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置であって、前記第１のデータストリームと、複数の画像からなる前記動画像を表す第２のデータストリームとを取得する取得手段と、前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定する特定手段と、特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する決定手段とを有する。
【発明の効果】
【０００８】
本発明によれば、事前に撮影者の声を登録することなく、撮影者の声を決定することが可能となる。
【図面の簡単な説明】
【０００９】
【図１】本発明に係る情報処理装置のハードウェア構成図および機能ブロック図。
【図２】撮影者の声を検出する処理の流れを示すフローチャート。
【図３】人物を検出した結果の一例を示す図。
【図４】話者を識別する処理の流れを示すフローチャート。
【図５】話者を識別した結果の一例を示す図。
【図６】撮影者の声を検出する様子を示す図。
【図７】撮影者の声を検出する処理の流れを示すフローチャート。
【図８】撮影者の声を検出する処理の流れを示すフローチャート。
【図９】撮影者の声を検出する様子を示す図。
【発明を実施するための形態】
【００１０】
以下、本発明に好適な実施形態について、図面を参照しながら説明していく。
【００１１】
（第１の実施形態）
図１（ａ）は、本実施形態に係る映像データ処理装置（情報処理装置１００）のハードウェア構成を示す図である。尚、情報処理装置１００は、例えば、デジタルビデオカメラの一部に相当する。また、本映像データ処理装置が処理の対象とする映像データは、動画像と該動画像に同期した音声とを示すデータである。即ち、映像データは、複数の音声区間に対応する音声を表す第１のデータストリームと、複数の画像からなる動画像であって、該音声に対応する動画像を表す第２のデータストリームとを含む。
【００１２】
情報処理装置１００は、ＣＰＵ（中央演算装置）１０１、ＲＯＭ（リードオンリメモリ）１０２、ＲＡＭ（ランダムアクセスメモリ）１０３を有する。また、情報処理装置１００は、入力Ｉ／Ｆ（インタフェース）１０４、入力Ｉ／Ｆ１０５、入力Ｉ／Ｆ１０６、出力Ｉ／Ｆ１０７、入出力Ｉ／Ｆ１０８、システムバス１０９を有する。また、情報処理装置１００は、操作部１１１、撮影部１１２、マイク１１３、表示部１１４、記憶媒体１１５と接続されている。以下、各部について説明する。
【００１３】
ＣＰＵ１０１は、ＲＯＭ１０２に格納されたプログラムをＲＡＭ１０３に展開し、実行することで後述する各機能ブロックを実現する。ＲＯＭ１０２は、ＣＰＵ１０１によって実行されるプログラムやプログラムを実行するための各種データを格納する。ＲＡＭ１０３は、ＲＯＭ１０２に格納されたプログラム等を展開するためのワークエリアを提供する。入力Ｉ／Ｆ１０４は、操作部１１１から出力された信号を取得する。入力Ｉ／Ｆ１０５は、撮影部１１２から出力された信号を取得する。入力Ｉ／Ｆ１０６は、マイク１１３から出力された信号を取得する。出力Ｉ／Ｆ１０７は、表示部１１４に対して、後述する各種の処理を実行した結果や画像の出力を制御する信号を出力する。入出力Ｉ／Ｆ１０８は、記憶媒体１１５に対して、後述する各種の処理を実行した結果として出力されたデータ等を出力し、記憶媒体１１５に記憶されたデータ等を取得する。尚、上記の各部は、システムバス１０９を介して接続されている。
【００１４】
操作部１１１は、ボタン、スイッチ等によって構成され、ユーザの操作入力を受け付け、受け付けた入力に対応する信号を入力Ｉ／Ｆ１０４に出力する。撮影部１１２は、レンズ、撮像センサ、Ａ／Ｄコンバータによって構成され、レンズを通過した被写体像をデジタル信号に変換し、入力Ｉ／Ｆ１０５に出力する。マイク１１３は、マイク、Ａ／Ｄコンバータによって構成され、マイクを介して集音された音声をデジタル信号に変換し、入力Ｉ／Ｆ１０６に出力する。表示部１１４は、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）や有機ＥＬ（Ｅｌｅｃｔｒｏ−Ｌｕｍｉｎｅｓｃｅｎｃｅ）等のディスプレイで構成され、撮影部１１２で撮像した映像や、記憶媒体１１５に記憶された映像等を表示する。記憶媒体１１５は、映像や音声のデータを記憶する。尚、記憶媒体１１５は、周知のハードディスクドライブ、コンパクトフラッシュ（登録商標）、ＳＤ（ＳｅｃｕｒｅＤｉｇｉｔａｌ）カード、ＣＤ（ＣｏｍｐａｃｔＤｉｓｋ）等である。
【００１５】
図１（ｂ）は、本実施形態に係る映像データ処理装置（情報処理装置１００）の機能ブロックを示す図である。情報処理装置１００は、画像処理部１２０、人物検出部１２１、音声処理部１３０、音声検出部１３１、話者識別部１３２、撮影者区間推定部１３３、撮影者決定部１３４、撮影者音声検出部１３５を有する。尚、各機能ブロックは、ＣＰＵ１０１が、ＲＯＭ１０２に格納されたプログラムをＲＡＭ１０３に展開し、実行することで実現されている。
【００１６】
画像処理部１２０は、撮影部１１２から出力される被写体像のデジタル信号を、Ｈ２６４（ＭＰＥＧ４ＡＶＣ）などに代表される信号の圧縮を行って、記憶媒体１１５に記憶するデータに変換する。また、画像処理部１２０は撮影映像の確認や再生画像の視聴を行う表示部１１４へ映像信号の供給を行う。また、画像処理部１２０は、人物検出部１２１を有する。人物検出部１２１は、撮影部１１２が撮像した被写体像から公知の顔認識技術や人物認識技術等を用いて撮像した映像に含まれる人物を検出する。
【００１７】
音声処理部１３０は、マイク１１３から出力された音声のデジタル信号をＭＰＥＧ１ＡｕｄｉｏＬａｙｅｒＩＩなどに代表される信号の圧縮を行って、記憶媒体１１５に記憶するデータに変換する。また、音声処理部１３０は、音声検出部１３１、話者識別部１３２、撮影者区間推定部１３３、撮影者決定部１３４、撮影者音声検出部１３５を有する。音声検出部１３１は、マイク１１３から出力される音声のデジタル信号を処理し、人の声を含む音声区間を検出する。話者識別部１３２は、音声検出部１３１が検出した音声区間が属する話者を特定する。撮影者区間推定部１３３は、人物検出部１２１で行う人物検出の結果に基づき撮影者が発声している音声区間を推定する。尚、撮影者区間推定部１３３により撮影者が発声していると推定される音声区間を撮影者区間候補とよぶことにする。撮影者決定部１３４は、撮影者区間推定部１３３が推定した撮影者区間候補に対応する話者から撮影者に相当する話者を決定する。撮影者音声検出部１３５は、撮影者決定部１３４が決定した話者が発話している音声区間を検出する。
【００１８】
以下、情報処理装置１００で実行される撮影者の音声区間を検出する処理動作について説明する。図２は、撮影者の声を検出する処理の流れを示すフローチャートである。
【００１９】
例えば、ユーザが操作部１１１を操作して、撮影部１１２を用いた撮影を開始すると、まずステップＳ２０１で、画像処理部１２０は、映像データの取得を開始する。すなわち、ユーザの録画開始操作をＣＰＵ１０１が検知して、撮影部１１２、画像処理部１２０、マイク１１３、音声処理部１３０を制御し、画像および音声のデータ取得を開始する。取得された画像データおよび音声データは一時的にＲＡＭ１０３に記憶する。以降、ユーザが撮影を終了する（ステップＳ２０７においてＹＥＳ）まで、画像データおよび音声のデータを逐次取得し、取得したデータを画像処理部１２０、音声処理部１３０で処理する。
【００２０】
ステップＳ２０２で、取得した画像データに対して、人物検出部１２１が公知の顔認識技術や人物認識技術を用いて人物検出を行う。動画像は複数の連続した静止画で構成され、市販されているデジタルカメラやビデオカメラでは１秒あたり１５〜３０の画像で動画を構成する。人物検出部１２１では、動画を構成する静止画（フレーム画像）に対して人物検出の処理を実施する。画像処理部１２０は、撮影部１１２が撮像した被写体像のフレーム画像を人物検出部１２１に供給する。人物検出部１２１はフレーム画像から顔認識や人体認識に必要な特徴量を計算し、画像内に人物が含まれるか否かを判定する。人物検出部１２１は、人物検出処理の結果として例えば、画像内の人物の有無、人物が検出された場合は、検出した人物の人数、さらには、画像内における検出した人物の領域を特定する座標などを出力する。出力された結果は、ＣＰＵ１０１がフレーム番号に関連付けてＲＡＭ１０３に記憶する。図３に記憶するデータの一例を示す。図３において、３０１はフレーム番号、３０２はそのフレームで検出した人物の人数、３０３は人物を検出した領域である。フレーム番号は、撮影開始時点を基点とした通し番号とする。また、ここでは、人物の検出領域を人物が含まれる矩形領域の対角座標（Ｘ１，Ｙ１：Ｘ２，Ｙ２）で記録しているが、検出した人物の輪郭の軌跡情報など、他の方法で記録しても良い。また、図３では、人物が検出されなかったフレームについて、検出個数０として記録しているが、人物が検出されたフレームのみ記録するようにしてもよい。さらに、ここでは、検出した人物とフレーム番号を対応付けて記録しているが、フレーム番号に替えてＣＰＵ１０１が管理する時間（時刻）など、人物が検出された時刻が同定される別の指標と関連付けても良い。
【００２１】
続いて、音声データの処理について説明する。まず、ステップＳ２０３において、音声検出部１３１は、マイク１１３が取得した音声データから人の声が含まれる音声区間を検出する。音声区間の検出方法は公知の技術を用いる。一般に、撮影者は撮影時にマイクの近くに位置するため、撮影者の音声は被写体や周囲の音よりも大きな音量となる。したがって、音声検出部１３１では、周波数特性など音の大きさ以外の特徴を用いて音声検出を行う場合であっても、音量が大きな音声区間を検出するのが望ましい。具体的には、あらかじめ音量に対する閾値を設けておき、閾値を越える音量の区間のみを検出するようにする。また、音声処理では、音声データを所定のサンプル数ごとに処理するのが一般的である。本実施形態の音声検出においても、１０ミリ秒の音声データを１フレーム分のデータとして処理する。すなわち１秒あたり１００フレームの音声データを処理する。したがって、１秒間に３０フレームの画像データを処理する画像処理部１２０とは異なる時間間隔でデータを処理する。音声検出部１３１は、音声区間の検出結果として、検出した音声区間が開始するフレーム番号、音声区間が終了するフレーム番号をＲＡＭ１０３に記憶する。なお、フレーム番号に替えてＣＰＵ１０１が管理する時間（時刻）で音声区間を記録しても良い。続いて、ステップＳ２０４において、話者識別部１３２は、ステップＳ２０３で検出した区間の音声データに対して、公知の話者識別技術を用いてステップＳ２０３で検出された音声区間が属する話者を特定する。
【００２２】
ここで、話者を特定する処理について説明する。図４は、話者を識別（特定）する処理の流れを示すフローチャートである。
【００２３】
まずステップＳ４０１において、話者識別部１３２は音声検出部１３１が検出した音声区間の音声データから後段の話者識別の処理に用いる特徴量を抽出する。特徴量は例えば、ＭＦＣＣ（ＭｅｌＦｏｕｒｉｅｒＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）、ＭＦＣＣの一次回帰係数などである。続いてステップＳ４０２で、話者識別部１３２が、音声区間が属する話者を特定する識別処理を行う。話者識別は様々な方法が開示されているが、ここではＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｕｔｒｅＭｏｄｅｌ）やＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）など公知の統計モデルを用いた方法について説明する。統計モデルを用いた話者識別では、まず、話者の音声の特徴量を学習した話者モデルを話者ごとに作成する。話者識別時には、処理対象となる音声に対して各話者モデルが出力する尤度を算出し、もっとも高い尤度を出力した話者モデルの話者を識別対象の音声が属する話者と特定する。また、尤度が所定の閾値を越えない場合は処理対象の音声が属する話者がいないと判定する。すなわち、ステップＳ４０２では、音声処理部１３０がＳ４０１で求めた特徴量とＲＡＭ１０３に記憶している話者モデルを用いて、処理対象の音声が属する話者を特定する。尚、本実施形態では、話者モデルは撮影開始後に取得した音声データから後段のステップＳ４０５で作成し、ＲＡＭ１０３に記憶する。したがって、データ取得開始後、最初に検出された音声区間に対して話者識別を行う時は、ＲＡＭ１０３に話者モデルが記憶されていない。しかしながら、話者識別部１３２が一度作成した話者モデルをＲＡＭ１０３や記憶媒体１１５に記録しておき、話者識別の処理を行う際に記憶されている話者モデルを読み出して用いてもよい。
【００２４】
ステップＳ４０２において、話者モデルがない場合や処理対象の音声が属する話者がいないと判定した場合は、処理対象の音声が新規の話者に属すると判断する（ステップＳ４０３においてＹＥＳ）。この時、続くステップＳ４０５で話者識別部１３２は、処理対象の音声の特徴量を用いて、新たに話者モデルを作成する。作成した話者モデルには、話者を識別するための話者ＩＤを関連付けておく。話者ＩＤは例えば通し番号など、話者が識別できるものであればどのような形態のものでもよい。ここでは、最初に作成する話者モデルを００１、次に作成する話者モデルを００２のように、話者モデルの作成順に３桁の通し番号を話者ＩＤとして関連付ける。作成した話者モデルおよび話者モデルに関連付けた話者ＩＤはＲＡＭ１０３上に記録する。ステップＳ４０２において音声区間が既存の話者に属すると特定した場合（ステップＳ４０３においてＮＯ）、ステップＳ４０４で特定した話者の話者モデルを更新する。すなわち、話者識別部１３２がステップＳ４０１で抽出した特徴量を用いて、該当する話者モデルの学習を行う。なお、ステップＳ４０５やステップＳ４０４で話者モデルを作成、更新する際に用いた特徴量を、話者モデルごとにＲＡＭ１０３に記憶しておき、話者モデル更新時に蓄積された全ての特徴量を用いて話者モデルを学習するようにしてもよい。続くステップＳ４０６で、話者識別部１３２が、話者識別の結果特定された話者ＩＤを処理対象の音声区間に関連付けてＲＡＭ１０３に記録する。話者識別結果として記録する情報の一例を図５に示す。図５において５０１は音声区間のＩＤで、データ取得開始後、検出した順に通し番号を付与する。５０２は音声区間が開始するフレーム番号、５０３は音声区間が終了するフレーム番号である。５０４は話者識別で特定した当該音声区間が属する話者の話者ＩＤである。５０５は当該音声区間が撮影者であるか否かを示す撮影者フラグである。撮影者フラグについては後段のステップＳ２０６の説明で詳述する。以上が、ステップＳ２０４における話者識別の処理の詳細である。
【００２５】
図２のフローチャートに戻り、続くステップＳ２０５以降の処理を以下で説明する。続く、ステップＳ２０５、Ｓ２０６で、撮影者区間推定部１３３は当該音声区間が、撮影者が発声した音声区間か否かを推定する。人物を撮影している期間、すなわち撮像した画像に人物が検出されている期間は、音声には被写体である人物の声が含まれる可能性がある。逆に、人物が撮影されていない期間、すなわち撮像した画像に人物が検出されていない期間に取得された声は、撮影者である可能性が高い。したがって、ここでは、音声区間に対応する期間の画像に人物が検出されていない場合に、当該音声区間を撮影者が発声した音声区間の候補（撮影者区間候補）として推定する。撮影者区間推定部１３３はＲＡＭ１０３に記録されている人物検出結果を参照して、ステップＳ２０３で検出した音声区間に対応する期間に人物が検出されていない場合（ステップＳ２０５においてＮＯ）に、当該音声区間を撮影者区間候補とする。撮影者区間推定部１３３は、当該音声区間が撮影者区間候補であることがわかるような情報を関連付け、話者識別の結果に追加して記録する（ステップＳ２０６）。図５の５０５にその一例を示す。５０５では、撮影者区間候補である音声区間に対して値１を、撮影者候補でない区間に値０を記録している。なお、人物検出結果に誤検出が含まれる場合がある。一般に人物を撮影する場合は、連続した期間で人物が検出されるはずである。１フレームだけ人物が検出された、あるいは人物が検出されたフレームと人物を検出しないフレームが交互に出現するような場合は人物検出が誤検出した可能性が高い。さらには、連続して人物を検出している場合でも、画像中央で検出した人物が直後のフレームで右端に検出されるなど、人物を検出した領域に連続性が無い場合も誤検出の可能性がある。このような誤検出を考慮し、例えば２０フレーム以上など所定期間連続して人物が検出されない場合のみ、人物が検出されないと判断してもよい。あるいは、音声が検出された全期間のうち、人物が検出されている期間が一定割合以下の場合に、人物が検出されていないと判断しても良い。さらには、人物を検出した領域や検出した領域の大きさに連続性がない場合も人物が検出されていないと判断してもよい。このようにすると、例えば誤検出により１フレームだけ人物が検出される場合であっても、当該期間の音声を撮影者区間候補とすることができる。
【００２６】
以上説明したステップＳ２０２における人物検出の処理、ステップＳ２０３からステップＳ２０６における音声データの処理をデータ取得終了まで繰り返し行う（ステップＳ２０７においてＮＯ）。データ取得を終了する（ステップＳ２０７においてＹＥＳ）と、ステップＳ２０８の処理を行う。ステップＳ２０８では、撮影者決定部１３４がＲＡＭ１０３に記録された話者識別結果を用いて、撮影者区間候補が属する話者から撮影者を最終的に決定する。ここでは、話者ごとに撮影者区間候補となっている音声区間の数を集計し、もっとも数が多い話者を撮影者と決定する。続くステップＳ２０９で、撮影者音声検出部１３５が当該話者に対応する音声区間を撮影者の音声区間とする。撮影者の音声区間の情報は撮影者音声の検出結果としてＲＡＭ１０３に記録する。
【００２７】
図５に示した話者クラスタリング結果の場合は、話者ＩＤごとに撮影者フラグが１になる音声区間の数を集計する。話者ＩＤ００１は音声区間ＩＤが１，６，７で撮影者フラグが１になる。同様に、撮影者区間候補の数は、話者ＩＤ００２では音声区間ＩＤが３の１回、話者ＩＤ００３は音声区間ＩＤが４の１回である。この集計結果から、撮影者区間候補の数が最も多い話者ＩＤ００１の話者を撮影者と決定する。また、話者ＩＤ００１に対応する音声区間、すなわち音声区間ＩＤが１，２，５，６，７，９の音声区間を撮影者の音声区間と特定する。撮影者音声検出部１３５が撮影者音声の検出結果として記録する情報は、図５に示した話者識別結果の５０５の項を更新してもよいし、あらたに別の項を設けて撮影者と特定した音声区間ＩＤ１、２、５、６、７に当該区間が撮影者である旨、情報を記録してもよい。尚、撮影者決定部１３４が行う撮影者の話者の決定は、撮影者区間候補の数ではなく、撮影者区間候補の時間長を基準にしても良い。すなわち、話者ごとに撮影者区間候補になっている全ての音声区間の時間長を合計し、合計時間長が最も長い話者を撮影者と決定してもよい。また、撮影者区間候補の数、時間長を組み合わせて用いてもよい。例えば、通常は撮影者区間候補の数を基準に撮影者を決定し、複数の話者で撮影者区間候補の数が同じになって撮影者を一意に特定できない場合に限り、撮影者区間候補の合計時間長を第二の基準として適用するようにしてもよい。また、前述のように、撮影者の音声は他の音に比べて音量が大きいことが予想されるため、撮影者の決定の際に、区間中の音量が大きい方から所定数あるいは所定時間分の撮影者区間候補を対象に撮影者を決定しても良い。たとえば、音量が大きい方から所定数の撮影者区間候補を抽出し、抽出した撮影者区間候補について、もっとも数が多い話者あるいはもっとも時間長の長い話者を撮影者として決定する。なお、ここで用いる音量は、音声検出部１３１が音声区間を検出する際に算出しておき、音声検出の結果を記録する際に、検出した音声区間に対応付けてＲＡＭ１０３に記録しておくのが望ましい。
【００２８】
以上の処理にしたがって、撮影者の音声区間を特定する一例を、図６を用いて説明する。図６において、６０１は音声検出部１３１による音声検出の結果、６０２は人物検出部１２１による人物検出の結果、６０３は話者識別部１３２による話者識別の結果を示している。横軸は時間を表し、いずれも、６０６のデータが開始する時点から６０７のデータが終了する時点までの検出結果を表している。６０１の音声検出結果は、６１１、６１２の区間が音声を検出した区間を示す。人物検出結果６０２は、６２２、６２４の区間が人物を検出した区間を示し、６２１、６２３の区間が人物を検出しなかった区間を示す。話者識別結果６０３は、各音声区間が属する話者ＩＤを矩形内に示している。また、話者識別結果６０３は、ステップＳ２０６の撮影者区間の推定結果も同時に示しており、６３１、６３３の区間が撮影者区間候補で、他の区間は撮影者区間候補ではない区間である。例えば、６３３は話者ＩＤが００２で、撮影者区間候補となる音声区間であることを示す。
【００２９】
まず、データ取得開始後、音声検出部１３１が最初に検出した音声区間６１１に対するステップＳ２０４の話者識別の処理を説明する。話者識別部１３２は音声区間６１１の音声データから特徴量を抽出し、話者識別を行う（ステップＳ４０１、Ｓ４０２）。この時点で話者モデルを作成していないため、話者識別部１３２は、この音声区間は新規の話者に属すると判定する（ステップＳ４０３においてＹＥＳ）。続いて、話者識別部１３２は、音声区間６１１から抽出した特徴量を用いて、話者モデルを作成する。この時、話者ＩＤを００１とする（ステップＳ４０５）。次に、撮影者区間推定部１３３が、音声区間６１１に対応する区間の人物検出結果を参照し、当該区間では人物が検出されていない（人物検出結果の６２１）ので撮影者区間候補とする（ステップＳ２０５、Ｓ２０６）。以上の音声区間６１１に対する処理の結果、この区間は話者ＩＤ００１に属し撮影者区間候補であると記録する（６３１）。
【００３０】
続いて、次の音声区間６１２に対する処理を説明する。音声検出部１３１が音声区間６１２を検出すると、話者識別部１３２が当該区間の特徴量を抽出し、話者識別を行う（ステップＳ２０４、Ｓ４０１）。ここでは、話者識別部１３２は話者識別の結果、当該区間の音声は話者ＩＤ００１の話者に属すると特定する（Ｓ４０２、Ｓ４０３においてＮＯ）場合を説明する。話者識別部１３２が、音声区間６１２の音声データの特徴量を用いて話者ＩＤ００１の話者モデルを更新し、当該音声区間が属する話者ＩＤを００１とする（Ｓ４０４，Ｓ４０６）。続いて、撮影者区間推定部１３３が、音声区間６１２に対応する区間の人物検出結果を参照し、当該区間では人物が検出されている（人物検出結果の６２２）ので撮影者区間候補としない（ステップＳ２０５においてＹＥＳ）。以上の音声区間６１２に対する処理の結果、この区間は話者ＩＤ００１に属し撮影者区間候補でないと記録する（６３２）。
【００３１】
続いて、次の音声区間６１３に対する処理を説明する。音声検出部１３１が音声区間６１３を検出すると、話者識別部１３２は当該区間の特徴量を抽出し、話者識別を行う。ここでは、話者識別部１３２が話者識別を行った結果、音声区間６１３の特徴量に対して、既存の話者ＩＤ００１の話者モデルが出力する尤度が所定の閾値を越えない場合を説明する。このとき、話者識別部１３２は当該音声区間が新規の話者に属すると判定し、当該音声区間の特徴量を用いて新たに話者モデルを作成し、当該区間の属する話者ＩＤを００２とする（Ｓ４０２、Ｓ４０３においてＹＥＳ、Ｓ４０６）。次に、撮影者区間推定部１３３がＳ６１３に対応する音声区間に対応する区間の人物検出結果を参照し、この区間では人物が検出されていない（人物検出結果の６２３）ので当該音声区間を撮影者区間候補にする（ステップＳ２０５においてＮＯ、Ｓ２０６）。以上の音声区間６１３に対する処理の結果、この区間は話者ＩＤ００２に属し撮影者区間候補であると記録する（６３３）。
【００３２】
同様の処理を、６１３以降の音声区間に対してデータが終了するまで順次実施すると、話者識別結果６０３に示す６３１〜６４０の結果を得る。
【００３３】
続く６０４は話者識別結果６０３から撮影者を決定する（ステップＳ２０８）様子を示している。先に説明したように、ステップＳ２０８では話者ごとに、撮影者区間候補となる音声区間を集計する。６０４では、話者ＩＤ００１が３回、話者ＩＤ００２が２回なので、話者ＩＤ００１を撮影者と決定する。なお、この例では、時間長を基準に撮影者を決定する場合も、撮影者区間候補の合計時間長が長い話者ＩＤ００１の話者が撮影者と決定される。
【００３４】
続く６０５で撮影者音声を検出する（ステップＳ２０９）様子を示している。６０４で撮影者に決定された話者ＩＤ００１に属する音声区間、６５１、６５２、６５３、６５４、６５５を最終的に撮影者の音声区間として検出する。
【００３５】
以上説明したように、本発明の映像データ処理装置によれば、１個のマイクロフォンでかつ、撮影者の音声を事前に登録せずに、撮影者の音声を検出することができるため、ユーザの利便性が高くコストを抑えた映像データ処理装置を提供することが可能となる。
【００３６】
（第１の実施形態の変形例）
以上の説明では、画像処理部１２０、音声処理部１３０の処理を並行して行う場合について説明したが、一定量ごとの映像データについて、それぞれの処理を順に行っても上記実施例で説明した撮影者音声区間を検出する処理と同じ処理が可能である。たとえば、ステップＳ２０２の人物検出を行ってからステップＳ２０３の音声検出を行っても良いし、ステップＳ２０３の音声検出の処理を終えてから、ステップＳ２０２の人物検出を行ってもよい。またステップＳ２０２の人物検出を先に行う場合は、人物が検出されなかった区間についてのみ、ステップＳ２０３、ステップＳ２０４、ステップ２０６の処理を行うようにしてもよい。この場合は、人物が検出されない区間のみを音声検出の対象とするため，ステップＳ２０５の判断は行わない。すなわち、ステップＳ２０３の音声検出で検出された音声区間が全て撮影者区間候補となる。このようにすると、音声検出、話者識別を行う頻度を減らすことができ、これらの処理を行うための処理量を減らすことができるという効果がある。なお、人物を検出していない区間については、データ終了後に、当該区間の音声に対して、音声検出，撮影者モデルを用いた話者識別を行えば、当該区間の撮影者の音声を検出できる。
【００３７】
以上の説明では、ユーザが情報処理装置１００を有するデジタルビデオカメラで映像を撮影する場合について説明したが、これに限らず、記憶媒体１１５から映像を読み出す場合に適用してもよい。また、話者識別部１３２が作成した話者モデルは、撮影者音声検出の処理（Ｓ２０９）を終了する際に、ＲＡＭ１０３から削除してもよいし、次の撮影者音声検出に備えて、ＲＡＭ１０３に記録したまま残すか、あるいは記憶媒体１１５に記録してもよい。撮影者音声検出の処理（Ｓ２０９）を終了後にＲＡＭ１０３から削除する場合は、データ取得ごと、すなわち、１回の撮影ごとに話者モデルを作成する。これは、被写体や撮影者が頻繁に交代する場合に適している。話者モデルをＲＡＭ１０３あるいは記憶媒体１１５に記録しておく場合は、撮影を繰り返す中で各話者モデルの学習が進み、話者識別の精度が向上することが期待できる。一方で、話者モデルの種類が徐々に増えるため、一定期間更新されない話者モデルを削除する必要がある。これは、撮影者や被写体の交代が少ない場合に適している。どちらにするかは、デジタルビデオカメラの使用者が切り替えられるようにしておくのが望ましい。また、作成した話者モデルを使用者が削除できるようにしておいてもよい。
【００３８】
以上の説明では、データ終了後に撮影者を決定する（ステップＳ２０８）場合を説明したが、データの処理中に撮影者を決定することもできる。撮影者区間推定部１３３がステップＳ２０６で推定する撮影者区間候補の累積の数または累積の時間数が所定値以上になった場合に、撮影者を決定するようにしても良い。その場合の処理を図７のフローチャートに示す。なお、図２のフローチャートと同じ処理には同じ符号を用いる。図７に示した処理では、図２に示した処理に加え、新たにステップＳ２１０〜ステップＳ２１５が加わっている。
【００３９】
以下、図２に示した処理と同じ処理の説明を省き、新たに加わった処理を説明する。図７のフローチャートでは、ステップＳ２１０において、その時点で撮影者が特定されているか否かで処理が分岐する。データ取得中の撮影者の特定は、ステップＳ２１２およびステップＳ２１３の処理で行われるので、ここから説明を始める。ステップ２１２において、撮影者決定部１３４はＲＡＭ１０３に記録されている話者識別結果を参照し、その時点までに所定量以上の撮影者区間候補があるか否かを判定する。判定の基準は、例えば話者ごとの撮影者区間候補の数である。すなわち、撮影者決定部１３４は話者ごとに撮影者区間候補の数を集計し、最多となる撮影者区間候補の数が所定回数に達した場合（ステップＳ２１２においてＹＥＳ）にステップＳ２１３で撮影者を決定する。一方、ステップＳ２１２において、撮影者区間候補が所定量以上になっていない場合（ステップＳ２１２においてＮＯ）は、ステップＳ２０７に進む。なお、判断基準として、話者ごとの撮影者区間候補の時間長を合計した総時間長を用いてもよい。ステップＳ２１３では、撮影者決定部１３４が先に説明したステップＳ２０８と同じ処理で撮影者を決定する。続くステップＳ２１４で、撮影者音声検出部１３５が、その時点までに検出されている音声区間のうち、撮影者に属する音声区間を撮影者音声の検出結果としてＲＡＭ１０３に記録する。
【００４０】
次にステップＳ２１０における処理を説明する。ステップＳ２１０において、その時点で撮影者が決定されていない場合（ステップＳ２１０においてＮＯ）は話者識別部１３２がステップＳ２０４で話者識別の処理を行って、検出した音声区間が属する話者を特定する。ステップＳ２１０において、撮影者が既に決定されている場合（ステップＳ２１０においてＹＥＳ）は、続くステップＳ２１１で撮影者音声検出部１３５が、撮影者の話者モデルを用いて当該音声区間が撮影者に属するか否かの識別を行う。すなわち、撮影者音声検出部１３５は、当該音声区間の音声データから特徴量を抽出し、ステップＳ２１３で撮影者と決定された話者モデルを用いた話者識別を行う。識別の結果、当該音声区間が撮影者に属すると特定された場合は、音声区間の情報に撮影者であることを示す情報を関連づけてＲＡＭ１０３に記録する。以上のステップＳ２１０、Ｓ２１１、Ｓ２１３、Ｓ２１４の処理を追加することで、データ取得中に撮影者の音声区間を決定することができるようになる。尚、データ取得中にステップＳ２１２に示す条件を満たさない場合は、撮影者が決定されない。したがって、データ終了（ステップＳ２０７においてＹＥＳ）時点で撮影者が決定していない場合（ステップＳ２１５においてＮＯ）は、撮影者決定部１３４が図２で説明した処理と同様にステップＳ２０８で撮影者を決定する。また、続くステップＳ２０９で撮影者音声検出部１３５が撮影者の音声区間を検出し、検出結果をＲＡＭ１０３に記録する。
【００４１】
以上の説明によれば、データ終了を待たずに、撮影者の音声を検出できるようになる。すなわち、デジタルビデオカメラで撮影中に撮影者の音声が検出できるようになる。このとき、ステップＳ２１１で処理中の音声を撮影者と識別した場合に、表示部１１４に撮影者の音声を検出したことをアイコン等でユーザに通知してもよい。このようにすると撮影中に撮影者音声の検出状況をユーザが確認でき、さらにユーザの利便性が増す。
【００４２】
（第２の実施形態）
第１の実施形態では、取得した映像データを順次処理する方法について説明した。これは、デジタルビデオの撮影時など、映像データを逐次処理する場合に適した方法である。先に述べたように、第１の実施形態で説明した方法を記憶媒体１１５に記録されている映像データに適用して撮影者の音声区間を検出することはできる。しかしながら、記録されている映像データは一度に全データを取得することができるため、逐次処理を行う方法よりも、さらに効率よく撮影者の音声を検出することができる。以下、図面を参照しながらその方法を説明する。本実施形態を実現したデータ処理装置の一例として、第１の実施形態で用いたデジタルビデオカメラを例に説明する。データ処理装置の構成は第１の実施形態と同様のため、説明を省略する。
【００４３】
図８は本実施形態において撮影者の声を検出する処理のフローチャートである。まず、ステップＳ８０１で画像処理部１２０が記憶媒体１１５に記憶されている映像データを読み出す。読み出した映像データは、画像処理部１２０が画像データと音声データに分離する。次に、ステップＳ８０２で人物検出部１２１が画像データから人物を検出し、検出した結果をＲＡＭ１０３に記録する。人物検出は公知の顔認識技術や人物認識技術を用いる。続くステップＳ８０３で、音声検出部１３１は人物検出の結果を参照して、人物が検出されていない区間に対応する音声データに対して音声検出を行う。音声検出の結果はＲＡＭ１０３に記録する。
【００４４】
続いて、ステップＳ８０４で、検出された音声区間を話者識別部１３２が話者ごとにクラスタリングする。すなわち、検出された複数の音声区間を、話者に分類する。ここでは、第１の実施形態のステップＳ２０４と同様に話者識別によって各音声区間が属する話者を特定して、音声区間を話者ごとに分類する。また公知のクラスタリング技術を用いて音声区間を分類しても良い。例えば、各音声区間についてＭＦＣＣなどの特徴量から当該音声区間を代表する特徴ベクトルを求める。これらの特徴ベクトルを、公知のＬＢＧ（ＬｉｎｄｅＢｕｚｏＧｒａｙ）アルゴリズムやｋ−ｍｅａｎｓアルゴリズムを用いてクラスタリングする。クラスタリングの結果はＲＡＭ１０３に記録する。
【００４５】
次に、ステップＳ８０５で撮影者決定部１３４がクラスタリング結果を参照して、属する音声区間の数が最も多い話者、または属する音声区間の合計時間長が最も長い話者を撮影者と決定する。次に、ステップＳ８０６で話者識別部１３２が、撮影者に属する音声区間の音声データを用いて、撮影者音声の識別に用いる話者モデルを作成する。これを撮影者モデルとする。ステップＳ８０７では、取得した全区間の音声データに対して音声検出部１３１が音声検出を行う。人物を検出していない区間については、Ｓ８０３で音声検出しているので、ここでは人物を検出している区間のみ音声検出してもよい。
【００４６】
続くステップＳ８０８で、検出した音声区間について、話者識別部１３２が撮影者モデルを用いて当該区間の音声が撮影者に属するか否かを識別する。話者識別の結果に基づき撮影者音声検出部１３５は当該音声区間が撮影者に属するか否かの情報を音声検出の結果に関連付けてＲＡＭ１０３に記録する。すなわち、撮影者の音声を検出し、検出された撮影者の音声区間を検出結果としてＲＡＭ１０３に記録する。
【００４７】
以上の処理の一例を、図９を用いて以下で説明する。図９は第２の実施形態における撮影者の声を検出する様子を示す図である。図９において、９０１はステップＳ８０２の処理を説明している。９１０は９９１のデータが開始する時点から９９２のデータが終了する時点までの人物検出の結果を表している。人物検出部１２１は９１２、９１４、９１６の区間で人物を検出し、９１１、９１３、９１５の区間では人物を検出していない。続く９０２は、音声検出部１３１が、人物を検出していない区間に対して音声検出を行うステップＳ８０３の処理の様子を示している。音声検出部１３１は、９０１で人物が検出されていない区間９１１、９１３、９１５の区間について、対応する区間の音声データから音声検出を行う。音声検出の結果を示したのが９２０である。９２０では、人物を検出していない区間９１１に対して音声区間９２１が検出され、同様に区間９１３に対して音声区間９２２、区間９１５に対して三つの音声区間９２３、９２４、９２５が検出された様子を示している。
【００４８】
次に９０３では、ステップＳ８０４で話者識別部１３２が音声区間を話者クラスタリングする様子を示している。９３０が話者クラスタリングの結果で、音声区間９２１、９２３、９２４が話者００１に、音声区間９２２、９２４が話者００２に分類されている。続く９０４は、ステップ８０５で撮影者を決定する様子を示す。撮影者決定部１３４は話者クラスタリングの結果９０３を参照して各話者が属する音声区間を集計する。属する音声区間が最も多い話者００１を撮影者と決定する。撮影者と決定された話者の音声データ、音声区間９２１、９２３、９２５の音声データを用いて、話者識別部１３２が撮影者モデルを作成する（ステップＳ８０６）。９０５は撮影者音声検出部１３５が撮影者の音声を検出する様子を示す。音声検出部１３１が全ての音声データに対して音声検出を行い（ステップＳ８０７）、話者識別部１３２が各音声区間に対して、作成した撮影者モデルを用いて話者識別を行う。９５０が撮影者音声の検出結果である。すなわち、話者識別部１３２が、音声区間９５１、９５２、９５３、９５４、９５５が撮影者の音声であると識別した結果を、撮影者音声の検出結果として撮影者音声検出部１３５がＲＡＭ１０３に記録する。
【００４９】
以上の説明によれば、映像データを一度に全て取得する場合でも、第１の実施形態と同様に撮影者音声を検出することができる。また、ステップＳ８０３において、人物を検出していない区間についてのみ、音声検出、話者クラスタリングを行うので、逐次処理を行う場合に比べて効率よく処理を行うことができる。
【００５０】
なお、ステップＳ８０４の話者クラスタリングの処理を行わずに撮影者を決定することもできる。この場合、撮影者決定部１３４は、ステップＳ８０５において、音量を基準に撮影者の音声区間を決定する。例えば、音声区間を音量が大きい順に並び替え、音量が大きい方から所定数の音声区間を撮影者の音声区間とする。あるいは、音量が大きい方から合計の時間長が所定時間を越えるまでの音声区間を撮影者の音声区間としてもよい。音量は、音声検出部１３１がステップＳ８０３で音声検出する際に、検出した音声区間の平均音量を算出しておき、検出結果とともにＲＡＭ１０３に記憶しておく。このようにすると、Ｓ８０４における話者クラスタリングの処理を省くことができ、さらに効率よく撮影者の音声を検出できるようになる。
【００５１】
（その他の実施形態）
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項１】
複数の音声区間に対応する音声を表す第１のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置であって、
前記第１のデータストリームと、複数の画像からなる前記動画像を表す第２のデータストリームとを取得する取得手段と、
前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定する特定手段と、
特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する決定手段とを有する情報処理装置。
【請求項２】
更に、前記音声に含まれる声であって、決定された声に基づく基準を満たす声を、前記動画像の撮影者の声として抽出する抽出手段とを有する請求項１に記載の情報処理装置。
【請求項３】
前記決定手段は、前記声に相当する区間のうち、音量が大きい所定数の区間における音に基づいて、前記動画像の撮影者の声を決定する請求項１または請求項２に記載の情報処理装置。
【請求項４】
前記決定手段は、前記声に相当する区間に対応する話者をそれぞれ特定し、特定された話者のうち、前記声に相当する区間の最も多くを占める話者の声に基づいて、前記動画像の撮影者の声を決定する請求項１または請求項２に記載の情報処理装置。
【請求項５】
複数の音声区間に対応する音声を表す第１のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置の動作方法であって、
前記第１のデータストリームと、複数の画像からなる前記動画像を表す第２のデータストリームとを取得する取得工程と、
前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定する特定工程と、
特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する決定工程とを有する動作方法。
【請求項６】
請求項５に記載の動作方法をコンピュータに実行させるためのプログラム。

【図１】