説明

情報処理装置およびその動作方法

【課題】 予め動画像の撮影者の声を登録することなく、動画像の撮影者の声を決定する。
【解決手段】 本発明に係る情報処理装置は、複数の音声区間に対応する音声を表す第1のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置であって、前記第1のデータストリームと、複数の画像からなる前記動画像を表す第2のデータストリームとを取得し、前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定し、特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定の話者の声を決定する技術に関する。
【背景技術】
【0002】
従来、画像から、人物を示すオブジェクト(例えば、顔)を検出する技術が知られている(例えば、特許文献1)。また、顔を検出する技術を用いて、映像(動画像)に含まれる人物の顔を検出し、動画像データに関連付けておくことで、該動画像のダイジェストを再生する技術、該動画像のうち人物の顔が含まれるシーンを検索する技術が知られている(例えば、特許文献2)。
【0003】
ここで、一般家庭で撮影されるホームビデオ等では、人物が写っていないシーンでも撮影者が「南の島に旅行に来ました」、「今日は入園式です」のような発声をすることがある。そして、このように撮影内容を発声し、説明しているシーンはハイライトシーンとして有効である場合がある。
【0004】
従来、カメラやビデオカメラなど動画像を撮影する機能を備えた装置において、撮影者の音声区間を検出する技術として、被写体側の音声を収録するマイクロフォンとは別に、撮影者用のマイクロフォンを備えた装置が知られている(例えば、特許文献3)。また、事前に撮影者の声を登録しておき、入力された音声に対して話者認識を行って、所定の基準を満たす音を、撮影者の声として処理する技術が知られている(例えば、特許文献4)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2009−087250号公報
【特許文献2】特開2007−281858号公報
【特許文献3】特開2007−104405号公報
【特許文献4】特開2007−266661号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、被写体用と撮影者用に二つのマイクロフォンを設けると、部品点数が増え、装置の製造コストが増大する。また、事前に撮影者の声を登録すると、声を登録する手間がかかる他、事前登録していない撮影者の声は検出できないという問題もある。本発明は、このような課題を解決しようとするものであり、事前に撮影者の声を登録することなく、撮影者の声を決定することを目的とする。
【課題を解決するための手段】
【0007】
上記の課題を解決するために、本発明に係る情報処理装置は、複数の音声区間に対応する音声を表す第1のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置であって、前記第1のデータストリームと、複数の画像からなる前記動画像を表す第2のデータストリームとを取得する取得手段と、前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定する特定手段と、特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する決定手段とを有する。
【発明の効果】
【0008】
本発明によれば、事前に撮影者の声を登録することなく、撮影者の声を決定することが可能となる。
【図面の簡単な説明】
【0009】
【図1】本発明に係る情報処理装置のハードウェア構成図および機能ブロック図。
【図2】撮影者の声を検出する処理の流れを示すフローチャート。
【図3】人物を検出した結果の一例を示す図。
【図4】話者を識別する処理の流れを示すフローチャート。
【図5】話者を識別した結果の一例を示す図。
【図6】撮影者の声を検出する様子を示す図。
【図7】撮影者の声を検出する処理の流れを示すフローチャート。
【図8】撮影者の声を検出する処理の流れを示すフローチャート。
【図9】撮影者の声を検出する様子を示す図。
【発明を実施するための形態】
【0010】
以下、本発明に好適な実施形態について、図面を参照しながら説明していく。
【0011】
(第1の実施形態)
図1(a)は、本実施形態に係る映像データ処理装置(情報処理装置100)のハードウェア構成を示す図である。尚、情報処理装置100は、例えば、デジタルビデオカメラの一部に相当する。また、本映像データ処理装置が処理の対象とする映像データは、動画像と該動画像に同期した音声とを示すデータである。即ち、映像データは、複数の音声区間に対応する音声を表す第1のデータストリームと、複数の画像からなる動画像であって、該音声に対応する動画像を表す第2のデータストリームとを含む。
【0012】
情報処理装置100は、CPU(中央演算装置)101、ROM(リードオンリメモリ)102、RAM(ランダムアクセスメモリ)103を有する。また、情報処理装置100は、入力I/F(インタフェース)104、入力I/F105、入力I/F106、出力I/F107、入出力I/F108、システムバス109を有する。また、情報処理装置100は、操作部111、撮影部112、マイク113、表示部114、記憶媒体115と接続されている。以下、各部について説明する。
【0013】
CPU101は、ROM102に格納されたプログラムをRAM103に展開し、実行することで後述する各機能ブロックを実現する。ROM102は、CPU101によって実行されるプログラムやプログラムを実行するための各種データを格納する。RAM103は、ROM102に格納されたプログラム等を展開するためのワークエリアを提供する。入力I/F104は、操作部111から出力された信号を取得する。入力I/F105は、撮影部112から出力された信号を取得する。入力I/F106は、マイク113から出力された信号を取得する。出力I/F107は、表示部114に対して、後述する各種の処理を実行した結果や画像の出力を制御する信号を出力する。入出力I/F108は、記憶媒体115に対して、後述する各種の処理を実行した結果として出力されたデータ等を出力し、記憶媒体115に記憶されたデータ等を取得する。尚、上記の各部は、システムバス109を介して接続されている。
【0014】
操作部111は、ボタン、スイッチ等によって構成され、ユーザの操作入力を受け付け、受け付けた入力に対応する信号を入力I/F104に出力する。撮影部112は、レンズ、撮像センサ、A/Dコンバータによって構成され、レンズを通過した被写体像をデジタル信号に変換し、入力I/F105に出力する。マイク113は、マイク、A/Dコンバータによって構成され、マイクを介して集音された音声をデジタル信号に変換し、入力I/F106に出力する。表示部114は、LCD(Liquid Crystal Display)や有機EL(Electro−Luminescence)等のディスプレイで構成され、撮影部112で撮像した映像や、記憶媒体115に記憶された映像等を表示する。記憶媒体115は、映像や音声のデータを記憶する。尚、記憶媒体115は、周知のハードディスクドライブ、コンパクトフラッシュ(登録商標)、SD(Secure Digital)カード、CD(Compact Disk)等である。
【0015】
図1(b)は、本実施形態に係る映像データ処理装置(情報処理装置100)の機能ブロックを示す図である。情報処理装置100は、画像処理部120、人物検出部121、音声処理部130、音声検出部131、話者識別部132、撮影者区間推定部133、撮影者決定部134、撮影者音声検出部135を有する。尚、各機能ブロックは、CPU101が、ROM102に格納されたプログラムをRAM103に展開し、実行することで実現されている。
【0016】
画像処理部120は、撮影部112から出力される被写体像のデジタル信号を、H264(MPEG4 AVC)などに代表される信号の圧縮を行って、記憶媒体115に記憶するデータに変換する。また、画像処理部120は撮影映像の確認や再生画像の視聴を行う表示部114へ映像信号の供給を行う。また、画像処理部120は、人物検出部121を有する。人物検出部121は、撮影部112が撮像した被写体像から公知の顔認識技術や人物認識技術等を用いて撮像した映像に含まれる人物を検出する。
【0017】
音声処理部130は、マイク113から出力された音声のデジタル信号をMPEG1 Audio Layer IIなどに代表される信号の圧縮を行って、記憶媒体115に記憶するデータに変換する。また、音声処理部130は、音声検出部131、話者識別部132、撮影者区間推定部133、撮影者決定部134、撮影者音声検出部135を有する。音声検出部131は、マイク113から出力される音声のデジタル信号を処理し、人の声を含む音声区間を検出する。話者識別部132は、音声検出部131が検出した音声区間が属する話者を特定する。撮影者区間推定部133は、人物検出部121で行う人物検出の結果に基づき撮影者が発声している音声区間を推定する。尚、撮影者区間推定部133により撮影者が発声していると推定される音声区間を撮影者区間候補とよぶことにする。撮影者決定部134は、撮影者区間推定部133が推定した撮影者区間候補に対応する話者から撮影者に相当する話者を決定する。撮影者音声検出部135は、撮影者決定部134が決定した話者が発話している音声区間を検出する。
【0018】
以下、情報処理装置100で実行される撮影者の音声区間を検出する処理動作について説明する。図2は、撮影者の声を検出する処理の流れを示すフローチャートである。
【0019】
例えば、ユーザが操作部111を操作して、撮影部112を用いた撮影を開始すると、まずステップS201で、画像処理部120は、映像データの取得を開始する。すなわち、ユーザの録画開始操作をCPU101が検知して、撮影部112、画像処理部120、マイク113、音声処理部130を制御し、画像および音声のデータ取得を開始する。取得された画像データおよび音声データは一時的にRAM103に記憶する。以降、ユーザが撮影を終了する(ステップS207においてYES)まで、画像データおよび音声のデータを逐次取得し、取得したデータを画像処理部120、音声処理部130で処理する。
【0020】
ステップS202で、取得した画像データに対して、人物検出部121が公知の顔認識技術や人物認識技術を用いて人物検出を行う。動画像は複数の連続した静止画で構成され、市販されているデジタルカメラやビデオカメラでは1秒あたり15〜30の画像で動画を構成する。人物検出部121では、動画を構成する静止画(フレーム画像)に対して人物検出の処理を実施する。画像処理部120は、撮影部112が撮像した被写体像のフレーム画像を人物検出部121に供給する。人物検出部121はフレーム画像から顔認識や人体認識に必要な特徴量を計算し、画像内に人物が含まれるか否かを判定する。人物検出部121は、人物検出処理の結果として例えば、画像内の人物の有無、人物が検出された場合は、検出した人物の人数、さらには、画像内における検出した人物の領域を特定する座標などを出力する。出力された結果は、CPU101がフレーム番号に関連付けてRAM103に記憶する。図3に記憶するデータの一例を示す。図3において、301はフレーム番号、302はそのフレームで検出した人物の人数、303は人物を検出した領域である。フレーム番号は、撮影開始時点を基点とした通し番号とする。また、ここでは、人物の検出領域を人物が含まれる矩形領域の対角座標(X1,Y1:X2,Y2)で記録しているが、検出した人物の輪郭の軌跡情報など、他の方法で記録しても良い。また、図3では、人物が検出されなかったフレームについて、検出個数0として記録しているが、人物が検出されたフレームのみ記録するようにしてもよい。さらに、ここでは、検出した人物とフレーム番号を対応付けて記録しているが、フレーム番号に替えてCPU101が管理する時間(時刻)など、人物が検出された時刻が同定される別の指標と関連付けても良い。
【0021】
続いて、音声データの処理について説明する。まず、ステップS203において、音声検出部131は、マイク113が取得した音声データから人の声が含まれる音声区間を検出する。音声区間の検出方法は公知の技術を用いる。一般に、撮影者は撮影時にマイクの近くに位置するため、撮影者の音声は被写体や周囲の音よりも大きな音量となる。したがって、音声検出部131では、周波数特性など音の大きさ以外の特徴を用いて音声検出を行う場合であっても、音量が大きな音声区間を検出するのが望ましい。具体的には、あらかじめ音量に対する閾値を設けておき、閾値を越える音量の区間のみを検出するようにする。また、音声処理では、音声データを所定のサンプル数ごとに処理するのが一般的である。本実施形態の音声検出においても、10ミリ秒の音声データを1フレーム分のデータとして処理する。すなわち1秒あたり100フレームの音声データを処理する。したがって、1秒間に30フレームの画像データを処理する画像処理部120とは異なる時間間隔でデータを処理する。音声検出部131は、音声区間の検出結果として、検出した音声区間が開始するフレーム番号、音声区間が終了するフレーム番号をRAM103に記憶する。なお、フレーム番号に替えてCPU101が管理する時間(時刻)で音声区間を記録しても良い。続いて、ステップS204において、話者識別部132は、ステップS203で検出した区間の音声データに対して、公知の話者識別技術を用いてステップS203で検出された音声区間が属する話者を特定する。
【0022】
ここで、話者を特定する処理について説明する。図4は、話者を識別(特定)する処理の流れを示すフローチャートである。
【0023】
まずステップS401において、話者識別部132は音声検出部131が検出した音声区間の音声データから後段の話者識別の処理に用いる特徴量を抽出する。特徴量は例えば、MFCC(Mel Fourier Cepstrum Coefficient)、MFCCの一次回帰係数などである。続いてステップS402で、話者識別部132が、音声区間が属する話者を特定する識別処理を行う。話者識別は様々な方法が開示されているが、ここではGMM(Gaussian Mixutre Model)やHMM(Hidden Markov Model)など公知の統計モデルを用いた方法について説明する。統計モデルを用いた話者識別では、まず、話者の音声の特徴量を学習した話者モデルを話者ごとに作成する。話者識別時には、処理対象となる音声に対して各話者モデルが出力する尤度を算出し、もっとも高い尤度を出力した話者モデルの話者を識別対象の音声が属する話者と特定する。また、尤度が所定の閾値を越えない場合は処理対象の音声が属する話者がいないと判定する。すなわち、ステップS402では、音声処理部130がS401で求めた特徴量とRAM103に記憶している話者モデルを用いて、処理対象の音声が属する話者を特定する。尚、本実施形態では、話者モデルは撮影開始後に取得した音声データから後段のステップS405で作成し、RAM103に記憶する。したがって、データ取得開始後、最初に検出された音声区間に対して話者識別を行う時は、RAM103に話者モデルが記憶されていない。しかしながら、話者識別部132が一度作成した話者モデルをRAM103や記憶媒体115に記録しておき、話者識別の処理を行う際に記憶されている話者モデルを読み出して用いてもよい。
【0024】
ステップS402において、話者モデルがない場合や処理対象の音声が属する話者がいないと判定した場合は、処理対象の音声が新規の話者に属すると判断する(ステップS403においてYES)。この時、続くステップS405で話者識別部132は、処理対象の音声の特徴量を用いて、新たに話者モデルを作成する。作成した話者モデルには、話者を識別するための話者IDを関連付けておく。話者IDは例えば通し番号など、話者が識別できるものであればどのような形態のものでもよい。ここでは、最初に作成する話者モデルを001、次に作成する話者モデルを002のように、話者モデルの作成順に3桁の通し番号を話者IDとして関連付ける。作成した話者モデルおよび話者モデルに関連付けた話者IDはRAM103上に記録する。ステップS402において音声区間が既存の話者に属すると特定した場合(ステップS403においてNO)、ステップS404で特定した話者の話者モデルを更新する。すなわち、話者識別部132がステップS401で抽出した特徴量を用いて、該当する話者モデルの学習を行う。なお、ステップS405やステップS404で話者モデルを作成、更新する際に用いた特徴量を、話者モデルごとにRAM103に記憶しておき、話者モデル更新時に蓄積された全ての特徴量を用いて話者モデルを学習するようにしてもよい。続くステップS406で、話者識別部132が、話者識別の結果特定された話者IDを処理対象の音声区間に関連付けてRAM103に記録する。話者識別結果として記録する情報の一例を図5に示す。図5において501は音声区間のIDで、データ取得開始後、検出した順に通し番号を付与する。502は音声区間が開始するフレーム番号、503は音声区間が終了するフレーム番号である。504は話者識別で特定した当該音声区間が属する話者の話者IDである。505は当該音声区間が撮影者であるか否かを示す撮影者フラグである。撮影者フラグについては後段のステップS206の説明で詳述する。以上が、ステップS204における話者識別の処理の詳細である。
【0025】
図2のフローチャートに戻り、続くステップS205以降の処理を以下で説明する。続く、ステップS205、S206で、撮影者区間推定部133は当該音声区間が、撮影者が発声した音声区間か否かを推定する。人物を撮影している期間、すなわち撮像した画像に人物が検出されている期間は、音声には被写体である人物の声が含まれる可能性がある。逆に、人物が撮影されていない期間、すなわち撮像した画像に人物が検出されていない期間に取得された声は、撮影者である可能性が高い。したがって、ここでは、音声区間に対応する期間の画像に人物が検出されていない場合に、当該音声区間を撮影者が発声した音声区間の候補(撮影者区間候補)として推定する。撮影者区間推定部133はRAM103に記録されている人物検出結果を参照して、ステップS203で検出した音声区間に対応する期間に人物が検出されていない場合(ステップS205においてNO)に、当該音声区間を撮影者区間候補とする。撮影者区間推定部133は、当該音声区間が撮影者区間候補であることがわかるような情報を関連付け、話者識別の結果に追加して記録する(ステップS206)。図5の505にその一例を示す。505では、撮影者区間候補である音声区間に対して値1を、撮影者候補でない区間に値0を記録している。なお、人物検出結果に誤検出が含まれる場合がある。一般に人物を撮影する場合は、連続した期間で人物が検出されるはずである。1フレームだけ人物が検出された、あるいは人物が検出されたフレームと人物を検出しないフレームが交互に出現するような場合は人物検出が誤検出した可能性が高い。さらには、連続して人物を検出している場合でも、画像中央で検出した人物が直後のフレームで右端に検出されるなど、人物を検出した領域に連続性が無い場合も誤検出の可能性がある。このような誤検出を考慮し、例えば20フレーム以上など所定期間連続して人物が検出されない場合のみ、人物が検出されないと判断してもよい。あるいは、音声が検出された全期間のうち、人物が検出されている期間が一定割合以下の場合に、人物が検出されていないと判断しても良い。さらには、人物を検出した領域や検出した領域の大きさに連続性がない場合も人物が検出されていないと判断してもよい。このようにすると、例えば誤検出により1フレームだけ人物が検出される場合であっても、当該期間の音声を撮影者区間候補とすることができる。
【0026】
以上説明したステップS202における人物検出の処理、ステップS203からステップS206における音声データの処理をデータ取得終了まで繰り返し行う(ステップS207においてNO)。データ取得を終了する(ステップS207においてYES)と、ステップS208の処理を行う。ステップS208では、撮影者決定部134がRAM103に記録された話者識別結果を用いて、撮影者区間候補が属する話者から撮影者を最終的に決定する。ここでは、話者ごとに撮影者区間候補となっている音声区間の数を集計し、もっとも数が多い話者を撮影者と決定する。続くステップS209で、撮影者音声検出部135が当該話者に対応する音声区間を撮影者の音声区間とする。撮影者の音声区間の情報は撮影者音声の検出結果としてRAM103に記録する。
【0027】
図5に示した話者クラスタリング結果の場合は、話者IDごとに撮影者フラグが1になる音声区間の数を集計する。話者ID 001は音声区間IDが1,6,7で撮影者フラグが1になる。同様に、撮影者区間候補の数は、話者ID002では音声区間IDが3の1回、話者ID 003は音声区間IDが4の1回である。この集計結果から、撮影者区間候補の数が最も多い話者ID 001の話者を撮影者と決定する。また、話者ID 001に対応する音声区間、すなわち音声区間IDが1,2,5,6,7,9の音声区間を撮影者の音声区間と特定する。撮影者音声検出部135が撮影者音声の検出結果として記録する情報は、図5に示した話者識別結果の505の項を更新してもよいし、あらたに別の項を設けて撮影者と特定した音声区間ID1、2、5、6、7に当該区間が撮影者である旨、情報を記録してもよい。尚、撮影者決定部134が行う撮影者の話者の決定は、撮影者区間候補の数ではなく、撮影者区間候補の時間長を基準にしても良い。すなわち、話者ごとに撮影者区間候補になっている全ての音声区間の時間長を合計し、合計時間長が最も長い話者を撮影者と決定してもよい。また、撮影者区間候補の数、時間長を組み合わせて用いてもよい。例えば、通常は撮影者区間候補の数を基準に撮影者を決定し、複数の話者で撮影者区間候補の数が同じになって撮影者を一意に特定できない場合に限り、撮影者区間候補の合計時間長を第二の基準として適用するようにしてもよい。また、前述のように、撮影者の音声は他の音に比べて音量が大きいことが予想されるため、撮影者の決定の際に、区間中の音量が大きい方から所定数あるいは所定時間分の撮影者区間候補を対象に撮影者を決定しても良い。たとえば、音量が大きい方から所定数の撮影者区間候補を抽出し、抽出した撮影者区間候補について、もっとも数が多い話者あるいはもっとも時間長の長い話者を撮影者として決定する。なお、ここで用いる音量は、音声検出部131が音声区間を検出する際に算出しておき、音声検出の結果を記録する際に、検出した音声区間に対応付けてRAM103に記録しておくのが望ましい。
【0028】
以上の処理にしたがって、撮影者の音声区間を特定する一例を、図6を用いて説明する。図6において、601は音声検出部131による音声検出の結果、602は人物検出部121による人物検出の結果、603は話者識別部132による話者識別の結果を示している。横軸は時間を表し、いずれも、606のデータが開始する時点から607のデータが終了する時点までの検出結果を表している。601の音声検出結果は、611、612の区間が音声を検出した区間を示す。人物検出結果602は、622、624の区間が人物を検出した区間を示し、621、623の区間が人物を検出しなかった区間を示す。話者識別結果603は、各音声区間が属する話者IDを矩形内に示している。また、話者識別結果603は、ステップS206の撮影者区間の推定結果も同時に示しており、631、633の区間が撮影者区間候補で、他の区間は撮影者区間候補ではない区間である。例えば、633は話者IDが002で、撮影者区間候補となる音声区間であることを示す。
【0029】
まず、データ取得開始後、音声検出部131が最初に検出した音声区間611に対するステップS204の話者識別の処理を説明する。話者識別部132は音声区間611の音声データから特徴量を抽出し、話者識別を行う(ステップS401、S402)。この時点で話者モデルを作成していないため、話者識別部132は、この音声区間は新規の話者に属すると判定する(ステップS403においてYES)。続いて、話者識別部132は、音声区間611から抽出した特徴量を用いて、話者モデルを作成する。この時、話者IDを001とする(ステップS405)。次に、撮影者区間推定部133が、音声区間611に対応する区間の人物検出結果を参照し、当該区間では人物が検出されていない(人物検出結果の621)ので撮影者区間候補とする(ステップS205、S206)。以上の音声区間611に対する処理の結果、この区間は話者ID 001に属し撮影者区間候補であると記録する(631)。
【0030】
続いて、次の音声区間612に対する処理を説明する。音声検出部131が音声区間612を検出すると、話者識別部132が当該区間の特徴量を抽出し、話者識別を行う(ステップS204、S401)。ここでは、話者識別部132は話者識別の結果、当該区間の音声は話者ID 001の話者に属すると特定する(S402、S403においてNO)場合を説明する。話者識別部132が、音声区間612の音声データの特徴量を用いて話者ID 001の話者モデルを更新し、当該音声区間が属する話者IDを 001とする(S404,S406)。続いて、撮影者区間推定部133が、音声区間612に対応する区間の人物検出結果を参照し、当該区間では人物が検出されている(人物検出結果の622)ので撮影者区間候補としない(ステップS205においてYES)。以上の音声区間612に対する処理の結果、この区間は話者ID001に属し撮影者区間候補でないと記録する(632)。
【0031】
続いて、次の音声区間613に対する処理を説明する。音声検出部131が音声区間613を検出すると、話者識別部132は当該区間の特徴量を抽出し、話者識別を行う。ここでは、話者識別部132が話者識別を行った結果、音声区間613の特徴量に対して、既存の話者ID 001の話者モデルが出力する尤度が所定の閾値を越えない場合を説明する。このとき、話者識別部132は当該音声区間が新規の話者に属すると判定し、当該音声区間の特徴量を用いて新たに話者モデルを作成し、当該区間の属する話者IDを002とする(S402、S403においてYES、S406)。次に、撮影者区間推定部133がS613に対応する音声区間に対応する区間の人物検出結果を参照し、この区間では人物が検出されていない(人物検出結果の623)ので当該音声区間を撮影者区間候補にする(ステップS205においてNO、S206)。以上の音声区間613に対する処理の結果、この区間は話者ID002に属し撮影者区間候補であると記録する(633)。
【0032】
同様の処理を、613以降の音声区間に対してデータが終了するまで順次実施すると、話者識別結果603に示す631〜640の結果を得る。
【0033】
続く604は話者識別結果603から撮影者を決定する(ステップS208)様子を示している。先に説明したように、ステップS208では話者ごとに、撮影者区間候補となる音声区間を集計する。604では、話者ID 001が3回、話者ID 002が2回なので、話者ID 001を撮影者と決定する。なお、この例では、時間長を基準に撮影者を決定する場合も、撮影者区間候補の合計時間長が長い話者ID001の話者が撮影者と決定される。
【0034】
続く605で撮影者音声を検出する(ステップS209)様子を示している。604で撮影者に決定された話者ID001に属する音声区間、651、652、653、654、655を最終的に撮影者の音声区間として検出する。
【0035】
以上説明したように、本発明の映像データ処理装置によれば、1個のマイクロフォンでかつ、撮影者の音声を事前に登録せずに、撮影者の音声を検出することができるため、ユーザの利便性が高くコストを抑えた映像データ処理装置を提供することが可能となる。
【0036】
(第1の実施形態の変形例)
以上の説明では、画像処理部120、音声処理部130の処理を並行して行う場合について説明したが、一定量ごとの映像データについて、それぞれの処理を順に行っても上記実施例で説明した撮影者音声区間を検出する処理と同じ処理が可能である。たとえば、ステップS202の人物検出を行ってからステップS203の音声検出を行っても良いし、ステップS203の音声検出の処理を終えてから、ステップS202の人物検出を行ってもよい。またステップS202の人物検出を先に行う場合は、人物が検出されなかった区間についてのみ、ステップS203、ステップS204、ステップ206の処理を行うようにしてもよい。この場合は、人物が検出されない区間のみを音声検出の対象とするため,ステップS205の判断は行わない。すなわち、ステップS203の音声検出で検出された音声区間が全て撮影者区間候補となる。このようにすると、音声検出、話者識別を行う頻度を減らすことができ、これらの処理を行うための処理量を減らすことができるという効果がある。なお、人物を検出していない区間については、データ終了後に、当該区間の音声に対して、音声検出,撮影者モデルを用いた話者識別を行えば、当該区間の撮影者の音声を検出できる。
【0037】
以上の説明では、ユーザが情報処理装置100を有するデジタルビデオカメラで映像を撮影する場合について説明したが、これに限らず、記憶媒体115から映像を読み出す場合に適用してもよい。また、話者識別部132が作成した話者モデルは、撮影者音声検出の処理(S209)を終了する際に、RAM103から削除してもよいし、次の撮影者音声検出に備えて、RAM103に記録したまま残すか、あるいは記憶媒体115に記録してもよい。撮影者音声検出の処理(S209)を終了後にRAM103から削除する場合は、データ取得ごと、すなわち、1回の撮影ごとに話者モデルを作成する。これは、被写体や撮影者が頻繁に交代する場合に適している。話者モデルをRAM103あるいは記憶媒体115に記録しておく場合は、撮影を繰り返す中で各話者モデルの学習が進み、話者識別の精度が向上することが期待できる。一方で、話者モデルの種類が徐々に増えるため、一定期間更新されない話者モデルを削除する必要がある。これは、撮影者や被写体の交代が少ない場合に適している。どちらにするかは、デジタルビデオカメラの使用者が切り替えられるようにしておくのが望ましい。また、作成した話者モデルを使用者が削除できるようにしておいてもよい。
【0038】
以上の説明では、データ終了後に撮影者を決定する(ステップS208)場合を説明したが、データの処理中に撮影者を決定することもできる。撮影者区間推定部133がステップS206で推定する撮影者区間候補の累積の数または累積の時間数が所定値以上になった場合に、撮影者を決定するようにしても良い。その場合の処理を図7のフローチャートに示す。なお、図2のフローチャートと同じ処理には同じ符号を用いる。図7に示した処理では、図2に示した処理に加え、新たにステップS210〜ステップS215が加わっている。
【0039】
以下、図2に示した処理と同じ処理の説明を省き、新たに加わった処理を説明する。図7のフローチャートでは、ステップS210において、その時点で撮影者が特定されているか否かで処理が分岐する。データ取得中の撮影者の特定は、ステップS212およびステップS213の処理で行われるので、ここから説明を始める。ステップ212において、撮影者決定部134はRAM103に記録されている話者識別結果を参照し、その時点までに所定量以上の撮影者区間候補があるか否かを判定する。判定の基準は、例えば話者ごとの撮影者区間候補の数である。すなわち、撮影者決定部134は話者ごとに撮影者区間候補の数を集計し、最多となる撮影者区間候補の数が所定回数に達した場合(ステップS212においてYES)にステップS213で撮影者を決定する。一方、ステップS212において、撮影者区間候補が所定量以上になっていない場合(ステップS212においてNO)は、ステップS207に進む。なお、判断基準として、話者ごとの撮影者区間候補の時間長を合計した総時間長を用いてもよい。ステップS213では、撮影者決定部134が先に説明したステップS208と同じ処理で撮影者を決定する。続くステップS214で、撮影者音声検出部135が、その時点までに検出されている音声区間のうち、撮影者に属する音声区間を撮影者音声の検出結果としてRAM103に記録する。
【0040】
次にステップS210における処理を説明する。ステップS210において、その時点で撮影者が決定されていない場合(ステップS210においてNO)は話者識別部132がステップS204で話者識別の処理を行って、検出した音声区間が属する話者を特定する。ステップS210において、撮影者が既に決定されている場合(ステップS210においてYES)は、続くステップS211で撮影者音声検出部135が、撮影者の話者モデルを用いて当該音声区間が撮影者に属するか否かの識別を行う。すなわち、撮影者音声検出部135は、当該音声区間の音声データから特徴量を抽出し、ステップS213で撮影者と決定された話者モデルを用いた話者識別を行う。識別の結果、当該音声区間が撮影者に属すると特定された場合は、音声区間の情報に撮影者であることを示す情報を関連づけてRAM103に記録する。以上のステップS210、S211、S213、S214の処理を追加することで、データ取得中に撮影者の音声区間を決定することができるようになる。尚、データ取得中にステップS212に示す条件を満たさない場合は、撮影者が決定されない。したがって、データ終了(ステップS207においてYES)時点で撮影者が決定していない場合(ステップS215においてNO)は、撮影者決定部134が図2で説明した処理と同様にステップS208で撮影者を決定する。また、続くステップS209で撮影者音声検出部135が撮影者の音声区間を検出し、検出結果をRAM103に記録する。
【0041】
以上の説明によれば、データ終了を待たずに、撮影者の音声を検出できるようになる。すなわち、デジタルビデオカメラで撮影中に撮影者の音声が検出できるようになる。このとき、ステップS211で処理中の音声を撮影者と識別した場合に、表示部114に撮影者の音声を検出したことをアイコン等でユーザに通知してもよい。このようにすると撮影中に撮影者音声の検出状況をユーザが確認でき、さらにユーザの利便性が増す。
【0042】
(第2の実施形態)
第1の実施形態では、取得した映像データを順次処理する方法について説明した。これは、デジタルビデオの撮影時など、映像データを逐次処理する場合に適した方法である。先に述べたように、第1の実施形態で説明した方法を記憶媒体115に記録されている映像データに適用して撮影者の音声区間を検出することはできる。しかしながら、記録されている映像データは一度に全データを取得することができるため、逐次処理を行う方法よりも、さらに効率よく撮影者の音声を検出することができる。以下、図面を参照しながらその方法を説明する。本実施形態を実現したデータ処理装置の一例として、第1の実施形態で用いたデジタルビデオカメラを例に説明する。データ処理装置の構成は第1の実施形態と同様のため、説明を省略する。
【0043】
図8は本実施形態において撮影者の声を検出する処理のフローチャートである。まず、ステップS801で画像処理部120が記憶媒体115に記憶されている映像データを読み出す。読み出した映像データは、画像処理部120が画像データと音声データに分離する。次に、ステップS802で人物検出部121が画像データから人物を検出し、検出した結果をRAM103に記録する。人物検出は公知の顔認識技術や人物認識技術を用いる。続くステップS803で、音声検出部131は人物検出の結果を参照して、人物が検出されていない区間に対応する音声データに対して音声検出を行う。音声検出の結果はRAM103に記録する。
【0044】
続いて、ステップS804で、検出された音声区間を話者識別部132が話者ごとにクラスタリングする。すなわち、検出された複数の音声区間を、話者に分類する。ここでは、第1の実施形態のステップS204と同様に話者識別によって各音声区間が属する話者を特定して、音声区間を話者ごとに分類する。また公知のクラスタリング技術を用いて音声区間を分類しても良い。例えば、各音声区間についてMFCCなどの特徴量から当該音声区間を代表する特徴ベクトルを求める。これらの特徴ベクトルを、公知のLBG(Linde Buzo Gray)アルゴリズムやk−meansアルゴリズムを用いてクラスタリングする。クラスタリングの結果はRAM103に記録する。
【0045】
次に、ステップS805で撮影者決定部134がクラスタリング結果を参照して、属する音声区間の数が最も多い話者、または属する音声区間の合計時間長が最も長い話者を撮影者と決定する。次に、ステップS806で話者識別部132が、撮影者に属する音声区間の音声データを用いて、撮影者音声の識別に用いる話者モデルを作成する。これを撮影者モデルとする。ステップS807では、取得した全区間の音声データに対して音声検出部131が音声検出を行う。人物を検出していない区間については、S803で音声検出しているので、ここでは人物を検出している区間のみ音声検出してもよい。
【0046】
続くステップS808で、検出した音声区間について、話者識別部132が撮影者モデルを用いて当該区間の音声が撮影者に属するか否かを識別する。話者識別の結果に基づき撮影者音声検出部135は当該音声区間が撮影者に属するか否かの情報を音声検出の結果に関連付けてRAM103に記録する。すなわち、撮影者の音声を検出し、検出された撮影者の音声区間を検出結果としてRAM103に記録する。
【0047】
以上の処理の一例を、図9を用いて以下で説明する。図9は第2の実施形態における撮影者の声を検出する様子を示す図である。図9において、901はステップS802の処理を説明している。910は991のデータが開始する時点から992のデータが終了する時点までの人物検出の結果を表している。人物検出部121は912、914、916の区間で人物を検出し、911、913、915の区間では人物を検出していない。続く902は、音声検出部131が、人物を検出していない区間に対して音声検出を行うステップS803の処理の様子を示している。音声検出部131は、901で人物が検出されていない区間911、913、915の区間について、対応する区間の音声データから音声検出を行う。音声検出の結果を示したのが920である。920では、人物を検出していない区間911に対して音声区間921が検出され、同様に区間913に対して音声区間922、区間915に対して三つの音声区間923、924、925が検出された様子を示している。
【0048】
次に903では、ステップS804で話者識別部132が音声区間を話者クラスタリングする様子を示している。930が話者クラスタリングの結果で、音声区間921、923、924が話者001に、音声区間922、924が話者002に分類されている。続く904は、ステップ805で撮影者を決定する様子を示す。撮影者決定部134は話者クラスタリングの結果903を参照して各話者が属する音声区間を集計する。属する音声区間が最も多い話者001を撮影者と決定する。撮影者と決定された話者の音声データ、音声区間921、923、925の音声データを用いて、話者識別部132が撮影者モデルを作成する(ステップS806)。905は撮影者音声検出部135が撮影者の音声を検出する様子を示す。音声検出部131が全ての音声データに対して音声検出を行い(ステップS807)、話者識別部132が各音声区間に対して、作成した撮影者モデルを用いて話者識別を行う。950が撮影者音声の検出結果である。すなわち、話者識別部132が、音声区間951、952、953、954、955が撮影者の音声であると識別した結果を、撮影者音声の検出結果として撮影者音声検出部135がRAM103に記録する。
【0049】
以上の説明によれば、映像データを一度に全て取得する場合でも、第1の実施形態と同様に撮影者音声を検出することができる。また、ステップS803において、人物を検出していない区間についてのみ、音声検出、話者クラスタリングを行うので、逐次処理を行う場合に比べて効率よく処理を行うことができる。
【0050】
なお、ステップS804の話者クラスタリングの処理を行わずに撮影者を決定することもできる。この場合、撮影者決定部134は、ステップS805において、音量を基準に撮影者の音声区間を決定する。例えば、音声区間を音量が大きい順に並び替え、音量が大きい方から所定数の音声区間を撮影者の音声区間とする。あるいは、音量が大きい方から合計の時間長が所定時間を越えるまでの音声区間を撮影者の音声区間としてもよい。音量は、音声検出部131がステップS803で音声検出する際に、検出した音声区間の平均音量を算出しておき、検出結果とともにRAM103に記憶しておく。このようにすると、S804における話者クラスタリングの処理を省くことができ、さらに効率よく撮影者の音声を検出できるようになる。
【0051】
(その他の実施形態)
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア(プログラム)を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ(またはCPUやMPU等)がプログラムを読み出して実行する処理である。

【特許請求の範囲】
【請求項1】
複数の音声区間に対応する音声を表す第1のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置であって、
前記第1のデータストリームと、複数の画像からなる前記動画像を表す第2のデータストリームとを取得する取得手段と、
前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定する特定手段と、
特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する決定手段とを有する情報処理装置。
【請求項2】
更に、前記音声に含まれる声であって、決定された声に基づく基準を満たす声を、前記動画像の撮影者の声として抽出する抽出手段とを有する請求項1に記載の情報処理装置。
【請求項3】
前記決定手段は、前記声に相当する区間のうち、音量が大きい所定数の区間における音に基づいて、前記動画像の撮影者の声を決定する請求項1または請求項2に記載の情報処理装置。
【請求項4】
前記決定手段は、前記声に相当する区間に対応する話者をそれぞれ特定し、特定された話者のうち、前記声に相当する区間の最も多くを占める話者の声に基づいて、前記動画像の撮影者の声を決定する請求項1または請求項2に記載の情報処理装置。
【請求項5】
複数の音声区間に対応する音声を表す第1のデータストリームから、該音声に対応する動画像の撮影者の声を決定する情報処理装置の動作方法であって、
前記第1のデータストリームと、複数の画像からなる前記動画像を表す第2のデータストリームとを取得する取得工程と、
前記複数の画像のうち、人物を示すオブジェクトが含まれない画像を特定する特定工程と、
特定された画像に対応する前記音声区間のうち、声に相当する区間における音に基づいて、前記動画像の撮影者の声を決定する決定工程とを有する動作方法。
【請求項6】
請求項5に記載の動作方法をコンピュータに実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2012−118251(P2012−118251A)
【公開日】平成24年6月21日(2012.6.21)
【国際特許分類】
【出願番号】特願2010−267293(P2010−267293)
【出願日】平成22年11月30日(2010.11.30)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】