説明

映像音声出力装置

【課題】同一人物の発話中にシーンチェンジが発生しても、違和感が生じない音声定位技術を提供する。
【解決手段】映像音声出力装置1は、映像を解析して、話者の位置を特定するとともに、シーンチェンジの有無を検出し、特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する映像解析部11と、特定した話者の位置に音声を定位させるように話者音声定位パラメータの値を設定する話者音声定位パラメータ設定部12と、特定された話者がシーンチェンジの前後で同一人物であると判定された場合には、話者音声定位パラメータ設定部12で設定された話者音声定位パラメータの値に対して、定位位置の変更を小さくするように話者音声定位パラメータの値を調整する話者音声定位パラメータ調整部14と、調整された話者音声定位パラメータの値に従って音声の定位変更処理を行う定位処理部15と、定位変更された音声を出力する音声出力部17と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像及び音声を含むコンテンツデータを出力する映像音声出力装置に関し、特に、映像の話者位置に応じて音声の定位を決定し、音声出力制御を行う映像音声出力装置に関する。
【背景技術】
【0002】
テレビ放送などの番組コンテンツを受信して、ディスプレイに映像を表示するとともにスピーカから音声を出力する場合、モノラル音声においてはスピーカの位置から人の声が聞こえるようになっている。また、ステレオ/サラウンド音声においては、多くの場合、画面中央に人の声を定位させて、画面中央から人の声が聞こえるようになっている。
【0003】
しかしながら、一般に、ディスプレイ上の話者位置に人の声が定位していると臨場感が増すことが知られているため、従来においては、映像解析により話者位置を特定し、話者位置に音声を定位させる音声定位技術が開示されている。
【0004】
例えば、特許文献1では、話者の位置を検出し、検出した位置に応じて、複数のスピーカから出力する音声の音量を制御している。また、特許文献2では、発話者の位置を特定し、特定した位置に応じて、エフェクトや音量調整を行い、最適なスピーカから音声データを出力している。
【0005】
【特許文献1】特開平11−313272号公報
【特許文献2】特開2007−110582号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来技術においては、シーンの内容を考慮せずに、話者位置に音声を定位させているため、シーンによっては、臨場感を高めるどころか、却ってストレスを感じてしまう場合がある。例えば、台詞の最中にカメラアングルが変わって、同一話者の話者位置が急に変わるシーンにおいては、同一人物の台詞の最中に音声の定位位置が変更されるので、当該シーンを視聴している視聴者は、却ってストレスを感じてしまうという問題がある。
【0007】
このように従来技術においては、シーンの内容を考慮せずに、一律に話者位置に音声を定位させているため、同一人物の台詞の最中にシーンチェンジが発生して話者位置が急に変わったシーンにおいては、臨場感を高めるどころか、却って違和感が生じるという問題がある。
【0008】
本発明は上記の事情を鑑みてなされたものであり、その課題の一例としては、話者位置を特定して、特定した話者位置に音声を定位させる音声定位技術において、同一人物の発話中にシーンチェンジが発生して話者位置が急に変わっても、違和感を生じない映像音声出力装置を提供することにある。
【課題を解決するための手段】
【0009】
上記の課題を達成するため、請求項1に係る映像音声出力装置は、音声定位パラメータに基づいて音声定位を制御する映像音声出力装置であって、映像を解析して、話者の位置を特定する話者位置特定手段と、前記話者位置特定手段により特定した話者の位置に音声を定位させるように前記音声定位パラメータの値を設定する音声定位パラメータ設定手段と、映像を解析して、シーンチェンジの有無を検出するシーンチェンジ検出手段と、映像または音声を解析して、前記話者位置特定手段で特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する同一話者判定手段と、シーンチェンジ検出手段によりシーンチェンジがあると検出され、かつ、前記同一話者判定手段により、前記話者位置特定手段で特定された話者が当該シーンチェンジの前後で同一人物であると判定された場合には、前記音声定位パラメータ設定手段で設定された音声定位パラメータの値に対して、定位位置の変更を小さくするように前記音声定位パラメータの値を調整する音声定位パラメータ調整手段と、前記音声定位パラメータ調整手段により、調整された音声定位パラメータの値に従って音声の定位変更処理を行い、映像及び音声を出力する定位変更出力手段と、を備えることを特徴とする。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施の形態を図面を用いて説明する。
【0011】
図1は、本発明の実施の形態に係る映像音声出力装置1の概略構成図である。映像音声出力装置1は、同一話者の発話中のシーンチェンジを考慮しつつ、話者位置に合わせた音声定位で音声を出力する装置であり、詳しくは、映像解析部11、話者音声定位パラメータ設定部12、話者音声定位パラメータ調整部14、定位処理部15、映像表示部16、及び音声出力部17を備えている。
【0012】
ここで、映像音声出力装置1は、外部から入力された映像及び音声を含むコンテンツデータを再生して外部に出力する機能を有する装置であれば何であってもよく、例えば、具体的には、テレビジョン(TV)、DVDプレーヤ及びレコーダ、BDプレーヤ及びレコーダ、パーソナルコンピュータ(PC)などが想定される。また、「話者」とは、映像データ(画面上)において発話している者をいい、「話者位置」とは、話者の画面上の位置をいうが、より正確には話者の顔(特に口)付近の位置をいう。また、「話者位置に合わせた音声定位で音声を出力する」とは、例えば、話者が画面上左側に存在する場合には、画面左側に設けたスピーカから出力される音声の音量を大きくするなどして、話者の位置から音声が聞こえてくるように音声を出力することをいう。
【0013】
映像解析部11は、入力した映像データを映像表示部16に出力する(音声データと同期させるため、必要に応じて映像データを遅延させて映像表示部16に出力する)とともに、入力した映像データから話者位置を特定するようになっている。話者位置の特定方法については、公知の技術を用いて行われる。例えば、映像データから人の顔面の領域を検出し、顔面の中の口の動きを検出することで、話者を特定するようにしてもよい。この際、口の動きの検出においては、前後数フレームの映像データを用いて、口領域の輝度などの差分を特徴量として算出し、算出した特徴量の値が最も大きい口領域を持った人を話者と判定とすれば、複数の顔面が検出された場合であっても、話者を特定することができる。
【0014】
また、映像解析部11は、入力した映像データからシーンチェンジの有無を検出をするようになっている。シーンチェンジの有無の検出方法については、公知の技術を用いて行われる。例えば、該当フレームと前フレームの輝度の差分Vdを各画素に対して算出して、差分Vdが閾値以上の画素数Vdcntをカウントし、画素数Vdcntが、全画素数に対して予め定めた割合を越えた場合には、シーンチェンジありと判定する方法を用いてもよい。
【0015】
また、映像解析部11は、シーンチェンジありと判定した場合には、特定した話者が同一人物であるか否かを判定するようになっている。詳しくは、映像解析部11が現シーンで特定した話者の顔特徴量を算出し、前シーン(シーンチェンジ前)で特定した話者の顔特徴量と比較して、顔特徴量が等しい場合には、特定した話者は同一人物であると判定するようになっている。なお、前シーンにおける話者の顔特徴量は、後述するように一時記憶領域に保存されている。ここで、顔特徴量とは、例えば、顔器官の形や位置関係に基づいて算出される値であり、顔特徴量の算出方法に関しては公知の技術が用いられる。
【0016】
また、映像解析部11は、特定した話者の位置を話者音声定位パラメータ設定部12に出力し、シーンチェンジの有無に関する判定情報、及び同一話者であるか否かの判定情報を話者音声定位パラメータ調整部14に出力するようになっている。
【0017】
話者音声定位パラメータ設定部12は、映像解析部11から入力された話者位置に音声データを定位させるためのパラメータ(以下、話者音声定位パラメータという)の値を設定するようになっている。ここで、「話者位置に音声データを定位させるためのパラメータの値」とは、話者位置から音が聞こえるように音声が出力されるためのパラメータの値をいい、例えば、複数備えたスピーカのうち、話者位置の近くに設置されたスピーカの音量を大きくし、他のスピーカの音量を小さくするような音量調整に関するパラメータ値(複数のスピーカのそれぞれに対する音量設定値)を意味する。
【0018】
また、話者音声定位パラメータ設定部12は、設定された話者音声定位パラメータ値を話者音声定位パラメータ調整部14に出力するようになっている。
【0019】
話者音声定位パラメータ調整部14は、話者音声定位パラメータ設定部12で設定された話者音声定位パラメータの値を入力するとともに、映像解析部11が出力するシーンチェンジの有無に関する判定情報、及び同一話者であるか否かの判定情報を入力して、設定された話者音声定位パラメータの値を調整するようになっている。詳しくは、シーンチェンジがあって、かつ、特定した話者がシーンチェンジの前後で同一人物である場合には、現在の話者位置に音声を定位させる音声定位変更量を小さくするように話者音声定位パラメータの値を調整(修正)するようになっている。
【0020】
ここで「現在の話者位置に音声を定位させる音声定位変更量を小さくするように話者音声定位パラメータの値を調整する」とは、例えば、シーンチェンジがあって同一話者が画面上左側から右側に移動した場合を例に挙げて説明すると、シーンチェンジを全く考慮しないときには、右側のスピーカの音量をA1の大きさで出力するように設定した話者音声定位パラメータの値P1を、右側のスピーカの音量をA2(<A1)の大きさで出力するように設定した話者音声定位パラメータの値P2に調整することをいう。すなわち、シーンチェンジがあって同一話者の位置が左側から右側に移り、同一話者がシーンの前後で継続して発話している場合には、話者音声定位パラメータの値を話者位置に追随させて極端には変化させず、例えば、画面中央位置等に音声を定位させるなど、緩やかに変化させるように話者音声定位パラメータの値を調整する。この結果、同一話者が発話中にシーンチェンジが発生して、話者位置が変更されたとしても、視聴者は、違和感を覚えることがない。なお、「音声定位変更量を小さくする」には、入力された音声データ(通常は画面中央位置に定位していることが多い音声データ)に対して音声定位変更量を小さくするようにしてもよいし、また、直前に設定した話者音声定位パラメータの値に対して音声定位変更量を小さくするようにしてもよい。
【0021】
なお、上述した話者音声定位パラメータの調整の説明においては、シーンチェンジの前後で同一話者の位置が変更される場合を例に挙げてして説明したが、シーンチェンジの前後で同一話者の位置が変更されない場合であってもよい。この場合には、話者音声定位パラメータの値はシーンチェンジの前後で変わらないので、音声定位変更量は生じない。したがって、上述した話者音声定位パラメータの調整には、同一話者の話者位置が変更されない場合を含んでもよいが、この場合には、音声定位変更量は0であるので、実質的には話者音声定位パラメータの調整は行われない。
【0022】
また、話者音声定位パラメータ調整部14は、調整された話者音声定位パラメータの値を定位処理部15に出力するようになっている。
【0023】
定位処理部15は、音声データを入力するとともに、話者音声定位パラメータ調整部14から出力された話者音声定位パラメータの値を入力し、調整された話者音声定位パラメータの値に基づいて、音声データの定位変更処理を行うようになっている。また、定位処理部15は、定位変更処理した音声データを音声出力部17に出力するようになっている。
【0024】
映像表示部16は、映像解析部11から出力された映像データをディスプレイ等に表示すべく出力するようになっている。
【0025】
音声出力部17は、定位変更処理された音声データをスピーカに出力するようになっている。
【0026】
い。
【0027】
次に、図2を参照して、話者音声定位パラメータ調整部14の機能、すなわち、同一話者が発話中にシーンチェンジが発生して、同一話者が移動する場合の話者音声定位パラメータの調整について具体的に説明する。
【0028】
なお、図2に示す具体例においては、図3に示すような座標系を用いて説明する。すなわち、1440×1080の画像サイズにおいて、画面左上を原点、横方向をX軸、縦方向をY軸としてピクセル単位に座標系を構成している。ここで、画面上で特定される話者SPの位置は、顔面の位置であり、本実施形態では、矩形な顔領域Fの四隅の座標を話者SPの位置としている。具体的には、顔領域Fの左上の頂点S0(X0,Y0)、右上の頂点S1(X1,Y1)、左下の頂点S2(X2,Y2)、及び右下の頂点S3(X3,Y3)により、話者SPの位置を特定している。
【0029】
また、図2に示す具体例においては、上述した話者音声定位パラメータを話者音声定位位置P(Px,Py)として説明し、話者音声定位位置Pから音声が聞こえるように音声は調整されて出力されるものとする。なお、図2に示す具体例は、通常時においては、話者音声定位位置Pは、特定された話者の顔領域Fの中心位置に設定され、同一話者の発話中にシーンチェンジが発生して、話者位置が移動したときは、話者音声定位位置Pは、画面の中心位置に設定される場合を示している。
【0030】
図2(a)は、シーンチェンジ前のシーン1の話者位置、すなわち、話者Aが画面上左側の位置に存在する場合の話者位置を示している。具体的には、図2(a)に示すように、話者Aの顔領域Fは、S0(200,220)、S1(580,220)、S2(200,600)、S3(580,600)なので、話者音声定位位置Pは、顔領域Fの中心であるP1(390,410)となっている。
【0031】
一方、図2(b)は、シーンチェンジ後のシーンBの話者位置、すなわち、話者Aが画面上左側から右側に移動し、右側に存在する場合の話者位置を示している。具体的には、図2(b)に示すように、話者Aの顔領域Fは、S0(860,220)、S1(1240,220)、S2(860,600)、S3(1240,600)なので、顔領域Fの中心はP2(1050,410)であるが、話者音声定位位置Pは、画面の中心位置であるP3(720,540)となっている。
【0032】
このように、話者Aが発話中にシーンチェンジが発生して、シーンチェンジの前後で話者Aが移動するような場合には、話者音声を画面中央位置に定位させ、視聴者に違和感を生じさせないようにしている。なお、シーンチェンジを考慮しなければ、話者音声は、話者位置に追随して話者位置に定位させるので、話者音声定位位置PはP2(1050,410)となる。
【0033】
すなわち、シーンチェンジを考慮して話者音声定位位置Pを決める場合には、話者音声定位位置PはP1(390,410)からP3(720,540)に変更されるが、シーンチェンジを考慮せずに話者音声定位位置Pを決める場合には、話者音声定位位置PはP1(390,410)からP2(1050,410)に変更される。ここで、P1(390,410)→P3(720,540)の位置変更は、P1(390,410)→P2(1050,410)の位置変更に比べて変更量が小さくなっており、このことは、上述した「音声定位変更量を小さくするように話者音声定位パラメータの値を調整する」を具体的に示すものとなっている。
【0034】
次に、図4を参照して、本実施の形態の映像音声出力装置1の映像音声出力処理について説明する。図4は、映像音声出力装置1の同一話者の発話中のシーンチェンジを考慮して、音声定位制御を行う映像音声出力処理の流れを示すフローチャートである。
【0035】
まず、映像音声出力装置1の映像解析部11が入力された映像データを解析して、映像データの話者位置を特定する(ステップS10)。
【0036】
次に、映像音声出力装置1の話者音声定位パラメータ設定部12は、特定された話者位置に基づいて、話者音声定位パラメータの値を設定する(ステップS20)。
【0037】
次に、映像音声出力装置1の映像解析部11は、シーンチェンジ検出処理を行う(ステップS30)。シーンチェンジ検出処理では、入力した映像データを解析して、シーンチェンジの検出を行い、シーンチェンジの有無を判定する。
【0038】
次に、映像音声出力装置1の映像解析部11は、シーンチェンジがあると判定した場合には、シーンチェンジの前後で、特定された話者が同一人物であるか否かを判定する同一話者判定処理を行う(ステップS40)。
【0039】
ここで、図5を用いて、同一話者判定処理について説明する。図5は、図4のステップS40の同一話者判定処理の流れを詳しく示すフローチャートである。
【0040】
映像音声出力装置1の映像解析部11は、現シーン(シーンチェンジ後のシーン)で特定された話者の顔特徴量を抽出し(ステップS41)、前シーン(シーンチェンジ前のシーン)で特定された話者の顔特徴量と比較する(ステップS42)。
【0041】
次に、映像音声出力装置1の映像解析部11は、現シーンで特定された話者の顔特徴量と前シーンで特定された話者の顔特徴量が等しいか否かを判定し(ステップS43)、等しい場合には(ステップS43:YES)、話者の交代なし、すなわち、同一話者であると判定し(ステップS44)、等しくない場合には(ステップS43:NO)、話者の交代あり、すなわち、同一話者でないと判定する(ステップS45)。
【0042】
最後に、映像音声出力装置1の映像解析部11は、現シーンの話者の顔特徴量を一時記憶領域に保存する(ステップS46)。
【0043】
図4に戻って、映像音声出力装置1の話者音声定位パラメータ調整部14は、映像解析部11からのシーンチェンジの有無、及び同一話者か否かの判定情報を受けて、シーンチェンジがあって、かつ、シーンチェンジの前後で同一話者であるか否かを判定する(ステップS60)。
【0044】
シーンチェンジがあって、かつ、シーンチェンジの前後で同一話者である場合には(ステップS60:YES)、映像音声出力装置1の話者音声定位パラメータ調整部14は、話者位置への音声定位変更量が小さくなるように、話者音声定位パラメータの値を調整する(ステップS70)。
【0045】
次に、映像音声出力装置1の定位処理部15は、設定された話者音声定位パラメータの値に従って、音声データの音声定位変更を行う(ステップS80)。すなわち、シーンチェンジがあって、かつ、シーンチェンジの前後で同一話者である場合には(ステップS60:YES)、話者位置への音声定位変更量が小さくなるように調整された話者音声定位パラメータの値で音声データの音声定位変更を行い、そうでない場合には(ステップS60:NO)、ステップS20で設定された話者音声定位パラメータの値で音声データの音声定位変更を行う。
【0046】
次に、映像音声出力装置1の映像表示部16は、映像データを出力し、また、音声出力部17は、音声定位変更を行われた音声データを出力する。
【0047】
なお、本実施の形態では、映像解析部11が映像データを解析して同一話者判定処理を行ったが、同一話者判定処理の方法はこれに限定されない。例えば、映像解析部11がシーンチェンジありと判定した場合に、音声データを解析して、特定した話者がシーンチェンジの前後で同一人物であるか否かを判定するようにしてもよい。
【0048】
図6は、音声データに基づいて、同一話者判定処理を行う映像音声出力装置2の概略構成図である。映像音声出力装置2は、同一話者の発話中のシーンチェンジを考慮しつつ、話者位置に合わせた音声定位で音声を出力する装置であり、詳しくは、映像解析部11、話者音声定位パラメータ設定部12、音声解析部13、話者音声定位パラメータ調整部14、定位処理部15、映像表示部16、及び音声出力部17を備えている。すなわち、映像音声出力装置2は、音声解析部13を備えている点が映像音声出力装置1と異なっており、その他の点は映像音声出力装置1と略同一である。なお、以下においては、上記実施形態と異なる構成及び機能のみ説明し、その他の構成及び機能に関しては同一部分には同一符号を付して説明を省略する。
【0049】
音声解析部13は、入力した音声データを定位処理部15に出力するとともに、映像解析部11がシーンチェンジありと判定した場合には、入力した音声データを解析して、特定した話者が同一人物であるか否かを判定するようになっている。詳しくは、音声解析部13は、現シーン(シーンチェンジ後)で特定した話者の音声特徴量を算出し、前シーン(シーンチェンジ前)で特定した話者の音声特徴量と比較して、音声特徴量が等しい場合には、特定した話者は同一人物であると判定するようになっている。なお、前シーンにおける話者の音声特徴量は、後述するように一時記憶領域に保存されている。ここで、音声特徴量とは、例えば、音声のスペクトログラム解析における周波数強度であり、音声特徴量の算出方法に関しては公知の技術が用いられる。
【0050】
また、音声解析部13は、同一話者か否かの判定情報を話者音声定位パラメータ調整部14に出力するようになっている。
【0051】
図7は、映像音声出力装置2の同一話者位置判定処理の流れを示すフローチャートである。図7は、図4のステップS40に相当する処理である。
【0052】
映像音声出力装置1の映像解析部11は、現シーン(シーンチェンジ後のシーン)で特定された話者の音声特徴量を抽出し(ステップS51)、前シーン(シーンチェンジ前のシーン)で特定された話者の音声特徴量と比較する(ステップS52)。
【0053】
次に、映像音声出力装置1の映像解析部11は、現シーンで特定された話者の音声特徴量と前シーンで特定された話者の音声特徴量が等しいか否かを判定し(ステップS53)、等しい場合には(ステップS53:YES)、話者の交代なし、すなわち、同一話者であると判定し(ステップS54)、等しくない場合には(ステップS53:NO)、音声解析部11は、話者の交代あり、すなわち、同一話者でないと判定する(ステップS55)。
【0054】
最後に、音声解析部13は、現シーンの話者の音声特徴量を一時記憶領域に保存する(ステップ56)。
【0055】
以上説明したように、上記実施の形態に係る映像音声出力装置1及び2によれば、映像を解析して、話者の位置を特定する映像解析部11と、映像解析部11により特定した話者の位置に音声を定位させるように話者音声定位パラメータの値を設定する話者音声定位パラメータ設定部12と、映像を解析して、シーンチェンジの有無を検出する映像解析部11と、映像または音声を解析して、前記話者位置特定手段で特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する映像解析部11または音声解析部13と、映像解析部11によりシーンチェンジがあると検出され、かつ、映像解析部11または音声解析部13により、映像解析部11で特定された話者が当該シーンチェンジの前後で同一人物であると判定された場合には、話者音声定位パラメータ設定部12で設定された話者音声定位パラメータの値に対して、定位位置の変更を小さくするように話者音声定位パラメータの値を調整する話者音声定位パラメータ調整部14と、話者音声定位パラメータ調整部14により、調整された話者音声定位パラメータの値に従って音声の定位変更処理を行う定位処理部15と、定位処理部15により定位変更された音声を出力する音声出力部17と、を備えるので、同一話者の発話中にシーンチェンジが発生して話者位置が急に変わっても、視聴者は違和感を覚えることがない。
【0056】
また、映像解析部11は、映像解析部11で特定された話者の顔特徴量を映像データから算出し、算出した顔特徴量がシーンチェンジの前後で同一であるか否かを判定するようにしてもよい。この場合には、映像データから顔特徴量を抽出することで、シーンチェンジ前後の特定された話者が同一人物であるか否かを簡単に判定することができる。
【0057】
また、映像解析部11は、映像解析部11で特定された話者の音声特徴量を音声データから算出し、算出した音声特徴量がシーンチェンジの前後で同一であるか否かを判定するようにしてもよい。この場合には、音声データから音声特徴量を抽出することで、シーンチェンジ前後の特定された話者が同一人物であるか否かを簡単に判定することができる。
【0058】
また、話者音声定位パラメータ調整部14は、表示画面の中心方向の位置に音声を定位させるように話者音声定位パラメータの値を調整するようにしてもよい。同一話者の発話中にシーンチェンジが発生して話者位置が急に変わったシーンであっても、音声を画面中心に定位させているので、視聴者は違和感を覚えることなく、快適にコンテンツを視聴することができる。
【0059】
以上、本発明の実施の形態について説明してきたが、本発明は、上述した実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲において、本発明の実施の形態に対して種々の変形や変更を施すことができ、そのような変形や変更を伴うものもまた、本発明の技術的範囲に含まれるものである。
【図面の簡単な説明】
【0060】
【図1】本発明の実施の形態に係る映像音声出力装置の概略構成図である。
【図2】本発明の実施の形態に係る映像音声出力装置映像音声出力装置に入力される映像データにおいて話者位置が変わる様子を示す図である。
【図3】本発明の実施の形態に係る映像音声出力装置に入力される映像データの例である。
【図4】本発明の実施の形態に係る映像音声出力装置の同一話者発話中のシーンチェンジを考慮して、音声定位制御を行う映像音声出力処理の流れを示すフローチャートである。
【図5】図4のステップS40の同一話者判定処理の流れを詳しく示すフローチャートである。
【図6】本発明の他の実施の形態に係る映像音声出力装置の概略構成図である。
【図7】本発明の他の実施の形態に係る映像音声出力装置の同一話者判定処理の流れを詳しく示すフローチャートである。
【符号の説明】
【0061】
1,2 映像音声出力装置
11 映像解析部
12 話者音声定位パラメータ設定部
13 音声解析部
14 話者音声定位パラメータ調整部
15 定位処理部
16 映像表示部
17 音声出力部


【特許請求の範囲】
【請求項1】
音声定位パラメータに基づいて音声定位を制御する映像音声出力装置であって、
映像を解析して、話者の位置を特定する話者位置特定手段と、
前記話者位置特定手段により特定した話者の位置に音声を定位させるように前記音声定位パラメータの値を設定する音声定位パラメータ設定手段と、
映像を解析して、シーンチェンジの有無を検出するシーンチェンジ検出手段と、
映像または音声を解析して、前記話者位置特定手段で特定された話者がシーンチェンジの前後で同一人物であるか否かを判定する同一話者判定手段と、
シーンチェンジ検出手段によりシーンチェンジがあると検出され、かつ、前記同一話者判定手段により、前記話者位置特定手段で特定された話者が当該シーンチェンジの前後で同一人物であると判定された場合には、前記音声定位パラメータ設定手段で設定された音声定位パラメータの値に対して、定位位置の変更を小さくするように前記音声定位パラメータの値を調整する音声定位パラメータ調整手段と、
前記音声定位パラメータ調整手段により、調整された音声定位パラメータの値に従って音声の定位変更処理を行い、映像及び音声を出力する定位変更出力手段と、
を備えることを特徴とする映像音声出力装置。
【請求項2】
前記同一話者判定手段は、前記話者位置特定手段で特定された話者の顔特徴量を映像から算出し、算出した顔特徴量がシーンチェンジの前後で同一であるか否かを判定することを特徴とする請求項1記載の映像音声出力装置。
【請求項3】
前記同一話者判定手段は、前記話者位置特定手段で特定された話者の音声特徴量を音声から算出し、算出した音声特徴量がシーンチェンジの前後で同一であるか否かを判定することを特徴とする請求項1記載の映像音声出力装置。
【請求項4】
前記音声定位パラメータ調整手段は、表示画面の中心方向の位置に音声を定位させるように前記音声定位パラメータの値を調整することを特徴とする請求項1乃至3のいずれか1項に記載の映像音声出力装置。
【請求項5】
前記話者位置特定手段は、映像における人の顔の位置を検出して、検出した顔の口の動きから、話者を特定し、特定した話者の口近傍を話者の位置とすることを特徴とする請求項1乃至4のいずれか1項に記載の映像音声出力装置。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2010−41485(P2010−41485A)
【公開日】平成22年2月18日(2010.2.18)
【国際特許分類】
【出願番号】特願2008−203138(P2008−203138)
【出願日】平成20年8月6日(2008.8.6)
【出願人】(000005016)パイオニア株式会社 (3,620)
【Fターム(参考)】