説明

映像音声出力装置

【課題】 BGMを含んだ音声の臨場感を伴った再生技術を提供する。
【解決手段】 映像表示部と、前記映像表示部に表示される映像中において人物の顔や唇の動きを検出する検出手段と、前記検出手段が検出した前記映像中の人物の顔や唇の動きが存在する場所を示すアドレス座標に基づいて音声フィルタの特性を制御する音声処理部と、前記映像表示部に表示される映像に伴う音声信号がモノラル音声信号であるか否かを判定する判定手段と、前記判定手段による判定結果に基づいて前記音声処理部により制御される前記音声フィルタの出力を入力とする複数のスピーカとを備えたことを特徴とする映像音声出力装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、映像音声出力装置に係わり、特に音声の臨場感を伴った再生方法に関する。
【背景技術】
【0002】
モノラル音声の臨場感を伴った再生方法として近年の特許文献1には、周波数スペクトルの解析結果に応じて前記各チャンネルの出力音声信号の周波数特性を制御することが記載されている。これは、単位期間に音を分離したりテンポに応じて周波数特性を変えることを内容としている。しかしながら音声源のモデルが無く性能に限界がある。
【0003】
他方デジタルカメラ等では、人の顔や口を検出する検出技術を用いて、写真の明るさ等の補正に利用することが実用化されている。映像音声出力装置においてもこのような技術を用いて、話者の位置を検出し利用することが求められている。
【0004】
関連して特許文献2には、映像中の話者の位置を検出し、ボリュームを制御することを特徴とする映像音声出力装置と記載されている。しかしながらBGMが無い音声信号では音の臨場感を高めることができるがBGMを含んだ音声信号にこの処理を行うと違和感が残るという問題があった。
【特許文献1】特開2006−86558号公報
【特許文献2】特開平11−313272号公報(請求項1)
【発明の開示】
【発明が解決しようとする課題】
【0005】
本発明は、BGMを含んだ音声の臨場感を伴った再生技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するために、本発明の映像音声出力装置は、映像表示部と、前記映像表示部に表示される映像中において人物の顔や唇の動きを検出する検出手段と、前記検出手段が検出した前記映像中の人物の顔や唇の動きが存在する場所を示すアドレス座標に基づいて音声フィルタの特性を制御する音声処理部と、前記映像表示部に表示される映像に伴う音声信号がモノラル音声信号であるか否かを判定する判定手段と、前記判定手段による判定結果に基づいて前記音声処理部により制御される前記音声フィルタの出力を入力とする複数のスピーカとを備えたことを特徴とする。
【発明の効果】
【0007】
本発明によれば、BGMを含んだ音声の臨場感を伴った再生技術が得られる。
【発明を実施するための最良の形態】
【0008】
以下、本発明の実施形態を説明する。
(実施形態1)
本発明による実施形態1を図1乃至図7を参照して説明する。
図1は、この発明の実施の形態で説明するテレビジョン放送受信装置の信号処理系を概略的に示す図である。この信号処理系を構成する各種の回路ブロックは、キャビネット12の内部に配置されている。
【0009】
そして、デジタルテレビジョン放送受信用のアンテナ22で受信したデジタルテレビジョン放送信号は、入力端子23を介してチューナ部24に供給される。このチューナ部24は、入力されたデジタルテレビジョン放送信号から所望のチャンネルの信号を選局し復調している。そして、このチューナ部24から出力された信号は、デコーダ部25に供給されて、例えばMPEG(moving picture experts group)2デコード処理が施された後、セレクタ26に供給される。
【0010】
さらに、アナログテレビジョン放送受信用のアンテナ27で受信したアナログテレビジョン放送信号は、入力端子28を介してチューナ部29に供給される。このチューナ部29は、入力されたアナログテレビジョン放送信号から所望のチャンネルの信号を選局し復調している。そして、このチューナ部29から出力された信号は、A/D(analog/digital)変換部30によりデジタル化された後、上記セレクタ26に出力される。
【0011】
また、アナログ信号用の入力端子31に供給されたアナログの映像及び音声信号は、A/D変換部32に供給されてデジタル化された後、上記セレクタ26に出力される。さらに、デジタル信号用の入力端子33に供給されたデジタルの映像及び音声信号は、そのまま上記セレクタ26に供給される。
【0012】
上記セレクタ26は、4種類の入力デジタル映像及び音声信号から1つを選択して、信号処理部34に供給している。この信号処理部34は、入力されたデジタル映像信号に所定の信号処理を施して上記映像表示器14での映像表示に供させている。この映像表示部14としては、例えば、液晶ディスプレイやプラズマディスプレイ等でなるフラットパネルディスプレイが採用される。また、上記信号処理部34は、入力されたデジタル音声信号に所定の信号処理を施し、アナログ化して上記スピーカ15に出力することにより、音声再生を行なっている。
【0013】
ここで、このテレビジョン放送受信装置11は、上記した各種の受信動作を含む種々の動作を制御部35によって統括的に制御されている。この制御部35は、CPU(central processing unit)等を内蔵したマイクロプロセッサであり、上記操作部16や操作子21(図2では図示せず)からの操作情報、または、上記リモートコントローラ17から送信された操作情報を、受光部18を介して受けることにより、その操作内容が反映されるように各部をそれぞれ制御している。
【0014】
ここでは、制御部35は、メモリ部36を使用している。このメモリ部36は、主として、そのCPUが実行する制御プログラムを格納したROM(read only memory)と、該CPUに作業エリアを提供するためのRAM(random access memory)と、各種の設定情報及び制御情報等が格納される不揮発性メモリとを備えている。
【0015】
ここで、上記制御部35は、例としてスタンド13内に収容されたHDD(ハードディスクドライブ)ユニット20と接続されている。この場合、制御部35からHDDユニット20に電源電力及び制御信号の供給を行なうライン37は、接続部38を介して制御部26とHDDユニット20とを接続している。
【0016】
また、制御部35とHDDユニット20との間でデジタル映像及び音声信号を授受するライン39は、接続部40を介して制御部35とHDDユニット20とを接続している。すなわち、制御部35とHDDユニット20との間でのデジタル映像及び音声信号の伝送は、電源及び制御信号とによって行なわれる。
【0017】
そして、上記テレビジョン放送受信装置は、セレクタ26で選択されたデジタルの
映像及び音声信号を、HDDユニット20により記録することができるとともに、HDDユニット20に記録されたデジタルの映像及び音声信号を再生し、視聴に供させることができる。
【0018】
図2は本実施形態要部の概略ブロック図である。
映像処理ブロック101に入力された映像信号は顔センシング技術により唇の動きを検出し、この唇の動きが画面上のどこの位置で検出されたかを示すアドレス座標102を出力する。また音声処理ブロック103に入力された音声信号はアドレス座標102の値に応じてフィルタの特性を変化させ4つのスピーカ群からなるスピーカ104より音声を出力することでモノラル音声でも臨場感を高めることができる。映像処理ブロック101、アドレス座標102、音声処理ブロック103は、信号処理部34内に在り、またスピーカ104はスピーカ15に相当する。
【0019】
図3は本実施形態の音声処理の一例を示すブロック図であり、このブロック図では入力音声信号がモノラルであれば画面に表示されている顔(唇)の位置に近いスピーカから音声が出力され、入力音声信号がステレオであれば入力音声信号をスルーし通常の視聴状態に戻すシステムである。
【0020】
以下に図3の音声信号処理について説明する。
2チャンネルの入力音声信号201はLR音声信号比較ブロック202で各チャンネルの音声信号を比較しモノラルかステレオかの判定結果203を出力する。BPF204は人の声の帯域を通過させる特性としBPF204を通過した信号の周波数を周波数比較205で音声信号の周波数を測定し、人の声と比較同定する。
【0021】
4chノッチフィルタ207に入力する唇の位置を示す座標情報206(図2の102)の値に応じてノッチフィルタのQの値を設定し周波数比較205で測定した周波数の値でノッチフィルタの中心周波数(f0)を設定する。
【0022】
セレクタ208には音声信号201から入力された音声信号と4chノッチフィルタ207を通過した音声信号をモノラル判定信号203により切り替え出力しAMP209で増幅後、スピーカ210(図2の104)に出力する。
【0023】
図4のテレビのスピーカは左右2個ずつ計4個のスピーカが設置され、視聴者がTVのNEWS番組を見ている状態のイメージ図である。NEWS番組はバイリンガル方式で放送されることがあり日本語で視聴する場合はステレオ(2チャンネル)機能を持つTVでもモノラル音声で聞くことになるので、この番組を日本語で視聴する場合の音声信号の経路は図2の4chノッチフィルタブロックを通過する。NEWS番組の映像は右側の人物(B)が話しているので唇の位置は画面全体の右上に位置する。唇の位置と各スピーカの距離が長いとノッチフィルタのQの値が高くなるようにフィルタ処理されるので各スピーカに出力される周波数特性は図4の特性になり唇の位置から遠いスピーカほど話し手の声は小さくなるので話し手の口の位置から話し手の声が聞こえるようになる。
【0024】
図5は、実施形態に用いられる各スピーカへの出力特性曲線を示す特性図である。SP−Bは唇の位置に最も近いので減衰がなく、SP−D,SP−A,SP−Cと遠くなるほど減衰が大きくなっている。
【0025】
図6は、実施形態を説明するための音声波形の図である。図6(a)は人が「そう話す」と発話したときの音声波形の振幅の遷移とそのラベリング結果(soohanasu)であり、図6(b)は図6(a)の母音aの定常部を拡大した波形である。図6(b)のpは声帯振動の基本ピッチであり、この逆数が基本周波数F0である。F0は数十Hzから数百Hzの間に分布し、情動等によって変化する。
【0026】
図7は、音声信号の表現としての音声波形の一例である。図7(a)は「サ」を発声したときの音声信号の振幅の時間変化の一部を表す。摩擦子音部/s/と続く過渡部、定常母部/a/とからなる。また図7(b)は定常母部/a/を10ms単位にフーリエ変換を行ったときの周波数スペクトルである。縦軸は強度であり横軸は周波数(単位はkHz)である。
【0027】
この図は男声サンプルを示しており、(b)では細かな波形で示す調波線スペクトルwと、線形予測分析等で得られるそのスペクトルエンベロープ(包絡)eとを示している。スペクトルエンベロープeからは所謂ホルマント(声道の共振)が3つ認められ、第3ホルマントF3は2.5kHz近辺に位置している。なお、他の母音/i/、/u/などでは第3ホルマント等の位置は変わるが、2.5kHz近辺の強度は高い。なおより支配的な第1ホルマントF1と第2ホルマントF2は1kHz前後に位置している。
【0028】
図5の各スピーカへの出力特性は、ホルマントの他に基本周波数F0の変化を加味して追従変化させてもよい。
(実施形態2)
本発明による実施形態2を説明する。実施形態1と共通する部分は説明を省略する。
実施形態1では、話者が1名の例を説明したが、話者は複数いてもよい。図4で左側の人(A)も唇を動かしているとする。周波数スペクトル上で比較的高域の成分は子音部や過渡部を含めて話者情報を含んでいる可能性が高く、話者認識も援用して話者A,話者Bそれぞれにスピーカ毎に設定したノッチフィルタの特性を重ね合わせて出力すればよい。なお話者認識の手段としては、唇の動きから話者が発音している子母音を同定してその結果を援用してもよい。
【0029】
TVのNEWS番組に限らず海外映画などの音声信号はバイリンガル方式で放送されることがあり、日本語で視聴する場合はモノラル音声で聞くことになるので、ステレオで放送される番組と比較すると臨場感は劣る。本実施形態の内容による映像音声処理を行うことによりモノラル放送でもテレビ音声信号の臨場感を高めることができ、BGMが挿入されている番組でもBGMの定位はフラットに聞こえ、話し手の声は話し手の位置より聞こえるようになる。
【0030】
以上概要として、画面上の顔や唇の検出位置の座標に応じて、複数の配置されたスピーカの音声フィルタの特性を制御し、画面に合わせて音声臨場感を高めるように、モノラル音声信号を処理する。更には、音声フィルタの特性はノッチフィルタのQを制御する。
【0031】
この効果として、本実施形態内容による音声処理を行うことにより、BGMを含んだ音声信号でもBGMの音の定位は均一に出力でき人の話し声は話者の画面上の位置に応じて音声を出力することができるため、BGMを含んだ音声信号でも違和感無く音の臨場感を高めることができる。
【0032】
なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。例えば、スピーカ群は平面上に配置された例を示したが、所謂サラウンド配置でもよい。
【0033】
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。
【図面の簡単な説明】
【0034】
【図1】この発明の一実施形態の信号処理系を概略的に示す図。
【図2】同実施形態の要部の概略ブロック図。
【図3】同実施形態の音声処理の一例を示すブロック図。
【図4】同実施形態の視聴者がTVのNEWS番組を見ている状態のイメージ図。
【図5】同実施形態に用いられる各スピーカへの出力特性曲線を示す特性図。
【図6】同実施形態を説明するための音声波形の図その1。
【図7】同実施形態を説明するための音声波形の図その2。
【符号の説明】
【0035】
12…キャビネット、14…映像表示器(映像表示部)、15…スピーカ、16…操作部、18…受光部、20…HDDユニット(記録手段)、22…アンテナ、23…入力端子、24…チューナ部、25…デコーダ部、26…セレクタ、27…アンテナ、28…入力端子、29…チューナ部、30…A/D変換部、31…入力端子、32…A/D変換部、33…入力端子、34…信号処理部、35…制御部、35a…HDD制御部、36…メモリ部、37…ライン、38…接続部、39…ライン、40…接続部、101…映像処理ブロック、102…アドレス座標、103…音声処理ブロック、104…スピーカ、202…音声信号比較ブロック、204…BPF、207…ノッチフィルタ。

【特許請求の範囲】
【請求項1】
映像表示部と、
前記映像表示部に表示される映像中において人物の顔や唇の動きを検出する検出手段と、
前記検出手段が検出した前記映像中の人物の顔や唇の動きが存在する場所を示すアドレス座標に基づいて音声フィルタの特性を制御する音声処理部と、
前記映像表示部に表示される映像に伴う音声信号がモノラル音声信号であるか否かを判定する判定手段とを
備えたことを特徴とする映像音声出力装置。
【請求項2】
前記アドレス座標に基づいて前記音声フィルタの特性としてノッチフィルタのQ値を前記音声処理部は制御することを特徴とする請求項1に記載の映像音声出力装置。
【請求項3】
人物の声の通過帯域を分析するように構成されたBPFを備え、
このBPFを通過した音声信号の周波数比較を行いながら前記ノッチフィルタの中心周波数を前記音声処理部は制御することを特徴とする請求項2に記載の映像音声出力装置。
【請求項4】
前記判定手段による判定結果においてモノラル音声信号と判定された場合に前記判定手段による判定結果に基づいて前記音声処理部により制御される前記音声フィルタの出力を入力とする複数のスピーカは前記音声フィルタの出力を入力とすることを特徴とする請求項1に記載の映像音声出力装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2010−50755(P2010−50755A)
【公開日】平成22年3月4日(2010.3.4)
【国際特許分類】
【出願番号】特願2008−213357(P2008−213357)
【出願日】平成20年8月21日(2008.8.21)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】