説明

画像処理装置および方法、並びにプログラム

【課題】より効果的に、ユーザに対して環境音を視覚的に提示する。
【解決手段】解析部24は、コンテンツを構成する音声の音声データにブラインド音源分離処理を行い、各音源の音声の音声データを抽出するとともに、各音源の音声の音声データに基づいて、音源の方向を示す方向データを生成する。また、解析部24は各音源の音声が、人の発話ではない環境音であるか否かを判別し、環境音をテキスト化する。視覚情報生成部25は、テキスト化された環境音に基づいて、環境音を視覚的に提示するエフェクト画像を生成する。画像合成部26は、コンテンツを構成するコンテンツ画像上の方向データにより定まる位置に、エフェクト画像をオーバーレイする。本発明は、ビデオ再生機器に適用することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は画像処理装置および方法、並びにプログラムに関し、特に、より効果的に、ユーザに対して環境音を視覚的に提示することができるようにした画像処理装置および方法、並びにプログラムに関する。
【背景技術】
【0002】
DVD(Digital Versatile Disc)やBD(Blu-ray(登録商標) Disc)といった商用パッケージメディアでは、テキスト情報や画像情報を、コンテンツの画像上の所望する位置に表示することが可能であるが、人の発話とは異なる周囲の環境音に対する考慮は特にされていない。
【0003】
例えば、コンテンツの視聴時において、聴覚障害者にとっては、ドアの開閉音、自動車の接近音、電話の着信音などの環境音の演出効果は全く意味をなさない。また、そもそもオーサリングという手順が踏まれない個人的に撮影されたコンテンツや、生放送形式で放送される番組などでは、このような環境音の演出効果を追加することは難しい。
【0004】
なお、クローズドキャプションの付加が義務付けられている米国では、人がコンテンツの音声を聞き取ってタイプすることで、クローズドキャプションを作成する場合もある。そのような場合、ユーザは視覚情報として、変換された文字を読むことはできるものの、クローズドキャプションでは、環境音や音声が、画面上のどの位置にあるものや人から発せられているか表現することはできない。
【0005】
また、音声認識を利用した技術として、音声認識された音声をテキスト化して、障害者用のヘッドマウントディスプレイに表示させる装置も提案されている(例えば、特許文献1参照)。このヘッドマウントディスプレイでは、テキスト化された音声のおおよその音源位置も表示されるため、ユーザは、どの方向から音がしているかを知ることができる。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2007−334149号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかしながら、上述した技術では、任意のコンテンツを対象として、そのコンテンツに含まれる環境音を、効果的に、ユーザに対して視覚的に提示することはできなかった。
【0008】
例えば、ユーザが、周囲の音声をテキスト化して表示させるヘッドマウントディスプレイを装着して、コンテンツを視聴しても、単にディスプレイの中央に認識された音声のテキストが表示されるだけであった。そのため、コンテンツと、表示されたテキストの一体感はなく、効果的に音声を提示しているとはいえなかった。
【0009】
本発明は、このような状況に鑑みてなされたものであり、より効果的に、ユーザに対して環境音を視覚的に提示することができるようにするものである。
【課題を解決するための手段】
【0010】
本発明の一側面の画像処理装置は、コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定する音源方向推定手段と、前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離する分離手段と、前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化する環境音識別手段と、前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する画像合成手段とを備える。
【0011】
画像処理装置には、前記音声の前記音声データに基づいて、前記基準位置から前記音源までの距離を推定する音源距離推定手段をさらに設け、前記画像合成手段には、前記エフェクト画像が、前記画像上の前記音源の方向の推定結果により定まる位置に、前記音源の距離の推定結果により定まる大きさで表示されるように、前記エフェクトデータと前記画像データとを合成させることができる。
【0012】
画像処理装置には、前記音声の前記音声データに対するブラインド音源分離処理を行って、前記音声データを、各前記音源の音声の音声データに分離する音源分離手段をさらに設け、前記分離手段には、前記音源分離手段により分離された前記音声データごとに、その前記音声データが前記環境音の前記音声データであるか否かを判別することで、前記環境音の前記音声データと、前記発話音の前記音声データとを分離させることができる。
【0013】
前記画像合成手段には、前記音源の方向、前記音源の距離、または前記環境音の音量の少なくとも何れかに応じて、前記画像上に表示される前記エフェクト画像の大きさ、色、または輝度が変化するように、前記エフェクトデータと前記画像データとを合成させることができる。
【0014】
画像処理装置には、テキスト化された前記環境音に対して予め定められた、前記環境音の内容を補足する文字列からなる補足情報が前記エフェクト画像に表示されるように、テキスト化された前記環境音に基づいて、前記エフェクトデータを生成する視覚情報生成手段をさらに設けることができる。
【0015】
画像処理装置には、前記分離手段により分離された前記発話音の前記音声データに対する音声認識処理を行って、前記発話音をテキスト化する発話音識別手段をさらに設け、前記画像合成手段には、前記環境音の前記エフェクト画像と、前記発話音を視覚的に提示するエフェクト画像とが前記画像上に表示されるように、前記エフェクトデータと前記画像データとを合成させることができる。
【0016】
本発明の一側面の画像処理方法またはプログラムは、コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定し、前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離し、前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化し、前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成するステップを含む。
【0017】
本発明の一側面においては、コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向が推定され、前記音声データが、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離され、前記環境音の前記音声データに対する音声認識処理が行われて、前記環境音がテキスト化され、前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとが合成される。
【発明の効果】
【0018】
本発明の一側面によれば、より効果的に、ユーザに対して環境音を視覚的に提示することができる。
【図面の簡単な説明】
【0019】
【図1】本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。
【図2】解析部の構成例を示す図である。
【図3】コンテンツ再生処理を説明するフローチャートである。
【図4】合成コンテンツ画像の表示例を示す図である。
【図5】合成コンテンツ画像の表示例を示す図である。
【図6】解析処理を説明するフローチャートである。
【図7】解析部の他の構成例を示す図である。
【図8】解析処理を説明するフローチャートである。
【図9】コンピュータの構成例を示すブロック図である。
【発明を実施するための形態】
【0020】
以下、図面を参照して、本発明を適用した実施の形態について説明する。
【0021】
〈第1の実施の形態〉
[画像処理装置の構成]
図1は、本発明を適用した画像処理装置の一実施の形態の構成例を示す図である。
【0022】
画像処理装置11は、画像処理装置11に装着された光ディスク等の記録媒体12からコンテンツのコンテンツデータを読み出して再生する。例えば、画像処理装置11は、テレビジョン受像機、ビデオ再生機器、パーソナルコンピュータなどからなり、ビデオ再生アプリケーションプログラム上などで実装されるべき機能を実現する。
【0023】
画像処理装置11は、特に、コンテンツのオーサリング時に手間をかけることなく、演出に用いられる効果音を画像情報に変換し、その画像情報を適切な位置にオーバーレイすることで、聴覚障害者のコンテンツの視聴の助けとなることを目的とする。
【0024】
なお、コンテンツデータは、コンテンツとしての動画像を表示させる動画像データと、その動画像(以下、コンテンツ画像とも称する)に付随する音声の音声データとから構成され、これらの動画像データおよび音声データは、所定の方式でエンコードされている。
【0025】
画像処理装置11は、読み出し部21、動画デコーダ22、オーディオデコーダ23、解析部24、視覚情報生成部25、画像合成部26、および表示部27から構成される。
【0026】
読み出し部21は、記録媒体12からコンテンツデータを読み出して、コンテンツデータを構成する動画像データを動画デコーダ22に供給し、コンテンツデータを構成する音声データをオーディオデコーダ23に供給する。
【0027】
動画デコーダ22は、読み出し部21から供給された動画像データをデコードし、画像合成部26に供給する。また、オーディオデコーダ23は、読み出し部21から供給された音声データをデコードし、解析部24および表示部27に供給する。
【0028】
解析部24は、オーディオデコーダ23から供給された音声データに対し、解析処理を行って、音声データにより再生される音声の音源の方向を示す方向データと、音声の音源までの距離を示す距離データとを生成し、画像合成部26に供給する。ここで、音声の音源の方向および距離は、その音声を収音したマイクロホン等の収音部を基準とした方向および距離である。
【0029】
なお、コンテンツを構成する音声には、収音部により直接収音された音声の他、その音声に後から付加(合成)された効果音等の音声が含まれる場合があるが、そのような効果音等の音声は、収音部で収音されたものとみなされる。つまり、収音部を基準として、効果音等の音声の音源の方向と距離とが推定される。
【0030】
また、解析部24は、オーディオデコーダ23から供給された音声データに対する音声認識処理を行い、その音声認識処理の結果を示す単語列を視覚情報生成部25に供給する。換言すれば、解析部24は、音声データにより再生される音声をテキスト化する。例えば、音声認識処理の結果を示す単語列には、「こんにちは」といった人の発話内容など、人の声の認識結果を示す単語列だけでなく、「ピーポーピーポー」といった救急車のサイレンの音など、収音部の周囲で発せられた環境音の認識結果を示す単語列も含まれる。
【0031】
なお、以下においては、特に、人の発話や擬声語などの人から発せられた声を発話音とも称し、コンテンツを構成する音声の収音時に収音された、発話音を除く他の全ての周囲の音を環境音とも称することとする。また、以下、発話音に対する音声認識処理の結果得られた単語列を示すテキストデータを発話音データとも称し、環境音に対する音声認識処理の結果得られた単語列を示すテキストデータを環境音データとも称することとする。したがって、視覚情報生成部25には、発話音データと環境音データとが供給されることになる。
【0032】
視覚情報生成部25は、解析部24から供給された発話音データと環境音データを用いて、それらのデータにより示される単語列を視覚的に提示するエフェクトデータを生成し、画像合成部26に供給する。
【0033】
例えば、エフェクトデータは、発話音や環境音がテキスト化されて得られたテキスト画像、発話音や環境音の音声認識結果に対して予め定められたイラストやテクスチャ等の画像などの画像データとされる。以下では、エフェクトデータにより表示される画像を、特にエフェクト画像と呼ぶこととする。
【0034】
なお、エフェクト画像としてのイラスト等の画像は、発話内容や環境音の内容を想起させるものであれば、動画像であっても静止画像であってもよい。また、エフェクト画像としてのテキスト画像やイラスト等の画像は、時間とともに表示形式が変化するといった、表示効果を有するものであってもよい。この場合、例えば、エフェクト画像上に表示される文字の色や位置等が、時間とともに変化する。
【0035】
画像合成部26は、解析部24から供給された方向データと距離データを用いて、動画デコーダ22から供給された動画像データと、視覚情報生成部25から供給されたエフェクトデータとを合成し、得られた動画像データを表示部27に供給する。例えば、動画像データとエフェクトデータの合成は、コンテンツ画像上における、方向データにより定まる位置に、距離データにより定まる大きさでエフェクト画像がオーバーレイされるように行なわれる。以下、特に、エフェクト画像がオーバーレイされたコンテンツ画像を、合成コンテンツ画像とも称し、合成コンテンツ画像の動画像データを、合成動画像データとも称する。
【0036】
表示部27は、例えば液晶ディスプレイやスピーカなどからなり、画像合成部26から供給された合成動画像データに基づいて、合成コンテンツ画像を表示させるとともに、オーディオデコーダ23から供給された音声データに基づいて、音声を出力する。
【0037】
[解析部の構成]
また、図1の解析部24は、より詳細には、図2に示すように構成される。
【0038】
すなわち、解析部24は、音源分離部51、音源方向推定部52、音源距離推定部53、環境音/発話音識別部54、環境音識別部55、および発話内容識別部56から構成される。また、音源分離部51には、オーディオデコーダ23から音声データが供給される。
【0039】
音源分離部51は、オーディオデコーダ23から供給された音声データに対して、独立成分分析に基づくブラインド音源分離処理を行い、音声データから1または複数の音源ごとの音声の音声データを抽出し、音源方向推定部52乃至環境音/発話音識別部54に供給する。
【0040】
例えば、コンテンツデータを構成する音声データの音声には、発話をする人やサイレンを鳴らす救急車など、1または複数の音源から発せられた音声が混合されている。コンテンツの音声データに対して、ブラインド音源分離処理が行われると、コンテンツの音声に含まれている音声の音源ごとに、それらの音源から発せられた音声の音声データが得られる。なお、以下、音源からの音声を個別音声とも称し、個別音声の音声データを個別音声データとも称することとする。
【0041】
音源方向推定部52は、音源分離部51から供給された各個別音声データに対して、音源方向推定処理を行って、個別音声を発する音源の方向を示す方向データを生成し、画像合成部26に供給する。音源距離推定部53は、音源分離部51から供給された各個別音声データに対して、音源距離推定処理を行って、個別音声を発する音源までの距離を示す距離データを生成し、画像合成部26に供給する。
【0042】
環境音/発話音識別部54は、音源分離部51から供給された各個別音声データについて、個別音声データに基づく個別音声が、発話音であるか環境音であるかの判別を行い、その判別結果に応じて個別音声データの出力先を切り替える。すなわち、環境音/発話音識別部54は、環境音の個別音声データを環境音識別部55に供給し、発話音の個別音声データを発話内容識別部56に供給する。
【0043】
環境音識別部55は、環境音/発話音識別部54から供給された個別音声データに対して音声認識処理を行い、その結果を示す環境音データを視覚情報生成部25に供給する。発話内容識別部56は、環境音/発話音識別部54から供給された個別音声データに対して音声認識処理を行い、その結果を示す発話音データを視覚情報生成部25に供給する。
【0044】
[コンテンツ再生処理の説明]
ところで、ユーザが、コンテンツが記録されている記録媒体12を画像処理装置11に装着し、画像処理装置11を操作してコンテンツの再生を指示すると、画像処理装置11は、記録媒体12からコンテンツを読み出して再生するコンテンツ再生処理を開始する。
【0045】
以下、図3のフローチャートを参照して、画像処理装置11によるコンテンツ再生処理について説明する。
【0046】
ステップS11において、読み出し部21は、ユーザにより再生が指示されたコンテンツのコンテンツデータを記録媒体12から読み出す。そして、読み出し部21は、読み出したコンテンツデータの動画像データおよび音声データを、動画デコーダ22およびオーディオデコーダ23に供給する。
【0047】
ステップS12において、動画デコーダ22は、読み出し部21から供給された動画像データをデコードし、画像合成部26に供給する。そして、ステップS13において、オーディオデコーダ23は、読み出し部21から供給された音声データをデコードし、解析部24および表示部27に供給する。
【0048】
ステップS14において、解析部24は、解析処理を行なって、オーディオデコーダ23から供給された音声データから、方向データ、距離データ、環境音データ、および発話音データを生成する。生成された方向データおよび距離データは、画像合成部26に供給され、環境音データおよび発話音データは、視覚情報生成部25に供給される。なお、解析処理の詳細は後述する。
【0049】
ステップS15において、視覚情報生成部25は、解析部24から供給された環境音データと発話音データを用いて、エフェクトデータを生成し、画像合成部26に供給する。このエフェクトデータは、発話音や環境音などの個別音声ごとに生成される。
【0050】
例えば、環境音データには、音声認識処理の結果得られた単語列と、その単語列に関する補足情報が含まれている。補足情報は、コンテンツを視聴するユーザが、その個別音声に関してコンテンツで生じている事象を、より詳細(的確)に把握することができるように、テキスト化された個別音声の内容を補足する情報である。
【0051】
具体的には、環境音の個別音声データの音声認識処理の結果、救急車のサイレン音を表す単語列「ピーポーピーポー」が得られたとする。この単語列「ピーポーピーポー」には、予め定められた文字列「(救急車のサイレン)」が補足情報として関連付けられており、環境音識別部55からは、単語列「ピーポーピーポー」と補足情報「(救急車のサイレン)」とからなる環境音データが出力される。
【0052】
このような環境音データが供給された場合、視覚情報生成部25は、例えば、単語列「ピーポーピーポー」の文字と、補足情報「(救急車のサイレン)」の文字とを表示させるエフェクト画像の画像データを、エフェクトデータとして生成する。このように、エフェクトデータとして、個別音声をテキスト化した単語列と、その単語列を補足する補足情報とが含まれるエフェクト画像の画像データを生成することで、コンテンツを視聴するユーザは、より正確にコンテンツの内容を把握することができる。
【0053】
ステップS16において、画像合成部26は、解析部24からの方向データと距離データを用いて、動画デコーダ22からの動画像データと、視覚情報生成部25からのエフェクトデータとを合成する。そして、画像合成部26は、合成により得られた合成コンテンツ画像の合成動画像データを表示部27に供給する。
【0054】
例えば、乗用車のクラクションが個別音声として収音部に収音され、その個別音声の方向データにより示される音源の位置が、収音部からみて左前方であったとする。この場合、画像合成部26は、コンテンツ画像の左上の奥に、つまりコンテンツ画像を正面から見るユーザから見て左上の奥に、その個別音声(クラクション)のエフェクト画像が表示されるように、エフェクト画像をコンテンツ画像に合成する。
【0055】
このとき、画像合成部26は、その個別音声の距離データにより示される距離に応じて、コンテンツ画像に合成されるエフェクト画像の大きさを調整する。具体的には、収音部から見た音源までの距離が長いほど、エフェクト画像は、より小さく表示されるように、合成が行なわれる。
【0056】
なお、コンテンツ画像とエフェクト画像の合成時には、コンテンツ画像を撮影する撮影部と、コンテンツの音声を収音する収音部とは、ほぼ同じ位置にあるものとして、個別音声の方向データにより定まるコンテンツ画像上の位置に、距離データにより定まる大きさで、その個別音声のエフェクト画像がオーバーレイされる。すなわち、各音源からの個別音声のエフェクト画像は、コンテンツ画像上の音源近傍の位置に表示される。
【0057】
また、コンテンツ画像上に表示されるエフェクト画像の大きさは、そのエフェクト画像の個別音声の大きさに応じて変化するようにしてもよい。そのような場合、例えば、音源分離部51は、各個別音声の音量を示す情報を画像合成部26に供給し、画像合成部26は、供給された音量を示す情報に基づいて、音量が大きいほど、よりエフェクト画像が大きくなるように、エフェクト画像の合成を行なう。
【0058】
さらに、画像合成部26が、個別音声の方向データと距離データに基づいて、その個別音声の音源の方向や距離に応じて、個別音声のエフェクト画像の色や輝度などを変化させるようにしてもよい。
【0059】
さらに、例えば、コンテンツデータを構成する音声データが、5.1チャンネルなどのマルチチャンネルステレオである場合など、ユーザの後方から個別音声が聞えてくる、つまり収音部から見て、収音部後方に個別音声の音源が位置していることがある。そのような場合には、コンテンツ画像上に、その個別音声のエフェクト画像を表示させることができなくなってしまう。
【0060】
そこで、このような場合には、画像合成部26は、コンテンツ画像の端近傍にエフェクト画像を表示させる。また、この場合、画像合成部26は、コンテンツを視聴するユーザが、自分の後方からの個別音声のエフェクト画像であることを把握できるように、矢印記号や、後方からの音声である旨の補足情報をエフェクト画像とともに表示させる。これにより、ユーザは、より確実かつ正確に、エフェクト画像が示す個別音声の音源位置を知ることができる。
【0061】
画像合成部26は、合成コンテンツ画像の合成動画像データを生成すると、その合成動画像データを表示部27に供給し、処理はステップS16からステップS17に進む。
【0062】
ステップS17において、表示部27は、画像合成部26からの合成動画像データに基づいて合成コンテンツ画像を表示するとともに、オーディオデコーダ23からの音声データに基づいて音声を出力することで、コンテンツを再生する。
【0063】
これにより、表示部27には、図4や図5に示す合成コンテンツ画像が表示される。
【0064】
例えば、図4の例では、合成コンテンツ画像C11の図中、左側に救急車が表示されており、その救急車の下側には、救急車を音源として発せられたサイレンの音(環境音)に対して、エフェクト画像EF11が表示されている。このエフェクト画像EF11には、テキスト化された救急車のサイレンを表す文字「ピーポーピーポー」と、そのサイレンの補足情報としての文字「(救急車のサイレン)」が表示されている。
【0065】
表示されているエフェクト画像EF11は、音源である救急車とともに移動し、例えば救急車が画面の奥側に移動して小さく表示され、サイレンの音が小さくなると、エフェクト画像EF11も救急車の位置やサイレンの音量の変化に合わせて、小さく表示される。
【0066】
また、図5の例では、合成コンテンツ画像C12のほぼ中央で、爆発が起きており、その爆発音に対するエフェクト画像EF12が図中、下側に表示されている。
【0067】
エフェクト画像EF12には、爆発音をテキスト化して得られた文字「ドカアアアアン」が、飾り文字のテクスチャとして表示されている。例えば、このエフェクト画像EF12は、環境音としての爆発音の音量が次第に小さくなると、その音量の変化に応じて、時間とともに小さくなるように表示される。
【0068】
画像処理装置11では、コンテンツ画像のフレーム等の所定の単位ごとに、上述したステップS11乃至ステップS17の処理が繰り返し行われるため、音源の移動や音声の音量の変化に応じて、エフェクト画像の位置や大きさも変化する。
【0069】
図3のフローチャートの説明に戻り、ステップS18において、画像処理装置11は、コンテンツの再生を終了するか否かを判定する。例えば、ユーザにより画像処理装置11が操作され、コンテンツの再生終了が指示された場合、終了すると判定される。
【0070】
ステップS18において、再生を終了しないと判定された場合、処理はステップS11に戻り、上述した処理が繰り返される。すなわち、コンテンツの次のフレームが読み出されて再生される。
【0071】
一方、ステップS18において、コンテンツの再生を終了すると判定された場合、画像処理装置11は、コンテンツの再生を終了して、コンテンツ再生処理は終了する。
【0072】
このようにして、画像処理装置11は、コンテンツの音声を音源ごとに分離し、各個別音声を音声認識によりテキスト化するとともに、テキスト化により得られた文字(単語列)や補足情報が含まれるエフェクト画像を生成する。そして、画像処理装置11は、個別音声ごとに、エフェクト画像の表示位置や大きさ、色などを、個別音声の音源の方向と距離に応じて決定し、エフェクト画像をコンテンツ画像にオーバーレイする。
【0073】
したがって、画像処理装置11によれば、コンテンツ画像上において、各個別音声の音源近傍にエフェクト画像を表示させることができる。その結果、単にクローズドキャプションや、テキスト化した音声と音源位置を表示させる場合と比べて、エフェクト画像にコンテンツ画像との一体感を持たせることができ、より効果的にユーザに対して環境音等の音声を視覚的に提示することができる。
【0074】
特に、画像処理装置11では、発話音だけでなく、環境音についてもエフェクト画像を表示させるようにしたので、従来は発話音の字幕のみに限定されていた、聴覚障害者が知覚可能な聴覚系情報を、環境音にまで拡張することができる。これにより、ユーザは、コンテンツの製作者の意図までも読み取ることができるようになり、コンテンツの視聴を充分に楽しむことができる。
【0075】
また、必要に応じて、テキスト化された環境音とともに、補足情報を表示させるようにしたので、ユーザは、より正確にコンテンツの内容を把握することができ、コンテンツの視聴をさらに楽しむことができるようになる。
【0076】
さらに、画像処理装置11では、コンテンツの音声データを解析してエフェクト画像を生成するので、もともと字幕が付加されていない、カムコーダで撮影された個人的な映像や、生放送などの番組に対しても、再生時にエフェクト画像を表示させることができる。
【0077】
[解析処理の説明]
次に、図6のフローチャートを参照して、図3のステップS14の処理に対応する解析処理について説明する。
【0078】
ステップS41において、音源分離部51は、オーディオデコーダ23から供給された音声データに対して、独立成分分析に基づくブラインド音源分離処理を行い、音声データから各個別音声の音声データを抽出する。
【0079】
例えば、コンテンツデータを構成する音声データが、RチャンネルとLチャンネル、つまり左右の2つのチャンネルの音声データからなるとする。この場合、音源分離部51は、それらのRとLのチャンネルの音声データにフーリエ変換を施し、音声データを周波数成分からなる周波数情報に変換する。この周波数情報は、音声の各周波数成分のパワーを示す情報である。
【0080】
そして、音源分離部51は、周波数情報に基づいて、周波数情報により示される周波数帯域全体を、複数の周波数帯域に分割し、分割後の各周波数帯域の各周波数の音声のパワーを示す周波数分割スペクトル成分を生成する。周波数分割スペクトル成分は、RとLの各チャンネルについて、分割後の周波数帯域ごとに生成される。
【0081】
さらに、音源分離部51は、RとLのチャンネルの同じ周波数帯域の周波数分割スペクトル成分について、各周波数のパワーの比を算出し、各周波数分割スペクトル成分のうち、求めた比が予め定められた値である周波数分割スペクトル成分を選択する。このようにして選択された周波数分割スペクトル成分からなる音声が、抽出しようとする個別音声であるとされる。
【0082】
音源分離部51は、RとLのチャンネルの選択した周波数分割スペクトル成分を逆フーリエ変換し、その結果得られたRとLの各チャンネルの音声データを、個別音声のRとLのチャンネルの音声データとする。
【0083】
なお、個別音声の抽出に用いる周波数のパワーの比の値は、RとLのチャンネルの音声データに配分された、個別音声のレベルの配分率により予め定められている。また、ブラインド音源分離処理については、例えば特開2008−104240号公報などに詳細に記載されている。
【0084】
音源分離部51は、コンテンツの音声データを、各個別音声の音声データに分離すると、それらの個別音声の音声データを、音源方向推定部52、音源距離推定部53、および環境音/発話音識別部54に供給する。
【0085】
このように、ブラインド音源分離処理を行って、音声データから各個別音声の音声データを抽出することで、より正確に各個別音声の音源の方向や距離を求めることができるようになり、より音源に近い位置にエフェクト画像を表示させることができる。
【0086】
ステップS42において、音源方向推定部52は、音源分離部51から供給された各個別音声の音声データに対して音源方向推定処理を行い、個別音声の音源の方向を推定する。
【0087】
例えば、コンテンツデータを構成する音声データが、RとLのチャンネルの音声データからなる場合、音源方向推定部52は、個別音声の音声データ(個別音声データ)をフーリエ変換する。そして、音源方向推定部52は、得られたRとLのチャンネルの周波数情報を比較して、RとLのチャンネルの音声データの位相のずれを検出することで、個別音声の音源の方向を推定する。
【0088】
音源方向推定部52は、得られた各個別音声の音源の方向を示す方向データを生成し、画像合成部26に供給する。なお、音源の方向の推定については、例えば、特開2010−20294号公報等に詳細に記載されている。
【0089】
ステップS43において、音源距離推定部53は、音源分離部51から供給された各個別音声データに対して音源距離推定処理を行い、各個別音声の音源までの距離を推定する。
【0090】
例えば、コンテンツデータを構成する音声データが、RとLのチャンネルの音声データからなる場合、音源距離推定部53は、RとLのチャンネルの個別音声データに対して離散フーリエ変換を行なって、位相差スペクトルを求める。
【0091】
さらに、音源距離推定部53は、この位相差スペクトルから、各周波数における位相差の標準偏差を求め、所定の周波数帯域における周波数の標準偏差の平均値を特徴量として算出する。音源距離推定部53は、このようにして得られた特徴量を、予め求められている関数に代入することで、音源から収音部までの距離を推定する。
【0092】
音源距離推定部53は、得られた各個別音声の音源までの距離を示す距離データを生成し、画像合成部26に供給する。
【0093】
ステップS44において、環境音/発話音識別部54は、音源分離部51から供給された各個別音声データについて、個別音声データに基づく個別音声が、発話音であるか環境音であるかの判別を行う。
【0094】
例えば、コンテンツデータを構成する音声データが、RとLのチャンネルの音声データからなる場合、環境音/発話音識別部54は、Rチャンネルの個別音声データと、Lチャンネルの個別音声データの和を求めることで、個別音声データの和信号を求める。また、環境音/発話音識別部54は、得られた和信号に対して、一般的な人の声の周波数帯域の成分が除去されるフィルタを用いたフィルタ処理を施す。
【0095】
さらに、環境音/発話音識別部54は、Rチャンネルの個別音声データと、Lチャンネルの個別音声データの差を求めることで、個別音声データの差信号を求め、差信号と、フィルタ処理された和信号との差分を求める。
【0096】
環境音/発話音識別部54は、得られた差信号と和信号の差分が、予め定められた閾値以上である場合、処理対象となっている個別音声は、環境音であるとする。
【0097】
RとLのチャンネル用の2つの収音部で人の声を収音する場合、音源となる人は2つの収音部のほぼ中間に位置することが多い。したがって、RとLのチャンネルの個別音声に含まれる人の声は、ほぼ同じレベル(音量)となるはずであるから、それらの個別音声データの差を求めると、得られた差信号には、人の声は殆ど含まれていないはずである。
【0098】
そのため、RとLのチャンネルの個別音声データの和信号から、フィルタ処理により人の声の成分を除去し、フィルタ処理された和信号と差信号の差分を求めると、その差分は、RまたはLのチャンネルの環境音のみが含まれる音声データとなるはずである。そこで、環境音/発話音識別部54は、求めた差分が閾値以上である場合、処理対象の個別音声は環境音であるとし、逆に差分が閾値未満である場合、個別音声は発話音であるとする。
【0099】
環境音/発話音識別部54は、各個別音声のうち、発話音であると判別された個別音声の音声データを発話内容識別部56に供給し、環境音であると判別された個別音声の音声データを環境音識別部55に供給する。
【0100】
ステップS45において、発話内容識別部56は、環境音/発話音識別部54から供給された各個別音声の音声データに対して音声認識処理を行い、個別音声の発話内容をテキスト化する。
【0101】
例えば、発話内容識別部56は、所定フレームごとに音声データに対して音響分析処理を行い、音声データから所定の特徴の特徴量を抽出する。例えば、音響分析処理として、離散フーリエ変換が行われ、パワースペクトルが特徴量として抽出される。
【0102】
次に、発話内容識別部56は、得られた特徴量と、予め記録している音響モデルデータベース、辞書データベース、および文法データベースとを用いたマッチング処理を行い、個別音声を認識する。
【0103】
ここで、音響モデルデータベースは、音声の言語における個々の音素や音節などの単位(PLU(Phoneme Like Units))ごとの音響的な特徴を表すHMM(Hidden Markov Model)等の音響モデルなどからなる。
【0104】
また、辞書データベースは、認識対象の各単語について、単語ごとの発音に関する音韻情報が記述された単語辞書、および各音響モデルから特徴量が観測される確率を示す情報からなる。文法データベースは、辞書データベースの単語辞書に登録されている各単語が、どのように連鎖するかを記述した文法規則(言語モデル)からなる。
【0105】
発話内容識別部56は、辞書データベースの単語辞書を参照して、音響モデルデータベースの音響モデルを接続し、単語の音響モデル(単語モデル)を構成する。そして、発話内容識別部56は、いくつかの単語モデルを、文法データベースの文法規則を参照することで接続し、そのようにして接続された単語モデルの系列から、特徴量から求まる尤度が最も高い単語モデルの系列に対応する単語列を、個別音声の認識結果として出力する。つまり、音声認識の結果得られた単語列を示す発話音データが、視覚情報生成部25に供給される。
【0106】
ステップS46において、環境音識別部55は、環境音/発話音識別部54から供給された各個別音声の音声データに対して音声認識処理を行い、それらの個別音声、つまり環境音をテキスト化する。
【0107】
なお、環境音識別部55による音声認識処理においても、発話内容識別部56における音声認識処理と同様の処理が行われる。すなわち、音声データから特徴量が抽出され、抽出された特徴量と、各データベースとのマッチング処理が行われる。
【0108】
但し、環境音識別部55に記録される辞書データベースには、発話内容識別部56の辞書データベースに登録されている単語とは異なる単語、例えば救急車のサイレン「ピーポーピーポー」などが登録されている。また、環境音識別部55には、特に文法データベースは設けられていなくてもよい。
【0109】
環境音がテキスト化され、その結果得られた環境音データが、環境音識別部55から視覚情報生成部25に供給されると、解析処理は終了し、その後、処理は図3のステップS15に進む。
【0110】
このようにして解析部24は、コンテンツの音声データを発話音や環境音の音声データに分離し、各音声データに対して、音源方向の推定や、音源の距離の推定、音声認識処理などを行う。したがって、解析部24によれば、発話内容や音源の方向など、個別音声ごとの情報をより確実に得ることができる。しかも、解析部24では、個別音声ごとに発話音であるか、または環境音であるかの判別を行い、その判別結果に従って、異なる辞書を用いて音声認識処理を行うので、より高精度に個別音声をテキスト化することができる。
【0111】
〈第2の実施の形態〉
[解析部の構成]
なお、以上においては、コンテンツを構成する発話音と環境音の両方のエフェクト画像が表示されると説明したが、発話音については、クローズドキャプション等がある場合もあるので、環境音だけのエフェクト画像が表示されるようにしてもよい。
【0112】
そのような場合、解析部24は、例えば、図7に示すように構成される。
【0113】
すなわち、図7に示す解析部24は、音源方向推定部52、環境音/音声分離部81、および環境音識別部55から構成され、オーディオデコーダ23からの音声データが、音源方向推定部52および環境音/音声分離部81に供給される。
【0114】
なお、図7において、図2における場合と対応する部分には同一の符号を付してあり、その説明は適宜省略する。
【0115】
環境音/音声分離部81は、オーディオデコーダ23から供給された音声データから、環境音の音声データを抽出し、環境音識別部55に供給する。
【0116】
[解析処理の説明]
次に、図8のフローチャートを参照して、解析部24が図7の構成とされる場合における解析処理について説明する。
【0117】
ステップS71において、音源方向推定部52は、オーディオデコーダ23から供給された音声データから、環境音の音源の方向を示す方向データを生成し、画像合成部26に供給する。
【0118】
例えば、音源方向推定部52は、供給された音声データをフーリエ変換し、これにより得られた周波数情報と、独立成分分析を適用した学習処理により求められた分離行列とから、各音源から発せられた環境音の分離信号を生成する。そして、音源方向推定部52は、各分離信号のうち、対応する時間の区間の周波数情報と環境音の分離信号との間で相互共分散行列を算出し、相互共分散行列の要素同士の位相差を算出することで、環境音の音源方向を求め、方向データを生成する。
【0119】
なお、この場合、環境音の距離データは生成されないので、画像合成部26では、コンテンツ画像における、方向データにより定まる位置に、環境音のエフェクト画像がオーバーレイされることになる。勿論、音源距離推定部53が設けられ、環境音の距離データが生成されるようにしてもよい。
【0120】
ステップS72において、環境音/音声分離部81は、オーディオデコーダ23から供給された音声データから、環境音の音声データを抽出し、環境音識別部55に供給する。
【0121】
例えば、コンテンツデータを構成する音声データが、RとLのチャンネルの音声データからなる場合、環境音/音声分離部81は、Rチャンネルの音声データと、Lチャンネルの音声データの和を求めることで、音声データの和信号を求める。また、環境音/音声分離部81は、得られた和信号に対して、一般的な人の声の周波数帯域の成分が除去されるフィルタを用いたフィルタ処理を施す。
【0122】
さらに、環境音/音声分離部81は、Rチャンネルの音声データから、Lチャンネルの音声データを減算することで、音声データの差信号を求め、差信号と、フィルタ処理された和信号との和を求めることで、環境音のRチャンネルの音声データを生成する。また、環境音/音声分離部81は、フィルタ処理された和信号から差信号を減算することで、環境音のLチャンネルの音声データを生成する。
【0123】
上述した環境音/発話音識別部54における処理と同様に、和信号および差信号には、発話音が含まれていないので、それらの信号の差や和を求めることで、環境音のRとLのチャンネルの音声データを抽出することができる。すなわち、コンテンツの音声の音声データを、発話音の音声データと、環境音の音声データとに分離することができる。環境音/発話音識別部54は、得られた環境音の音声データを環境音識別部55に供給する。
【0124】
このようにして環境音の音声データが得られると、その後、ステップS73の処理が行われて解析処理は終了するが、ステップS73の処理は図6のステップS46の処理と同様であるため、その説明は省略する。解析処理が終了すると、その後、処理は図3のステップS15に進む。
【0125】
このようにして、解析部24は、コンテンツの音声データから、環境音の音声データのみを抽出し、環境音をテキスト化する。これにより、コンテンツ画像上に、環境音のエフェクト画像を表示させることができ、ユーザは、より正確に環境音の内容と音源位置を把握することができる。
【0126】
なお、図7では、解析部24に発話内容識別部56が設けられない構成とされているが、図7の解析部24にも発話内容識別部56が設けられるようにしてもよい。
【0127】
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
【0128】
図9は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
【0129】
コンピュータにおいて、CPU(Central Processing Unit)301,ROM(Read Only Memory)302,RAM(Random Access Memory)303は、バス304により相互に接続されている。
【0130】
バス304には、さらに、入出力インターフェース305が接続されている。入出力インターフェース305には、キーボード、マウス、マイクロホンなどよりなる入力部306、ディスプレイ、スピーカなどよりなる出力部307、ハードディスクや不揮発性のメモリなどよりなる記録部308、ネットワークインターフェースなどよりなる通信部309、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア311を駆動するドライブ310が接続されている。
【0131】
以上のように構成されるコンピュータでは、CPU301が、例えば、記録部308に記録されているプログラムを、入出力インターフェース305及びバス304を介して、RAM303にロードして実行することにより、上述した一連の処理が行われる。
【0132】
コンピュータ(CPU301)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア311に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
【0133】
そして、プログラムは、リムーバブルメディア311をドライブ310に装着することにより、入出力インターフェース305を介して、記録部308にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部309で受信し、記録部308にインストールすることができる。その他、プログラムは、ROM302や記録部308に、あらかじめインストールしておくことができる。
【0134】
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
【0135】
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
【符号の説明】
【0136】
11 画像処理装置, 12 記録媒体, 24 解析部, 25 視覚情報生成部, 26 画像合成部, 27 表示部, 51 音源分離部, 52 音源方向推定部, 53 音源距離推定部, 54 環境音/発話音識別部, 55 環境音識別部, 56 発話内容識別部, 81 環境音/音声分離部

【特許請求の範囲】
【請求項1】
コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定する音源方向推定手段と、
前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離する分離手段と、
前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化する環境音識別手段と、
前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する画像合成手段と
を備える画像処理装置。
【請求項2】
前記音声の前記音声データに基づいて、前記基準位置から前記音源までの距離を推定する音源距離推定手段をさらに備え、
前記画像合成手段は、前記エフェクト画像が、前記画像上の前記音源の方向の推定結果により定まる位置に、前記音源の距離の推定結果により定まる大きさで表示されるように、前記エフェクトデータと前記画像データとを合成する
請求項1に記載の画像処理装置。
【請求項3】
前記音声の前記音声データに対するブラインド音源分離処理を行って、前記音声データを、各前記音源の音声の音声データに分離する音源分離手段をさらに備え、
前記分離手段は、前記音源分離手段により分離された前記音声データごとに、その前記音声データが前記環境音の前記音声データであるか否かを判別することで、前記環境音の前記音声データと前記発話音の前記音声データとを分離する
請求項1または請求項2に記載の画像処理装置。
【請求項4】
前記画像合成手段は、前記音源の方向、前記音源の距離、または前記環境音の音量の少なくとも何れかに応じて、前記画像上に表示される前記エフェクト画像の大きさ、色、または輝度が変化するように、前記エフェクトデータと前記画像データとを合成する
請求項2に記載の画像処理装置。
【請求項5】
テキスト化された前記環境音に対して予め定められた、前記環境音の内容を補足する文字列からなる補足情報が前記エフェクト画像に表示されるように、テキスト化された前記環境音に基づいて、前記エフェクトデータを生成する視覚情報生成手段をさらに備える
請求項2に記載の画像処理装置。
【請求項6】
前記分離手段により分離された前記発話音の前記音声データに対する音声認識処理を行って、前記発話音をテキスト化する発話音識別手段をさらに備え、
前記画像合成手段は、前記環境音の前記エフェクト画像と、前記発話音を視覚的に提示するエフェクト画像とが前記画像上に表示されるように、前記エフェクトデータと前記画像データとを合成する
請求項2に記載の画像処理装置。
【請求項7】
コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定する音源方向推定手段と、
前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離する分離手段と、
前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化する環境音識別手段と、
前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する画像合成手段と
を備える画像処理装置の画像処理方法であって、
前記音源方向推定手段が、前記音声の音源の方向を推定し、
前記分離手段が、前記音声データを、前記環境音の前記音声データと、前記発話音の前記音声データとに分離し、
前記環境音識別手段が、前記環境音をテキスト化し、
前記画像合成手段が、前記エフェクトデータと前記画像データとを合成する
ステップを含む画像処理方法。
【請求項8】
コンテンツを構成する音声の音声データに基づいて、所定の基準位置に対する前記音声の音源の方向を推定し、
前記音声データを、前記音声のうちの人の発話による発話音を除く環境音の前記音声データと、前記発話音の前記音声データとに分離し、
前記環境音の前記音声データに対する音声認識処理を行って、前記環境音をテキスト化し、
前記環境音を視覚的に提示するエフェクト画像が、前記コンテンツを構成する画像上の前記音源の方向の推定結果により定まる位置に表示されるように、テキスト化された前記環境音に基づいて生成された前記エフェクト画像のエフェクトデータと、前記画像の画像データとを合成する
ステップを含む処理をコンピュータに実行させるプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2011−250100(P2011−250100A)
【公開日】平成23年12月8日(2011.12.8)
【国際特許分類】
【出願番号】特願2010−120726(P2010−120726)
【出願日】平成22年5月26日(2010.5.26)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】