説明

音データ処理装置、及び、プログラム

【課題】推定された音源の方向に誤差が生じていたとしても、ユーザにより指定された、又は自動で検出された音源の方向から補正値を算出することが可能な音データ処理装置を提供する。
【解決手段】本発明の音データ処理装置は、推定した音源の方向を映像上に描画する機能を有し、ユーザが指定した映像内の位置を基に音源の方向の補正値を算出する機能を有する。また、本発明の音データ処理装置は、顔検出機能を有し、検出された顔から音源の方向の補正値を算出する機能を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、推定された音源の方向の誤差を、補正するための補正値を求めることが可能な音データ処理装置に関する。
【背景技術】
【0002】
今日、録画機能付き機器が多数製品化されており、光学ズームや明るさ調整などの機能が盛り込まれている。特許文献1には、記録機器に複数のマイクロフォンを設けて、音源方向を推定し、個々の音源を分離抽出する手法が記載されている。この手法によれば、録画時の、目的とする音源以外の音を抑圧することで、目的とする音の明瞭度を向上することが可能となる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−84590号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
上述した特許文献1に開示されている記録装置において、記録装置を長期間用いると、マイクロフォンの感度低下や記録装置の筐体の歪み等で、音源の方向(音源方向)を算出する精度及び特性が変ってしまう場合がある。この場合、推定した音源の方向がずれたままでは、目的とする音源を分離抽出する性能に影響が発生すると考えられる。そこで、推定された音源方向を正しい方向に補正する仕組みが望まれる。
この発明は上記実情に鑑みてなされたものであり、音源方向を推定する機能を備える音データ処理装置において、推定した音源方向の補正を可能とすることを目的とする。
【課題を解決するための手段】
【0005】
本発明の第1の観点に係る音データ処理装置は、
複数のマイクロフォンと、
撮影手段と、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段と、
ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段と、
前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段と、
前記算出手段によって算出された差分を記憶する記憶手段と、
を備えることを特徴とする。
【0006】
好ましくは、
前記入力手段はタッチパネルディスプレイから構成される
ことを特徴とする。
【0007】
また、好ましくは、
前記入力手段は画面内の上下左右の方向を示す方向キーから構成される
ことを特徴とする。
【0008】
上記目的を達成するため、本発明の第2の観点に係る音データ処理装置は、
複数のマイクロフォンと、
撮影手段と、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段と、
前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段と、
前記算出手段によって算出された差分を記憶する記憶手段と、
を備えることを特徴とする。
【0009】
好ましくは、
前記記憶手段は、前記マイクロフォンから取り込んだ複数の音データをさらに記憶し、
前記記憶手段に記憶された前記差分を用いて該音データを補正する補正手段をさらに備える
ことを特徴とする。
【0010】
本発明の第3の観点に係るプログラムは、
複数のマイクロフォンに接続されたコンピュータを、
撮影手段、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段、
ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段、
前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段、
前記算出手段によって算出された差分を記憶する記憶手段、
として機能させることを特徴とする。
【0011】
本発明の第4の観点に係るプログラムは、
複数のマイクロフォンに接続されたコンピュータを、
撮影手段、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段、
前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段、
前記算出手段によって算出された差分を記憶する記憶手段、
として機能させることを特徴とする。
【発明の効果】
【0012】
本発明によれば、推定された音源方向と正しい又は正しいと推定される音源方向との差分を求めることができる。この差分を、例えば、補正値として、撮影時又は再生時に用いれば、装置が劣化してしまったとしても、特定の角度からの音を聴こえ易くする機能や、音源方向に存在する物体に対して、カメラのフォーカスを設定する機能などの性能を維持することが可能となる。
【図面の簡単な説明】
【0013】
【図1】本発明の実施形態に係る音データ処理機能を備える携帯装置のブロック図である。
【図2】本発明の実施形態に係るマイクロフォンの設置場所を表す図である。
【図3】本発明の実施形態に係るマイクロフォンと音源の角度との関係図である。
【図4】本発明の実施形態1に係る、音源方向の補正値を算出する処理のフローチャート図である。
【図5】本発明の実施形態1に係る補正値算出時に表示部に描画される映像である。
【図6】本発明の実施形態1に係る音源方向を補正するフローチャート図である。
【図7】本発明の実施形態2に係る、キー操作で音源方向の補正値を算出する処理のフローチャート図である。
【図8】本発明の実施形態3に係る自動的に音源方向の補正値を算出する処理のフローチャート図である。
【図9】本発明の実施形態3に係る、補正値算出時に表示部に描画される映像である。
【発明を実施するための形態】
【0014】
(実施形態1)
本発明の実施形態1に係る、音データ処理機能を備える携帯電話などの携帯装置101について説明する。
【0015】
本実施形態の携帯装置101は、図1に示すように、撮影部102と、マイクロフォン103〜106と、キー入力部107と、コーデック部108と、制御部109と、記録部110と、表示部111と、スピーカ112と、を備える。
【0016】
撮影部102はCCD(Charge Coupled Device)カメラ、CMOS(Complimentary MOS)センサ等から構成され、映像を撮影し、映像を電気信号に変換する。
【0017】
マイクロフォン103〜106は、音を集音し、集音した音をアナログ信号に変換する。本実施形態ではマイクロフォンを4つ用いるが、これに限らず4つよりも少なくても、或いは多くてもよい。
【0018】
撮影部102及びマイクロフォン103〜106の取り付け例を図2に示す。103〜106と撮影部102とは、撮影部102の光軸をX軸とし、X軸に互いに垂直なY軸とZ軸とを定義した場合に、X軸上、Y軸上、Z軸上でそれぞれ位置の異なるマイクロフォンが存在するように、配置されている。即ち、マイクロフォンは、図2に示すように、撮影部102の設置面の異なる位置に、マイクロフォン103、104、106が配置され、裏面にマイクロフォン105が配置されている。
【0019】
キー入力部107は、電源スイッチ、録音及び録画ボタン、方向キー等から構成される。キー入力部107は、マイクロフォン103〜106及び撮影部102の起動、録音・録画の開始・終了、表示部111に表示されたカーソルの移動等の操作入力を受け付け、受け付けた操作入力の情報を制御部109に送る。
【0020】
コーデック部108は、撮影部102から取り込んだ映像やマイクロフォン103〜106から取り込んだ音を圧縮及び再生するために復号する。コーデック部108は、映像用のコーデック部と、音用のコーデック部とに分けてもよい。
【0021】
制御部109は、CPU(Central Processing Unit)、ROM(Read Only Memory)、RAM(Random Access Memory)等から構成され、記憶部110に格納されているプログラムを実行し、携帯装置101本来の機能を実行すると共に、音データ処理装置としての動作も実行する。例えば、マイクロフォンから取り込んだ音データに基づいて、音源方向を算出したり、図4及び図6のフローチャートが示す処理を行ったりする。
【0022】
記録部110は、ROM、フラッシュメモリ、HDD(Hard Disk Drive)等から構成され、撮影部102から取り込んだ映像、マイクロフォン103〜106から取り込んだ音データ、及びマイク位置情報、算出した音源方向の情報等を格納する。また、制御部109が行う処理に係るプログラム等を格納する。
【0023】
表示部111は、LCD(Liquid Crystal Display)又は有機ELディスプレイ(organic Electro-Luminescence display)、及びドライバ等から構成され、撮影部102で撮影した映像及び制御部109が算出した音源方向に音源のマーク等を表示する。
【0024】
また、表示部111は映像描画が可能なタッチパネルディスプレイから構成されてもよく、キー入力部107の替わりに、ユーザの操作入力を受け付けるようにしてもよい。以下、表示部111はタッチパネルディスプレイから構成されているとする。
【0025】
スピーカ112は、増幅器、マイクロスピーカ等から構成され、制御部109から送られるアナログ音信号に基づいて音を出力する。
【0026】
次に、上記の物理的構成を有する携帯装置101において実行される、マイクロフォンに入射した音の音源方向を推定する方法について、図3を用いて説明する。
【0027】
まず、4つのマイクロフォンのうちの任意に2つのマイクロフォンを選択し、各マイクロフォンに入射する音の相関を求める。同一音が一方のマイクロフォンに入射してから、他方のマイクロフォンに入射するまでの時間差TimeLagを求める。例えば、任意のマイクロフォン310、320が取り込んだ音を音データ311、321とすると、音データの波形のずれにより時間差TimeLagを求めることができる。マイクロフォン310と320との距離をd、音速をCとすると、マイクロフォン310と320と音源とを含む平面上で、マイクロフォン310と320とを結ぶ線に垂直な方向と音源の向きとが成す角度angleは、(1)式で表される。
angle = arcsin(C・TimeLag /d) … (1)
【0028】
制御部109は、式(1)から角度angleを求め、求めたangleを、図2に示すX,Y,Z座標上の各マイクロフォンの位置に基づいて、X、Y,Z座標系上の向きに補正する。制御部109は、他のマイクロフォンの組み合わせに関しても、同様に解析することにより、特定の音源のX,Y,Z座標系上の原点からの向き(角度)を求める。このように、マイクロフォンの設置位置関係、及び、取り込んだ音同士を解析することで、三次元空間上の任意の角度からの音に対して、音源方向を検出することが可能である。また、これにより、特定の音源方向からの音を強調すること等が可能となる。
【0029】
上記のように音源を推定する機能を備える携帯装置101において、長期間の使用等により、マイクロフォンの感度が低下することによってTimeLag算出精度が落ち、又、筐体が歪む等してマイクロフォンの距離d等が変わってしまうと、音の入射角angleの推定に誤差が生じてしまう。
【0030】
以下、携帯装置101において実行される、動画や写真の撮影時に音源方向の補正値を算出する処理について、図4のフローチャートに沿って説明する。また、音源方向を補正する際に表示部111に表示される映像の例を図5に示す。この例では、犬511から音が発せられているとする。
【0031】
まず、図1の制御部109は、マイクロフォン103〜106から取り込んだ音データと式(1)を用いて、図2の三次元空間上の音源方向を算出する(ステップS401)。次に、制御部109は、三次元空間上の音源方向を、表示部111における映像上の座標に変換する(ステップS402)。制御部109は、表示部111に、撮影部102から取り込んだ映像と、変換した座標の位置に実線の音源マーク512と、を表示させる(ステップS403)。制御部109が複数の音源を検出した場合は、複数の音源マークを表示させる。図5の映像510の例では、制御部109は犬511から発せられている音の方向を正確に検出しておらず、その結果、音源マーク512が音源の犬511とは異なる位置に表示されている。
【0032】
検出された音源方向を補正するために、ユーザが表示部111の音源マーク512に指で接触したとすると、制御部109はユーザによる接触操作を検出する(ステップS404;Yes)。接触操作の検出範囲は、音源マークが表示されている範囲内のみとしてもよいし、音源マークよりも、例えば上下左右10ドットだけ大きな範囲内が触れられる事としてもよく、画面サイズや表示解像度に合わせて可変してもよい。
【0033】
制御部109が接触操作を検出すると(ステップS404;Yes)、ユーザにより音源の位置の指定が開始されたことを示すために、制御部109は、選択された音源マーク512を音源マーク522のように点線に変更し、「音源位置補正中」のメッセージ523と共に表示部111に表示させる。音源マークの形態の変更により、ユーザが音源位置補正処理の開始を確認できればよく、実線を点線に変更する以外にも、例えば、音源マークを点滅させたり、色を変更させたりしてもよい。制御部109が接触操作を検出しない場合には(ステップS404;No)、音源方向の検出を継続する。
【0034】
図5の映像530に示すように、実際に音が発生していると想定される映像上の位置に、ユーザが音源マーク532をスライドさせると、制御部109はドラッグ操作を検出する(ステップS405;Yes)。次に、ユーザが表示部111から指を離すと、制御部109はリリース操作を検出し(ステップS406;Yes)、映像540に示すように、「音源位置補正中」のメッセージを消去し、音源マーク532を元の実線に戻す(音源マーク542)。なお、ユーザは、最初に表示された音源マークをダブルクリックし、映像上の実際に音が発生していると想定される位置で、再度ダブルクリックをして映像上の音源の位置を指定してもよく、その他の操作でもよい。
【0035】
次に、制御部109は、最初に算出した音源方向の映像上の位置(音源マーク512の位置)と、最終的にユーザにより設定された映像上の位置(音源マーク542の位置)との縦方向、及び、横方向の差を算出し(ステップS407)、その差分を補正値として記憶部110に記憶させる(ステップS408)。次に、制御部109は、撮影が継続しているか確認を行なう(ステップS409)。撮影が継続している場合は(ステップS409;No)、音源方向の検出を行い、撮影終了の指示を受け付けると(ステップS409;Yes)、補正値算出処理を終了する。
【0036】
ここで、音源方向を検出する際(ステップS401)、音声が存在しない時間帯には、以前描画した音源マークを、描画したままにしてもよいし、消去してもよい。描画したままにする場合でも、図4のステップS404からステップS408までの処理を行い、音源方向の修正を行なってもよい。
【0037】
次に、記憶部110に記憶された補正値を基に音源方向を補正する処理について、図6のフローチャートを用いて説明する。制御部109は、図4のステップS401及びステップS402の処理と同様に、音源方向を検出し(ステップS601)、表示部111の映像上の座標に変換する(ステップS602)。次に、制御部109は、記憶部110から補正値を読み出し、変換後の映像上の縦方向、及び、横方向の座標に対して、各々読み出した縦方向、及び、横方向の補正値を加え、補正値を加えた音源の位置座標から音源の角度を求める(ステップS603)。制御部109は、表示部111に、補正値が加えられた音源の位置に音源マークを表示する(ステップS604)。次に、再生が継続しているか否かの確認を行ない(ステップS605)、継続している場合は(ステップS605;No)音源方向の検出を行い、再生終了の指示を受け付けると(ステップS605;Yes)処理を終了する。
【0038】
なお、補正値を適用し音源方向を補正する処理は、図4の音源方向を補正するフローと共に行なっても良く、その場合は、図6のステップ603及びステップS604の処理を、図4のステップS407とステップS408との間に実施する。
【0039】
また、動画や写真の撮影時に、音声を発生する被写体が移動する場合には、音源マークが常に移動するので、図4のステップS404にて、音源付近への接触操作があると判断した場合には、表示部111に表示している映像を静止させ、撮影部から取り込んだ映像を表示しないようにしてもよい。その場合でも、図4のステップS405からステップ408までの処理を行い、音源方向の修正を行なう。
【0040】
また、上記フローチャートでは、撮影時に補正値を算出しているが、動画ファイルの再生時にユーザが映像上の位置を指定し、補正値を算出するようにしてもよい。以下の実施形態でも同様とする。
【0041】
本実施形態によれば、推定された音源方向に誤差が生じていたとしても、撮影時や再生時に音源方向を表示部に表示することで、ユーザが音源方向を表示部に接触する等の操作で容易に指定することができる。また、指定された音源方向に基づいて補正値を求めることができるので、長期間の使用により装置が劣化してしまったとしても、この補正値を撮影時又は再生時に用いることにより、特定の角度からの音を聴こえ易くする機能等を維持することができる。
【0042】
(実施形態2)
次に、上記携帯装置101において、静止している映像に対しキー操作で音源方向を補正する実施形態2について説明する。
【0043】
図7に、静止している映像に対して、キー操作で音源方向の補正値を算出する処理のフローチャートを示す。まず、制御部109は、実施形態1のステップS401ないしステップS403の処理と同様の処理を行う。以下、実施形態1と異なる処理のステップS704以降について説明する。
【0044】
まず、制御部109は、ユーザによる方向キー押下の有無を判断し(ステップS704)、押下が無い場合は(ステップS704;No)、方向キー押下判断を継続する。制御部109が方向キー押下を検出すると(ステップS704;Yes)、ユーザにより音源の位置の指定が開始されたことを示すために、図5の映像520のように、表示部111に「音源位置補正中」のメッセージ523を表示させ、音源マーク512を点線に変更する(音源マーク522)。さらに、ユーザが押下操作を行うと、制御部109は押下された方向に音源マークを移動させる(ステップS705)。例えば、映像530に示すように、ユーザにより音源マーク532が移動され、Enterキー等の決定キーが押下されたとすると、制御部109は押下の有りと判断する(ステップS706;Yes)。制御部109は押下が無い場合には(ステップS704;No)キー押下の判断を継続する。制御部109が決定キー押下操作を検出すると(ステップS706;Yes)、映像540に示すように、「音源位置補正中」のメッセージ523は消去され、音源マーク532が元の実線に戻る(音源マーク542)。
【0045】
次に、制御部109は、最初に算出した音源方向の映像上の位置(音源マーク512の位置)と、最終的にユーザにより設定された映像上の位置(音源マーク542の位置)との縦方向、及び、横方向の差を算出し(ステップS707)、補正値として記憶部110に記憶させる(ステップS708)。次に、制御部109は、再生が継続しているか否かの確認を行ない(ステップS709)、継続している場合は(ステップS709;No)音源方向の検出を行い、撮影終了の指示を受け付けると(ステップS709;Yes)処理を終了する。以降は、実施形態1で説明した図6のフローチャートの処理と同様に、補正値に基づいて音源方向を補正する処理を行う。
【0046】
また、実施形態1に示す動画の撮影時において、音源付近へのタッチ操作があると判断した場合には、表示部111に表示している映像を静止させ、撮影部102から取り込んだ映像を表示しないようにしてもよい。その場合でも、図4のステップS405からステップS408までの処理を行い、音源方向の補正を行なう。
【0047】
本実施形態によれば、タッチパネルディスプレイ以外の表示部を備えた携帯装置101においても、撮影済み動画ファイルの一時停止時に音源方向の補正値を算出することができ、補正後の音源方向を用いることにより音データ処理機能の性能を維持することが可能となる。
【0048】
(実施形態3)
次に、顔認識と音源方向認識機能を備える携帯装置101において、音源の位置が顔の近くに検出された場合に自動的に音源方向を補正する実施形態3について説明する。
【0049】
図8に、動画や写真の撮影時に音源方向を補正するフローチャート図を示す。また、音源方向を補正する際に表示部111に表示される映像の例を図9に示す。この例では、人の顔911の口から音が発せられているとする。
【0050】
まず、制御部109は、実施形態1のステップS401ないしステップS403の処理と同様の処理を行う。以下、実施形態1と異なる処理のステップS804以降について説明する。制御部109は、撮影部102から取り込んだ映像に対して顔の検出を行ない(ステップS804)、顔が存在する領域を示す顔領域マークを表示部111に表示させる(ステップS805)。例えば、制御部109は、図9の映像910に示すように、撮影部102から取り込んだ人の顔の映像911と、音源方向の画面上の位置を示す音源マーク912と、検出された顔領域マーク913と、を表示部111に表示させる。次に、制御部109は、検出された顔の中から口の場所を判定し、口の座標を検出する(ステップS806)。制御部109は、映像920に示すように、表示部111に口領域マーク923を表示させる。その際、顔が存在する領域のマークは消去してもよい。
【0051】
次に、制御部109は、検出した口の座標が、算出した音源方向の画面上の位置から所定の距離内にあるかどうかを判定する(ステップS807)。例えば、口の座標が算出した音源方向の画面上の位置から10ドット以上離れており、30ドット以内にあるかどうかの判定を行なう。条件に満たない場合は(ステップS807;No)音源方向の検出を継続する(ステップS801)。この条件は、ユーザが適宜設定できるようにしてもよい。制御部109が口の位置が音源から所定の距離内に検出されたと判定した場合には(ステップS807;Yes)、まず、図9の音源マーク922のように音源マークを点線に変更する。次に、音源マーク932のように、音源マークを口の座標に移動する(ステップS808)。
【0052】
その後、制御部109は、最初に算出された音源の位置(音源マーク912の位置)と、最終的に設定された音源の位置(口領域マーク932の位置)との画面上での縦方向、及び、横方向の差を算出し(ステップS809)、算出された差分を補正値として記憶部110に記憶させる(ステップS810)。次に、制御部109は、撮影が継続しているか確認を行ない(ステップS811)、継続している場合(ステップS811;No)は音源方向の検出を行い、撮影終了の指示を受け付けると(ステップS811;Yes)処理を終了する。
【0053】
また、図8のステップS401にて複数の音源を検出した場合や、ステップS804にて複数人の顔を検出した場合には、検出した個数の音源マークや顔領域マークを表示する。その場合は、各々が一番近い、音源の画面上の位置と顔の位置の組み合わせを検出するようにしてもよい。また、表示部111への接触操作や、キー操作で、音源マークと顔領域のマークを、各々一つずつ選択して、音源の画面上の位置と顔の位置のペアを設定してもよい。その後は、音源の位置と顔の位置の組み合わせに対して、ステップS807からステップS810までの処理を行い、音源方向の補正値を算出する。また、図9の音源マーク912などは描画しなくてもよく、音源の画面上の位置を自動的に補正するのみでもよい。以降は、実施形態1で説明した図6のフローチャートの処理と同様に、補正値に基づいて音源方向を補正する処理を行う。
【0054】
本実施形態によれば、長期間の使用により装置が劣化してしまったとしても、自動的に音源方向の補正値を求めることができ、携帯装置101が、特定の角度からの音を聴こえ易くする機能や、音源方向に存在する物体に対して自動的にカメラのフォーカスを設定する機能等の性能を維持することが可能となる。
【0055】
また、上述した実施形態1ないし実施形態3に係る携帯装置101において、補正値は記憶部110に記憶されているので、動画や写真の撮影時に決定した音源方向の補正値を撮影済み動画ファイルの再生時に適用することができる。或いは、撮影済み動画ファイルの再生時に決定した音源方向の補正値を、動画や写真の撮影時に適用することもできる。
【0056】
また、複数の撮影済み動画ファイルに対して、各々、異なる音源方向の補正値を算出し、各々のファイルに対応付けて記録しても良い。各々の撮影済み動画ファイルを再生する際は、対応付けて記録してある音源方向の補正値を読み出し、音源方向の補正を行なう。
【0057】
また、実施形態1ないし実施形態3に係る携帯装置101において、音源方向の補正値は一つでもよいし、表示部111を数分割して、その分割した領域ごとに、補正値を設定、適用してもよい。まず、表示部111の画面右側、或いは、左側への指定を判定し、各々に対する補正値を保存する領域を保持する。表示部111の画面右側に対して決定した補正値は、画面右側に対する音源定位結果への補正に適用し、同様に、表示部111の画面左側に対して決定した補正値は、画面左側に対する音源定位結果への補正に適用する。画面の左右のみではなく、画面の上下で異なる補正値としてもよい。
【0058】
また、実施形態1ないし実施形態3に係る携帯装置101において、補正値は映像上でのドット数以外でもよい。例えば、補正後に映像上の音源の位置を、三次元空間上に変換して、X軸方向、Y軸方向、Z軸方向からの角度を求める。その後、三次元空間上の、補正前の音源方向との差を算出し、各々の軸に対する補正値として記憶する。音源の位置の補正は、三次元空間上の方向を算出後、X軸方向、Y軸方向、Z軸方向に対して、各々補正値を足し算する。
【0059】
また、本発明は、携帯電話の他、電子カメラ、ムービ、PDA、ノートパソコン、ウェアラブルパソコン、電卓、電子辞書など、音データ処理機能を備える全ての装置に用いることができる。
【符号の説明】
【0060】
101…携帯装置、102…撮影部、103、104、105、106、310、320…マイクロフォン、107…キー入力部、108…コーデック部、109…制御部、110…記録部、111…表示部、112…スピーカ、311、321…音データ、510、520、530、540、910、920、930…映像、511…犬、512、522、532、542、912、922、932…音源マーク、523…メッセージ、911…人の顔、913…顔領域マーク、923…口領域マーク

【特許請求の範囲】
【請求項1】
複数のマイクロフォンと、
撮影手段と、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段と、
ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段と、
前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段と、
前記算出手段によって算出された差分を記憶する記憶手段と、
を備えることを特徴とする音データ処理装置。
【請求項2】
前記入力手段はタッチパネルディスプレイから構成される
ことを特徴とする請求項1に記載の音データ処理装置。
【請求項3】
前記入力手段は画面内の上下左右の方向を示す方向キーから構成される
ことを特徴とする請求項1に記載の音データ処理装置。
【請求項4】
複数のマイクロフォンと、
撮影手段と、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段と、
前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段と、
前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段と、
前記算出手段によって算出された差分を記憶する記憶手段と、
を備えることを特徴とする音データ処理装置。
【請求項5】
前記記憶手段は、前記マイクロフォンから取り込んだ複数の音データをさらに記憶し、
前記記憶手段に記憶された前記差分を用いて該音データを補正する補正手段をさらに備える
ことを特徴とする請求項1又は請求項4に記載の音データ処理装置。
【請求項6】
複数のマイクロフォンに接続されたコンピュータを、
撮影手段、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
前記撮影手段が撮影した映像と、前記推定手段が推定した位置に所定のマークと、を表示する表示手段、
ユーザから、前記表示手段が表示した映像上の位置を指定する指示を受け付ける入力手段、
前記推定手段が推定した位置と、前記ユーザより指定された位置との差分を算出する算出手段、
前記算出手段によって算出された差分を記憶する記憶手段、
として機能させることを特徴とするプログラム。
【請求項7】
複数のマイクロフォンに接続されたコンピュータを、
撮影手段、
前記マイクロフォンから取り込んだ複数の音データから音源の位置を推定する推定手段、
前記撮影手段が撮影した映像に映る人の口の位置を検出する検出手段、
前記推定手段が推定した位置と、前記人の口の位置との差分を算出する算出手段、
前記算出手段によって算出された差分を記憶する記憶手段、
として機能させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−251916(P2010−251916A)
【公開日】平成22年11月4日(2010.11.4)
【国際特許分類】
【出願番号】特願2009−97311(P2009−97311)
【出願日】平成21年4月13日(2009.4.13)
【出願人】(310006855)NECカシオモバイルコミュニケーションズ株式会社 (1,081)
【Fターム(参考)】