説明

音入力装置、音入力方法およびプログラム

【課題】自由に移動回転しても確実に目的音の方向を検出して、目的音を入力し続けることができる音入力装置を提供する。
【解決手段】音を変換した電気信号を取得しながら移動する可能性のある音入力装置であって、音を電気信号に変換するアレイマイク1と、目的音響を発生する音源の、前記音入力装置に対する音源位置を取得する音源位置取得部12〜16と、前記音源位置を取得した地点と向きから、移動によって生じる変位と方位を検出する移動検出部14と、前記変位と方位から、前記音源位置の方向と、移動後の前記音源位置の方向との差分を算出する制御部18と、前記移動後の前記音入力装置に対する前記音源位置の方向から到来する音波が、前記アレイマイク1のそれぞれに到達する時間差を用いて、アレイマイク1で変換した電気信号から、目的とする音響の電気信号を抽出する指向性制御部3とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音入力装置、音入力方法およびプログラムに関する。より詳しくは、該装置上に複数のマイクロホンを備え、該装置と目的音源との相対位置が変化した場合でも、目的音源の音を追従して入力する音入力装置に関する。
【背景技術】
【0002】
向きが変化する動体に設けられた複数のマイクロホンにより得られる音声信号を音源分離装置に伝送する場合に、その音源分離装置が処理対象とする音声信号の入力に用いた複数のマイクロホンに対する音源の存在方向が入れ替わらないようにする方法がある。
【0003】
特許文献1に記載の音声入力装置は、ジャイロセンサの検出結果に基づいて、基準軸の周囲に配列された8つ以上のマイクロホンにより得られる8つの入力音声信号のうち、その一部の2つの信号を選択して音源分離処理部に伝送させ、選択したマイクロホンに対する音源の存在方向が入れ替わらないように制御する。
【特許文献1】特開2007−318373号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1に記載の方法では、動体が向きを変えるための回転軸を中心に、マイクを円状に配置しなければならない配置制限上の問題がある。また、動体の移動量を検出する手段が、動体の回転軸を中心とする回転運動のみ用いるため、マイクの位置を補正する方法が、目的音の方向に対して回転軸に対する回転運動のみに限られる補正方法上の問題がある。
【0005】
例えば特許文献1に記載の方法をビデオカメラ等に適用した場合に、撮影者が撮影中に自由に歩き回ってしまうと、回転運動のみを検知するだけでは、目的音方向を正確に検出することが難しくなる問題があり、度々移動回転を繰り返して行うと、目的音方向を検出できなくなる可能性も予想される。
【0006】
従って、本発明は、上述のような問題を解決するためになされたもので、装置を自由に移動回転しても確実に目的音の方向を検出して、目的音を入力し続けることができる音入力装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明の第1の観点に係る音入力装置は、
音を変換した電気信号を取得しながら移動する可能性のある音入力装置であって、
音を電気信号に変換する複数の音取得手段と、
前記音入力装置が取得する電気信号の目的となる音響を発生する音源の、前記音入力装置に対する位置である音源位置を取得する音源位置取得手段と、
前記音源位置取得手段で前記音源位置を取得した地点と前記音入力装置の向きから、前記音入力装置の移動によって生じる変位と方位を検出する移動検出手段と、
前記移動検出手段が検出した前記変位と方位から、前記音源位置情報を取得したときの前記音入力装置に対する前記音源位置の方向と、前記音入力装置が移動したのちの前記音入力装置に対する前記音源位置の方向との差分を算出する差分検出手段と、
前記差分検出手段で検出した差分によって示される前記移動したのちの前記音入力装置に対する前記音源位置の方向から到来する音波が、前記複数の音取得手段のそれぞれに到達する時間差を用いて、前記複数の音取得手段で変換した電気信号から、目的とする音響の電気信号を抽出する指向性制御手段と、
を備えることを特徴とする。
【0008】
好ましくは、前記音入力装置は、
前記音入力装置の加速度を検出する加速度検出手段と、
前記音入力装置の角速度を検出する角速度検出手段と、
を備え、
前記移動検出手段は、前記加速度検出手段で検出した加速度から前記音入力装置の変位を算出し、前記角速度検出手段で検出した角速度から前記音入力装置の方位を算出する、
ことを特徴とする。
【0009】
好ましくは、前記音入力装置は、
所定の時間を経過する間に前記移動検出手段で前記音入力装置の移動を検出しなかった場合に、少なくとも前記加速度検出手段および前記角速度検出手段を除く前記音入力装置の部分の動作を停止させる待機手段と、
前記加速度検出手段で所定の大きさの加速度を検出した場合、または、前記角速度検出手段で所定の大きさの角速度を検出した場合に、前記待機手段で停止させていた部分を動作させる復帰手段と、
を備えることを特徴とする。
【0010】
好ましくは、前記音入力装置は、
所定の時間を経過する間に前記移動検出手段で前記音入力装置の移動を検出しなかった場合に、少なくとも前記移動検出手段を除く前記音入力装置の部分の動作を停止させる待機手段と、
前記移動検出手段で所定の大きさの変位または方位を検出した場合に、前記待機手段で停止させていた部分を動作させる復帰手段と、
を備えることを特徴とする。
【0011】
好ましくは、前記音入力装置は、
画像を撮影する撮像手段と、
前記撮像手段で撮影した2つの画像に含まれる同じ物体を抽出する画像認識手段と、
を備え、
前記移動検出手段は、前記画像認識手段で抽出した2つの画像に含まれる同じ物体の画像の大きさと方向から、前記音入力装置の移動によって生じる変位と方位を算出する、
ことを特徴とする。
【0012】
好ましくは、前記音入力装置は、
前記画像認識手段は、前記画像に含まれる物体のうち最も大きい物体を、前記2つの画像に含まれる同じ物体を抽出する候補として選択することを特徴とする。
【0013】
好ましくは、前記音入力装置は、
前記画像認識手段は、前記2つの画像から同じ物体を抽出する候補として2以上の物体を選択し、前記選択した2以上の物体のうち少なくとも1つについて、前記2つの画像に含まれる同じ物体として抽出することを特徴とする。
【0014】
好ましくは、前記音入力装置は、
画像を撮影する撮像手段と、
音源位置取得手段で音源位置を取得するタイミングを入力する入力手段と、
を備え、
前記音源位置取得手段は、前記入力手段で入力したタイミングに、前記撮像手段が撮影する画像の中心位置の方向にある物体を前記音源位置として取得する、
ことを特徴とする。
【0015】
好ましくは、前記音入力装置は、
画像を撮影する撮像手段と、
前記撮像手段で同じ画像を撮影している継続時間を計測する計時手段と、
を備え、
前記音源位置取得手段は、前記計時手段で計測する継続時間が所定の時間を超えた場合に、そのとき前記撮像手段が撮影する画像の中心位置の方向にある物体を前記音源位置として取得する、
ことを特徴とする。
【0016】
好ましくは、前記音入力装置は、
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像のなかの特定の領域を指定する指令を入力する位置指定手段と、
を備え、
前記音源位置取得手段は、前記位置指定手段で入力した指令で指定された前記画像のなかの特定の領域に対応する物体を前記音源位置として取得する、
ことを特徴とする。
【0017】
好ましくは、前記音入力装置は、
特定の音を表す電気信号を記憶する音信号記憶手段と、
前記音取得手段で取得した電気信号から、前記特定の音を表す電気信号を抽出する音認識手段と、
を備え、
前記音源位置取得手段は、前記複数の音取得手段のそれぞれで変換した電気信号から、前記音信号記憶手段で記憶する電気信号を前記音認識手段で抽出した時間的位置の差に、前記複数の音取得手段のそれぞれに到達する時間差が等しくなる音波の到来方向を、前記音源位置の方向として取得する、
ことを特徴とする。
【0018】
好ましくは、前記音入力装置は、
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像に前記音源位置取得手段で取得した音源位置の物体の画像が含まれる場合に、該物体の画像を強調表示する音源物体表示手段と、
を備えることを特徴とする。
【0019】
好ましくは、前記音入力装置は、
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像に重畳して、前記音源位置取得手段で取得した前記音入力装置に対する音源の方向を示す記号を表示する音源方向表示手段と、
を備えることを特徴とする。
【0020】
好ましくは、前記音入力装置は、
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像に重畳して、前記音源位置取得手段で取得した前記音入力装置に対する音源の方向の角度を示す数値を表示する音源角度表示手段と、
を備えることを特徴とする。
【0021】
本発明の第2の観点に係る音入力方法は、
音を変換した電気信号を取得しながら移動する可能性のある音入力装置の音入力方法であって、
複数の音取得手段のそれぞれで音を電気信号に変換する複数音取得ステップと、
前記音入力装置が取得する電気信号の目的となる音響を発生する音源の、前記音入力装置に対する位置である音源位置を取得する音源位置取得ステップと、
前記音源位置取得ステップで前記音源位置を取得した地点と前記音入力装置の向きから、前記音入力装置の移動によって生じる変位と方位を検出する移動検出ステップと、
前記移動検出ステップで検出した前記変位と方位から、前記音源位置情報を取得したときの前記音入力装置に対する前記音源位置の方向と、前記音入力装置が移動したのちの前記音入力装置に対する前記音源位置の方向との差分を算出する差分検出ステップと、
前記差分検出ステップで検出した差分によって示される前記移動したのちの前記音入力装置に対する前記音源位置の方向から到来する音波が、前記複数の音取得手段のそれぞれに到達する時間差を用いて、前記複数の音取得手段で変換した電気信号から、目的とする音響の電気信号を抽出する指向性制御ステップと、
を備えることを特徴とする。
【0022】
本発明の第3の観点に係るコンピュータプログラムは、
コンピュータを、
音を電気信号に変換する複数の音取得手段と、
前記音取得手段で取得する電気信号の目的となる音響を発生する音源の、前記音入力装置に対する位置である音源位置を取得する音源位置取得手段と、
前記音源位置取得手段で前記音源位置を取得した地点と前記音入力装置の向きから、前記音入力装置の移動によって生じる変位と方位を検出する移動検出手段と、
前記移動検出手段が検出した前記変位と方位から、前記音源位置情報を取得したときの前記音入力装置に対する前記音源位置の方向と、前記音入力装置が移動したのちの前記音入力装置に対する前記音源位置の方向との差分を算出する差分検出手段と、
前記差分検出手段で検出した差分によって示される前記移動したのちの前記音入力装置に対する前記音源位置の方向から到来する音波が、前記複数の音取得手段のそれぞれに到達する時間差を用いて、前記複数の音取得手段で変換した電気信号から、目的とする音響の電気信号を抽出する指向性制御手段として機能させる、
ことを特徴とする。
【発明の効果】
【0023】
本発明の音入力装置を自由に移動回転しても確実に目的音の方向を検出して、目的音を入力し続けることができる。
【発明を実施するための最良の形態】
【0024】
以下、本発明の実施の形態について図面を参照しながら詳細に説明する。なお、図中同一または相当部分には同一符号を付し、その説明は繰り返さない。本発明の実施形態に係わる音入力装置を用いて、カメラとアレイマイクとを同一方向に向けて実装した動画撮影装置について説明する。なお、本発明は動画像装置に限定されるものではなく、例えば、携帯電話、デジタルスチルカメラ、デジタルビデオカメラ等でもよい。
【0025】
図1は、本発明の実施の形態に係る音入力装置を備えた動画撮影装置のブロック図の一例である。動画撮影装置100は、アレイマイク1と、A−D変換器2と、指向性範囲制御部3と、カメラ4と、画像処理部5と、Audio符号器6と、Video符号器7と、MUX8と、メモリ9と、表示装置10と、OSD11と、入力部12と、タイマ13と、移動検出部14と、画像認識部15と、音認識部16と、音パターンデータベース17と、制御部18とを備える。
【0026】
アレイマイク(array microphone)1は、音を入力する多数のマイクを並べてその出力を電気的に足し合わせて指向性を得る。それぞれのマイクの電気信号を目的音源の方向に合わせて、指向性範囲制御部3で遅延演算することによって指向性を得ることができる。
【0027】
図2は、アレイマイクで指向性を得る方法を示した図であり、同一平面上に同一方向に音入力面を持つ複数のマイクロホンを並べ配置する。図2(a)は、各マイクロホンが拾う音を単純に加算した場合の例を示す。各マイクの入力を遅延時間をつけずに加算すると、各マイクに同時に到達する音が強調され、到達時間が異なる方向から到来する音の成分は打ち消し合って抑制される。厳密には、到達時間の差が波長の整数倍の方向の音は強まるが、現実には単音はほとんどないので無視できる。図2(b)は、マイクロホンに0から5Tの時間遅れとなる遅延器を付けた場合の例であり、特定方向の音が強調される。遅延値(SINθ=T/マイク間隔)の分だけ角度を付けた方向からの音は、位相がそろうので加算すると強め合う。特定の方向以外の方向から到来する音については、隣接するマイクに到達する時間差がTと異なるので、遅延時間Tをつけて加算すると打ち消し合って弱くなる。
【0028】
音取得手段として、アレイマイクを使用した場合には、複数のマイクを同一平面上に同一方向を向けて配置することができるので、該装置上の複数の面や他の方向を向けてマイクを配置する必要がなく、該装置上にマイクを配置する制限を緩和することができる。
【0029】
なお、音を取得する手段としてアレイマイクを同一平面上に配置する必要はない。任意の音の到来方向に対して、各マイクに到達する時間差を制御すればよいのである。各マイクを同一方向に向ける配置に限る必要はなく、指向性が異なる複数のマイクロホンを組み合わせたり、他の方向を向いたマイクロホンを組み合わせてもよい。目的音の到来方向以外からの音について入力感度がそろうように調節して、到来方向の到達時間の差を付けて加算すれば、目的音以外の成分を抑制することができる。
【0030】
A−D変換器(Analog to Digital Converter)2は、アレイマイク1から入力したアナログ電気信号をデジタル電気信号に変換する電子回路である。
【0031】
指向性範囲制御部3は、A−D変換器2でデジタル電気信号に変換したアレイマイク1の入力信号に対して、目的音源の方向に指向性を有する用に遅延演算する。遅延演算する値は、動画撮影装置100と目的音源の相対的な変位と方位との変化に合わせて変更し、制御部18からの指向性範囲の変更する指示で与える。図2(b)の0〜5Tの「遅延器」と「加算」に相当する。
【0032】
カメラ4は、動画を撮影して映像信号を電気信号に変換する。画像処理部5は、カメラ4が出力する映像用電気信号から情報を取り出す処理を行う。例えば、映像用電気信号からノイズを除去したり、画像の大きさを変更したり、画像認識処理や理解の前段階としての信号変換処理をしたりする。
【0033】
Audio符号器6は、指向性範囲制御部3が出力する指向性を持った音信号に対して、録画後再生可能とするためのエンコード処理を行う。Video符号器7は、画像処理部5が出力する映像信号に対して、録画後再生可能とするためのエンコード処理を行う。
【0034】
MUX8は、Audio符号器6で処理をした音信号と、Video符号器7で処理をした映像信号とを1つの信号として出力するマルチプレクサである。メモリ9は、MUX8で1つにした信号をデータとして記憶する。
【0035】
表示装置10は、撮影した動画像にOSD(on screen display)11で付加する枠組み等の情報を合わせて表示する。OSD11は、表示装置10に設定画面を表示させたり、撮影した動画像に操作用の位置合わせ枠組み等を重ね合わせて表示させる。表示装置10は、CRT(cathode ray tube)、LCD(liquid crystal display)、有機EL(Organic Electro Luminescence)等と駆動回路で構成する。
【0036】
入力部12は、動画撮影装置100の使用者の入力を受け付ける。使用者は、入力部12から操作内容を制御部18に伝えて、動画撮影装置100を操作する。入力部12は、使用者が操作する複数のキーやタッチパネル等で構成する。
【0037】
タイマ13は、時間を計測する。タイマ13は、内部クロックに基づいて、入力部12等からの指示や、移動検出部14が静止を検出した時から計時を開始し、所定の時間が経過したことを制御部18に知らせる。また、タイマ13は、撮影時の日時等を記録するために用いる。
【0038】
移動検出部14は、動画撮影装置100が移動した場合に、移動前後での変位と方位とを移動量として検出する。例えば、加速度センサ等で変位として、移動した距離と移動した方向とを測定し、ジャイロセンサ等で方位として、回転角度を検出する。移動検出部14が検出した変位と方位との変化量を制御部18に送り、アレイマイク1の指向性を変更するための補正値を算出するための処理に用いる。
【0039】
画像認識部15は、動画撮影装置100が撮影した画像から輪郭等を抽出して、画像内の任意の表示物体を選択する。画像認識部15は、選択した表示物体が画像内部で占める大きさと、表示物体が存在する画像の中心点からの方向とを認識する。また、画像認識部15は、動画撮影装置100と表示物体との相対位置が変化した際に、移動前後の各画像に含まれる同じ物体を表す表示物体の大きさの変化と、表示物体が存在する方向の変化とを認識する。表示物体の大きさと方向の変化から動画撮影装置100の変位と方位との変化量を検出することができる。また、画像認識部15は、表示物体を目的音源の候補として表示装置10に表示したり、任意の表示物体を目的音源と動画撮影装置100との相対位置を特定するための基準とすることができる。
【0040】
音認識部16は、アレイマイク1から入力した音に含まれる特定の音と、音パターンデータベース17の中から選択した音パターンの音とが一致するかを検出する。各マイクが取得する音に選択した音パターンと一致する音が存在する場合には、音認識部16は、各マイクの音のうち選択した音パターンと一致する部分の時間の差を検出する。この時間差を図2(b)に示す遅延時間として逆算することによって、音が到来する方向を知ることができる。音パターンデータベース17は、音認識部16が音認識を行うための音情報を予め登録し、制御部18が選択した音パターンを音認識部16に送る。
【0041】
制御部18は、入力部12からの指示に基づき動画撮影装置100全体を制御する。制御部18は、移動検出部14や画像認識部15からの目的音源の方向の情報と、予め保持している距離の情報や、使用者が入力部12から入力した距離の情報等を基に目的音源の仮定的な位置を決める。また、制御部18は、移動検出部14や画像認識部15からの目的音源との相対的な位置の移動量に基づき補正量を算出し、指向性範囲制御部3に対して、指向性を変更する指示をする。制御部18は、画像認識部15からの情報に基づきOSD11に対して、表示装置10が表示している表示物体を目的音源として登録するためのガイド用枠を表示物体に重ね合わせる位置の情報や、目的音源が位置する方向のガイド用の方向情報や、表示装置10の中心から目的音源の位置の角度のガイド用の角度情報等を通知する。制御部18は、CPU(central processing unit)、ROM(read only memory)、RAM(random access memory)、I/Oポート(input output port)等で構成する。
【0042】
図1のブロック図は、本発明の実施の形態に関連する全てのブロックをまとめて記載したものであり、本発明を実施するためには必ずしも全てを備えなくてもよい。例えば、動画撮影装置100が画像系の処理を備えている場合の変位と方位との移動量を検出する手段は、移動検出部14と画像認識部15とのどちらか一方を備えればよい。但し、両方を備えている場合には、音源物体が画像に写っている時は、動画撮影装置100と音源物体との相対位置の変化による移動量を検出し、画像に写っていない時は、動画撮影装置100の位置の変化による移動量を検出できるので、指向性範囲制御部3の指向性を高精度で補正できる。
【0043】
さらに例えば、動画撮影装置100が画像系の処理を備えている場合に目的音源を登録する方法は、入力部12と、タイマ13と、画像認識部15と、音認識部16とのいずれか1つを備えていればよい。
【0044】
図3は、動画撮影装置100の制御動作のフローチャートの一例を示す図である。本発明の実施の形態では、画像系の動画撮影処理と音系の音入力処理とは独立して処理を行うので、主に音入力系の処理について説明する。
【0045】
使用者が動画像の撮影を開始すると、動画撮影装置100が動画撮影処理を開始する。カメラ4が撮影した被写体の映像信号は、画像処理部5で信号処理を実施してから、表示装置10で画像として表示される。同時に、アレイマイク1が取得した音信号は、A−D変換器2でアナログ信号からデジタル信号に変換される。動画撮影装置100は、撮影画像を表示し、音信号をデジタル変換した状態で、使用者が操作する入力部12からの録画開始指示があるまで待機状態になる。
【0046】
使用者は、録音する音の方向を追従するために、目的音源の位置を登録する(ステップS100)。図4は、目的音源として被写体(の画像)101を登録する方法と、登録した被写体に対するガイド表示方法の一例を示す。使用者は、表示装置10を見ながらカメラ4の向きを変えて、表示装置10の中心部に目的音源の被写体101を表示するようにする。使用者は、表示装置10の中心部に被写体101が写っている状態で、入力部12を操作して中心部分に写っている被写体101を目的音源として登録する。制御部18は、表示装置10の正面方向を目的音源の方向の情報とし、予め保持している距離の情報や、使用者が入力部12から入力した距離の情報等を基に目的音源の仮定的な位置を決める。オートフォーカスなどの光学系の制御量から、被写体までのおおよその距離を算出してもよい。この時点では、カメラ4の正面方向が目的音源の方向である。
【0047】
動画撮影装置100は、目的音源を登録すると、登録した目的音源の被写体101の位置を使用者に通知するガイドを表示する(ステップS101、図4参照)。制御部18は、目的音源となる被写体101の方向の情報を取得すると、OSD11に目的音源の被写体101の位置情報を通知する。OSD11は、表示装置10が表示する動画信号に、被写体101を囲むフレーム200を重畳する。表示装置10は、OSD11が処理をしたフレーム200の情報を重畳した動画信号を表示する。
【0048】
制御部18は、目的音源の被写体101からの音を明瞭に取得するために、アレイマイク1が取得する音に対して、指向性範囲制御部3で指向性をつける(ステップS102)。目的音源の被写体101がカメラ4の正面方向に存在するため、指向性範囲制御部3は、アレイマイク1が取得する音に、正面方向の指向性を持たせる。図5は、カメラ4の正面の被写体101を目的音源に指定した場合の例である。
【0049】
録音する目的音源を変更するかの判断を行う(ステップS103)。録音する目的音源を別の音源に変更する場合には(ステップS103;YES)、前述のステップS100からS102を繰り返す。
【0050】
録音する目的音源を別の音源に変更しない場合は(ステップS103;NO)、そのまま目的音源の音を録音し続ける。録音している最中に、移動検出部14は、動画撮影装置100が移動したか検知判断する(ステップS104)。動画撮影装置100が移動しない場合には(ステップS104;NO)、そのまま録音を継続する。
【0051】
動画撮影装置100が移動した場合には(ステップS104;YES)、移動検出部14は目的音源の位置を登録した位置からの変位と、その方向からの方位を検出する(ステップS105)。移動検出部14は、例えば加速度センサ等で変位として、移動した距離と移動した方向とを検出し、ジャイロセンサ等で方位として、回転角度を検出する。図6は、移動前に目的音源の被写体101を写していた動画撮影装置100が、移動回転した移動後に目的音源以外の被写体を写している状態の図である。
【0052】
移動検出部14の各センサが検知した値を定期的に制御部18に送る。制御部18は、加速度センサの出力を時間で2回積分して移動距離を求め、ジャイロセンサの出力を1回積分して回転角度を求める。異なるセンサの検出結果について、同様に積分処理を行うので、センサの結果を異なる方法で処理をする場合よりも移動量検出処理を簡略化できる。制御部18は、算出した移動距離と回転角度の値を用いて、移動前の指向性範囲制御部3で使用する指向性の指定値を補正する補正量を算出する(ステップS106)。図7は、移動前後での指向性範囲の角度差を表す図である。
【0053】
制御部18は、算出した補正量と指向性範囲切替通知を指向性範囲制御部3に送る。指向性範囲制御部3は、補正した指向性でアレイマイク1が取得する音を処理することで、目的音源の被写体101の音を明瞭に録音し続ける(ステップS107)。
【0054】
動画撮影装置100が移動すると、表示装置10が表示する目的音源の被写体101の位置も変わる。制御部18は、算出した補正量に対応させて、表示画像内でフレーム200を重畳する位置を更新する(ステップS108)。目的音源を変更しない場合には(ステップS103;NO)、ステップS104からステップS108の処理を繰り返すことで、目的音源の音を追尾して目的の音を明瞭に録音し続けることができる。
【0055】
なお、目的音源の登録方法は、上記ステップS100に記載した方法に限定するものではない。例えば、入力部12として、表示装置10上にタッチパネルを備えている場合の登録方法として、表示画面内の任意の表示物体をタッチパネルで選択して登録することが考えられる。制御部18は、タッチパネルで指定した位置を検出し、カメラ4の正面方向の中心部分を基準とする方角を割り出して目的音源の被写体101を登録することができる。図8には、タッチパネルを用いて目的音を発する被写体101を登録する方法の例を示す図であり、画面内の複数の人から被写体101を選択して登録する。タッチパネルを備える場合には、使用者は、目的音源の被写体101を表示装置10の中心部分に表示するようにカメラ4を調整する必要はなく、カメラ4の画角内に目的音源の被写体101を写せばよい。
【0056】
例えばまた、タイマ13を備える場合の登録方法として、動画撮影装置100が所定の時間静止し続けた場合に、カメラ4の中心線上に写る被写体101を目的音源として、登録することが考えられる。タイマ13は、移動検出部14が静止状態を検出してから所定の時間が経過すると、そのことを制御部18に伝える。制御部18は、カメラ4の中心部線上の被写体101の方向にある仮定の位置を目的音源として登録する。また、入力部12からの計時開始指示によって、カメラ4の中心線上に写る被写体101を目的音源として登録するための計時を始めてもよい。
【0057】
さらに例えば、音認識部16と音パターンデータベース17とを備える場合の登録方法として、アレイマイク1が取得する音の中から、事前に登録している音パターンと同一の音を選択して登録する方法が考えられる。使用者は、音パターンデータベース17に登録している音情報の中から目的音源に設定する音情報を選択する。音認識部16は、アレイマイク1が取得する音の中から選択した音情報と同一特性の音パターンを認識する。各マイクが取得する音に選択した音パターンと一致する音が存在する場合には、音認識部16は、各マイクの音のなかで選択した音パターンと一致する部分の時間の差を検出することによって、音が到来する方向を検出する。制御部18は、検出した音の到来方向を目的音源の方向の情報とし、予め保持している距離の情報や、使用者が入力部12から入力した距離の情報等を基に目的音源の仮定的な位置を決める。
【0058】
また、1つの目的音源のみならず2つ以上の目的音源を同時に登録する方法が考えられる。動画撮影装置100は、複数ある目的音源の中から、画像の中心に近い目的音源の音や音量が大きい目的音源の音を、録音する目的音源として選択し、その方向をアレイマイク1が取得する音の方向として指向性を持たせる方法が考えられる。例えば、同じ音を発生する音源としてスピーカが2以上ある場合、それらを目的音源として登録する。動画撮影装置100が移動した場合に、近い方の音源から到来する音に指向性を適合させることによって、目的以外の音をより小さく抑制することができる。
【0059】
複数の目的音源を同時に登録する場合には、複数の目的音源の中から1つの目的音源の音をのみを録音するのではなく、複数の目的音源の音を同時に録音してもよい。例えば、アレイマイク1が取得した音に対して、指向性範囲制御部3は、同じ処理単位時間の音信号を目的音源毎に異なる指向性の遅延計算をして、結果を重ねることにより、複数の目的音源の音を明瞭に取得することができる。
【0060】
ステップS105では、移動検出部14が変位と方位との移動量を検出する方法を説明したが、画像認識部15を備えている場合には、カメラ4が撮影した画像内にある任意の物体を選択し、画像内で選択した任意の物体の大きさや表示位置の差を求めることで、動画撮影装置100が移動した変位と方位との移動量を求めることができる。画面内に選択した任意の物体が2つ以上存在する場合には、移動前後での変位と方位との移動量を高精度で算出することができる。また、被写体101が目的音源であり移動する場合には、動画撮影装置100と目的音源との相対位置が変化したことも認識できる。
【0061】
選択する任意の物体は、目的音源となる被写体以外の周囲にある物体を動画撮影装置100の位置を認識するための基準としてもよい。周囲にある物体として、例えば壁や床の模様、あるいは山や建物の輪郭線等を利用してもよい。物体の選択方法に制限はないが、例えば、画像内で大きい物体を選択する方が小さい物体を選択するよりも、小さな誤差で変位と方位との移動量を検出できる。また、直線的な輪郭や模様の物体を選択する方が曲線的な輪郭や模様の物体を選択するよりも、小さな誤差で変位と方位との移動量を検出できる。
【0062】
例えば、移動前の画像図11(a)は、目的音源の被写体101と、それ以外に周囲にある物体103、104を表示している。制御部18は、表示している画像内で画像認識部15が認識した複数の物体の中から、任意の物体を選択する。ここでは、任意の物体103を選択したとする。制御部18は、画像認識部15で物体103の画像内での大きさと表示画像中心に対して物体103を表示している方向の角度を求める。動画撮影装置100が移動した場合には(図11(b))、制御部18は、再び画像認識部15で物体103の画像内での大きさと表示画像中心に対して物体103を表示している方向の角度を求める。制御部18は、移動前後での画像認識部15の認識結果を基に動画撮影装置100の変位と方位の移動量を算出する。制御部18は、算出結果から補正量を求め、指向性範囲制御部3の指向性範囲を切り替える。指向性範囲制御部3は、アレイマイク1が取得する音に指向性を持たせて、目的音源の被写体101の音を取得する。
【0063】
画像認識部15を備える場合には、目的音源の被写体101が移動した場合にも相対位置が変わることを検出することができるので、動画撮影装置100が移動した場合と同様に処理をすることができる。画像認識部15は、目的音源の被写体101が画像内で占める表示面積の変化量と、画像の中心方向からの移動した角度変化量とを認識することができるので、目的音源の音が到来する方向を検出することができる。制御部18は、画像認識部15が検出した変位と方位の移動量から補正値を求め、指向性範囲制御部3の指向性範囲を切り替える指示を出すことができる。
【0064】
また、画像認識部15を備える場合には、表示している画像の中で最も大きい物体を目的音源として登録する方法が考えられる。例えば、携帯電話で話者の声を拾うような場合に、使用者が目的音源を指定する処理を省くことができる。
【0065】
選択した目的音源の被写体101が1つの場合で、動画撮影装置100が移動して選択した目的音源の被写体101が画面から外れそうなときに、目的音源となる物体を再選択する機能を設けてもよい。例えば、図11(a)で物体103を目的音源として選択している場合に、動画撮影装置100が右側方向に移動して、物体103が画像から外れそうになったときに、制御部18は、別の物体104を目的音源の物体として再選択する。画像認識部15は、物体103と物体104との距離と角度との差を算出する。制御部18は、算出結果から補正量を求め、指向性範囲制御部3の指向性範囲を切り替える。指向性範囲制御部3は、アレイマイク1が取得する音に指向性を持たせて、目的音源の被写体104の音を取得する。
【0066】
画像認識部15と移動検出部14とを備える場合には、目的音源の被写体101が画像に写っているときは、画像認識部15と移動検出部14との検出結果を比較することで、目的音源の被写体101の方向を正確に算出し、指向性範囲制御部3の指向性を高精度で補正することができる。目的音源の被写体101が画像に写っていないときは、移動検出部14が移動する移動量を検出することができる。
【0067】
以上説明したように、本発明の実施の形態に係る音入力装置によれば、音入力装置は、移動量として方位だけでなく、変位をも検出する手段を備えることで、繰り返して移動した場合に目的音源の方向を見失うことを防止できる。目的音源の音が到来する方向を正確に把握できるので、常に目的音源の音が到来する方向に指向性を持って、音を取得し続けることができる。
【0068】
また、本発明の実施の形態に係る音入力装置によれば、目的の音が到来する方向に指向性を持たせる手段として、各マイクからの入力信号に時間差をつけて加算することで実現する。音入力装置内の遅延演算により指向性を持たせることができるので、複数のマイクの物理的な配置に制限を設ける必要はない。複数のマイクの音声入力面を同一平面上で同一方向を向けて配置することができる。
【0069】
また、本発明の実施の形態に係る動画撮影装置100によれば、動画撮影装置100自身が移動しながら特定の目的音源の音を入力する場合に、複数のマイクの音入力面をカメラ4の画角方向と同一方向に配置することができる。さらに、動画撮影装置100のカメラ4の向きや場所を移動させても、カメラ4の画角方向とは必ずしも一致しない目的音源の方向から到達する音を正確に把握できるので、常に目的音源の音が到来する方向に指向性を持って、音を取得し続けることができる。
【0070】
例えば講演会において、スピーカを目的音源として登録して、スピーカの方向に指向性をもたせることで、講演者の音以外の音をカットして、講演者の音をクリアな状態で録音しながら、画像は講演者や観客席の様子を撮影するという使い方ができる。例えばまた、携帯電話のテレビ電話機能を使用する場合に、通話者の音を取得しながら、カメラ4は通話者以外の被写体、物を買う場合に選んでいる商品やパンフレット等周囲を撮影することが考えられる。
【0071】
なお、実施の形態は、カメラ4の画角方向とアレイマイク1の音入力面が同一方向に向いて実装している動画撮影装置100について説明したが、カメラ4の画角方向とアレイマイク1の音入力面とが同一方向を向いている音入力装置なら全般的に適用できる。例えば、携帯電話やデジタルスチルカメラ、デジタルビデオカメラ等にも適用することができる。
【0072】
なお、目的音源の被写体101の位置を使用者に知らせる方法も、フレーム200を重畳する方法に限定するものではない。図9、図10に、登録した目的音源の被写体に対するガイド表示方法を示す。図9は、目的音源の被写体が表示画像から外れた場合の目的音源の被写体が存在する方向をコンパス状のアイコン201で示した例である。なお、表示画面の中にある場合であっても、矢印や記号等のアイコンで目的音源の方向と位置をガイド表示してもよい。図10は、目的音源の被写体が画像の中心方向からずれている角度を数字表示部202に数字で表示させた例である。なお、表示画面の中にある場合であっても、画面から外れている場合と色分けする等の方法で角度を数字で表示してもよい。アイコン201の表示方法では、使用者に目的音源が存在する方向を直感的に知らせることができ、数字表示部202の数字による表記では、使用者に画角方向とのずれの量を把握させることができる。
【0073】
なお、動画撮影装置100が稼働中で、目的音源の音到来方向を追尾する機能の消費電力を低減する方法がある。図12は、低電力動作時の動画撮影装置の制御フローの一部の一例を示す図である。動画撮影装置100が移動をしていない場合には(ステップS104;NO)、移動検出部14と制御部18とをスタンバイ(standby)状態にしておき(ステップS300)、動画撮影装置100が移動した場合だけ(ステップS104;YES)、移動検出部14と制御部18とをスタンバイ状態から復帰して、指向性範囲制御部3の移動量を算出する(ステップS105)方法である。移動が発生していない期間の移動検出部14と制御部18との電力消費量を抑えることができる。なお、スタンバイ状態とは、復帰するための信号を受信する機能等の必要な機能を除く他の機能が動作しない状態のことである。
【0074】
また、別の消費電力削減方法として、動画撮影装置100が稼働中で、動画撮影装置100が大きく動いたり、指向性範囲制御部3の補正量を早く算出する必要がある場合には、制御部18のみをスタンバイ状態にする方法がある。図13は、低電力動作時の動画撮影装置の制御フローの別の一部の一例を示す図である。移動検出部14は、常時移動量をセンシングしておき、移動を検知しない場合には(ステップS104;NO)、制御部18はスタンバイ状態にしておき(ステップS301)、移動を検出すると(ステップS104;YES)、センサからの割り込み信号等のスタンバイ復帰信号を制御部18に出力する(ステップS201)。制御部18は、移動検出部14からの復帰信号でスタンバイ状態から復帰して(ステップS202)、移動量を求める(ステップS105)方法である。
【0075】
また、本発明は携帯端末に限定されるものではなく、デジタルビデオカメラやノートパソコン等の該装置の形態を変更して利用できる装置でも同様の制御が可能である。
【0076】
その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更および修正が可能である。
【0077】
指向性範囲制御部3、画像処理部5、Audio符号器6、Video符号器7、MUX8、メモリ9、表示装置10、OSD11、入力部12、タイマ13、画像認識部15、音認識部16、音パターンデータベース17、制御部18等から構成される動画撮影装置100は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読みとり可能な記録媒体(フレキシブルディスク、CD−ROM、DVD−ROM等)に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する動画撮影装置100を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで動画撮影装置100を構成してもよい。
【0078】
また、動画撮影装置100の機能を、OS(オペレーティングシステム)とアプリケーションプログラムの分担、またはOSとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。
【0079】
また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、OSの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。
【図面の簡単な説明】
【0080】
【図1】動画撮影装置のブロック構成の一例を示す図である。
【図2】アレイマイクで指向性を得る方法を示した図である。
【図3】動画撮影装置の制御フローの一例を示す図である。
【図4】動画撮影装置の、目的音源の被写体を登録する方法と、登録した被写体に対するガイド表示方法の一例を示す図である。
【図5】カメラの正面の被写体を目的音源に指定した場合の例である。
【図6】移動前に目的音源の被写体を撮影していた動画撮影装置が、移動回転した移動後に目的音源以外の被写体を写している状態の図である。
【図7】移動前後での指向性範囲の角度差を表す図である。
【図8】動画撮影装置の、目的音を発する被写体を登録する方法の別の一例を示す図である。
【図9】動画撮影装置の、登録した被写体に対するガイド表示方法の別の一例を示す図である。
【図10】動画撮影装置の、登録した被写体に対するガイド表示方法の更に別の一例を示す図である。
【図11】動画撮影装置で複数の被写体を登録した場合の例を示す図である。
【図12】低電力動作時の動画撮影装置の制御フローの一部の一例を示す図である。
【図13】低電力動作時の動画撮影装置の制御フローの別の一部の一例を示す図である。
【符号の説明】
【0081】
1・・・アレイマイク、2・・・A−D変換器、3・・・指向性範囲制御部、4・・・カメラ、5・・・画像処理部、6・・・Audio符号器、7・・・Video符号器、8・・・MUX、9・・・メモリ、10・・・表示装置、11・・・OSD、12・・・入力部、13・・・タイマ、14・・・移動検出部、15・・・画像認識部、16・・・音認識部、17・・・音パターンデータベース、18・・・制御部、100・・・動画撮影装置、101・・・目的音を発する被写体、102・・・目的音となる被写体以外の人、103、104・・・その他の物体、200・・・フレーム、201・・・アイコン、202・・・数値表示部

【特許請求の範囲】
【請求項1】
音を変換した電気信号を取得しながら移動する可能性のある音入力装置であって、
音を電気信号に変換する複数の音取得手段と、
前記音入力装置が取得する電気信号の目的となる音響を発生する音源の、前記音入力装置に対する位置である音源位置を取得する音源位置取得手段と、
前記音源位置取得手段で前記音源位置を取得した地点と前記音入力装置の向きから、前記音入力装置の移動によって生じる変位と方位を検出する移動検出手段と、
前記移動検出手段が検出した前記変位と方位から、前記音源位置情報を取得したときの前記音入力装置に対する前記音源位置の方向と、前記音入力装置が移動したのちの前記音入力装置に対する前記音源位置の方向との差分を算出する差分検出手段と、
前記差分検出手段で検出した差分によって示される前記移動したのちの前記音入力装置に対する前記音源位置の方向から到来する音波が、前記複数の音取得手段のそれぞれに到達する時間差を用いて、前記複数の音取得手段で変換した電気信号から、目的とする音響の電気信号を抽出する指向性制御手段と、
を備えることを特徴とする音入力装置。
【請求項2】
前記音入力装置の加速度を検出する加速度検出手段と、
前記音入力装置の角速度を検出する角速度検出手段と、
を備え、
前記移動検出手段は、前記加速度検出手段で検出した加速度から前記音入力装置の変位を算出し、前記角速度検出手段で検出した角速度から前記音入力装置の方位を算出する
ことを特徴とする請求項1に記載の音入力装置。
【請求項3】
所定の時間を経過する間に前記移動検出手段で前記音入力装置の移動を検出しなかった場合に、少なくとも前記加速度検出手段および前記角速度検出手段を除く前記音入力装置の部分の動作を停止させる待機手段と、
前記加速度検出手段で所定の大きさの加速度を検出した場合、または、前記角速度検出手段で所定の大きさの角速度を検出した場合に、前記待機手段で停止させていた部分を動作させる復帰手段と、
を備えることを特徴とする請求項2に記載の音入力装置。
【請求項4】
所定の時間を経過する間に前記移動検出手段で前記音入力装置の移動を検出しなかった場合に、少なくとも前記移動検出手段を除く前記音入力装置の部分の動作を停止させる待機手段と、
前記移動検出手段で所定の大きさの変位または方位を検出した場合に、前記待機手段で停止させていた部分を動作させる復帰手段と、
を備えることを特徴とする請求項1乃至3のいずれか1項に記載の音入力装置。
【請求項5】
画像を撮影する撮像手段と、
前記撮像手段で撮影した2つの画像に含まれる同じ物体を抽出する画像認識手段と、
を備え、
前記移動検出手段は、前記画像認識手段で抽出した2つの画像に含まれる同じ物体の画像の大きさと方向から、前記音入力装置の移動によって生じる変位と方位を算出する、
ことを特徴とする請求項1に記載の音入力装置。
【請求項6】
前記画像認識手段は、前記画像に含まれる物体のうち最も大きい物体を、前記2つの画像に含まれる同じ物体を抽出する候補として選択することを特徴とする請求項5に記載の音入力装置。
【請求項7】
前記画像認識手段は、前記2つの画像から同じ物体を抽出する候補として2以上の物体を選択し、前記選択した2以上の物体のうち少なくとも1つについて、前記2つの画像に含まれる同じ物体として抽出する、
ことを特徴とする請求項5に記載の音入力装置。
【請求項8】
画像を撮影する撮像手段と、
音源位置取得手段で音源位置を取得するタイミングを入力する入力手段と、
を備え、
前記音源位置取得手段は、前記入力手段で入力したタイミングに、前記撮像手段が撮影する画像の中心位置の方向にある物体を前記音源位置として取得する、
ことを特徴とする請求項1乃至7のいずれか1項に記載の音入力装置。
【請求項9】
画像を撮影する撮像手段と、
前記撮像手段で同じ画像を撮影している継続時間を計測する計時手段と、
を備え、
前記音源位置取得手段は、前記計時手段で計測する継続時間が所定の時間を超えた場合に、そのとき前記撮像手段が撮影する画像の中心位置の方向にある物体を前記音源位置として取得する、
ことを特徴とする請求項1乃至7のいずれか1項に記載の音入力装置。
【請求項10】
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像のなかの特定の領域を指定する指令を入力する位置指定手段と、
を備え、
前記音源位置取得手段は、前記位置指定手段で入力した指令で指定された前記画像のなかの特定の領域に対応する物体を前記音源位置として取得する、
ことを特徴とする請求項1乃至7のいずれか1項に記載の音入力装置。
【請求項11】
特定の音を表す電気信号を記憶する音信号記憶手段と、
前記音取得手段で取得した電気信号から、前記特定の音を表す電気信号を抽出する音認識手段と、
を備え、
前記音源位置取得手段は、前記複数の音取得手段のそれぞれで変換した電気信号から、前記音信号記憶手段で記憶する電気信号を前記音認識手段で抽出した時間的位置の差に、前記複数の音取得手段のそれぞれに到達する時間差が等しくなる音波の到来方向を、前記音源位置の方向として取得する、
ことを特徴とする請求項1乃至7のいずれか1項に記載の音入力装置。
【請求項12】
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像に前記音源位置取得手段で取得した音源位置の物体の画像が含まれる場合に、該物体の画像を強調表示する音源物体表示手段と、
を備えることを特徴とする請求項1乃至11のいずれか1項に記載の音入力装置。
【請求項13】
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像に重畳して、前記音源位置取得手段で取得した前記音入力装置に対する音源の方向を示す記号を表示する音源方向表示手段と、
を備えることを特徴とする請求項1乃至12のいずれか1項に記載の音入力装置。
【請求項14】
画像を撮影する撮像手段と、
前記撮像手段が撮影した画像を表示する画像表示手段と、
前記画像表示手段で表示する画像に重畳して、前記音源位置取得手段で取得した前記音入力装置に対する音源の方向の角度を示す数値を表示する音源角度表示手段と、
を備えることを特徴とする請求項1乃至13のいずれか1項に記載の音入力装置。
【請求項15】
音を変換した電気信号を取得しながら移動する可能性のある音入力装置の音入力方法であって、
複数の音取得手段のそれぞれで音を電気信号に変換する複数音取得ステップと、
前記音入力装置が取得する電気信号の目的となる音響を発生する音源の、前記音入力装置に対する位置である音源位置を取得する音源位置取得ステップと、
前記音源位置取得ステップで前記音源位置を取得した地点と前記音入力装置の向きから、前記音入力装置の移動によって生じる変位と方位を検出する移動検出ステップと、
前記移動検出ステップで検出した前記変位と方位から、前記音源位置情報を取得したときの前記音入力装置に対する前記音源位置の方向と、前記音入力装置が移動したのちの前記音入力装置に対する前記音源位置の方向との差分を算出する差分検出ステップと、
前記差分検出ステップで検出した差分によって示される前記移動したのちの前記音入力装置に対する前記音源位置の方向から到来する音波が、前記複数の音取得手段のそれぞれに到達する時間差を用いて、前記複数の音取得手段で変換した電気信号から、目的とする音響の電気信号を抽出する指向性制御ステップと、
を備えることを特徴とする音入力方法。
【請求項16】
コンピュータを、
音を電気信号に変換する複数の音取得手段と、
前記音取得手段で取得する電気信号の目的となる音響を発生する音源の、前記音入力装置に対する位置である音源位置を取得する音源位置取得手段と、
前記音源位置取得手段で前記音源位置を取得した地点と前記音入力装置の向きから、前記音入力装置の移動によって生じる変位と方位を検出する移動検出手段と、
前記移動検出手段が検出した前記変位と方位から、前記音源位置情報を取得したときの前記音入力装置に対する前記音源位置の方向と、前記音入力装置が移動したのちの前記音入力装置に対する前記音源位置の方向との差分を算出する差分検出手段と、
前記差分検出手段で検出した差分によって示される前記移動したのちの前記音入力装置に対する前記音源位置の方向から到来する音波が、前記複数の音取得手段のそれぞれに到達する時間差を用いて、前記複数の音取得手段で変換した電気信号から、目的とする音響の電気信号を抽出する指向性制御手段として機能させる、
ことを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2009−296232(P2009−296232A)
【公開日】平成21年12月17日(2009.12.17)
【国際特許分類】
【出願番号】特願2008−146968(P2008−146968)
【出願日】平成20年6月4日(2008.6.4)
【出願人】(504149100)株式会社カシオ日立モバイルコミュニケーションズ (893)
【Fターム(参考)】