収音装置

【課題】音声信号を受け取って処理する側の装置が負う音声信号の解析のための負担を軽減する。
【解決手段】抽出部２０−ｋ（ｋ＝１〜ｍ）は、マイクロフォン１１−ｋ（ｋ＝１〜ｍ）により得られたデジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）から音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）と雑音強度信号Ｅｎ−ｋ（ｋ＝１〜ｍ）を各々抽出する。Ｓ／Ｎ比信号生成部５０は、音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）と雑音強度信号Ｅｎ−ｋ（ｋ＝１〜ｍ）からＳ／Ｎ比信号を演算する。出力部６０は、デジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）から合成されたデジタルオーディオ信号ＳＳとＳ／Ｎ比信号とを出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、外界の音を収音して電気信号を出力する収音装置に関する。
【背景技術】
【０００２】
ネットワークを介してユーザから音声信号を受け取り、各種のサービスを提供するシステムにおいて、受け取った音声信号の解析結果に基づいて、サービスを提供するための処理の制御を行う技術が各種提案されている。例えば特許文献１は、電話を掛けてきたユーザのうち正当なユーザのみにサービスを提供するために、通話相手から送られてくる音声信号が正当なユーザのものかの認識を行う話者認識装置に関するものである。この特許文献１に開示された技術では、通話相手から送られてくる音声信号を解析してＳ／Ｎ比を求め、受信される音声信号のうちＳ／Ｎ比の高い区間のものを話者認識の対象とすることで、話者認識の際の誤認識の防止を図っている。また、特許文献２は、ユーザが発声した音声を他の言語に翻訳し、音声として出力する音声翻訳機に関するものである。この特許文献２に開示された技術では、ユーザから取得される音声信号を解析して、発生元であるユーザの性別を判定し、ユーザが男性か女性かにより翻訳結果を音声として出力するときの態様（例えば翻訳結果を男性の声で出力するか女性の声で出力するか等）を切り換える。
【特許文献１】特開２００５−３００９５８号公報
【特許文献２】特開２０００−２００２７６号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
他から受信される音声信号に応答して何らかの処理を行うサービスは、上述のものの他にも多くの種類のものが提供されている。そして。例えば話者認識装置を製造販売する各業者は、各々の製品である話者認識装置に音声信号を解析してＳ／Ｎ比を求める機能を持たせ、音声翻訳機を製造販売する各業者は、各々の製品である音声翻訳機に音声信号を解析して音声の主の性別を判定する機能を持たせる、という具合に各々のサービスを提供するために重複した負担を負っている。
【０００４】
この発明は、以上のような事情に鑑みてなされたものであり、音声信号を受け取って処理する側の装置が負う音声信号の解析のための負担を軽減することができる収音装置を提供することを目的としている。
【課題を解決するための手段】
【０００５】
この発明は、外界から音を収音して電気信号を出力する少なくとも１個のマイクロフォンと、前記マイクロフォンの出力信号を解析し、前記マイクロフォンにより収音された音を特徴付けるパラメータを求める解析手段と、前記マイクロフォンの出力信号を前記解析手段により求められたパラメータとともに出力する出力手段とを具備することを特徴とする収音装置を提供する。好ましい態様において、解析手段は、パラメータとして、収音された音のＳ／Ｎ比、音の主の性別を求める。
かかる発明によれば、収音された音を示す信号とともにその音を特徴付けるパラメータが出力されるので、収音装置の出力信号を受け取る後段の装置では、そのパラメータを利用した処理を行うことができる。
【発明を実施するための最良の形態】
【０００６】
以下、図面を参照し、この発明の実施の形態を説明する。
＜実施形態の構成＞
図１はこの発明の一実施形態である収音装置の構成を示すブロック図である。図１に示すように、本実施形態における収音装置は、ｍ個のマイクロフォン１１−ｋ（ｋ＝１〜ｍ）を有する。図２および図３は、同収音装置におけるマイクロフォン１１−ｋ（ｋ＝１〜ｍ）の実装例を各々示している。なお、これらの図では、マイクロフォンの個数ｍが３である場合の例が示されている。
【０００７】
本実施形態における収音装置は、独立した装置として構成される場合もあるし、他の装置に組み込まれる場合もある。図２は、前者の例である収音装置におけるマイクロフォンの実装例を示している。この収音装置では、スタンド５０１の上部に固定された水平なバー５０２に３個のマイクロフォン１１−１〜１１−３が固定されている。図３は、後者の例として、本実施形態に係る収音装置が組み込まれたノート型パソコンにおけるマイクロフォンの実装例を示している。この例では、ノート型パソコンのディスプレイ５０３の上部に３個のマイクロフォン１１−１〜１１−３が固定されている。
【０００８】
本実施形態において用いられるマイクロフォン１１−ｋ（ｋ＝１〜ｍ）は、受音感度が音の到来方向に依存する単一指向性マイクロフォンである。図２および図３に示す例において、マイクロフォンにおいて最大の受音感度が得られる方角を向いた軸を最大感度軸と呼ぶものとすると、マイクロフォン１１−１〜１１−３は、各々最大感度軸を収音装置またはノート型パソコンの斜め右、真正面、斜め左の各方角に向けている。このように本実施形態におけるｍ個のマイクロフォン１１−ｋ（ｋ＝１〜ｍ）は、各々の最大感度軸が放射線を描くように収音装置に固定されている。
【０００９】
話者は、これらのマイクロフォン１１−ｋ（ｋ＝１〜ｍ）を前にして発話するが、話者が動く場合には、その話者の音声を収音するのに適するマイクロフォンが話者の位置に応じて変化する。例えば図２および図３に示す例において、話者の口が収音装置またはノート型パソコンの左側にある場合には、その話者の口の方角に最大感度軸を向けているマイクロフォン１１−１の出力信号のレベルが最大となり、この出力信号が話者の音声を示すものとして適している。しかし、話者が姿勢を変え、話者の口がマイクロフォン１１−２の真正面に移動すると、マイクロフォン１１−２の出力信号のレベルが最大となり、この出力信号を話者の音声を示すものとして採用した方がよい。
【００１０】
そこで、本実施形態における収音装置では、マイクロフォン１１−ｋ（ｋ＝１〜ｍ）の各出力信号の音声成分のレベルを監視し、原則的に最大レベルの信号を選択して最終的なデジタルオーディオ信号ＳＳとして出力し、収音装置全体としての指向性を音源（この例では話者の口）の方向に追従させる。そして、本実施形態における収音装置では、デジタルオーディオ信号ＳＳのＳ／Ｎ比を示す信号（以下、Ｓ／Ｎ比信号という）を生成して出力するのである。デジタルオーディオ信号ＳＳおよびＳ／Ｎ比信号は、例えばパソコンが実行する音声認識アプリケーションや翻訳アプリケーションなどの各種のアプリケーションの処理対象となり、ネットワークを介して他の装置に送信され、その装置が実行するアプリケーションの処理対象となる。その際、デジタルオーディオ信号ＳＳを処理するアプリケーションでは、Ｓ／Ｎ比信号を利用してその処理の制御を行うことが可能である。以下、デジタルオーディオ信号ＳＳおよびＳ／Ｎ比信号を得るための収音装置の回路構成を説明する。
【００１１】
図１において、Ａ／Ｄ変換器１２−ｋ（ｋ＝１〜ｍ）は、マイクロフォン１１−ｋ（ｋ＝１〜ｍ）から出力されるアナログオーディオ信号を一定のサンプリング周期でサンプリングし、サンプル値を示すデジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）に変換する。デジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）は、抽出部２０−ｋ（ｋ＝１〜ｍ）に各々入力されるとともに、出力信号合成部３０に入力される。
【００１２】
抽出部２０−ｋ（ｋ＝１〜ｍ）は、デジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）の各々から音声成分の強度を示す音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）および雑音成分の強度を示す雑音強度信号Ｅｎ−ｋ（ｋ＝１〜ｍ）を抽出する回路である。本実施形態では、音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）のレベル比較によりデジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）のいずれを最終的なデジタルオーディオ信号ＳＳとして出力するかの判断を行う。また、本実施形態では、音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）および雑音強度信号Ｅｎ−ｋ（ｋ＝１〜ｍ）からＳ／Ｎ比信号を演算する。
【００１３】
図４は抽出部２０−ｋ（ｋ＝１〜ｍ）の各々の構成を示すブロック図である。図４において、ＢＰＦ（バンドパスフィルタ；帯域通過フィルタ）２１は、例えば３００〜３０００Ｈｚの通過帯域を有し、デジタルオーディオ信号Ｓ−ｋに含まれる音声周波数成分を通過させる。このＢＰＦ２１の出力信号は、デジタルオーディオ信号Ｓ−ｋにおける音声成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にＢＰＦ２１の出力信号をそのまま音声強度信号Ｅｓ−ｋとして出力すると、デジタルオーディオ信号ＳＳとして選択されるデジタルオーディオ信号Ｓ−ｋが頻繁に切り換えられることとなり、動作が不安定になる。そこで、ＢＰＦ２１の後段にエンベロープ生成部２２が設けられている。このエンベロープ生成部２２は、ＢＰＦ２１の出力信号の急激な変化を緩和したエンベロープ（包絡線）を示す音声強度信号Ｅｓ−ｋを出力する。具体的にはエンベロープ生成部２２は、実効値算出回路と、ＬＰＦ（ローパスフィルタ）とを有している。ここで、実効値算出回路は、ＢＰＦ２１の出力信号を所定個数のサンプルからなるフレームに区切り、フレーム毎に各サンプルの２乗平均である実効値を算出する。ＬＰＦは、フレーム毎に得られる実効値の急激な変化を取り除き、実効値のエンベロープを示す音声強度信号Ｅｓ−ｋを出力する。
【００１４】
ＢＥＦ（バンドエリミネーションフィルタ；帯域除去フィルタ）２３は、例えば３００〜３０００Ｈｚの遮断帯域を有し、デジタルオーディオ信号Ｓ−ｋに含まれる遮断帯域以外の帯域の成分を通過させる。このＢＥＦ２３の出力信号は、デジタルオーディオ信号Ｓ−ｋにおける雑音成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にＢＥＦ２３の出力信号をそのまま雑音強度信号Ｅｎ−ｋとして出力すると、音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）および雑音強度信号Ｅｎ−ｋ（ｋ＝１〜ｍ）から演算されるＳ／Ｎ比信号が不安定なものとなる。そこで、ＢＥＦ２３の後段にエンベロープ生成部２２と同様なエンベロープ生成部２４が設けられている。このエンベロープ生成部２４は、このＢＥＦ２３の出力信号の急激な変化を緩和したエンベロープを示す雑音強度信号Ｅｎ−ｋを出力する。
【００１５】
図５は抽出部２０−ｋ（ｋ＝１〜ｍ）の他の構成例を示すブロック図である。この例では、図４におけるＢＥＦ２３が減算器２５に置き換えられている。この減算器２５は、デジタルオーディオ信号Ｓ−ｋからＢＰＦ２１の出力信号を減算してエンベロープ生成部２４に供給する。この構成においても、図４に示すものと同様な音声強度信号Ｅｓ−ｋおよび雑音強度信号Ｅｎ−ｋがエンベロープ生成部２２および２４から各々出力される。
【００１６】
図１において、出力信号合成部３０は、デジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）のうちの１つを選択してデジタルオーディオ信号ＳＳとして出力し、あるいはデジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）のうちの２つの信号にクロスフェードを施してデジタルオーディオ信号ＳＳを出力する回路である。この出力信号合成部３０は、デジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）に係数ａ−ｋ（ｋ＝１〜ｍ）を各々乗じて出力する乗算器３１−ｋ（ｋ＝１〜ｍ）と、乗算器３１−ｋ（ｋ＝１〜ｍ）の出力信号を加算してデジタルオーディオ信号ＳＳとして出力する加算器３２と、係数ａ−ｋ（ｋ＝１〜ｍ）を制御する合成制御部３３とにより構成されている。
【００１７】
切換制御部４０は、音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）を監視し、監視結果に基づき、選択信号ＭｎｅｗおよびＭｏｌｄと、クロスフェード信号ＣＦとを出力する回路である。ここで、選択信号Ｍｎｅｗは、デジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）のうち最終的なデジタルオーディオ信号ＳＳとするのに最も相応しいもののインデックスｋを示す信号である。また、選択信号Ｍｏｌｄは、選択信号Ｍｎｅｗが現在の値に変更される直前の値を示す信号である。切換制御部４０は、原則として、周期的な検証パルスＰｃが与えられる度に、この選択信号ＭｎｅｗおよびＭｏｌｄの検証および必要な更新を行うための切換制御処理を行う。この切換制御処理では、クロスフェード信号ＣＦが“１”である期間を除き、音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）のレベル比較を行い、大雑把に言えば、最大レベルの音声強度信号Ｅｓ−ｋのインデックスｋを示すように選択信号Ｍｎｅｗの更新を行う。また、切換制御処理では、選択信号Ｍｎｅｗの内容を変える場合、その変化前の選択信号Ｍｎｅｗの内容により選択信号Ｍｏｌｄを更新する。なお、切換制御処理には、各種の態様が考えられるが、説明の重複を避けるため、その詳細については本実施形態の動作説明において明らかにする。
【００１８】
出力信号合成部３０における合成制御部３３は、このようにして更新される選択信号Ｍｎｅｗを監視し、選択信号Ｍｎｅｗにより指定されるインデックスｋを持ったデジタルオーディオ信号Ｓ−ｋが最終的なデジタルオーディオ信号ＳＳとして出力されるように、係数ａ−ｋ（ｋ＝１〜ｍ）の値の制御を行う。具体的には、合成制御部３３は、選択信号Ｍｎｅｗにより指定されるインデックスｋを持った係数ａ−ｋを「１」とし、他の係数を「０」とする。
【００１９】
ここで、本実施形態におけるｍ個のマイクロフォン１１−ｋ（ｋ＝１〜ｍ）は相互に方向の異なる最大感度軸を有しているため、一般的にデジタルオーディオ信号Ｓ−ｋ（ｋ＝１〜ｍ）間にはレベル差がある。このため、選択信号Ｍｎｅｗの内容が変化したとき、それに合わせて、デジタルオーディオ信号ＳＳとなるデジタル信号Ｓ−ｋを直ちに切り換えると、デジタルオーディオ信号ＳＳに不自然な不連続が生じる。そこで、本実施形態において切換制御部４０は、選択信号ＭｎｅｗおよびＭｏｌｄの内容を変化させるときには、所定期間を要して出力信号合成部３０にクロスフェードを実行させる。
【００２０】
具体的には、切換制御部４０は、選択信号ＭｎｅｗおよびＭｏｌｄの内容を変化させた場合には、その時点においてクロスフェード信号ＣＦを“０”から“１”に立ち上げ、クロスフェード信号ＣＦを所定期間に亙って“１”とした後、再び“０”に戻す。出力信号合成部３０における合成制御部３３は、クロスフェード信号ＣＦが“１”である期間に、選択信号Ｍｎｅｗによりインデックスが指定される係数（例えばａ−ｎｅｗｋとする）を「０」から「１」に、選択信号Ｍｏｌｄによりインデックスが指定される係数（例えばａ−ｏｌｄｋとする）を「１」から「０」に連続的に変化させる。このようにして、新旧２つのデジタルオーディオ信号Ｓ−ｋのクロスフェードが行われるため、デジタルオーディオ信号ＳＳには不自然な不連続が発生しない。
【００２１】
Ｓ／Ｎ比信号生成部５０は、音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）の中から選択信号Ｍｎｅｗにより指定されたインデックスｋを持つものをＳ成分として選択し、雑音強度信号Ｅｎ−ｋ（ｋ＝１〜ｍ）のうち最も強度の高いものをＮ成分として選択し、Ｓ成分の信号レベルをＮ成分の信号レベルにより除算した結果をＳ／Ｎ比信号として出力する回路である。また、出力部６０は、出力信号合成部３０から得られる最終的なデジタルオーディオ信号ＳＳとＳ／Ｎ比信号生成部５０から得られるＳ／Ｎ比信号とを出力する回路である。
以上が本実施形態の構成である。
【００２２】
＜実施形態の動作＞
（１）全体動作
次に本実施形態の動作について説明する。図６は本実施形態の動作例を示すタイムチャートである。この動作例は、図２または図３に例示したような３個のマイクロフォン１１−ｋ（ｋ＝１〜３）を有する収音装置の動作例である。この動作例のように、本実施形態では、周期的な検証パルスＰｃが発生する度に、切換制御部４０により切換制御処理が実行され、音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）のレベル比較が行われる。
【００２３】
この動作例では、音源である話者の口が収音装置の正面から右側に移動している。音源が収音装置の正面にある場合、音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）のうち音声強度信号Ｅｓ−２のレベルが最大となる。このため、繰り返し実行される切換制御処理では、選択信号Ｍｎｅｗは、中央のマイクロフォン１１−２から得られるデジタルオーディオ信号Ｓ−２を指定するインデックスである「２」とされる。
【００２４】
しかし、音源が収音装置の中央から右側に移動してゆくと、音声強度信号Ｅｓ−２のレベルが次第に低下し、音声強度信号Ｅｓ−３のレベルが次第に上昇する。そして、動作例では、時刻ｔ１において切換制御処理が実行されたとき、音声強度信号Ｅｓ−２およびＥｓ−３のレベルの大小関係が逆転しているため、選択信号Ｍｎｅｗが「３」とされ、選択信号Ｍｏｌｄが「２」とされる。そして、この時点以降、所定期間に亙ってクロスフェード信号ＣＦが“１”とされる。このクロスフェード信号ＣＦが“１”である間は、検証パルスＰｃが発生しても切換制御処理は実行されない。
【００２５】
出力信号合成部３０では、このクロスフェード信号ＣＦが“１”である期間を要して、デジタルオーディオ信号Ｓ−２に乗じる係数ａ−２を「１」から「０」に低下させる動作と、デジタルオーディオ信号Ｓ−３に乗じる係数ａ−３を「０」から「１」に上昇させる動作とが行われる。これにより最終的に出力されるデジタルオーディオ信号ＳＳは、デジタルオーディオ信号Ｓ−２からデジタルオーディオ信号Ｓ−３へと自然に移行する。
【００２６】
Ｓ／Ｎ比信号生成部５０では、上述したように音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）と雑音強度信号Ｅｎ−ｋ（ｋ＝１〜３）とからＳ／Ｎ比信号が演算される。この動作例の場合、選択信号Ｍｎｅｗが「２」である期間は、このインデックス「２」に対応した音声強度信号Ｅｓ−２と、雑音強度信号Ｅｎ−ｋ（ｋ＝１〜３）のうち最大レベルのものとからＳ／Ｎ比信号が演算される。また、選択信号Ｍｎｅｗが「３」である期間は、このインデックス「３」に対応した音声強度信号Ｅｓ−３と、雑音強度信号Ｅｎ−ｋ（ｋ＝１〜３）のうち最大レベルのものとからＳ／Ｎ比信号が演算される。出力部６０は、このようにして得られるデジタルオーディオ信号ＳＳとＳ／Ｎ比信号とを後段の装置に出力する。
【００２７】
（２）切換制御処理の諸態様
本実施形態において切換制御部４０が実行する切換制御処理は、話者の口の位置の移動に追従できる程度の応答性があれば足りる。切換制御処理が音声強度信号Ｅｓ−ｋ（ｋ＝１〜ｍ）の変化にあまりに過敏に応答すると、最終的なデジタルオーディオ信号ＳＳとなるデジタルオーディオ信号Ｓ−ｋが頻繁に切り換えられ、最終的なデジタルオーディオ信号ＳＳが聴感上不自然なものとなる。以下、ｍ＝３である場合を例に、このような不都合を防止するための切換制御処理の諸態様について説明する。
【００２８】
ａ．第１の態様
この態様では、音声のレベルと暗騒音のレベルとの境界である閾値ｔｈを利用し、音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）のうち閾値ｔｈ以上のレベルのものだけをデジタルオーディオ信号Ｓ−ｋの選択における判断の資料とする。図７（ａ）および（ｂ）は、この態様における切換制御処理の実行例を示している。図７（ａ）および（ｂ）に示す各例では、時刻ｔ１１および時刻ｔ１２に検証パルスＰｃが発生し、切換制御処理が実行されている。なお、これらの図では、図示が煩雑になるのを防止するため、時刻ｔ１１およびｔ１２において発生した音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）を左右方向に並べて図示している。
【００２９】
図７（ａ）に示す例において、時刻ｔ１１における切換制御処理では、音声強度信号Ｅｓ−２のレベルが最大であり、かつ、閾値ｔｈ以上であるため、選択信号Ｍｎｅｗは「２」とされ、デジタルオーディオ信号Ｓ−２がデジタルオーディオ信号ＳＳとして選択される。時刻ｔ１２における切換制御処理では、音声強度信号Ｅｓ−１のレベルが最大であり、かつ、閾値ｔｈ以上であるため、選択信号Ｍｎｅｗは「１」とされ、デジタルオーディオ信号Ｓ−１がデジタルオーディオ信号ＳＳとして選択される。
【００３０】
ところが、図７（ｂ）に示す例では、時刻ｔ１２における切換制御処理において、いずれの音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）のレベルも閾値ｔｈに達しておらず、デジタルオーディオ信号Ｓ−ｋを選択するための判断の資料となる音声強度信号Ｅｓ−ｋがない。このため、時刻ｔ１２における切換制御処理では、時刻ｔ１１における切換制御処理において得られた選択信号Ｍｎｅｗ＝「２」が維持される。
【００３１】
この態様によれば、暗騒音のレベルの範囲内において音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）のレベルの大小関係が変化しても、そのような変化は無視され、現状の選択信号Ｍｎｅｗが維持される。従って、収音される音声のレベルが低いときにデジタルオーディオ信号ＳＳとなるデジタルオーディオ信号Ｓ−ｋが頻繁に切り換えられるのを防止することができる。
【００３２】
ｂ．第２の態様
この態様においても、第１の態様と同様、閾値ｔｈ以上のレベルの音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、あるデジタルオーディオ信号Ｓ−ｋがデジタルオーディオ信号ＳＳとして選択されるためには、そのデジタルオーディオ信号Ｓ−ｋに対応した音声強度信号Ｅｓ−ｋのレベルが音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）の中で最大であるだけでは不十分である。デジタルオーディオ信号Ｓ−ｋがデジタルオーディオ信号ＳＳとして選択されるためには、それに対応した音声強度信号Ｅｓ−ｋのレベルが、前回の切換制御処理においてレベルが最大であった音声強度信号のレベルを越えていなければならない。
【００３３】
図８は、この態様における切換制御処理の実行例を示すものである。この例において、時刻ｔ２２における切換制御処理では、音声強度信号Ｅｓ−２のレベルが最大であり、かつ、閾値ｔｈ以上である。また、この音声強度信号Ｅｓ−２のレベルは、前回の切換制御処理（時刻ｔ２１の切換制御処理）においてレベルが最大であった音声強度信号Ｅｓ−１のレベルよりも正の値ｉＶＧＣだけ大きい。このため、時刻ｔ２２の切換制御処理では、選択信号Ｍｎｅｗが「２」とされ、デジタルオーディオ信号Ｓ−２がデジタルオーディオ信号ＳＳとして選択される。
【００３４】
図示は省略したが、仮に時刻ｔ２２の切換制御処理において最大である音声強度信号Ｅｓ−２のレベルが、時刻ｔ２１の切換制御処理時における音声強度信号Ｅｓ−１のレベル以下である場合には、デジタルオーディオ信号Ｓ−２はデジタルオーディオ信号ＳＳとして選択されない。
【００３５】
この態様によれば、音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）の大小関係に明確な変化が生じた場合に限り、選択信号Ｍｎｅｗの切り換えが行われるので、デジタルオーディオ信号ＳＳとなるデジタルオーディオ信号Ｓ−ｋが頻繁に切り換えられるのを防止することができる。
【００３６】
ｃ．第３の態様
この態様は、第２の態様における選択信号Ｍｎｅｗの安定性をさらに高めたものである。この態様においても、第１および第２の態様と同様、閾値ｔｈ以上のレベルの音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、ある音声強度信号Ｅｓ−ｋに対応したデジタルオーディオ信号Ｓ−ｋがデジタルオーディオ信号ＳＳとして選択されるためには、次の条件を満たすことが必要である。
条件１：その音声強度信号Ｅｓ−ｋのレベルが音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）の中で最大であること。
条件２：その音声強度信号Ｅｓ−ｋの前回の切換制御処理における最大レベルの音声強度信号に対する増分ｉＶＧＣと、その音声強度信号Ｅｓ−ｋの前々回の切換制御処理における最大レベルの音声強度信号に対する増分ｉＶＧＣＲとを比較した場合に、ｉＶＧＣＲ＞ｉＶＧＣであること。
【００３７】
図９は、この態様における切換制御処理の実行例を示すものである。この例において、時刻ｔ３３における切換制御処理では、音声強度信号Ｅｓ−２のレベルが最大であり、かつ、閾値ｔｈ以上である。また、この時刻ｔ３３の切換制御処理時における音声強度信号Ｅｓ−２のレベルは、前回の切換制御処理（時刻ｔ３２の切換制御処理）においてレベルが最大であった音声強度信号Ｅｓ−２のレベルよりも正の値ｉＶＧＣだけ大きい。さらに、時刻ｔ３３の切換制御処理時における音声強度信号Ｅｓ−２のレベルは、前々回の切換制御処理（時刻ｔ３１の切換制御処理）においてレベルが最大であった音声強度信号Ｅｓ−１のレベルよりも正の値ｉＶＧＣＲだけ大きい。そして、ｉＶＧＣＲ＞ｉＶＧＣである。このため、時刻ｔ３３の切換制御処理では、選択信号Ｍｎｅｗが「２」とされ、デジタルオーディオ信号Ｓ−２がデジタルオーディオ信号ＳＳとして選択される。
【００３８】
図示は省略したが、仮に時刻ｔ３３の切換制御処理において音声強度信号Ｅｓ−２のレベルが最大であったとしても、ｉＶＧＣＲ＞ｉＶＧＣなる条件が満たされない場合には、デジタルオーディオ信号Ｓ−２はデジタルオーディオ信号ＳＳとして選択されない。
【００３９】
この態様によれば、音声強度信号Ｅｓ−ｋ（ｋ＝１〜３）の大小関係に一時的な変化があってもそれは無視され、ある音声強度信号Ｅｓ−ｋが最大レベルであり、かつ、増加傾向にあることが明らかに認められる場合に限り、それに対応したデジタルオーディオ信号Ｓ−ｋが最終的なデジタルオーディオ信号ＳＳとして選択される。従って、デジタルオーディオ信号ＳＳとなるデジタルオーディオ信号Ｓ−ｋが頻繁に切り換えられるのを防止することができる。
【００４０】
（３）デジタルオーディオ信号ＳＳおよびＳ／Ｎ比信号の出力の態様
出力部６０におけるデジタルオーディオ信号ＳＳおよびＳ／Ｎ比信号の出力に関しては各種の態様がある。
【００４１】
ある態様において、出力部６０は、図１０に例示するように、１サンプル毎にＳ／Ｎ比信号とデジタルオーディオ信号ＳＳの組を出力する。この場合において、Ｓ／Ｎ比信号とデジタルオーディオ信号の各サンプルは、別々のワードであってもよいが、例えばＳ／Ｎ比信号を上位ビット列、デジタルオーディオ信号ＳＳを下位ビット列とするワードを順次出力するように出力部６０を構成してもよい。この態様によれば、収音装置の出力信号を受け取る後段の装置は、任意のタイミングにおいて、デジタルオーディオ信号とそれに対応したＳ／Ｎ比信号を得ることができるという利点がある。
【００４２】
他の態様において、出力部６０は、図１１に例示するように、デジタルオーディオ信号ＳＳを所定個数のサンプルからなるフレームに分割し、フレーム単位でそのフレームにおける代表的なＳ／Ｎ比信号（例えば平均値）と、そのフレームに属する所定個数のデジタルオーディオ信号ＳＳのサンプルとを出力する。この態様によれば、全体としてのデータ量を減らすことができるという利点がある。
【００４３】
＜実施形態の効果＞
以上のように本実施形態では、音源の位置が変化する状況においても、音声成分の強度が最大であるデジタルオーディオ信号Ｓ−ｋが選択され、最終的なデジタルオーディオ信号ＳＳとして出力される。従って、音源の位置の変化によらず、常に最大の受音感度でデジタルオーディオ信号を取得することができる。また、本実施形態では、最終的なデジタルオーディオ信号ＳＳとして出力するデジタルオーディオ信号を切り換える場合に、一定時間を要して、新旧２つのデジタルオーディオ信号間でクロスフェードを行うので、出力されるデジタルオーディオ信号ＳＳに不自然な不連続を生じさせないという利点がある。また、本実施形態では、各マイクロフォンから得られる各デジタルオーディオ信号から音声成分と雑音成分が分離して各々抽出され、それらに基づいてＳ／Ｎ比信号が生成され、最終的なデジタルオーディオ信号ＳＳとともに後段の装置に供給される。従って、本実施形態によれば、後段の装置は、Ｓ／Ｎ比信号を参照することにより、例えばＳ／Ｎ比の良好な区間のデジタルオーディオ信号ＳＳのみに基づいて音声認識を行い、あるいはＳ／Ｎ比が劣化したときにはデジタルオーディオ信号の再生のミュートを行う、といった対処を簡単に行うことができるという効果が得られる。
【００４４】
＜他の実施形態＞
以上、この発明の一実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。
【００４５】
（１）上記実施形態では、複数のマイクロフォンの出力信号から最終的なデジタルオーディオ信号を合成し、これにＳ／Ｎ比信号を多重化して出力するようにした。しかし、このように複数のマイクロフォンを用いるのではなく、単一のマイクロフォンにより収音を行い、この収音により得られるデジタルオーディオ信号のＳ／Ｎ比を測定し、デジタルオーディオ信号とＳ／Ｎ比信号を出力するように収音装置を構成してもよい。
【００４６】
（２）例えば上記実施形態では、収音により得られるデジタルオーディオ信号のＳ／Ｎ比を評価し、評価結果を示すＳ／Ｎ比信号をデジタルオーディオ信号とともに、後段の装置に出力した。しかし、デジタルオーディオ信号に関する評価結果としてＳ／Ｎ比以外のものを求め、デジタルオーディオ信号とともに後段の装置に出力するようにしてもよい。例えばピッチ解析やホルマント解析などの周知の手法により、収音によって得られたデジタルオーディオ信号の発生元である話者の性別を判定し、その判定結果である性別信号をデジタルオーディオ信号とともに出力するようにしてもよい。この態様によれば、例えば通話相手に対して音声による案内を行う装置に対し、収音装置の出力信号を送ってサービスを受けるような場合に、案内を行う装置側では、デジタルオーディオ信号ともに通話相手から届く性別信号から通話相手の性別を判断し、その性別に応じて案内の仕方を切り換えるといった対応をとることが可能になる。
【図面の簡単な説明】
【００４７】
【図１】この発明の一実施形態である収音装置の構成を示すブロック図である。
【図２】同実施形態におけるマイクロフォンの実装例を示す図である。
【図３】同実施形態におけるマイクロフォンの他の実装例を示す図である。
【図４】同実施形態における抽出部の構成例を示すブロック図である。
【図５】同実施形態における抽出部の他の構成例を示すブロック図である。
【図６】同実施形態の動作を示すタイムチャートである。
【図７】同実施形態における切換制御処理の第１の態様を示すタイムチャートである。
【図８】同実施形態における切換制御処理の第２の態様を示すタイムチャートである。
【図９】同実施形態における切換制御処理の第３の態様を示すタイムチャートである。
【図１０】同実施形態における出力部のＳ／Ｎ比信号とデジタルオーディオ信号の出力の態様を示す図である。
【図１１】同実施形態における出力部のＳ／Ｎ比信号とデジタルオーディオ信号の出力の他の態様を示す図である。
【符号の説明】
【００４８】
１１−ｋ（ｋ＝１〜ｍ）……マイクロフォン、１２−ｋ（ｋ＝１〜ｍ）……Ａ／Ｄ変換器、２０−ｋ（ｋ＝１〜ｍ）……抽出部、３０……出力信号合成部、３１−ｋ（ｋ＝１〜ｍ）……乗算器、３２……加算器、３３……合成制御部、４０……切換制御部、５０……Ｓ／Ｎ比信号生成部、６０……出力部。

【特許請求の範囲】
【請求項１】
外界から音を収音して電気信号を出力する少なくとも１個のマイクロフォンと、
前記マイクロフォンの出力信号を解析し、前記マイクロフォンにより収音された音を特徴付けるパラメータを求める解析手段と、
前記マイクロフォンの出力信号を前記解析手段により求められたパラメータとともに出力する出力手段と
を具備することを特徴とする収音装置。
【請求項２】
前記解析手段は、前記マイクロフォンにより収音された音のＳ／Ｎ比を求めることを特徴とする請求項１に記載の収音装置。
【請求項３】
前記解析手段は、前記マイクロフォンの出力信号における音声周波数帯域の信号の実効値のエンベロープを求め、音声強度信号として出力する第１の抽出手段と、前記マイクロフォンの出力信号における音声周波数帯域外の信号の実効値のエンベロープを求め、雑音強度信号として出力する第２の抽出手段と、前記音声強度信号と前記雑音強度信号との比であるＳ／Ｎ比信号を生成するＳ／Ｎ比信号生成手段とを具備することを特徴とする請求項１に記載の収音装置。
【請求項４】
前記解析手段は、前記マイクロフォンにより収音された音の発生元である人間の性別を求めることを特徴とする請求項１に記載の収音装置。

【図１】