収音装置
【課題】 音声信号を受け取って処理する側の装置が負う音声信号の解析のための負担を軽減する。
【解決手段】 抽出部20−k(k=1〜m)は、マイクロフォン11−k(k=1〜m)により得られたデジタルオーディオ信号S−k(k=1〜m)から音声強度信号Es−k(k=1〜m)と雑音強度信号En−k(k=1〜m)を各々抽出する。S/N比信号生成部50は、音声強度信号Es−k(k=1〜m)と雑音強度信号En−k(k=1〜m)からS/N比信号を演算する。出力部60は、デジタルオーディオ信号S−k(k=1〜m)から合成されたデジタルオーディオ信号SSとS/N比信号とを出力する。
【解決手段】 抽出部20−k(k=1〜m)は、マイクロフォン11−k(k=1〜m)により得られたデジタルオーディオ信号S−k(k=1〜m)から音声強度信号Es−k(k=1〜m)と雑音強度信号En−k(k=1〜m)を各々抽出する。S/N比信号生成部50は、音声強度信号Es−k(k=1〜m)と雑音強度信号En−k(k=1〜m)からS/N比信号を演算する。出力部60は、デジタルオーディオ信号S−k(k=1〜m)から合成されたデジタルオーディオ信号SSとS/N比信号とを出力する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、外界の音を収音して電気信号を出力する収音装置に関する。
【背景技術】
【0002】
ネットワークを介してユーザから音声信号を受け取り、各種のサービスを提供するシステムにおいて、受け取った音声信号の解析結果に基づいて、サービスを提供するための処理の制御を行う技術が各種提案されている。例えば特許文献1は、電話を掛けてきたユーザのうち正当なユーザのみにサービスを提供するために、通話相手から送られてくる音声信号が正当なユーザのものかの認識を行う話者認識装置に関するものである。この特許文献1に開示された技術では、通話相手から送られてくる音声信号を解析してS/N比を求め、受信される音声信号のうちS/N比の高い区間のものを話者認識の対象とすることで、話者認識の際の誤認識の防止を図っている。また、特許文献2は、ユーザが発声した音声を他の言語に翻訳し、音声として出力する音声翻訳機に関するものである。この特許文献2に開示された技術では、ユーザから取得される音声信号を解析して、発生元であるユーザの性別を判定し、ユーザが男性か女性かにより翻訳結果を音声として出力するときの態様(例えば翻訳結果を男性の声で出力するか女性の声で出力するか等)を切り換える。
【特許文献1】特開2005−300958号公報
【特許文献2】特開2000−200276号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
他から受信される音声信号に応答して何らかの処理を行うサービスは、上述のものの他にも多くの種類のものが提供されている。そして。例えば話者認識装置を製造販売する各業者は、各々の製品である話者認識装置に音声信号を解析してS/N比を求める機能を持たせ、音声翻訳機を製造販売する各業者は、各々の製品である音声翻訳機に音声信号を解析して音声の主の性別を判定する機能を持たせる、という具合に各々のサービスを提供するために重複した負担を負っている。
【0004】
この発明は、以上のような事情に鑑みてなされたものであり、音声信号を受け取って処理する側の装置が負う音声信号の解析のための負担を軽減することができる収音装置を提供することを目的としている。
【課題を解決するための手段】
【0005】
この発明は、外界から音を収音して電気信号を出力する少なくとも1個のマイクロフォンと、前記マイクロフォンの出力信号を解析し、前記マイクロフォンにより収音された音を特徴付けるパラメータを求める解析手段と、前記マイクロフォンの出力信号を前記解析手段により求められたパラメータとともに出力する出力手段とを具備することを特徴とする収音装置を提供する。好ましい態様において、解析手段は、パラメータとして、収音された音のS/N比、音の主の性別を求める。
かかる発明によれば、収音された音を示す信号とともにその音を特徴付けるパラメータが出力されるので、収音装置の出力信号を受け取る後段の装置では、そのパラメータを利用した処理を行うことができる。
【発明を実施するための最良の形態】
【0006】
以下、図面を参照し、この発明の実施の形態を説明する。
<実施形態の構成>
図1はこの発明の一実施形態である収音装置の構成を示すブロック図である。図1に示すように、本実施形態における収音装置は、m個のマイクロフォン11−k(k=1〜m)を有する。図2および図3は、同収音装置におけるマイクロフォン11−k(k=1〜m)の実装例を各々示している。なお、これらの図では、マイクロフォンの個数mが3である場合の例が示されている。
【0007】
本実施形態における収音装置は、独立した装置として構成される場合もあるし、他の装置に組み込まれる場合もある。図2は、前者の例である収音装置におけるマイクロフォンの実装例を示している。この収音装置では、スタンド501の上部に固定された水平なバー502に3個のマイクロフォン11−1〜11−3が固定されている。図3は、後者の例として、本実施形態に係る収音装置が組み込まれたノート型パソコンにおけるマイクロフォンの実装例を示している。この例では、ノート型パソコンのディスプレイ503の上部に3個のマイクロフォン11−1〜11−3が固定されている。
【0008】
本実施形態において用いられるマイクロフォン11−k(k=1〜m)は、受音感度が音の到来方向に依存する単一指向性マイクロフォンである。図2および図3に示す例において、マイクロフォンにおいて最大の受音感度が得られる方角を向いた軸を最大感度軸と呼ぶものとすると、マイクロフォン11−1〜11−3は、各々最大感度軸を収音装置またはノート型パソコンの斜め右、真正面、斜め左の各方角に向けている。このように本実施形態におけるm個のマイクロフォン11−k(k=1〜m)は、各々の最大感度軸が放射線を描くように収音装置に固定されている。
【0009】
話者は、これらのマイクロフォン11−k(k=1〜m)を前にして発話するが、話者が動く場合には、その話者の音声を収音するのに適するマイクロフォンが話者の位置に応じて変化する。例えば図2および図3に示す例において、話者の口が収音装置またはノート型パソコンの左側にある場合には、その話者の口の方角に最大感度軸を向けているマイクロフォン11−1の出力信号のレベルが最大となり、この出力信号が話者の音声を示すものとして適している。しかし、話者が姿勢を変え、話者の口がマイクロフォン11−2の真正面に移動すると、マイクロフォン11−2の出力信号のレベルが最大となり、この出力信号を話者の音声を示すものとして採用した方がよい。
【0010】
そこで、本実施形態における収音装置では、マイクロフォン11−k(k=1〜m)の各出力信号の音声成分のレベルを監視し、原則的に最大レベルの信号を選択して最終的なデジタルオーディオ信号SSとして出力し、収音装置全体としての指向性を音源(この例では話者の口)の方向に追従させる。そして、本実施形態における収音装置では、デジタルオーディオ信号SSのS/N比を示す信号(以下、S/N比信号という)を生成して出力するのである。デジタルオーディオ信号SSおよびS/N比信号は、例えばパソコンが実行する音声認識アプリケーションや翻訳アプリケーションなどの各種のアプリケーションの処理対象となり、ネットワークを介して他の装置に送信され、その装置が実行するアプリケーションの処理対象となる。その際、デジタルオーディオ信号SSを処理するアプリケーションでは、S/N比信号を利用してその処理の制御を行うことが可能である。以下、デジタルオーディオ信号SSおよびS/N比信号を得るための収音装置の回路構成を説明する。
【0011】
図1において、A/D変換器12−k(k=1〜m)は、マイクロフォン11−k(k=1〜m)から出力されるアナログオーディオ信号を一定のサンプリング周期でサンプリングし、サンプル値を示すデジタルオーディオ信号S−k(k=1〜m)に変換する。デジタルオーディオ信号S−k(k=1〜m)は、抽出部20−k(k=1〜m)に各々入力されるとともに、出力信号合成部30に入力される。
【0012】
抽出部20−k(k=1〜m)は、デジタルオーディオ信号S−k(k=1〜m)の各々から音声成分の強度を示す音声強度信号Es−k(k=1〜m)および雑音成分の強度を示す雑音強度信号En−k(k=1〜m)を抽出する回路である。本実施形態では、音声強度信号Es−k(k=1〜m)のレベル比較によりデジタルオーディオ信号S−k(k=1〜m)のいずれを最終的なデジタルオーディオ信号SSとして出力するかの判断を行う。また、本実施形態では、音声強度信号Es−k(k=1〜m)および雑音強度信号En−k(k=1〜m)からS/N比信号を演算する。
【0013】
図4は抽出部20−k(k=1〜m)の各々の構成を示すブロック図である。図4において、BPF(バンドパスフィルタ;帯域通過フィルタ)21は、例えば300〜3000Hzの通過帯域を有し、デジタルオーディオ信号S−kに含まれる音声周波数成分を通過させる。このBPF21の出力信号は、デジタルオーディオ信号S−kにおける音声成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にBPF21の出力信号をそのまま音声強度信号Es−kとして出力すると、デジタルオーディオ信号SSとして選択されるデジタルオーディオ信号S−kが頻繁に切り換えられることとなり、動作が不安定になる。そこで、BPF21の後段にエンベロープ生成部22が設けられている。このエンベロープ生成部22は、BPF21の出力信号の急激な変化を緩和したエンベロープ(包絡線)を示す音声強度信号Es−kを出力する。具体的にはエンベロープ生成部22は、実効値算出回路と、LPF(ローパスフィルタ)とを有している。ここで、実効値算出回路は、BPF21の出力信号を所定個数のサンプルからなるフレームに区切り、フレーム毎に各サンプルの2乗平均である実効値を算出する。LPFは、フレーム毎に得られる実効値の急激な変化を取り除き、実効値のエンベロープを示す音声強度信号Es−kを出力する。
【0014】
BEF(バンドエリミネーションフィルタ;帯域除去フィルタ)23は、例えば300〜3000Hzの遮断帯域を有し、デジタルオーディオ信号S−kに含まれる遮断帯域以外の帯域の成分を通過させる。このBEF23の出力信号は、デジタルオーディオ信号S−kにおける雑音成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にBEF23の出力信号をそのまま雑音強度信号En−kとして出力すると、音声強度信号Es−k(k=1〜m)および雑音強度信号En−k(k=1〜m)から演算されるS/N比信号が不安定なものとなる。そこで、BEF23の後段にエンベロープ生成部22と同様なエンベロープ生成部24が設けられている。このエンベロープ生成部24は、このBEF23の出力信号の急激な変化を緩和したエンベロープを示す雑音強度信号En−kを出力する。
【0015】
図5は抽出部20−k(k=1〜m)の他の構成例を示すブロック図である。この例では、図4におけるBEF23が減算器25に置き換えられている。この減算器25は、デジタルオーディオ信号S−kからBPF21の出力信号を減算してエンベロープ生成部24に供給する。この構成においても、図4に示すものと同様な音声強度信号Es−kおよび雑音強度信号En−kがエンベロープ生成部22および24から各々出力される。
【0016】
図1において、出力信号合成部30は、デジタルオーディオ信号S−k(k=1〜m)のうちの1つを選択してデジタルオーディオ信号SSとして出力し、あるいはデジタルオーディオ信号S−k(k=1〜m)のうちの2つの信号にクロスフェードを施してデジタルオーディオ信号SSを出力する回路である。この出力信号合成部30は、デジタルオーディオ信号S−k(k=1〜m)に係数a−k(k=1〜m)を各々乗じて出力する乗算器31−k(k=1〜m)と、乗算器31−k(k=1〜m)の出力信号を加算してデジタルオーディオ信号SSとして出力する加算器32と、係数a−k(k=1〜m)を制御する合成制御部33とにより構成されている。
【0017】
切換制御部40は、音声強度信号Es−k(k=1〜m)を監視し、監視結果に基づき、選択信号MnewおよびMoldと、クロスフェード信号CFとを出力する回路である。ここで、選択信号Mnewは、デジタルオーディオ信号S−k(k=1〜m)のうち最終的なデジタルオーディオ信号SSとするのに最も相応しいもののインデックスkを示す信号である。また、選択信号Moldは、選択信号Mnewが現在の値に変更される直前の値を示す信号である。切換制御部40は、原則として、周期的な検証パルスPcが与えられる度に、この選択信号MnewおよびMoldの検証および必要な更新を行うための切換制御処理を行う。この切換制御処理では、クロスフェード信号CFが“1”である期間を除き、音声強度信号Es−k(k=1〜m)のレベル比較を行い、大雑把に言えば、最大レベルの音声強度信号Es−kのインデックスkを示すように選択信号Mnewの更新を行う。また、切換制御処理では、選択信号Mnewの内容を変える場合、その変化前の選択信号Mnewの内容により選択信号Moldを更新する。なお、切換制御処理には、各種の態様が考えられるが、説明の重複を避けるため、その詳細については本実施形態の動作説明において明らかにする。
【0018】
出力信号合成部30における合成制御部33は、このようにして更新される選択信号Mnewを監視し、選択信号Mnewにより指定されるインデックスkを持ったデジタルオーディオ信号S−kが最終的なデジタルオーディオ信号SSとして出力されるように、係数a−k(k=1〜m)の値の制御を行う。具体的には、合成制御部33は、選択信号Mnewにより指定されるインデックスkを持った係数a−kを「1」とし、他の係数を「0」とする。
【0019】
ここで、本実施形態におけるm個のマイクロフォン11−k(k=1〜m)は相互に方向の異なる最大感度軸を有しているため、一般的にデジタルオーディオ信号S−k(k=1〜m)間にはレベル差がある。このため、選択信号Mnewの内容が変化したとき、それに合わせて、デジタルオーディオ信号SSとなるデジタル信号S−kを直ちに切り換えると、デジタルオーディオ信号SSに不自然な不連続が生じる。そこで、本実施形態において切換制御部40は、選択信号MnewおよびMoldの内容を変化させるときには、所定期間を要して出力信号合成部30にクロスフェードを実行させる。
【0020】
具体的には、切換制御部40は、選択信号MnewおよびMoldの内容を変化させた場合には、その時点においてクロスフェード信号CFを“0”から“1”に立ち上げ、クロスフェード信号CFを所定期間に亙って“1”とした後、再び“0”に戻す。出力信号合成部30における合成制御部33は、クロスフェード信号CFが“1”である期間に、選択信号Mnewによりインデックスが指定される係数(例えばa−newkとする)を「0」から「1」に、選択信号Moldによりインデックスが指定される係数(例えばa−oldkとする)を「1」から「0」に連続的に変化させる。このようにして、新旧2つのデジタルオーディオ信号S−kのクロスフェードが行われるため、デジタルオーディオ信号SSには不自然な不連続が発生しない。
【0021】
S/N比信号生成部50は、音声強度信号Es−k(k=1〜m)の中から選択信号Mnewにより指定されたインデックスkを持つものをS成分として選択し、雑音強度信号En−k(k=1〜m)のうち最も強度の高いものをN成分として選択し、S成分の信号レベルをN成分の信号レベルにより除算した結果をS/N比信号として出力する回路である。また、出力部60は、出力信号合成部30から得られる最終的なデジタルオーディオ信号SSとS/N比信号生成部50から得られるS/N比信号とを出力する回路である。
以上が本実施形態の構成である。
【0022】
<実施形態の動作>
(1)全体動作
次に本実施形態の動作について説明する。図6は本実施形態の動作例を示すタイムチャートである。この動作例は、図2または図3に例示したような3個のマイクロフォン11−k(k=1〜3)を有する収音装置の動作例である。この動作例のように、本実施形態では、周期的な検証パルスPcが発生する度に、切換制御部40により切換制御処理が実行され、音声強度信号Es−k(k=1〜3)のレベル比較が行われる。
【0023】
この動作例では、音源である話者の口が収音装置の正面から右側に移動している。音源が収音装置の正面にある場合、音声強度信号Es−k(k=1〜3)のうち音声強度信号Es−2のレベルが最大となる。このため、繰り返し実行される切換制御処理では、選択信号Mnewは、中央のマイクロフォン11−2から得られるデジタルオーディオ信号S−2を指定するインデックスである「2」とされる。
【0024】
しかし、音源が収音装置の中央から右側に移動してゆくと、音声強度信号Es−2のレベルが次第に低下し、音声強度信号Es−3のレベルが次第に上昇する。そして、動作例では、時刻t1において切換制御処理が実行されたとき、音声強度信号Es−2およびEs−3のレベルの大小関係が逆転しているため、選択信号Mnewが「3」とされ、選択信号Moldが「2」とされる。そして、この時点以降、所定期間に亙ってクロスフェード信号CFが“1”とされる。このクロスフェード信号CFが“1”である間は、検証パルスPcが発生しても切換制御処理は実行されない。
【0025】
出力信号合成部30では、このクロスフェード信号CFが“1”である期間を要して、デジタルオーディオ信号S−2に乗じる係数a−2を「1」から「0」に低下させる動作と、デジタルオーディオ信号S−3に乗じる係数a−3を「0」から「1」に上昇させる動作とが行われる。これにより最終的に出力されるデジタルオーディオ信号SSは、デジタルオーディオ信号S−2からデジタルオーディオ信号S−3へと自然に移行する。
【0026】
S/N比信号生成部50では、上述したように音声強度信号Es−k(k=1〜3)と雑音強度信号En−k(k=1〜3)とからS/N比信号が演算される。この動作例の場合、選択信号Mnewが「2」である期間は、このインデックス「2」に対応した音声強度信号Es−2と、雑音強度信号En−k(k=1〜3)のうち最大レベルのものとからS/N比信号が演算される。また、選択信号Mnewが「3」である期間は、このインデックス「3」に対応した音声強度信号Es−3と、雑音強度信号En−k(k=1〜3)のうち最大レベルのものとからS/N比信号が演算される。出力部60は、このようにして得られるデジタルオーディオ信号SSとS/N比信号とを後段の装置に出力する。
【0027】
(2)切換制御処理の諸態様
本実施形態において切換制御部40が実行する切換制御処理は、話者の口の位置の移動に追従できる程度の応答性があれば足りる。切換制御処理が音声強度信号Es−k(k=1〜m)の変化にあまりに過敏に応答すると、最終的なデジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられ、最終的なデジタルオーディオ信号SSが聴感上不自然なものとなる。以下、m=3である場合を例に、このような不都合を防止するための切換制御処理の諸態様について説明する。
【0028】
a.第1の態様
この態様では、音声のレベルと暗騒音のレベルとの境界である閾値thを利用し、音声強度信号Es−k(k=1〜3)のうち閾値th以上のレベルのものだけをデジタルオーディオ信号S−kの選択における判断の資料とする。図7(a)および(b)は、この態様における切換制御処理の実行例を示している。図7(a)および(b)に示す各例では、時刻t11および時刻t12に検証パルスPcが発生し、切換制御処理が実行されている。なお、これらの図では、図示が煩雑になるのを防止するため、時刻t11およびt12において発生した音声強度信号Es−k(k=1〜3)を左右方向に並べて図示している。
【0029】
図7(a)に示す例において、時刻t11における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上であるため、選択信号Mnewは「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。時刻t12における切換制御処理では、音声強度信号Es−1のレベルが最大であり、かつ、閾値th以上であるため、選択信号Mnewは「1」とされ、デジタルオーディオ信号S−1がデジタルオーディオ信号SSとして選択される。
【0030】
ところが、図7(b)に示す例では、時刻t12における切換制御処理において、いずれの音声強度信号Es−k(k=1〜3)のレベルも閾値thに達しておらず、デジタルオーディオ信号S−kを選択するための判断の資料となる音声強度信号Es−kがない。このため、時刻t12における切換制御処理では、時刻t11における切換制御処理において得られた選択信号Mnew=「2」が維持される。
【0031】
この態様によれば、暗騒音のレベルの範囲内において音声強度信号Es−k(k=1〜3)のレベルの大小関係が変化しても、そのような変化は無視され、現状の選択信号Mnewが維持される。従って、収音される音声のレベルが低いときにデジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。
【0032】
b.第2の態様
この態様においても、第1の態様と同様、閾値th以上のレベルの音声強度信号Es−k(k=1〜3)のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、あるデジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、そのデジタルオーディオ信号S−kに対応した音声強度信号Es−kのレベルが音声強度信号Es−k(k=1〜3)の中で最大であるだけでは不十分である。デジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、それに対応した音声強度信号Es−kのレベルが、前回の切換制御処理においてレベルが最大であった音声強度信号のレベルを越えていなければならない。
【0033】
図8は、この態様における切換制御処理の実行例を示すものである。この例において、時刻t22における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上である。また、この音声強度信号Es−2のレベルは、前回の切換制御処理(時刻t21の切換制御処理)においてレベルが最大であった音声強度信号Es−1のレベルよりも正の値iVGCだけ大きい。このため、時刻t22の切換制御処理では、選択信号Mnewが「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。
【0034】
図示は省略したが、仮に時刻t22の切換制御処理において最大である音声強度信号Es−2のレベルが、時刻t21の切換制御処理時における音声強度信号Es−1のレベル以下である場合には、デジタルオーディオ信号S−2はデジタルオーディオ信号SSとして選択されない。
【0035】
この態様によれば、音声強度信号Es−k(k=1〜3)の大小関係に明確な変化が生じた場合に限り、選択信号Mnewの切り換えが行われるので、デジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。
【0036】
c.第3の態様
この態様は、第2の態様における選択信号Mnewの安定性をさらに高めたものである。この態様においても、第1および第2の態様と同様、閾値th以上のレベルの音声強度信号Es−k(k=1〜3)のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、ある音声強度信号Es−kに対応したデジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、次の条件を満たすことが必要である。
条件1:その音声強度信号Es−kのレベルが音声強度信号Es−k(k=1〜3)の中で最大であること。
条件2:その音声強度信号Es−kの前回の切換制御処理における最大レベルの音声強度信号に対する増分iVGCと、その音声強度信号Es−kの前々回の切換制御処理における最大レベルの音声強度信号に対する増分iVGCRとを比較した場合に、iVGCR>iVGCであること。
【0037】
図9は、この態様における切換制御処理の実行例を示すものである。この例において、時刻t33における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上である。また、この時刻t33の切換制御処理時における音声強度信号Es−2のレベルは、前回の切換制御処理(時刻t32の切換制御処理)においてレベルが最大であった音声強度信号Es−2のレベルよりも正の値iVGCだけ大きい。さらに、時刻t33の切換制御処理時における音声強度信号Es−2のレベルは、前々回の切換制御処理(時刻t31の切換制御処理)においてレベルが最大であった音声強度信号Es−1のレベルよりも正の値iVGCRだけ大きい。そして、iVGCR>iVGCである。このため、時刻t33の切換制御処理では、選択信号Mnewが「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。
【0038】
図示は省略したが、仮に時刻t33の切換制御処理において音声強度信号Es−2のレベルが最大であったとしても、iVGCR>iVGCなる条件が満たされない場合には、デジタルオーディオ信号S−2はデジタルオーディオ信号SSとして選択されない。
【0039】
この態様によれば、音声強度信号Es−k(k=1〜3)の大小関係に一時的な変化があってもそれは無視され、ある音声強度信号Es−kが最大レベルであり、かつ、増加傾向にあることが明らかに認められる場合に限り、それに対応したデジタルオーディオ信号S−kが最終的なデジタルオーディオ信号SSとして選択される。従って、デジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。
【0040】
(3)デジタルオーディオ信号SSおよびS/N比信号の出力の態様
出力部60におけるデジタルオーディオ信号SSおよびS/N比信号の出力に関しては各種の態様がある。
【0041】
ある態様において、出力部60は、図10に例示するように、1サンプル毎にS/N比信号とデジタルオーディオ信号SSの組を出力する。この場合において、S/N比信号とデジタルオーディオ信号の各サンプルは、別々のワードであってもよいが、例えばS/N比信号を上位ビット列、デジタルオーディオ信号SSを下位ビット列とするワードを順次出力するように出力部60を構成してもよい。この態様によれば、収音装置の出力信号を受け取る後段の装置は、任意のタイミングにおいて、デジタルオーディオ信号とそれに対応したS/N比信号を得ることができるという利点がある。
【0042】
他の態様において、出力部60は、図11に例示するように、デジタルオーディオ信号SSを所定個数のサンプルからなるフレームに分割し、フレーム単位でそのフレームにおける代表的なS/N比信号(例えば平均値)と、そのフレームに属する所定個数のデジタルオーディオ信号SSのサンプルとを出力する。この態様によれば、全体としてのデータ量を減らすことができるという利点がある。
【0043】
<実施形態の効果>
以上のように本実施形態では、音源の位置が変化する状況においても、音声成分の強度が最大であるデジタルオーディオ信号S−kが選択され、最終的なデジタルオーディオ信号SSとして出力される。従って、音源の位置の変化によらず、常に最大の受音感度でデジタルオーディオ信号を取得することができる。また、本実施形態では、最終的なデジタルオーディオ信号SSとして出力するデジタルオーディオ信号を切り換える場合に、一定時間を要して、新旧2つのデジタルオーディオ信号間でクロスフェードを行うので、出力されるデジタルオーディオ信号SSに不自然な不連続を生じさせないという利点がある。また、本実施形態では、各マイクロフォンから得られる各デジタルオーディオ信号から音声成分と雑音成分が分離して各々抽出され、それらに基づいてS/N比信号が生成され、最終的なデジタルオーディオ信号SSとともに後段の装置に供給される。従って、本実施形態によれば、後段の装置は、S/N比信号を参照することにより、例えばS/N比の良好な区間のデジタルオーディオ信号SSのみに基づいて音声認識を行い、あるいはS/N比が劣化したときにはデジタルオーディオ信号の再生のミュートを行う、といった対処を簡単に行うことができるという効果が得られる。
【0044】
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。
【0045】
(1)上記実施形態では、複数のマイクロフォンの出力信号から最終的なデジタルオーディオ信号を合成し、これにS/N比信号を多重化して出力するようにした。しかし、このように複数のマイクロフォンを用いるのではなく、単一のマイクロフォンにより収音を行い、この収音により得られるデジタルオーディオ信号のS/N比を測定し、デジタルオーディオ信号とS/N比信号を出力するように収音装置を構成してもよい。
【0046】
(2)例えば上記実施形態では、収音により得られるデジタルオーディオ信号のS/N比を評価し、評価結果を示すS/N比信号をデジタルオーディオ信号とともに、後段の装置に出力した。しかし、デジタルオーディオ信号に関する評価結果としてS/N比以外のものを求め、デジタルオーディオ信号とともに後段の装置に出力するようにしてもよい。例えばピッチ解析やホルマント解析などの周知の手法により、収音によって得られたデジタルオーディオ信号の発生元である話者の性別を判定し、その判定結果である性別信号をデジタルオーディオ信号とともに出力するようにしてもよい。この態様によれば、例えば通話相手に対して音声による案内を行う装置に対し、収音装置の出力信号を送ってサービスを受けるような場合に、案内を行う装置側では、デジタルオーディオ信号ともに通話相手から届く性別信号から通話相手の性別を判断し、その性別に応じて案内の仕方を切り換えるといった対応をとることが可能になる。
【図面の簡単な説明】
【0047】
【図1】この発明の一実施形態である収音装置の構成を示すブロック図である。
【図2】同実施形態におけるマイクロフォンの実装例を示す図である。
【図3】同実施形態におけるマイクロフォンの他の実装例を示す図である。
【図4】同実施形態における抽出部の構成例を示すブロック図である。
【図5】同実施形態における抽出部の他の構成例を示すブロック図である。
【図6】同実施形態の動作を示すタイムチャートである。
【図7】同実施形態における切換制御処理の第1の態様を示すタイムチャートである。
【図8】同実施形態における切換制御処理の第2の態様を示すタイムチャートである。
【図9】同実施形態における切換制御処理の第3の態様を示すタイムチャートである。
【図10】同実施形態における出力部のS/N比信号とデジタルオーディオ信号の出力の態様を示す図である。
【図11】同実施形態における出力部のS/N比信号とデジタルオーディオ信号の出力の他の態様を示す図である。
【符号の説明】
【0048】
11−k(k=1〜m)……マイクロフォン、12−k(k=1〜m)……A/D変換器、20−k(k=1〜m)……抽出部、30……出力信号合成部、31−k(k=1〜m)……乗算器、32……加算器、33……合成制御部、40……切換制御部、50……S/N比信号生成部、60……出力部。
【技術分野】
【0001】
この発明は、外界の音を収音して電気信号を出力する収音装置に関する。
【背景技術】
【0002】
ネットワークを介してユーザから音声信号を受け取り、各種のサービスを提供するシステムにおいて、受け取った音声信号の解析結果に基づいて、サービスを提供するための処理の制御を行う技術が各種提案されている。例えば特許文献1は、電話を掛けてきたユーザのうち正当なユーザのみにサービスを提供するために、通話相手から送られてくる音声信号が正当なユーザのものかの認識を行う話者認識装置に関するものである。この特許文献1に開示された技術では、通話相手から送られてくる音声信号を解析してS/N比を求め、受信される音声信号のうちS/N比の高い区間のものを話者認識の対象とすることで、話者認識の際の誤認識の防止を図っている。また、特許文献2は、ユーザが発声した音声を他の言語に翻訳し、音声として出力する音声翻訳機に関するものである。この特許文献2に開示された技術では、ユーザから取得される音声信号を解析して、発生元であるユーザの性別を判定し、ユーザが男性か女性かにより翻訳結果を音声として出力するときの態様(例えば翻訳結果を男性の声で出力するか女性の声で出力するか等)を切り換える。
【特許文献1】特開2005−300958号公報
【特許文献2】特開2000−200276号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
他から受信される音声信号に応答して何らかの処理を行うサービスは、上述のものの他にも多くの種類のものが提供されている。そして。例えば話者認識装置を製造販売する各業者は、各々の製品である話者認識装置に音声信号を解析してS/N比を求める機能を持たせ、音声翻訳機を製造販売する各業者は、各々の製品である音声翻訳機に音声信号を解析して音声の主の性別を判定する機能を持たせる、という具合に各々のサービスを提供するために重複した負担を負っている。
【0004】
この発明は、以上のような事情に鑑みてなされたものであり、音声信号を受け取って処理する側の装置が負う音声信号の解析のための負担を軽減することができる収音装置を提供することを目的としている。
【課題を解決するための手段】
【0005】
この発明は、外界から音を収音して電気信号を出力する少なくとも1個のマイクロフォンと、前記マイクロフォンの出力信号を解析し、前記マイクロフォンにより収音された音を特徴付けるパラメータを求める解析手段と、前記マイクロフォンの出力信号を前記解析手段により求められたパラメータとともに出力する出力手段とを具備することを特徴とする収音装置を提供する。好ましい態様において、解析手段は、パラメータとして、収音された音のS/N比、音の主の性別を求める。
かかる発明によれば、収音された音を示す信号とともにその音を特徴付けるパラメータが出力されるので、収音装置の出力信号を受け取る後段の装置では、そのパラメータを利用した処理を行うことができる。
【発明を実施するための最良の形態】
【0006】
以下、図面を参照し、この発明の実施の形態を説明する。
<実施形態の構成>
図1はこの発明の一実施形態である収音装置の構成を示すブロック図である。図1に示すように、本実施形態における収音装置は、m個のマイクロフォン11−k(k=1〜m)を有する。図2および図3は、同収音装置におけるマイクロフォン11−k(k=1〜m)の実装例を各々示している。なお、これらの図では、マイクロフォンの個数mが3である場合の例が示されている。
【0007】
本実施形態における収音装置は、独立した装置として構成される場合もあるし、他の装置に組み込まれる場合もある。図2は、前者の例である収音装置におけるマイクロフォンの実装例を示している。この収音装置では、スタンド501の上部に固定された水平なバー502に3個のマイクロフォン11−1〜11−3が固定されている。図3は、後者の例として、本実施形態に係る収音装置が組み込まれたノート型パソコンにおけるマイクロフォンの実装例を示している。この例では、ノート型パソコンのディスプレイ503の上部に3個のマイクロフォン11−1〜11−3が固定されている。
【0008】
本実施形態において用いられるマイクロフォン11−k(k=1〜m)は、受音感度が音の到来方向に依存する単一指向性マイクロフォンである。図2および図3に示す例において、マイクロフォンにおいて最大の受音感度が得られる方角を向いた軸を最大感度軸と呼ぶものとすると、マイクロフォン11−1〜11−3は、各々最大感度軸を収音装置またはノート型パソコンの斜め右、真正面、斜め左の各方角に向けている。このように本実施形態におけるm個のマイクロフォン11−k(k=1〜m)は、各々の最大感度軸が放射線を描くように収音装置に固定されている。
【0009】
話者は、これらのマイクロフォン11−k(k=1〜m)を前にして発話するが、話者が動く場合には、その話者の音声を収音するのに適するマイクロフォンが話者の位置に応じて変化する。例えば図2および図3に示す例において、話者の口が収音装置またはノート型パソコンの左側にある場合には、その話者の口の方角に最大感度軸を向けているマイクロフォン11−1の出力信号のレベルが最大となり、この出力信号が話者の音声を示すものとして適している。しかし、話者が姿勢を変え、話者の口がマイクロフォン11−2の真正面に移動すると、マイクロフォン11−2の出力信号のレベルが最大となり、この出力信号を話者の音声を示すものとして採用した方がよい。
【0010】
そこで、本実施形態における収音装置では、マイクロフォン11−k(k=1〜m)の各出力信号の音声成分のレベルを監視し、原則的に最大レベルの信号を選択して最終的なデジタルオーディオ信号SSとして出力し、収音装置全体としての指向性を音源(この例では話者の口)の方向に追従させる。そして、本実施形態における収音装置では、デジタルオーディオ信号SSのS/N比を示す信号(以下、S/N比信号という)を生成して出力するのである。デジタルオーディオ信号SSおよびS/N比信号は、例えばパソコンが実行する音声認識アプリケーションや翻訳アプリケーションなどの各種のアプリケーションの処理対象となり、ネットワークを介して他の装置に送信され、その装置が実行するアプリケーションの処理対象となる。その際、デジタルオーディオ信号SSを処理するアプリケーションでは、S/N比信号を利用してその処理の制御を行うことが可能である。以下、デジタルオーディオ信号SSおよびS/N比信号を得るための収音装置の回路構成を説明する。
【0011】
図1において、A/D変換器12−k(k=1〜m)は、マイクロフォン11−k(k=1〜m)から出力されるアナログオーディオ信号を一定のサンプリング周期でサンプリングし、サンプル値を示すデジタルオーディオ信号S−k(k=1〜m)に変換する。デジタルオーディオ信号S−k(k=1〜m)は、抽出部20−k(k=1〜m)に各々入力されるとともに、出力信号合成部30に入力される。
【0012】
抽出部20−k(k=1〜m)は、デジタルオーディオ信号S−k(k=1〜m)の各々から音声成分の強度を示す音声強度信号Es−k(k=1〜m)および雑音成分の強度を示す雑音強度信号En−k(k=1〜m)を抽出する回路である。本実施形態では、音声強度信号Es−k(k=1〜m)のレベル比較によりデジタルオーディオ信号S−k(k=1〜m)のいずれを最終的なデジタルオーディオ信号SSとして出力するかの判断を行う。また、本実施形態では、音声強度信号Es−k(k=1〜m)および雑音強度信号En−k(k=1〜m)からS/N比信号を演算する。
【0013】
図4は抽出部20−k(k=1〜m)の各々の構成を示すブロック図である。図4において、BPF(バンドパスフィルタ;帯域通過フィルタ)21は、例えば300〜3000Hzの通過帯域を有し、デジタルオーディオ信号S−kに含まれる音声周波数成分を通過させる。このBPF21の出力信号は、デジタルオーディオ信号S−kにおける音声成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にBPF21の出力信号をそのまま音声強度信号Es−kとして出力すると、デジタルオーディオ信号SSとして選択されるデジタルオーディオ信号S−kが頻繁に切り換えられることとなり、動作が不安定になる。そこで、BPF21の後段にエンベロープ生成部22が設けられている。このエンベロープ生成部22は、BPF21の出力信号の急激な変化を緩和したエンベロープ(包絡線)を示す音声強度信号Es−kを出力する。具体的にはエンベロープ生成部22は、実効値算出回路と、LPF(ローパスフィルタ)とを有している。ここで、実効値算出回路は、BPF21の出力信号を所定個数のサンプルからなるフレームに区切り、フレーム毎に各サンプルの2乗平均である実効値を算出する。LPFは、フレーム毎に得られる実効値の急激な変化を取り除き、実効値のエンベロープを示す音声強度信号Es−kを出力する。
【0014】
BEF(バンドエリミネーションフィルタ;帯域除去フィルタ)23は、例えば300〜3000Hzの遮断帯域を有し、デジタルオーディオ信号S−kに含まれる遮断帯域以外の帯域の成分を通過させる。このBEF23の出力信号は、デジタルオーディオ信号S−kにおける雑音成分の強度を示しているが、その値が急激にかつ頻繁に変化する。従って、仮にBEF23の出力信号をそのまま雑音強度信号En−kとして出力すると、音声強度信号Es−k(k=1〜m)および雑音強度信号En−k(k=1〜m)から演算されるS/N比信号が不安定なものとなる。そこで、BEF23の後段にエンベロープ生成部22と同様なエンベロープ生成部24が設けられている。このエンベロープ生成部24は、このBEF23の出力信号の急激な変化を緩和したエンベロープを示す雑音強度信号En−kを出力する。
【0015】
図5は抽出部20−k(k=1〜m)の他の構成例を示すブロック図である。この例では、図4におけるBEF23が減算器25に置き換えられている。この減算器25は、デジタルオーディオ信号S−kからBPF21の出力信号を減算してエンベロープ生成部24に供給する。この構成においても、図4に示すものと同様な音声強度信号Es−kおよび雑音強度信号En−kがエンベロープ生成部22および24から各々出力される。
【0016】
図1において、出力信号合成部30は、デジタルオーディオ信号S−k(k=1〜m)のうちの1つを選択してデジタルオーディオ信号SSとして出力し、あるいはデジタルオーディオ信号S−k(k=1〜m)のうちの2つの信号にクロスフェードを施してデジタルオーディオ信号SSを出力する回路である。この出力信号合成部30は、デジタルオーディオ信号S−k(k=1〜m)に係数a−k(k=1〜m)を各々乗じて出力する乗算器31−k(k=1〜m)と、乗算器31−k(k=1〜m)の出力信号を加算してデジタルオーディオ信号SSとして出力する加算器32と、係数a−k(k=1〜m)を制御する合成制御部33とにより構成されている。
【0017】
切換制御部40は、音声強度信号Es−k(k=1〜m)を監視し、監視結果に基づき、選択信号MnewおよびMoldと、クロスフェード信号CFとを出力する回路である。ここで、選択信号Mnewは、デジタルオーディオ信号S−k(k=1〜m)のうち最終的なデジタルオーディオ信号SSとするのに最も相応しいもののインデックスkを示す信号である。また、選択信号Moldは、選択信号Mnewが現在の値に変更される直前の値を示す信号である。切換制御部40は、原則として、周期的な検証パルスPcが与えられる度に、この選択信号MnewおよびMoldの検証および必要な更新を行うための切換制御処理を行う。この切換制御処理では、クロスフェード信号CFが“1”である期間を除き、音声強度信号Es−k(k=1〜m)のレベル比較を行い、大雑把に言えば、最大レベルの音声強度信号Es−kのインデックスkを示すように選択信号Mnewの更新を行う。また、切換制御処理では、選択信号Mnewの内容を変える場合、その変化前の選択信号Mnewの内容により選択信号Moldを更新する。なお、切換制御処理には、各種の態様が考えられるが、説明の重複を避けるため、その詳細については本実施形態の動作説明において明らかにする。
【0018】
出力信号合成部30における合成制御部33は、このようにして更新される選択信号Mnewを監視し、選択信号Mnewにより指定されるインデックスkを持ったデジタルオーディオ信号S−kが最終的なデジタルオーディオ信号SSとして出力されるように、係数a−k(k=1〜m)の値の制御を行う。具体的には、合成制御部33は、選択信号Mnewにより指定されるインデックスkを持った係数a−kを「1」とし、他の係数を「0」とする。
【0019】
ここで、本実施形態におけるm個のマイクロフォン11−k(k=1〜m)は相互に方向の異なる最大感度軸を有しているため、一般的にデジタルオーディオ信号S−k(k=1〜m)間にはレベル差がある。このため、選択信号Mnewの内容が変化したとき、それに合わせて、デジタルオーディオ信号SSとなるデジタル信号S−kを直ちに切り換えると、デジタルオーディオ信号SSに不自然な不連続が生じる。そこで、本実施形態において切換制御部40は、選択信号MnewおよびMoldの内容を変化させるときには、所定期間を要して出力信号合成部30にクロスフェードを実行させる。
【0020】
具体的には、切換制御部40は、選択信号MnewおよびMoldの内容を変化させた場合には、その時点においてクロスフェード信号CFを“0”から“1”に立ち上げ、クロスフェード信号CFを所定期間に亙って“1”とした後、再び“0”に戻す。出力信号合成部30における合成制御部33は、クロスフェード信号CFが“1”である期間に、選択信号Mnewによりインデックスが指定される係数(例えばa−newkとする)を「0」から「1」に、選択信号Moldによりインデックスが指定される係数(例えばa−oldkとする)を「1」から「0」に連続的に変化させる。このようにして、新旧2つのデジタルオーディオ信号S−kのクロスフェードが行われるため、デジタルオーディオ信号SSには不自然な不連続が発生しない。
【0021】
S/N比信号生成部50は、音声強度信号Es−k(k=1〜m)の中から選択信号Mnewにより指定されたインデックスkを持つものをS成分として選択し、雑音強度信号En−k(k=1〜m)のうち最も強度の高いものをN成分として選択し、S成分の信号レベルをN成分の信号レベルにより除算した結果をS/N比信号として出力する回路である。また、出力部60は、出力信号合成部30から得られる最終的なデジタルオーディオ信号SSとS/N比信号生成部50から得られるS/N比信号とを出力する回路である。
以上が本実施形態の構成である。
【0022】
<実施形態の動作>
(1)全体動作
次に本実施形態の動作について説明する。図6は本実施形態の動作例を示すタイムチャートである。この動作例は、図2または図3に例示したような3個のマイクロフォン11−k(k=1〜3)を有する収音装置の動作例である。この動作例のように、本実施形態では、周期的な検証パルスPcが発生する度に、切換制御部40により切換制御処理が実行され、音声強度信号Es−k(k=1〜3)のレベル比較が行われる。
【0023】
この動作例では、音源である話者の口が収音装置の正面から右側に移動している。音源が収音装置の正面にある場合、音声強度信号Es−k(k=1〜3)のうち音声強度信号Es−2のレベルが最大となる。このため、繰り返し実行される切換制御処理では、選択信号Mnewは、中央のマイクロフォン11−2から得られるデジタルオーディオ信号S−2を指定するインデックスである「2」とされる。
【0024】
しかし、音源が収音装置の中央から右側に移動してゆくと、音声強度信号Es−2のレベルが次第に低下し、音声強度信号Es−3のレベルが次第に上昇する。そして、動作例では、時刻t1において切換制御処理が実行されたとき、音声強度信号Es−2およびEs−3のレベルの大小関係が逆転しているため、選択信号Mnewが「3」とされ、選択信号Moldが「2」とされる。そして、この時点以降、所定期間に亙ってクロスフェード信号CFが“1”とされる。このクロスフェード信号CFが“1”である間は、検証パルスPcが発生しても切換制御処理は実行されない。
【0025】
出力信号合成部30では、このクロスフェード信号CFが“1”である期間を要して、デジタルオーディオ信号S−2に乗じる係数a−2を「1」から「0」に低下させる動作と、デジタルオーディオ信号S−3に乗じる係数a−3を「0」から「1」に上昇させる動作とが行われる。これにより最終的に出力されるデジタルオーディオ信号SSは、デジタルオーディオ信号S−2からデジタルオーディオ信号S−3へと自然に移行する。
【0026】
S/N比信号生成部50では、上述したように音声強度信号Es−k(k=1〜3)と雑音強度信号En−k(k=1〜3)とからS/N比信号が演算される。この動作例の場合、選択信号Mnewが「2」である期間は、このインデックス「2」に対応した音声強度信号Es−2と、雑音強度信号En−k(k=1〜3)のうち最大レベルのものとからS/N比信号が演算される。また、選択信号Mnewが「3」である期間は、このインデックス「3」に対応した音声強度信号Es−3と、雑音強度信号En−k(k=1〜3)のうち最大レベルのものとからS/N比信号が演算される。出力部60は、このようにして得られるデジタルオーディオ信号SSとS/N比信号とを後段の装置に出力する。
【0027】
(2)切換制御処理の諸態様
本実施形態において切換制御部40が実行する切換制御処理は、話者の口の位置の移動に追従できる程度の応答性があれば足りる。切換制御処理が音声強度信号Es−k(k=1〜m)の変化にあまりに過敏に応答すると、最終的なデジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられ、最終的なデジタルオーディオ信号SSが聴感上不自然なものとなる。以下、m=3である場合を例に、このような不都合を防止するための切換制御処理の諸態様について説明する。
【0028】
a.第1の態様
この態様では、音声のレベルと暗騒音のレベルとの境界である閾値thを利用し、音声強度信号Es−k(k=1〜3)のうち閾値th以上のレベルのものだけをデジタルオーディオ信号S−kの選択における判断の資料とする。図7(a)および(b)は、この態様における切換制御処理の実行例を示している。図7(a)および(b)に示す各例では、時刻t11および時刻t12に検証パルスPcが発生し、切換制御処理が実行されている。なお、これらの図では、図示が煩雑になるのを防止するため、時刻t11およびt12において発生した音声強度信号Es−k(k=1〜3)を左右方向に並べて図示している。
【0029】
図7(a)に示す例において、時刻t11における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上であるため、選択信号Mnewは「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。時刻t12における切換制御処理では、音声強度信号Es−1のレベルが最大であり、かつ、閾値th以上であるため、選択信号Mnewは「1」とされ、デジタルオーディオ信号S−1がデジタルオーディオ信号SSとして選択される。
【0030】
ところが、図7(b)に示す例では、時刻t12における切換制御処理において、いずれの音声強度信号Es−k(k=1〜3)のレベルも閾値thに達しておらず、デジタルオーディオ信号S−kを選択するための判断の資料となる音声強度信号Es−kがない。このため、時刻t12における切換制御処理では、時刻t11における切換制御処理において得られた選択信号Mnew=「2」が維持される。
【0031】
この態様によれば、暗騒音のレベルの範囲内において音声強度信号Es−k(k=1〜3)のレベルの大小関係が変化しても、そのような変化は無視され、現状の選択信号Mnewが維持される。従って、収音される音声のレベルが低いときにデジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。
【0032】
b.第2の態様
この態様においても、第1の態様と同様、閾値th以上のレベルの音声強度信号Es−k(k=1〜3)のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、あるデジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、そのデジタルオーディオ信号S−kに対応した音声強度信号Es−kのレベルが音声強度信号Es−k(k=1〜3)の中で最大であるだけでは不十分である。デジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、それに対応した音声強度信号Es−kのレベルが、前回の切換制御処理においてレベルが最大であった音声強度信号のレベルを越えていなければならない。
【0033】
図8は、この態様における切換制御処理の実行例を示すものである。この例において、時刻t22における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上である。また、この音声強度信号Es−2のレベルは、前回の切換制御処理(時刻t21の切換制御処理)においてレベルが最大であった音声強度信号Es−1のレベルよりも正の値iVGCだけ大きい。このため、時刻t22の切換制御処理では、選択信号Mnewが「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。
【0034】
図示は省略したが、仮に時刻t22の切換制御処理において最大である音声強度信号Es−2のレベルが、時刻t21の切換制御処理時における音声強度信号Es−1のレベル以下である場合には、デジタルオーディオ信号S−2はデジタルオーディオ信号SSとして選択されない。
【0035】
この態様によれば、音声強度信号Es−k(k=1〜3)の大小関係に明確な変化が生じた場合に限り、選択信号Mnewの切り換えが行われるので、デジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。
【0036】
c.第3の態様
この態様は、第2の態様における選択信号Mnewの安定性をさらに高めたものである。この態様においても、第1および第2の態様と同様、閾値th以上のレベルの音声強度信号Es−k(k=1〜3)のみを切換制御処理における判断の資料とする。また、この態様では、切換制御処理において、ある音声強度信号Es−kに対応したデジタルオーディオ信号S−kがデジタルオーディオ信号SSとして選択されるためには、次の条件を満たすことが必要である。
条件1:その音声強度信号Es−kのレベルが音声強度信号Es−k(k=1〜3)の中で最大であること。
条件2:その音声強度信号Es−kの前回の切換制御処理における最大レベルの音声強度信号に対する増分iVGCと、その音声強度信号Es−kの前々回の切換制御処理における最大レベルの音声強度信号に対する増分iVGCRとを比較した場合に、iVGCR>iVGCであること。
【0037】
図9は、この態様における切換制御処理の実行例を示すものである。この例において、時刻t33における切換制御処理では、音声強度信号Es−2のレベルが最大であり、かつ、閾値th以上である。また、この時刻t33の切換制御処理時における音声強度信号Es−2のレベルは、前回の切換制御処理(時刻t32の切換制御処理)においてレベルが最大であった音声強度信号Es−2のレベルよりも正の値iVGCだけ大きい。さらに、時刻t33の切換制御処理時における音声強度信号Es−2のレベルは、前々回の切換制御処理(時刻t31の切換制御処理)においてレベルが最大であった音声強度信号Es−1のレベルよりも正の値iVGCRだけ大きい。そして、iVGCR>iVGCである。このため、時刻t33の切換制御処理では、選択信号Mnewが「2」とされ、デジタルオーディオ信号S−2がデジタルオーディオ信号SSとして選択される。
【0038】
図示は省略したが、仮に時刻t33の切換制御処理において音声強度信号Es−2のレベルが最大であったとしても、iVGCR>iVGCなる条件が満たされない場合には、デジタルオーディオ信号S−2はデジタルオーディオ信号SSとして選択されない。
【0039】
この態様によれば、音声強度信号Es−k(k=1〜3)の大小関係に一時的な変化があってもそれは無視され、ある音声強度信号Es−kが最大レベルであり、かつ、増加傾向にあることが明らかに認められる場合に限り、それに対応したデジタルオーディオ信号S−kが最終的なデジタルオーディオ信号SSとして選択される。従って、デジタルオーディオ信号SSとなるデジタルオーディオ信号S−kが頻繁に切り換えられるのを防止することができる。
【0040】
(3)デジタルオーディオ信号SSおよびS/N比信号の出力の態様
出力部60におけるデジタルオーディオ信号SSおよびS/N比信号の出力に関しては各種の態様がある。
【0041】
ある態様において、出力部60は、図10に例示するように、1サンプル毎にS/N比信号とデジタルオーディオ信号SSの組を出力する。この場合において、S/N比信号とデジタルオーディオ信号の各サンプルは、別々のワードであってもよいが、例えばS/N比信号を上位ビット列、デジタルオーディオ信号SSを下位ビット列とするワードを順次出力するように出力部60を構成してもよい。この態様によれば、収音装置の出力信号を受け取る後段の装置は、任意のタイミングにおいて、デジタルオーディオ信号とそれに対応したS/N比信号を得ることができるという利点がある。
【0042】
他の態様において、出力部60は、図11に例示するように、デジタルオーディオ信号SSを所定個数のサンプルからなるフレームに分割し、フレーム単位でそのフレームにおける代表的なS/N比信号(例えば平均値)と、そのフレームに属する所定個数のデジタルオーディオ信号SSのサンプルとを出力する。この態様によれば、全体としてのデータ量を減らすことができるという利点がある。
【0043】
<実施形態の効果>
以上のように本実施形態では、音源の位置が変化する状況においても、音声成分の強度が最大であるデジタルオーディオ信号S−kが選択され、最終的なデジタルオーディオ信号SSとして出力される。従って、音源の位置の変化によらず、常に最大の受音感度でデジタルオーディオ信号を取得することができる。また、本実施形態では、最終的なデジタルオーディオ信号SSとして出力するデジタルオーディオ信号を切り換える場合に、一定時間を要して、新旧2つのデジタルオーディオ信号間でクロスフェードを行うので、出力されるデジタルオーディオ信号SSに不自然な不連続を生じさせないという利点がある。また、本実施形態では、各マイクロフォンから得られる各デジタルオーディオ信号から音声成分と雑音成分が分離して各々抽出され、それらに基づいてS/N比信号が生成され、最終的なデジタルオーディオ信号SSとともに後段の装置に供給される。従って、本実施形態によれば、後段の装置は、S/N比信号を参照することにより、例えばS/N比の良好な区間のデジタルオーディオ信号SSのみに基づいて音声認識を行い、あるいはS/N比が劣化したときにはデジタルオーディオ信号の再生のミュートを行う、といった対処を簡単に行うことができるという効果が得られる。
【0044】
<他の実施形態>
以上、この発明の一実施形態について説明したが、この発明にはこれ以外にも他の実施形態が考えられる。
【0045】
(1)上記実施形態では、複数のマイクロフォンの出力信号から最終的なデジタルオーディオ信号を合成し、これにS/N比信号を多重化して出力するようにした。しかし、このように複数のマイクロフォンを用いるのではなく、単一のマイクロフォンにより収音を行い、この収音により得られるデジタルオーディオ信号のS/N比を測定し、デジタルオーディオ信号とS/N比信号を出力するように収音装置を構成してもよい。
【0046】
(2)例えば上記実施形態では、収音により得られるデジタルオーディオ信号のS/N比を評価し、評価結果を示すS/N比信号をデジタルオーディオ信号とともに、後段の装置に出力した。しかし、デジタルオーディオ信号に関する評価結果としてS/N比以外のものを求め、デジタルオーディオ信号とともに後段の装置に出力するようにしてもよい。例えばピッチ解析やホルマント解析などの周知の手法により、収音によって得られたデジタルオーディオ信号の発生元である話者の性別を判定し、その判定結果である性別信号をデジタルオーディオ信号とともに出力するようにしてもよい。この態様によれば、例えば通話相手に対して音声による案内を行う装置に対し、収音装置の出力信号を送ってサービスを受けるような場合に、案内を行う装置側では、デジタルオーディオ信号ともに通話相手から届く性別信号から通話相手の性別を判断し、その性別に応じて案内の仕方を切り換えるといった対応をとることが可能になる。
【図面の簡単な説明】
【0047】
【図1】この発明の一実施形態である収音装置の構成を示すブロック図である。
【図2】同実施形態におけるマイクロフォンの実装例を示す図である。
【図3】同実施形態におけるマイクロフォンの他の実装例を示す図である。
【図4】同実施形態における抽出部の構成例を示すブロック図である。
【図5】同実施形態における抽出部の他の構成例を示すブロック図である。
【図6】同実施形態の動作を示すタイムチャートである。
【図7】同実施形態における切換制御処理の第1の態様を示すタイムチャートである。
【図8】同実施形態における切換制御処理の第2の態様を示すタイムチャートである。
【図9】同実施形態における切換制御処理の第3の態様を示すタイムチャートである。
【図10】同実施形態における出力部のS/N比信号とデジタルオーディオ信号の出力の態様を示す図である。
【図11】同実施形態における出力部のS/N比信号とデジタルオーディオ信号の出力の他の態様を示す図である。
【符号の説明】
【0048】
11−k(k=1〜m)……マイクロフォン、12−k(k=1〜m)……A/D変換器、20−k(k=1〜m)……抽出部、30……出力信号合成部、31−k(k=1〜m)……乗算器、32……加算器、33……合成制御部、40……切換制御部、50……S/N比信号生成部、60……出力部。
【特許請求の範囲】
【請求項1】
外界から音を収音して電気信号を出力する少なくとも1個のマイクロフォンと、
前記マイクロフォンの出力信号を解析し、前記マイクロフォンにより収音された音を特徴付けるパラメータを求める解析手段と、
前記マイクロフォンの出力信号を前記解析手段により求められたパラメータとともに出力する出力手段と
を具備することを特徴とする収音装置。
【請求項2】
前記解析手段は、前記マイクロフォンにより収音された音のS/N比を求めることを特徴とする請求項1に記載の収音装置。
【請求項3】
前記解析手段は、前記マイクロフォンの出力信号における音声周波数帯域の信号の実効値のエンベロープを求め、音声強度信号として出力する第1の抽出手段と、前記マイクロフォンの出力信号における音声周波数帯域外の信号の実効値のエンベロープを求め、雑音強度信号として出力する第2の抽出手段と、前記音声強度信号と前記雑音強度信号との比であるS/N比信号を生成するS/N比信号生成手段とを具備することを特徴とする請求項1に記載の収音装置。
【請求項4】
前記解析手段は、前記マイクロフォンにより収音された音の発生元である人間の性別を求めることを特徴とする請求項1に記載の収音装置。
【請求項1】
外界から音を収音して電気信号を出力する少なくとも1個のマイクロフォンと、
前記マイクロフォンの出力信号を解析し、前記マイクロフォンにより収音された音を特徴付けるパラメータを求める解析手段と、
前記マイクロフォンの出力信号を前記解析手段により求められたパラメータとともに出力する出力手段と
を具備することを特徴とする収音装置。
【請求項2】
前記解析手段は、前記マイクロフォンにより収音された音のS/N比を求めることを特徴とする請求項1に記載の収音装置。
【請求項3】
前記解析手段は、前記マイクロフォンの出力信号における音声周波数帯域の信号の実効値のエンベロープを求め、音声強度信号として出力する第1の抽出手段と、前記マイクロフォンの出力信号における音声周波数帯域外の信号の実効値のエンベロープを求め、雑音強度信号として出力する第2の抽出手段と、前記音声強度信号と前記雑音強度信号との比であるS/N比信号を生成するS/N比信号生成手段とを具備することを特徴とする請求項1に記載の収音装置。
【請求項4】
前記解析手段は、前記マイクロフォンにより収音された音の発生元である人間の性別を求めることを特徴とする請求項1に記載の収音装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2007−171316(P2007−171316A)
【公開日】平成19年7月5日(2007.7.5)
【国際特許分類】
【出願番号】特願2005−365770(P2005−365770)
【出願日】平成17年12月20日(2005.12.20)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成19年7月5日(2007.7.5)
【国際特許分類】
【出願日】平成17年12月20日(2005.12.20)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]