自動利得制御

【課題】複数話者オーディオにおけるオーディオ利得レベルを調整するための技術に関する。
【解決手段】１つの例として、オーディオシステムは、新たな話者の存在に対して、オーディオストリームを監視する。新たな話者を識別すると、システムは、新たな話者が初めての話者かどうかを決定する。初めての話者に対して、システムは、初めての話者に対する利得値を迅速に決定するため、高速アタック／ディケイ自動利得制御（ＡＧＣ）を実行する。更に、初めての話者が会話中、初めての話者に対する利得を改善するため、標準ＡＧＣ技術を実行する。初めての話者に対し、標準ＡＧＣを用いて、デシベルしきい値内の安定状態が達成されると、システムは、初めての話者に対する安定状態利得を記憶部に格納する。以前に識別された話者を識別すると、システムは、話者に対する安定状態利得を記憶部から読み出し、オーディオストリームに適用する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、オーディオストリームに適用される利得調整に関する。
【背景技術】
【０００２】
未処理（raw）のオーディオ信号は、マイクで受信された全周波数の畳み込み（convolution）であり、オーディオ信号に変換される。複数話者（multi-talker）環境において、周波数のこの畳み込みは、話者の各々に対する音声パターンを含み、音声パターンは、オーディオシステムが、オーディオ信号を処理し、現在話者に対する関連した音声パターンを識別することにより、現在話者を識別することを可能にする。
【発明の概要】
【課題を解決するための手段】
【０００３】
１つの実施例において、方法は、第１の話者を識別するため、オーディオシステムにおけるオーディオ信号を処理するステップを有する。方法は、また、オーディオシステムが第１の話者と利得との間の関連を格納しているかどうかを決定するステップ、オーディオシステムが第１の話者と利得との間の関連を格納していないとき、アタック率（attack rate）又はディケイ率（decay rate）の少なくとも１つを増加させるため、オーディオシステムにおける自動利得制御（automatic gain control: AGC）アルゴリズムを変更するステップ、第１の話者に対する利得を決定するため、変更されたＡＧＣアルゴリズムをオーディオ信号に適用するステップを有する。方法は、また、オーディオシステムが、出力オーディオ信号を生成するため、オーディオ信号の表示（representation）に第１の話者に対する利得を適用するステップ、及びオーディオシステムから出力オーディオ信号を出力するステップを有する。
【０００４】
その他の実施例において、オーディオシステムは、第１の話者を識別するため、オーディオシステムにおけるオーディオ信号を処理するための手段を有する。オーディオシステムは、また、オーディオシステムが第１の話者と利得との間の関連を格納しているかどうかを決定する話者識別モジュールを有する。オーディオシステムは、また、自動利得制御（ＡＧＣ）モジュールを有し、オーディオシステムが第１の話者と利得との間の関連を格納していないとき、話者識別モジュールは、アタック率またはディケイ率の少なくとも１つを増加させるため、ＡＧＣモジュールを変更し、ＡＧＣモジュールは、第１の話者に対する利得を決定するため、変更されたＡＧＣアルゴリズムをオーディオ信号に適用し、ＡＧＣモジュールは、出力オーディオ信号を生成するため、オーディオ信号の表示に第１の話者に対する利得を適用し、オーディオシステムは、出力オーディオ信号を出力する。
【０００５】
その他の実施例において、コンピュータ読取り可能記憶媒体は、実行時において、第１の話者を識別するため、オーディオシステムにおけるオーディオ信号を処理するステップ、オーディオシステムが第１の話者と利得との間の関連を格納しているかどうかを決定するステップ、オーディオシステムが第１の話者と利得との間の関連を格納していないとき、アタック率またはディケイ率の少なくとも１つを増加させるため、オーディオシステムにおける自動利得制御（ＡＧＣ）アルゴリズムを変更するステップ、第１の話者に対する利得を決定するため、変更されたＡＧＣアルゴリズムをオーディオ信号に適用するステップを有する処理を実現する命令を有する。命令は、実行時において、オーディオシステムが、出力オーディオ信号を生成するため、オーディ信号の表示に第１の話者に対する利得を適用するステップ、オーディオシステムから出力オーディオ信号を出力するステップを有する処理を更に実現する。
【０００６】
１つ以上の実施例の詳細は、添付の図面と以下の記載に説明される。その他の特徴、目的、及び利点は、記載と図面から、及び特許請求の範囲から明白となる。
【図面の簡単な説明】
【０００７】
【図１】本明細書に記載される声紋（voice-print）マッチング及び高速アタック利得制御技術を用いて、電気信号に適用される利得を調整するオーディオシステムを説明するブロック図である。
【図２】図１のオーディオシステムの事例をより詳細に説明するブロック図である。
【図３】本明細書に記載の技術に従い、オーディシステムにより受信されるオーディオストリーム内の新たな話者の登場に応答して、利得を迅速に調整するためのオーディシステムの動作例を説明するフローチャートである。
【図４】記載の技術に従い、オーディシステムにより受信されるオーディオストリーム内の新たな話者の登場に応答して、結合された利得を適用するためのオーディシステムの動作の例示的なモードを説明するフローチャートである。
【発明を実施するための形態】
【０００８】
複数話者環境における会話が、共通マイクから遠い話者などの穏やか（soft）な話者から、共通マイクに近い話者などの大音量の話者に推移するとき（又は、その反対）、数秒の単位で出力利得を変更する時間平均された自動化利得制御（ＡＧＣ）アルゴリズムは、安定した音量（volume）を供給するために、十分な速さで適応することはできない。この結果、ＡＧＣアルゴリズムの動作中、大音量の話者は十分に減衰されず、及び／又は、穏やかな話者は十分に増幅されない。
【０００９】
一般的に、複数話者オーディオにおけるオーディオ利得レベルを調整するための技術がある。１つの例において、複数話者環境において動作するオーディオシステムは、新たな話者の存在に対してオーディオストリームを継続的に監視する。新たな話者を識別すると、オーディオシステムは、新たな話者が初めての話者であり、その声紋（voice print）がシステムに未知であるかどうかを決定する。新たな話者が初めての話者である場合、オーディオシステムは、その話者に対して以前に決められたオーディオ利得レベルに関連付けられた声紋の記録を持たない。初めての話者に対して、オーディオシステムは、以下に詳細に記載するように、初めての話者に対する利得値を迅速に決定するため、高速アタック／ディケイ（fast-attack/decay）ＡＧＣアルゴリズムを実行し、この利得値をオーディオ出力に適用する。オーディオシステムは、初めての話者が話しを続ける間、初めての話者に対する利得を改善するために、標準ＡＧＣ技術を更に実行する。
【００１０】
初めての話者に対して標準ＡＧＣを用いることにより、デシベル範囲内の安定した状態が達成されると、オーディオシステムは、初めての話者に対する声紋に関連して、初めての話者に対する安定した状態の利得を記憶装置に格納する。以前に識別された話者を識別すると、システムは、この話者に対し以前に決定された安定状態の利得を記憶装置から読み出し、オーディオストリームに安定状態利得を適用する。この結果、オーディオシステムは、複数話者オーディオにおける利得を迅速に決定するため、複数話者に対し、それぞれの所定の利得を用い、未識別の話者に対し、高速アタックＡＧＣアルゴリズムを用いる。
【００１１】
本明細書の技術は、１つ以上の利点を提示する。例えば、本明細書の技術を用いて、オーディオシステムは、複数話者環境において、識別された話者と未識別の話者の両方に適用される利得を迅速に切り替えることができる。
【００１２】
図１は、オーディオシステム１０を説明するブロック図であり、本明細書に記載される声紋マッチング及び高速アタック利得制御技術を用いて、電気信号に適用される利得を調整する利得制御システムの例である。マイク１４は、連続的、及び／又は、同時（クロストーク）に声を発する複数の話者12A〜12N（集合的に「話者１２」）の１人以上により発生される音声サウンドを含む、その近傍の周囲サウンドを獲得する。話者１２の各々は、任意の時間だけ突発的に話しをする（例えば、数十ミリ秒程度から数時間程度の間）。マイク１４は、周囲サウンドを、オーディオシステム１０により受信される電気信号１７に変換する。人間に対して、本明細書では記載されているが、話者１２は、任意のオーディオソース又はその記録とすることができる。
【００１３】
幾つかの態様において、電気信号１７は、話者１２のサウンド、又は記憶媒体（例えば、コンパクトディスク（ＣＤ）、ハードディスク、レコード、テープ、若しくはフラッシュメモリ）上に予め記録されたその他任意のオーディオソースにより提供されるサウンドから符号化されたデータを用いる再生装置（例えば、ＣＤプレイヤー、コンピュータプログラム、若しくはテーププレイヤー）により再生される電気信号を表す。
【００１４】
オーディオシステム１０は、変更された電気信号１８を出力するよう電気信号１７を処理し、変更された電気信号１８は、話者１２が話しをしている間、より安定的な音量（例えば、許容可能なデシベル（dB）範囲内）を有するオーディオをスピーカ１６に出力させる。オーディオシステム１０は、例えば、携帯オーディオプレイヤー、ミキシングボード（mixing board）、スマートフォン、パブリックアドレス（ＰＡ）システム、又は電話会議やビデオ会議システムとすることができる。許容可能なdB範囲は、任意の話者１２によりユーザ設定することが可能であり、あるいは、電話若しくはビデオ会議、コンサート若しくはＰＡなど、オーディオシステム１０が動作している状況に対してオーディオシステム１０を監視している、又は携帯オーディオプレイヤーで聴取しているユーザ、管理者やサウンドエンジニアによりユーザ設定することが可能である。幾つかの態様において、マイク１４とスピーカ１６の一方又は両方は、オーディオシステム１０も含むシャーシ又はその他タイプのケース内に組み込まれ、あるいは、有線コネクタを介して、オーディオシステム１０に直接的に接続することができる。幾つかの態様において、マイク１４とスピーカ１６の一方又は両方は、例えば、公衆交換電話網（public switched telephone network: PSTN）、公衆地上移動網（public land mobile network: PLMN）、企業仮想プライベート網（virtual private network: VPN）、インターネット、ＷｉＦｉ接続、又は３ＧＰＰセルラー無線網など、ネットワークを介して通信可能に接続されることで、オーディオシステム１０から離すことができる。幾つかの態様において、マイク１４とスピーカ１６の一方又は両方は、無線とすることができる。幾つかの態様において、マイク１４は、様々な組合せで、話者１２の間に配置される複数のマイクとすることができる。更に、幾つかの態様において、話者１２の各々は、オーディオシステム１０の異なる例と関連付けることができる。
【００１５】
変更された電気信号１８を許容可能なdB範囲内で出力し、話者１２に対するサウンド忠実度（fidelity）を維持するよう電気信号１７を処理するため、オーディオシステム１０は、話者１２毎に自動利得制御（ＡＧＣ）技術を適用する。話者１２の各々により生成されるサウンド（例えば、音声、咳、叫び、歌唱など）は、話者の固有性やマイク１４から話者までの距離に基づいた様々な特徴を有する。例えば、穏やかな話者やマイク１４から離れている話者は、大音量の話者やマイク１４に近い話者により生成されるサウンドより、マイク１４において、より低い振幅（amplitude）を有するサウンドを生成する傾向にある。
【００１６】
オーディオシステム１０は、話者毎にＡＧＣ技術を適用するため、話者１２中の個々の話者に対して、電気信号１７を監視する。話者１２の各々は、何時でもサウンドを発することができ、サウンドはマイク１４で受信され、電気信号１７に変換される。従って、会話（即ち、話者１２により生成され、マイク１４で受信される一体となったサウンド）に加わる新たな話者や会話から離れる現在の話者に伴い、特定時間において、話者１２の異なる組合せが音を発することができる。ここで、「新たな（new）」話者は、最近会話に加わった、又は再び加わった話者１２の１人にあたる。
【００１７】
話者１２中の新たな話者のオーディオの存在を識別するため、オーディオシステム１０は、話者検出及び識別技術を用いて電気信号１７を処理する。新たな話者を検出後、オーディオシステム１０は、新たな話者が初めての話者かどうかを決定するため、その話者を識別することができる。様々な例において、「初めて（first-time）」または「未識別（unidentified）」の話者は、オーディオシステム１０が以前に認識していないか、あるいはシステムから以前の認識の記録が削除されている話者、又は以前の認識の記録が存在するにも係わらず、オーディオシステム１０がその話者をもはや認識することが出来ないほどにその音声が変更されてしまった話者１２の１人にあたる。電気信号１７中に検出された新たな話者が初めての話者であることを決定することに応答して、オーディオシステム１０は、初めての話者に対する利得値を迅速に決定するため、高速アタック／ディケイＡＧＣアルゴリズムを実行することができ、そしてオーディオシステム１０は、変更された電気信号１８を生成するため、電気信号１７のこの決定された利得値を適用することができる。高速アタック／ディケイＡＧＣアルゴリズムは、標準ＡＧＣに対し必要となる時間より少ない時間で（例えば、数百マイクロ秒またはミリ秒）、初めての話者に対する利得値に収束する（あるいは、「安定する」）。オーディオシステム１０は、初めての話者が話し続けている間、初めての話者に対する利得を改善し、適用するため、同時に、及び／又は続いて、標準ＡＧＣを実行することができる。
【００１８】
オーディオシステム１０が、標準ＡＧＣを用いて、初めての話者に対してデシベルしきい値内の安定した状態に達したとき、オーディオシステム１０は、この安定状態を実現する利得、あるいは安定状態利得と初めての話者を関連付けることができる。電気信号１７で表される話者１２中に以前に識別された話者を検出し、識別すると、オーディオシステム１０は、以前に識別された話者に対して先に関連付けられた安定状態利得を記憶媒体から呼び出して、変更された電気信号１８を生成するため、先に関連付けられた安定状態利得を電気信号１７に適用することができる。以前に識別された話者により生成されたサウンドに基づいて、利得を改善し、マイク１４で生成された電気信号１７に利得を適用するため、オーディオシステム１０が標準ＡＧＣを同時に実行する一方、様々な例において、オーディオシステム１０は、以前に識別された話者に対して適用された利得により早く収束するため、先に関連付けられた安定状態利得を少なくとも初期に適用する。標準ＡＧＣは、ＡＧＣフィードバックメカニズムに基づいて、安定状態利得値に達するまで、数秒を必要とするため、以前に識別した新たな話者１２に対して、それぞれの所定の利得を適用することと、未識別の新たな話者１２に対して高速アタック／ディケイＡＧＣ技術を適用することの組合せは、オーディオシステム１０が、変更された電気信号１８を生成するため、電気信号１７に適用するための適切な利得を迅速に決定することを可能にし、変更された電気信号１８は、スピーカ１６により変換されるとき、新たな話者である特定の話者１２の存在にも係わらず、許容可能なdB範囲内のサウンドとなる。更に、以前に識別された新たな話者１２に対する所定の利得を適用することは、高速アタック／ディケイＡＧＣのみに比べ、そのような話者におけるサウンドのdB範囲の不変性を改善することができる。
【００１９】
図２は、図１のオーディオシステム１０の例をより詳細に説明したブロック図である。図１の同等の要素を特定するため、同等の番号が使用される。オーディオシステム１０は、電気信号１７を受信し、デジタル信号３４を出力するアナログ−デジタル（Ａ／Ｄ）変換器２４を有し、デジタル信号３４は、話者識別モジュール２０及び自動利得制御（ＡＧＣ）モジュール２６（「ＡＧＣモジュール２６」と表記）により受信される電気信号１７のデジタル表記である。幾つかの例において、オーディオシステム１０は、デジタル信号３４として出力するため、電気信号１７をパルスコード変調（ＰＣＭ）符号化されたデジタルオーディオ信号などのデジタルオーディオ信号に変換するオーディオ帯域符号化／復号器（ＣＯＤＥＣ）を更に有する。幾つかの態様において、電気信号１７はデジタル信号であり、このため、Ａ／Ｄ変換器２４は、オーディオシステム１０から省略することができる。
【００２０】
話者識別モジュール２０は、デジタル信号３４をサンプリングし、解析して、話者を識別するための声紋を抽出する。幾つかの態様において、話者識別モジュール２０は、声紋を抽出し、新たな話者を検出、識別するため、内部または外部セグメンテーションを持つ混合ガウスモデル（Gaussian mixture model）、一般背景モデル（universal background model）（ＧＭＭ−ＵＢＭ）を使うことができる。その他の態様において、話者識別モジュール２０は、周波数推定、パターンマッチングアルゴリズム、ベクトル量子化、決定木（decision tree）、隠れマルコフモデル、又はその他技術を使用することができる。話者識別モジュール２０は、新たな話者（即ち、デジタル信号３４で表される会話への１人の話者の登場または再登場）を識別するため、デジタル信号３４を継続的に監視する。オーディオシステム１０の声紋２２は、コンピュータ読取り可能記録媒体上に格納されたデータベース又はその他データ構造を有し、これらは、話者識別モジュール２０により以前に識別された各々の話者に対する１以上の声紋を格納する。各声紋は、話者の特徴的な信号パラメータ、話者の音声信号の連続するサンプル、ケプストラムまたはスペクトル特性ベクトル、又はその他の情報を含むことができ、これらは、声紋と共に、対応する話者にマッチングするため、話者識別モジュール２０により使用される。話者識別モジュール２０は、声紋２２に格納するための声紋パラメータを習得（learn）するため、トレーニング技術を実行することができる。以下に詳細に記載されるように、デジタル信号３４は、声紋に合致する話者に対するオーディオ信号を含み、声紋２２の各々は、ＡＧＣモジュール２６により、デジタル信号３４に適用されることになる関連付けられた利得を有する。
【００２１】
デジタル信号３４内の新たな話者に対する声紋を抽出すると、話者識別モジュール２０は、当該声紋と声紋２２に格納されている声紋とを比較する。声紋２２内の一致する声紋は、新たな話者が以前に識別されていることを示し、話者識別モジュール２０は、制御チャネル３８を用い、ＡＧＣモジュール２６に一致する声紋の話者識別を提供する。声紋２２が、新たに識別された声紋に対する一致を有しない場合、話者識別モジュール２０は、制御チャネル３８を用い、ＡＧＣモジュール２６にデジタル信号３４内の未識別話者の出現を示す。幾つかの態様において、話者識別モジュール２０は、複数の声紋２２が現在の話者に対して各々の一致確率（matching probability）を持っていることを決定できる。そのような態様において、話者識別モジュール２０は、声紋２２から、複数の声紋２２に対する決定された各々の一致確率と同様に、関連付けられた各々の利得を受け取る。例えば、新たな話者が、声紋２２の一致する声紋「Ａ」の確率0.7及び声紋２２の一致する声紋「Ｂ」の確率0.3を有することが決定されると、話者識別モジュール２０は、声紋「Ａ」と「Ｂ」に対する確率と共に、関連付けられた利得を読み出し、ＡＧＣモジュール２６に提供する。声紋を用いて話者を識別するよう記載されているが、話者識別モジュール２０は、複数のオーディオソースを区別するオーディオプリントを用いてオーディオソースを識別するオーディオソース識別モジュールと見なすことができる。
【００２２】
ＡＧＣモジュール２６は、デジタル出力信号３６がスピーカ又はその他の適切な装置によりオーディオに変換されるとき、デジタル出力信号３６に対する信号振幅が許容可能なdB範囲内に維持されるように、デジタル信号３４を変換するための自動利得制御技術を適用する。幾つかの適切なＡＧＣアルゴリズムのいずれかを、許容可能なdB範囲になるようデジタル信号３４の振幅に適応するため、適用することができる。ＡＧＣアルゴリズムは、通常、入力量に基づいて以前に適用された利得レベルの結果を監視するフィードバックループに依存する。結果に基づき、典型的なＡＧＣアルゴリズムは、入力量を出力量に変換するための利得レベルを変更し、出力量は、目標量により近似したその後の入力量となる。本技術において関連する量は、デジタル出力信号３６に対する信号振幅である。幾つかの態様において、オーディオシステム１０は、ＡＧＣモジュール２６から利得信号を受信するアナログ又はデジタルの増幅器を有し、増幅器は、デジタル出力信号３６又は変更された電気信号１８を生成するため、電気信号１７又はデジタル信号３４の１つに利得信号を適用する。幾つかの態様において、利得は、変更された電気信号１８を生成するため、電気信号１７を増幅、減衰、又はその他変更するためのオーディオフィルタ、その他装置、又は値として、計算され、格納され、適用される。
【００２３】
ＡＧＣモジュール２６は、標準ＡＧＣを適用し、ほぼ一定音量で話をする話者に対して、１つの利得に数秒の単位で収束する。ＡＧＣモジュール２６は、制御チャネル３８を用い、話者識別モジュール２０に結果の利得を提供する。話者識別モジュール２０は、話者に対して関連付けられた声紋と共に、結果の利得を声紋２２に格納する。幾つかの例において、話者識別モジュール２０は、声紋２２内で、関連付けられた声紋に対して既に格納されている利得をＡＧＣモジュール２６から受信された新たな結果の利得で置き換える。
【００２４】
ＡＧＣモジュール２６の高速ＡＧＣモジュール２８（「高速２８」として表示）及びマッピングモジュール３０（「マップ３０」として表示）は、ＡＧＣモジュール２６がデジタル出力信号３６を生成する速度を改善するため、本発明と調和した技術を実行し、デジタル出力信号３６は、現在許容可能なdB範囲で音量を生成する。特に、話者識別モジュール２０から、デジタル信号３４の現在の話者が未識別の話者であるとの信号を受信すると、高速ＡＧＣモジュール２８は、アタック率（ＡＧＣ技術が大音量信号に応じて利得を減少させる速度に対応する）、及び／又はディケイ率（ＡＧＣ技術が大音量信号の離脱に応じて利得を増加させる速度に対応する）を増加させるため、ＡＧＣモジュール２６によりデジタル信号３４に適用される標準ＡＧＣを変更する。この結果、ＡＧＣモジュール２６が標準ＡＧＣに従い利得を変更する速度と比べ、ＡＧＣモジュール２６は、デジタル信号３４に適用される利得を迅速に変更し、これにより、許容可能な音量をもたらすデジタル出力信号３６を早急に生成する。高速ＡＧＣモジュール２８は、分離した集積回路またはプロセッサで実現することができ、ＡＧＣモジュール２６により実行される標準ＡＧＣに代わり、合図があると、高速アタック／ディケイＡＧＣ技術を実行する。
【００２５】
高速アタック／ディケイＡＧＣ技術は、利得安定性に関連して欠陥を有するため（例えば、入力振幅における一時的なわずかの変調は大きな利得適応となり得る）、マッピングモジュール３０は、以前に識別された話者に対して話者識別モジュール２０から受信された所定の利得値を適用する。上記のように、話者識別モジュール２０が、デジタル信号３４に対して、声紋２２の一致する１つを識別すると、話者識別モジュール２０は、一致する声紋に対する関連付けられた利得をＡＧＣモジュール２６に供給する。ＡＧＣモジュール２６が関連付けられた利得を決定している間、識別された話者に対するオーディオ信号の受信の以前の発生にほぼ一致した音量で、識別された話者がサウンドを生成するとき、マッピングモジュール３０は、オーディオシステム１０における許容可能なdB範囲に合致するデジタル出力信号３６を生成するため、デジタル信号３４に関連付けられた利得を適用する。
【００２６】
幾つかの態様において、オーディオシステム１０は、識別された話者に対する計算された利得とその識別された話者に対する格納された関連付けられた利得との差分に基づき、マイクの移動を検出する。例えば、話者識別モジュール２０は、新たな話者に関するデジタル信号３４に対して、声紋２２の一致する１つを識別することができ、マッピングモジュール３０は初めにデジタル信号３４に適用する。続いて、ＡＧＣモジュール２６は、デジタル信号３４の振幅の差分により、話者に対する新たな利得を計算することができる。ＡＧＣモジュール２６は、制御チャネル３８を介し、話者識別モジュール２０に新たな利得を提供する。話者識別モジュール２０は、声紋２２内の話者に対し以前に格納された利得と新たな利得を比較する。差分が設定可能なしきい値を超える場合、マイクは移動したものであり、これにより、話者１２の各々は、マイク移動前にマイクで生成されたサウンドから振幅で相違するサウンドをマイクで生成することになる。この結果、話者識別モジュール２０は、新たな利得と以前に格納された利得との間の、例えば、相対的又は絶対的な差分を声紋２２に関連付けられた利得のそれぞれに適用することができる。このように、声紋２２に関連する話者のそれぞれは、その次の会話の順番に備えて調整された各々の格納された利得を有する。
【００２７】
幾つかの態様において、オーディオシステム１０は、スマートフォンなどの装置を表し、更に加速度計、カメラ、赤外探知機、又は装置の移動を追跡するその他の要素を含む。そのような態様において、オーディオシステム１０は、追跡要素から受信された装置に対する移動情報に基づいて、利得変更を計算することができる。例えば、移動情報は、話者１２の１人が共通マイクから更に移動していることを示すことができる。その結果、オーディオシステム１０は、デジタル信号３４に適用される利得を増加させる利得変更を計算することができる。幾つかの態様において、オーディオシステム１０は、スマートフォンなどの装置を表し、カメラ又は話者１２の移動を追跡するその他の装置からの位置データを含み、又は受信する。これらの態様において、オーディオシステムは、追跡要素から受信される話者に対する移動情報に基づき、話者毎の利得変更を計算することができる。
【００２８】
オーディオシステム１０のデジタル−オーディオ（Ｄ／Ａ）変換器３２は、デジタル出力信号３６を変更された電気信号１８に変換し、これは、アナログ信号を表すことができる。幾つかの例において、オーディオシステム１０は、デジタル出力信号３６を変更された電気信号１８に変換するオーディオ帯域ＣＯＤＥＣを更に含む。幾つかの態様において、変更された電気信号１８はデジタル信号であり、このため、Ｄ／Ａ変換器３２はオーディオシステム１０から取り除くことができる。
【００２９】
オーディオシステム１０の１以上のプロセッサ４０は、オーディオシステム１０の様々なモジュールの機能を実行するために動作する。プロセッサ４０は、マイクロプロセッサ、コントローラ、デジタル信号プロセッサ（ＤＳＰ）、音声帯域オーディオプロセッサ、特定アプリケーション向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又は等価な分離若しくは集積論理回路の任意の１つ以上を含むことができる。更に、本発明において、プロセッサ４０に起因する機能は、ソフトウェア、ファームウェア、ハードウェア又はそれらの任意の組合せとして搭載することができる。プロセッサ４０は、オーディオシステム１０の記憶装置４２により格納された命令を実行することができ、記憶装置４２は、例えば、プロセッサ４０などの１以上のプロッセサに様々な機能を実現させる命令を有するコンピュータ読取り可能、機械読取り可能、又はプロセッサ読取り可能な記憶媒体を含むことができる。記憶装置４２は、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、プログラム可能読み出し専用メモリ（ＰＲＯＭ）、消去可能ＰＲＯＭ（ＥＰＲＯＭ）、電気的消去可能ＰＲＯＭ（ＥＥＰＲＯＭ）、フラッシュメモリ、ハードディスク、ＣＤ−ＲＯＭ、フロッピーディスク、カセット、磁気媒体、光学媒体、又はその他のコンピュータ読取り可能記憶媒体など、任意の有形（trangible）又は持続的（non-transitory）コンピュータ読取り可能記憶媒体を含むことができる。声紋２２は、記憶装置４２により格納することができる。
【００３０】
図３は、ここに記載される技術に関連して、オーディオシステムにより受信されるオーディオストリーム内の新たな話者の登場に応答して迅速に利得を調整するための、図２のオーディオシステム１０の動作例を説明するフローチャートである。オーディオシステム１０は、オーディオ信号波形（waveform）を含む電気信号１７を受信する（１００）。話者識別モジュール２０は、波形内の新たな話者を識別するため、オーディオ信号波形の表示をサンプルし、解析する（１０２）。話者が、話者識別モジュール２０が声紋２２の１つと一致できない初めての話者である場合（１０４のＹＥＳ分岐）、話者識別モジュール２０は、新たな話者に対する利得を迅速に調整するため、高速ＡＧＣモジュール２８を適用するようＡＧＣモジュール２６に指示する（１０８）。更に、ＡＧＣモジュール２６は、新たな話者に対する結果の利得に収束するよう、続けて、及び／又は同時に標準ＡＧＣを適用する（１１０）。ＡＧＣモジュール２６は、話者識別モジュール２０にこの結果の利得を提供し、新たな話者に対する声紋と結果の利得を関連付け、声紋２２に関連を格納する（１１２）。
【００３１】
話者識別モジュール２０が、声紋２２の１つと話者を一致できる場合（即ち、話者はオーディオシステム１０により以前に識別されている）（１０４のＮＯ分岐）、話者識別モジュール２０は、声紋２２から読み出し、一致した声紋に対して関連付けられた利得をＡＧＣモジュール２６に提供する。マッピングモジュール３０は、新たな話者に対する利得を迅速に調整するため、関連付けられた利得を適用する（１０６）。オーディオシステム１０は、電気信号１７のオーディオ信号波形に適用される利得により変更されたオーディオ信号波形を含む変更された電気信号１８を継続して出力する（１１４）。マッピングモジュール３０は、上記技術の適用において、更なる新たな話者が検出されると、新たな話者に対する関連を適用し続けることができる。
【００３２】
この動作の幾つかの態様において、話者識別モジュール２０は、声紋２２の１つに対する入力オーディオ信号波形の確率を決定する。話者識別モジュール２０内の設定可能又は事前プログラムされたしきい値確率は、一致する声紋に対する識別を規定する。即ち、想定される一致する声紋の確率がしきい値確率を超える場合、話者識別モジュール２０は、一致した声紋に対する関連付けられた利得を適用するようＡＧＣモジュール２６に指示する。そうでなければ、話者識別モジュール２０は、高速ＡＧＣモジュール２８を適用するようＡＧＣモジュール２６に指示する。
【００３３】
図４は、記載の技術に従い、オーディオシステムにより受信されるオーディオストリーム内の新たな話者の登場に応答して、合成された利得を提供するための、オーディオシステム１０の動作のモード例を説明するフローチャートである。オーディオシステム１０は、話者に対するオーディオ信号波形を含む電気信号１７を受信する（１２０）。話者識別モジュール２０は、オーディオ信号波形の表示をサンプルし、波形内で話者に対する一致確率と各々関連付けられた複数の可能な話者を伴う声紋２２とマッチングする（１２２）。例えば、話者識別モジュール２０は、一致確率0.7で第１の話者と一致することができ、更に一致確率0.3で第２の話者と一致することができる。
【００３４】
可能性のある一致する話者は、合成された利得を生成するため、各々の一致確率に基づき、話者識別モジュール２０が合成する各々の利得と声紋２２において関連付けられる。例えば、話者識別モジュール２０は、対応する声紋の一致確率により利得を重み付けし、重み付けされた利得を足し合わせて、合成された利得を生成する。話者識別モジュール２０は、ＡＧＣモジュール２６に合成された利得を提供し、マッピングモジュール３０は、新たな話者に対する利得を迅速に調整するため、関連付けられた利得を適用する（１２６）。オーディオシステム１０は、電気信号１７のオーディオ信号波形に適用された利得により変更されたオーディオ信号波形を含む変更された電気信号１８を継続して出力する（１２８）。
【００３５】
様々な実施例が記載された。これら、及びその他の実施例は、特許請求項の範囲内となる。

【特許請求の範囲】
【請求項１】
第１のオーディオソースを識別するため、オーディオシステムにおけるオーディオ信号を処理するステップと、
前記オーディオシステムが、前記第１のオーディオソースと利得との間の関連を格納しているかどうかを決定するステップと、
前記オーディオシステムが、前記第１のオーディオソースと前記利得との間の前記関連を格納していない場合、アタック率又はディケイ率の少なくとも１つを増加させるため、前記オーディオシステムにおける自動利得制御アルゴリズムを変更し、前記第１のオーディオソースに対する前記利得を決定するため、前記オーディオ信号に前記変更された自動利得制御アルゴリズムを適用するステップと、
前記オーディオシステムが、出力オーディオ信号を生成するため、前記オーディオ信号の表示に前記第１のオーディオソースに対する前記利得を適用するステップと、
前記オーディオ信号の前記表示に前記利得を適用した後、前記アタック率又はディケイ率の少なくとも１つを減少させるため、前記オーディオシステムにおける前記自動利得制御アルゴリズムを元に戻すステップと、
前記オーディオシステムが、前記第１のオーディオソースに対する結果の利得を決定するため、前記オーディオ信号の前記表示に前記元に戻された自動利得制御アルゴリズムを適用するステップと、
第１の声紋を前記結果の利得と関連付けるステップと、
前記第１のオーディオソースと前記結果の利得との間の関連として、前記結果の利得と前記第１の声紋の前記関連を記憶媒体に格納するステップと、
前記オーディオシステムから前記出力オーディオ信号を出力するステップと、
を有する方法。
【請求項２】
前記出力オーディオ信号を生成するため、前記オーディオシステムが、前記オーディオ信号の前記表示に前記結果の利得を適用するステップを更に有する、請求項１に記載の方法。
【請求項３】
前記第１のオーディオソースを前記結果の利得と関連付けるステップと、
前記第１のオーディオソースと前記結果の利得との前記関連を記憶媒体に格納するステップと、
を更に有する、請求項１又は２に記載の方法。
【請求項４】
前記オーディオシステムは、前記オーディオ信号で表される１以上のオーディオソースに対する各々の声紋として格納するための各々の声紋パラメータを知るため、前記オーディオ信号の前記表示を処理する、請求項１〜３のいずれか一項に記載の方法。
【請求項５】
前記オーディオシステムが、前記第１のオーディオソースと前記利得との間の前記関連を格納しているとき、前記第１のオーディオソースに対する前記利得を読み出すステップと、
前記オーディオシステムが、前記第１のオーディオソースに対する前記利得を適用するステップと、
を更に有する、請求項１〜４のいずれか一項に記載の方法。
【請求項６】
前記オーディオシステムは、前記第１のオーディオソースと前記利得との間の前記関連を格納し、前記方法は、
前記オーディオシステムが、前記第１のオーディオソースに対する一致する声紋の確率を決定するステップと、
前記確率がしきい値確率と合致しない場合、前記アタック率又はディケイ率の少なくとも１つを増加させるため、前記オーディオシステムにおける前記自動利得制御アルゴリズムを変更し、前記第１のオーディオソースに対する前記利得を決定するため、前記オーディオ信号の前記表示に前記変更された自動利得制御アルゴリズムを適用するステップと、
を更に有する、請求項１〜５のいずれか一項に記載の方法。
【請求項７】
前記オーディオシステムは、前記第１のオーディオソースと前記利得との間の前記関連を格納し、前記方法は、
前記オーディオシステムが、前記第１のオーディオソースに対する一致する声紋の確率を決定するステップと、
前記確率がしきい値確率と合致する場合、前記第１のオーディオソースに対する前記利得を読み出すステップと、
前記オーディオシステムが、前記第１のオーディオソースに対して読み出された前記利得を適用するステップと、
を更に有する、請求項１〜５のいずれか一項に記載の方法。
【請求項８】
前記オーディオシステムが、前記第１のオーディオソースと前記利得との間の前記関連を格納しているとき、前記オーディオシステムが、前記第１のオーディオソースに対する一致する声紋の非ゼロの確率を決定するステップと、
前記オーディオシステムが、第２のオーディオソースに対する一致する声紋の非ゼロの確率を決定するステップと、
前記第１のオーディオソースに対する前記利得、及び前記第２のオーディオソースに対する利得を読み出すステップと、
前記出力オーディ信号を生成するため、前記第１のオーディオソースに対する前記利得と及び前記第２のオーディオソースに対する前記利得の組合せを前記オーディオ信号の前記表示に適用するステップと、
を更に有する、請求項１〜７のいずれか一項に記載の方法。
【請求項９】
前記第１のオーディオソースに対する前記利得を前記第１のオーディオソースに対する前記一致する声紋の前記非ゼロの確率により重み付けし、前記第２のオーディオソースに対する前記利得を前記第２のオーディオソースに対する前記一致する声紋の前記非ゼロの確率により重み付けするステップと、
前記組合せを生成するため、前記第１のオーディオソースに対する前記重み付けされた利得と前記第２のオーディオソースに対する前記重み付けされた利得を加算するステップと、
を更に有する、請求項８に記載の方法。
【請求項１０】
前記オーディオシステムが、前記第１のオーディオソースから前記オーディオ信号を生成するマイクまでの距離の変化を決定するステップと、
前記距離の変化に少なくとも基づいて、利得変更を決定するステップと、
前記第１のオーディオソースに対する前記利得に前記利得変更を適用するステップと、
を更に有する、請求項１〜９のいずれか一項に記載の方法。
【請求項１１】
前記オーディオシステムが、前記第１のオーディオソースと前記利得との間の前記関連を格納しているとき、前記オーディオシステムが、前記第１のオーディオソースに対する新たな利得を計算するため、前記自動利得制御アルゴリズムを適用するステップと、
前記第１のオーディオソースに対する前記利得と前記第１のオーディオソースに対する前記新たな利得との間の差分を決定するステップと、
前記オーディオシステムにより格納され、第２のオーディオソースに関連付けられた利得に前記差分を適用するステップと、
を更に有する、請求項１〜１０のいずれか一項に記載の方法。
【請求項１２】
前記自動利得制御アルゴリズムは、前記自動利得制御アルゴリズムの第１の例であり、前記方法は、
結果の利得を生成するため、前記変更された自動利得制御アルゴリズムを同時に適用すると共に、前記オーディオシステムが、変更されていないアタック率及びディケイ率を持つ前記自動利得制御アルゴリズムの第２の例を、前記オーディオ信号の前記表示に適用するステップと、
前記オーディオシステムが、前記出力オーディオ信号を生成するため、前記結果の利得を前記オーディオ信号の前記表示に適用するステップと、
を更に有する、請求項１〜１１のいずれか一項に記載の方法。
【請求項１３】
第２のオーディオソースを識別するため、前記オーディオシステムにおける前記オーディオ信号の前記表示を処理するステップと、
前記オーディオシステムが、前記第２のオーディオソースと前記第２のオーディオソースに対する利得との間の関連を格納しているかどうかを決定するステップと、
前記オーディオシステムが、前記第２のオーディオソースと前記第２のオーディオソースに対する前記利得との間の前記関連を格納していない場合、前記アタック率又はディケイ率の少なくとも１つを増加させるため、前記オーディオシステムにおける前記自動利得制御アルゴリズムを変更し、前記第２のオーディオソースに対する前記利得を決定するため、前記オーディオ信号の前記表示に前記変更された自動利得制御アルゴリズムを適用するステップと、
前記オーディオシステムが、出力オーディオ信号を生成するため、前記オーディオ信号の前記表示に前記第２のオーディオソースに対する前記利得を適用するステップと、
を更に有する、請求項１〜１２のいずれか一項に記載の方法。
【請求項１４】
第１のオーディオソースを識別するため、オーディオ信号を処理し、オーディオシステムが、前記第１のオーディオソースと利得との間の関連を格納しているかどうかを決定する話者識別モジュールと、
自動利得制御モジュールと、を有し、
前記オーディオシステムが、前記第１のオーディオソースと前記利得との間の前記関連を格納していない場合、前記話者識別モジュールは、アタック率又はディケイ率の少なくとも１つを増加させるため、前記自動利得制御モジュールを変更し、
前記自動利得制御モジュールは、前記第１のオーディオソースに対する前記利得を決定するため、前記オーディオ信号に前記変更された自動利得制御アルゴリズムを適用し、
前記自動利得制御モジュールは、出力オーディオ信号を生成するため、前記オーディオ信号の表示に前記第１のオーディオソースに対する前記利得を適用し、
前記オーディオ信号の前記表示に前記利得を適用した後、前記自動利得制御モジュールは、前記アタック率又はディケイ率の少なくとも１つを減少させるため、前記オーディオシステムにおける前記自動利得制御アルゴリズムを元に戻し、
前記自動利得制御モジュールは、前記第１のオーディオソースに対する結果の利得を決定するため、前記オーディオ信号の前記表示に前記元に戻された自動利得制御アルゴリズムを適用し、
前記話者識別モジュールは、第１の声紋を前記結果の利得と関連付け、
前記話者識別モジュールは、前記第１のオーディオソースと前記結果の利得との間の前記関連として、前記結果の利得と前記第１の声紋の前記関連を記憶媒体に格納し、
前記オーディオシステムは前記出力オーディオ信号を出力する、オーディオシステム。
【請求項１５】
第１のオーディオソースを識別するため、オーディオシステムにおけるオーディオ信号を処理するステップと、
前記オーディオシステムが、前記第１のオーディオソースと利得との間の関連を格納しているかどうかを決定するステップと、
前記オーディオシステムが、前記第１のオーディオソースと前記利得との間の前記関連を格納していない場合、アタック率又はディケイ率の少なくとも１つを増加させるため、前記オーディオシステムにおける自動利得制御アルゴリズムを変更し、前記第１のオーディオソースに対する前記利得を決定するため、前記オーディオ信号に前記変更された自動利得制御アルゴリズムを適用するステップと、
前記オーディオシステムが、出力オーディオ信号を生成するため、前記オーディオ信号の表示に前記第１のオーディオソースに対する前記利得を適用するステップと、
前記オーディオ信号の前記表示に前記利得を適用した後、前記アタック率又はディケイ率の少なくとも１つを減少させるため、前記オーディオシステムにおける前記自動利得制御アルゴリズムを元に戻すステップと、
前記オーディオシステムが、前記第１のオーディオソースに対する結果の利得を決定するため、前記オーディオ信号の前記表示に前記元に戻された自動利得制御アルゴリズムを適用するステップと、
第１の声紋を前記結果の利得と関連付けるステップと、
前記第１のオーディオソースと前記結果の利得との間の関連として、前記結果の利得と前記第１の声紋の前記関連を記憶媒体に格納するステップと、
前記オーディオシステムから前記出力オーディオ信号を出力するステップと、
を有する処理をコンピュータに実行させる命令を記録したコンピュータ読取り可能記憶装置。

【図１】