説明

音声ミキシング装置及びプログラム

【課題】背景ノイズの多い環境で音声会議を使用する際に、全ての発話者の音声を聞き取ることができる音声ミキシング装置を提供することを目的とする。
【解決手段】この目的を達成するために本発明の音声ミキシング装置は、外部からの複数の音声情報の受信を行なう音声情報受信手段と、音声情報受信手段の音声情報毎の出力に有音先頭部分の有無を検出する有音先頭部分有無検出手段と、音声情報受信手段の音声情報毎の出力の中で有音閾値以上の音声の数を検出する音声数検出手段と、音声数検出手段の出力が有効音声数閾値未満の場合であって有音先頭部分有無検出手段の出力の中で有音先頭部分が有る旨を示す音声情報の音量のみを上げ他の音声情報の音量を上げないゲイン制御手段と、ゲイン制御手段の音声情報毎の出力を加算する音声情報合成手段と、音声情報合成手段の出力を外部に送信する音声情報送信手段とを備えた構成を有している。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の音声情報が入力される音声通話システムに使用される音声ミキシング装置に関し、特に背景ノイズの多い飛行機内で客室乗務員等が各担当持場に居ながらマイクとスピーカから成るハンドセットを用いて会議を行なう場合の音声統括サーバ内の音声ミキシング装置に関する。
【背景技術】
【0002】
以下に従来の音声ミキシング装置について説明する。
【0003】
従来、音声ミキシング装置は特許文献1に記載されたものが知られている。図9は特許文献1に記載された音声ミキシング装置の構成を示すブロック図である。図9において、1〜3は音声情報送受信部で4〜6は信号レベル検出部、7は優先選択部、8は制御部、9は音声情報合成部である。
【0004】
以上のように構成された従来の音声ミキシング装置について、以下その動作について説明する。まず、ネットワークを介した音声情報は音声情報送受信部1〜3で受信され、信号レベル検出部4〜6及び優先選択部9へ伝達される。5地点以上の会議室からの音声を無条件に合成した場合、各会議室からのエコーが重畳され、合成された音声が聞きとりにくくなる問題があり、運用上・技術上から4地点程度までの合成が限度であることから、信号レベル検出部4〜6から音声の有無及び音声の有音部分を認識した時刻を受信した制御部8は、音声の有音部分が検出された回線数が予め設定されたN(Nは正の整数)回線より少ないかどうかをチェックし、少ない場合には優先選択部9を制御し、音声の有音部分が検出された回線のみを音声情報合成部7に接続する。また、多い場合にはこれら回線で音声の有音部分が認識された時刻を時系列的にチェックし、音声の発生した順序に従い早いものからN回線を選択し、優先選択部9を制御し、選択されたN回線を音声情報合成部7へ接続する。
【特許文献1】特開平4−84553号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら上記の従来の構成では、有音部分が認識された時刻を時系列的にチェックし、音声の発生した順序に従い早いものから選択するので、場合によっては重要な発言をしている人の音声を破棄してしまうという問題点があった。
【0006】
また、背景ノイズが多い場合は聞き取りにくいという問題点があった。
【0007】
本発明は上記従来の問題点を解決するもので、背景ノイズの多い環境で音声会議を使用する際に、全ての発話者の音声を聞き取ることができる音声ミキシング装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
この目的を達成するために本発明の音声ミキシング装置は、外部からの複数の音声情報の受信を行なう音声情報受信手段と、前記音声情報受信手段の音声情報毎の出力に有音先頭部分の有無を検出する有音先頭部分有無検出手段と、前記有音先頭部分有無検出手段の出力の中で有音先頭部分が有る旨を示す音声情報の音量のみを上げ他の音声情報の音量を上げないゲイン制御手段と、前記ゲイン制御手段の音声情報毎の出力を加算する音声情報合成手段と、前記音声情報合成手段の出力を外部に送信する音声情報送信手段と、を備えた構成を有している。
【0009】
また、前記音声情報受信手段の音声情報毎の出力の中で有音閾値以上の音声の数を検出する音声数検出手段を更に有し、ゲイン制御手段は、前記音声数検出手段の出力が有効音声数閾値未満の場合であって前記有音先頭部分有無検出手段の出力の中で有音先頭部分が有る旨を示す音声情報の音量のみを上げ他の音声情報の音量を上げない構成を有している。
【発明の効果】
【0010】
以上のように本発明は、背景ノイズの多い環境で音声会議を使用する際に、全ての発話者の音声を聞き取ることができるという優れた効果が得られる。
【発明を実施するための最良の形態】
【0011】
以下、本発明の実施の形態について、図を用いて説明する。
(実施の形態1)
図1は本発明の実施の形態1における音声ミキシング装置の構成を示すブロック図である。入力音声数が少ない場合には、背景ノイズが多い場合であっても会話の有音先頭部分のゲインを上げると聞き取り易い。しかし、入力音声数が多い場合には、会話の先頭音のゲインを上げると、会話の途中から参加する話者の音声が、継続中の会話の障害になり聞き取り難い。そこで、以下の構成を有する。100はハンドセット等の音声端末との間で音声情報を伝達するネットワーク、101〜102はネットワーク100との間で音声情報を送受信する第1の音声情報送受信部〜第M(Mは正整数)の音声情報送受信部、103〜104は第1の音声情報送受信部101〜第Mの音声情報送受信部102の受信出力から有音閾値120以上の音声レベル(以下、「有音レベル」という)の有無を検出する第1の信号レベル検出部〜第Mの信号レベル検出部、105〜106は第1の信号レベル検出部103〜第Mの信号レベル検出部104の出力において有音閾値120以上の音声レベルを有する先頭部分である有音先頭部分の有無検出を行なう第1の有音先頭部分有無検出部〜第Mの有音先頭部分有無検出部、121は第1の信号レベル検出部103〜第Mの信号レベル検出部104の出力の中で有音閾値120以上の音声の数(以下、「有効音声数」という)を検出する音声数検出部、123は有効音声数が有効音声数閾値122未満か否かを判断するゲイン変更判断部、107〜108は第1の有音先頭部分有無検出部105〜第Mの有音先頭部分有無検出部106の出力についてゲイン変更判断部123の出力がゲート信号として制御する第1のゲート部〜第Mのゲート部、109〜110は第1の音声情報送受信部101〜第Mの音声情報送受信部102の受信出力を第1のゲート部107〜第Mのゲート部108の出力に基いてゲイン制御する第1のゲイン制御部〜第Mのゲイン制御部、124は第1のゲイン制御部109〜第Mのゲイン制御部110の出力を加算する音声情報合成部である。音声情報合成部124の出力は第1の音声情報送受信部101〜第Mの音声情報送受信部102に供給されネットワーク100を介して音声端末に送られる。
【0012】
次に本発明の実施の形態1における音声ミキシング装置の動作について図2〜8を用いて説明する。図2は本発明の実施の形態1における第m(mは1〜Mの中の任意の整数)の信号レベル検出部の出力の模式図である。第1の信号レベル検出部103〜第Mの信号レベル検出部104の一構成要素である第mの信号レベル検出部では、まず時刻t(n)における有音部分の信号レベルであるアナログ有音レベル(V(n)(m))を算出し、次にアナログ有音レベルと有音閾値120との大小比較を行い2値化有音レベル(BV(n)(m))(有音閾値以上の場合は1、有音閾値未満の場合は0)を算出し出力する。ここで無音、無声音の場合はレベルの値は0となる。
【0013】
図3は本発明の実施の形態1における第mの有音先頭部分有無検出部の出力の模式図である。第1の有音先頭部分有無検出部105〜第Mの有音先頭部分有無検出部106の一構成要素である第mの有音先頭部分有無検出部では第mの信号レベル検出部の出力から有音先頭部分の有無検出を行なう。有音先頭部分の有無検出の仕方としては例えば、現時刻での値BV(n)(m)−前時刻での値BV(n−1)(m)が1の場合にのみ有音先頭部分を検出したとすることができ、0または−1の場合は有音先頭部分を検出しなかったとすることができる。有音先頭部分を検出した場合はゲインアップ、そうでない場合はゲイン不変とする信号を出力する。
【0014】
図4は本発明の実施の形態1における音声数検出部121の出力の模式図である。音声数検出部121では、第1の信号レベル検出部103〜第Mの信号レベル検出部104の各出力である2値化有音レベルBV(n)(m)の値を加算した値を有効音声数として検出する。時刻t(n)における有効音声数をVP(n)で表す。
【0015】
図5は本発明の実施の形態1におけるゲイン変更判断部の出力の模式図である。ゲイン変更判断部123では、有効音声数が有効音声数閾値122未満か否かを大小比較により判断する。有効音声数が有効音声数閾値以上の場合はゲイン変更OFF、有効音声数閾値未満の場合はゲイン変更ONとして出力する。
【0016】
図6は本発明の実施の形態1における第mのゲート部の出力の模式図である。第1のゲート部107〜第Mのゲート部108の一構成要素である第mのゲート部では、第mの有音先頭部分有無検出部の出力をゲイン変更判断部123の出力により制御する。例えば第mの有音先頭部分有無検出部がゲインアップを示している場合に、ゲイン変更判断部123の出力がゲイン変更ONのときはゲインアップを出力するが、ゲイン変更OFFのときはゲイン不変を出力する。また、第mの有音先頭部分有無検出部がゲイン不変を示している場合には、ゲイン変更判断部123の出力がゲイン変更ONおよびゲイン変更OFFの何れのときもゲイン不変を出力する。第1のゲート部107〜第Mのゲート部108の出力は各々第1のゲイン制御部109〜第Mのゲイン制御部110のゲインを制御する。ゲインアップの場合は音量を上げる。ゲイン不変の場合は音量を変更しない。
【0017】
図7は本発明の実施の形態1における音声ミキシング装置のゲイン制御のフローチャートである。S701では、ネットワーク100を介した音声情報は第1の音声情報送受信部101〜第Mの音声情報送受信部102で受信され時刻t(n)における第1の音声情報〜第Mの音声情報が入力される。S702では、第1のゲイン制御部109〜第Mのゲイン制御部110全てのゲインをリセットする。S703では、第1の信号レベル検出部103〜第Mの信号レベル検出部104において各々が対応する第1の音声情報送受信部101〜第Mの音声情報送受信部102の出力の有音レベルを検出する。S704では、第1の有音先頭部分有無検出部105〜第Mの有音先頭部分有無検出部106において各々が対応する第1の信号レベル検出部103〜第Mの信号レベル検出部104の出力から有音先頭部分の有無検出を行なう。S705では、音声数検出部121において有効音声数を検出する。S706では、ゲイン変更判断部123において有効音声数が有効音声数閾値未満か否かを判断する。有効音声数閾値以上の場合はS707に進み、有効音声数閾値未満の場合はS708に進む。S707では、第1のゲイン制御部109〜第Mのゲイン制御部110についてゲイン不変とする。S708では、有音先頭部分有りを検出した該当するゲイン制御部についてのみゲインアップし他のゲイン制御部についてゲイン不変とする。S709では、第1のゲイン制御部109〜第Mのゲイン制御部110の出力を音声情報合成部124に入力し音声情報合成する。音声情報合成部124の出力は第1の音声情報送受信部101〜第Mの音声情報送受信部102に入力され、ネットワーク100を介して各発話者に送られる。S710では、時刻t(n)における処理を終了し時刻t(n+1)における処理のために待機する。
【0018】
図8は本発明の実施の形態1における音声ミキシング装置の動作説明のための音声の状態図である。話者A〜Eが会話に参加しており、図示のタイミングで会話がなされているとする。有効音声数閾値=3とする。時刻t(a)で話者Bの有音先頭部分が検出された際、有効音声数を算出する。話者Aが発話中であるので、Bを含めた有効音声数は2となる。有効音声数閾値と有効音声数を比較し、閾値未満となるため、話者Bの音声パケットはゲインアップされ、音声情報合成される。時刻t(b)で話者Eの有音先頭部分が検出された場合は、AとBが発話中であるので、有効音声数は3となる。有効音声数閾値以上となり話者Eの音声パケットはゲイン不変のまま音声情報合成される。時刻t(c)でも同様で、有効音声数は3となる。有効音声数閾値以上となり話者Aの音声パケットはゲイン不変のまま音声情報合成される。時刻t(d)で話者Dの有音先頭部分が検出された場合は、有効音声数が2なので話者Dの音声パケットはゲインアップされ音声情報合成される。
【0019】
以上のように本実施の形態1によれば、背景ノイズの多い環境で少人数で音声会議を使用する際には、聞き取りにくいとされる会話の先頭音のゲインアップを行うので聞き返しなどが少なくなり、効率よく会話を進めることができる。一方、多人数で音声会議を使用する際には割り込み音声の会話の先頭音のゲインアップを停止するため、会話の途中から参加する話者の音声が、継続中の会話の障害とならない。これにより、ユーザは音量調整など会議の妨げとなる操作をすることなく音声会議を使用することができる。
【0020】
尚、以上の説明ではM個の音声情報送受信部、信号レベル検出部、有音先頭部分有無検出部、ゲート部、ゲイン制御部を前提とした。しかし、時分割処理を行う場合は各々について1個備えればよい。
【0021】
また、上記説明した手段を機能させるためのプログラムを用いてソフトウェア処理とすることも可能である。
【0022】
さらに、以上の説明では第1の信号レベル検出部103〜第Mの信号レベル検出部104の入力を第1の音声情報送受信部101〜第Mの音声情報送受信部102からの受信入力としたが、第1の信号レベル検出部103〜第Mの信号レベル検出部104への入力は、第1の音声情報送受信部101〜第Mの音声情報送受信部102からの受信入力にAGCを介して参加者の音量レベルを調整したものとしてもよい。この場合はAGCにより、マイクと話者との距離が異なることなどが原因となる参加者の音量レベルの差異を取り除くことにより、より快適な通話環境となる。
(実施の形態2)
実施の形態1においては参加人数の多少に拘わらず適用できる音声ミキシング装置について説明した。しかし、参加人数が有効音声数未満であることが定まっている場合は有効音声数の大小を考慮する必要がないため以下の様にすることができる。
【0023】
図9は本発明の実施の形態2における音声ミキシング装置の構成を示すブロック図である。図1と比較して省くことができる手段及び信号は、音声数検出部121、ゲイン変更判断部123、第1のゲート部107〜第Mのゲート部108及び有効音声数閾値122である。この場合は第1の有音先頭部分有無検出部105〜第Mの有音先頭部分有無検出部106の出力が有音先頭部分を検出した場合はゲインアップ、そうでない場合はゲイン不変とする信号が第1のゲイン制御部109〜第Mのゲイン制御部110に直接供給される。
【0024】
図10は本発明の実施の形態2における音声ミキシング装置のゲイン制御のフローチャートである。図7と比較して省くことができるステップは、音声数検出部121において有効音声数を検出すること(S705)、ゲイン変更判断部123において有効音声数が有効音声数閾値未満か否かを判断すること(S706)、第1のゲイン制御部109〜第Mのゲイン制御部110の全てについてゲイン不変とすること(S707)である。
【0025】
以上のように本実施の形態2によれば、実施の形態1に比較して多人数で音声会議を使用する際に必要な手段等を省くことができ、これにより、ユーザは音量調整など会議の妨げとなる操作をすることなく音声会議を経済的に使用することができる。
【0026】
尚、以上の説明ではM個の音声情報送受信部、信号レベル検出部、有音先頭部分有無検出部、ゲイン制御部を前提とした。しかし、時分割処理を行う場合は各々について1個備えればよい。
【0027】
また、上記説明した手段を機能させるためのプログラムを用いてソフトウェア処理とすることも可能である。
【産業上の利用可能性】
【0028】
本発明の音声ミキシング装置は、適切な音量ですべての発話者の音声を聞き取ることができるという優れた効果を有しているため、飛行機など背景ノイズが高い機中などにおけるインターコミュニケーションシステム等において有用である。
【図面の簡単な説明】
【0029】
【図1】本発明の実施の形態1における音声ミキシング装置の構成を示すブロック図
【図2】本発明の実施の形態1における第mの信号レベル検出部の出力の模式図
【図3】本発明の実施の形態1における第mの有音先頭部分有無検出部の出力の模式図
【図4】本発明の実施の形態1における音声数検出部の出力の模式図
【図5】本発明の実施の形態1におけるゲイン変更判断部の出力の模式図
【図6】本発明の実施の形態1における第mのゲート部の出力の模式図
【図7】本発明の実施の形態1における音声ミキシング装置のゲイン制御のフローチャート
【図8】本発明の実施の形態1における音声ミキシング装置の動作説明のための音声の状態図
【図9】本発明の実施の形態2における音声ミキシング装置の構成を示すブロック図
【図10】本発明の実施の形態2における音声ミキシング装置のゲイン制御のフローチャート
【図11】従来の音声ミキシング装置の構成を示すブロック図
【符号の説明】
【0030】
100 ネットワーク
101〜102 第1〜第Mの音声情報送受信部
103〜104 第1〜第Mの信号レベル検出部
105〜106 第1〜第Mの有音先頭部分有無検出部
107〜108 第1〜第Mのゲート部
109〜110 第1〜第Mのゲイン制御部
120 有音閾値
121 音声数検出部
122 有効音声数閾値
123 ゲイン変更判断部
124 音声情報合成部

【特許請求の範囲】
【請求項1】
外部からの複数の音声情報の受信を行なう音声情報受信手段と、
前記音声情報受信手段の音声情報毎の出力に有音先頭部分の有無を検出する有音先頭部分有無検出手段と、
前記有音先頭部分有無検出手段の出力の中で有音先頭部分が有る旨を示す音声情報の音量のみを上げ他の音声情報の音量を上げないゲイン制御手段と、
前記ゲイン制御手段の音声情報毎の出力を加算する音声情報合成手段と、
前記音声情報合成手段の出力を外部に送信する音声情報送信手段と、
を有する音声ミキシング装置。
【請求項2】
前記音声情報受信手段の音声情報毎の出力の中で有音閾値以上の音声の数を検出する音声数検出手段を更に有し、
ゲイン制御手段は、前記音声数検出手段の出力が有効音声数閾値未満の場合であって前記有音先頭部分有無検出手段の出力の中で有音先頭部分が有る旨を示す音声情報の音量のみを上げ他の音声情報の音量を上げないことを特徴とする請求項1に記載の音声ミキシング装置。
【請求項3】
コンピュータを、
外部からの複数の音声情報の受信を行なう音声情報受信手段と、
前記音声情報受信手段の音声情報毎の出力に有音先頭部分の有無を検出する有音先頭部分有無検出手段と、
前記有音先頭部分有無検出手段の出力の中で有音先頭部分が有る旨を示す音声情報の音量のみを上げ他の音声情報の音量を上げないゲイン制御手段と、
前記ゲイン制御手段の音声情報毎の出力を加算する音声情報合成手段と、
前記音声情報合成手段の出力を外部に送信する音声情報送信手段として機能させるためのプログラム。
【請求項4】
前記音声情報受信手段の音声情報毎の出力の中で有音閾値以上の音声の数を検出する音声数検出手段を更に有し、
ゲイン制御手段は、前記音声数検出手段の出力が有効音声数閾値未満の場合であって前記有音先頭部分有無検出手段の出力の中で有音先頭部分が有る旨を示す音声情報の音量のみを上げ他の音声情報の音量を上げないことを特徴とする請求項3に記載のプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate