説明

TV会議装置

【課題】遠隔会議において、音声品質のリアルタイムでの確認を実現するTV会議装置を提供すること。
【解決手段】TV会議装置は、音声の明瞭度スコアを算出する音声分析装置と、画面に表示する映像信号に、音声の明瞭度スコアを可視化して合成する映像生成装置とを有し、求められた音声の明瞭度スコアを可視化して画面の一部に可視化して常時表示させることにより、相手側に伝えられる音声情報の品質を会議中リアルタイムでモニタリングする機能を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、TV会議システムにおける音声品質の技術に関する。
【背景技術】
【0002】
自分側の発話者の音声を収録するためのマイク、および相手側の音声を再生するためのスピーカをそれぞれ用意し、ネットワーク回線を通して互いの音声をやりとりすることで遠隔地間での会議を可能にする電話会議やテレビ会議用の音声入出力装置では、マイクに入力される会議開催場所における様々な雑音の影響を低減するためのノイズサプレッサー(NS)や、スピーカから再生された相手側の音声が自分側のマイクを経て再度相手側にフィードバックされてしまうことで発生する音響エコーを除去するための音響エコーキャンセラー(AEC)などの音響処理技術を利用することで明瞭性の高い音声通信を行う方法が既に知られている。
ここで、ノイズサブレッサーとは、「周波数帯域での時間変化が少ない定常的なノイズ(空調の音や周辺機器のファン音など)に対して、その帯域の音量を絞り込んで聴感上目立たなくするためのエフェクター」である。
【0003】
また、マイクから収録された音声データは、音声コーデックによって一旦エンコードしてデータ量を削減した後で相手側に送信し、相手側の装置でデコードして再生するという一連の処理を行うことによって、通信回線に流れるデータ量を削減し、安定した通信を実現する方法も既に知られている。
【0004】
特許文献1には、テレビ会議システムにケーブルで接続される様々な周辺機器の煩雑さを解消する目的で、音声入出力機能を本体に内蔵し、収録される音声品質を向上させるためにマイクのみを本体からケーブルにて引き出し可能にする機器の構成が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、今までのTV会議装置では、自分側の音声が最終的に相手側にどのような品質で伝わっているかを簡単に確認することができないという問題があった。
テレビ会議での映像品質と音声品質について、それぞれの確認手段について考えてみる。
【0006】
映像の場合、相手にクリアな情報を伝えるためには、参加者の配置とカメラの位置や向きを適切に設定して、参加者全員がカメラの画角内に完全に納まるよう、事前に調整を行う必要がある。こうした調整を行うためには、相手側の映像が表示されているモニタやスクリーンの一部に自分の側のカメラ映像を表示させておけば良く、これによってリアルタイムで映り具合を確認することができる。従って、もしも不具合があれば、会議の開始前にその映像を確認しながらカメラの位置や向き、会議出席者の配置などを調節することが可能である。
【0007】
一方、音声の場合は、騒音源や参加者とマイクの位置関係やスピーカとマイクの位置関係によって収録される発話者の音声のレベルやNS処理、AEC処理の効果などが大きく左右されるため、クリアで明瞭な音声を伝えるためにはそれらの配置を適切に調整する必要がある。特に小型で携帯性に優れたポータブルなTV会議システムを考えた場合には、会議開催場所の形状や音響特性、参加者の人数や座席配置などが毎回変化するため、このような調整をその都度実施する必要がある。
【0008】
しかし、音声の場合、映像のように収録されたデータの品質を手軽に確認するための手段がないため、実際には会議中に相手側から音声品質の不具合を指摘されてはじめて気づき、その時点で(一時的に会議を中断して)調整が行われる場合が多い。これによって円滑な会議の進行が妨げられるという問題があった。
【0009】
こうした問題を解決する手段として、音声入出力装置内に音声データを蓄積可能な保存装置を設け、ユーザーの要求に応じて保存装置内に保存された音声を自分の側のスピーカから再生することで、相手側で再生されるであろう音声の品質を事前に確認する方法も考えられる。しかしこの方法でも、ユーザーが品質確認のための操作を明示的に行う必要があり、品質確認中はたとえ会議中であったとしてもスピーカから再生される音声は自分側で録音された音声となるため、実際にその確認を会議中に行うことは円滑な会議を妨げてしまうおそれがある。従ってこの方法での音声品質確認は会議の開始前に行うことになり、映像品質のように会議中にリアルタイムで確認することが難しいという問題が残っていた。
【0010】
上記の特許文献1でも、ポータブルな遠隔会議システムにおいて、マイクやスピーカの設置を柔軟にして音質の向上を図っているに過ぎなく、上記の設置状況が本当に適切なものであるかを自ら判断する手段が無いという問題は解消できていない。
【0011】
本発明の目的は、遠隔会議において、音声品質のリアルタイムでの確認を実現するTV会議装置を提供することにある。
【課題を解決するための手段】
【0012】
請求項1に記載の発明は、情報入出力デバイスと、相手側から受け取った圧縮データをデコードするデコーダと、相手側に送る圧縮データ作成するエンコーダと、音声のデジタルデータをアナログ信号に変換するD/A変換装置と、マイクから収録された音声のアナログ信号をデジタルデータに変換するA/D変換装置と、音響エコーやノイズを除去するためのエコー/ノイズ除去装置と、音声の明瞭度スコアを算出する音声分析装置と、画面に表示する映像信号に、音声の明瞭度スコアを可視化して合成する映像生成装置とを有し、求められた音声の明瞭度スコアを可視化して画面の一部に可視化して常時表示させることにより、相手側に伝えられる音声情報の品質を会議中リアルタイムでモニタリングする機能を設けたことを特徴とするTV会議装置である。
【0013】
請求項2に記載の発明は、請求項1記載のTV会議装置において、音声の明瞭度の指標として、無音声区間の平均パワーと有音声区間の短時間パワーとの比を元に計算される値を使用することを特徴とする。
【0014】
請求項3に記載の発明は、請求項1または2記載のTV会議装置において、音声の明瞭度スコアの画面表示として、スケールバーによる表示モード、7セグ風の数値表示モード、および、それら両方を用いた表示モードの3通りのうちの少なくとも1つのデザインでの表示を可能にし、ユーザーの好みで切り替えられるようにしたことを特徴とする。
【発明の効果】
【0015】
本発明によれば、自分側で収録された音声の品質を会議中にリアルタイムで簡単にチェックすることができる。
【図面の簡単な説明】
【0016】
【図1】本実施の形態のTV会議装置のブロック図である。
【図2】音声明瞭度スコアの算出アルゴリズムの一例を示すフローチャートである。
【図3】音声明瞭度スコアの表示例を示す図である。
【発明を実施するための形態】
【0017】
本発明の実施の形態を説明する。
本発明は、TV会議装置に際して、以下の特徴を有する。
要するに、TV会議装置内にマイクから収録された音声データを分析する音声分析装置を設け、自分側のマイクによって収録され、ノイズサプレッサーや音響エコーキャンセラー等の音響処理を施した後のデータに対して、音声の明瞭性の指標となるパラメータを算出し、映像を表示する画面の一部にその指標を可視化して表示することで、自分の側で収録された音声の品質を、ユーザーが会議中に常時リアルタイムにモニタリングすることができる仕組みを実現することが特徴になっている。
【0018】
音声明瞭性の指標となるパラメータとして使用するのは、例えば無音声区間の平均パワーと音声区間の平均パワーの比などが考えられる。これを実現するために、音声分析装置において、まず無音声区間と有音声区間をそれぞれ抽出し、無音声区間の短時間平均パワー(Pn)、および有音声区間の短時間平均パワー(Ps)をそれぞれ計算する。次に(Pn)と(Ps)との比に基づくスコアを求め、これを画面上に可視化表示して会議参加者に提示する。
【0019】
会議参加者は、このスコアに基づいてマイクの位置が適切か否かをリアルタイムでモニタリングすることができ、そのスコアが低い場合にも、「誰が発言した場合にスコアが低いのか」を簡単に知ることができる。従って、(1)その発言者に多少大きな声で話すように促す、(2)その発言者の座席をマイクに近づける、(3)マイクの位置をその発言者の方向に移動する、など、状況に応じた対策を行うことができる。
【0020】
上記記載の本発明の特徴について、以下の図面を用いて詳細に解説する。
【0021】
図1はTV会議装置のブロック図である(特に音声入出力装置の部分を中心に説明したもの。映像信号の処理に関しては一部省略されている要素あり)。
【0022】
TV会議装置は、情報入出力デバイス(マイク、スピーカ、カメラ、画面)と、相手側から受け取った圧縮データをデコードするための「デコーダ」と、相手側に送る圧縮データ作成するための「エンコーダ」と、音声のデジタルデータをアナログ信号に変換する「D/A変換装置」と、マイクから収録された音声のアナログ信号をデジタルデータ(PCM形式)に変換する「A/D変換装置」と、音響エコーやノイズを除去するための「エコー除去/ノイズ除去装置」と、音声の明瞭度スコアを算出する「音声分析装置」と、画面に表示する映像信号に、声の明瞭度スコアを可視化して合成する「映像生成装置」と、を備えて構成されている。
【0023】
図2は、音声明瞭度スコアの算出アルゴリズムの一例を示すフローチャートである。
【0024】
図2を参照すると、まず、S201で、以下の変数を規定する。
フレーム(数十ミリ秒程度)単位で有音と無音を識別するためのスレッショルド値Thを予め定めた値で初期化する(この値は、Pnのβ倍として逐次更新される)。
現在の時刻(フレーム番号)を時刻tとする。
無音声区間の平均パワーをPnとする(この値は、暗騒音などの環境変化に対応できるよう、更新重み係数αを用いて逐次最新の値に更新される)。
有音声区間の短時間パワーをPsとする。
αはPnの更新係数で、0<α≦1の範囲の値である
βはThの更新係数で、Pnに対する倍率を表す値である。
【0025】
次に、S202で、時刻tのフレームに対する短時間パワーPtを求める。
【0026】
PtがTh以上の場合(S203/Yes)はそのフレームを有音声区間、そうでない場合(S203/No)は無音声区間と判断する。
【0027】
無音声区間の場合には、Ptの値を用いてPnを更新する(S204)。
有音声区間の場合には、Ptの値をPsとする(S205)。
【0028】
PsとPnの値から明瞭度スコアSを計算する(S206)。一例として“S=100*(1−Pn/Ps)”という計算式を用いた場合には、Pnに比べてPsの値が大きいほど(明瞭性が高いほど)漸近的に100に近づくようなスコアを得ることができる。
【0029】
図3は音声明瞭度スコアの表示例を示す図である。
【0030】
図3の左側はスケールバーで表示したものであり、また、右側は7セグ風の数字で表示したものである。なお、図には示していないが、両者を併用することも可能である。
【0031】
なお、上述する各実施の形態は、本発明の好適な実施の形態であり、本発明の要旨を逸脱しない範囲内において種々変更実施が可能である。
【先行技術文献】
【特許文献】
【0032】
【特許文献1】特開平9−46670号公報

【特許請求の範囲】
【請求項1】
情報入出力デバイスと、
相手側から受け取った圧縮データをデコードするデコーダと、
相手側に送る圧縮データ作成するエンコーダと、
音声のデジタルデータをアナログ信号に変換するD/A変換装置と、
マイクから収録された音声のアナログ信号をデジタルデータに変換するA/D変換装置と、
音響エコーやノイズを除去するためのエコー/ノイズ除去装置と、
音声の明瞭度スコアを算出する音声分析装置と、
画面に表示する映像信号に、前記音声の明瞭度スコアを可視化して合成する映像生成装置とを有し、
求められた前記音声の明瞭度スコアを可視化して画面の一部に可視化して常時表示させることにより、相手側に伝えられる音声情報の品質を会議中リアルタイムでモニタリングする機能を設けたことを特徴とするTV会議装置。
【請求項2】
前記音声の明瞭度の指標として、無音声区間の平均パワーと有音声区間の短時間パワーとの比を元に計算される値を使用することを特徴とする請求項1記載のTV会議装置。
【請求項3】
前記音声の明瞭度スコアの画面表示として、スケールバーによる表示モード、7セグ風の数値表示モード、および、それら両方を用いた表示モードの3通りのうちの少なくとも1つのデザインでの表示を可能にし、ユーザの好みで切り替えられるようにしたことを特徴とする請求項1または2記載のTV会議装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−134936(P2012−134936A)
【公開日】平成24年7月12日(2012.7.12)
【国際特許分類】
【出願番号】特願2011−84544(P2011−84544)
【出願日】平成23年4月6日(2011.4.6)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】