説明

音声処理装置、音声処理システム及び音声処理プログラム

【課題】同時発話が発生しても、話者毎に発話内容を明確に再生すること。
【解決手段】信号処理部4は、複数の音声データより話者を特定する話者特定部42と、話者特定部42によって少なくとも第1及び第2の話者を特定した場合に、特定された第1及び第2の話者が発話した発話区間を特定し、第1及び第2の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定部43と、を備える。また、信号処理部4は、同時発話区間判定部43で判定された同時発話区間の第1の話者の音声データと第2の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列部45と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば複数の話者が発話する会議室のような環境において収音された音声を処理する場合に適用して好適な音声処理装置、音声処理システム及び音声処理プログラムに関する。
【背景技術】
【0002】
従来、例えば、離れた場所で同時に開催される会議を円滑に進めるため、互いの会議室(第1及び第2の会議室と言う。)に設置されたビデオ会議システムを用いて、話者が相互に発言したり、話者の様子を映し出したりすることが可能なビデオ会議システムが用いられている。このビデオ会議システムは、互いの会議室の様子を映したり、話者の発言内容を放音したりすることが可能な複数の映像/音声処理装置を備える。以下の説明において、映像/音声処理装置は、それぞれ第1及び第2の会議室に設置されているとする。
【0003】
映像/音声処理装置は、会議中の音声を収音するマイクロホンと、話者を撮影するカメラと、マイクロホンで収音した話者の音声に所定の処理を施す信号処理部と、他の会議室で発話する話者の様子を映し出す表示部と、話者の発話内容を放音するスピーカ等を備える。
それぞれの会議室に設置された映像/音声処理装置は、通信回線を介して接続される。そして、記録した映像/音声データを互いに送受信することによって、それぞれの会議室の様子を表示し、発話内容を放音する。以下の説明では、一人の話者が発話することを「単独発話」と称し、同時に複数の話者が発話することを「同時発話」と称する。
【0004】
特許文献1には、マイクロホンに入力した音声が外乱として影響しないように処理する音声処理装置について記載されている。
【特許文献1】特開2004−109779号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
ところで、第1の会議室に集まった複数の話者の発話内容を収音するため、複数のマイクロホンを設置する場合がある。このとき、同時発話が生じると、1本のマイクロホンが収音した音声に複数の話者の発話内容が含まれることがある。そして、複数のマイクロホンが収音した音声は、映像/音声処理装置が備える信号処理部で混合されて混合音声とされた後、第2の会議室に設置された映像/音声処理装置に送信される。
【0006】
第2の会議室に設置された映像/音声処理装置は、受信した混合音声を再生する。しかし、再生された音声は同時発話の状態であるため、第2の会議室に集まった話者は、第1の会議室で発話する話者が誰なのか分からなくなることがあった。また、同時発話が発生すると、発話内容が聞き取りづらくなっていた。
【0007】
従来、同時発話の課題を解決するため、第1の会議室に設置された映像/音声処理装置は、発話内容をステレオで収音することで、第2の会議室に設置された映像/音声処理装置は、ステレオ再生していた。ステレオ再生を行うと、同時発話であっても音像定位が明確になり、話者の位置関係がつかみやすい。このため、第2の会議室に集まった話者は、発話内容を聞き取りやすくなる。しかし、同時発話は、同じ時間に、異なる話者が異なる内容を発話する状態であるため、再生時の発話内容は聞き取りにくかった。
【0008】
本発明はこのような状況に鑑みて成されたものであり、同時発話が発生しても、話者毎の発話内容を明確に再生することを目的とする。
【課題を解決するための手段】
【0009】
本発明は、複数のマイクロホンによって収音された音声データを処理する場合に、
複数の音声データより話者を特定する。そして、少なくとも第1及び第2の話者を特定した場合に、特定された第1及び第2の話者が発話した発話区間を特定し、第1及び第2の話者が同時に発話した区間を同時発話区間として判定する。そして、判定された同時発話区間の第1の話者の音声データと第2の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる。
【0010】
このようにしたことで、複数の話者が同じ時間に同時に発話した場合であっても、それぞれの話者の音声が、時間的に異なるタイミングで出力されるようになり、それぞれの話者の音声を明確に再生できる。
【発明の効果】
【0011】
本発明によれば、複数の話者が同じ時間に同時に発話した場合であっても、話者毎の音声を明確に再生できる。例えば、遠隔地間での会議を行う場合に、一方の会議室で同時発話が生じても、他の会議室では、単独発話として再生される。このため、同時発話が生じていても、話者は話者毎の発話内容を聞き取りやすくなるという効果がある。
【発明を実施するための最良の形態】
【0012】
以下、本発明の一実施の形態例について、添付図面を参照して説明する。本実施の形態例では、映像データと音声データの処理を行う映像/音声処理システムとして、遠隔地間で映像データと音声データをリアルタイムで送受信可能なビデオ会議システム10に適用した例として説明する。
【0013】
図1は、ビデオ会議システム10の構成例を示すブロック図である。
互いに離れた場所に位置する第1及び第2の会議室には、映像データと音声データを処理することが可能な映像/音声処理装置1,21が設置される。映像/音声処理装置1,21は、イーサネット(登録商標)等からなるディジタルデータを通信可能なディジタル通信回線9によって互いに接続される。そして、映像/音声処理装置1,21は、通信回線9を介して、データの伝送タイミング等を制御する制御装置31によって集中制御される。
【0014】
以下、映像/音声処理装置1の内部構成例について説明する。ただし、映像/音声処理装置21は、映像/音声処理装置1とほぼ同じ構成であるため、映像/音声処理装置21の内部ブロックの記載と、詳細な説明は省略する。
【0015】
映像/音声処理装置1は、話者が発話する音声を収音してアナログ音声データを生成するマイクロホン2a,2bと、マイクロホン2a,2bから供給されるアナログ音声データを、アンプ(不図示)で増幅し、ディジタル音声データに変換するアナログ/ディジタル(A/D:Analog/Digital)変換部3a,3bと、アナログ/ディジタル(A/D:Analog/Digital)変換部3a,3bから供給されるディジタル音声データに所定の処理を施す音声用の信号処理部4と、を備える。
【0016】
マイクロホン2a,2bは、話者の音声を一人ずつ収音できるように配置する。この配置は、隣り合うマイクロホンの間隔を空けたり、指向性マイクロホンを用いたりすることで実現できる。マイクロホン2a,2bは、第1の会議室に参加する話者が発話する音声を収音するとともに、スピーカ7から放音される音声も空間を介して重畳して収音できる。マイクロホン2a,2bから供給されるアナログ音声データは、アナログ/ディジタル変換部3a,3bによって、例えば48kHzサンプリング16ビットPCM(Pulse-Code Modulation)のディジタル音声データに変換される。変換されたディジタル音声データは、信号処理部4に1サンプルずつ供給される。
【0017】
信号処理部4は、ディジタル・シグナル・プロセッサ(DSP:Digital Signal Processor)で構成される。信号処理部4が行う処理の詳細は、後述する。
【0018】
また、映像/音声処理装置1は、信号処理部4から供給されるディジタル音声データをビデオ会議システム10の通信で標準的に定められている符号に符号化する音声コーデック部5を備える。音声コーデック部5は、通信インタフェースである通信部8を介して映像/音声処理装置21から受け取る符号化されたディジタル音声データをデコードする機能も有する。また、映像/音声処理装置1は、音声コーデック部5から供給されるディジタル音声データをアナログ音声データに変換するディジタル/アナログ(D/A:Digital/Analog)変換部6と、ディジタル/アナログ変換部6から供給されるアナログ音声データをアンプ(不図示)で増幅し、放音するスピーカ7と、を備える。
【0019】
また、映像/音声処理装置1は、話者を撮影して、アナログ映像データを生成するカメラ11と、カメラ11から供給されるアナログ映像データをディジタル映像データに変換するアナログ/ディジタル変換部14と、を備える。アナログ/ディジタル変換部14で変換されたディジタル映像データは、映像用の信号処理部4aに供給されて、所定の処理が施される。
【0020】
また、映像/音声処理装置1は、信号処理部4aで所定の処理が施されたディジタル映像データを符号化する映像コーデック部15と、映像コーデック部15から供給されるディジタル映像データをアナログ映像データに変換するディジタル/アナログ変換部16と、ディジタル/アナログ変換部16から供給されるアナログ映像データをアンプ(不図示)で増幅し、映像を表示する表示部17と、を備える。
【0021】
通信部8は、相手側機器である映像/音声処理装置21と制御装置31に対して、ディジタル映像/音声データの通信を制御する。通信部8は、音声コーデック部5で所定の符号化方式(例えば、MPEG(Moving Picture Experts Group)−4 AAC(Advanced Audio Coding)方式、G.728方式)に符号化されたディジタル音声データと、映像コーデック部15で所定の方式に符号化されたディジタル映像データを所定のプロトコルでパケットに分割する。そして、通信回線9を介して映像/音声処理装置21に伝送する。
【0022】
また、映像/音声処理装置1は、音声処理装置21からディジタル映像/音声データのパケットを受け取る。通信部8は、受け取ったパケットを組立て、音声コーデック部5と映像コーデック部15でデコードする。デコードされたディジタル音声データは、信号処理部4で所定の処理が施された後、D/A変換部6を介して、アンプ(不図示)で増幅され、スピーカ7で放音される。同様に、デコードされたディジタル映像データは、信号処理部4で所定の処理が施された後、D/A変換部16を介して、アンプ(不図示)で増幅され、表示部17で映像が表示される。
【0023】
表示部17は、画面分割することによって、第1及び第2の会議室に集まっている話者の様子を表示する。このため、第1及び第2の会議室が遠くに離れていても、各話者は、互いの距離を感じることなく、会議を行うことができる。
【0024】
次に、信号処理部4の内部構成例について、図2のブロック図を参照して説明する。ただし、本実施の形態に係る信号処理部4は、ディジタル音声データに対して所定の処理を施すことを特徴とする。このため、ディジタル映像データに対して処理を施す機能ブロックに関する説明は省略する。
【0025】
信号処理部4は、アナログ/ディジタル変換部3a,3bを介して入力されたディジタル音声データに、マイクロホン2a,2bが収音した時間の情報を付与する入力部41を備える。また、信号処理部4は、混合されたディジタル音声データより発話する話者を特定する話者特定部42を備える。また、信号処理部4は、複数の話者が同時に発話する区間を、同時発話区間として判定する同時発話区間判定部43と、同時発話区間に生成されたディジタル音声データを一時的に記憶させる記憶部44と、各ディジタル音声データを再生する順序に整列する整列部45と、を備える。
【0026】
また、信号処理部4は、記憶部44から読み出したディジタル音声データに付与された時間の情報に基づいて、同時発話区間に生成されたディジタル音声データを再生する速度である話速を変換する話速変換部46を備える。また、信号処理部4は、1つのマイクロホンが複数の話者の音声を収音した場合に、話者毎の音声に分離する話者分離部47と、音声レベルが所定の閾値以下である区間を、誰も発話していない状態である無音区間として判定する無音区間判定部48と、を備える。
【0027】
入力部41は、各ディジタル音声データに対して、収音した時間の情報を付与する。そして、複数のマイクロホンで収音した音声から生成されるディジタル音声データを時間毎に重ね合わせる。
【0028】
話者特定部42は、音声レベルが所定の閾値を超えた場合に、各話者を特定する。指向性が高いマイクロホンを用いると、マイクロホンの識別子と話者とが1対1で対応する。このため、話者特定部42は、音声レベルが所定の閾値を超えているマイクロホンの識別子より話者を特定できる。
【0029】
同時発話区間判定部43は、話者特定部42によって少なくとも第1及び第2の話者を特定した場合に、特定された第1及び第2の話者が発話した発話区間を、各ディジタル音声データに付与された時間の情報から特定する。そして、同時発話区間判定部43は、第1及び第2の話者が同時に発話した区間を同時発話区間として判定する。同時発話区間では、複数の話者が同時に発話する状態であるため、誰が発話しているか判定することが重要となる。
【0030】
記憶部44は、複数の記憶領域が論理的に区切られており、同時発話が生じた場合に、話者特定部42で特定された話者毎のディジタル音声データを一時的に記憶する。記憶領域は可変であり、話者の人数や収音時間に応じて増減を設定できる。記憶部44に記憶されるディジタル音声データは、同時発話区間における話者の発話内容を含むデータである。記憶部44のデータ構造は、FIFO(First In First Out:先入れ先出し)キューである。このため、最初に記憶部44に書き込まれたディジタル音声データは、最初に記憶部44から読み出される。本例では、記憶部44がマイクロホン毎に記憶可能なデータ量は、収音時間に換算して20秒分であり、1人分のディジタル音声データを一時的に記憶できる。
【0031】
整列部45は、同時発話区間判定部42で判定された同時発話区間の第1の話者のディジタル音声データと第2の話者のディジタル音声データとを分離し、分離された各話者のディジタル音声データをそれぞれ時間的に異なるタイミングとして出力させる。また、整列部45は、同時発話区間判定部43で判定された同時発話区中のディジタル音声データのうち、第1の話者のディジタル音声データを、ほぼリアルタイム性を維持させて出力させ、第2の話者のディジタル音声データを、音声の時間軸を短くする話速変換を行う。そして、マイクロホンに付与された識別子毎(話者の順)に、第1及び第2の話者のディジタル音声データを並べ替える。並べ替えの優先順位は、例えば、話者が発話した順とする。ここで、始めに第1の話者がマイクロホン2aに発話する途中で、第2の話者がマイクロホン2bに発話した結果、同時発話が生じたと仮定する。この場合、再生時に優先される話者は、第1の話者である。このため、マイクロホン2bが生成したディジタル音声データは、一旦記憶部44に記憶される。そして、整列部45は、音声を再生する際の再生順に従って、マイクロホン2aが生成したディジタル音声データの後に、記憶部44から読み出したマイクロホン2bが生成したディジタル音声データを順に整列する。整列されたディジタル音声データは、音声コーデック部5に供給される。
【0032】
話速変換部46は、記憶部45に一時的に記憶されたディジタル音声データに対して、所定の話速変換処理を施す。話速変換部46が行う話速変換処理には、例えば、PICOLA(Pointer Interval Controlled Overlap and Add)等を用いる。この他、TDHS(Time Domain Harmonic Scaling)等、様々な話速変換処理を行う技術が提案されており、他の公知技術を用いて話速変換処理を行っても構わない。話速変換処理によって、例えば、マイクロホン2a,2bを用いて発話内容を収音する際の収音速度を100%とした場合に、スピーカ7等を用いて再生する際の再生速度を120%に変換できる。
【0033】
話者分離部47は、同時間に混合された複数のディジタル音声データより、話者特定部42で特定された話者に基づいて、複数のマイクロホンに収音されている話者の音声のみを分離できる。無指向性のマイクロホンを用いていたり、マイクロホンの数に対して話者の数が多かったりすることで、1つのディジタル音声データに複数の話者が含まれる場合に、話者分離部47の処理が行われる。話者分離部47で行われる音源分離処理には、例えば、無指向性のマイクロホンを用いて話者を判別する遅延和法、話者を特定する指向性に優れる適応ビームフォーマのようなマイクロホンアレイ処理、複数のマイクロホン間パワーの相関によって話者を識別する独立成分分析等、さまざまな技術が提案されており、どの技術を用いても構わない。
【0034】
無音区間判定部48は、音声レベルが所定の閾値以下である区間を無音区間として判定する。判定された無音区間の情報は、整列部45に供給される。
整列部45は、無音区間判定部48によって判定された無音区間の一部を圧縮する。無音区間の一部を圧縮する際には、整列したディジタル音声データの情報から、該当する無音区間分を特定し、圧縮する。
【0035】
次に、信号処理部4が行う話速変換処理の例について、図3のフローチャートを参照して説明する。
【0036】
始めに、信号処理部4は、マイクロホン2a,2bからアナログ/ディジタル変換部3a,3bを介して入力されるディジタル音声データ(以下、単にマイクロホン入力音声とも称する。)のパワーを計算する(ステップS1)。そして、整列部45は、記憶部44が空であるか否かを判断する(ステップS2)。
【0037】
記憶部44が空である場合、信号処理部4は、マイクロホン入力音声のパワーが閾値以上であるか否かを判断する(ステップS3)。具体的には、マイクロホン入力音声のパワーが閾値以上でない場合、誰も発話していない無音区間であると判断できる。
【0038】
ステップS3の処理で、無音区間が存在すると判断した場合、信号処理部4は、無音区間を含むディジタル音声データを出力データとして、音声コーデック部5に送り(ステップS4)、処理を終了する。
【0039】
ステップS3の処理で、無音区間が存在しないと判断した場合、話者特定部42は、マイクロホン入力音声のパワーが閾値以上となっているマイクロホンが1つであるか否かを判断する(ステップS6)。
【0040】
パワーが閾値以上のマイクロホンが1つである場合、単独発話であるため、そのマイクロホン入力音声を出力データとして、同時発話区間判定部43と整列部45を介して、音声コーデック部5に出力する(ステップS7)。
【0041】
ここで、ステップS2の処理の説明に戻ると、記憶部44が空でないと判断した場合、FIFOキュー構造である記憶部44に最初に入力されたマイクロホン入力音声以外にパワーが閾値以上のマイクロホン入力音声があるか否かを判別する(ステップS5)。
【0042】
ステップS6の処理で、パワーが閾値以上のマイクロホン入力音声が複数ある場合、同時発話区間判定部43は、同時発話が生じていると判断する。そして、ステップS5の処理で、記憶部44にマイクロホン入力音声以外にパワーが閾値以上のマイクロホン入力音声がある場合、同時発話区間判定部43は、同時発話が続いていると判断する。このため、ステップS5,S6の処理後、同時発話区間判定部43は、同時発話区間を判定する。そして、このため、同時発話区間判定部43は、一方のマイクロホン入力音声を整列部45に送り、出力データとして音声コーデック部5に送る(ステップS8)。同時に、同時発話区間判定部43は、他のマイクロホン入力音声を記憶部44に記憶させる(ステップS9)。
【0043】
一方、ステップS5の処理で、記憶部44の先頭のデータに対応するマイクロホン以外にパワーが閾値以上のマイクロホンがないと判断した場合は、話速変換処理を行って、実時間よりも遅くなってしまったタイミングを調整する必要がある。このため、話速変換部46は、記憶部44から読み出したマイクロホン入力音声を話速変換で圧縮し、音声コーデック部5へと送る(ステップS10)。同時に、出力したマイクロホン入力音声を記憶部44から削除する(ステップS11)。
【0044】
次に、信号処理部4を介して出力される再生音声の例について、図4を参照して説明する。
【0045】
図4(a)は、音声ずらし処理を行う際の動作例を示す図である。
マイクロホンが収音した音声のパワーが所定の閾値を超えた場合、話者が発話していると言える。第1の話者が時間t〜tの区間で発話し、第2の話者が時間t〜tの区間で発話する場合、出力音声は、時間t〜tの区間で連続してスピーカ7等から放音される。以下、話者特定部42で特定された、又は話者分離部47で分離された話者毎のディジタル音声データをそれぞれ、第1の話者は第1のディジタル音声データとし、第2の話者は第2のディジタル音声データとして説明する。
【0046】
一方、第1の話者が時間t〜tの区間で発話し、第2の話者が時間t〜tの区間で発話する場合、時間t〜tの区間で同時発話が生じる。本例の信号処理部4では、先に発話した第2の話者の音声(第2のディジタル音声データ)が優先して出力される。そして、時間t〜tの区間における第1のディジタル音声データは、記憶部44に一時的に待避される。そして、第2の話者の発話が終了する(時間t)と、第1のディジタル音声データは、記憶部44から読み出され、時間t〜tの区間の音声が、時間t〜tの区間で再生されるように音声ずらしが行われる。時間t〜tの区間では、話速変換は行われず、通常の話速で出力される。そして、整列部45によって、第1のディジタル音声データの次に、第2のディジタル音声データが再生されるように順に整列される。整列されたディジタル音声データは、順に音声コーデック部5、通信回線9等を介して、第1及び第2の会議室に設置されたスピーカ7から放音される。
【0047】
図4(b)は、話速変換処理を行う際の動作例を示す図である。
図4(c)においても、図4(a)と同様に、第1の話者が時間t〜tの区間で発話し、第2の話者が時間t〜tの区間で発話する場合、出力音声は、時間t〜tの区間で連続してスピーカ7等から放音される。
【0048】
一方、第1の話者が時間t〜tの区間で発話し、第2の話者が時間t〜tの区間で発話する場合、時間t〜tの区間で同時発話が生じる。本例の信号処理部4では、先に発話した第2の話者の音声(第2のディジタル音声データ)が優先して出力される。そして、時間t〜tの区間における第1のディジタル音声データは、記憶部44に一時的に待避される。そして、第2の話者の発話が終了する(時間t)と、第1のディジタル音声データは、記憶部44から読み出され、話速変換部46によって、時間t〜tの区間の音声が、時間t〜tの区間で再生されるように話速変換される。時間t〜tの区間では、話速変換は行われず、通常の話速で出力される。そして、整列部45によって、第1のディジタル音声データの次に、第2のディジタル音声データが再生されるように順に整列される。整列されたディジタル音声データは、順に音声コーデック部5、通信回線9等を介して、第1及び第2の会議室に設置されたスピーカ7から放音される。
【0049】
図4(c)は、話速変換処理と無音区間圧縮処理を行う際の動作例を示す図である。
図4(c)においても、図4(a)と同様に、第1の話者が時間t〜tの区間で発話し、第2の話者が時間t〜tの区間で発話する場合、出力音声は、時間t〜tの区間で連続してスピーカ7等から放音される。
【0050】
一方、第1の話者が時間t〜tの区間で発話し、第2の話者が時間t〜tの区間で発話する場合、時間t〜tの区間で同時発話が生じる。本例の信号処理部4では、先に発話した第2の話者の音声(第2のディジタル音声データ)が優先して出力される。そして、時間t〜tの区間における第1のディジタル音声データは、記憶部44に一時的に待避される。そして、第2の話者の発話が終了する(時間t)と、第1のディジタル音声データは、記憶部44から読み出され、話速変換部46によって、時間t〜tの区間の音声が、時間t〜tの区間で再生されるように話速変換される。そして、第2の話者は、時間tで発話するため、時間t〜tの無音区間を圧縮する。このため、第2の話者が発話する時間t以降の区間では、話速変換は行われず、通常の話速(収音速度と再生速度が等しい)で出力される。
【0051】
以上説明した本実施の形態に係る信号処理部4では、複数のマイクロホン2a,2bで収音したディジタル音声データから話者毎に音声を分離した上で、再生時間をずらして再生することを特徴とする。各マイクロホンは、指向性を有するため、話者毎に音声を収音できる。このため、収音してマイクロホンが生成したディジタル音声データより、同時発話を判定した場合、所定の優先順位をつけて音声毎の再生時の時間をずらすように同時発話区間におけるディジタル音声データを並べ替える音声ずらし処理を行う。音声ずらし処理によって、再生された各音声は、単独発話に近い状態となるため、会議等に参加する話者は明瞭に発話内容を聞き取ることができる。このため、会議等に参加する話者は、従来のように、単純に複数のマイクロホンから入力された音声を足して再生した場合に比べて、誰が発話しているかを容易に認識できるという効果がある。
【0052】
また、上述した本実施の形態に係る信号処理部4では、2本のマイクロホン(マイクロホン2a,2b)で話者毎に音声を収音することで、各マイクロホン入力は単独発話であることを仮定して説明した。しかし、3本以上のマイクロホンを用いていたり、各話者の音声が複数のマイクロホンに収音されていたりする場合にも、音源分離処理によって、話者ごとの発話に分離して同時発話区間を判定し、同様の話速変換処理と無音区間圧縮処理を行うことができる。
【0053】
また、上述した本実施の形態に係る信号処理部4では、1本のマイクロホンに複数の話者の音声が収音されていた場合であっても、同時発話区間における音声を話者毎に分離して話速変換処理を行うことができる。話速変換処理を行った音声の再生速度が、例えば、通常の話速に対して120%程度速くなったとしても、会議等に参加する話者は聞き取りに違和感を生じることはない。
【0054】
また、上述した本実施の形態に係る信号処理部4では、時間をずらしたことで生じる実際の時間との差を、話速変換処理と無音区間圧縮処理を行うことで、タイミングを合わせることができる。また、無音区間圧縮処理を行ったとしても、発話内容に影響が及ぶことはない。このため、再生される音声は、同時発話区間の再生音声が単独発話のように聞き取りやすくなる。
【0055】
また、上述した本実施の形態に係る信号処理部4では、映像/音声処理装置21から供給された複数の話者の音声が混合されたディジタル音声データから各話者の音声を分離できる。また、複数の会議室に設置された複数の映像/音声処理装置21からディジタル音声データが供給された場合であっても、各話者の音声を分離できる。このため、複数の会議室から同時にディジタル音声データが供給され、同時発話の状態となったとしても、1つの会議室から順に発話しているかのように聞き取りやすくなる。
【0056】
なお、上述した実施の形態例における一連の処理は、ハードウェアにより実行することができるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムを、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な例えば汎用のパーソナルコンピュータなどに所望のソフトウェアを構成するプログラムをインストールして実行させる。
【0057】
また、上述した実施の形態例の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPU等の制御装置)が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
【0058】
この場合のプログラムコードを供給するための記録媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、CD−ROM、CD−R、磁気テープ、不揮発性のメモリカード、ROMなどを用いることができる。
【0059】
また、コンピュータが読み出したプログラムコードを実行することにより、上述した実施の形態例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているOSなどが実際の処理の一部又は全部を行い、その処理によって上述した実施の形態例の機能が実現される場合も含まれる。
【0060】
また、本明細書において、ソフトウェアを構成するプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0061】
さらに、本発明は上述した実施の形態例に限られるものではなく、本発明の要旨を逸脱することなくその他種々の構成を取り得ることは勿論である。例えば、映像/音声処理装置1,21は、制御装置31によって制御される構成としたが、ピアツーピア方式で、映像/音声処理装置1,21が互いにディジタル映像/音声データを送受信するタイミングを制御するようにしてもよい。
【図面の簡単な説明】
【0062】
【図1】本発明の一実施の形態におけるビデオ会議システムの内部構成例を示すブロック図である。
【図2】本発明の一実施の形態における信号処理部の内部構成例を示すブロック図である。
【図3】本発明の一実施の形態における話速変換処理の例を示すフローチャートである。
【図4】本発明の一実施の形態における音声ずらし処理と、話速変換処理と、無音区間圧縮処理を施した再生音声の例を示す説明図である。
【符号の説明】
【0063】
1…映像/音声処理装置、2a,2b…マイクロホン、3a,3b…アナログ/ディジタル変換部、4…信号処理部、5…音声コーデック部、6…ディジタル/アナログ変換部、7…スピーカ、8…通信部、9…通信回線、10…ビデオ会議システム、21…映像/音声処理装置、31…制御装置、41…入力部、42…話者特定部、43…同時発話区間判定部、44…記憶部、45…整列部、46…話速変換部、47…話者分離部、48…無音区間判定部


【特許請求の範囲】
【請求項1】
複数のマイクロホンによって収音された音声データを処理する音声処理装置であって、
前記複数の音声データより話者を特定する話者特定部と、
前記話者特定部によって少なくとも第1及び第2の話者を特定した場合に、特定された前記第1及び第2の話者が発話した発話区間を特定し、前記第1及び第2の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定部と、
前記同時発話区間判定部で判定された同時発話区間の前記第1の話者の音声データと前記第2の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列部と、を備えることを特徴とする
音声処理装置。
【請求項2】
請求項1記載の音声処理装置において、
前記整列部は、前記第1の話者の音声データを、ほぼリアルタイム性を維持させて出力させ、前記第2の話者の音声データを、音声の時間軸を短くする話速変換を行う
ことを特徴とする
音声処理装置。
【請求項3】
請求項2記載の音声処理装置において、
前記第1マイクロホンによって収音された音声データより、音声レベルが所定の閾値以下である区間を無音区間として判定する無音区間判定部を備え、
前記整列部は、整列された前記音声データが前記無音区間を含む場合に、前記無音区間を圧縮することを特徴とする
音声処理装置。
【請求項4】
複数のマイクロホンによって収音された音声データを処理する音声処理システムであって、
前記複数の音声データより話者を特定する話者特定部と、
前記話者特定部によって少なくとも第1及び第2の話者を特定した場合に、特定された前記第1及び第2の話者が発話した発話区間を特定し、前記第1及び第2の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定部と、
前記同時発話区間判定部で判定された同時発話区間の前記第1の話者の音声データと前記第2の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列部と、を備えることを特徴とする
音声処理システム。
【請求項5】
複数のマイクロホンによって収音された音声データを処理する音声処理プログラムであって、
前記複数の音声データより話者を特定する話者特定処理と、
前記話者特定処理によって少なくとも第1及び第2の話者を特定した場合に、特定された前記第1及び第2の話者が発話した発話区間を特定し、前記第1及び第2の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定処理と、
前記同時発話区間判定処理で判定された同時発話区間の前記第1の話者の音声データと前記第2の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列処理と、を行うことを特徴とする
音声処理プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate