音声処理装置、音声処理システム及び音声処理プログラム

【課題】同時発話が発生しても、話者毎に発話内容を明確に再生すること。
【解決手段】信号処理部４は、複数の音声データより話者を特定する話者特定部４２と、話者特定部４２によって少なくとも第１及び第２の話者を特定した場合に、特定された第１及び第２の話者が発話した発話区間を特定し、第１及び第２の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定部４３と、を備える。また、信号処理部４は、同時発話区間判定部４３で判定された同時発話区間の第１の話者の音声データと第２の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列部４５と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、例えば複数の話者が発話する会議室のような環境において収音された音声を処理する場合に適用して好適な音声処理装置、音声処理システム及び音声処理プログラムに関する。
【背景技術】
【０００２】
従来、例えば、離れた場所で同時に開催される会議を円滑に進めるため、互いの会議室（第１及び第２の会議室と言う。）に設置されたビデオ会議システムを用いて、話者が相互に発言したり、話者の様子を映し出したりすることが可能なビデオ会議システムが用いられている。このビデオ会議システムは、互いの会議室の様子を映したり、話者の発言内容を放音したりすることが可能な複数の映像／音声処理装置を備える。以下の説明において、映像／音声処理装置は、それぞれ第１及び第２の会議室に設置されているとする。
【０００３】
映像／音声処理装置は、会議中の音声を収音するマイクロホンと、話者を撮影するカメラと、マイクロホンで収音した話者の音声に所定の処理を施す信号処理部と、他の会議室で発話する話者の様子を映し出す表示部と、話者の発話内容を放音するスピーカ等を備える。
それぞれの会議室に設置された映像／音声処理装置は、通信回線を介して接続される。そして、記録した映像／音声データを互いに送受信することによって、それぞれの会議室の様子を表示し、発話内容を放音する。以下の説明では、一人の話者が発話することを「単独発話」と称し、同時に複数の話者が発話することを「同時発話」と称する。
【０００４】
特許文献１には、マイクロホンに入力した音声が外乱として影響しないように処理する音声処理装置について記載されている。
【特許文献１】特開２００４−１０９７７９号公報
【発明の開示】
【発明が解決しようとする課題】
【０００５】
ところで、第１の会議室に集まった複数の話者の発話内容を収音するため、複数のマイクロホンを設置する場合がある。このとき、同時発話が生じると、１本のマイクロホンが収音した音声に複数の話者の発話内容が含まれることがある。そして、複数のマイクロホンが収音した音声は、映像／音声処理装置が備える信号処理部で混合されて混合音声とされた後、第２の会議室に設置された映像／音声処理装置に送信される。
【０００６】
第２の会議室に設置された映像／音声処理装置は、受信した混合音声を再生する。しかし、再生された音声は同時発話の状態であるため、第２の会議室に集まった話者は、第１の会議室で発話する話者が誰なのか分からなくなることがあった。また、同時発話が発生すると、発話内容が聞き取りづらくなっていた。
【０００７】
従来、同時発話の課題を解決するため、第１の会議室に設置された映像／音声処理装置は、発話内容をステレオで収音することで、第２の会議室に設置された映像／音声処理装置は、ステレオ再生していた。ステレオ再生を行うと、同時発話であっても音像定位が明確になり、話者の位置関係がつかみやすい。このため、第２の会議室に集まった話者は、発話内容を聞き取りやすくなる。しかし、同時発話は、同じ時間に、異なる話者が異なる内容を発話する状態であるため、再生時の発話内容は聞き取りにくかった。
【０００８】
本発明はこのような状況に鑑みて成されたものであり、同時発話が発生しても、話者毎の発話内容を明確に再生することを目的とする。
【課題を解決するための手段】
【０００９】
本発明は、複数のマイクロホンによって収音された音声データを処理する場合に、
複数の音声データより話者を特定する。そして、少なくとも第１及び第２の話者を特定した場合に、特定された第１及び第２の話者が発話した発話区間を特定し、第１及び第２の話者が同時に発話した区間を同時発話区間として判定する。そして、判定された同時発話区間の第１の話者の音声データと第２の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる。
【００１０】
このようにしたことで、複数の話者が同じ時間に同時に発話した場合であっても、それぞれの話者の音声が、時間的に異なるタイミングで出力されるようになり、それぞれの話者の音声を明確に再生できる。
【発明の効果】
【００１１】
本発明によれば、複数の話者が同じ時間に同時に発話した場合であっても、話者毎の音声を明確に再生できる。例えば、遠隔地間での会議を行う場合に、一方の会議室で同時発話が生じても、他の会議室では、単独発話として再生される。このため、同時発話が生じていても、話者は話者毎の発話内容を聞き取りやすくなるという効果がある。
【発明を実施するための最良の形態】
【００１２】
以下、本発明の一実施の形態例について、添付図面を参照して説明する。本実施の形態例では、映像データと音声データの処理を行う映像／音声処理システムとして、遠隔地間で映像データと音声データをリアルタイムで送受信可能なビデオ会議システム１０に適用した例として説明する。
【００１３】
図１は、ビデオ会議システム１０の構成例を示すブロック図である。
互いに離れた場所に位置する第１及び第２の会議室には、映像データと音声データを処理することが可能な映像／音声処理装置１，２１が設置される。映像／音声処理装置１，２１は、イーサネット（登録商標）等からなるディジタルデータを通信可能なディジタル通信回線９によって互いに接続される。そして、映像／音声処理装置１，２１は、通信回線９を介して、データの伝送タイミング等を制御する制御装置３１によって集中制御される。
【００１４】
以下、映像／音声処理装置１の内部構成例について説明する。ただし、映像／音声処理装置２１は、映像／音声処理装置１とほぼ同じ構成であるため、映像／音声処理装置２１の内部ブロックの記載と、詳細な説明は省略する。
【００１５】
映像／音声処理装置１は、話者が発話する音声を収音してアナログ音声データを生成するマイクロホン２ａ，２ｂと、マイクロホン２ａ，２ｂから供給されるアナログ音声データを、アンプ（不図示）で増幅し、ディジタル音声データに変換するアナログ／ディジタル（Ａ／Ｄ：Analog/Digital）変換部３ａ，３ｂと、アナログ／ディジタル（Ａ／Ｄ：Analog/Digital）変換部３ａ，３ｂから供給されるディジタル音声データに所定の処理を施す音声用の信号処理部４と、を備える。
【００１６】
マイクロホン２ａ，２ｂは、話者の音声を一人ずつ収音できるように配置する。この配置は、隣り合うマイクロホンの間隔を空けたり、指向性マイクロホンを用いたりすることで実現できる。マイクロホン２ａ，２ｂは、第１の会議室に参加する話者が発話する音声を収音するとともに、スピーカ７から放音される音声も空間を介して重畳して収音できる。マイクロホン２ａ，２ｂから供給されるアナログ音声データは、アナログ／ディジタル変換部３ａ，３ｂによって、例えば４８ｋＨｚサンプリング１６ビットＰＣＭ（Pulse-Code Modulation）のディジタル音声データに変換される。変換されたディジタル音声データは、信号処理部４に１サンプルずつ供給される。
【００１７】
信号処理部４は、ディジタル・シグナル・プロセッサ（ＤＳＰ：Digital Signal Processor）で構成される。信号処理部４が行う処理の詳細は、後述する。
【００１８】
また、映像／音声処理装置１は、信号処理部４から供給されるディジタル音声データをビデオ会議システム１０の通信で標準的に定められている符号に符号化する音声コーデック部５を備える。音声コーデック部５は、通信インタフェースである通信部８を介して映像／音声処理装置２１から受け取る符号化されたディジタル音声データをデコードする機能も有する。また、映像／音声処理装置１は、音声コーデック部５から供給されるディジタル音声データをアナログ音声データに変換するディジタル／アナログ（Ｄ／Ａ：Digital/Analog）変換部６と、ディジタル／アナログ変換部６から供給されるアナログ音声データをアンプ（不図示）で増幅し、放音するスピーカ７と、を備える。
【００１９】
また、映像／音声処理装置１は、話者を撮影して、アナログ映像データを生成するカメラ１１と、カメラ１１から供給されるアナログ映像データをディジタル映像データに変換するアナログ／ディジタル変換部１４と、を備える。アナログ／ディジタル変換部１４で変換されたディジタル映像データは、映像用の信号処理部４ａに供給されて、所定の処理が施される。
【００２０】
また、映像／音声処理装置１は、信号処理部４ａで所定の処理が施されたディジタル映像データを符号化する映像コーデック部１５と、映像コーデック部１５から供給されるディジタル映像データをアナログ映像データに変換するディジタル／アナログ変換部１６と、ディジタル／アナログ変換部１６から供給されるアナログ映像データをアンプ（不図示）で増幅し、映像を表示する表示部１７と、を備える。
【００２１】
通信部８は、相手側機器である映像／音声処理装置２１と制御装置３１に対して、ディジタル映像／音声データの通信を制御する。通信部８は、音声コーデック部５で所定の符号化方式（例えば、ＭＰＥＧ（Moving Picture Experts Group）−４ＡＡＣ（Advanced Audio Coding）方式、Ｇ．７２８方式）に符号化されたディジタル音声データと、映像コーデック部１５で所定の方式に符号化されたディジタル映像データを所定のプロトコルでパケットに分割する。そして、通信回線９を介して映像／音声処理装置２１に伝送する。
【００２２】
また、映像／音声処理装置１は、音声処理装置２１からディジタル映像／音声データのパケットを受け取る。通信部８は、受け取ったパケットを組立て、音声コーデック部５と映像コーデック部１５でデコードする。デコードされたディジタル音声データは、信号処理部４で所定の処理が施された後、Ｄ／Ａ変換部６を介して、アンプ（不図示）で増幅され、スピーカ７で放音される。同様に、デコードされたディジタル映像データは、信号処理部４で所定の処理が施された後、Ｄ／Ａ変換部１６を介して、アンプ（不図示）で増幅され、表示部１７で映像が表示される。
【００２３】
表示部１７は、画面分割することによって、第１及び第２の会議室に集まっている話者の様子を表示する。このため、第１及び第２の会議室が遠くに離れていても、各話者は、互いの距離を感じることなく、会議を行うことができる。
【００２４】
次に、信号処理部４の内部構成例について、図２のブロック図を参照して説明する。ただし、本実施の形態に係る信号処理部４は、ディジタル音声データに対して所定の処理を施すことを特徴とする。このため、ディジタル映像データに対して処理を施す機能ブロックに関する説明は省略する。
【００２５】
信号処理部４は、アナログ／ディジタル変換部３ａ，３ｂを介して入力されたディジタル音声データに、マイクロホン２ａ，２ｂが収音した時間の情報を付与する入力部４１を備える。また、信号処理部４は、混合されたディジタル音声データより発話する話者を特定する話者特定部４２を備える。また、信号処理部４は、複数の話者が同時に発話する区間を、同時発話区間として判定する同時発話区間判定部４３と、同時発話区間に生成されたディジタル音声データを一時的に記憶させる記憶部４４と、各ディジタル音声データを再生する順序に整列する整列部４５と、を備える。
【００２６】
また、信号処理部４は、記憶部４４から読み出したディジタル音声データに付与された時間の情報に基づいて、同時発話区間に生成されたディジタル音声データを再生する速度である話速を変換する話速変換部４６を備える。また、信号処理部４は、１つのマイクロホンが複数の話者の音声を収音した場合に、話者毎の音声に分離する話者分離部４７と、音声レベルが所定の閾値以下である区間を、誰も発話していない状態である無音区間として判定する無音区間判定部４８と、を備える。
【００２７】
入力部４１は、各ディジタル音声データに対して、収音した時間の情報を付与する。そして、複数のマイクロホンで収音した音声から生成されるディジタル音声データを時間毎に重ね合わせる。
【００２８】
話者特定部４２は、音声レベルが所定の閾値を超えた場合に、各話者を特定する。指向性が高いマイクロホンを用いると、マイクロホンの識別子と話者とが１対１で対応する。このため、話者特定部４２は、音声レベルが所定の閾値を超えているマイクロホンの識別子より話者を特定できる。
【００２９】
同時発話区間判定部４３は、話者特定部４２によって少なくとも第１及び第２の話者を特定した場合に、特定された第１及び第２の話者が発話した発話区間を、各ディジタル音声データに付与された時間の情報から特定する。そして、同時発話区間判定部４３は、第１及び第２の話者が同時に発話した区間を同時発話区間として判定する。同時発話区間では、複数の話者が同時に発話する状態であるため、誰が発話しているか判定することが重要となる。
【００３０】
記憶部４４は、複数の記憶領域が論理的に区切られており、同時発話が生じた場合に、話者特定部４２で特定された話者毎のディジタル音声データを一時的に記憶する。記憶領域は可変であり、話者の人数や収音時間に応じて増減を設定できる。記憶部４４に記憶されるディジタル音声データは、同時発話区間における話者の発話内容を含むデータである。記憶部４４のデータ構造は、ＦＩＦＯ（First In First Out：先入れ先出し）キューである。このため、最初に記憶部４４に書き込まれたディジタル音声データは、最初に記憶部４４から読み出される。本例では、記憶部４４がマイクロホン毎に記憶可能なデータ量は、収音時間に換算して２０秒分であり、１人分のディジタル音声データを一時的に記憶できる。
【００３１】
整列部４５は、同時発話区間判定部４２で判定された同時発話区間の第１の話者のディジタル音声データと第２の話者のディジタル音声データとを分離し、分離された各話者のディジタル音声データをそれぞれ時間的に異なるタイミングとして出力させる。また、整列部４５は、同時発話区間判定部４３で判定された同時発話区中のディジタル音声データのうち、第１の話者のディジタル音声データを、ほぼリアルタイム性を維持させて出力させ、第２の話者のディジタル音声データを、音声の時間軸を短くする話速変換を行う。そして、マイクロホンに付与された識別子毎（話者の順）に、第１及び第２の話者のディジタル音声データを並べ替える。並べ替えの優先順位は、例えば、話者が発話した順とする。ここで、始めに第１の話者がマイクロホン２ａに発話する途中で、第２の話者がマイクロホン２ｂに発話した結果、同時発話が生じたと仮定する。この場合、再生時に優先される話者は、第１の話者である。このため、マイクロホン２ｂが生成したディジタル音声データは、一旦記憶部４４に記憶される。そして、整列部４５は、音声を再生する際の再生順に従って、マイクロホン２ａが生成したディジタル音声データの後に、記憶部４４から読み出したマイクロホン２ｂが生成したディジタル音声データを順に整列する。整列されたディジタル音声データは、音声コーデック部５に供給される。
【００３２】
話速変換部４６は、記憶部４５に一時的に記憶されたディジタル音声データに対して、所定の話速変換処理を施す。話速変換部４６が行う話速変換処理には、例えば、ＰＩＣＯＬＡ（Pointer Interval Controlled Overlap and Add）等を用いる。この他、ＴＤＨＳ（Time Domain Harmonic Scaling）等、様々な話速変換処理を行う技術が提案されており、他の公知技術を用いて話速変換処理を行っても構わない。話速変換処理によって、例えば、マイクロホン２ａ，２ｂを用いて発話内容を収音する際の収音速度を１００％とした場合に、スピーカ７等を用いて再生する際の再生速度を１２０％に変換できる。
【００３３】
話者分離部４７は、同時間に混合された複数のディジタル音声データより、話者特定部４２で特定された話者に基づいて、複数のマイクロホンに収音されている話者の音声のみを分離できる。無指向性のマイクロホンを用いていたり、マイクロホンの数に対して話者の数が多かったりすることで、１つのディジタル音声データに複数の話者が含まれる場合に、話者分離部４７の処理が行われる。話者分離部４７で行われる音源分離処理には、例えば、無指向性のマイクロホンを用いて話者を判別する遅延和法、話者を特定する指向性に優れる適応ビームフォーマのようなマイクロホンアレイ処理、複数のマイクロホン間パワーの相関によって話者を識別する独立成分分析等、さまざまな技術が提案されており、どの技術を用いても構わない。
【００３４】
無音区間判定部４８は、音声レベルが所定の閾値以下である区間を無音区間として判定する。判定された無音区間の情報は、整列部４５に供給される。
整列部４５は、無音区間判定部４８によって判定された無音区間の一部を圧縮する。無音区間の一部を圧縮する際には、整列したディジタル音声データの情報から、該当する無音区間分を特定し、圧縮する。
【００３５】
次に、信号処理部４が行う話速変換処理の例について、図３のフローチャートを参照して説明する。
【００３６】
始めに、信号処理部４は、マイクロホン２ａ，２ｂからアナログ／ディジタル変換部３ａ，３ｂを介して入力されるディジタル音声データ（以下、単にマイクロホン入力音声とも称する。）のパワーを計算する（ステップＳ１）。そして、整列部４５は、記憶部４４が空であるか否かを判断する（ステップＳ２）。
【００３７】
記憶部４４が空である場合、信号処理部４は、マイクロホン入力音声のパワーが閾値以上であるか否かを判断する（ステップＳ３）。具体的には、マイクロホン入力音声のパワーが閾値以上でない場合、誰も発話していない無音区間であると判断できる。
【００３８】
ステップＳ３の処理で、無音区間が存在すると判断した場合、信号処理部４は、無音区間を含むディジタル音声データを出力データとして、音声コーデック部５に送り（ステップＳ４）、処理を終了する。
【００３９】
ステップＳ３の処理で、無音区間が存在しないと判断した場合、話者特定部４２は、マイクロホン入力音声のパワーが閾値以上となっているマイクロホンが１つであるか否かを判断する（ステップＳ６）。
【００４０】
パワーが閾値以上のマイクロホンが１つである場合、単独発話であるため、そのマイクロホン入力音声を出力データとして、同時発話区間判定部４３と整列部４５を介して、音声コーデック部５に出力する（ステップＳ７）。
【００４１】
ここで、ステップＳ２の処理の説明に戻ると、記憶部４４が空でないと判断した場合、ＦＩＦＯキュー構造である記憶部４４に最初に入力されたマイクロホン入力音声以外にパワーが閾値以上のマイクロホン入力音声があるか否かを判別する（ステップＳ５）。
【００４２】
ステップＳ６の処理で、パワーが閾値以上のマイクロホン入力音声が複数ある場合、同時発話区間判定部４３は、同時発話が生じていると判断する。そして、ステップＳ５の処理で、記憶部４４にマイクロホン入力音声以外にパワーが閾値以上のマイクロホン入力音声がある場合、同時発話区間判定部４３は、同時発話が続いていると判断する。このため、ステップＳ５，Ｓ６の処理後、同時発話区間判定部４３は、同時発話区間を判定する。そして、このため、同時発話区間判定部４３は、一方のマイクロホン入力音声を整列部４５に送り、出力データとして音声コーデック部５に送る（ステップＳ８）。同時に、同時発話区間判定部４３は、他のマイクロホン入力音声を記憶部４４に記憶させる（ステップＳ９）。
【００４３】
一方、ステップＳ５の処理で、記憶部４４の先頭のデータに対応するマイクロホン以外にパワーが閾値以上のマイクロホンがないと判断した場合は、話速変換処理を行って、実時間よりも遅くなってしまったタイミングを調整する必要がある。このため、話速変換部４６は、記憶部４４から読み出したマイクロホン入力音声を話速変換で圧縮し、音声コーデック部５へと送る（ステップＳ１０）。同時に、出力したマイクロホン入力音声を記憶部４４から削除する（ステップＳ１１）。
【００４４】
次に、信号処理部４を介して出力される再生音声の例について、図４を参照して説明する。
【００４５】
図４（ａ）は、音声ずらし処理を行う際の動作例を示す図である。
マイクロホンが収音した音声のパワーが所定の閾値を超えた場合、話者が発話していると言える。第１の話者が時間ｔ_２〜ｔ_３の区間で発話し、第２の話者が時間ｔ_１〜ｔ_２の区間で発話する場合、出力音声は、時間ｔ_１〜ｔ_３の区間で連続してスピーカ７等から放音される。以下、話者特定部４２で特定された、又は話者分離部４７で分離された話者毎のディジタル音声データをそれぞれ、第１の話者は第１のディジタル音声データとし、第２の話者は第２のディジタル音声データとして説明する。
【００４６】
一方、第１の話者が時間ｔ_５〜ｔ_６の区間で発話し、第２の話者が時間ｔ_４〜ｔ_６の区間で発話する場合、時間ｔ_５〜ｔ_６の区間で同時発話が生じる。本例の信号処理部４では、先に発話した第２の話者の音声（第２のディジタル音声データ）が優先して出力される。そして、時間ｔ_５〜ｔ_６の区間における第１のディジタル音声データは、記憶部４４に一時的に待避される。そして、第２の話者の発話が終了する（時間ｔ_６）と、第１のディジタル音声データは、記憶部４４から読み出され、時間ｔ_５〜ｔ_６の区間の音声が、時間ｔ_６〜ｔ_７の区間で再生されるように音声ずらしが行われる。時間ｔ_７〜ｔ_８の区間では、話速変換は行われず、通常の話速で出力される。そして、整列部４５によって、第１のディジタル音声データの次に、第２のディジタル音声データが再生されるように順に整列される。整列されたディジタル音声データは、順に音声コーデック部５、通信回線９等を介して、第１及び第２の会議室に設置されたスピーカ７から放音される。
【００４７】
図４（ｂ）は、話速変換処理を行う際の動作例を示す図である。
図４（ｃ）においても、図４（ａ）と同様に、第１の話者が時間ｔ_２〜ｔ_３の区間で発話し、第２の話者が時間ｔ_１〜ｔ_２の区間で発話する場合、出力音声は、時間ｔ_１〜ｔ_３の区間で連続してスピーカ７等から放音される。
【００４８】
一方、第１の話者が時間ｔ_５〜ｔ_８の区間で発話し、第２の話者が時間ｔ_４〜ｔ_６の区間で発話する場合、時間ｔ_５〜ｔ_６の区間で同時発話が生じる。本例の信号処理部４では、先に発話した第２の話者の音声（第２のディジタル音声データ）が優先して出力される。そして、時間ｔ_５〜ｔ_６の区間における第１のディジタル音声データは、記憶部４４に一時的に待避される。そして、第２の話者の発話が終了する（時間ｔ_６）と、第１のディジタル音声データは、記憶部４４から読み出され、話速変換部４６によって、時間ｔ_５〜ｔ_７の区間の音声が、時間ｔ_６〜ｔ_７の区間で再生されるように話速変換される。時間ｔ_７〜ｔ_８の区間では、話速変換は行われず、通常の話速で出力される。そして、整列部４５によって、第１のディジタル音声データの次に、第２のディジタル音声データが再生されるように順に整列される。整列されたディジタル音声データは、順に音声コーデック部５、通信回線９等を介して、第１及び第２の会議室に設置されたスピーカ７から放音される。
【００４９】
図４（ｃ）は、話速変換処理と無音区間圧縮処理を行う際の動作例を示す図である。
図４（ｃ）においても、図４（ａ）と同様に、第１の話者が時間ｔ_２〜ｔ_３の区間で発話し、第２の話者が時間ｔ_１〜ｔ_２の区間で発話する場合、出力音声は、時間ｔ_１〜ｔ_３の区間で連続してスピーカ７等から放音される。
【００５０】
一方、第１の話者が時間ｔ_５〜ｔ_７の区間で発話し、第２の話者が時間ｔ_４〜ｔ_６の区間で発話する場合、時間ｔ_５〜ｔ_６の区間で同時発話が生じる。本例の信号処理部４では、先に発話した第２の話者の音声（第２のディジタル音声データ）が優先して出力される。そして、時間ｔ_５〜ｔ_７の区間における第１のディジタル音声データは、記憶部４４に一時的に待避される。そして、第２の話者の発話が終了する（時間ｔ_６）と、第１のディジタル音声データは、記憶部４４から読み出され、話速変換部４６によって、時間ｔ_５〜ｔ_７の区間の音声が、時間ｔ_６〜ｔ_８の区間で再生されるように話速変換される。そして、第２の話者は、時間ｔ_９で発話するため、時間ｔ_７〜ｔ_９の無音区間を圧縮する。このため、第２の話者が発話する時間ｔ_９以降の区間では、話速変換は行われず、通常の話速（収音速度と再生速度が等しい）で出力される。
【００５１】
以上説明した本実施の形態に係る信号処理部４では、複数のマイクロホン２ａ，２ｂで収音したディジタル音声データから話者毎に音声を分離した上で、再生時間をずらして再生することを特徴とする。各マイクロホンは、指向性を有するため、話者毎に音声を収音できる。このため、収音してマイクロホンが生成したディジタル音声データより、同時発話を判定した場合、所定の優先順位をつけて音声毎の再生時の時間をずらすように同時発話区間におけるディジタル音声データを並べ替える音声ずらし処理を行う。音声ずらし処理によって、再生された各音声は、単独発話に近い状態となるため、会議等に参加する話者は明瞭に発話内容を聞き取ることができる。このため、会議等に参加する話者は、従来のように、単純に複数のマイクロホンから入力された音声を足して再生した場合に比べて、誰が発話しているかを容易に認識できるという効果がある。
【００５２】
また、上述した本実施の形態に係る信号処理部４では、２本のマイクロホン（マイクロホン２ａ，２ｂ）で話者毎に音声を収音することで、各マイクロホン入力は単独発話であることを仮定して説明した。しかし、３本以上のマイクロホンを用いていたり、各話者の音声が複数のマイクロホンに収音されていたりする場合にも、音源分離処理によって、話者ごとの発話に分離して同時発話区間を判定し、同様の話速変換処理と無音区間圧縮処理を行うことができる。
【００５３】
また、上述した本実施の形態に係る信号処理部４では、１本のマイクロホンに複数の話者の音声が収音されていた場合であっても、同時発話区間における音声を話者毎に分離して話速変換処理を行うことができる。話速変換処理を行った音声の再生速度が、例えば、通常の話速に対して１２０％程度速くなったとしても、会議等に参加する話者は聞き取りに違和感を生じることはない。
【００５４】
また、上述した本実施の形態に係る信号処理部４では、時間をずらしたことで生じる実際の時間との差を、話速変換処理と無音区間圧縮処理を行うことで、タイミングを合わせることができる。また、無音区間圧縮処理を行ったとしても、発話内容に影響が及ぶことはない。このため、再生される音声は、同時発話区間の再生音声が単独発話のように聞き取りやすくなる。
【００５５】
また、上述した本実施の形態に係る信号処理部４では、映像／音声処理装置２１から供給された複数の話者の音声が混合されたディジタル音声データから各話者の音声を分離できる。また、複数の会議室に設置された複数の映像／音声処理装置２１からディジタル音声データが供給された場合であっても、各話者の音声を分離できる。このため、複数の会議室から同時にディジタル音声データが供給され、同時発話の状態となったとしても、１つの会議室から順に発話しているかのように聞き取りやすくなる。
【００５６】
なお、上述した実施の形態例における一連の処理は、ハードウェアにより実行することができるが、ソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムを、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで各種の機能を実行することが可能な例えば汎用のパーソナルコンピュータなどに所望のソフトウェアを構成するプログラムをインストールして実行させる。
【００５７】
また、上述した実施の形態例の機能を実現するソフトウェアのプログラムコードを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ（またはＣＰＵ等の制御装置）が記録媒体に格納されたプログラムコードを読み出し実行することによっても、達成されることは言うまでもない。
【００５８】
この場合のプログラムコードを供給するための記録媒体としては、例えば、フロッピディスク、ハードディスク、光ディスク、光磁気ディスク、ＣＤ−ＲＯＭ、ＣＤ−Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどを用いることができる。
【００５９】
また、コンピュータが読み出したプログラムコードを実行することにより、上述した実施の形態例の機能が実現されるだけでなく、そのプログラムコードの指示に基づき、コンピュータ上で稼動しているＯＳなどが実際の処理の一部又は全部を行い、その処理によって上述した実施の形態例の機能が実現される場合も含まれる。
【００６０】
また、本明細書において、ソフトウェアを構成するプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【００６１】
さらに、本発明は上述した実施の形態例に限られるものではなく、本発明の要旨を逸脱することなくその他種々の構成を取り得ることは勿論である。例えば、映像／音声処理装置１，２１は、制御装置３１によって制御される構成としたが、ピアツーピア方式で、映像／音声処理装置１，２１が互いにディジタル映像／音声データを送受信するタイミングを制御するようにしてもよい。
【図面の簡単な説明】
【００６２】
【図１】本発明の一実施の形態におけるビデオ会議システムの内部構成例を示すブロック図である。
【図２】本発明の一実施の形態における信号処理部の内部構成例を示すブロック図である。
【図３】本発明の一実施の形態における話速変換処理の例を示すフローチャートである。
【図４】本発明の一実施の形態における音声ずらし処理と、話速変換処理と、無音区間圧縮処理を施した再生音声の例を示す説明図である。
【符号の説明】
【００６３】
１…映像／音声処理装置、２ａ，２ｂ…マイクロホン、３ａ，３ｂ…アナログ／ディジタル変換部、４…信号処理部、５…音声コーデック部、６…ディジタル／アナログ変換部、７…スピーカ、８…通信部、９…通信回線、１０…ビデオ会議システム、２１…映像／音声処理装置、３１…制御装置、４１…入力部、４２…話者特定部、４３…同時発話区間判定部、４４…記憶部、４５…整列部、４６…話速変換部、４７…話者分離部、４８…無音区間判定部

【特許請求の範囲】
【請求項１】
複数のマイクロホンによって収音された音声データを処理する音声処理装置であって、
前記複数の音声データより話者を特定する話者特定部と、
前記話者特定部によって少なくとも第１及び第２の話者を特定した場合に、特定された前記第１及び第２の話者が発話した発話区間を特定し、前記第１及び第２の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定部と、
前記同時発話区間判定部で判定された同時発話区間の前記第１の話者の音声データと前記第２の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列部と、を備えることを特徴とする
音声処理装置。
【請求項２】
請求項１記載の音声処理装置において、
前記整列部は、前記第１の話者の音声データを、ほぼリアルタイム性を維持させて出力させ、前記第２の話者の音声データを、音声の時間軸を短くする話速変換を行う
ことを特徴とする
音声処理装置。
【請求項３】
請求項２記載の音声処理装置において、
前記第１マイクロホンによって収音された音声データより、音声レベルが所定の閾値以下である区間を無音区間として判定する無音区間判定部を備え、
前記整列部は、整列された前記音声データが前記無音区間を含む場合に、前記無音区間を圧縮することを特徴とする
音声処理装置。
【請求項４】
複数のマイクロホンによって収音された音声データを処理する音声処理システムであって、
前記複数の音声データより話者を特定する話者特定部と、
前記話者特定部によって少なくとも第１及び第２の話者を特定した場合に、特定された前記第１及び第２の話者が発話した発話区間を特定し、前記第１及び第２の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定部と、
前記同時発話区間判定部で判定された同時発話区間の前記第１の話者の音声データと前記第２の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列部と、を備えることを特徴とする
音声処理システム。
【請求項５】
複数のマイクロホンによって収音された音声データを処理する音声処理プログラムであって、
前記複数の音声データより話者を特定する話者特定処理と、
前記話者特定処理によって少なくとも第１及び第２の話者を特定した場合に、特定された前記第１及び第２の話者が発話した発話区間を特定し、前記第１及び第２の話者が同時に発話した区間を同時発話区間として判定する同時発話区間判定処理と、
前記同時発話区間判定処理で判定された同時発話区間の前記第１の話者の音声データと前記第２の話者の音声データとを分離し、分離された各話者の音声データをそれぞれ時間的に異なるタイミングとして出力させる整列処理と、を行うことを特徴とする
音声処理プログラム。

【図１】