音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム

【課題】複数の音源からの音声データを経時的に記録したデータを利用する際に、利用者に対して使い勝手の良い状態でデータを提供する。
【解決手段】制御部１の方位・話者同定部３は、音声通信データから得られる方位データの変化を観測し、単方位を示す方位データまたは複数方位を示す方位データで且つ所定時間に亘り変化がなければ、それぞれ単方位データおよび複数方位の組み合わせ方位データを話者識別データとする。方位・話者同定部３は、所定時間内で方位データの変化があれば話者音声ＤＢ５３から音声特徴量データＳｃを読み出し、音声データ解析部２で解析された音声特徴量と比較して話者同定を行い、話者同定されれば話者名データを話者識別データとし、同定されなければ方位未検出データを話者識別データとする。音声状況データ生成部４はこれら話者識別データの時間変化に基づいて音声状況データを生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、会議音声等の音声を記録して利用する装置およびシステムに関するものである。
【背景技術】
【０００２】
多地点をネットワークで結んで音声会議を行う音声会議システムが各種考案されている（例えば、特許文献１，２参照）。
【０００３】
このような音声会議システムでは、会議を行う各地点（会議室）に音声会議装置が配置され、各音声会議装置に対して一人または複数の会議者が在席する。各音声会議装置は、自室内の会議者の発言を収音して音声データ化し、ネットワークを介して相手先の音声会議装置に送信する。また、各音声会議装置は、相手先の音声会議装置からの音声データを受信すれば音声化して放音する。
【０００４】
そして、特許文献１に記載の音声会議システムでは、ＲＦＩＤタグとマイクとを各会議者の近傍に配置し、音声会議装置は、マイクで収音すると、収音音声信号と対応するＲＦＩＤタグにより得られる会議者情報とを関連付けして送信する。
【０００５】
この音声会議システムには録音サーバが備えられており、録音サーバに録音される収音音声信号には前記会議者情報が関連付けされている。
【０００６】
また、特許文献２に記載の話者照合方法では、音声会議装置の処理として、入力音声信号を所定時間単位に分割して、各音声区間の特徴量から話者を検出する。
【特許文献１】特開２００５−８０１１０公報
【特許文献２】特許第２８１６１６３号公報
【発明の開示】
【発明が解決しようとする課題】
【０００７】
特許文献１に記載の音声通信システムでは、会議後に会議参加者の１人が議事録作成等のために、録音サーバにパソコン等を接続して記録された音声データを再生すると、関連付けされた会議者情報が表示される。
【０００８】
しかしながら、特許文献１の音声通信システムでは、単に時系列で録音サーバに記憶された音声データを選択することで、対応する会議者を初めて知ることができるため、特定の会議者の発言を抽出したり、記録された会議の全体の流れ（状況）を把握したりすることが容易ではできなかった。
【０００９】
また、音声データや会議者情報から得られる音声状況（会議状況）に基づいて各音声データを区分化する等の編集を行い、この音声状況を記憶しておくことができなかった。
【００１０】
このため、会議後等に録音サーバに記録された音声データを利用する際に、利用者が使い辛いものとなってしまっていた。
【００１１】
また、特許文献２に記載の話者照合方法では、話者音声の解析を随時行いながら相手先に送信しなければならず処理負荷が大きかった。また、この負荷を軽減させるため音声解析を簡素化すると話者の検出精度が低下し、正確な話者情報を取得することが難しかった。
【００１２】
したがって、この発明の目的は、多地点音声会議後に議事録を作成する等のように、複数の音源からの音声データを経時的に記録したデータを利用する際に、簡素な処理で音声データに対する話者特定情報を検出して、音声データに関連付けして記憶し、利用者に対して使い勝手の良い状態でデータを提供することにある。
【課題を解決するための手段】
【００１３】
この発明の音声状況データ生成装置は、音声データと当該音声データの到来方向を示す方位データとを経時的に取得するデータ取得手段と、各話者の話者音声特徴量を記憶する話者音声特徴データベースと、
（１）取得したデータの方位データが所定時間に亘り単一方位を示して変化が無ければ、このデータを単方位データと判定し、（２）取得したデータの方位データが単方位データでない場合に、該取得したデータの音声データから音声特徴量を抽出して話者音声特徴量と比較することによって話者同定を行い、（３）話者同定されなければこのデータを方位未検出データとし、（４）同定話者が複数で且つ所定時間に亘り変化がなければこのデータを複数方位データとし、（５）同定話者の方位データが変化すれば同定話者に対応する話者名データとする方位・話者同定手段と、
単方位データ、方位未検出データ、複数方位データ、話者名データの判定結果の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、
音声データおよび前記音声状況データを記憶する記憶手段と、を備えたことを特徴としている。
【００１４】
この構成では、音声データとともに当該音声データに関連付けされた方位データが取得される。継続的に入力される音声データの方位データが単方位を示し、所定時間変化しないと、一話者が継続的に発言していると見なして単方位データが設定される。方位データが所定時間中に変化したり単方位でないと、話者音声特徴データベースに記憶された話者音声特徴量に基づいて話者同定が行われる。この話者同定の結果、データベースに一致する話者がいなければ、方位未検出データが設定される。データベースに一致する話者が複数であり、所定時間内で変化が無ければ、複数方位データが設定される。データベースに一致する話者が単数であれば（方位は随時変化）、話者名データが設定される。これらの話者識別データ（単方位データ、方位未検出データ、複数方位データ、話者名データ）の変化は時系列に解析され、この時系列の解析結果が音声状況データとして生成される。
【００１５】
このような構成により、まず方位データで話者識別をして、音声特徴量で話者識別をすることになるので、全てを音声特徴量で解析するよりも、簡素で正確に話者識別が行われる。
【００１６】
具体的に、音声会議の議事録作成の場合であれば、比較的容易に発言者情報が得られ、発言内容（音声データ）と関連付けして記憶される。また、議事録作成者が会議後にこれらのデータを利用する際に、方位データおよび話者名データにより会議者が識別され、時間データにより発言時間が識別されるので、発言者が１人でも複数人でも移動していても、各会議者の発言タイミングが容易に識別される。また、会議全体の発言状況（会議の流れ）が容易に識別される。
【００１７】
また、この発明の音声状況データ生成装置の方位・話者同定手段は、通信中に入力される話者音声から得られる話者音声特徴量に基づいて随時話者音声特徴データベースの更新を行うことを特徴としている。
【００１８】
この構成では、予め話者音声特徴データベースを構築しておかなくても、順次更新記憶していくことで、話者音声特徴データベースが構築される。
【００１９】
また、この発明の音声状況可視化装置は、前述の音声状況データ生成装置の各手段と、音声状況データに基づいて音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、を備えたことを特徴としている。
【００２０】
この構成では、表示手段により、時間区分化された音声データが方位別および話者別で時系列にグラフ表示されることで、利用者へ視覚的に音声状況が提供される。表示手段とは、具体的に液晶ディスプレイ等の表示器と、表示器上に画像を映し出す制御部および表示アプリケーションとを有し、制御部が表示アプリケーションを実行することで、音声状況データに基づいて、音声データ全体を方位別および話者別で時系列に区分した区分化音声データがタイムチャートのように表示される。これにより、利用者に対して、音声状況がより分かりやすく提供される。
【００２１】
具体的に、前述の音声会議の議事録作成の場合であれば、各会議者の発言タイミングや会議全体の発言状況がタイムチャート等で表示され、議事録作成者へ視覚的に提供される。これにより、議事録作成者に対して会議の発言状況等がより分かりやすく提供される。
【００２２】
また、この発明の音声状況データ編集装置は、前述の音声状況可視化装置と、音声状況データを編集する操作入力を受け付ける操作受付手段と、該操作受付手段により受け付けた編集内容を解析して音声状況データを編集するデータ編集手段と、を備えたことを特徴としている。
【００２３】
この構成では、データ編集手段により、音声状況データの各項目が変更される。この際、利用者からの操作は操作受付手段により受け付けられる。例えば、方位と話者との関係が分かっており、方位名を話者名に変更したい場合には、利用者は操作受付手段により方位名変更の操作を行う。操作受付手段はこの操作を受け付けてデータ編集手段に与える。データ編集手段は、データ編集アプリケーションを有し、前記制御部でデータ編集アプリケーションを実行することで、指示された内容にしたがい方位名を話者名に変更し、音声状況データの更新記録を行う。
【００２４】
具体的に、前述の音声会議の議事録作成の場合であれば、方位名を会議者名に変更する等の操作が可能となる。これにより、会議者が直接的に分からない方位名ではなく、会議者名がそのまま表示されるので、より分かりやすい議事録が作成される。
【００２５】
また、この発明の音声データ再生装置は、前述の音声状況データ編集装置と、操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、を備えたことを特徴としている。
【００２６】
この構成では、操作受付手段を操作することで、区分化音声データが選択されると、該当する区分化音声データが再生手段により再生される。これにより、各区分化音声データを、会議後に再度聴くことができる。また、前述の編集時に各区分化音声データの再生音を聴くことで、話者の特定を聴覚的にも行うことができる。
【００２７】
具体的に、前述の音声会議の議事録作成の場合であれば、各区分化音声データを選択して再生することで、会議者を聴覚的に特定することができるとともに、どの会議者が何を話したかを、会議後であっても確実に知ることができる。
【００２８】
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置とは別体でネットワークに接続されており、各装置のデータ取得手段は、複数の放収音装置間で通信される音声データと方位データとを取得することを特徴としている。
【００２９】
この構成では、各放収音装置で収音した音声データがネットワークを介して前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置（以下、総称して「音声データ処理装置」とする。）に入力される。このように、放収音装置と音声データ処理装置とが別体で構成されていることで、膨大な記憶容量を要する音声データ処理装置を、比較的小型化が要求される放収音装置に備え付ける必要がなくなる。
【００３０】
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置のいずれか１台に内蔵されており、各装置のデータ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと方位データとを取得することを特徴としている。
【００３１】
この構成では、前述の音声データ処理装置を放収音装置に備える。これにより、サーバレスで音声通信を記録することができる。
【００３２】
また、この発明の音声通信システムの放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、選択された収音ビーム信号を音声データとし、検出した方位を方位データとして出力することを特徴としている。
【００３３】
この構成では、放収音装置は、マイクアレイの各マイクの収音音声信号から複数の収音ビーム信号を形成して、最も信号強度の高い収音ビーム信号を選択するとともに、当該収音ビーム信号に対応する方位を検出する。そして、放収音装置は、選択した収音ビーム信号を音声データとし、検出方位を方位データとして出力する。これにより、従来のように、会議者を識別するＲＦＩＤタグ等を必要としないので、より簡素に音声通信システムが構成される。また、音声特徴量による処理を行わないので、識別負荷が低減し、且つ方位情報を用いることで識別精度が向上する。
【発明の効果】
【００３４】
この発明によれば、複数の音源からの音声データを経時的に記録したデータを利用する場合に、利用者に対して使い勝手の良い状態でデータを比較的簡素な処理により形成して提供することができる。具体例として、多地点会議システムで各会議者の発言を記録しておくような場合に、各会議者の発言をタイムチャート等により、より分かりやすく議事録作成者に提供することができる。
【００３５】
また、この発明によれば、収音信号により話者方向を自動検出する放収音装置を用いることで、音声通信システムおよびこのシステムで通信される音声データの記録を、従来よりも簡素な構成で実現することができる。
【発明を実施するための最良の形態】
【００３６】
以下の実施形態では具体的なシステム例として議事録作成システムについて説明する。
本発明の実施形態に係る議事録作成システムについて図を参照して説明する。
図１は本実施形態の議事録作成システムの構成図である。
図２は本実施形態の音声会議装置１１１，１１２の主要構成を示すブロック図である。
図３は本実施形態の録音サーバ１０１の主要構成を示すブロック図である。
本実施形態の議事録作成システムは、ネットワーク１００に接続された音声会議装置１１１，１１２と、録音サーバ１０１とを備える。
【００３７】
音声会議装置１１１、１１２は、それぞれ離れた地点ａ、地点ｂにそれぞれ配置されている。地点ａには、音声会議装置１１１が配置されており、該音声会議装置１１１を囲むように話者Ａ〜Ｅの５人が音声会議装置１１１に対してそれぞれ方位Ｄｉｒ１１，Ｄｉｒ１２，Ｄｉｒ１４，Ｄｉｒ１５，Ｄｉｒ１８で在席している。地点ｂには、音声会議装置１１２が配置されており、該音声会議装置１１２を囲むように会議者Ｆ〜Ｉの４人が音声会議装置１１２に対してそれぞれ方位Ｄｉｒ２１，Ｄｉｒ２４，Ｄｉｒ２６，Ｄｉｒ２８で在席している。
【００３８】
音声会議装置１１１、１１２は、図２に示すように、制御部１１、入出力Ｉ／Ｆ１２、放音指向性制御部１３、Ｄ／Ａコンバータ１４、放音アンプ１５、スピーカＳＰ１〜ＳＰ１６、マイクＭＩＣ１０１〜１１６、２０１〜２１６、収音アンプ１６、Ａ／Ｄコンバータ１７、収音ビーム生成部１８、収音ビーム選択部１９、エコーキャンセル回路２０、操作部３１、表示部３２を備える。制御部１１は、音声会議装置１１１，１１２の全体制御を行う。入出力Ｉ／Ｆ１２はネットワーク１００に接続し、ネットワーク１００を介して入力された相手装置からの音声ファイルを、ネットワーク形式のデータから一般的な音声信号に変換してエコーキャンセル回路２０を介して放音指向性制御部１３に出力する。この際、制御部１１は、入力音声信号に添付された方位データを取得して、放音指向性制御部１３に対して放音制御を行う。
【００３９】
放音指向性制御部１３は、放音制御内容に応じてスピーカＳＰ１〜ＳＰ１６に対する放音音声信号を生成する。スピーカＳＰ１〜ＳＰ１６に対する放音音声信号は、入力音声データを遅延制御や振幅制御等の信号制御処理を行うことにより形成される。Ｄ／Ａコンバータ１４はディジタル形式の放音音声信号をアナログ形式に変換し、放音アンプ１５は放音音声信号を増幅してスピーカＳＰ１〜ＳＰ１６に与え、スピーカＳＰ１〜ＳＰ１６は、放音音声信号を音声変換して放音する。これにより、自装置の会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
【００４０】
マイクＭＩＣ１０１〜１１６、２０１〜２１６は自装置の会議者の発声音を含む周囲の音を収音して電気信号変換し、収音音声信号を生成する。収音アンプ１６は収音音声信号を増幅し、Ａ／Ｄコンバータ１７はアナログ形式の収音音声信号を所定のサンプリング間隔で順次ディジタル形式に変換する。
【００４１】
収音ビーム生成部１８は、マイクＭＩＣ１０１〜１１６、２０１〜２１６の収音信号に対して遅延処理等を行い、所定方位に強い指向性を有する収音ビーム音声信号ＭＢ１〜ＭＢ８を生成する。収音ビーム音声信号ＭＢ１〜ＭＢ８はそれぞれ異なる方位に強い指向性を有するように設定されている。図１の音声会議装置１１１であれば、ＭＢ１を方位Ｄｉｒ１１に、ＭＢ２を方位Ｄｉｒ１２に、ＭＢ３を方位Ｄｉｒ１３に、ＭＢ４を方位Ｄｉｒ１４に、ＭＢ５を方位Ｄｉｒ１５に、ＭＢ６を方位Ｄｉｒ１６に、ＭＢ７を方位Ｄｉｒ１７に、ＭＢ８を方位Ｄｉｒ１８に設定される。一方、音声会議装置１１２であれば、ＭＢ１を方位Ｄｉｒ２１に、ＭＢ２を方位Ｄｉｒ２２に、ＭＢ３を方位Ｄｉｒ２３に、ＭＢ４を方位Ｄｉｒ２４に、ＭＢ５を方位Ｄｉｒ２５に、ＭＢ６を方位Ｄｉｒ２６に、ＭＢ７を方位Ｄｉｒ２７に、ＭＢ８を方位Ｄｉｒ２８に設定される。
【００４２】
収音ビーム選択部１９は、収音ビーム音声信号ＭＢ１〜ＭＢ８の信号強度を比較して、最も強度の高い収音ビーム音声信号を選択し、収音ビーム音声信号ＭＢとしてエコーキャンセル回路２０に出力する。収音ビーム選択部１９は、選択した収音ビーム音声信号ＭＢに対応する方位Ｄｉｒを検出して制御部１１に与える。エコーキャンセル回路２０は、適応型フィルタ２１で入力音声信号に基づいて擬似回帰音信号を生成して、ポストプロセッサ２２で収音ビーム音声信号ＭＢから擬似回帰音信号を減算する。これにより、スピーカＳＰからマイクＭＩＣへの回り込み音を抑圧する。入出力Ｉ／Ｆ１２は、エコーキャンセル回路２０からの収音ビーム音声信号ＭＢをネットワーク形式で所定データ長からなる音声ファイルに変換し、制御部１１から得られる方位データと収音時間データとを添付して、順次ネットワーク１００に出力する。これら音声ファイル、方位データ、収音時間データ、および自装置を示す装置データを含み送信されるデータを通信音声データとする。
【００４３】
このような構成により、ネットワーク１００に接続された音声会議装置１１１，１１２で多地点会議を行うことができる。
【００４４】
録音サーバ１０１は、制御部１、記録部５、およびネットワークＩ／Ｆ６を備える。この録音サーバ１０１は、音声会議装置１１１，１１２のいずれかと同じ場所に配置しても、これらとは全く異なる場所に配置してもよい。
制御部１は、音声データ解析部２、方位・話者同定部３、音声状況データ生成部４を備えるとともに、ネットワークＩ／Ｆ６に対するネットワーク通信制御や記録部５に対する記録制御等からなる録音サーバ１０１の全体制御を行う。そして、制御部１は例えば１つの演算処理用チップと、ＲＯＭと、演算用メモリであるＲＡＭ等により構成され、ＲＯＭに記憶された音声データ解析プログラム、方位・話者同定プログラム、音声状況データ生成プログラムを実行することにより、音声データ解析部２、方位・話者同定部３、音声状況データ生成部４として機能する。
音声データ解析部２は、音声会議装置間で通信される通信音声データをネットワークＩ／Ｆ６を介して取得し、解析する。音声データ解析部２は、通信音声データから音声ファイル、収音時間データ、方位データ、装置データを取得する。
【００４５】
方位・話者同定部３は、所定時間に亘る方位データの変化に基づいて、取得したそのままの方位データ、話者名データ、または方位未検出データを音声状況データ生成部４に与える。
【００４６】
音声状況データ生成部４は、与えられた方位データ、話者名データ、方位未検出データの時間変化に基づいて、音声ファイルの該当部に関連付けした状態で音声状況データを生成する。
【００４７】
なお、これら音声データ解析部２、方位・話者同定部３、音声状況データ生成部４、すなわち制御部１の具体的な処理内容については、図４を用いて後述する。
【００４８】
記録部５は、大容量のハードディスク装置等からなり、音声ファイル記録部５１、音声状況データ記録部５２、話者音声ＤＢ５３を備える。音声ファイル記録部５１は、音声データ解析部２で取得した音声ファイルを順次記録し、音声状況データ記録部５２は、音声状況データ生成部４で生成した音声状況データを順次記録する。
【００４９】
話者音声ＤＢ５３は、通信会議を行う各会議者（話者）の音声特徴量をデータベース化して記憶したものである。
図４は話者音声ＤＢ５３の構成を示す概略図である。
図４に示すように、話者音声ＤＢ５３は、話者名データＳｉと音声特徴量データＳｃと装置データＡｐとを関連付けして記憶する。例えば、図１に示すような会議の場合、地点ａに在席する各話者Ａ〜Ｅにそれぞれ話者名データＳｉＡ〜ＳｉＥが割り当てられるとともに、音声会議装置１１１に対応する装置データＡｐ１１１が割り当てられて記憶される。そして、各話者Ａ〜Ｅの音声をそれぞれに解析して得られる音声特徴量（フォルマント等）が、各話者Ａ〜Ｅ（話者名データＳｉＡ〜ＳｉＥ）にそれぞれ対応して音声特徴量データＳｃＡ〜ＳｃＥとして記憶される。また、地点ｂに在席する各話者Ｆ〜Ｉにそれぞれ話者名データＳｉＦ〜ＳｉＩが割り当てられるとともに、音声会議装置１１２に対応する装置データＡｐ１１２が割り当てられて記憶される。そして、各話者Ｆ〜Ｉの音声をそれぞれに解析して得られる音声特徴量（フォルマント等）が、各話者Ｆ〜Ｉ（話者名データＳｉＦ〜ＳｉＩ）にそれぞれ対応して音声特徴量データＳｃＦ〜ＳｃＩとして記憶される。
【００５０】
これらの関連付けは、予め会議前に各会議者が個別に発声して自分の発声音および話者名を登録することにより実現できる。また、会議の進行中に、録音サーバ１０１の音声データ解析部２が、順次話者名データＳｉと音声特徴量データＳｃとを自動的に関連付けして、話者音声ＤＢ５３を更新記録していくことでも実現できる。
【００５１】
次に、録音サーバ１０１の録音フローについて図５、図６を参照して説明する。
図５は録音サーバ１０１の録音処理フローを示すフローチャートである。
図６（Ａ）は地点ａの話者Ａが発言した状態を示す図であり、（Ｂ）は地点ａの話者Ａ，Ｅが同時に発言した状態を示す図である。
図７は地点ａの話者Ｅが移動しながら発言した状態を示す図である。
図８は録音サーバ１０１に記録された音声ファイル、音声状況データの概念図である。
録音サーバ１０１は、ネットワーク１００での通信音声データを監視し、会議開始トリガを検出すると録音を開始する（Ｓ１→Ｓ２）。この際、会議開始トリガは、ネットワーク１００に通信音声データが送受信されたことを検知することで得られ、例えば、各音声会議装置１１１，１１２が会議開始スイッチの押下により会議開始パルスを発して、録音サーバ１１１がこれを検知することにより得られる。また、録音サーバ１０１に録音開始スイッチが予め備えられており、この録音開始スイッチが押下されることにより会議開始トリガが得られる。
【００５２】
録音が開始されると、録音サーバ１０１（制御部１）は録音開始時間を取得し、音声状況データ生成部４は、この録音開始時刻を１つの音声状況データのタイトルとして保存する（Ｓ３）。
【００５３】
音声データ解析部２は、順次取得した通信音声データから音声ファイルを復元して、記録部５の音声ファイル記録部５１に記録する（Ｓ４）。
【００５４】
この際、音声データ解析部２は、取得した通信音声データから装置データを取得して記憶部５に与える。記憶部５は、与えられた装置データに従い、前記音声ファイルを装置別に順次音声ファイル記録部５１に記録する。なお、音声会議装置１１１，１１２は並行して音声ファイルをネットワークに出力するので、これらの音声ファイルを同時に記憶するため、記録サーバ１０１はマルチタスク処理を実行可能とするように構成されている。
【００５５】
音声データ解析部２は、通信音声データから装置データ、方位データ、収音時間データを取得し、方位・話者同定部３に与える（Ｓ５）。
【００５６】
方位・話者同定部３は、順次入力される方位データの変化を観測し、方位データが単方位を示し、且つ所定時間以上に亘り方位データの変化がないことを検出すると、単方位データである当該方位データを、話者識別データとして音声状況データ生成部４に与える（Ｓ６→Ｓ７）。この際、単方位データからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部４に与えられる。
【００５７】
例えば、図６（Ａ）に示すように、地点ａの話者Ａが継続的に発言する場合、方位データＤｉｒ１１が単方位データで認識され、当該方位データＤｉｒ１１が話者識別データとして音声状況データ生成部４に与えられる。
【００５８】
方位・話者同定部３は、方位データが前記単方位データではない（単方位で且つ時間変化有り）と判断すると、音声ファイルに対応する方位データが複数であるかを検出する。そして、方位・話者同定部３は同一の組み合わせからなる複数方位データが所定時間以上に亘り変化しないことを検出すると、当該複数方位データを、話者識別データとして音声状況データ生成部４に与える（Ｓ６→Ｓ８→Ｓ１０）。この際も、複数方位データからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部４に与えられる。
【００５９】
例えば、図６（Ｂ）に示すように、地点ａの話者Ａ，Ｅが同時に且つ継続的に発言する場合、方位データＤｉｒ１１，Ｄｉｒ１８の組み合わせが複数方位データで認識され、当該方位データＤｉｒ１１，Ｄｉｒ１８の組み合わせが話者識別データとして音声状況データ生成部４に与えられる。
【００６０】
方位・話者同定部３は、前述の２つの場合と異なり、方位データが前記所定時間内で変化することを検出すると、話者音声ＤＢ５３を読み出して話者同定を行う。具体的に、話者同定処理が選択されると、方位・話者同定部３は、音声データ解析部２に取得音声ファイルの解析を行わせ、当該音声ファイルの音声特徴量データ（フォルマント等）を取得する。方位・話者同定部３は、解析して取得した音声特徴量データを話者音声ＤＢ５３に記録されている各音声特徴量データＳｃと比較して、一致する音声特徴量データＳｃがあれば、当該音声特徴量データＳｃに対応する話者名データＳｉを選択する。方位・話者同定部３は、この選択した話者名データＳｉを話者識別データとして音声状況データ生成部４に与える（Ｓ６→Ｓ８→Ｓ９→Ｓ１１）。この際も、話者名データＳｉからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部４に与えられる。
【００６１】
例えば、図７に示すように、地点ａの話者Ｅが方位Ｄｉｒ１８から方位Ｄｉｒ１６へ移動しながら発言する場合、方位データが話者識別データとして認識されず、話者同定により得られた話者名データＳｉＥが話者識別データとして音声状況データ生成部４に与えられる。なお、この説明では、話者Ｅが単独で移動する場合を示したが、複数の話者が発言しながら同時に移動するような場合には、複数の話者名データの組み合わせが話者識別データとして音声状況データ生成部４に与えられる。
【００６２】
方位・話者同定部３は、上記のいずれの場合にも該当しないと判断すると、方位未検出データを話者識別データとして音声状況データ生成部４に与える（Ｓ６→Ｓ８→Ｓ９→Ｓ１２）。
【００６３】
音声状況データ生成部４は、方位・話者同定部３から順次与えられる話者識別データを、対応する音声ファイルに関連付けし、時系列に並べた形式のデータである音声状況データを生成する。そして、音声状況データ生成部４は、音声状況データを記録部５の音声状況データ記録部５２に記録する（Ｓ１３）。
【００６４】
このような方位・話者同定と、音声状況データの生成、記録処理と、音声ファイルの記録処理とは、録音終了トリガが検出されるまで繰り返し行われる（Ｓ１４→Ｓ４）。
【００６５】
そして、録音終了トリガが検出されれば、制御部１は録音終了処理を行う（Ｓ１４→Ｓ１５）。なお、録音終了トリガは、ネットワーク１００に接続された音声会議装置１１１，１１２の会議終了スイッチ押下や電源オフ等を検出することにより得られる。制御部１は、最終の音声状況データを生成、記録するとともに、音声状況データ記録部５２に記録された各音声状況データを録音開始時に取得したタイトルでグループ化するグループ化指示データを生成して音声状況データ記録部５２に記録する。
【００６６】
このような構成と処理とにより、図８に示すように、音声ファイル記録部５１には、経時的に連続する音声ファイルが装置毎に記録される。この際、音声ファイルは、音声状況データ記録部５２に記録された音声状況データの話者識別データ毎により区分される。すなわち、方位データ、話者名データ、方位未検出データで区分される。以下、この区分化された音声ファイルのそれぞれを区分化音声データと称する。
【００６７】
例えば、地点ａの音声ファイルであれば、方位データＤｉｒ１１〜Ｄｉｒ１８のいずれかからなる単方位データの音声ファイル、方位データＤｉｒ１１〜Ｄｉｒ１８のうちの複数を組み合わせてなる複数方位データの音声ファイル、話者名データＳｉＡ〜ＳｉＥのいずれかからなる話者名データの音声ファイル、方位未検出データＵｎＫｎｏｗｎの音声ファイル、有効な収音声の無い無音部に対応する音声ファイルで区分される。そして、区分化音声ファイルのそれぞれには、区分の開始時間データが関連付けされている。ここで、図８に示す例では、音声会議装置１１１を利用する会議者が５人であるのに対し、記録されている方位データが４個（Ｄｉｒ１１，Ｄｉｒ１２，Ｄｉｒ１５，Ｄｉｒ１８）であり、話者名データが１個（ＳｉＥ）であり、方位未検出データが１個であり、音声状況データにはこれらのデータしか記録されない。すなわち、発言のない話者に関する話者識別データは音声状況データに記録されない。
【００６８】
このように、本実施形態の構成および処理を用いることで、方位（単方位、複数の組み合わせによる方位）および話者名と、方位も話者名も分からないが発言があったことを示す方位未検出情報とにより、確実に話者を区別した状態で会議者の発言を記録することができる。
【００６９】
また、元々話者識別要素であり通信音声データに含まれる方位データを用いて話者識別データを生成する方が、音声特徴量を解析してデータベースと比較することで話者同定して話者識別データを生成するよりも、当然に同定処理が簡素で且つ高速となる。したがって、本実施形態の構成を用いることにより、従来の全てを音声特徴量で同定する方法よりも、高速で話者識別データを生成することができ、リアルタイム性に優れる。
【００７０】
また、各発言に関する区分化音声ファイルは、会議の経過時刻に関する時間データが関連付けされているので、各会議者、地点の議事の進行状況をも含んで議事録を記録することができる。これにより、後述するような議事録作成処理を行う場合に、議事録作成者に対して使い勝手の良い会議の記録データを提供することができる。
【００７１】
次に、議事録作成時の構成および処理について説明する。
図９は議事録作成時の音声通信システムの構成図である。
図１０は図９に示すパソコン１０２の主要構成を示すブロック図である。
図１１は編集アプリ実行時にパソコン１０２の表示部１２３に表示される表示画像を示す図であり、（Ａ）が初期状態、（Ｂ）が編集後状態を示す。
【００７２】
図９に示すように、議事録作成時には、議事録作成者はパソコン１０２をネットワーク１００に接続する。この際、ネットワーク１００には、録音サーバ１０１がＯＮ状態で接続され、音声会議装置１１１，１１２は接続されていない。なお、音声会議装置１１１，１１２はネットワーク１００に接続されていてもよいが、議事録作成処理とは無関係であるので、実質的に接続していないのと同じである。
【００７３】
パソコン１０２は、ＣＰＵ１２１、ハードディスク等の記憶部１２２、表示部１２３、操作入力部１２４、ネットワークＩ／Ｆ１２５、スピーカ１２６を備える。
【００７４】
ＣＰＵ１２１は通常のパソコンの処理制御を行うとともに、記憶部１２２に記憶されている、編集アプリや再生アプリを読み出して実行することで、音声状況データの内容をタイムチャート的に表示する表示手段、音声状況データを編集する編集手段や、音声ファイルの再生手段として機能する。
【００７５】
記憶部１２２は、ハードディスク等の磁気ディスクやメモリからなり、編集アプリや再生アプリを記憶するとともに、ＣＰＵ１２１が各機能を実行する際の作業部として利用される。なお、本実施形態では編集アプリに表示アプリも含まれているが、編集アプリと表示アプリとを別にしてもよい。
【００７６】
表示部１２３は、液晶ディスプレイ等により構成され、ＣＰＵ１２１で編集アプリが実行されると、編集アプリ内の表示アプリが起動してＣＰＵ１２１から表示画像情報が与えられ図１１に示すような画像を表示する。
【００７７】
操作入力部１２４は、キーボードやマウスからなり、ユーザ（議事録作成者）の操作入力を受け付けてＣＰＵ１２１に与える。例えば、マウスで表示画面上のカーソルを移動させ、該当位置でマウスをクリックすることにより、クリック情報がＣＰＵ１２１に与えられ、ＣＰＵ１２１はクリック位置とクリック状況から操作入力内容を判断して後述するような所定の編集、再生処理を行う。
【００７８】
ネットワークＩ／Ｆ１２５は、パソコン１０２をネットワーク１００に接続させる機能部であり、ＣＰＵ１２１からの通信制御に応じて、ＣＰＵ１２１からの制御信号や、録音サーバ１０１から音声状況データおよび音声ファイルを通信する。
【００７９】
スピーカ１２６は、ＣＰＵ１２１の制御に従い音声ファイルを放音する。
【００８０】
次に、音声状況データの編集方法について図１１を参照しながら詳述する。
議事録作成者が会議後にパソコン１０２を操作して編集アプリを実行すると、パソコン１０２は、録音サーバ１０１から音声状況データを取得し、図１１（Ａ）に示すような画面を表示する。
【００８１】
図１１（Ａ）に示すように編集画面は、表題表示部２０１、タイムチャート表示部２０２、を備える。タイムチャート表示部２０２は、各音声ファイルを示すバーグラフ２０３、話者識別情報表示部２０４、装置・地点表示部２０５、内容表示部２０６を備える。
【００８２】
（１）表題表示部２０１
初期状態で、図１１（Ａ）に示すように表題表示部２０１には音声状況ファイルのファイル名に相当する、議事録記録年月日が表示される。議事録作成者がマウスを用いて表題表示部２０１を選択すると、表題表示部２０１は編集可能となる。そして、議事録作成者が、会議名である「商品販売検討会議」をキーボード等で入力すると、図１１（Ｂ）に示すように表題表示部２０１には、「商品販売検討会議」が表示される。ＣＰＵ１２１は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、音声状況ファイルに表題名が「商品販売検討会議」であることを関連付けする。この場合、音声状況ファイル名を直接「商品販売検討会議」に変更して、録音サーバ１０１に記憶させても良い。これにより、表題が単なる年月日表示から具体的な会議名の表示になるので、後からでも容易に議事録を認識することができる。
【００８３】
（２）タイムチャート表示部２０２
タイムチャート表示部２０２は、音声状況ファイルから得られる区分化の情報に従い、各区分化音声ファイルを話者識別情報別で時系列に並べてバーグラフ２０３として表示する。この際、バーグラフ２０３の長さは区分化音声ファイルの時間長を表す。この際、話者識別情報は話者識別情報表示部２０４に表示される。
【００８４】
各話者識別表示部２０４には、図１１（Ａ）に示すように、音声状況ファイルから得られた方位データ（Ｄｉｒ１１，Ｄｉｒ１１＋Ｄｉｒ１８，Ｄｉｒ１５，Ｄｉｒ１２，Ｄｉｒ２１，Ｄｉｒ２４，Ｄｉｒ２６，Ｄｉｒ２８）と、話者名データ（ＳｉＥ）と、方位未検出データ（ＵｎＫｎｏｗｎ）とが初期状態で表示される。議事録作成者がマウスを用いて話者識別情報表示部２０４を選択すると、話者識別情報表示部２０４は編集可能となる。
【００８５】
ここで、議事録作成者が各区分化音声ファイルをマウスでダブルクリックする等の操作を行えば、ＣＰＵ１２１はこれを認識して、該当する区分化音声ファイルを録音サーバ１０１から読み出して再生する。再生音はスピーカ１２６から議事録作成者に放音される。議事録作成者はこの音声を聞くことにより、各区分化音声ファイルに対応する話者を聴覚的に把握することができる。
【００８６】
そして、議事録作成者が、この再生音に基づいて話者識別データ毎に対応する会議者（話者）名をキーボード等で入力すると、話者識別情報表示部２０４には、図１１（Ｂ）に示すように、各話者識別データに対応した話者名（話者Ａ〜話者Ｉ）が表示される。ＣＰＵ１２１は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各話者識別データを、入力された話者名に置き換えて録音サーバ１０１に記憶させる。この際、各話者識別データと入力話者名とを対応付けして記録するようにしても良い。これにより、各区分化音声ファイルが明確に名前の分かる話者名で識別される。
【００８７】
なお、前述の再生において、話者識別情報表示部２０４の各話者識別データ部分をマウスでダブルクリックすると、ＣＰＵ１２１はこれを認識して、選択された話者識別情報表示部２０４の各話者識別データ部分に対応する区分化音声ファイルを録音サーバ１０１から読み出して再生することもできる。このような方法でも話者名を特定することができる。さらにこの方法を用いれば、会議全体をいちいち聞き直すことなく、必要な話者の発言のみを容易に抽出して聴き取ることができる。
【００８８】
装置・地点表示部２０５には、図１１（Ａ）に示すように、音声状況ファイルから得られた装置データ（Ａｐ１１１，Ａｐ１１２）が初期状態で表示される。議事録作成者がマウスを用いて装置・地点表示部２０５を選択すると、装置・地点表示部２０５は編集可能となる。そして、議事録作成者が、各装置の配置場所をキーボード等で入力すると、装置表示部２０５には、図１１（Ｂ）に示すように場所名（「本社」、「大阪支社」）が表示される。ＣＰＵ１２１は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各装置データに対応する場所名を関連付けする。この場合、装置データを場所名データに直接置き換えて、録音サーバ１０１に記憶させても良い。これにより、どの地点間で会議が行われたかを容易に識別することができる。
【００８９】
内容表示部２０６には、図１１（Ａ）に示すように初期状態では枠しか表示されない。議事録作成者がマウスを用いて内容表示部２０６を選択すると、内容表示部２０６は編集可能となる。そして、議事録作成者が議事内容をキーボード等で入力すると、内容表示部２０６には、図１１（Ｂ）に示すように議事内容（「会議の趣旨確認」、「コスト見積もり」、「マーケティング」）が表示される。この際、各内容表示部２０６は、それぞれ異なる色やパターンで表示される。そして、いずれかの内容表示部２０６を選択した状態で、各区分化音声ファイルのバーグラフ２０３を選択すると、これらが関連付けされて、内容表示部２０６と同じ色、パターンで表示される。ＣＰＵ１２１は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各内容表示部２０６に対応する議事内容を関連付けして記憶するとともに、さらに各区分化音声ファイルと議事内容とを関連付けして記憶する。なお、これらの情報は音声状況ファイルに付加されるものである。これにより、各区分化音声ファイルの内容を容易に識別することができる。
【００９０】
さらに、このように関連付けされた後、内容表示部２０６をマウスでダブルクリックすると、ＣＰＵ１２１はこれを認識して、選択された内容表示部２０６に関連付けされている区分化音声ファイルを録音サーバ１０１から読み出して再生する。これにより、会議全体をいちいち聞き直すことなく、必要な内容の部分のみを容易に抽出して聴き取ることができる。
【００９１】
以上のような構成および処理を用いることで、より分かりやすい議事録を簡単に形成することができる。また、会議の必要部のみを容易に聞き直すことができる。
【００９２】
ところで、議事録の初期表示パターンは、図１１（Ａ）に示すようなパターンに限らず、図１２（Ａ），（Ｂ）に示すようなパターンや、図１２（Ａ），（Ｂ）を組み合わせたようなパターンであってもよい。
【００９３】
図１２（Ａ），（Ｂ）はそれぞれ編集アプリ実行時の初期表示画像を示す図である。
【００９４】
図１１（Ａ）は、単方位、複数方位の組み合わせによる方位で区別することなく、話者識別データを並べて表示する方法を示したが、図１２（Ａ）に示すように、複数方位の組み合わせの場合には、それぞれの方位に分割してバーグラフ２０３を表示するようにしてもよい。また、図１２（Ｂ）に示すように話者識別データの表示順を優先させてバーグラフ２０３を表示するようにしてもよい。
【００９５】
また、話者音声ＤＢ５３において、図１３（Ａ）に示すように方位データをさらに追加することで、図１３（Ｂ）に示すように、初期状態から話者名のみで話者識別情報を表示することができる。
図１３（Ａ）は方位データをも含む話者音声ＤＢ５３の構成を示す概念図であり、（Ｂ）は図１３（Ａ）に示す話者音声ＤＢを用いた場合の編集画面の一例を示す図である。
【００９６】
図１３（Ａ）に示すように、話者音声ＤＢ５３には、話者名データＳｉＡ〜ＳｉＩ、音声特徴量データＳｃＡ〜ＳｃＩ、装置データＡｐ１１１，Ａｐ１１２とともに、各話者名データＳｉＡ〜ＳｉＩにそれぞれ対応する方位データＤｉｒ１１，Ｄｉｒ１２，Ｄｉｒ１４，Ｄｉｒ１５，Ｄｉｒ１８，Ｄｉｒ２１，Ｄｉｒ２４，Ｄｉｒ２６，Ｄｉｒ２８が、話者名データＳｉＡ〜ＳｉＩに関連付けされて記録されている。
【００９７】
ここで、話者名データＳｉと方位データＤｉｒの関連付けは、会議前に各会議者が個別に発声して自分の発声音および話者名と座席位置（方位）とを記録することにより実現できる。また、会議の進行中に、録音サーバ１０１の音声データ解析部２が、順次話者名データＳｉと方位データＤｉｒとの関連を自動的に検出して話者音声ＤＢ５３を更新記録していくことでも実現できる。
【００９８】
編集アプリが実行されると、パソコン１０２のＣＰＵ１２１は、音声状況データから話者識別データを読み出すとともに、図１３（Ａ）に示す話者音声ＤＢ５３を読み出して、方位データＤｉｒを話者名データＳｉに置き換える。そして、置き換えられた話者名データＳｉを、図１３（Ｂ）に示すように話者識別情報表示部２０４へ表示する。このような方法を用いることで、方位未検出データ以外は話者名で表示されるので、議事録作成者に対して、発言者がより分かりやすいように議事録編集画面を表示することができる。この方位データＤｉｒを話者名データＳｉに変換する処理は、編集時に行う場合に限らず、音声状況データの生成時に行ってもよい。
【００９９】
なお、前述の説明では、録音サーバ１０１と、音声状況ファイルの表示、編集装置であり、音声ファイルの再生装置であるパソコン１０２とがネットワーク接続される場合を示したが、パソコン１０２が録音サーバ１０１を備えるような構成としてもよい。
図１４はパソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。
図１４に示すように、録音サーバを兼用したパソコンは、音声データ解析部２と方位・話者同定部３と音声状況データ生成部４とを含む制御部（ＣＰＵ）１、記録部５、ネットワークＩ／Ｆ６、スピーカ７、操作入力部８、表示部９を備える。記録部５は、録音サーバとして記録部（図３の記録部５）とパソコンのアプリのための記憶部（図１０の記憶部１２２）とを兼ね備え、ネットワークＩ／Ｆ６は、録音サーバとしてのネットワークＩ／Ｆ（図３のネットワークＩ／Ｆ６）とパソコンとしてのネットワークＩ／Ｆ（図１０のネットワークＩ／Ｆ１２５）とを兼ね備える。制御部１はパソコンの制御部（ＣＰＵ）であるとともに、録音サーバの制御部として機能する。スピーカ７、操作入力部８、表示部９は、前述のパソコン１０２のスピーカ１２６、操作入力部１２４、表示部１２３とそれぞれ同じである。
【０１００】
このような構成とすることで、録音サーバ（音声ファイルの記録と音声状況ファイルの生成記録とを行う装置）、音声状況（会議発言状況）を可視化する装置、音声状況データの編集装置、音声ファイルの再生装置を一体形成することができる。なお、記録部はパソコンに内蔵される磁気記録装置であっても、外付けされる各種の記録装置であってもよい。
【０１０１】
また、前述の説明では、録音サーバ１０１と音声会議装置１１１，１１２とを別体形成した例を示したが、ネットワーク１００に接続する音声会議装置のうち、少なくともいずれか１つの音声会議装置に内蔵させても良い。
【０１０２】
図１５は録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
図１５に示すように、録音サーバを音声会議装置に内蔵させる場合、図２に示した構成に対して、記憶部３０を追加する。
【０１０３】
記憶部３０には、エコーキャンセル回路２０の収音ビーム音声信号ＭＢが入力されるとともに、入出力Ｉ／Ｆ１２からの入力音声信号が入力される。記憶部３０はこれらを音声ファイルとして記憶する。制御部１０は収音ビーム音声信号が記憶部３０に入力される場合、自身の装置データと収音ビーム選択部１９から得られる方位データと、収音時間データとを添付して記憶するとともに、前述の方位・話者同定を行って音声状況データを生成して記憶部３０に記憶する。また、制御部１０は入力音声信号が記憶部３０に入力される場合、入出力Ｉ／Ｆ１２から受信元の装置データ、入力音声信号に添付された方位データ、収音時間データを取得して、前述の方位・話者同定を行って記憶部３０の音声状況データを更新する。この際、まだ、音声状況データが生成、記憶されていなければ、音声状況データを生成、記憶する。
【０１０４】
このような構成とすることで、録音サーバを別途設ける必要が無く、議事録作成システムをより簡素な構造で実現することができる。なお、記憶部を備える音声会議装置はネットワークに接続する１台のみである必要はなく、複数台に備えさせても良い。
【０１０５】
また、音声会議装置に備えられる記憶部はあまり大きなものとすることができないので、音声会議装置に記憶部を備えさせるとともに、別途録音サーバを設けても良い。この場合、音声会議装置の記憶部で対応可能な時間までは、音声会議装置の記憶部で音声ファイルおよび音声状況データを記憶し続け、記憶部の容量が一杯となる時点で録音サーバに転送を行ってもよい。
【０１０６】
また、前述の説明では、ネットワークに接続する複数の音声会議装置で多地点会議を行う場合を示したが、単一の音声会議装置のみを使う場合であっても同時に方位を検出して収音音声信号に関連付けすることで同様の作用・効果を得ることができる。
【０１０７】
また、前述の説明では、議事録作成の場合を例に説明したが、他の多地点間の通信音声を記録する装置（システム）に対しても同様の作用・効果を得ることができる。
【図面の簡単な説明】
【０１０８】
【図１】本発明の実施形態の議事録作成システムの構成図である。
【図２】本実施形態の音声会議装置１１１，１１２の主要構成を示すブロック図である。
【図３】本実施形態の録音サーバ１０１の主要構成を示すブロック図である。
【図４】話者音声ＤＢ５３の構成を示す概略図である。
【図５】録音サーバ１０１の録音処理フローを示すフローチャートである。
【図６】地点ａの話者Ａが発言した状態を示す図、および、地点ａの話者Ａ，Ｅが同時に発言した状態を示す図である。
【図７】地点ａの話者Ｅが移動しながら発言した状態を示す図である。
【図８】録音サーバ１０１に記録された音声ファイル、音声状況データの概念図である。
【図９】議事録作成時の音声通信システムの構成図である。
【図１０】図９に示すパソコン１０２の主要構成を示すブロック図である。
【図１１】編集アプリ実行時にパソコン１０２の表示部１２３に表示される表示画像を示す図である。
【図１２】編集アプリ実行時の初期表示画像を示す図である。
【図１３】方位データをも含む話者音声ＤＢ５３の構成を示す概念図、および、話者音声ＤＢを用いた場合の編集画面の一例を示す図である。
【図１４】パソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。
【図１５】録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
【符号の説明】
【０１０９】
１００−ネットワーク、１０１−録音サーバ、１−制御部、２−音声データ解析部、３−方位・話者同定部、４−音声状況データ生成部、５−記録部、５１−音声ファイル記録部、５２−音声状況データ記録部、５３−話者音声ＤＢ、６−ネットワークＩ／Ｆ、１１１，１１２−音声会議装置

【特許請求の範囲】
【請求項１】
音声データと当該音声データの到来方向を示す方位データとを経時的に取得するデータ取得手段と、
各話者の話者音声特徴量を記憶する話者音声特徴データベースと、
取得したデータの方位データが所定時間に亘り単一方位を示して変化が無ければ、このデータを単方位データと判定し、
前記取得したデータの方位データが単方位データでない場合に、該取得したデータの音声データから音声特徴量を抽出して前記話者音声特徴量と比較することによって話者同定を行い、
話者同定されなければこのデータを方位未検出データとし、同定話者が複数で且つ所定時間に亘り変化がなければこのデータを複数方位データとし、同定話者の方位データが変化すれば同定話者に対応する話者名データとする方位・話者同定手段と、
前記単方位データ、前記方位未検出データ、複数方位データ、話者名データの判定結果の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、
前記音声データおよび前記音声状況データを記憶する記憶手段と、
を備えたことを特徴とする音声状況データ生成装置。
【請求項２】
前記方位・話者同定手段は、通信中に入力される話者音声から得られる話者音声特徴量に基づいて随時話者音声特徴データベースの更新を行う請求項１に記載の音声状況データ生成装置。
【請求項３】
請求項１または請求項２に記載の音声状況データ生成装置と、
前記音声状況データに基づいて前記音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、
を備えたことを特徴とする音声状況可視化装置。
【請求項４】
請求項３に記載の音声状況可視化装置と、
前記音声状況データを編集する操作入力を受け付ける操作受付手段と、
該操作受付手段により受け付けた編集内容を解析して、前記音声状況データを編集するデータ編集手段と、
を備えたことを特徴とする音声状況データ編集装置。
【請求項５】
請求項４に記載の音声状況データ編集装置と、
前記操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、
を備えたことを特徴とする音声データ再生装置。
【請求項６】
複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
請求項１または請求項２に記載の音声状況データ生成装置、請求項３に記載の音声状況可視化装置、請求項４に記載の音声状況データ編集装置、請求項５に記載の音声データ再生装置のいずれかは、前記複数の放収音装置とは別体でネットワークに接続され、
前記データ取得手段は、前記複数の放収音装置間で通信される音声データと方位データとを取得することを特徴とする音声通信システム。
【請求項７】
複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
請求項１または請求項２に記載の音声状況データ生成装置、請求項３に記載の音声状況可視化装置、請求項４に記載の音声状況データ編集装置、請求項５に記載の音声データ再生装置のいずれかは、前記複数の放収音装置のいずれか１台に内蔵され、
前記データ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと方位データとを取得することを特徴とする音声通信システム。
【請求項８】
前記放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、前記選択された収音ビーム信号を音声データとし、前記検出した方位を方位データとして出力する請求項６または請求項７に記載の音声通信システム。

【図１】