音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
【課題】複数の音源からの音声データを経時的に記録したデータを利用する際に、利用者に対して使い勝手の良い状態でデータを提供する。
【解決手段】制御部1の方位・話者同定部3は、音声通信データから得られる方位データの変化を観測し、単方位を示す方位データまたは複数方位を示す方位データで且つ所定時間に亘り変化がなければ、それぞれ単方位データおよび複数方位の組み合わせ方位データを話者識別データとする。方位・話者同定部3は、所定時間内で方位データの変化があれば話者音声DB53から音声特徴量データScを読み出し、音声データ解析部2で解析された音声特徴量と比較して話者同定を行い、話者同定されれば話者名データを話者識別データとし、同定されなければ方位未検出データを話者識別データとする。音声状況データ生成部4はこれら話者識別データの時間変化に基づいて音声状況データを生成する。
【解決手段】制御部1の方位・話者同定部3は、音声通信データから得られる方位データの変化を観測し、単方位を示す方位データまたは複数方位を示す方位データで且つ所定時間に亘り変化がなければ、それぞれ単方位データおよび複数方位の組み合わせ方位データを話者識別データとする。方位・話者同定部3は、所定時間内で方位データの変化があれば話者音声DB53から音声特徴量データScを読み出し、音声データ解析部2で解析された音声特徴量と比較して話者同定を行い、話者同定されれば話者名データを話者識別データとし、同定されなければ方位未検出データを話者識別データとする。音声状況データ生成部4はこれら話者識別データの時間変化に基づいて音声状況データを生成する。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、会議音声等の音声を記録して利用する装置およびシステムに関するものである。
【背景技術】
【0002】
多地点をネットワークで結んで音声会議を行う音声会議システムが各種考案されている(例えば、特許文献1,2参照)。
【0003】
このような音声会議システムでは、会議を行う各地点(会議室)に音声会議装置が配置され、各音声会議装置に対して一人または複数の会議者が在席する。各音声会議装置は、自室内の会議者の発言を収音して音声データ化し、ネットワークを介して相手先の音声会議装置に送信する。また、各音声会議装置は、相手先の音声会議装置からの音声データを受信すれば音声化して放音する。
【0004】
そして、特許文献1に記載の音声会議システムでは、RFIDタグとマイクとを各会議者の近傍に配置し、音声会議装置は、マイクで収音すると、収音音声信号と対応するRFIDタグにより得られる会議者情報とを関連付けして送信する。
【0005】
この音声会議システムには録音サーバが備えられており、録音サーバに録音される収音音声信号には前記会議者情報が関連付けされている。
【0006】
また、特許文献2に記載の話者照合方法では、音声会議装置の処理として、入力音声信号を所定時間単位に分割して、各音声区間の特徴量から話者を検出する。
【特許文献1】特開2005−80110公報
【特許文献2】特許第2816163号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1に記載の音声通信システムでは、会議後に会議参加者の1人が議事録作成等のために、録音サーバにパソコン等を接続して記録された音声データを再生すると、関連付けされた会議者情報が表示される。
【0008】
しかしながら、特許文献1の音声通信システムでは、単に時系列で録音サーバに記憶された音声データを選択することで、対応する会議者を初めて知ることができるため、特定の会議者の発言を抽出したり、記録された会議の全体の流れ(状況)を把握したりすることが容易ではできなかった。
【0009】
また、音声データや会議者情報から得られる音声状況(会議状況)に基づいて各音声データを区分化する等の編集を行い、この音声状況を記憶しておくことができなかった。
【0010】
このため、会議後等に録音サーバに記録された音声データを利用する際に、利用者が使い辛いものとなってしまっていた。
【0011】
また、特許文献2に記載の話者照合方法では、話者音声の解析を随時行いながら相手先に送信しなければならず処理負荷が大きかった。また、この負荷を軽減させるため音声解析を簡素化すると話者の検出精度が低下し、正確な話者情報を取得することが難しかった。
【0012】
したがって、この発明の目的は、多地点音声会議後に議事録を作成する等のように、複数の音源からの音声データを経時的に記録したデータを利用する際に、簡素な処理で音声データに対する話者特定情報を検出して、音声データに関連付けして記憶し、利用者に対して使い勝手の良い状態でデータを提供することにある。
【課題を解決するための手段】
【0013】
この発明の音声状況データ生成装置は、音声データと当該音声データの到来方向を示す方位データとを経時的に取得するデータ取得手段と、各話者の話者音声特徴量を記憶する話者音声特徴データベースと、
(1)取得したデータの方位データが所定時間に亘り単一方位を示して変化が無ければ、このデータを単方位データと判定し、(2)取得したデータの方位データが単方位データでない場合に、該取得したデータの音声データから音声特徴量を抽出して話者音声特徴量と比較することによって話者同定を行い、(3)話者同定されなければこのデータを方位未検出データとし、(4)同定話者が複数で且つ所定時間に亘り変化がなければこのデータを複数方位データとし、(5)同定話者の方位データが変化すれば同定話者に対応する話者名データとする方位・話者同定手段と、
単方位データ、方位未検出データ、複数方位データ、話者名データの判定結果の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、
音声データおよび前記音声状況データを記憶する記憶手段と、を備えたことを特徴としている。
【0014】
この構成では、音声データとともに当該音声データに関連付けされた方位データが取得される。継続的に入力される音声データの方位データが単方位を示し、所定時間変化しないと、一話者が継続的に発言していると見なして単方位データが設定される。方位データが所定時間中に変化したり単方位でないと、話者音声特徴データベースに記憶された話者音声特徴量に基づいて話者同定が行われる。この話者同定の結果、データベースに一致する話者がいなければ、方位未検出データが設定される。データベースに一致する話者が複数であり、所定時間内で変化が無ければ、複数方位データが設定される。データベースに一致する話者が単数であれば(方位は随時変化)、話者名データが設定される。これらの話者識別データ(単方位データ、方位未検出データ、複数方位データ、話者名データ)の変化は時系列に解析され、この時系列の解析結果が音声状況データとして生成される。
【0015】
このような構成により、まず方位データで話者識別をして、音声特徴量で話者識別をすることになるので、全てを音声特徴量で解析するよりも、簡素で正確に話者識別が行われる。
【0016】
具体的に、音声会議の議事録作成の場合であれば、比較的容易に発言者情報が得られ、発言内容(音声データ)と関連付けして記憶される。また、議事録作成者が会議後にこれらのデータを利用する際に、方位データおよび話者名データにより会議者が識別され、時間データにより発言時間が識別されるので、発言者が1人でも複数人でも移動していても、各会議者の発言タイミングが容易に識別される。また、会議全体の発言状況(会議の流れ)が容易に識別される。
【0017】
また、この発明の音声状況データ生成装置の方位・話者同定手段は、通信中に入力される話者音声から得られる話者音声特徴量に基づいて随時話者音声特徴データベースの更新を行うことを特徴としている。
【0018】
この構成では、予め話者音声特徴データベースを構築しておかなくても、順次更新記憶していくことで、話者音声特徴データベースが構築される。
【0019】
また、この発明の音声状況可視化装置は、前述の音声状況データ生成装置の各手段と、音声状況データに基づいて音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、を備えたことを特徴としている。
【0020】
この構成では、表示手段により、時間区分化された音声データが方位別および話者別で時系列にグラフ表示されることで、利用者へ視覚的に音声状況が提供される。表示手段とは、具体的に液晶ディスプレイ等の表示器と、表示器上に画像を映し出す制御部および表示アプリケーションとを有し、制御部が表示アプリケーションを実行することで、音声状況データに基づいて、音声データ全体を方位別および話者別で時系列に区分した区分化音声データがタイムチャートのように表示される。これにより、利用者に対して、音声状況がより分かりやすく提供される。
【0021】
具体的に、前述の音声会議の議事録作成の場合であれば、各会議者の発言タイミングや会議全体の発言状況がタイムチャート等で表示され、議事録作成者へ視覚的に提供される。これにより、議事録作成者に対して会議の発言状況等がより分かりやすく提供される。
【0022】
また、この発明の音声状況データ編集装置は、前述の音声状況可視化装置と、音声状況データを編集する操作入力を受け付ける操作受付手段と、該操作受付手段により受け付けた編集内容を解析して音声状況データを編集するデータ編集手段と、を備えたことを特徴としている。
【0023】
この構成では、データ編集手段により、音声状況データの各項目が変更される。この際、利用者からの操作は操作受付手段により受け付けられる。例えば、方位と話者との関係が分かっており、方位名を話者名に変更したい場合には、利用者は操作受付手段により方位名変更の操作を行う。操作受付手段はこの操作を受け付けてデータ編集手段に与える。データ編集手段は、データ編集アプリケーションを有し、前記制御部でデータ編集アプリケーションを実行することで、指示された内容にしたがい方位名を話者名に変更し、音声状況データの更新記録を行う。
【0024】
具体的に、前述の音声会議の議事録作成の場合であれば、方位名を会議者名に変更する等の操作が可能となる。これにより、会議者が直接的に分からない方位名ではなく、会議者名がそのまま表示されるので、より分かりやすい議事録が作成される。
【0025】
また、この発明の音声データ再生装置は、前述の音声状況データ編集装置と、操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、を備えたことを特徴としている。
【0026】
この構成では、操作受付手段を操作することで、区分化音声データが選択されると、該当する区分化音声データが再生手段により再生される。これにより、各区分化音声データを、会議後に再度聴くことができる。また、前述の編集時に各区分化音声データの再生音を聴くことで、話者の特定を聴覚的にも行うことができる。
【0027】
具体的に、前述の音声会議の議事録作成の場合であれば、各区分化音声データを選択して再生することで、会議者を聴覚的に特定することができるとともに、どの会議者が何を話したかを、会議後であっても確実に知ることができる。
【0028】
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置とは別体でネットワークに接続されており、各装置のデータ取得手段は、複数の放収音装置間で通信される音声データと方位データとを取得することを特徴としている。
【0029】
この構成では、各放収音装置で収音した音声データがネットワークを介して前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置(以下、総称して「音声データ処理装置」とする。)に入力される。このように、放収音装置と音声データ処理装置とが別体で構成されていることで、膨大な記憶容量を要する音声データ処理装置を、比較的小型化が要求される放収音装置に備え付ける必要がなくなる。
【0030】
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置のいずれか1台に内蔵されており、各装置のデータ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと方位データとを取得することを特徴としている。
【0031】
この構成では、前述の音声データ処理装置を放収音装置に備える。これにより、サーバレスで音声通信を記録することができる。
【0032】
また、この発明の音声通信システムの放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、選択された収音ビーム信号を音声データとし、検出した方位を方位データとして出力することを特徴としている。
【0033】
この構成では、放収音装置は、マイクアレイの各マイクの収音音声信号から複数の収音ビーム信号を形成して、最も信号強度の高い収音ビーム信号を選択するとともに、当該収音ビーム信号に対応する方位を検出する。そして、放収音装置は、選択した収音ビーム信号を音声データとし、検出方位を方位データとして出力する。これにより、従来のように、会議者を識別するRFIDタグ等を必要としないので、より簡素に音声通信システムが構成される。また、音声特徴量による処理を行わないので、識別負荷が低減し、且つ方位情報を用いることで識別精度が向上する。
【発明の効果】
【0034】
この発明によれば、複数の音源からの音声データを経時的に記録したデータを利用する場合に、利用者に対して使い勝手の良い状態でデータを比較的簡素な処理により形成して提供することができる。具体例として、多地点会議システムで各会議者の発言を記録しておくような場合に、各会議者の発言をタイムチャート等により、より分かりやすく議事録作成者に提供することができる。
【0035】
また、この発明によれば、収音信号により話者方向を自動検出する放収音装置を用いることで、音声通信システムおよびこのシステムで通信される音声データの記録を、従来よりも簡素な構成で実現することができる。
【発明を実施するための最良の形態】
【0036】
以下の実施形態では具体的なシステム例として議事録作成システムについて説明する。
本発明の実施形態に係る議事録作成システムについて図を参照して説明する。
図1は本実施形態の議事録作成システムの構成図である。
図2は本実施形態の音声会議装置111,112の主要構成を示すブロック図である。
図3は本実施形態の録音サーバ101の主要構成を示すブロック図である。
本実施形態の議事録作成システムは、ネットワーク100に接続された音声会議装置111,112と、録音サーバ101とを備える。
【0037】
音声会議装置111、112は、それぞれ離れた地点a、地点bにそれぞれ配置されている。地点aには、音声会議装置111が配置されており、該音声会議装置111を囲むように話者A〜Eの5人が音声会議装置111に対してそれぞれ方位Dir11,Dir12,Dir14,Dir15,Dir18で在席している。地点bには、音声会議装置112が配置されており、該音声会議装置112を囲むように会議者F〜Iの4人が音声会議装置112に対してそれぞれ方位Dir21,Dir24,Dir26,Dir28で在席している。
【0038】
音声会議装置111、112は、図2に示すように、制御部11、入出力I/F12、放音指向性制御部13、D/Aコンバータ14、放音アンプ15、スピーカSP1〜SP16、マイクMIC101〜116、201〜216、収音アンプ16、A/Dコンバータ17、収音ビーム生成部18、収音ビーム選択部19、エコーキャンセル回路20、操作部31、表示部32を備える。制御部11は、音声会議装置111,112の全体制御を行う。入出力I/F12はネットワーク100に接続し、ネットワーク100を介して入力された相手装置からの音声ファイルを、ネットワーク形式のデータから一般的な音声信号に変換してエコーキャンセル回路20を介して放音指向性制御部13に出力する。この際、制御部11は、入力音声信号に添付された方位データを取得して、放音指向性制御部13に対して放音制御を行う。
【0039】
放音指向性制御部13は、放音制御内容に応じてスピーカSP1〜SP16に対する放音音声信号を生成する。スピーカSP1〜SP16に対する放音音声信号は、入力音声データを遅延制御や振幅制御等の信号制御処理を行うことにより形成される。D/Aコンバータ14はディジタル形式の放音音声信号をアナログ形式に変換し、放音アンプ15は放音音声信号を増幅してスピーカSP1〜SP16に与え、スピーカSP1〜SP16は、放音音声信号を音声変換して放音する。これにより、自装置の会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
【0040】
マイクMIC101〜116、201〜216は自装置の会議者の発声音を含む周囲の音を収音して電気信号変換し、収音音声信号を生成する。収音アンプ16は収音音声信号を増幅し、A/Dコンバータ17はアナログ形式の収音音声信号を所定のサンプリング間隔で順次ディジタル形式に変換する。
【0041】
収音ビーム生成部18は、マイクMIC101〜116、201〜216の収音信号に対して遅延処理等を行い、所定方位に強い指向性を有する収音ビーム音声信号MB1〜MB8を生成する。収音ビーム音声信号MB1〜MB8はそれぞれ異なる方位に強い指向性を有するように設定されている。図1の音声会議装置111であれば、MB1を方位Dir11に、MB2を方位Dir12に、MB3を方位Dir13に、MB4を方位Dir14に、MB5を方位Dir15に、MB6を方位Dir16に、MB7を方位Dir17に、MB8を方位Dir18に設定される。一方、音声会議装置112であれば、MB1を方位Dir21に、MB2を方位Dir22に、MB3を方位Dir23に、MB4を方位Dir24に、MB5を方位Dir25に、MB6を方位Dir26に、MB7を方位Dir27に、MB8を方位Dir28に設定される。
【0042】
収音ビーム選択部19は、収音ビーム音声信号MB1〜MB8の信号強度を比較して、最も強度の高い収音ビーム音声信号を選択し、収音ビーム音声信号MBとしてエコーキャンセル回路20に出力する。収音ビーム選択部19は、選択した収音ビーム音声信号MBに対応する方位Dirを検出して制御部11に与える。エコーキャンセル回路20は、適応型フィルタ21で入力音声信号に基づいて擬似回帰音信号を生成して、ポストプロセッサ22で収音ビーム音声信号MBから擬似回帰音信号を減算する。これにより、スピーカSPからマイクMICへの回り込み音を抑圧する。入出力I/F12は、エコーキャンセル回路20からの収音ビーム音声信号MBをネットワーク形式で所定データ長からなる音声ファイルに変換し、制御部11から得られる方位データと収音時間データとを添付して、順次ネットワーク100に出力する。これら音声ファイル、方位データ、収音時間データ、および自装置を示す装置データを含み送信されるデータを通信音声データとする。
【0043】
このような構成により、ネットワーク100に接続された音声会議装置111,112で多地点会議を行うことができる。
【0044】
録音サーバ101は、制御部1、記録部5、およびネットワークI/F6を備える。この録音サーバ101は、音声会議装置111,112のいずれかと同じ場所に配置しても、これらとは全く異なる場所に配置してもよい。
制御部1は、音声データ解析部2、方位・話者同定部3、音声状況データ生成部4を備えるとともに、ネットワークI/F6に対するネットワーク通信制御や記録部5に対する記録制御等からなる録音サーバ101の全体制御を行う。そして、制御部1は例えば1つの演算処理用チップと、ROMと、演算用メモリであるRAM等により構成され、ROMに記憶された音声データ解析プログラム、方位・話者同定プログラム、音声状況データ生成プログラムを実行することにより、音声データ解析部2、方位・話者同定部3、音声状況データ生成部4として機能する。
音声データ解析部2は、音声会議装置間で通信される通信音声データをネットワークI/F6を介して取得し、解析する。音声データ解析部2は、通信音声データから音声ファイル、収音時間データ、方位データ、装置データを取得する。
【0045】
方位・話者同定部3は、所定時間に亘る方位データの変化に基づいて、取得したそのままの方位データ、話者名データ、または方位未検出データを音声状況データ生成部4に与える。
【0046】
音声状況データ生成部4は、与えられた方位データ、話者名データ、方位未検出データの時間変化に基づいて、音声ファイルの該当部に関連付けした状態で音声状況データを生成する。
【0047】
なお、これら音声データ解析部2、方位・話者同定部3、音声状況データ生成部4、すなわち制御部1の具体的な処理内容については、図4を用いて後述する。
【0048】
記録部5は、大容量のハードディスク装置等からなり、音声ファイル記録部51、音声状況データ記録部52、話者音声DB53を備える。音声ファイル記録部51は、音声データ解析部2で取得した音声ファイルを順次記録し、音声状況データ記録部52は、音声状況データ生成部4で生成した音声状況データを順次記録する。
【0049】
話者音声DB53は、通信会議を行う各会議者(話者)の音声特徴量をデータベース化して記憶したものである。
図4は話者音声DB53の構成を示す概略図である。
図4に示すように、話者音声DB53は、話者名データSiと音声特徴量データScと装置データApとを関連付けして記憶する。例えば、図1に示すような会議の場合、地点aに在席する各話者A〜Eにそれぞれ話者名データSiA〜SiEが割り当てられるとともに、音声会議装置111に対応する装置データAp111が割り当てられて記憶される。そして、各話者A〜Eの音声をそれぞれに解析して得られる音声特徴量(フォルマント等)が、各話者A〜E(話者名データSiA〜SiE)にそれぞれ対応して音声特徴量データScA〜ScEとして記憶される。また、地点bに在席する各話者F〜Iにそれぞれ話者名データSiF〜SiIが割り当てられるとともに、音声会議装置112に対応する装置データAp112が割り当てられて記憶される。そして、各話者F〜Iの音声をそれぞれに解析して得られる音声特徴量(フォルマント等)が、各話者F〜I(話者名データSiF〜SiI)にそれぞれ対応して音声特徴量データScF〜ScIとして記憶される。
【0050】
これらの関連付けは、予め会議前に各会議者が個別に発声して自分の発声音および話者名を登録することにより実現できる。また、会議の進行中に、録音サーバ101の音声データ解析部2が、順次話者名データSiと音声特徴量データScとを自動的に関連付けして、話者音声DB53を更新記録していくことでも実現できる。
【0051】
次に、録音サーバ101の録音フローについて図5、図6を参照して説明する。
図5は録音サーバ101の録音処理フローを示すフローチャートである。
図6(A)は地点aの話者Aが発言した状態を示す図であり、(B)は地点aの話者A,Eが同時に発言した状態を示す図である。
図7は地点aの話者Eが移動しながら発言した状態を示す図である。
図8は録音サーバ101に記録された音声ファイル、音声状況データの概念図である。
録音サーバ101は、ネットワーク100での通信音声データを監視し、会議開始トリガを検出すると録音を開始する(S1→S2)。この際、会議開始トリガは、ネットワーク100に通信音声データが送受信されたことを検知することで得られ、例えば、各音声会議装置111,112が会議開始スイッチの押下により会議開始パルスを発して、録音サーバ111がこれを検知することにより得られる。また、録音サーバ101に録音開始スイッチが予め備えられており、この録音開始スイッチが押下されることにより会議開始トリガが得られる。
【0052】
録音が開始されると、録音サーバ101(制御部1)は録音開始時間を取得し、音声状況データ生成部4は、この録音開始時刻を1つの音声状況データのタイトルとして保存する(S3)。
【0053】
音声データ解析部2は、順次取得した通信音声データから音声ファイルを復元して、記録部5の音声ファイル記録部51に記録する(S4)。
【0054】
この際、音声データ解析部2は、取得した通信音声データから装置データを取得して記憶部5に与える。記憶部5は、与えられた装置データに従い、前記音声ファイルを装置別に順次音声ファイル記録部51に記録する。なお、音声会議装置111,112は並行して音声ファイルをネットワークに出力するので、これらの音声ファイルを同時に記憶するため、記録サーバ101はマルチタスク処理を実行可能とするように構成されている。
【0055】
音声データ解析部2は、通信音声データから装置データ、方位データ、収音時間データを取得し、方位・話者同定部3に与える(S5)。
【0056】
方位・話者同定部3は、順次入力される方位データの変化を観測し、方位データが単方位を示し、且つ所定時間以上に亘り方位データの変化がないことを検出すると、単方位データである当該方位データを、話者識別データとして音声状況データ生成部4に与える(S6→S7)。この際、単方位データからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部4に与えられる。
【0057】
例えば、図6(A)に示すように、地点aの話者Aが継続的に発言する場合、方位データDir11が単方位データで認識され、当該方位データDir11が話者識別データとして音声状況データ生成部4に与えられる。
【0058】
方位・話者同定部3は、方位データが前記単方位データではない(単方位で且つ時間変化有り)と判断すると、音声ファイルに対応する方位データが複数であるかを検出する。そして、方位・話者同定部3は同一の組み合わせからなる複数方位データが所定時間以上に亘り変化しないことを検出すると、当該複数方位データを、話者識別データとして音声状況データ生成部4に与える(S6→S8→S10)。この際も、複数方位データからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部4に与えられる。
【0059】
例えば、図6(B)に示すように、地点aの話者A,Eが同時に且つ継続的に発言する場合、方位データDir11,Dir18の組み合わせが複数方位データで認識され、当該方位データDir11,Dir18の組み合わせが話者識別データとして音声状況データ生成部4に与えられる。
【0060】
方位・話者同定部3は、前述の2つの場合と異なり、方位データが前記所定時間内で変化することを検出すると、話者音声DB53を読み出して話者同定を行う。具体的に、話者同定処理が選択されると、方位・話者同定部3は、音声データ解析部2に取得音声ファイルの解析を行わせ、当該音声ファイルの音声特徴量データ(フォルマント等)を取得する。方位・話者同定部3は、解析して取得した音声特徴量データを話者音声DB53に記録されている各音声特徴量データScと比較して、一致する音声特徴量データScがあれば、当該音声特徴量データScに対応する話者名データSiを選択する。方位・話者同定部3は、この選択した話者名データSiを話者識別データとして音声状況データ生成部4に与える(S6→S8→S9→S11)。この際も、話者名データSiからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部4に与えられる。
【0061】
例えば、図7に示すように、地点aの話者Eが方位Dir18から方位Dir16へ移動しながら発言する場合、方位データが話者識別データとして認識されず、話者同定により得られた話者名データSiEが話者識別データとして音声状況データ生成部4に与えられる。なお、この説明では、話者Eが単独で移動する場合を示したが、複数の話者が発言しながら同時に移動するような場合には、複数の話者名データの組み合わせが話者識別データとして音声状況データ生成部4に与えられる。
【0062】
方位・話者同定部3は、上記のいずれの場合にも該当しないと判断すると、方位未検出データを話者識別データとして音声状況データ生成部4に与える(S6→S8→S9→S12)。
【0063】
音声状況データ生成部4は、方位・話者同定部3から順次与えられる話者識別データを、対応する音声ファイルに関連付けし、時系列に並べた形式のデータである音声状況データを生成する。そして、音声状況データ生成部4は、音声状況データを記録部5の音声状況データ記録部52に記録する(S13)。
【0064】
このような方位・話者同定と、音声状況データの生成、記録処理と、音声ファイルの記録処理とは、録音終了トリガが検出されるまで繰り返し行われる(S14→S4)。
【0065】
そして、録音終了トリガが検出されれば、制御部1は録音終了処理を行う(S14→S15)。なお、録音終了トリガは、ネットワーク100に接続された音声会議装置111,112の会議終了スイッチ押下や電源オフ等を検出することにより得られる。制御部1は、最終の音声状況データを生成、記録するとともに、音声状況データ記録部52に記録された各音声状況データを録音開始時に取得したタイトルでグループ化するグループ化指示データを生成して音声状況データ記録部52に記録する。
【0066】
このような構成と処理とにより、図8に示すように、音声ファイル記録部51には、経時的に連続する音声ファイルが装置毎に記録される。この際、音声ファイルは、音声状況データ記録部52に記録された音声状況データの話者識別データ毎により区分される。すなわち、方位データ、話者名データ、方位未検出データで区分される。以下、この区分化された音声ファイルのそれぞれを区分化音声データと称する。
【0067】
例えば、地点aの音声ファイルであれば、方位データDir11〜Dir18のいずれかからなる単方位データの音声ファイル、方位データDir11〜Dir18のうちの複数を組み合わせてなる複数方位データの音声ファイル、話者名データSiA〜SiEのいずれかからなる話者名データの音声ファイル、方位未検出データUnKnownの音声ファイル、有効な収音声の無い無音部に対応する音声ファイルで区分される。そして、区分化音声ファイルのそれぞれには、区分の開始時間データが関連付けされている。ここで、図8に示す例では、音声会議装置111を利用する会議者が5人であるのに対し、記録されている方位データが4個(Dir11,Dir12,Dir15,Dir18)であり、話者名データが1個(SiE)であり、方位未検出データが1個であり、音声状況データにはこれらのデータしか記録されない。すなわち、発言のない話者に関する話者識別データは音声状況データに記録されない。
【0068】
このように、本実施形態の構成および処理を用いることで、方位(単方位、複数の組み合わせによる方位)および話者名と、方位も話者名も分からないが発言があったことを示す方位未検出情報とにより、確実に話者を区別した状態で会議者の発言を記録することができる。
【0069】
また、元々話者識別要素であり通信音声データに含まれる方位データを用いて話者識別データを生成する方が、音声特徴量を解析してデータベースと比較することで話者同定して話者識別データを生成するよりも、当然に同定処理が簡素で且つ高速となる。したがって、本実施形態の構成を用いることにより、従来の全てを音声特徴量で同定する方法よりも、高速で話者識別データを生成することができ、リアルタイム性に優れる。
【0070】
また、各発言に関する区分化音声ファイルは、会議の経過時刻に関する時間データが関連付けされているので、各会議者、地点の議事の進行状況をも含んで議事録を記録することができる。これにより、後述するような議事録作成処理を行う場合に、議事録作成者に対して使い勝手の良い会議の記録データを提供することができる。
【0071】
次に、議事録作成時の構成および処理について説明する。
図9は議事録作成時の音声通信システムの構成図である。
図10は図9に示すパソコン102の主要構成を示すブロック図である。
図11は編集アプリ実行時にパソコン102の表示部123に表示される表示画像を示す図であり、(A)が初期状態、(B)が編集後状態を示す。
【0072】
図9に示すように、議事録作成時には、議事録作成者はパソコン102をネットワーク100に接続する。この際、ネットワーク100には、録音サーバ101がON状態で接続され、音声会議装置111,112は接続されていない。なお、音声会議装置111,112はネットワーク100に接続されていてもよいが、議事録作成処理とは無関係であるので、実質的に接続していないのと同じである。
【0073】
パソコン102は、CPU121、ハードディスク等の記憶部122、表示部123、操作入力部124、ネットワークI/F125、スピーカ126を備える。
【0074】
CPU121は通常のパソコンの処理制御を行うとともに、記憶部122に記憶されている、編集アプリや再生アプリを読み出して実行することで、音声状況データの内容をタイムチャート的に表示する表示手段、音声状況データを編集する編集手段や、音声ファイルの再生手段として機能する。
【0075】
記憶部122は、ハードディスク等の磁気ディスクやメモリからなり、編集アプリや再生アプリを記憶するとともに、CPU121が各機能を実行する際の作業部として利用される。なお、本実施形態では編集アプリに表示アプリも含まれているが、編集アプリと表示アプリとを別にしてもよい。
【0076】
表示部123は、液晶ディスプレイ等により構成され、CPU121で編集アプリが実行されると、編集アプリ内の表示アプリが起動してCPU121から表示画像情報が与えられ図11に示すような画像を表示する。
【0077】
操作入力部124は、キーボードやマウスからなり、ユーザ(議事録作成者)の操作入力を受け付けてCPU121に与える。例えば、マウスで表示画面上のカーソルを移動させ、該当位置でマウスをクリックすることにより、クリック情報がCPU121に与えられ、CPU121はクリック位置とクリック状況から操作入力内容を判断して後述するような所定の編集、再生処理を行う。
【0078】
ネットワークI/F125は、パソコン102をネットワーク100に接続させる機能部であり、CPU121からの通信制御に応じて、CPU121からの制御信号や、録音サーバ101から音声状況データおよび音声ファイルを通信する。
【0079】
スピーカ126は、CPU121の制御に従い音声ファイルを放音する。
【0080】
次に、音声状況データの編集方法について図11を参照しながら詳述する。
議事録作成者が会議後にパソコン102を操作して編集アプリを実行すると、パソコン102は、録音サーバ101から音声状況データを取得し、図11(A)に示すような画面を表示する。
【0081】
図11(A)に示すように編集画面は、表題表示部201、タイムチャート表示部202、を備える。タイムチャート表示部202は、各音声ファイルを示すバーグラフ203、話者識別情報表示部204、装置・地点表示部205、内容表示部206を備える。
【0082】
(1)表題表示部201
初期状態で、図11(A)に示すように表題表示部201には音声状況ファイルのファイル名に相当する、議事録記録年月日が表示される。議事録作成者がマウスを用いて表題表示部201を選択すると、表題表示部201は編集可能となる。そして、議事録作成者が、会議名である「商品販売検討会議」をキーボード等で入力すると、図11(B)に示すように表題表示部201には、「商品販売検討会議」が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、音声状況ファイルに表題名が「商品販売検討会議」であることを関連付けする。この場合、音声状況ファイル名を直接「商品販売検討会議」に変更して、録音サーバ101に記憶させても良い。これにより、表題が単なる年月日表示から具体的な会議名の表示になるので、後からでも容易に議事録を認識することができる。
【0083】
(2)タイムチャート表示部202
タイムチャート表示部202は、音声状況ファイルから得られる区分化の情報に従い、各区分化音声ファイルを話者識別情報別で時系列に並べてバーグラフ203として表示する。この際、バーグラフ203の長さは区分化音声ファイルの時間長を表す。この際、話者識別情報は話者識別情報表示部204に表示される。
【0084】
各話者識別表示部204には、図11(A)に示すように、音声状況ファイルから得られた方位データ(Dir11,Dir11+Dir18,Dir15,Dir12,Dir21,Dir24,Dir26,Dir28)と、話者名データ(SiE)と、方位未検出データ(UnKnown)とが初期状態で表示される。議事録作成者がマウスを用いて話者識別情報表示部204を選択すると、話者識別情報表示部204は編集可能となる。
【0085】
ここで、議事録作成者が各区分化音声ファイルをマウスでダブルクリックする等の操作を行えば、CPU121はこれを認識して、該当する区分化音声ファイルを録音サーバ101から読み出して再生する。再生音はスピーカ126から議事録作成者に放音される。議事録作成者はこの音声を聞くことにより、各区分化音声ファイルに対応する話者を聴覚的に把握することができる。
【0086】
そして、議事録作成者が、この再生音に基づいて話者識別データ毎に対応する会議者(話者)名をキーボード等で入力すると、話者識別情報表示部204には、図11(B)に示すように、各話者識別データに対応した話者名(話者A〜話者I)が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各話者識別データを、入力された話者名に置き換えて録音サーバ101に記憶させる。この際、各話者識別データと入力話者名とを対応付けして記録するようにしても良い。これにより、各区分化音声ファイルが明確に名前の分かる話者名で識別される。
【0087】
なお、前述の再生において、話者識別情報表示部204の各話者識別データ部分をマウスでダブルクリックすると、CPU121はこれを認識して、選択された話者識別情報表示部204の各話者識別データ部分に対応する区分化音声ファイルを録音サーバ101から読み出して再生することもできる。このような方法でも話者名を特定することができる。さらにこの方法を用いれば、会議全体をいちいち聞き直すことなく、必要な話者の発言のみを容易に抽出して聴き取ることができる。
【0088】
装置・地点表示部205には、図11(A)に示すように、音声状況ファイルから得られた装置データ(Ap111,Ap112)が初期状態で表示される。議事録作成者がマウスを用いて装置・地点表示部205を選択すると、装置・地点表示部205は編集可能となる。そして、議事録作成者が、各装置の配置場所をキーボード等で入力すると、装置表示部205には、図11(B)に示すように場所名(「本社」、「大阪支社」)が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各装置データに対応する場所名を関連付けする。この場合、装置データを場所名データに直接置き換えて、録音サーバ101に記憶させても良い。これにより、どの地点間で会議が行われたかを容易に識別することができる。
【0089】
内容表示部206には、図11(A)に示すように初期状態では枠しか表示されない。議事録作成者がマウスを用いて内容表示部206を選択すると、内容表示部206は編集可能となる。そして、議事録作成者が議事内容をキーボード等で入力すると、内容表示部206には、図11(B)に示すように議事内容(「会議の趣旨確認」、「コスト見積もり」、「マーケティング」)が表示される。この際、各内容表示部206は、それぞれ異なる色やパターンで表示される。そして、いずれかの内容表示部206を選択した状態で、各区分化音声ファイルのバーグラフ203を選択すると、これらが関連付けされて、内容表示部206と同じ色、パターンで表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各内容表示部206に対応する議事内容を関連付けして記憶するとともに、さらに各区分化音声ファイルと議事内容とを関連付けして記憶する。なお、これらの情報は音声状況ファイルに付加されるものである。これにより、各区分化音声ファイルの内容を容易に識別することができる。
【0090】
さらに、このように関連付けされた後、内容表示部206をマウスでダブルクリックすると、CPU121はこれを認識して、選択された内容表示部206に関連付けされている区分化音声ファイルを録音サーバ101から読み出して再生する。これにより、会議全体をいちいち聞き直すことなく、必要な内容の部分のみを容易に抽出して聴き取ることができる。
【0091】
以上のような構成および処理を用いることで、より分かりやすい議事録を簡単に形成することができる。また、会議の必要部のみを容易に聞き直すことができる。
【0092】
ところで、議事録の初期表示パターンは、図11(A)に示すようなパターンに限らず、図12(A),(B)に示すようなパターンや、図12(A),(B)を組み合わせたようなパターンであってもよい。
【0093】
図12(A),(B)はそれぞれ編集アプリ実行時の初期表示画像を示す図である。
【0094】
図11(A)は、単方位、複数方位の組み合わせによる方位で区別することなく、話者識別データを並べて表示する方法を示したが、図12(A)に示すように、複数方位の組み合わせの場合には、それぞれの方位に分割してバーグラフ203を表示するようにしてもよい。また、図12(B)に示すように話者識別データの表示順を優先させてバーグラフ203を表示するようにしてもよい。
【0095】
また、話者音声DB53において、図13(A)に示すように方位データをさらに追加することで、図13(B)に示すように、初期状態から話者名のみで話者識別情報を表示することができる。
図13(A)は方位データをも含む話者音声DB53の構成を示す概念図であり、(B)は図13(A)に示す話者音声DBを用いた場合の編集画面の一例を示す図である。
【0096】
図13(A)に示すように、話者音声DB53には、話者名データSiA〜SiI、音声特徴量データScA〜ScI、装置データAp111,Ap112とともに、各話者名データSiA〜SiIにそれぞれ対応する方位データDir11,Dir12,Dir14,Dir15,Dir18,Dir21,Dir24,Dir26,Dir28が、話者名データSiA〜SiIに関連付けされて記録されている。
【0097】
ここで、話者名データSiと方位データDirの関連付けは、会議前に各会議者が個別に発声して自分の発声音および話者名と座席位置(方位)とを記録することにより実現できる。また、会議の進行中に、録音サーバ101の音声データ解析部2が、順次話者名データSiと方位データDirとの関連を自動的に検出して話者音声DB53を更新記録していくことでも実現できる。
【0098】
編集アプリが実行されると、パソコン102のCPU121は、音声状況データから話者識別データを読み出すとともに、図13(A)に示す話者音声DB53を読み出して、方位データDirを話者名データSiに置き換える。そして、置き換えられた話者名データSiを、図13(B)に示すように話者識別情報表示部204へ表示する。このような方法を用いることで、方位未検出データ以外は話者名で表示されるので、議事録作成者に対して、発言者がより分かりやすいように議事録編集画面を表示することができる。この方位データDirを話者名データSiに変換する処理は、編集時に行う場合に限らず、音声状況データの生成時に行ってもよい。
【0099】
なお、前述の説明では、録音サーバ101と、音声状況ファイルの表示、編集装置であり、音声ファイルの再生装置であるパソコン102とがネットワーク接続される場合を示したが、パソコン102が録音サーバ101を備えるような構成としてもよい。
図14はパソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。
図14に示すように、録音サーバを兼用したパソコンは、音声データ解析部2と方位・話者同定部3と音声状況データ生成部4とを含む制御部(CPU)1、記録部5、ネットワークI/F6、スピーカ7、操作入力部8、表示部9を備える。記録部5は、録音サーバとして記録部(図3の記録部5)とパソコンのアプリのための記憶部(図10の記憶部122)とを兼ね備え、ネットワークI/F6は、録音サーバとしてのネットワークI/F(図3のネットワークI/F6)とパソコンとしてのネットワークI/F(図10のネットワークI/F125)とを兼ね備える。制御部1はパソコンの制御部(CPU)であるとともに、録音サーバの制御部として機能する。スピーカ7、操作入力部8、表示部9は、前述のパソコン102のスピーカ126、操作入力部124、表示部123とそれぞれ同じである。
【0100】
このような構成とすることで、録音サーバ(音声ファイルの記録と音声状況ファイルの生成記録とを行う装置)、音声状況(会議発言状況)を可視化する装置、音声状況データの編集装置、音声ファイルの再生装置を一体形成することができる。なお、記録部はパソコンに内蔵される磁気記録装置であっても、外付けされる各種の記録装置であってもよい。
【0101】
また、前述の説明では、録音サーバ101と音声会議装置111,112とを別体形成した例を示したが、ネットワーク100に接続する音声会議装置のうち、少なくともいずれか1つの音声会議装置に内蔵させても良い。
【0102】
図15は録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
図15に示すように、録音サーバを音声会議装置に内蔵させる場合、図2に示した構成に対して、記憶部30を追加する。
【0103】
記憶部30には、エコーキャンセル回路20の収音ビーム音声信号MBが入力されるとともに、入出力I/F12からの入力音声信号が入力される。記憶部30はこれらを音声ファイルとして記憶する。制御部10は収音ビーム音声信号が記憶部30に入力される場合、自身の装置データと収音ビーム選択部19から得られる方位データと、収音時間データとを添付して記憶するとともに、前述の方位・話者同定を行って音声状況データを生成して記憶部30に記憶する。また、制御部10は入力音声信号が記憶部30に入力される場合、入出力I/F12から受信元の装置データ、入力音声信号に添付された方位データ、収音時間データを取得して、前述の方位・話者同定を行って記憶部30の音声状況データを更新する。この際、まだ、音声状況データが生成、記憶されていなければ、音声状況データを生成、記憶する。
【0104】
このような構成とすることで、録音サーバを別途設ける必要が無く、議事録作成システムをより簡素な構造で実現することができる。なお、記憶部を備える音声会議装置はネットワークに接続する1台のみである必要はなく、複数台に備えさせても良い。
【0105】
また、音声会議装置に備えられる記憶部はあまり大きなものとすることができないので、音声会議装置に記憶部を備えさせるとともに、別途録音サーバを設けても良い。この場合、音声会議装置の記憶部で対応可能な時間までは、音声会議装置の記憶部で音声ファイルおよび音声状況データを記憶し続け、記憶部の容量が一杯となる時点で録音サーバに転送を行ってもよい。
【0106】
また、前述の説明では、ネットワークに接続する複数の音声会議装置で多地点会議を行う場合を示したが、単一の音声会議装置のみを使う場合であっても同時に方位を検出して収音音声信号に関連付けすることで同様の作用・効果を得ることができる。
【0107】
また、前述の説明では、議事録作成の場合を例に説明したが、他の多地点間の通信音声を記録する装置(システム)に対しても同様の作用・効果を得ることができる。
【図面の簡単な説明】
【0108】
【図1】本発明の実施形態の議事録作成システムの構成図である。
【図2】本実施形態の音声会議装置111,112の主要構成を示すブロック図である。
【図3】本実施形態の録音サーバ101の主要構成を示すブロック図である。
【図4】話者音声DB53の構成を示す概略図である。
【図5】録音サーバ101の録音処理フローを示すフローチャートである。
【図6】地点aの話者Aが発言した状態を示す図、および、地点aの話者A,Eが同時に発言した状態を示す図である。
【図7】地点aの話者Eが移動しながら発言した状態を示す図である。
【図8】録音サーバ101に記録された音声ファイル、音声状況データの概念図である。
【図9】議事録作成時の音声通信システムの構成図である。
【図10】図9に示すパソコン102の主要構成を示すブロック図である。
【図11】編集アプリ実行時にパソコン102の表示部123に表示される表示画像を示す図である。
【図12】編集アプリ実行時の初期表示画像を示す図である。
【図13】方位データをも含む話者音声DB53の構成を示す概念図、および、話者音声DBを用いた場合の編集画面の一例を示す図である。
【図14】パソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。
【図15】録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
【符号の説明】
【0109】
100−ネットワーク、101−録音サーバ、1−制御部、2−音声データ解析部、3−方位・話者同定部、4−音声状況データ生成部、5−記録部、51−音声ファイル記録部、52−音声状況データ記録部、53−話者音声DB、6−ネットワークI/F、111,112−音声会議装置
【技術分野】
【0001】
この発明は、会議音声等の音声を記録して利用する装置およびシステムに関するものである。
【背景技術】
【0002】
多地点をネットワークで結んで音声会議を行う音声会議システムが各種考案されている(例えば、特許文献1,2参照)。
【0003】
このような音声会議システムでは、会議を行う各地点(会議室)に音声会議装置が配置され、各音声会議装置に対して一人または複数の会議者が在席する。各音声会議装置は、自室内の会議者の発言を収音して音声データ化し、ネットワークを介して相手先の音声会議装置に送信する。また、各音声会議装置は、相手先の音声会議装置からの音声データを受信すれば音声化して放音する。
【0004】
そして、特許文献1に記載の音声会議システムでは、RFIDタグとマイクとを各会議者の近傍に配置し、音声会議装置は、マイクで収音すると、収音音声信号と対応するRFIDタグにより得られる会議者情報とを関連付けして送信する。
【0005】
この音声会議システムには録音サーバが備えられており、録音サーバに録音される収音音声信号には前記会議者情報が関連付けされている。
【0006】
また、特許文献2に記載の話者照合方法では、音声会議装置の処理として、入力音声信号を所定時間単位に分割して、各音声区間の特徴量から話者を検出する。
【特許文献1】特開2005−80110公報
【特許文献2】特許第2816163号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
特許文献1に記載の音声通信システムでは、会議後に会議参加者の1人が議事録作成等のために、録音サーバにパソコン等を接続して記録された音声データを再生すると、関連付けされた会議者情報が表示される。
【0008】
しかしながら、特許文献1の音声通信システムでは、単に時系列で録音サーバに記憶された音声データを選択することで、対応する会議者を初めて知ることができるため、特定の会議者の発言を抽出したり、記録された会議の全体の流れ(状況)を把握したりすることが容易ではできなかった。
【0009】
また、音声データや会議者情報から得られる音声状況(会議状況)に基づいて各音声データを区分化する等の編集を行い、この音声状況を記憶しておくことができなかった。
【0010】
このため、会議後等に録音サーバに記録された音声データを利用する際に、利用者が使い辛いものとなってしまっていた。
【0011】
また、特許文献2に記載の話者照合方法では、話者音声の解析を随時行いながら相手先に送信しなければならず処理負荷が大きかった。また、この負荷を軽減させるため音声解析を簡素化すると話者の検出精度が低下し、正確な話者情報を取得することが難しかった。
【0012】
したがって、この発明の目的は、多地点音声会議後に議事録を作成する等のように、複数の音源からの音声データを経時的に記録したデータを利用する際に、簡素な処理で音声データに対する話者特定情報を検出して、音声データに関連付けして記憶し、利用者に対して使い勝手の良い状態でデータを提供することにある。
【課題を解決するための手段】
【0013】
この発明の音声状況データ生成装置は、音声データと当該音声データの到来方向を示す方位データとを経時的に取得するデータ取得手段と、各話者の話者音声特徴量を記憶する話者音声特徴データベースと、
(1)取得したデータの方位データが所定時間に亘り単一方位を示して変化が無ければ、このデータを単方位データと判定し、(2)取得したデータの方位データが単方位データでない場合に、該取得したデータの音声データから音声特徴量を抽出して話者音声特徴量と比較することによって話者同定を行い、(3)話者同定されなければこのデータを方位未検出データとし、(4)同定話者が複数で且つ所定時間に亘り変化がなければこのデータを複数方位データとし、(5)同定話者の方位データが変化すれば同定話者に対応する話者名データとする方位・話者同定手段と、
単方位データ、方位未検出データ、複数方位データ、話者名データの判定結果の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、
音声データおよび前記音声状況データを記憶する記憶手段と、を備えたことを特徴としている。
【0014】
この構成では、音声データとともに当該音声データに関連付けされた方位データが取得される。継続的に入力される音声データの方位データが単方位を示し、所定時間変化しないと、一話者が継続的に発言していると見なして単方位データが設定される。方位データが所定時間中に変化したり単方位でないと、話者音声特徴データベースに記憶された話者音声特徴量に基づいて話者同定が行われる。この話者同定の結果、データベースに一致する話者がいなければ、方位未検出データが設定される。データベースに一致する話者が複数であり、所定時間内で変化が無ければ、複数方位データが設定される。データベースに一致する話者が単数であれば(方位は随時変化)、話者名データが設定される。これらの話者識別データ(単方位データ、方位未検出データ、複数方位データ、話者名データ)の変化は時系列に解析され、この時系列の解析結果が音声状況データとして生成される。
【0015】
このような構成により、まず方位データで話者識別をして、音声特徴量で話者識別をすることになるので、全てを音声特徴量で解析するよりも、簡素で正確に話者識別が行われる。
【0016】
具体的に、音声会議の議事録作成の場合であれば、比較的容易に発言者情報が得られ、発言内容(音声データ)と関連付けして記憶される。また、議事録作成者が会議後にこれらのデータを利用する際に、方位データおよび話者名データにより会議者が識別され、時間データにより発言時間が識別されるので、発言者が1人でも複数人でも移動していても、各会議者の発言タイミングが容易に識別される。また、会議全体の発言状況(会議の流れ)が容易に識別される。
【0017】
また、この発明の音声状況データ生成装置の方位・話者同定手段は、通信中に入力される話者音声から得られる話者音声特徴量に基づいて随時話者音声特徴データベースの更新を行うことを特徴としている。
【0018】
この構成では、予め話者音声特徴データベースを構築しておかなくても、順次更新記憶していくことで、話者音声特徴データベースが構築される。
【0019】
また、この発明の音声状況可視化装置は、前述の音声状況データ生成装置の各手段と、音声状況データに基づいて音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、を備えたことを特徴としている。
【0020】
この構成では、表示手段により、時間区分化された音声データが方位別および話者別で時系列にグラフ表示されることで、利用者へ視覚的に音声状況が提供される。表示手段とは、具体的に液晶ディスプレイ等の表示器と、表示器上に画像を映し出す制御部および表示アプリケーションとを有し、制御部が表示アプリケーションを実行することで、音声状況データに基づいて、音声データ全体を方位別および話者別で時系列に区分した区分化音声データがタイムチャートのように表示される。これにより、利用者に対して、音声状況がより分かりやすく提供される。
【0021】
具体的に、前述の音声会議の議事録作成の場合であれば、各会議者の発言タイミングや会議全体の発言状況がタイムチャート等で表示され、議事録作成者へ視覚的に提供される。これにより、議事録作成者に対して会議の発言状況等がより分かりやすく提供される。
【0022】
また、この発明の音声状況データ編集装置は、前述の音声状況可視化装置と、音声状況データを編集する操作入力を受け付ける操作受付手段と、該操作受付手段により受け付けた編集内容を解析して音声状況データを編集するデータ編集手段と、を備えたことを特徴としている。
【0023】
この構成では、データ編集手段により、音声状況データの各項目が変更される。この際、利用者からの操作は操作受付手段により受け付けられる。例えば、方位と話者との関係が分かっており、方位名を話者名に変更したい場合には、利用者は操作受付手段により方位名変更の操作を行う。操作受付手段はこの操作を受け付けてデータ編集手段に与える。データ編集手段は、データ編集アプリケーションを有し、前記制御部でデータ編集アプリケーションを実行することで、指示された内容にしたがい方位名を話者名に変更し、音声状況データの更新記録を行う。
【0024】
具体的に、前述の音声会議の議事録作成の場合であれば、方位名を会議者名に変更する等の操作が可能となる。これにより、会議者が直接的に分からない方位名ではなく、会議者名がそのまま表示されるので、より分かりやすい議事録が作成される。
【0025】
また、この発明の音声データ再生装置は、前述の音声状況データ編集装置と、操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、を備えたことを特徴としている。
【0026】
この構成では、操作受付手段を操作することで、区分化音声データが選択されると、該当する区分化音声データが再生手段により再生される。これにより、各区分化音声データを、会議後に再度聴くことができる。また、前述の編集時に各区分化音声データの再生音を聴くことで、話者の特定を聴覚的にも行うことができる。
【0027】
具体的に、前述の音声会議の議事録作成の場合であれば、各区分化音声データを選択して再生することで、会議者を聴覚的に特定することができるとともに、どの会議者が何を話したかを、会議後であっても確実に知ることができる。
【0028】
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置とは別体でネットワークに接続されており、各装置のデータ取得手段は、複数の放収音装置間で通信される音声データと方位データとを取得することを特徴としている。
【0029】
この構成では、各放収音装置で収音した音声データがネットワークを介して前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置(以下、総称して「音声データ処理装置」とする。)に入力される。このように、放収音装置と音声データ処理装置とが別体で構成されていることで、膨大な記憶容量を要する音声データ処理装置を、比較的小型化が要求される放収音装置に備え付ける必要がなくなる。
【0030】
また、この発明は、複数の放収音装置がネットワークを介して音声データを通信する音声通信システムに関するものである。そして、この発明の音声通信システムは、前述の音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、および音声データ再生装置のいずれかが複数の放収音装置のいずれか1台に内蔵されており、各装置のデータ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと方位データとを取得することを特徴としている。
【0031】
この構成では、前述の音声データ処理装置を放収音装置に備える。これにより、サーバレスで音声通信を記録することができる。
【0032】
また、この発明の音声通信システムの放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、選択された収音ビーム信号を音声データとし、検出した方位を方位データとして出力することを特徴としている。
【0033】
この構成では、放収音装置は、マイクアレイの各マイクの収音音声信号から複数の収音ビーム信号を形成して、最も信号強度の高い収音ビーム信号を選択するとともに、当該収音ビーム信号に対応する方位を検出する。そして、放収音装置は、選択した収音ビーム信号を音声データとし、検出方位を方位データとして出力する。これにより、従来のように、会議者を識別するRFIDタグ等を必要としないので、より簡素に音声通信システムが構成される。また、音声特徴量による処理を行わないので、識別負荷が低減し、且つ方位情報を用いることで識別精度が向上する。
【発明の効果】
【0034】
この発明によれば、複数の音源からの音声データを経時的に記録したデータを利用する場合に、利用者に対して使い勝手の良い状態でデータを比較的簡素な処理により形成して提供することができる。具体例として、多地点会議システムで各会議者の発言を記録しておくような場合に、各会議者の発言をタイムチャート等により、より分かりやすく議事録作成者に提供することができる。
【0035】
また、この発明によれば、収音信号により話者方向を自動検出する放収音装置を用いることで、音声通信システムおよびこのシステムで通信される音声データの記録を、従来よりも簡素な構成で実現することができる。
【発明を実施するための最良の形態】
【0036】
以下の実施形態では具体的なシステム例として議事録作成システムについて説明する。
本発明の実施形態に係る議事録作成システムについて図を参照して説明する。
図1は本実施形態の議事録作成システムの構成図である。
図2は本実施形態の音声会議装置111,112の主要構成を示すブロック図である。
図3は本実施形態の録音サーバ101の主要構成を示すブロック図である。
本実施形態の議事録作成システムは、ネットワーク100に接続された音声会議装置111,112と、録音サーバ101とを備える。
【0037】
音声会議装置111、112は、それぞれ離れた地点a、地点bにそれぞれ配置されている。地点aには、音声会議装置111が配置されており、該音声会議装置111を囲むように話者A〜Eの5人が音声会議装置111に対してそれぞれ方位Dir11,Dir12,Dir14,Dir15,Dir18で在席している。地点bには、音声会議装置112が配置されており、該音声会議装置112を囲むように会議者F〜Iの4人が音声会議装置112に対してそれぞれ方位Dir21,Dir24,Dir26,Dir28で在席している。
【0038】
音声会議装置111、112は、図2に示すように、制御部11、入出力I/F12、放音指向性制御部13、D/Aコンバータ14、放音アンプ15、スピーカSP1〜SP16、マイクMIC101〜116、201〜216、収音アンプ16、A/Dコンバータ17、収音ビーム生成部18、収音ビーム選択部19、エコーキャンセル回路20、操作部31、表示部32を備える。制御部11は、音声会議装置111,112の全体制御を行う。入出力I/F12はネットワーク100に接続し、ネットワーク100を介して入力された相手装置からの音声ファイルを、ネットワーク形式のデータから一般的な音声信号に変換してエコーキャンセル回路20を介して放音指向性制御部13に出力する。この際、制御部11は、入力音声信号に添付された方位データを取得して、放音指向性制御部13に対して放音制御を行う。
【0039】
放音指向性制御部13は、放音制御内容に応じてスピーカSP1〜SP16に対する放音音声信号を生成する。スピーカSP1〜SP16に対する放音音声信号は、入力音声データを遅延制御や振幅制御等の信号制御処理を行うことにより形成される。D/Aコンバータ14はディジタル形式の放音音声信号をアナログ形式に変換し、放音アンプ15は放音音声信号を増幅してスピーカSP1〜SP16に与え、スピーカSP1〜SP16は、放音音声信号を音声変換して放音する。これにより、自装置の会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
【0040】
マイクMIC101〜116、201〜216は自装置の会議者の発声音を含む周囲の音を収音して電気信号変換し、収音音声信号を生成する。収音アンプ16は収音音声信号を増幅し、A/Dコンバータ17はアナログ形式の収音音声信号を所定のサンプリング間隔で順次ディジタル形式に変換する。
【0041】
収音ビーム生成部18は、マイクMIC101〜116、201〜216の収音信号に対して遅延処理等を行い、所定方位に強い指向性を有する収音ビーム音声信号MB1〜MB8を生成する。収音ビーム音声信号MB1〜MB8はそれぞれ異なる方位に強い指向性を有するように設定されている。図1の音声会議装置111であれば、MB1を方位Dir11に、MB2を方位Dir12に、MB3を方位Dir13に、MB4を方位Dir14に、MB5を方位Dir15に、MB6を方位Dir16に、MB7を方位Dir17に、MB8を方位Dir18に設定される。一方、音声会議装置112であれば、MB1を方位Dir21に、MB2を方位Dir22に、MB3を方位Dir23に、MB4を方位Dir24に、MB5を方位Dir25に、MB6を方位Dir26に、MB7を方位Dir27に、MB8を方位Dir28に設定される。
【0042】
収音ビーム選択部19は、収音ビーム音声信号MB1〜MB8の信号強度を比較して、最も強度の高い収音ビーム音声信号を選択し、収音ビーム音声信号MBとしてエコーキャンセル回路20に出力する。収音ビーム選択部19は、選択した収音ビーム音声信号MBに対応する方位Dirを検出して制御部11に与える。エコーキャンセル回路20は、適応型フィルタ21で入力音声信号に基づいて擬似回帰音信号を生成して、ポストプロセッサ22で収音ビーム音声信号MBから擬似回帰音信号を減算する。これにより、スピーカSPからマイクMICへの回り込み音を抑圧する。入出力I/F12は、エコーキャンセル回路20からの収音ビーム音声信号MBをネットワーク形式で所定データ長からなる音声ファイルに変換し、制御部11から得られる方位データと収音時間データとを添付して、順次ネットワーク100に出力する。これら音声ファイル、方位データ、収音時間データ、および自装置を示す装置データを含み送信されるデータを通信音声データとする。
【0043】
このような構成により、ネットワーク100に接続された音声会議装置111,112で多地点会議を行うことができる。
【0044】
録音サーバ101は、制御部1、記録部5、およびネットワークI/F6を備える。この録音サーバ101は、音声会議装置111,112のいずれかと同じ場所に配置しても、これらとは全く異なる場所に配置してもよい。
制御部1は、音声データ解析部2、方位・話者同定部3、音声状況データ生成部4を備えるとともに、ネットワークI/F6に対するネットワーク通信制御や記録部5に対する記録制御等からなる録音サーバ101の全体制御を行う。そして、制御部1は例えば1つの演算処理用チップと、ROMと、演算用メモリであるRAM等により構成され、ROMに記憶された音声データ解析プログラム、方位・話者同定プログラム、音声状況データ生成プログラムを実行することにより、音声データ解析部2、方位・話者同定部3、音声状況データ生成部4として機能する。
音声データ解析部2は、音声会議装置間で通信される通信音声データをネットワークI/F6を介して取得し、解析する。音声データ解析部2は、通信音声データから音声ファイル、収音時間データ、方位データ、装置データを取得する。
【0045】
方位・話者同定部3は、所定時間に亘る方位データの変化に基づいて、取得したそのままの方位データ、話者名データ、または方位未検出データを音声状況データ生成部4に与える。
【0046】
音声状況データ生成部4は、与えられた方位データ、話者名データ、方位未検出データの時間変化に基づいて、音声ファイルの該当部に関連付けした状態で音声状況データを生成する。
【0047】
なお、これら音声データ解析部2、方位・話者同定部3、音声状況データ生成部4、すなわち制御部1の具体的な処理内容については、図4を用いて後述する。
【0048】
記録部5は、大容量のハードディスク装置等からなり、音声ファイル記録部51、音声状況データ記録部52、話者音声DB53を備える。音声ファイル記録部51は、音声データ解析部2で取得した音声ファイルを順次記録し、音声状況データ記録部52は、音声状況データ生成部4で生成した音声状況データを順次記録する。
【0049】
話者音声DB53は、通信会議を行う各会議者(話者)の音声特徴量をデータベース化して記憶したものである。
図4は話者音声DB53の構成を示す概略図である。
図4に示すように、話者音声DB53は、話者名データSiと音声特徴量データScと装置データApとを関連付けして記憶する。例えば、図1に示すような会議の場合、地点aに在席する各話者A〜Eにそれぞれ話者名データSiA〜SiEが割り当てられるとともに、音声会議装置111に対応する装置データAp111が割り当てられて記憶される。そして、各話者A〜Eの音声をそれぞれに解析して得られる音声特徴量(フォルマント等)が、各話者A〜E(話者名データSiA〜SiE)にそれぞれ対応して音声特徴量データScA〜ScEとして記憶される。また、地点bに在席する各話者F〜Iにそれぞれ話者名データSiF〜SiIが割り当てられるとともに、音声会議装置112に対応する装置データAp112が割り当てられて記憶される。そして、各話者F〜Iの音声をそれぞれに解析して得られる音声特徴量(フォルマント等)が、各話者F〜I(話者名データSiF〜SiI)にそれぞれ対応して音声特徴量データScF〜ScIとして記憶される。
【0050】
これらの関連付けは、予め会議前に各会議者が個別に発声して自分の発声音および話者名を登録することにより実現できる。また、会議の進行中に、録音サーバ101の音声データ解析部2が、順次話者名データSiと音声特徴量データScとを自動的に関連付けして、話者音声DB53を更新記録していくことでも実現できる。
【0051】
次に、録音サーバ101の録音フローについて図5、図6を参照して説明する。
図5は録音サーバ101の録音処理フローを示すフローチャートである。
図6(A)は地点aの話者Aが発言した状態を示す図であり、(B)は地点aの話者A,Eが同時に発言した状態を示す図である。
図7は地点aの話者Eが移動しながら発言した状態を示す図である。
図8は録音サーバ101に記録された音声ファイル、音声状況データの概念図である。
録音サーバ101は、ネットワーク100での通信音声データを監視し、会議開始トリガを検出すると録音を開始する(S1→S2)。この際、会議開始トリガは、ネットワーク100に通信音声データが送受信されたことを検知することで得られ、例えば、各音声会議装置111,112が会議開始スイッチの押下により会議開始パルスを発して、録音サーバ111がこれを検知することにより得られる。また、録音サーバ101に録音開始スイッチが予め備えられており、この録音開始スイッチが押下されることにより会議開始トリガが得られる。
【0052】
録音が開始されると、録音サーバ101(制御部1)は録音開始時間を取得し、音声状況データ生成部4は、この録音開始時刻を1つの音声状況データのタイトルとして保存する(S3)。
【0053】
音声データ解析部2は、順次取得した通信音声データから音声ファイルを復元して、記録部5の音声ファイル記録部51に記録する(S4)。
【0054】
この際、音声データ解析部2は、取得した通信音声データから装置データを取得して記憶部5に与える。記憶部5は、与えられた装置データに従い、前記音声ファイルを装置別に順次音声ファイル記録部51に記録する。なお、音声会議装置111,112は並行して音声ファイルをネットワークに出力するので、これらの音声ファイルを同時に記憶するため、記録サーバ101はマルチタスク処理を実行可能とするように構成されている。
【0055】
音声データ解析部2は、通信音声データから装置データ、方位データ、収音時間データを取得し、方位・話者同定部3に与える(S5)。
【0056】
方位・話者同定部3は、順次入力される方位データの変化を観測し、方位データが単方位を示し、且つ所定時間以上に亘り方位データの変化がないことを検出すると、単方位データである当該方位データを、話者識別データとして音声状況データ生成部4に与える(S6→S7)。この際、単方位データからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部4に与えられる。
【0057】
例えば、図6(A)に示すように、地点aの話者Aが継続的に発言する場合、方位データDir11が単方位データで認識され、当該方位データDir11が話者識別データとして音声状況データ生成部4に与えられる。
【0058】
方位・話者同定部3は、方位データが前記単方位データではない(単方位で且つ時間変化有り)と判断すると、音声ファイルに対応する方位データが複数であるかを検出する。そして、方位・話者同定部3は同一の組み合わせからなる複数方位データが所定時間以上に亘り変化しないことを検出すると、当該複数方位データを、話者識別データとして音声状況データ生成部4に与える(S6→S8→S10)。この際も、複数方位データからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部4に与えられる。
【0059】
例えば、図6(B)に示すように、地点aの話者A,Eが同時に且つ継続的に発言する場合、方位データDir11,Dir18の組み合わせが複数方位データで認識され、当該方位データDir11,Dir18の組み合わせが話者識別データとして音声状況データ生成部4に与えられる。
【0060】
方位・話者同定部3は、前述の2つの場合と異なり、方位データが前記所定時間内で変化することを検出すると、話者音声DB53を読み出して話者同定を行う。具体的に、話者同定処理が選択されると、方位・話者同定部3は、音声データ解析部2に取得音声ファイルの解析を行わせ、当該音声ファイルの音声特徴量データ(フォルマント等)を取得する。方位・話者同定部3は、解析して取得した音声特徴量データを話者音声DB53に記録されている各音声特徴量データScと比較して、一致する音声特徴量データScがあれば、当該音声特徴量データScに対応する話者名データSiを選択する。方位・話者同定部3は、この選択した話者名データSiを話者識別データとして音声状況データ生成部4に与える(S6→S8→S9→S11)。この際も、話者名データSiからなる話者識別データは、対応する音声ファイルの部分と関連付けされた状態で、音声状況データ生成部4に与えられる。
【0061】
例えば、図7に示すように、地点aの話者Eが方位Dir18から方位Dir16へ移動しながら発言する場合、方位データが話者識別データとして認識されず、話者同定により得られた話者名データSiEが話者識別データとして音声状況データ生成部4に与えられる。なお、この説明では、話者Eが単独で移動する場合を示したが、複数の話者が発言しながら同時に移動するような場合には、複数の話者名データの組み合わせが話者識別データとして音声状況データ生成部4に与えられる。
【0062】
方位・話者同定部3は、上記のいずれの場合にも該当しないと判断すると、方位未検出データを話者識別データとして音声状況データ生成部4に与える(S6→S8→S9→S12)。
【0063】
音声状況データ生成部4は、方位・話者同定部3から順次与えられる話者識別データを、対応する音声ファイルに関連付けし、時系列に並べた形式のデータである音声状況データを生成する。そして、音声状況データ生成部4は、音声状況データを記録部5の音声状況データ記録部52に記録する(S13)。
【0064】
このような方位・話者同定と、音声状況データの生成、記録処理と、音声ファイルの記録処理とは、録音終了トリガが検出されるまで繰り返し行われる(S14→S4)。
【0065】
そして、録音終了トリガが検出されれば、制御部1は録音終了処理を行う(S14→S15)。なお、録音終了トリガは、ネットワーク100に接続された音声会議装置111,112の会議終了スイッチ押下や電源オフ等を検出することにより得られる。制御部1は、最終の音声状況データを生成、記録するとともに、音声状況データ記録部52に記録された各音声状況データを録音開始時に取得したタイトルでグループ化するグループ化指示データを生成して音声状況データ記録部52に記録する。
【0066】
このような構成と処理とにより、図8に示すように、音声ファイル記録部51には、経時的に連続する音声ファイルが装置毎に記録される。この際、音声ファイルは、音声状況データ記録部52に記録された音声状況データの話者識別データ毎により区分される。すなわち、方位データ、話者名データ、方位未検出データで区分される。以下、この区分化された音声ファイルのそれぞれを区分化音声データと称する。
【0067】
例えば、地点aの音声ファイルであれば、方位データDir11〜Dir18のいずれかからなる単方位データの音声ファイル、方位データDir11〜Dir18のうちの複数を組み合わせてなる複数方位データの音声ファイル、話者名データSiA〜SiEのいずれかからなる話者名データの音声ファイル、方位未検出データUnKnownの音声ファイル、有効な収音声の無い無音部に対応する音声ファイルで区分される。そして、区分化音声ファイルのそれぞれには、区分の開始時間データが関連付けされている。ここで、図8に示す例では、音声会議装置111を利用する会議者が5人であるのに対し、記録されている方位データが4個(Dir11,Dir12,Dir15,Dir18)であり、話者名データが1個(SiE)であり、方位未検出データが1個であり、音声状況データにはこれらのデータしか記録されない。すなわち、発言のない話者に関する話者識別データは音声状況データに記録されない。
【0068】
このように、本実施形態の構成および処理を用いることで、方位(単方位、複数の組み合わせによる方位)および話者名と、方位も話者名も分からないが発言があったことを示す方位未検出情報とにより、確実に話者を区別した状態で会議者の発言を記録することができる。
【0069】
また、元々話者識別要素であり通信音声データに含まれる方位データを用いて話者識別データを生成する方が、音声特徴量を解析してデータベースと比較することで話者同定して話者識別データを生成するよりも、当然に同定処理が簡素で且つ高速となる。したがって、本実施形態の構成を用いることにより、従来の全てを音声特徴量で同定する方法よりも、高速で話者識別データを生成することができ、リアルタイム性に優れる。
【0070】
また、各発言に関する区分化音声ファイルは、会議の経過時刻に関する時間データが関連付けされているので、各会議者、地点の議事の進行状況をも含んで議事録を記録することができる。これにより、後述するような議事録作成処理を行う場合に、議事録作成者に対して使い勝手の良い会議の記録データを提供することができる。
【0071】
次に、議事録作成時の構成および処理について説明する。
図9は議事録作成時の音声通信システムの構成図である。
図10は図9に示すパソコン102の主要構成を示すブロック図である。
図11は編集アプリ実行時にパソコン102の表示部123に表示される表示画像を示す図であり、(A)が初期状態、(B)が編集後状態を示す。
【0072】
図9に示すように、議事録作成時には、議事録作成者はパソコン102をネットワーク100に接続する。この際、ネットワーク100には、録音サーバ101がON状態で接続され、音声会議装置111,112は接続されていない。なお、音声会議装置111,112はネットワーク100に接続されていてもよいが、議事録作成処理とは無関係であるので、実質的に接続していないのと同じである。
【0073】
パソコン102は、CPU121、ハードディスク等の記憶部122、表示部123、操作入力部124、ネットワークI/F125、スピーカ126を備える。
【0074】
CPU121は通常のパソコンの処理制御を行うとともに、記憶部122に記憶されている、編集アプリや再生アプリを読み出して実行することで、音声状況データの内容をタイムチャート的に表示する表示手段、音声状況データを編集する編集手段や、音声ファイルの再生手段として機能する。
【0075】
記憶部122は、ハードディスク等の磁気ディスクやメモリからなり、編集アプリや再生アプリを記憶するとともに、CPU121が各機能を実行する際の作業部として利用される。なお、本実施形態では編集アプリに表示アプリも含まれているが、編集アプリと表示アプリとを別にしてもよい。
【0076】
表示部123は、液晶ディスプレイ等により構成され、CPU121で編集アプリが実行されると、編集アプリ内の表示アプリが起動してCPU121から表示画像情報が与えられ図11に示すような画像を表示する。
【0077】
操作入力部124は、キーボードやマウスからなり、ユーザ(議事録作成者)の操作入力を受け付けてCPU121に与える。例えば、マウスで表示画面上のカーソルを移動させ、該当位置でマウスをクリックすることにより、クリック情報がCPU121に与えられ、CPU121はクリック位置とクリック状況から操作入力内容を判断して後述するような所定の編集、再生処理を行う。
【0078】
ネットワークI/F125は、パソコン102をネットワーク100に接続させる機能部であり、CPU121からの通信制御に応じて、CPU121からの制御信号や、録音サーバ101から音声状況データおよび音声ファイルを通信する。
【0079】
スピーカ126は、CPU121の制御に従い音声ファイルを放音する。
【0080】
次に、音声状況データの編集方法について図11を参照しながら詳述する。
議事録作成者が会議後にパソコン102を操作して編集アプリを実行すると、パソコン102は、録音サーバ101から音声状況データを取得し、図11(A)に示すような画面を表示する。
【0081】
図11(A)に示すように編集画面は、表題表示部201、タイムチャート表示部202、を備える。タイムチャート表示部202は、各音声ファイルを示すバーグラフ203、話者識別情報表示部204、装置・地点表示部205、内容表示部206を備える。
【0082】
(1)表題表示部201
初期状態で、図11(A)に示すように表題表示部201には音声状況ファイルのファイル名に相当する、議事録記録年月日が表示される。議事録作成者がマウスを用いて表題表示部201を選択すると、表題表示部201は編集可能となる。そして、議事録作成者が、会議名である「商品販売検討会議」をキーボード等で入力すると、図11(B)に示すように表題表示部201には、「商品販売検討会議」が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、音声状況ファイルに表題名が「商品販売検討会議」であることを関連付けする。この場合、音声状況ファイル名を直接「商品販売検討会議」に変更して、録音サーバ101に記憶させても良い。これにより、表題が単なる年月日表示から具体的な会議名の表示になるので、後からでも容易に議事録を認識することができる。
【0083】
(2)タイムチャート表示部202
タイムチャート表示部202は、音声状況ファイルから得られる区分化の情報に従い、各区分化音声ファイルを話者識別情報別で時系列に並べてバーグラフ203として表示する。この際、バーグラフ203の長さは区分化音声ファイルの時間長を表す。この際、話者識別情報は話者識別情報表示部204に表示される。
【0084】
各話者識別表示部204には、図11(A)に示すように、音声状況ファイルから得られた方位データ(Dir11,Dir11+Dir18,Dir15,Dir12,Dir21,Dir24,Dir26,Dir28)と、話者名データ(SiE)と、方位未検出データ(UnKnown)とが初期状態で表示される。議事録作成者がマウスを用いて話者識別情報表示部204を選択すると、話者識別情報表示部204は編集可能となる。
【0085】
ここで、議事録作成者が各区分化音声ファイルをマウスでダブルクリックする等の操作を行えば、CPU121はこれを認識して、該当する区分化音声ファイルを録音サーバ101から読み出して再生する。再生音はスピーカ126から議事録作成者に放音される。議事録作成者はこの音声を聞くことにより、各区分化音声ファイルに対応する話者を聴覚的に把握することができる。
【0086】
そして、議事録作成者が、この再生音に基づいて話者識別データ毎に対応する会議者(話者)名をキーボード等で入力すると、話者識別情報表示部204には、図11(B)に示すように、各話者識別データに対応した話者名(話者A〜話者I)が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各話者識別データを、入力された話者名に置き換えて録音サーバ101に記憶させる。この際、各話者識別データと入力話者名とを対応付けして記録するようにしても良い。これにより、各区分化音声ファイルが明確に名前の分かる話者名で識別される。
【0087】
なお、前述の再生において、話者識別情報表示部204の各話者識別データ部分をマウスでダブルクリックすると、CPU121はこれを認識して、選択された話者識別情報表示部204の各話者識別データ部分に対応する区分化音声ファイルを録音サーバ101から読み出して再生することもできる。このような方法でも話者名を特定することができる。さらにこの方法を用いれば、会議全体をいちいち聞き直すことなく、必要な話者の発言のみを容易に抽出して聴き取ることができる。
【0088】
装置・地点表示部205には、図11(A)に示すように、音声状況ファイルから得られた装置データ(Ap111,Ap112)が初期状態で表示される。議事録作成者がマウスを用いて装置・地点表示部205を選択すると、装置・地点表示部205は編集可能となる。そして、議事録作成者が、各装置の配置場所をキーボード等で入力すると、装置表示部205には、図11(B)に示すように場所名(「本社」、「大阪支社」)が表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各装置データに対応する場所名を関連付けする。この場合、装置データを場所名データに直接置き換えて、録音サーバ101に記憶させても良い。これにより、どの地点間で会議が行われたかを容易に識別することができる。
【0089】
内容表示部206には、図11(A)に示すように初期状態では枠しか表示されない。議事録作成者がマウスを用いて内容表示部206を選択すると、内容表示部206は編集可能となる。そして、議事録作成者が議事内容をキーボード等で入力すると、内容表示部206には、図11(B)に示すように議事内容(「会議の趣旨確認」、「コスト見積もり」、「マーケティング」)が表示される。この際、各内容表示部206は、それぞれ異なる色やパターンで表示される。そして、いずれかの内容表示部206を選択した状態で、各区分化音声ファイルのバーグラフ203を選択すると、これらが関連付けされて、内容表示部206と同じ色、パターンで表示される。CPU121は、編集アプリが終了する際、この変更を有効にするかを確認し、有効にする選択がされれば、各内容表示部206に対応する議事内容を関連付けして記憶するとともに、さらに各区分化音声ファイルと議事内容とを関連付けして記憶する。なお、これらの情報は音声状況ファイルに付加されるものである。これにより、各区分化音声ファイルの内容を容易に識別することができる。
【0090】
さらに、このように関連付けされた後、内容表示部206をマウスでダブルクリックすると、CPU121はこれを認識して、選択された内容表示部206に関連付けされている区分化音声ファイルを録音サーバ101から読み出して再生する。これにより、会議全体をいちいち聞き直すことなく、必要な内容の部分のみを容易に抽出して聴き取ることができる。
【0091】
以上のような構成および処理を用いることで、より分かりやすい議事録を簡単に形成することができる。また、会議の必要部のみを容易に聞き直すことができる。
【0092】
ところで、議事録の初期表示パターンは、図11(A)に示すようなパターンに限らず、図12(A),(B)に示すようなパターンや、図12(A),(B)を組み合わせたようなパターンであってもよい。
【0093】
図12(A),(B)はそれぞれ編集アプリ実行時の初期表示画像を示す図である。
【0094】
図11(A)は、単方位、複数方位の組み合わせによる方位で区別することなく、話者識別データを並べて表示する方法を示したが、図12(A)に示すように、複数方位の組み合わせの場合には、それぞれの方位に分割してバーグラフ203を表示するようにしてもよい。また、図12(B)に示すように話者識別データの表示順を優先させてバーグラフ203を表示するようにしてもよい。
【0095】
また、話者音声DB53において、図13(A)に示すように方位データをさらに追加することで、図13(B)に示すように、初期状態から話者名のみで話者識別情報を表示することができる。
図13(A)は方位データをも含む話者音声DB53の構成を示す概念図であり、(B)は図13(A)に示す話者音声DBを用いた場合の編集画面の一例を示す図である。
【0096】
図13(A)に示すように、話者音声DB53には、話者名データSiA〜SiI、音声特徴量データScA〜ScI、装置データAp111,Ap112とともに、各話者名データSiA〜SiIにそれぞれ対応する方位データDir11,Dir12,Dir14,Dir15,Dir18,Dir21,Dir24,Dir26,Dir28が、話者名データSiA〜SiIに関連付けされて記録されている。
【0097】
ここで、話者名データSiと方位データDirの関連付けは、会議前に各会議者が個別に発声して自分の発声音および話者名と座席位置(方位)とを記録することにより実現できる。また、会議の進行中に、録音サーバ101の音声データ解析部2が、順次話者名データSiと方位データDirとの関連を自動的に検出して話者音声DB53を更新記録していくことでも実現できる。
【0098】
編集アプリが実行されると、パソコン102のCPU121は、音声状況データから話者識別データを読み出すとともに、図13(A)に示す話者音声DB53を読み出して、方位データDirを話者名データSiに置き換える。そして、置き換えられた話者名データSiを、図13(B)に示すように話者識別情報表示部204へ表示する。このような方法を用いることで、方位未検出データ以外は話者名で表示されるので、議事録作成者に対して、発言者がより分かりやすいように議事録編集画面を表示することができる。この方位データDirを話者名データSiに変換する処理は、編集時に行う場合に限らず、音声状況データの生成時に行ってもよい。
【0099】
なお、前述の説明では、録音サーバ101と、音声状況ファイルの表示、編集装置であり、音声ファイルの再生装置であるパソコン102とがネットワーク接続される場合を示したが、パソコン102が録音サーバ101を備えるような構成としてもよい。
図14はパソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。
図14に示すように、録音サーバを兼用したパソコンは、音声データ解析部2と方位・話者同定部3と音声状況データ生成部4とを含む制御部(CPU)1、記録部5、ネットワークI/F6、スピーカ7、操作入力部8、表示部9を備える。記録部5は、録音サーバとして記録部(図3の記録部5)とパソコンのアプリのための記憶部(図10の記憶部122)とを兼ね備え、ネットワークI/F6は、録音サーバとしてのネットワークI/F(図3のネットワークI/F6)とパソコンとしてのネットワークI/F(図10のネットワークI/F125)とを兼ね備える。制御部1はパソコンの制御部(CPU)であるとともに、録音サーバの制御部として機能する。スピーカ7、操作入力部8、表示部9は、前述のパソコン102のスピーカ126、操作入力部124、表示部123とそれぞれ同じである。
【0100】
このような構成とすることで、録音サーバ(音声ファイルの記録と音声状況ファイルの生成記録とを行う装置)、音声状況(会議発言状況)を可視化する装置、音声状況データの編集装置、音声ファイルの再生装置を一体形成することができる。なお、記録部はパソコンに内蔵される磁気記録装置であっても、外付けされる各種の記録装置であってもよい。
【0101】
また、前述の説明では、録音サーバ101と音声会議装置111,112とを別体形成した例を示したが、ネットワーク100に接続する音声会議装置のうち、少なくともいずれか1つの音声会議装置に内蔵させても良い。
【0102】
図15は録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
図15に示すように、録音サーバを音声会議装置に内蔵させる場合、図2に示した構成に対して、記憶部30を追加する。
【0103】
記憶部30には、エコーキャンセル回路20の収音ビーム音声信号MBが入力されるとともに、入出力I/F12からの入力音声信号が入力される。記憶部30はこれらを音声ファイルとして記憶する。制御部10は収音ビーム音声信号が記憶部30に入力される場合、自身の装置データと収音ビーム選択部19から得られる方位データと、収音時間データとを添付して記憶するとともに、前述の方位・話者同定を行って音声状況データを生成して記憶部30に記憶する。また、制御部10は入力音声信号が記憶部30に入力される場合、入出力I/F12から受信元の装置データ、入力音声信号に添付された方位データ、収音時間データを取得して、前述の方位・話者同定を行って記憶部30の音声状況データを更新する。この際、まだ、音声状況データが生成、記憶されていなければ、音声状況データを生成、記憶する。
【0104】
このような構成とすることで、録音サーバを別途設ける必要が無く、議事録作成システムをより簡素な構造で実現することができる。なお、記憶部を備える音声会議装置はネットワークに接続する1台のみである必要はなく、複数台に備えさせても良い。
【0105】
また、音声会議装置に備えられる記憶部はあまり大きなものとすることができないので、音声会議装置に記憶部を備えさせるとともに、別途録音サーバを設けても良い。この場合、音声会議装置の記憶部で対応可能な時間までは、音声会議装置の記憶部で音声ファイルおよび音声状況データを記憶し続け、記憶部の容量が一杯となる時点で録音サーバに転送を行ってもよい。
【0106】
また、前述の説明では、ネットワークに接続する複数の音声会議装置で多地点会議を行う場合を示したが、単一の音声会議装置のみを使う場合であっても同時に方位を検出して収音音声信号に関連付けすることで同様の作用・効果を得ることができる。
【0107】
また、前述の説明では、議事録作成の場合を例に説明したが、他の多地点間の通信音声を記録する装置(システム)に対しても同様の作用・効果を得ることができる。
【図面の簡単な説明】
【0108】
【図1】本発明の実施形態の議事録作成システムの構成図である。
【図2】本実施形態の音声会議装置111,112の主要構成を示すブロック図である。
【図3】本実施形態の録音サーバ101の主要構成を示すブロック図である。
【図4】話者音声DB53の構成を示す概略図である。
【図5】録音サーバ101の録音処理フローを示すフローチャートである。
【図6】地点aの話者Aが発言した状態を示す図、および、地点aの話者A,Eが同時に発言した状態を示す図である。
【図7】地点aの話者Eが移動しながら発言した状態を示す図である。
【図8】録音サーバ101に記録された音声ファイル、音声状況データの概念図である。
【図9】議事録作成時の音声通信システムの構成図である。
【図10】図9に示すパソコン102の主要構成を示すブロック図である。
【図11】編集アプリ実行時にパソコン102の表示部123に表示される表示画像を示す図である。
【図12】編集アプリ実行時の初期表示画像を示す図である。
【図13】方位データをも含む話者音声DB53の構成を示す概念図、および、話者音声DBを用いた場合の編集画面の一例を示す図である。
【図14】パソコンが録音サーバを兼用する場合のパソコンの主要構成を示すブロック図である。
【図15】録音サーバが内蔵された音声会議装置の構成を示すブロック図である。
【符号の説明】
【0109】
100−ネットワーク、101−録音サーバ、1−制御部、2−音声データ解析部、3−方位・話者同定部、4−音声状況データ生成部、5−記録部、51−音声ファイル記録部、52−音声状況データ記録部、53−話者音声DB、6−ネットワークI/F、111,112−音声会議装置
【特許請求の範囲】
【請求項1】
音声データと当該音声データの到来方向を示す方位データとを経時的に取得するデータ取得手段と、
各話者の話者音声特徴量を記憶する話者音声特徴データベースと、
取得したデータの方位データが所定時間に亘り単一方位を示して変化が無ければ、このデータを単方位データと判定し、
前記取得したデータの方位データが単方位データでない場合に、該取得したデータの音声データから音声特徴量を抽出して前記話者音声特徴量と比較することによって話者同定を行い、
話者同定されなければこのデータを方位未検出データとし、同定話者が複数で且つ所定時間に亘り変化がなければこのデータを複数方位データとし、同定話者の方位データが変化すれば同定話者に対応する話者名データとする方位・話者同定手段と、
前記単方位データ、前記方位未検出データ、複数方位データ、話者名データの判定結果の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、
前記音声データおよび前記音声状況データを記憶する記憶手段と、
を備えたことを特徴とする音声状況データ生成装置。
【請求項2】
前記方位・話者同定手段は、通信中に入力される話者音声から得られる話者音声特徴量に基づいて随時話者音声特徴データベースの更新を行う請求項1に記載の音声状況データ生成装置。
【請求項3】
請求項1または請求項2に記載の音声状況データ生成装置と、
前記音声状況データに基づいて前記音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、
を備えたことを特徴とする音声状況可視化装置。
【請求項4】
請求項3に記載の音声状況可視化装置と、
前記音声状況データを編集する操作入力を受け付ける操作受付手段と、
該操作受付手段により受け付けた編集内容を解析して、前記音声状況データを編集するデータ編集手段と、
を備えたことを特徴とする音声状況データ編集装置。
【請求項5】
請求項4に記載の音声状況データ編集装置と、
前記操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、
を備えたことを特徴とする音声データ再生装置。
【請求項6】
複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
請求項1または請求項2に記載の音声状況データ生成装置、請求項3に記載の音声状況可視化装置、請求項4に記載の音声状況データ編集装置、請求項5に記載の音声データ再生装置のいずれかは、前記複数の放収音装置とは別体でネットワークに接続され、
前記データ取得手段は、前記複数の放収音装置間で通信される音声データと方位データとを取得することを特徴とする音声通信システム。
【請求項7】
複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
請求項1または請求項2に記載の音声状況データ生成装置、請求項3に記載の音声状況可視化装置、請求項4に記載の音声状況データ編集装置、請求項5に記載の音声データ再生装置のいずれかは、前記複数の放収音装置のいずれか1台に内蔵され、
前記データ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと方位データとを取得することを特徴とする音声通信システム。
【請求項8】
前記放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、前記選択された収音ビーム信号を音声データとし、前記検出した方位を方位データとして出力する請求項6または請求項7に記載の音声通信システム。
【請求項1】
音声データと当該音声データの到来方向を示す方位データとを経時的に取得するデータ取得手段と、
各話者の話者音声特徴量を記憶する話者音声特徴データベースと、
取得したデータの方位データが所定時間に亘り単一方位を示して変化が無ければ、このデータを単方位データと判定し、
前記取得したデータの方位データが単方位データでない場合に、該取得したデータの音声データから音声特徴量を抽出して前記話者音声特徴量と比較することによって話者同定を行い、
話者同定されなければこのデータを方位未検出データとし、同定話者が複数で且つ所定時間に亘り変化がなければこのデータを複数方位データとし、同定話者の方位データが変化すれば同定話者に対応する話者名データとする方位・話者同定手段と、
前記単方位データ、前記方位未検出データ、複数方位データ、話者名データの判定結果の時間分布を分析したデータである音声状況データを生成する音声状況データ生成手段と、
前記音声データおよび前記音声状況データを記憶する記憶手段と、
を備えたことを特徴とする音声状況データ生成装置。
【請求項2】
前記方位・話者同定手段は、通信中に入力される話者音声から得られる話者音声特徴量に基づいて随時話者音声特徴データベースの更新を行う請求項1に記載の音声状況データ生成装置。
【請求項3】
請求項1または請求項2に記載の音声状況データ生成装置と、
前記音声状況データに基づいて前記音声データの時間分布を話者別で時系列にグラフ化して表示する表示手段と、
を備えたことを特徴とする音声状況可視化装置。
【請求項4】
請求項3に記載の音声状況可視化装置と、
前記音声状況データを編集する操作入力を受け付ける操作受付手段と、
該操作受付手段により受け付けた編集内容を解析して、前記音声状況データを編集するデータ編集手段と、
を備えたことを特徴とする音声状況データ編集装置。
【請求項5】
請求項4に記載の音声状況データ編集装置と、
前記操作受付手段により選択された話者の音声データを全音声データ中から選択して再生する再生手段と、
を備えたことを特徴とする音声データ再生装置。
【請求項6】
複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
請求項1または請求項2に記載の音声状況データ生成装置、請求項3に記載の音声状況可視化装置、請求項4に記載の音声状況データ編集装置、請求項5に記載の音声データ再生装置のいずれかは、前記複数の放収音装置とは別体でネットワークに接続され、
前記データ取得手段は、前記複数の放収音装置間で通信される音声データと方位データとを取得することを特徴とする音声通信システム。
【請求項7】
複数の放収音装置がネットワークを介して音声データを通信する音声通信システムであって、
請求項1または請求項2に記載の音声状況データ生成装置、請求項3に記載の音声状況可視化装置、請求項4に記載の音声状況データ編集装置、請求項5に記載の音声データ再生装置のいずれかは、前記複数の放収音装置のいずれか1台に内蔵され、
前記データ取得手段は、音声データ処理装置が内蔵される放収音装置で送受信される音声データと方位データとを取得することを特徴とする音声通信システム。
【請求項8】
前記放収音装置は、マイクアレイを備え、該マイクアレイの各マイクの収音音声信号に基づいて、それぞれに異なる方位に強い指向性を有する複数の収音ビーム信号を形成し、該複数の収音ビーム信号を比較して、最も信号強度の強い収音ビーム信号を選択するとともに、選択された収音ビーム信号に対応する方位を検出して、前記選択された収音ビーム信号を音声データとし、前記検出した方位を方位データとして出力する請求項6または請求項7に記載の音声通信システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2007−318438(P2007−318438A)
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願番号】特願2006−145696(P2006−145696)
【出願日】平成18年5月25日(2006.5.25)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
【公開日】平成19年12月6日(2007.12.6)
【国際特許分類】
【出願日】平成18年5月25日(2006.5.25)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】
[ Back to top ]