会議の活性化を支援する装置,方法,プログラム及び記録媒体
【課題】 声紋認証を応用して、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供する。
【解決手段】 会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する。この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる。この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況M1〜M10を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる。
【解決手段】 会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する。この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる。この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況M1〜M10を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議を行っている最中に、会議の円滑な進行や議論の活性化を支援するための装置,方法等に関する。
【背景技術】
【0002】
企業等においては、各種の議題について討論や意思決定を行うために、関係者が集まって会議を開くことが日常的になっている。こうした会議では、円滑な進行を図ったり議論を活性化することにより、限られた時間内にある程度の成果を得ることが望まれる。
【0003】
こうした会議において、議論の行き詰まり・発言者の偏りといったような十分な成果が得られなくなる要因を排除するための手法やツールとしては、従来から、会議の準備段階や会議の結果の集約段階で用いるためのさまざま手法やツールが提供されている。
【0004】
しかし、会話を行っている最中に会議の円滑な進行や議論の活性化を促すための手法やツールは、提案されていない。このため、従来は、会議の進行役の個人的な議事運営能力によって会議の成果が左右されることが少なくなかった。例えば、会議中に会議の進行を支援するためのシステムとしては、各会議参加者が、着席のまま、ほぼ同時に共用表示装置に書き込みを行うことができるとともに、これが即座に表示されるようにし、これによって各会議参加者に協調作業環境を与えるようにしたものが従来から提案されている(例えば、特許文献1参照)。しかし、このシステムでも、書き込みを行う参加者が少なくなった(すなわち議論が行き詰まった)ときや書き込みを行う参加者が偏っている(すなわち発言者が偏っている)ときには、やはり会議の進行役の個人的な議事運営能力によって会議の成果が左右されてしまう。
【0005】
他方、音声データを処理する技術としては、声紋認証が存在している。声紋認証は、音声から発話者を特定する技術であり、主にバイオメトリック認証(人体の特徴に基づく個人の認証)の一種として利用されている(本特許出願の出願時には未公開であるが、例えば、出願番号特願2004−143952号の特許出願)。
【0006】
【特許文献1】特開2004−21595号公報(段落番号0016〜18、図5)
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、こうした声紋認証を、会議の円滑な進行や議論の活性化のために応用する技術は、いまだ提案されるに至っていない。声紋認証に利用するデータは人間の発話であるから、会話音声を利用しているし、認証の結果、誰が話したデータかを特定しているので、一定時間の会話を解析するデータとして十分有効である。また、発話直後に認証がされるため、リアルタイムにそれらを利用することも可能である。
【0008】
本発明は、上述の点に鑑み、声紋認証を応用して、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供することを課題としてなされたものである。
【課題を解決するための手段】
【0009】
この課題を解決するために、本発明に係る会議活性化支援装置は、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段と、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段と、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段とを備えたことを特徴とする。
【0010】
また、本発明に係る会議活性化支援方法は、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証ステップと、この声紋認証ステップでの認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理ステップと、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理ステップとを有することを特徴とする。
【0011】
また、本発明に係るプログラムは、コンピュータを、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、として機能させることを特徴とする。
【0012】
また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、として機能させるためのプログラムを記録したことを特徴とする。
【0013】
これらの発明では、会議中の発話者の音声データから、現在発話している会議参加者が声紋認証によりリアルタイムに特定され、この声紋認証の結果が、会議開始からの経過時間と関連させて記憶手段に順次記憶される。そして、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況が、会議開始からの時間の経過に応じて更新されながら表示手段に表示される。
【0014】
これにより、会議を行っている最中に、会議参加者毎の発話状況についての客観的な情報が、会議開始からの時間の経過に応じてリアルタイムに更新されながら表示手段に表示される。会議の進行役は、この表示手段の表示内容から、各会議参加者の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができる。
【0015】
なお、会議参加者毎の発話状況の表示態様としては、一例として、会議開始時からの経過時間を示す時間軸に沿って、各会議参加者が発話した時間帯を時系列に表示させることが好適である。
【0016】
それにより、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができるようになる。
【0017】
また、その場合において、会議中の発話者の音声データ自体も会議開始からの経過時間と関連させて記憶手段に記憶させ、この時間軸上で位置を指定する操作が行われたことに応じて、この記憶手段に記憶された音声データを、その指定された位置に対応する部分から再生させることが好適である。
【0018】
それにより、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直すことができるようになる。
【0019】
さらに、このように音声データを再生させる場合において、発話者の発言内容を肯定的に捉えた場合に操作するための操作手段の操作によって発生したデータを、会議開始からの経過時間と関連させて記憶手段に記憶させ、各会議参加者が発話した時間帯のうち、この操作手段が操作された時間帯を識別表示させることが好適である。
【0020】
それにより、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができるようになる。
【0021】
また、会議参加者毎の発話状況の表示態様としては、各会議参加者の累積発話時間の比率を表示させることや、各会議参加者の累積発話時間の比率の推移を表示させることも好適である。
【0022】
それにより、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができるようになる。
【0023】
さらに、それらの場合において、声紋認証の結果が不明であった累積時間の比率やその比率の推移をさらに表示させることが好適である。
【0024】
それにより、声紋認証の結果が不明となっている時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなるときには、複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる(過度に大きな声で発言している)など、冷静な議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、会議の進行に配慮することができるようになる。
【0025】
さらに、それらの場合において、所定のサンプリング周期でサンプリングされた会議中の発話者の音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類し、このサンプリング周期よりも長い所定の時間間隔を単位としてこの分類結果を集計し、この集計結果に基づき、会議中の発話者の音声データを声紋認証の対象とするか否かを、この所定時間間隔分の音声データ毎に決定し、声紋認証の対象とすることを決定した各々のこの所定時間間隔分の音声データからのみ声紋認証によって会議参加者を特定するとともに、声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態(誰も発言していない状態)であることを示す情報として記憶手段に記憶させ、この無音状態であった累積時間の比率やその比率の推移をさらに表示させることが好適である。
【0026】
それにより、無音状態の時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなるときには、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができるようになる。
【発明の効果】
【0027】
本発明によれば、会議を行っている最中に、会議参加者毎の発話状況についての客観的な情報が、会議開始からの時間の経過に応じてリアルタイムに更新されながら表示手段に表示される。これにより、会議の進行役が、各会議参加者の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができるという効果が得られる。
【0028】
また、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができるという効果が得られる。
【0029】
また、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直すことができるという効果が得られる。
【0030】
また、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができるという効果が得られる。
【0031】
また、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができるという効果が得られる。
【0032】
また、複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる(過度に大きな声で発言している)など、冷静な議論を行えない状況に陥っていることを迅速に把握して、会議の進行に配慮することができるという効果が得られる。
【0033】
また、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができるという効果が得られる。
【発明を実施するための最良の形態】
【0034】
以下、本発明を図面を用いて具体的に説明する。図1は、本発明を実施するためのシステム構成例を示す。会議室内で、会議を行っている最中の各会議参加者A1〜A10(このうちA1は会議の進行役)の音声が、集音装置1で集音されてアナログ音声信号に変換される。集音装置1としては、例えば無指向性マイクロフォンを用いるか、あるいは、それぞれ特定の会議参加者のほうに向けた複数の指向性マイクロフォンと、それらの指向性マイクロフォンを切り替える切り替え回路とを設けた装置を用いる。集音装置1からは、パーソナルコンピュータ2に音声信号が送られる。パーソナルコンピュータ2は、進行役A1に操作してもらう。
【0035】
また、各会議参加者A1〜A10の手元にはそれぞれワイヤレス入力装置3が用意されている。ワイヤレス入力装置3は、例えば、1個の押し釦と、その押し釦が操作されたことを示す信号をワイヤレスで送信するための送信ユニット(例えば赤外線送信ユニット)とが設けられたものである。各会議参加者A1〜A10には、現在の発話者の発言内容を聴いて、感銘を受けたり賛同するなど肯定的かつ発展的に捉えた場合に、このワイヤレス入力装置3の押し釦を操作してもらう。
【0036】
図2は、パーソナルコンピュータ2の構成を、本発明の説明上必要な範囲で示すブロック図である。CPU11と、表示装置(例えば液晶ディスプレイ)12と、外部記憶装置(HDD)13と、メモリ14と、サウンドインタフェース(サウンドカード)15と、ワイヤレスインタフェース(例えば赤外線受光ユニット)16と、ポインティングデバイス(例えばマウス)17とが、バス18に接続されている。
【0037】
外部記憶装置13には、通常のパーソナルコンピュータと同様の周辺機器用の各種デバイスドライバ(サウンドドライバ,ポインティングデバイス用ドライバ,ワイヤレスインタフェース用ドライバ等)がインストールされている。
【0038】
各種デバイスドライバは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。図1の集音装置1からの音声信号は、サウンドインタフェース15に入力し、サウンドドライバにより、CPU11で処理可能な所定のサンプリング周波数のデジタルデータに変換される。
【0039】
また、図1のワイヤレス入力装置3からの信号は、ワイヤレスインタフェース16に受信され、ワイヤレスインタフェース用ドライバにより、CPU11で処理可能な形式の信号に変換される。
【0040】
また、パーソナルコンピュータ2内で再生された音声データは、サウンドインタフェース15においてサウンドドライバによってアナログ信号に変換され、サウンドインタフェース15から出力してパーソナルコンピュータ2の付属スピーカに送られる。
【0041】
外部記憶装置13には、さらに、声紋認証対象決定アプリケーションと、声紋認証エンジンと、会議活性化アプリケーションとがインストールされている。これらのプログラムは、例えばCD−ROM等の記録媒体として提供してもよいし、あるいはWebサイトからダウンロードさせるようにしてもよい。
【0042】
声紋認証対象決定アプリケーションは、声紋認証エンジンが声紋認証の対象とする音声データを決定するためのアプリケーションソフトウェアである。この声紋認証対象決定アプリケーションは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。
【0043】
図3は、声紋認証対象決定アプリケーションにおいて一つの処理単位とする音声データを示す図である。声紋認証対象決定アプリケーションでは、声紋認証エンジンにおいて声紋認証可能な単位時間である声紋認証単位時間(本実施形態では3秒間とする)と同じ時間間隔の音声データを、一つの処理単位とする。
【0044】
図4は、この声紋認証単位時間(3秒間)分の音声データ毎の、声紋認証対象決定アプリケーションの処理内容を示すフローチャートである。最初に、CPU11内のカウンターである有音カウンターY,無音カウンターM,有音連続カウンターYR,無音カウンターM,無音連続カウンターMRをそれぞれ0にリセットする(ステップS1)。
【0045】
続いて、供給された当該声紋認証単位時間分の音声データのうちの最初のサンプリングタイミングのデータの値N(8ビット)を、所定の閾値(0に近い低い値)Aと比較する(ステップS2)。そして、その値Nが閾値Aよりも大きかったか否か(有音データであったか否か)を判断する(ステップS3)。
【0046】
イエスであれば、有音カウンターYを1だけインクリメントする(ステップS4)。続いて、前回のサンプリングタイミングのデータについてもステップS3でイエスであったか否かを判断する(ステップS5)。
【0047】
イエスであれば、有音連続カウンターYRを1だけインクリメントし(ステップS6)、ステップS10に進む。他方ノーであれば、ステップS5からそのままステップS10に進む。
【0048】
ステップS3でノーであれば(無音データであれば)、無音カウンターMを1だけインクリメントする(ステップS7)。続いて、前回のサンプリングタイミングのデータについてもステップS3でノーであったか否かを判断する(ステップS8)。
【0049】
イエスであれば、無音連続カウンターMRを1だけインクリメントし(ステップS9)、ステップS10に進む。他方ノーであれば、ステップS8からそのままステップS10に進む。
【0050】
ステップS10では、当該声紋認証単位時間分内の最後のサンプリングタイミングのデータについてステップS3以下の処理を終えたか否かを判断する。ノーであれば、当該声紋認証単位時間分内の次のサンプリングタイミングのデータの値Nを前述の閾値Aと比較する(ステップS11)。そして、ステップS3に戻ってステップS3以下の処理を繰り返す。
【0051】
ステップS10でイエスになると、有音カウンターYの現在のカウント値にサウンドインタフェース15でのサンプリング周期を掛けた値である時間数が2秒以上であるか否かを判断する(ステップS12)。イエスであれば、当該声紋認証単位時間分の音声データを、声紋の認証対象とすることを決定する(ステップS15)。そして当該声紋認証単位時間分の音声データについての処理を終了する(その後、引き続き供給される次の声紋認証単位時間分の音声データについて図4の処理が開始される)。
【0052】
ステップS12でノーであれば、有音連続カウンターYRの現在のカウント値に上記サンプリング周期を掛けた値である時間数が2秒以上であるか否かを判断する(ステップS13)。イエスであれば、ステップS15に進む。他方、ノーであれば、無音連続カウンターMRの現在のカウント値に上記サンプリング周期を掛けた値である時間数が1秒以上であるか否かを判断する(ステップS14)。
【0053】
イエスであれば、当該声紋認証単位時間分の音声データを、声紋の認証対象としないことを決定する(ステップS16)。そして当該声紋認証単位時間分の音声データについての処理を終了する。他方、ノーであれば、ステップS15に進む。
【0054】
この処理により、声紋認証エンジンにおける声紋認証単位時間(3秒間)分の音声データ毎に、有音データ部分の時間の長さ,有音データが連続した時間の長さまたは無音データが連続した時間の長さに基いて、声紋認証の対象とするか否かが決定される。
【0055】
なお、図5は、会議参加者の発話に基づく声紋認証単位時間分の音声データ内の、想定される有音データ,無音データの分布パターン(パターン1〜パターン8)を例示する図である。それ以外のパターンも考えられるが、大きく分類すると、この8パターンに集約されると考えられる。
【0056】
声紋認証エンジンで声紋認証を実行する前にこの認声紋認証対象決定アプリケーションの処理を実行すれば、入力音声データの全てを対象として声紋認証を行うのではなく、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に、その声紋認証単位時間についての有音データ・無音データの集計結果に基いて決定して、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみ声紋認証を行うことができる。
【0057】
これにより、例えば一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間のような、有音データの割合が少ない(無音データの割合が多い)声紋認証単位時間の音声データを、声紋認証の対象から除外することができるので、声紋認証の誤認証率を下げて発話者特定の精度を高めることができる。
【0058】
図2の外部記憶装置13内の声紋認証エンジンは、声紋認証による発話者の特定を行うためのアプリケーションソフトウェアである。この声紋認証エンジンは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。
【0059】
この声紋認証エンジンの声紋認証処理は、以下の(1)乃至(3)の処理から成っている。
(1)声紋モデルの生成
供給される音声データを声紋認証単位時間(3秒間)分の音声データ毎に順次スペクトル分析し、声紋の特徴を抽出することで、声紋モデルを生成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
【0060】
(2)声紋データの照合
生成した声紋モデルと、予め各発話者のIDと対応付けて登録(外部記憶装置13に記憶)された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、登録された声紋データのうち、生成した声紋モデルに最も近似する声紋モデルに対応するIDを特定する。なお、ここでは、図1の各会議参加者A1〜A10の声紋モデルが予め登録されているとともに、IDとして各会議参加者A1〜A10の氏が用いられている。
【0061】
(3)照合スコアと閾値との比較
上記(2)の処理で算出した照合スコアSCRを順次閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、上記(2)の処理で特定したIDを有効なものと判断する。
【0062】
声紋認証技術としては、すでに公知の技術をこの声紋認証処理に適用してよい。こうした声紋認証処理によれば、無音状態及び複数人が同時に発話している状態を除いて、認証率80%以上、誤認証10%未満、不明率10%程度の認証精度を確保することができる。
【0063】
図2の外部記憶装置13内の会議活性化アプリケーションは、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供するためのアプリケーションソフトウェアである。会議活性化アプリケーションは、会議の開始時にユーザの操作によって起動されてメモリ14上にロードされる。
【0064】
図6及び図7は、この会議活性化アプリケーションの処理内容を示すフローチャートである。最初に、図6に示すように、サウンドインタフェース15(図2)においてデジタル変換された音声データを、サウンドドライバから受け取って蓄積していく(ステップS21)。そして、声紋認証単位時間(3秒間)分の音声データが蓄積されると、その声紋認証単位時間分の音声データを前述の声紋認証対象決定アプリケーションに渡して、図4に示した処理によって声紋認証の対象とするか否かを決定させる(ステップS22)。
【0065】
続いて、声紋認証対象決定アプリケーションの決定結果を受け取り、声紋認証の対象とすることが決定されたか否かを判断する(ステップS23)。ノーであれば、その決定結果を、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング(起動時すなわち会議開始時からの経過時間)と関連付けて、無音状態(誰も発言していない状態)であることを示す情報としてメモリ14(図2)に記憶する(ステップS24)。
【0066】
他方、イエスであれば、その声紋認証単位時間分の音声データを声紋認証エンジンに渡して、声紋認証を行わせる(ステップS25)。そして、声紋認証エンジンから認証結果を受け取り、発話者のID(ここでは前述のように図1の各会議参加者A1〜A10の氏)が特定されたか否かを判断する(ステップS26)。
【0067】
イエスであれば、IDが特定されたその声紋認証単位時間分の音声データを、ID毎に分類して、その音声データをサウンドドライバから受け取ったタイミング(会議開始時からの経過時間)と関連付けてメモリ14に記憶する(ステップS27)。他方、ノーであれば(発話者が不明であれば)、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング(会議開始時からの経過時間)と関連付けて、発話者が不明であることを示す情報をメモリ14に記憶する(ステップS28)。
【0068】
ステップS27,S28またはS24を終えると、それまでにステップS24,S27及びS28で記憶した情報に基づき、会議開始時から現在までの、会議参加者毎の累積発話時間(当該会議参加者が発話者として認証された回数×声紋認証単位時間)と、発話者が不明の累積時間(発話者が不明であった回数×声紋認証単位時間)と、無音状態の累積時間(声紋認証対象決定アプリケーションで声紋認証の対象としないことが決定された回数×声紋認証単位時間)とを計算する。そして、それらの累積時間の比率を計算し、その比率を会議開始時からの経過時間別にメモリ14に記憶する(ステップS29)。
【0069】
続いて、その声紋認証単位時間分の音声データを蓄積している間に、ワイヤレス入力装置3(図1)からの信号が、ワイヤレスインタフェース16(図2)に入力して前述のワイヤレスインタフェース用ドライバによって変換されたか否かを判断する(ステップS30)。
【0070】
イエスであれば、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング(会議開始時からの経過時間)と関連付けて、発言内容が肯定的に捉えられたことを示す情報をメモリ14に記憶する(ステップS31)。そして図7のステップS32に進む。他方、ノーであれば、ステップS30からそのままステップS32に進む。
【0071】
ステップS32では、それまでにステップS24,S27,S28及びS31で記憶した情報に基づき、会議開始時から現在までに各会議参加者が発話した時間帯等を時系列に表すグラフ(以下「時間帯グラフ」と呼ぶ)を、表示装置12(図2)に表示させる。そして、ステップS33〜S36を経て(ステップS33〜S36についいては後述する)ステップS22に戻り、声紋認証単位時間分の時間が経過する毎にステップS22以下を繰り返す。
【0072】
図8は、会議開始時から300秒程度経過した時点での、ステップS32での時間帯グラフの表示例を示す図である。また、図9は、図8の表示状態の後、会議開始時から600秒余り経過した時点でのこの時間帯グラフの表示例を示す図である。
【0073】
この時間帯グラフは、会議開始時から現在までの経過時間を示す時間軸21を横軸にとり、図1の各会議参加者A1〜A10の氏(「佐藤」,「鈴木」,「高橋」,…)及び「不明」,「無音」の文字を縦軸にとったものである。そして、それまでにステップS24,S27及びS28で記憶した情報に基づき、時間軸21に沿って、各会議参加者A1〜A10が発話した時間帯がそれぞれ棒状のマークM1〜M10(声紋認証単位時間分の長さを最小単位とするマーク)によって時系列に表されるとともに、発話者不明の時間帯,無音状態の時間帯がそれぞれ棒状のマークM11,M12によって時系列に表される。図では表現されていないが、このマークM1〜M12は、各会議参加者や「不明」,「無音」毎に異なる12種類の色(朱色を除く)で表示される。(図8,図9の例では、高橋氏,伊藤氏,中村氏は未発言なので、マークM3,M6,M8は表示されていない)
【0074】
また、図8や図9に示しているように、この時間帯グラフでは、それまでにステップS31で記憶した情報に基づき、各会議参加者が発話した時間帯(マークM1〜M10の表示範囲)のうち、その発言内容を他の会議参加者が肯定的に捉えた時間帯が、マーク22で識別表示される。図では表現されていないが、このマーク22は朱色で表示される。
【0075】
そして、図8と図9との対比からも明らかなように、この時間帯グラフは、ステップS22〜S32を繰り返すことにより、リアルタイムに(声紋認証単位時間分の時間が経過する毎に)時間軸21が延びていき、新たな表示内容が追加される。(なお、時間軸21が画面いっぱいにまで延びた以降は、例えば時間軸21のスケールを圧縮するか、あるいは画面を横方向にスクロール可能にする。)
【0076】
図7のステップS33では、ポインティングデバイス17(図2)の現在の操作内容の情報を前述のポインティングデバイス用ドライバから受け取り、この時間帯グラフの時間軸21上においていずれかの会議参加者が発話した時間帯内の時間位置がポインティングデバイス17で指定されているか否かを判断する。
【0077】
ノーであれば、そのままステップS34に進む。他方、イエスであれば、それまでにステップS27で記憶した音声データの再生を、その指定された時間位置の部分から開始し、再生した音声データをサウンドドライバに渡してサウンドインタフェース15(図2)から出力させる(但し、再生中にイエスとなった場合には、逆に再生を終了する)(ステップS37)。そしてステップS34に進む。
【0078】
図8や図9に示しているように、時間帯グラフの下側には、比率釦23,比率推移釦24及び終了釦25も表示される。図7のステップS34では、それまでにこの比率釦23がポインティングデバイス17で指定されたか否かを判断する。
【0079】
ノーであれば、そのままステップS35に進む。他方、イエスであれば、ステップS29で記憶した最新の情報に基づき、会議開始時から現在までの各会議参加者の累積発話時間等の比率を表すグラフ(以下「比率グラフ」と呼ぶ)を、表示装置12に別ウィンドウで表示させる(既にこの比率グラフが表示されている場合には、その後ステップS29で記憶した最新の情報によってその表示内容を更新する)(ステップS38)。そしてステップS35に進む。
【0080】
図10は、この比率グラフの表示例(図9に示した表示状態において比率釦23が指定された場合の例)を示す。比率グラフは、各会議参加者(「佐藤」,「鈴木」,「高橋」,…)の累積発話時間と発話者不明の累積時間と無音状態の累積時間との比率を、円グラフで表したものである。図では表現されていないが、この円グラフは、各会議参加者や「不明」,「無音」毎に異なる12種類の色(図8,図9のマークM1〜M12に対応する色)で色分けして表示される。
【0081】
この比率グラフで表示される各累積時間の比率は、ステップS22〜S34,S38を繰り返すことによってリアルタイムに(声紋認証単位時間分の時間が経過する毎に)更新される。
【0082】
なお、図11に例示するように、時間帯グラフ(図8,図9)の時間軸21上において、現在の時間位置(時間軸の右端)の直近の一部の時間範囲26がポインティングデバイス17のドラッグ&ドロップ操作によって指定され、その後比率釦23がポインティングデバイス17で指定された場合には、ステップS38では、それまでにステップS24,S27及びS28で記憶した情報に基づき、この時間範囲21での会議参加者毎の累積発話時間と発話者不明の累積時間と無音状態の累積時間とを、ステップS29と同様にして計算する。そして、それらの累積時間の比率を計算し、その比率を表す円グラフを表示させる。
【0083】
図7のステップS35では、それまでに比率推移釦24(図8,図9)がポインティングデバイス17で指定されたか否かを判断する。
【0084】
ノーであれば、そのままステップS36に進む。他方、イエスであれば、ステップS29で記憶した各経過時間毎の情報に基づき、会議開始時から現在までの各会議参加者の累積発話時間等の比率の推移を表すグラフ(以下「推移グラフ」と呼ぶ)を、表示装置12に別ウィンドウで表示させる(既にこの推移グラフが表示されている場合には、その後ステップS29で記憶した最新の情報によってその表示内容を更新する)(ステップS39)。そしてステップS36に進む。
【0085】
図12は、この推移グラフの表示例(図9に示した表示状態において比率推移釦24が指定された場合の例)を示す。推移グラフは、会議開始時からの現在までの経過時間を示す時間軸41を横軸にとり、比率を縦軸にとったものである。そして、この時間軸41に沿って、会議開始時から現在までの各タイミング(声紋認証単位時間分ずつの時間)での各会議参加者A1〜A10の累積発話時間がそれぞれ線L1〜L10(通常は時間の経過につれて折れ線になる)によって表されるとともに、この各タイミングでの発話者不明の累積時間,無音状態の累積時間の比率がそれぞれ線L11,L12によって表される。図では表現されていないが、この線分L1〜L12も、会議参加者や「不明」,「無音」の文字毎に異なる12種類の色(図8,図9のマークM1〜M12に対応する色)で表示される。
【0086】
この推移グラフは、ステップS22〜S35,S39を繰り返すことにより、リアルタイムに(声紋認証単位時間分の時間が経過する毎に)時間軸41が延びていき、新たな表示内容が追加される。
【0087】
図7のステップS36では、終了釦25(図8,図9)がポインティングデバイス17で指定されたか否かを判断する。ノーであれば、前述のようにステップS22に戻ってステップS22以下を繰り返す。他方、イエスであれば、処理を終了する。
【0088】
次に、図1に示したシステムにおいて、進行役A1が会議を進行させる様子について説明する。進行役A1は、会議が開始する前にパーソナルコンピュータ2の電源を投入しておき、会議が開始すると同時に会議活性化アプリケーションを起動する。
【0089】
すると、集音装置1で集音された会議中の各会議参加者A1〜A10の音声データから、声紋認証対象決定アプリケーションの処理を経た後、声紋認証エンジンでの声紋認証(図6のステップS25)によって、現在発話している会議参加者がリアルタイムに特定される。そして、この声紋認証の結果が、会議開始からの経過時間と関連させて図2のメモリ14に順次記憶され(図6のステップS26,S27)、メモリ14に記憶された情報に基づき、図8,図9に例示したように、図2の表示装置12に、会議開始時からの経過時間を示す時間軸21に沿って、各会議参加者が発話した時間帯等がマークM1〜M12で時系列に表示される(図7のステップS32)。
【0090】
これにより、進行役A1は、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができる。
【0091】
また、会議中の発話者の音声データ自体も会議開始からの経過時間と関連させてメモリ14に記憶され(図6のステップS27)、図8,図9の時間軸上21で位置を指定する操作が行われたことに応じて、メモリ14に記憶された音声データが、その指定された位置に対応する部分から再生される(図7のステップS33,S37)。
【0092】
これにより、進行役A1は、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直す(他の会議参加者A2〜A10にも聴かせる)ことができるようになる。
【0093】
さらに、いずれかの会議参加者A1〜A10がワイヤレス入力装置3を操作した(すなわち現在の発話者の発言内容を肯定的に捉えた)ことによって発生したデータが、会議開始からの経過時間と関連させてメモリ14に記憶され(図6のステップS30,S31)、図8,図9に示したように、各会議参加者A1〜A10が発話した時間帯のうち、このワイヤレス入力装置3が操作された時間帯がマーク22で識別表示される。
【0094】
これにより、進行役A1は、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができる。
【0095】
また、図10に例示したように、各会議参加者の累積発話時間の比率が表示されたり(図7のステップS38)、図12に例示したように、各会議参加者の累積発話時間の比率の推移が表示される(図7のステップS39)。
【0096】
これにより、進行役A1は、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができる。
【0097】
さらに、図10や図12に例示したように、声紋認証の結果が不明であった累積時間の比率やその比率の推移も画面表示される。
【0098】
これにより、進行役A1は、声紋認証の結果が不明となっている時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなる(例えば図12で丸42で囲んだ部分)ときには、会議参加者A1〜A10のうちの複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる(過度に大きな声で発言している)など、冷静な議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、会議の進行に配慮することができるようになる。
【0099】
さらに、声紋認証対象決定アプリケーションによる決定結果(声紋認証の対象としないという決定結果)が、会議開始からの経過時間と関連させて、無音状態であることを示す情報としてメモリ14に記憶され(図6のステップS22〜S24)、図10や図12に例示したように、この無音状態の累積時間の比率やその比率の推移も画面表示される。
【0100】
これにより、進行役A1は、無音状態の時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなる(例えば図12で丸43で囲んだ部分)ときには、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができる。
【0101】
以上のようにして、会議中に、会議参加者A1〜A10毎の発話状況が、会議開始からの時間の経過に応じて更新されながらパーソナルコンピュータ2に画面表示される。進行役A1は、この表示内容から、各会議参加者A1〜A10の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができる。
【0102】
なお、以上の例では、各会議参加者A1〜A10が現在の発話者の発言内容を肯定的に捉えたことを、ワイヤレス入力装置3からの信号によって判別するようにしている。しかし、別の例として、集音装置1からパーソナルコンピュータ2に送られた音声データに音声認識処理を施すことによって拍手の音声を抽出し、この拍手の音声が送られたタイミングで、現在の発話者の発言内容が肯定的に捉えられたと判別するようにしてもよい。
【0103】
また、以上の例において、パーソナルコンピュータ2内の外部記憶装置13に音声合成アプリケーション(文字データを音声データに変換するためのアプリケーションソフトウェア)をさらにインストールするとともに、会議活性化アプリケーションにおいて、図10や図12のグラフで発話者不明の時間や無音状態の時間の比率が急激に大きくなったような場合に、この音声合成アプリケーションを用いて‘一人ずつしゃべりましょう’,‘休憩をとりましょう’等の音声を合成させて、その音声をサウンドドライバに渡してサウンドインタフェース15から出力させるようにしてもよい。それにより、会議の進行を自動化することもできるようになる。
【0104】
また、以上の例では、声紋認証対象決定アプリケーション,声紋認証エンジン,会議活性化アプリケーションをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータにインストールしてもよい。
【0105】
また、以上の例では、声紋認証対象決定アプリケーションと、声紋認証エンジンと、会議活性化アプリケーションとをインストールしたパーソナルコンピュータを設けている。しかし、別の例として、声紋認証対象決定アプリケーション,声紋認証エンジン及び会議活性化アプリケーションと同一の処理内容のファームウェアを実行する専用プロセッサを有する装置を、パーソナルコンピュータに代えて設けるようにしてもよい。
【図面の簡単な説明】
【0106】
【図1】本発明を実施するためのシステム構成例を示す図である。
【図2】図1のパーソナルコンピュータの構成を示すブロック図である。
【図3】声紋認証対象決定アプリケーションにおいて一つの処理単位とする音声データを示す図である。
【図4】声紋認証対象決定アプリケーションの処理内容を示すフローチャートであ
【図5】声紋認証単位時間分の音声データ内の有音データ,無音データの分布パターンを例示する図である。
【図6】会議活性化アプリケーションの処理内容を示すフローチャートである。
【図7】会議活性化アプリケーションの処理内容を示すフローチャートである。
【図8】会議活性化アプリケーションによる画面表示例を示す図である。
【図9】会議活性化アプリケーションによる画面表示例を示す図である。
【図10】会議活性化アプリケーションによる画面表示例を示す図である。
【図11】会議活性化アプリケーションによる画面表示例を示す図である。
【図12】会議活性化アプリケーションによる画面表示例を示す図である。
【符号の説明】
【0107】
1 集音装置、 2 パーソナルコンピュータ、 3 ワイヤレス入力装置、 11 CPU、 12 表示装置、 13 外部記憶装置、 14 メモリ、 15 サウンドインタフェース、 16 ワイヤレスインタフェース、 17 ポインティングデバイス、 18 バス
【技術分野】
【0001】
本発明は、会議を行っている最中に、会議の円滑な進行や議論の活性化を支援するための装置,方法等に関する。
【背景技術】
【0002】
企業等においては、各種の議題について討論や意思決定を行うために、関係者が集まって会議を開くことが日常的になっている。こうした会議では、円滑な進行を図ったり議論を活性化することにより、限られた時間内にある程度の成果を得ることが望まれる。
【0003】
こうした会議において、議論の行き詰まり・発言者の偏りといったような十分な成果が得られなくなる要因を排除するための手法やツールとしては、従来から、会議の準備段階や会議の結果の集約段階で用いるためのさまざま手法やツールが提供されている。
【0004】
しかし、会話を行っている最中に会議の円滑な進行や議論の活性化を促すための手法やツールは、提案されていない。このため、従来は、会議の進行役の個人的な議事運営能力によって会議の成果が左右されることが少なくなかった。例えば、会議中に会議の進行を支援するためのシステムとしては、各会議参加者が、着席のまま、ほぼ同時に共用表示装置に書き込みを行うことができるとともに、これが即座に表示されるようにし、これによって各会議参加者に協調作業環境を与えるようにしたものが従来から提案されている(例えば、特許文献1参照)。しかし、このシステムでも、書き込みを行う参加者が少なくなった(すなわち議論が行き詰まった)ときや書き込みを行う参加者が偏っている(すなわち発言者が偏っている)ときには、やはり会議の進行役の個人的な議事運営能力によって会議の成果が左右されてしまう。
【0005】
他方、音声データを処理する技術としては、声紋認証が存在している。声紋認証は、音声から発話者を特定する技術であり、主にバイオメトリック認証(人体の特徴に基づく個人の認証)の一種として利用されている(本特許出願の出願時には未公開であるが、例えば、出願番号特願2004−143952号の特許出願)。
【0006】
【特許文献1】特開2004−21595号公報(段落番号0016〜18、図5)
【発明の開示】
【発明が解決しようとする課題】
【0007】
しかし、こうした声紋認証を、会議の円滑な進行や議論の活性化のために応用する技術は、いまだ提案されるに至っていない。声紋認証に利用するデータは人間の発話であるから、会話音声を利用しているし、認証の結果、誰が話したデータかを特定しているので、一定時間の会話を解析するデータとして十分有効である。また、発話直後に認証がされるため、リアルタイムにそれらを利用することも可能である。
【0008】
本発明は、上述の点に鑑み、声紋認証を応用して、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供することを課題としてなされたものである。
【課題を解決するための手段】
【0009】
この課題を解決するために、本発明に係る会議活性化支援装置は、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段と、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段と、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段とを備えたことを特徴とする。
【0010】
また、本発明に係る会議活性化支援方法は、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証ステップと、この声紋認証ステップでの認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理ステップと、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理ステップとを有することを特徴とする。
【0011】
また、本発明に係るプログラムは、コンピュータを、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、として機能させることを特徴とする。
【0012】
また、本発明に係るコンピュータ読み取り可能な記録媒体は、コンピュータを、会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、この声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、として機能させるためのプログラムを記録したことを特徴とする。
【0013】
これらの発明では、会議中の発話者の音声データから、現在発話している会議参加者が声紋認証によりリアルタイムに特定され、この声紋認証の結果が、会議開始からの経過時間と関連させて記憶手段に順次記憶される。そして、この記憶手段に記憶された情報に基づき、会議参加者毎の発話状況が、会議開始からの時間の経過に応じて更新されながら表示手段に表示される。
【0014】
これにより、会議を行っている最中に、会議参加者毎の発話状況についての客観的な情報が、会議開始からの時間の経過に応じてリアルタイムに更新されながら表示手段に表示される。会議の進行役は、この表示手段の表示内容から、各会議参加者の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができる。
【0015】
なお、会議参加者毎の発話状況の表示態様としては、一例として、会議開始時からの経過時間を示す時間軸に沿って、各会議参加者が発話した時間帯を時系列に表示させることが好適である。
【0016】
それにより、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができるようになる。
【0017】
また、その場合において、会議中の発話者の音声データ自体も会議開始からの経過時間と関連させて記憶手段に記憶させ、この時間軸上で位置を指定する操作が行われたことに応じて、この記憶手段に記憶された音声データを、その指定された位置に対応する部分から再生させることが好適である。
【0018】
それにより、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直すことができるようになる。
【0019】
さらに、このように音声データを再生させる場合において、発話者の発言内容を肯定的に捉えた場合に操作するための操作手段の操作によって発生したデータを、会議開始からの経過時間と関連させて記憶手段に記憶させ、各会議参加者が発話した時間帯のうち、この操作手段が操作された時間帯を識別表示させることが好適である。
【0020】
それにより、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができるようになる。
【0021】
また、会議参加者毎の発話状況の表示態様としては、各会議参加者の累積発話時間の比率を表示させることや、各会議参加者の累積発話時間の比率の推移を表示させることも好適である。
【0022】
それにより、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができるようになる。
【0023】
さらに、それらの場合において、声紋認証の結果が不明であった累積時間の比率やその比率の推移をさらに表示させることが好適である。
【0024】
それにより、声紋認証の結果が不明となっている時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなるときには、複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる(過度に大きな声で発言している)など、冷静な議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、会議の進行に配慮することができるようになる。
【0025】
さらに、それらの場合において、所定のサンプリング周期でサンプリングされた会議中の発話者の音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類し、このサンプリング周期よりも長い所定の時間間隔を単位としてこの分類結果を集計し、この集計結果に基づき、会議中の発話者の音声データを声紋認証の対象とするか否かを、この所定時間間隔分の音声データ毎に決定し、声紋認証の対象とすることを決定した各々のこの所定時間間隔分の音声データからのみ声紋認証によって会議参加者を特定するとともに、声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態(誰も発言していない状態)であることを示す情報として記憶手段に記憶させ、この無音状態であった累積時間の比率やその比率の推移をさらに表示させることが好適である。
【0026】
それにより、無音状態の時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなるときには、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができるようになる。
【発明の効果】
【0027】
本発明によれば、会議を行っている最中に、会議参加者毎の発話状況についての客観的な情報が、会議開始からの時間の経過に応じてリアルタイムに更新されながら表示手段に表示される。これにより、会議の進行役が、各会議参加者の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができるという効果が得られる。
【0028】
また、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができるという効果が得られる。
【0029】
また、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直すことができるという効果が得られる。
【0030】
また、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができるという効果が得られる。
【0031】
また、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができるという効果が得られる。
【0032】
また、複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる(過度に大きな声で発言している)など、冷静な議論を行えない状況に陥っていることを迅速に把握して、会議の進行に配慮することができるという効果が得られる。
【0033】
また、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができるという効果が得られる。
【発明を実施するための最良の形態】
【0034】
以下、本発明を図面を用いて具体的に説明する。図1は、本発明を実施するためのシステム構成例を示す。会議室内で、会議を行っている最中の各会議参加者A1〜A10(このうちA1は会議の進行役)の音声が、集音装置1で集音されてアナログ音声信号に変換される。集音装置1としては、例えば無指向性マイクロフォンを用いるか、あるいは、それぞれ特定の会議参加者のほうに向けた複数の指向性マイクロフォンと、それらの指向性マイクロフォンを切り替える切り替え回路とを設けた装置を用いる。集音装置1からは、パーソナルコンピュータ2に音声信号が送られる。パーソナルコンピュータ2は、進行役A1に操作してもらう。
【0035】
また、各会議参加者A1〜A10の手元にはそれぞれワイヤレス入力装置3が用意されている。ワイヤレス入力装置3は、例えば、1個の押し釦と、その押し釦が操作されたことを示す信号をワイヤレスで送信するための送信ユニット(例えば赤外線送信ユニット)とが設けられたものである。各会議参加者A1〜A10には、現在の発話者の発言内容を聴いて、感銘を受けたり賛同するなど肯定的かつ発展的に捉えた場合に、このワイヤレス入力装置3の押し釦を操作してもらう。
【0036】
図2は、パーソナルコンピュータ2の構成を、本発明の説明上必要な範囲で示すブロック図である。CPU11と、表示装置(例えば液晶ディスプレイ)12と、外部記憶装置(HDD)13と、メモリ14と、サウンドインタフェース(サウンドカード)15と、ワイヤレスインタフェース(例えば赤外線受光ユニット)16と、ポインティングデバイス(例えばマウス)17とが、バス18に接続されている。
【0037】
外部記憶装置13には、通常のパーソナルコンピュータと同様の周辺機器用の各種デバイスドライバ(サウンドドライバ,ポインティングデバイス用ドライバ,ワイヤレスインタフェース用ドライバ等)がインストールされている。
【0038】
各種デバイスドライバは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。図1の集音装置1からの音声信号は、サウンドインタフェース15に入力し、サウンドドライバにより、CPU11で処理可能な所定のサンプリング周波数のデジタルデータに変換される。
【0039】
また、図1のワイヤレス入力装置3からの信号は、ワイヤレスインタフェース16に受信され、ワイヤレスインタフェース用ドライバにより、CPU11で処理可能な形式の信号に変換される。
【0040】
また、パーソナルコンピュータ2内で再生された音声データは、サウンドインタフェース15においてサウンドドライバによってアナログ信号に変換され、サウンドインタフェース15から出力してパーソナルコンピュータ2の付属スピーカに送られる。
【0041】
外部記憶装置13には、さらに、声紋認証対象決定アプリケーションと、声紋認証エンジンと、会議活性化アプリケーションとがインストールされている。これらのプログラムは、例えばCD−ROM等の記録媒体として提供してもよいし、あるいはWebサイトからダウンロードさせるようにしてもよい。
【0042】
声紋認証対象決定アプリケーションは、声紋認証エンジンが声紋認証の対象とする音声データを決定するためのアプリケーションソフトウェアである。この声紋認証対象決定アプリケーションは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。
【0043】
図3は、声紋認証対象決定アプリケーションにおいて一つの処理単位とする音声データを示す図である。声紋認証対象決定アプリケーションでは、声紋認証エンジンにおいて声紋認証可能な単位時間である声紋認証単位時間(本実施形態では3秒間とする)と同じ時間間隔の音声データを、一つの処理単位とする。
【0044】
図4は、この声紋認証単位時間(3秒間)分の音声データ毎の、声紋認証対象決定アプリケーションの処理内容を示すフローチャートである。最初に、CPU11内のカウンターである有音カウンターY,無音カウンターM,有音連続カウンターYR,無音カウンターM,無音連続カウンターMRをそれぞれ0にリセットする(ステップS1)。
【0045】
続いて、供給された当該声紋認証単位時間分の音声データのうちの最初のサンプリングタイミングのデータの値N(8ビット)を、所定の閾値(0に近い低い値)Aと比較する(ステップS2)。そして、その値Nが閾値Aよりも大きかったか否か(有音データであったか否か)を判断する(ステップS3)。
【0046】
イエスであれば、有音カウンターYを1だけインクリメントする(ステップS4)。続いて、前回のサンプリングタイミングのデータについてもステップS3でイエスであったか否かを判断する(ステップS5)。
【0047】
イエスであれば、有音連続カウンターYRを1だけインクリメントし(ステップS6)、ステップS10に進む。他方ノーであれば、ステップS5からそのままステップS10に進む。
【0048】
ステップS3でノーであれば(無音データであれば)、無音カウンターMを1だけインクリメントする(ステップS7)。続いて、前回のサンプリングタイミングのデータについてもステップS3でノーであったか否かを判断する(ステップS8)。
【0049】
イエスであれば、無音連続カウンターMRを1だけインクリメントし(ステップS9)、ステップS10に進む。他方ノーであれば、ステップS8からそのままステップS10に進む。
【0050】
ステップS10では、当該声紋認証単位時間分内の最後のサンプリングタイミングのデータについてステップS3以下の処理を終えたか否かを判断する。ノーであれば、当該声紋認証単位時間分内の次のサンプリングタイミングのデータの値Nを前述の閾値Aと比較する(ステップS11)。そして、ステップS3に戻ってステップS3以下の処理を繰り返す。
【0051】
ステップS10でイエスになると、有音カウンターYの現在のカウント値にサウンドインタフェース15でのサンプリング周期を掛けた値である時間数が2秒以上であるか否かを判断する(ステップS12)。イエスであれば、当該声紋認証単位時間分の音声データを、声紋の認証対象とすることを決定する(ステップS15)。そして当該声紋認証単位時間分の音声データについての処理を終了する(その後、引き続き供給される次の声紋認証単位時間分の音声データについて図4の処理が開始される)。
【0052】
ステップS12でノーであれば、有音連続カウンターYRの現在のカウント値に上記サンプリング周期を掛けた値である時間数が2秒以上であるか否かを判断する(ステップS13)。イエスであれば、ステップS15に進む。他方、ノーであれば、無音連続カウンターMRの現在のカウント値に上記サンプリング周期を掛けた値である時間数が1秒以上であるか否かを判断する(ステップS14)。
【0053】
イエスであれば、当該声紋認証単位時間分の音声データを、声紋の認証対象としないことを決定する(ステップS16)。そして当該声紋認証単位時間分の音声データについての処理を終了する。他方、ノーであれば、ステップS15に進む。
【0054】
この処理により、声紋認証エンジンにおける声紋認証単位時間(3秒間)分の音声データ毎に、有音データ部分の時間の長さ,有音データが連続した時間の長さまたは無音データが連続した時間の長さに基いて、声紋認証の対象とするか否かが決定される。
【0055】
なお、図5は、会議参加者の発話に基づく声紋認証単位時間分の音声データ内の、想定される有音データ,無音データの分布パターン(パターン1〜パターン8)を例示する図である。それ以外のパターンも考えられるが、大きく分類すると、この8パターンに集約されると考えられる。
【0056】
声紋認証エンジンで声紋認証を実行する前にこの認声紋認証対象決定アプリケーションの処理を実行すれば、入力音声データの全てを対象として声紋認証を行うのではなく、入力音声データを声紋認証の対象とするか否かを、声紋認証単位時間分の音声データ毎に、その声紋認証単位時間についての有音データ・無音データの集計結果に基いて決定して、声紋認証の対象とすることを決定した各声紋認証単位時間分の音声データについてのみ声紋認証を行うことができる。
【0057】
これにより、例えば一部の時間だけで大きな声で発話が行われて残りの時間には発話が行われなかった声紋認証単位時間のような、有音データの割合が少ない(無音データの割合が多い)声紋認証単位時間の音声データを、声紋認証の対象から除外することができるので、声紋認証の誤認証率を下げて発話者特定の精度を高めることができる。
【0058】
図2の外部記憶装置13内の声紋認証エンジンは、声紋認証による発話者の特定を行うためのアプリケーションソフトウェアである。この声紋認証エンジンは、パーソナルコンピュータ2の電源投入時にメモリ14上にロードされる。
【0059】
この声紋認証エンジンの声紋認証処理は、以下の(1)乃至(3)の処理から成っている。
(1)声紋モデルの生成
供給される音声データを声紋認証単位時間(3秒間)分の音声データ毎に順次スペクトル分析し、声紋の特徴を抽出することで、声紋モデルを生成する。すなわち、声紋モデルは、音声に含まれる様々な音の集まりを、時間、周波数及び音の強さの三次元のパターンで表現したものである。
【0060】
(2)声紋データの照合
生成した声紋モデルと、予め各発話者のIDと対応付けて登録(外部記憶装置13に記憶)された声紋モデルとを順次比較照合し、モデルの特徴量が近似する度合いに応じた照合スコアSCR(特徴量が近似するほど大きい)を算出する。その結果、登録された声紋データのうち、生成した声紋モデルに最も近似する声紋モデルに対応するIDを特定する。なお、ここでは、図1の各会議参加者A1〜A10の声紋モデルが予め登録されているとともに、IDとして各会議参加者A1〜A10の氏が用いられている。
【0061】
(3)照合スコアと閾値との比較
上記(2)の処理で算出した照合スコアSCRを順次閾値THDと比較し、照合スコアSCRが閾値THDを越える場合には、上記(2)の処理で特定したIDを有効なものと判断する。
【0062】
声紋認証技術としては、すでに公知の技術をこの声紋認証処理に適用してよい。こうした声紋認証処理によれば、無音状態及び複数人が同時に発話している状態を除いて、認証率80%以上、誤認証10%未満、不明率10%程度の認証精度を確保することができる。
【0063】
図2の外部記憶装置13内の会議活性化アプリケーションは、会議中に、会議の円滑な進行や議論の活性化を支援する客観的な情報をリアルタイムに提供するためのアプリケーションソフトウェアである。会議活性化アプリケーションは、会議の開始時にユーザの操作によって起動されてメモリ14上にロードされる。
【0064】
図6及び図7は、この会議活性化アプリケーションの処理内容を示すフローチャートである。最初に、図6に示すように、サウンドインタフェース15(図2)においてデジタル変換された音声データを、サウンドドライバから受け取って蓄積していく(ステップS21)。そして、声紋認証単位時間(3秒間)分の音声データが蓄積されると、その声紋認証単位時間分の音声データを前述の声紋認証対象決定アプリケーションに渡して、図4に示した処理によって声紋認証の対象とするか否かを決定させる(ステップS22)。
【0065】
続いて、声紋認証対象決定アプリケーションの決定結果を受け取り、声紋認証の対象とすることが決定されたか否かを判断する(ステップS23)。ノーであれば、その決定結果を、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング(起動時すなわち会議開始時からの経過時間)と関連付けて、無音状態(誰も発言していない状態)であることを示す情報としてメモリ14(図2)に記憶する(ステップS24)。
【0066】
他方、イエスであれば、その声紋認証単位時間分の音声データを声紋認証エンジンに渡して、声紋認証を行わせる(ステップS25)。そして、声紋認証エンジンから認証結果を受け取り、発話者のID(ここでは前述のように図1の各会議参加者A1〜A10の氏)が特定されたか否かを判断する(ステップS26)。
【0067】
イエスであれば、IDが特定されたその声紋認証単位時間分の音声データを、ID毎に分類して、その音声データをサウンドドライバから受け取ったタイミング(会議開始時からの経過時間)と関連付けてメモリ14に記憶する(ステップS27)。他方、ノーであれば(発話者が不明であれば)、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング(会議開始時からの経過時間)と関連付けて、発話者が不明であることを示す情報をメモリ14に記憶する(ステップS28)。
【0068】
ステップS27,S28またはS24を終えると、それまでにステップS24,S27及びS28で記憶した情報に基づき、会議開始時から現在までの、会議参加者毎の累積発話時間(当該会議参加者が発話者として認証された回数×声紋認証単位時間)と、発話者が不明の累積時間(発話者が不明であった回数×声紋認証単位時間)と、無音状態の累積時間(声紋認証対象決定アプリケーションで声紋認証の対象としないことが決定された回数×声紋認証単位時間)とを計算する。そして、それらの累積時間の比率を計算し、その比率を会議開始時からの経過時間別にメモリ14に記憶する(ステップS29)。
【0069】
続いて、その声紋認証単位時間分の音声データを蓄積している間に、ワイヤレス入力装置3(図1)からの信号が、ワイヤレスインタフェース16(図2)に入力して前述のワイヤレスインタフェース用ドライバによって変換されたか否かを判断する(ステップS30)。
【0070】
イエスであれば、その声紋認証単位時間分の音声データをサウンドドライバから受け取ったタイミング(会議開始時からの経過時間)と関連付けて、発言内容が肯定的に捉えられたことを示す情報をメモリ14に記憶する(ステップS31)。そして図7のステップS32に進む。他方、ノーであれば、ステップS30からそのままステップS32に進む。
【0071】
ステップS32では、それまでにステップS24,S27,S28及びS31で記憶した情報に基づき、会議開始時から現在までに各会議参加者が発話した時間帯等を時系列に表すグラフ(以下「時間帯グラフ」と呼ぶ)を、表示装置12(図2)に表示させる。そして、ステップS33〜S36を経て(ステップS33〜S36についいては後述する)ステップS22に戻り、声紋認証単位時間分の時間が経過する毎にステップS22以下を繰り返す。
【0072】
図8は、会議開始時から300秒程度経過した時点での、ステップS32での時間帯グラフの表示例を示す図である。また、図9は、図8の表示状態の後、会議開始時から600秒余り経過した時点でのこの時間帯グラフの表示例を示す図である。
【0073】
この時間帯グラフは、会議開始時から現在までの経過時間を示す時間軸21を横軸にとり、図1の各会議参加者A1〜A10の氏(「佐藤」,「鈴木」,「高橋」,…)及び「不明」,「無音」の文字を縦軸にとったものである。そして、それまでにステップS24,S27及びS28で記憶した情報に基づき、時間軸21に沿って、各会議参加者A1〜A10が発話した時間帯がそれぞれ棒状のマークM1〜M10(声紋認証単位時間分の長さを最小単位とするマーク)によって時系列に表されるとともに、発話者不明の時間帯,無音状態の時間帯がそれぞれ棒状のマークM11,M12によって時系列に表される。図では表現されていないが、このマークM1〜M12は、各会議参加者や「不明」,「無音」毎に異なる12種類の色(朱色を除く)で表示される。(図8,図9の例では、高橋氏,伊藤氏,中村氏は未発言なので、マークM3,M6,M8は表示されていない)
【0074】
また、図8や図9に示しているように、この時間帯グラフでは、それまでにステップS31で記憶した情報に基づき、各会議参加者が発話した時間帯(マークM1〜M10の表示範囲)のうち、その発言内容を他の会議参加者が肯定的に捉えた時間帯が、マーク22で識別表示される。図では表現されていないが、このマーク22は朱色で表示される。
【0075】
そして、図8と図9との対比からも明らかなように、この時間帯グラフは、ステップS22〜S32を繰り返すことにより、リアルタイムに(声紋認証単位時間分の時間が経過する毎に)時間軸21が延びていき、新たな表示内容が追加される。(なお、時間軸21が画面いっぱいにまで延びた以降は、例えば時間軸21のスケールを圧縮するか、あるいは画面を横方向にスクロール可能にする。)
【0076】
図7のステップS33では、ポインティングデバイス17(図2)の現在の操作内容の情報を前述のポインティングデバイス用ドライバから受け取り、この時間帯グラフの時間軸21上においていずれかの会議参加者が発話した時間帯内の時間位置がポインティングデバイス17で指定されているか否かを判断する。
【0077】
ノーであれば、そのままステップS34に進む。他方、イエスであれば、それまでにステップS27で記憶した音声データの再生を、その指定された時間位置の部分から開始し、再生した音声データをサウンドドライバに渡してサウンドインタフェース15(図2)から出力させる(但し、再生中にイエスとなった場合には、逆に再生を終了する)(ステップS37)。そしてステップS34に進む。
【0078】
図8や図9に示しているように、時間帯グラフの下側には、比率釦23,比率推移釦24及び終了釦25も表示される。図7のステップS34では、それまでにこの比率釦23がポインティングデバイス17で指定されたか否かを判断する。
【0079】
ノーであれば、そのままステップS35に進む。他方、イエスであれば、ステップS29で記憶した最新の情報に基づき、会議開始時から現在までの各会議参加者の累積発話時間等の比率を表すグラフ(以下「比率グラフ」と呼ぶ)を、表示装置12に別ウィンドウで表示させる(既にこの比率グラフが表示されている場合には、その後ステップS29で記憶した最新の情報によってその表示内容を更新する)(ステップS38)。そしてステップS35に進む。
【0080】
図10は、この比率グラフの表示例(図9に示した表示状態において比率釦23が指定された場合の例)を示す。比率グラフは、各会議参加者(「佐藤」,「鈴木」,「高橋」,…)の累積発話時間と発話者不明の累積時間と無音状態の累積時間との比率を、円グラフで表したものである。図では表現されていないが、この円グラフは、各会議参加者や「不明」,「無音」毎に異なる12種類の色(図8,図9のマークM1〜M12に対応する色)で色分けして表示される。
【0081】
この比率グラフで表示される各累積時間の比率は、ステップS22〜S34,S38を繰り返すことによってリアルタイムに(声紋認証単位時間分の時間が経過する毎に)更新される。
【0082】
なお、図11に例示するように、時間帯グラフ(図8,図9)の時間軸21上において、現在の時間位置(時間軸の右端)の直近の一部の時間範囲26がポインティングデバイス17のドラッグ&ドロップ操作によって指定され、その後比率釦23がポインティングデバイス17で指定された場合には、ステップS38では、それまでにステップS24,S27及びS28で記憶した情報に基づき、この時間範囲21での会議参加者毎の累積発話時間と発話者不明の累積時間と無音状態の累積時間とを、ステップS29と同様にして計算する。そして、それらの累積時間の比率を計算し、その比率を表す円グラフを表示させる。
【0083】
図7のステップS35では、それまでに比率推移釦24(図8,図9)がポインティングデバイス17で指定されたか否かを判断する。
【0084】
ノーであれば、そのままステップS36に進む。他方、イエスであれば、ステップS29で記憶した各経過時間毎の情報に基づき、会議開始時から現在までの各会議参加者の累積発話時間等の比率の推移を表すグラフ(以下「推移グラフ」と呼ぶ)を、表示装置12に別ウィンドウで表示させる(既にこの推移グラフが表示されている場合には、その後ステップS29で記憶した最新の情報によってその表示内容を更新する)(ステップS39)。そしてステップS36に進む。
【0085】
図12は、この推移グラフの表示例(図9に示した表示状態において比率推移釦24が指定された場合の例)を示す。推移グラフは、会議開始時からの現在までの経過時間を示す時間軸41を横軸にとり、比率を縦軸にとったものである。そして、この時間軸41に沿って、会議開始時から現在までの各タイミング(声紋認証単位時間分ずつの時間)での各会議参加者A1〜A10の累積発話時間がそれぞれ線L1〜L10(通常は時間の経過につれて折れ線になる)によって表されるとともに、この各タイミングでの発話者不明の累積時間,無音状態の累積時間の比率がそれぞれ線L11,L12によって表される。図では表現されていないが、この線分L1〜L12も、会議参加者や「不明」,「無音」の文字毎に異なる12種類の色(図8,図9のマークM1〜M12に対応する色)で表示される。
【0086】
この推移グラフは、ステップS22〜S35,S39を繰り返すことにより、リアルタイムに(声紋認証単位時間分の時間が経過する毎に)時間軸41が延びていき、新たな表示内容が追加される。
【0087】
図7のステップS36では、終了釦25(図8,図9)がポインティングデバイス17で指定されたか否かを判断する。ノーであれば、前述のようにステップS22に戻ってステップS22以下を繰り返す。他方、イエスであれば、処理を終了する。
【0088】
次に、図1に示したシステムにおいて、進行役A1が会議を進行させる様子について説明する。進行役A1は、会議が開始する前にパーソナルコンピュータ2の電源を投入しておき、会議が開始すると同時に会議活性化アプリケーションを起動する。
【0089】
すると、集音装置1で集音された会議中の各会議参加者A1〜A10の音声データから、声紋認証対象決定アプリケーションの処理を経た後、声紋認証エンジンでの声紋認証(図6のステップS25)によって、現在発話している会議参加者がリアルタイムに特定される。そして、この声紋認証の結果が、会議開始からの経過時間と関連させて図2のメモリ14に順次記憶され(図6のステップS26,S27)、メモリ14に記憶された情報に基づき、図8,図9に例示したように、図2の表示装置12に、会議開始時からの経過時間を示す時間軸21に沿って、各会議参加者が発話した時間帯等がマークM1〜M12で時系列に表示される(図7のステップS32)。
【0090】
これにより、進行役A1は、会議が開始した以降、どの時間帯にはどの会議参加者が発話しているかを、直感的に把握することができる。
【0091】
また、会議中の発話者の音声データ自体も会議開始からの経過時間と関連させてメモリ14に記憶され(図6のステップS27)、図8,図9の時間軸上21で位置を指定する操作が行われたことに応じて、メモリ14に記憶された音声データが、その指定された位置に対応する部分から再生される(図7のステップS33,S37)。
【0092】
これにより、進行役A1は、会議中に、特定の会議参加者が既に発言した内容を、迅速且つ容易にピックアップして聴き直す(他の会議参加者A2〜A10にも聴かせる)ことができるようになる。
【0093】
さらに、いずれかの会議参加者A1〜A10がワイヤレス入力装置3を操作した(すなわち現在の発話者の発言内容を肯定的に捉えた)ことによって発生したデータが、会議開始からの経過時間と関連させてメモリ14に記憶され(図6のステップS30,S31)、図8,図9に示したように、各会議参加者A1〜A10が発話した時間帯のうち、このワイヤレス入力装置3が操作された時間帯がマーク22で識別表示される。
【0094】
これにより、進行役A1は、各会議参加者が既に発言した内容のうち、他の会議参加者が肯定的に捉えた発言内容を、迅速且つ容易にピックアップして聴き直すことができる。
【0095】
また、図10に例示したように、各会議参加者の累積発話時間の比率が表示されたり(図7のステップS38)、図12に例示したように、各会議参加者の累積発話時間の比率の推移が表示される(図7のステップS39)。
【0096】
これにより、進行役A1は、どの会議参加者があまり発言していないかを直感的に把握してその会議参加者に発言を求めることや、会議の全体を通してどの会議参加者に発言が偏っているかを直感的に把握することができる。
【0097】
さらに、図10や図12に例示したように、声紋認証の結果が不明であった累積時間の比率やその比率の推移も画面表示される。
【0098】
これにより、進行役A1は、声紋認証の結果が不明となっている時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなる(例えば図12で丸42で囲んだ部分)ときには、会議参加者A1〜A10のうちの複数の会議参加者が同時に発言していたり、音声データのレベルが高すぎる(過度に大きな声で発言している)など、冷静な議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、会議の進行に配慮することができるようになる。
【0099】
さらに、声紋認証対象決定アプリケーションによる決定結果(声紋認証の対象としないという決定結果)が、会議開始からの経過時間と関連させて、無音状態であることを示す情報としてメモリ14に記憶され(図6のステップS22〜S24)、図10や図12に例示したように、この無音状態の累積時間の比率やその比率の推移も画面表示される。
【0100】
これにより、進行役A1は、無音状態の時間の比率やその比率の推移を、直感的に把握することができる。この比率が急激に大きくなる(例えば図12で丸43で囲んだ部分)ときには、議論が煮詰まっているか、会議が長時間に亘っていて会議参加者が疲労しているか、あるいは会議室の環境が劣悪になっているなど、活発に議論を行えない状況に陥っていることが予想される。したがって、そうした状況に陥っていることを迅速に把握して、休憩をとったり環境を改善することができる。
【0101】
以上のようにして、会議中に、会議参加者A1〜A10毎の発話状況が、会議開始からの時間の経過に応じて更新されながらパーソナルコンピュータ2に画面表示される。進行役A1は、この表示内容から、各会議参加者A1〜A10の発話状況を直感的に把握して、会議の円滑な進行を図ったり、議論の活性化を促すことができる。
【0102】
なお、以上の例では、各会議参加者A1〜A10が現在の発話者の発言内容を肯定的に捉えたことを、ワイヤレス入力装置3からの信号によって判別するようにしている。しかし、別の例として、集音装置1からパーソナルコンピュータ2に送られた音声データに音声認識処理を施すことによって拍手の音声を抽出し、この拍手の音声が送られたタイミングで、現在の発話者の発言内容が肯定的に捉えられたと判別するようにしてもよい。
【0103】
また、以上の例において、パーソナルコンピュータ2内の外部記憶装置13に音声合成アプリケーション(文字データを音声データに変換するためのアプリケーションソフトウェア)をさらにインストールするとともに、会議活性化アプリケーションにおいて、図10や図12のグラフで発話者不明の時間や無音状態の時間の比率が急激に大きくなったような場合に、この音声合成アプリケーションを用いて‘一人ずつしゃべりましょう’,‘休憩をとりましょう’等の音声を合成させて、その音声をサウンドドライバに渡してサウンドインタフェース15から出力させるようにしてもよい。それにより、会議の進行を自動化することもできるようになる。
【0104】
また、以上の例では、声紋認証対象決定アプリケーション,声紋認証エンジン,会議活性化アプリケーションをそれぞれ別々のソフトウェアとしているが、これらのソフトウェアの機能を全て有する一つのソフトウェアを作成して、パーソナルコンピュータにインストールしてもよい。
【0105】
また、以上の例では、声紋認証対象決定アプリケーションと、声紋認証エンジンと、会議活性化アプリケーションとをインストールしたパーソナルコンピュータを設けている。しかし、別の例として、声紋認証対象決定アプリケーション,声紋認証エンジン及び会議活性化アプリケーションと同一の処理内容のファームウェアを実行する専用プロセッサを有する装置を、パーソナルコンピュータに代えて設けるようにしてもよい。
【図面の簡単な説明】
【0106】
【図1】本発明を実施するためのシステム構成例を示す図である。
【図2】図1のパーソナルコンピュータの構成を示すブロック図である。
【図3】声紋認証対象決定アプリケーションにおいて一つの処理単位とする音声データを示す図である。
【図4】声紋認証対象決定アプリケーションの処理内容を示すフローチャートであ
【図5】声紋認証単位時間分の音声データ内の有音データ,無音データの分布パターンを例示する図である。
【図6】会議活性化アプリケーションの処理内容を示すフローチャートである。
【図7】会議活性化アプリケーションの処理内容を示すフローチャートである。
【図8】会議活性化アプリケーションによる画面表示例を示す図である。
【図9】会議活性化アプリケーションによる画面表示例を示す図である。
【図10】会議活性化アプリケーションによる画面表示例を示す図である。
【図11】会議活性化アプリケーションによる画面表示例を示す図である。
【図12】会議活性化アプリケーションによる画面表示例を示す図である。
【符号の説明】
【0107】
1 集音装置、 2 パーソナルコンピュータ、 3 ワイヤレス入力装置、 11 CPU、 12 表示装置、 13 外部記憶装置、 14 メモリ、 15 サウンドインタフェース、 16 ワイヤレスインタフェース、 17 ポインティングデバイス、 18 バス
【特許請求の範囲】
【請求項1】
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段と、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段と、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段と
を備えたことを特徴とする会議活性化支援装置。
【請求項2】
請求項1に記載の会議活性化支援装置において、
前記表示処理手段は、会議開始時からの経過時間を示す時間軸に沿って、各会議参加者が発話した時間帯を時系列に表示させる
ことを特徴とする会議活性化支援装置。
【請求項3】
請求項2に記載の会議活性化支援装置において、
前記記憶処理手段は、さらに、前記音声データを、会議開始からの経過時間と関連させて前記記憶手段に記憶させ、
前記時間軸上で位置を指定する操作が行われたことに応じて、前記記憶手段に記憶された前記音声データを、前記指定された位置に対応する部分から再生させる再生処理手段
をさらに備えたことを特徴とする会議活性化支援装置。
【請求項4】
請求項3に記載の会議活性化支援装置において、
発話者の発言内容を肯定的に捉えた場合に操作するための操作手段
をさらに備え、
前記記憶処理手段は、さらに、前記操作手段の操作によって発生したデータを、会議開始からの経過時間と関連させて前記記憶手段に記憶させ、
前記表示処理手段は、各会議参加者が発話した時間帯のうち、前記操作手段が操作された時間帯を識別表示させる
ことを特徴とする会議活性化支援装置。
【請求項5】
請求項1に記載の会議活性化支援装置において、
前記表示処理手段は、各会議参加者の累積発話時間の比率を表示させる
ことを特徴とする会議活性化支援装置。
【請求項6】
請求項5に記載の会議活性化支援装置において、
前記表示処理手段は、前記声紋認証手段の認証結果が不明であった累積時間の比率をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項7】
請求項5に記載の会議活性化支援装置において、
所定のサンプリング周期でサンプリングされた前記音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基づき、前記音声データを声紋認証の対象とするか否かを、前記所定の時間間隔分の音声データ毎に決定する決定手段と
をさらに備え、
前記声紋認証手段は、前記決定手段で声紋認証の対象とすることが決定された各々の前記所定の時間間隔分の音声データからのみ声紋データを抽出し、
前記記憶処理手段は、さらに、前記決定手段による声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態であることを示す情報として記憶手段に記憶させ、
前記表示処理手段は、前記無音状態であった累積時間の比率をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項8】
請求項1に記載の会議活性化支援装置において、
前記表示処理手段は、各会議参加者の累積発話時間の比率の推移を表示させる
ことを特徴とする会議活性化支援装置。
【請求項9】
請求項8に記載の会議活性化支援装置において、
前記表示処理手段は、前記声紋認証手段の認証結果が不明であった累積時間の比率の推移をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項10】
請求項8に記載の会議活性化支援装置において、
所定のサンプリング周期でサンプリングされた前記音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基づき、前記音声データを声紋認証の対象とするか否かを、前記所定の時間間隔分の音声データ毎に決定する決定手段と
をさらに備え、
前記声紋認証手段は、前記決定手段で声紋認証の対象とすることが決定された各々の前記所定の時間間隔分の音声データからのみ声紋データを抽出し、
前記記憶処理手段は、さらに、前記決定手段による声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態であることを示す情報として記憶手段に記憶させ、
前記表示処理手段は、前記無音状態であった累積時間の比率の推移をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項11】
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証ステップと、
前記声紋認証ステップでの認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理ステップと、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理ステップと
を有することを特徴とする会議活性化支援方法。
【請求項12】
コンピュータを、
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、
として機能させるためのプログラム。
【請求項13】
コンピュータを、
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項1】
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段と、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段と、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段と
を備えたことを特徴とする会議活性化支援装置。
【請求項2】
請求項1に記載の会議活性化支援装置において、
前記表示処理手段は、会議開始時からの経過時間を示す時間軸に沿って、各会議参加者が発話した時間帯を時系列に表示させる
ことを特徴とする会議活性化支援装置。
【請求項3】
請求項2に記載の会議活性化支援装置において、
前記記憶処理手段は、さらに、前記音声データを、会議開始からの経過時間と関連させて前記記憶手段に記憶させ、
前記時間軸上で位置を指定する操作が行われたことに応じて、前記記憶手段に記憶された前記音声データを、前記指定された位置に対応する部分から再生させる再生処理手段
をさらに備えたことを特徴とする会議活性化支援装置。
【請求項4】
請求項3に記載の会議活性化支援装置において、
発話者の発言内容を肯定的に捉えた場合に操作するための操作手段
をさらに備え、
前記記憶処理手段は、さらに、前記操作手段の操作によって発生したデータを、会議開始からの経過時間と関連させて前記記憶手段に記憶させ、
前記表示処理手段は、各会議参加者が発話した時間帯のうち、前記操作手段が操作された時間帯を識別表示させる
ことを特徴とする会議活性化支援装置。
【請求項5】
請求項1に記載の会議活性化支援装置において、
前記表示処理手段は、各会議参加者の累積発話時間の比率を表示させる
ことを特徴とする会議活性化支援装置。
【請求項6】
請求項5に記載の会議活性化支援装置において、
前記表示処理手段は、前記声紋認証手段の認証結果が不明であった累積時間の比率をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項7】
請求項5に記載の会議活性化支援装置において、
所定のサンプリング周期でサンプリングされた前記音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基づき、前記音声データを声紋認証の対象とするか否かを、前記所定の時間間隔分の音声データ毎に決定する決定手段と
をさらに備え、
前記声紋認証手段は、前記決定手段で声紋認証の対象とすることが決定された各々の前記所定の時間間隔分の音声データからのみ声紋データを抽出し、
前記記憶処理手段は、さらに、前記決定手段による声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態であることを示す情報として記憶手段に記憶させ、
前記表示処理手段は、前記無音状態であった累積時間の比率をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項8】
請求項1に記載の会議活性化支援装置において、
前記表示処理手段は、各会議参加者の累積発話時間の比率の推移を表示させる
ことを特徴とする会議活性化支援装置。
【請求項9】
請求項8に記載の会議活性化支援装置において、
前記表示処理手段は、前記声紋認証手段の認証結果が不明であった累積時間の比率の推移をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項10】
請求項8に記載の会議活性化支援装置において、
所定のサンプリング周期でサンプリングされた前記音声データを、各サンプリングタイミングのデータ毎に、閾値と比較することによって有音データか無音データかに分類する分類手段と、
前記サンプリング周期よりも長い所定の時間間隔を単位として、前記分類手段の分類結果を集計する集計手段と、
前記集計手段の集計結果に基づき、前記音声データを声紋認証の対象とするか否かを、前記所定の時間間隔分の音声データ毎に決定する決定手段と
をさらに備え、
前記声紋認証手段は、前記決定手段で声紋認証の対象とすることが決定された各々の前記所定の時間間隔分の音声データからのみ声紋データを抽出し、
前記記憶処理手段は、さらに、前記決定手段による声紋認証の対象としないという決定結果を、会議開始からの経過時間と関連させて、無音状態であることを示す情報として記憶手段に記憶させ、
前記表示処理手段は、前記無音状態であった累積時間の比率の推移をさらに表示させる
ことを特徴とする会議活性化支援装置。
【請求項11】
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証ステップと、
前記声紋認証ステップでの認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理ステップと、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理ステップと
を有することを特徴とする会議活性化支援方法。
【請求項12】
コンピュータを、
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、
として機能させるためのプログラム。
【請求項13】
コンピュータを、
会議中の発話者の音声データから順次声紋データを抽出し、抽出した各声紋データを、予め各会議参加者の識別データと関連付けて記憶された声紋データと比較して、現在発話している会議参加者を特定する声紋認証手段、
前記声紋認証手段の認証結果を、会議開始からの経過時間と関連させて記憶手段に順次記憶させる記憶処理手段、
前記記憶手段に記憶された情報に基づき、会議参加者毎の発話状況を、会議開始からの時間の経過に応じて更新しながら表示手段に表示させる表示処理手段、
として機能させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【公開番号】特開2006−208482(P2006−208482A)
【公開日】平成18年8月10日(2006.8.10)
【国際特許分類】
【出願番号】特願2005−17275(P2005−17275)
【出願日】平成17年1月25日(2005.1.25)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
【公開日】平成18年8月10日(2006.8.10)
【国際特許分類】
【出願日】平成17年1月25日(2005.1.25)
【出願人】(000002185)ソニー株式会社 (34,172)
【Fターム(参考)】
[ Back to top ]