会議音声録音システム
【課題】打ち合わせ参加者の作業を最小にしつつ、参加者が適切な権限で容易に自身の発言を検索・修正できる枠組みを提供する。
【解決手段】打ち合わせの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別し、修正権設定部107で、その際の信頼度に応じた適切な音声修正権を発話ごとに付与する。また録音後に、音声を容易に検索・修正できる音声データ検索部111、音声修正部112を備えることにより、会議参加者が会議後に容易かつ適切な権限でもって会議音声を修正することができるようにする。このことにより、適切な会議音声の記録・共有を最低限の作業で行いつつ、参加者が自由に議論を行うことを可能とする。
【解決手段】打ち合わせの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別し、修正権設定部107で、その際の信頼度に応じた適切な音声修正権を発話ごとに付与する。また録音後に、音声を容易に検索・修正できる音声データ検索部111、音声修正部112を備えることにより、会議参加者が会議後に容易かつ適切な権限でもって会議音声を修正することができるようにする。このことにより、適切な会議音声の記録・共有を最低限の作業で行いつつ、参加者が自由に議論を行うことを可能とする。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、打ち合わせやブレインストーミングなどの会議の場において、その音声を録音・検索・共有する会議音声録音システムに関するものである。
【背景技術】
【0002】
これまでに会議における音声を録音し、その音声から議事録を作成する技術が示されている。特許文献1では、会議での音声を音声認識装置によって文字化し、自動的に議事録を作成する方法が記載されている。非特許文献1には、会議中の発言を書記が専用ツールで全て書き起こし、それを議事録として保存する技術が記載されている。
【0003】
また特許文献2では、複数の参加者がドキュメントを編集・共有するようなシステムにおいて、個々の発言に対して参加者がドキュメント編集の管理権を持つことで、利害関係の複雑な議題においてもドキュメントを適切に管理しつつ、自由な意見発信を可能としている。この技術では、参加者の発言を特定するために、個々人を識別するための何らかの端末を前提としている。
【0004】
特許文献3には、マイクロホンを用いて会議を録音し、話者識別を用いて各発話に承認権を付与する技術が記載されている。話者識別ができなかった場合には、全員の承諾のもと議長が書き起しを行う。特許文献4には、公開したくない発言を行う場合に、特定のボタンを押すことにより録音を中断することが記載されている。
【0005】
【特許文献1】特開2000−112931号公報
【特許文献2】特開2007−328471号公報
【特許文献3】特開2000−352995号公報
【特許文献4】特開2005−072768号公報
【非特許文献1】ディスカッションマイニング:議事録からの知識、発見,情報処理学会第67回全国大会,2005.
【発明の開示】
【発明が解決しようとする課題】
【0006】
特許文献1や非特許文献1では、参加者の発言は公式な発言として扱われ、参加者が自身の発言を修正する権限の管理や、容易に自身の発言を修正する枠組みが提供されていない。実際の会議の場面では、全ての発言が公式なものとして扱われることはむしろ稀であり、このような前提は参加者の自由な発言を阻害する恐れがある。特に、打ち合わせやブレインストーミングなどの会議で、広く意見を収集して知識の醸成を図るという目的であった場合には、その本来の目的が十分達成されない恐れがある。
【0007】
また、参加者が面と向かって打ち合わせをするような会議(TV会議を含む)において、各参加者がそれぞれ専用の入力端末を保持するという状況は、以下の点において不便である。まず第1に、専用の入力端末の数以上の参加者は会議に参加できない。第2に、専用の入力端末ごしにしか発言できない状況は、参加者に過度の心的ストレスを感じさせる。第3に、専用の入力端末ごしに発言するという状況は従来の打ち合わせの方法と大きく異なり、参加者がシステムに慣れるまでに相当の時間を要する。第4に、このような専用システムを設置するのは非常にコストがかかる。上記観点から鑑みて、各人が専用の入力端末を保持するような会議の場というのは限られた環境でのみ有効なものと考えられる。
【0008】
特許文献3の方法は、参加者が専用の入力端末を保持する必要がなく、また発言の管理も行われているものの、その目的はあくまで正確な議事録を作成することにあり、参加者が自由な発言を行える環境を提供するという点は考慮されていない。録音しても参加者が自由に発言を行えるようにするためには、各参加者が自身の発言を容易に検索・編集できる機能を備えることが必要である。また、この方法では、話者識別に失敗した場合に一律で全員の承諾を必要としており、議事録作成までの全員の作業量が多いという問題もある。打ち合わせの録音システムを日常的に利用することを考えると、打ち合わせ後の作業は最小限であることが望ましく、この点でも改善が必要である。
【0009】
ボタンを押して録音を中断する方法の場合、参加者は自身の発言が不適切だったと後から気付いた場合に対処できない。結果として、参加者の自由な発言が阻害されるという問題が生じる。
【0010】
上記のように、従来技術は打ち合わせでの音声を録音・共有するシステムを提供しているものの、参加者が自由な発言を行うための枠組みを十分に提供していなかった。本発明は、打ち合わせ参加者の作業を最小にしつつ、必要であれば参加者が容易に自身の発言を検索・修正できる枠組みを提供する。また、参加者の利害関係が複雑な会議においても、発言の修正を適切な権限で行えるようにするための枠組みの提供も行う。
【課題を解決するための手段】
【0011】
本発明では、打ち合わせの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別し、その際の信頼度に応じた適切な音声修正権を発話ごとに付与する。また録音後に、音声を容易に検索・修正できる音声検索部、音声修正部を備えることにより、会議参加者が会議後に容易かつ適切な権限でもって会議音声を修正することができるようにする。このことにより、適切な会議音声の記録・共有を最低限の作業で行いつつ、参加者が自由に議論を行うことを可能とする。
【発明の効果】
【0012】
本発明によると、会議録を録音・共有するシステムにおいて、参加者が自由な議論を行うことが可能となる。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明による会議音声記録・共有システムの構成例を示す機能ブロック図である。本システムは、会議の参加者を予め登録しておくためのユーザ管理部001、会議音声を録音する際に動作する音声記録部002、及び会議終了後に会議の録音内容を修正する会議録音修正・認証部003を有する。
【0014】
以下、図1に示した会議音声記録・共有システムにおける処理を、順を追って説明する。
【0015】
まず、ユーザ管理部001における処理を図2のフローチャートに示した。ユーザが初めて本システムを利用するときには、ユーザ登録部116で当該ユーザの情報を登録する。この際にはユーザ名などを登録する。また、当該ユーザの声も併せて録音し、ユーザ情報保持部118へ保存する。また必要であればパスワードの登録か、ユーザ固有のIDカードの登録・発行を行う。さらに、この際にユーザの顔写真などを保存しておくこともできる。
【0016】
次に、音声記録部002における処理について説明する。音声記録部002は、会議の参加者を同定する参加者同定部110、音声入力部101、入力された音声を蓄積する音声録音部102、録音された多チャンネル音声から話者の方向を特定する話者方向検出部103、入力された音声を話者ごとに分離する音源分離部104、分離された音声それぞれから話者性を現す特徴量を抽出する話者音響特徴抽出部105、話者方向情報と話者音響特徴及び参加者同定部で同定した参加者情報から当該音声の話者を判定する話者識別部106、識別された話者の信頼度に基づき当該音声に修正権や修正権譲渡証を設定する修正権設定部107、上記の修正権情報を蓄積するアクセス権情報登録部108、音声やアクセス権限を保存する音声データベース109、及び音声インデキシング部119を有する。
【0017】
本実施例では音声入力部101において、複数のマイクロホンからの同期入力を受け付けるものとする。また、音声記録部002は、その他に画像入力部と画像蓄積部を備えていてもよい。このような応用は、特にTV会議システムにおいて利用可能と考えられる。
【0018】
音声記録部002における処理のフローチャートを図3に示した。
会議が始まる前に、まず参加者同定部110が会議の参加者を同定する。このために、例えば冒頭で参加者名を各参加者、もしくは議長が発話し、それを音声認識することによって参加者を同定する。この際に、ユーザ登録部116においてユーザ情報保持部118に登録されたユーザ名から、音声認識辞書を作成することも可能である。なお、音声認識の手法自体は本技術分野において周知であるため説明は省略する。
【0019】
そのほかに、話者ごとにIDカードを発行しておき、参加時にカードリーダに読み取らせる方法や、キーボードから会議参加者を入力する方法、参加者の候補を表示デバイス上に示し選択させる方法などが考えられる。また会議中の発話の音響的な話者性から参加名を特定する方法や、顔画像から参加者名を特定する方法もある。
【0020】
さらに、ユーザ管理部でシステムに登録していないユーザが会議に加わった場合には、ゲストアカウントで会議に参加する。また、この時に「ゲストです」といった発話を行ってもらい、当該音声から話者の声質を学習して、後段の話者識別部106で利用することも考えられる。
【0021】
上記で同定された会議の参加者は、当該会議で録音される全ての音声の視聴権を与えられる。
【0022】
実際に会議が始まると、システムは複数マイクロホンを持つ音声入力部101から逐次会議の音声を取り込み、音声データベース109へ保存する。それぞれのマイクロホンは直線や円周など既定の配置で設置されており、各マイクロホンからの入力は専用のA/Dボードを通して同期して話者方向検出部103へと渡される。話者方向検出部103では、上記の多チャンネルの音声から音源の方向を検出する。この場合、複数の話者が同時に発話する可能性もあり、そのような場合でも全ての音源方向を正確に検出できることが望ましい。
【0023】
ここでマイクロホンの素子数をM=2とし、それぞれのマイクロホンから得られる信号をxi(τ)(i=1,2)と表す。まずそれぞれのxi(τ)に対して短時間フーリエ変換を行い、この結果をXi(f,τ)とする。ここでfは周波数、τは短時間フーリエ変換のフレームインデクスを表す。
【0024】
得られた時間周波数ごとに、0番目のマイクロホン入力を基準とした位相差θを推定する。
【0025】
【数1】
【0026】
音源方向γは以下の式によって導かれる。
【数2】
【0027】
ここでrはマイクロホン1とマイクロホン2の距離、vは音速を表す。また音源方向はマイクロホン1と2の2等分直線方向を0(degree)とした時の角度で示されている。
【0028】
上記を時間周波数帯ごとに求めたのち、音源方向を横軸にとったヒストグラムを作成してピークサーチを行うことにより、複数音源の定位を行うことができる。
【0029】
上記にはマイクロホン素子数M=2の時の例を示したが、マイクロホンの数が2より多い場合でも、上記アルゴリズムの拡張によって対処できる。また、上記の定位精度を向上した「戸上真人他:逐次的な位相差補正処理に基づく音源定位方式SPIREの定位性能評価,2007年春季音響学会,2007」などの方法も利用できる。これらの詳細は、当業者であれば周知であるため、ここでは記述しない。
【0030】
さらに音源分離部104では、上記で求めた方向情報を元に音声を音源ごとに分離する。これは、例えば最小分散ビームフォーマを用いることで実現することができる。なお、もちろんこの代わりに独立成分分析などその他の音源分離手法を用いることも可能である。
【0031】
最小分散ビームフォーマでは、Xi(f,τ)に対し、以下の式で求めた線形フィルタw(f)を掛け合わせることにより、目的方向の音を強調し、それ以外の音を抑圧する。
【0032】
【数3】
【0033】
ここで、a(f)は目的音方向の空間伝達特性、R(f)は空間相関行列を表す。
本処理のこれ以上の詳細は当業者であれば周知であるため、ここでは記述しない。
上記で示した音源分離処理により、複数人が同時に発話したような状況においても、発話ごとに分離された音声が得られる。以下の処理は、分離されたそれぞれの音声を音声セグメントとし、個々の音声セグメントに対して別個に行う。
【0034】
まず話者音響特徴抽出部105が、分離されたそれぞれの音声セグメントXに対して、話者性を現す話者音響特徴量を抽出する。ここで話者音響特徴量としては、MFCC(Mel Frequency Cestrum Coefficient)などが利用できる。この特徴量の詳細は、この分野の当業者には周知であるため説明を省略する。
【0035】
次に、上記話者音響特徴量と、話者方向検出部で求めた話者方向及び参加者同定部から得られる参加者情報を元に話者識別部106が話者の判定を行う。この実施例ではGMM(Gaussian Mixture Model)を用いた話者識別を用いる。話者音響特徴量の列X={X1,…,Xn}が与えられたとき、それが話者Aである尤度は以下で表される。
【0036】
【数4】
【0037】
ここでmj,vj,λjはそれぞれ番目の正規分布の平均、分散と分布の混合重みであり、あらかじめユーザ情報保持部において保持されている話者Aの音声から値を学習しておいたものである。
【0038】
当該音声が話者Aである音響的信頼度CMAC(A|X)を求めるためには、さらにBack-ground Modelと呼ばれる、一般的な音響情報を表現するGMMの尤度P(X|GMMbg)を求め、話者尤度との比を計算する。
【0039】
【数5】
【0040】
また上記に加えて、音声方向検出部で推定した話者方向に基づき、当該音声が話者Aの発話である信頼度CMDOA(A|X)を算出することもできる。このためには、例えば話者Aが特定の席に着席していることが多いという情報を確率P(D|A)として表しておき、下記のように求めることが考えられる。
【0041】
【数6】
【0042】
ここでDは音声の到来方向を表す。
P(A|D)の求め方としては、これまでの会議もしくは現在録音中の会議で得られた音声発話集合を元に下記で求めることなどが考えられる。
【0043】
【数7】
【0044】
上記のXの和は、これまでの会議もしくは現在録音中の会議で得られた音声セグメントの集合に関しての和とする。またaはAの要素である個々のユーザとする。
上記で得られたCMAC(A|X)とCMDOA(A|X)から当該音声が話者Aの発話である信頼度CM(A|X)を求める。例えば、上記の線形和で
【0045】
【数8】
と表現することができる。この信頼度の値が大きいほど、当該音声セグメントが当該話者の発言である確率が高いと判断できる。
【0046】
なお、上記では例として話者音響情報から得られる信頼度CMAC(A|X)と話者方向情報から得られる信頼度CMDOA(A|X)の2つのみを用いているが、そのほかにシステムが会議場や会議参加者を撮像するカメラなどの撮像手段を備えており、当該撮像手段から得られた画像を元に、話者の顔画像の特徴情報から当該発話の話者ごとの信頼度を求めて組み合わせることも可能である。同様に話者の顔画像と方向情報から、当該発話の話者ごとの信頼度を求めることも可能である。
【0047】
修正権設定部107では、上記で得られた話者信頼度に基づき、各音声に話者ごとの修正権を付与していく。ここで、下記(1)〜(3)で異なる修正権付与を行う。
(1)話者信頼度が予め定めた閾値θ1以上の話者が1名だけ存在する場合
当該話者に対する修正権を付与する
(2)話者信頼度が閾値θ1以上の話者が複数存在する場合
当該話者全てに対する修正権譲渡証を付与する。
(3)話者信頼度が閾値θ1以上の話者が存在しない場合
全ての参加者に対する修正権譲渡証を付与する。
【0048】
ここで修正権とは、当該音声セグメントXの内容を修正もしくは消去する権限である。また修正権譲渡証とは、修正権譲渡証を持つ全てのユーザの修正権譲渡証を受け取った時点で修正権を得ることができるものである。
【0049】
なお、(1)と判定された話者がゲストアカウントだった場合には、当該会議の参加ユーザ全てに対する修正権譲渡証を付与する。もしくは、予め議長を定めておき、そのユーザに対する修正権を付与するように定めることもできる。
【0050】
上記の処理の流れを図4に示した。音声セグメントが入力されると、当該音声がどの会議参加者の発言であるかを推定し、その信頼度を計算する。その後、上記(1)〜(3)のルールに従って、修正権もしくは修正権譲渡証を発行する。
【0051】
最後にアクセス権情報登録部108が、上記の修正権・修正権譲渡証及び、会議参加者に与えられている視聴権を音声データベース109の中で保存する。またここでは、話者方向検出部103で求めた方向情報や、話者識別部106で求めた話者情報も併せて保存しておくこともできる。
【0052】
これらの情報を音声データベース109に格納した例を図5に示す。ここで音声ファイルIDとは会議の録音ごとに固有に割り振られる識別子であり、音声セグメントIDとは音声セグメントごとに固有に割り振られる識別子である。また図5においては、「話者」という列において話者識別部106で得られた話者とその信頼度を保存している。また「方向」という列において、話者方向検出部103から得られた話者方向を保存している。これらの情報は後述の音声データ検索部111において利用することができる。
【0053】
また上記に加えて、音声ファイルIDと会議名、参加者、録音日時、ファイルのストレージデバイス上での保管場所を示した図6のようなデータも併せて保存しておく。
【0054】
次に、音声インデキシング部119では、音声セグメントXそれぞれについて、音声データ検索部111が音声データをキーワードによって検索するためのデータベースを作成する。音声データベースの検索方法は既に様々な公知技術が存在するが、ここでは大語彙連続音声認識を用いた方法について説明する。
【0055】
まず音声インデキシング部119では、話者識別された音声セグメントXを大語彙連続音声認識器を用いて単語列へと変換する。単語列中の各単語には大語彙連続音声認識器から出力される信頼度が付与されている。なお、大語彙連続音声認識の技術については、この分野の当業者には公知であるため説明を省略する。
【0056】
次に、得られた単語列から、ある単語がどの音声ファイルID/音声セグメントIDに出現するかを表現した索引データを作成する。この例を図7に示した。ここでは、ある単語に対応する{音声ファイルID/音声セグメントID/音声認識から出力される信頼度}の3つ組みを索引として作成する。例えば「製品」という単語は音声ファイルID0012、音声セグメントID0003において信頼度0.8で発話されており、また音声ファイルID0010、音声セグメントID0001において信頼度0.5で発話されているということが分かる。
【0057】
これによりユーザは後述の音声データ検索部111においてキーワードを用いて、当該キーワードが発話された音声ファイルとそのセグメント位置を求めることが可能となる。
【0058】
音声インデキシング部では、上記で作成した索引データを音声データベースに保存する。
【0059】
なお、音声データベースをキーワードを用いて検索する方法として、上記のほかに大語彙連続音声認識器を用いて単語ラティスを作成する方法や、単語よりも細かいサブワードを単位としたサブワード音声認識器を用いた検索方法などが知られており、これらを代わりに利用することも可能である。またキーワードを検索する際に、複数のキーワードが入力された場合や、複合語が入力された場合の処理に関して対処することも可能である。当該技術については、この分野の当業者に公知であるため、説明を省略する。以上が、音声記録部002における処理である。
【0060】
次に、会議の参加者が録音した音声を検索・編集し、公開する録音修正・認証部003における処理について述べる。
【0061】
録音修正・認証部003は、ユーザの認証を行うユーザ認証部117と、キーワードや話者などから音声データを検索することができる音声データ検索部111と、ユーザが修正権を持つ音声データのみ修正・削除できる音声修正部112と、ユーザが公開権を持つ音声のみ公開の認証を行うことができる音声公開認証部113を持つ。さらに修正権譲渡証を持つユーザが修正権譲渡の依頼を行う修正権譲渡依頼部114と、修正権譲渡依頼の承認を行う修正権譲渡承認部115を持つ。
【0062】
まず、ユーザは会議録音の視聴・修正・公開承認を行うために、ユーザ認証部117においてユーザ固有の情報を入力する。ユーザ認証部117では上記入力された情報とユーザ情報保持部118に保存された情報から、システムを操作しているユーザを特定する。ここではユーザにパスワードを入力させることも可能であるし、指静脈認証などのより高度な認証技術を利用することもできる。またユーザ登録部116においてユーザごとにIDカードを発行しておき、それを認証に利用することも可能である。
【0063】
ユーザがユーザ認証部を通してシステムにアクセスすると、図8のようなインタフェースのもと、音声の視聴、検索や、自身が参加した会議の公開承認・修正・修正権譲渡依頼・修正権譲渡承認を選択することができる。
【0064】
ある会議において参加者同定部110で同定されたユーザには、当該会議中の音声全てに視聴権が付与されているため、その音声を視聴・検索することができる。この場合、図8の「会議を一覧から視聴」202をクリックすると、図9のように自身が視聴できる会議の一覧が表示され、内容を聞くことができる。このとき当該会議中の音声の視聴権が付与されていない会議は表示されず、視聴することができない。また会議に参加していたユーザは当該会議音声に自由に名前をつけることができる。この名前はユーザごとに個別に設定できるようにすることもできるし、会議参加者間で自動的に共有するようにすることもできる。
【0065】
また図8の会議音声検索203では、会議名やキーワードを用いて会議の内容を検索することができる。図8のテキストボックス208へ検索したいキーワードを入力し、検索ボタン209を押下する。会議名もしくはキーワード検索の一方だけを利用したい場合には、利用したくない項目のチェックボックス210を解除すればよい。検索ボタンが押下されると音声データ検索部111が動作し、該当するファイルの一覧をユーザへ表示する。
【0066】
ここでは会議名とキーワードによる検索を示したが、そのほかに話者による音声の検索や話者の方向に基づく検索などを行うことも可能である。さらに会議中の画像を蓄積していた場合には、ユーザ情報保持部118に保存されている顔画像に基づく検索なども可能である。
【0067】
会議に参加していたユーザで、当該ユーザへ修正権及び修正譲渡権が付与された発言に関して、公開してもよいと判断した場合は、音声公開承認部113において当該ユーザの発話の公開承認を行う。この際に、例えば図10のようなインタフェースを備えておき、個々の発話に対して公開承認を行うこともできるし、全ての発話を一括して公開承認できるとよい。個々の音声の公開承認を行いたい場合は、公開したい音声セグメントのみにチェックをしてから、「チェックした音声を公開承認」ボタンを押下する。全ての発話を一括して公開承認したい場合には、まず「全ての音声をチェック」にチェックすると、全ての音声セグメントがチェックされる。
【0068】
あるユーザに修正権が付与されている発話は、当該ユーザが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。複数のユーザに修正権譲渡証が付与されている発話は、修正権譲渡証を保持するユーザ全てが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。
【0069】
会議に参加していたユーザで、公開する際に編集が必要な発言があると判断したユーザは、まず図8の会議音声修正205をクリックし、音声修正部112を起動する。音声修正部112は、図8と同様の検索インタフェースを備えており、キーワードによる音声の検索や、会議名による検索を行うこともできる。
【0070】
編集したい音声セグメントを発見した後のユーザの行動は、当該ユーザが当該音声セグメントのどのアクセス権を保持しているかによって変化する。当該音声セグメントの修正権をユーザが保持していた場合には、その音声の削除や不要部分にマスキングをほどこすなどの操作を行う。
【0071】
ここで音声修正部112は、例えば図11のようなインタフェースを備えており、マウスのドラッグによって修正したい区間の開始点と終了点を指定する。また、キーワードを入力することによって当該音声中のキーワード部分のみを切り出すこともできる。テキストボックス301にキーワードを入力すると、当該キーワード区間の開始点と終了点が設定される。当該技術はワードスポッティングと呼ばれ、この分野の当業者には周知の技術であるため、ここでは詳細は述べない。
【0072】
上記で指定した区間に対して、「指定区間をマスキング」をクリックすると、指定した区間がホワイトノイズやビープ音と差し替えられる。また指定区間を消去すると、指定した区間が消去される。
【0073】
なお、ここで修正した結果はユーザが会議音声を視聴するときに反映されが、実際の音声データベース自体は修正されないようにすることができる。この場合、システムの管理者権限によって、音声波形をもとに戻すなどの操作を行うことも可能である。
【0074】
以上が、当該音声セグメントの修正権をユーザが保持していた場合の処理である。ユーザが編集したい音声の修正権を持っていない場合には、そのままでは当該音声を修正することができない。この場合、ユーザは図8の修正権譲渡依頼206をクリックし、修正権譲渡依頼部114を起動する。
【0075】
修正権譲渡依頼部114は図12のようなインタフェースを持ち、当該音声セグメントの修正権譲渡依頼を、当該音声の修正権譲渡証を保持する全てのユーザへ通知する。この際に例えばメールシステムと本システムが連携し、修正権譲渡依頼の通知が出された参加者にはメールで通知されるなどしてもよい。また修正権譲渡依頼に、ユーザAのメッセージを付与しておいてもよい。
【0076】
修正権譲渡依頼の通知を受け取ったユーザは、ユーザ承認部117からシステムへアクセスした後、図8の修正権譲渡承認207をクリックし、修正権譲渡承認部115を起動する。修正権譲渡承認部115は図13のようなインタフェースを持ち、依頼ユーザ名と依頼された当該音声の聴取と依頼者からのメッセージを確認できる。また必要であれば、当該音声前後の文脈を確認できるように、指定した区間の視聴ができる図13のようなインタフェースを備えているとよい。
【0077】
当該音声を聴取し、当該音声の修正権を依頼ユーザに与えてもよいと判断したら、「音声の修正権譲渡 承認」ボタンをクリックすることにより、当該音声の修正権譲渡証を依頼ユーザへ発行する。
【0078】
修正権譲渡証を持つ全てのユーザがユーザAへ修正権譲渡証を発行した時点で、修正権譲渡承認部115がユーザAに当該音声の修正権を付与する。これによりユーザAは当該音声を修正・削除などすることができる。
【0079】
以上が、会議音声を視聴・検索・修正・公開する枠組みである。本枠組みでは、当該音声を発話したかどうかが定かでない数名の会議参加者のみがユーザAからの修正権譲渡証発行依頼に対応すればよく、その他の大多数のユーザは、当該処理に関与しなくてすむために、全体としてユーザの手間を大幅に削減できる。また発話ごとに発言の修正権やアクセス権が管理されているため、仮に利害関係の異なるユーザどうしが話しあった後にお互いの音声を不適切に修正する心配を避けられ、より自由な論議を行うことが可能となる。
【0080】
なお、上述の例では、修正権を持つユーザが当該発話の公開を承認した時点で、他のユーザが当該音声を聴取できるようになるが、これとは異なり、当該会議に参加していた全てのユーザが全ての音声の公開承認した時点で、当該音声を公開することも可能である。
【0081】
上記のシステムのハードウェア構成について図14に示す。システムは、CPUとメモリからなる計算機を備え、計算機には音声入力装置、データ蓄積装置、キーボード、表示装置を備えている。図1に示した機能部101〜119は、全て計算機のメモリの中に格納されている。また、画像入力も受け付ける場合には、画像入力装置も計算機に接続する。
【0082】
また本システムをTV会議システムと組み合わせたときのハードウェア構成を図15に示した。ここでは音声入力装置と画像入力装置が複数の拠点に分散しており、ネットワークを介して計算機に接続されている点が図14と大きく異なる。
【図面の簡単な説明】
【0083】
【図1】本発明によるシステムの構成例を示す機能ブロック図。
【図2】ユーザ管理部における処理を示すフローチャート。
【図3】音声記録部における処理を示すフローチャート。
【図4】アクセス権設定の処理手順を示すフローチャート。
【図5】音声ファイル及び音声セグメント情報の格納例を示す図。
【図6】音声ファイル情報の格納例を示す図。
【図7】音声インデキシング部によって作成される索引データの例を示す図。
【図8】ユーザ認証後のユーザ画面例を示す図。
【図9】会議音声の一覧表示例を示す図。
【図10】公開承認のインタフェースを示す図。
【図11】音声修正部のインタフェースを示す図。
【図12】修正権譲渡依頼部のインタフェースを示す図。
【図13】修正権譲渡承認部のインタフェースを示す図。
【図14】システムのハードウェア構成例を示す図。
【図15】TV会議システムと組み合わせた場合のハードウェア構成例を示す図。
【符号の説明】
【0084】
001:ユーザ管理部
002:音声記録部
003:録音修正・認証部
【技術分野】
【0001】
本発明は、打ち合わせやブレインストーミングなどの会議の場において、その音声を録音・検索・共有する会議音声録音システムに関するものである。
【背景技術】
【0002】
これまでに会議における音声を録音し、その音声から議事録を作成する技術が示されている。特許文献1では、会議での音声を音声認識装置によって文字化し、自動的に議事録を作成する方法が記載されている。非特許文献1には、会議中の発言を書記が専用ツールで全て書き起こし、それを議事録として保存する技術が記載されている。
【0003】
また特許文献2では、複数の参加者がドキュメントを編集・共有するようなシステムにおいて、個々の発言に対して参加者がドキュメント編集の管理権を持つことで、利害関係の複雑な議題においてもドキュメントを適切に管理しつつ、自由な意見発信を可能としている。この技術では、参加者の発言を特定するために、個々人を識別するための何らかの端末を前提としている。
【0004】
特許文献3には、マイクロホンを用いて会議を録音し、話者識別を用いて各発話に承認権を付与する技術が記載されている。話者識別ができなかった場合には、全員の承諾のもと議長が書き起しを行う。特許文献4には、公開したくない発言を行う場合に、特定のボタンを押すことにより録音を中断することが記載されている。
【0005】
【特許文献1】特開2000−112931号公報
【特許文献2】特開2007−328471号公報
【特許文献3】特開2000−352995号公報
【特許文献4】特開2005−072768号公報
【非特許文献1】ディスカッションマイニング:議事録からの知識、発見,情報処理学会第67回全国大会,2005.
【発明の開示】
【発明が解決しようとする課題】
【0006】
特許文献1や非特許文献1では、参加者の発言は公式な発言として扱われ、参加者が自身の発言を修正する権限の管理や、容易に自身の発言を修正する枠組みが提供されていない。実際の会議の場面では、全ての発言が公式なものとして扱われることはむしろ稀であり、このような前提は参加者の自由な発言を阻害する恐れがある。特に、打ち合わせやブレインストーミングなどの会議で、広く意見を収集して知識の醸成を図るという目的であった場合には、その本来の目的が十分達成されない恐れがある。
【0007】
また、参加者が面と向かって打ち合わせをするような会議(TV会議を含む)において、各参加者がそれぞれ専用の入力端末を保持するという状況は、以下の点において不便である。まず第1に、専用の入力端末の数以上の参加者は会議に参加できない。第2に、専用の入力端末ごしにしか発言できない状況は、参加者に過度の心的ストレスを感じさせる。第3に、専用の入力端末ごしに発言するという状況は従来の打ち合わせの方法と大きく異なり、参加者がシステムに慣れるまでに相当の時間を要する。第4に、このような専用システムを設置するのは非常にコストがかかる。上記観点から鑑みて、各人が専用の入力端末を保持するような会議の場というのは限られた環境でのみ有効なものと考えられる。
【0008】
特許文献3の方法は、参加者が専用の入力端末を保持する必要がなく、また発言の管理も行われているものの、その目的はあくまで正確な議事録を作成することにあり、参加者が自由な発言を行える環境を提供するという点は考慮されていない。録音しても参加者が自由に発言を行えるようにするためには、各参加者が自身の発言を容易に検索・編集できる機能を備えることが必要である。また、この方法では、話者識別に失敗した場合に一律で全員の承諾を必要としており、議事録作成までの全員の作業量が多いという問題もある。打ち合わせの録音システムを日常的に利用することを考えると、打ち合わせ後の作業は最小限であることが望ましく、この点でも改善が必要である。
【0009】
ボタンを押して録音を中断する方法の場合、参加者は自身の発言が不適切だったと後から気付いた場合に対処できない。結果として、参加者の自由な発言が阻害されるという問題が生じる。
【0010】
上記のように、従来技術は打ち合わせでの音声を録音・共有するシステムを提供しているものの、参加者が自由な発言を行うための枠組みを十分に提供していなかった。本発明は、打ち合わせ参加者の作業を最小にしつつ、必要であれば参加者が容易に自身の発言を検索・修正できる枠組みを提供する。また、参加者の利害関係が複雑な会議においても、発言の修正を適切な権限で行えるようにするための枠組みの提供も行う。
【課題を解決するための手段】
【0011】
本発明では、打ち合わせの発話音声の話者音響特徴量や方向情報などからそれぞれの発話の話者を識別し、その際の信頼度に応じた適切な音声修正権を発話ごとに付与する。また録音後に、音声を容易に検索・修正できる音声検索部、音声修正部を備えることにより、会議参加者が会議後に容易かつ適切な権限でもって会議音声を修正することができるようにする。このことにより、適切な会議音声の記録・共有を最低限の作業で行いつつ、参加者が自由に議論を行うことを可能とする。
【発明の効果】
【0012】
本発明によると、会議録を録音・共有するシステムにおいて、参加者が自由な議論を行うことが可能となる。
【発明を実施するための最良の形態】
【0013】
以下、図面を参照して本発明の実施の形態を説明する。
図1は、本発明による会議音声記録・共有システムの構成例を示す機能ブロック図である。本システムは、会議の参加者を予め登録しておくためのユーザ管理部001、会議音声を録音する際に動作する音声記録部002、及び会議終了後に会議の録音内容を修正する会議録音修正・認証部003を有する。
【0014】
以下、図1に示した会議音声記録・共有システムにおける処理を、順を追って説明する。
【0015】
まず、ユーザ管理部001における処理を図2のフローチャートに示した。ユーザが初めて本システムを利用するときには、ユーザ登録部116で当該ユーザの情報を登録する。この際にはユーザ名などを登録する。また、当該ユーザの声も併せて録音し、ユーザ情報保持部118へ保存する。また必要であればパスワードの登録か、ユーザ固有のIDカードの登録・発行を行う。さらに、この際にユーザの顔写真などを保存しておくこともできる。
【0016】
次に、音声記録部002における処理について説明する。音声記録部002は、会議の参加者を同定する参加者同定部110、音声入力部101、入力された音声を蓄積する音声録音部102、録音された多チャンネル音声から話者の方向を特定する話者方向検出部103、入力された音声を話者ごとに分離する音源分離部104、分離された音声それぞれから話者性を現す特徴量を抽出する話者音響特徴抽出部105、話者方向情報と話者音響特徴及び参加者同定部で同定した参加者情報から当該音声の話者を判定する話者識別部106、識別された話者の信頼度に基づき当該音声に修正権や修正権譲渡証を設定する修正権設定部107、上記の修正権情報を蓄積するアクセス権情報登録部108、音声やアクセス権限を保存する音声データベース109、及び音声インデキシング部119を有する。
【0017】
本実施例では音声入力部101において、複数のマイクロホンからの同期入力を受け付けるものとする。また、音声記録部002は、その他に画像入力部と画像蓄積部を備えていてもよい。このような応用は、特にTV会議システムにおいて利用可能と考えられる。
【0018】
音声記録部002における処理のフローチャートを図3に示した。
会議が始まる前に、まず参加者同定部110が会議の参加者を同定する。このために、例えば冒頭で参加者名を各参加者、もしくは議長が発話し、それを音声認識することによって参加者を同定する。この際に、ユーザ登録部116においてユーザ情報保持部118に登録されたユーザ名から、音声認識辞書を作成することも可能である。なお、音声認識の手法自体は本技術分野において周知であるため説明は省略する。
【0019】
そのほかに、話者ごとにIDカードを発行しておき、参加時にカードリーダに読み取らせる方法や、キーボードから会議参加者を入力する方法、参加者の候補を表示デバイス上に示し選択させる方法などが考えられる。また会議中の発話の音響的な話者性から参加名を特定する方法や、顔画像から参加者名を特定する方法もある。
【0020】
さらに、ユーザ管理部でシステムに登録していないユーザが会議に加わった場合には、ゲストアカウントで会議に参加する。また、この時に「ゲストです」といった発話を行ってもらい、当該音声から話者の声質を学習して、後段の話者識別部106で利用することも考えられる。
【0021】
上記で同定された会議の参加者は、当該会議で録音される全ての音声の視聴権を与えられる。
【0022】
実際に会議が始まると、システムは複数マイクロホンを持つ音声入力部101から逐次会議の音声を取り込み、音声データベース109へ保存する。それぞれのマイクロホンは直線や円周など既定の配置で設置されており、各マイクロホンからの入力は専用のA/Dボードを通して同期して話者方向検出部103へと渡される。話者方向検出部103では、上記の多チャンネルの音声から音源の方向を検出する。この場合、複数の話者が同時に発話する可能性もあり、そのような場合でも全ての音源方向を正確に検出できることが望ましい。
【0023】
ここでマイクロホンの素子数をM=2とし、それぞれのマイクロホンから得られる信号をxi(τ)(i=1,2)と表す。まずそれぞれのxi(τ)に対して短時間フーリエ変換を行い、この結果をXi(f,τ)とする。ここでfは周波数、τは短時間フーリエ変換のフレームインデクスを表す。
【0024】
得られた時間周波数ごとに、0番目のマイクロホン入力を基準とした位相差θを推定する。
【0025】
【数1】
【0026】
音源方向γは以下の式によって導かれる。
【数2】
【0027】
ここでrはマイクロホン1とマイクロホン2の距離、vは音速を表す。また音源方向はマイクロホン1と2の2等分直線方向を0(degree)とした時の角度で示されている。
【0028】
上記を時間周波数帯ごとに求めたのち、音源方向を横軸にとったヒストグラムを作成してピークサーチを行うことにより、複数音源の定位を行うことができる。
【0029】
上記にはマイクロホン素子数M=2の時の例を示したが、マイクロホンの数が2より多い場合でも、上記アルゴリズムの拡張によって対処できる。また、上記の定位精度を向上した「戸上真人他:逐次的な位相差補正処理に基づく音源定位方式SPIREの定位性能評価,2007年春季音響学会,2007」などの方法も利用できる。これらの詳細は、当業者であれば周知であるため、ここでは記述しない。
【0030】
さらに音源分離部104では、上記で求めた方向情報を元に音声を音源ごとに分離する。これは、例えば最小分散ビームフォーマを用いることで実現することができる。なお、もちろんこの代わりに独立成分分析などその他の音源分離手法を用いることも可能である。
【0031】
最小分散ビームフォーマでは、Xi(f,τ)に対し、以下の式で求めた線形フィルタw(f)を掛け合わせることにより、目的方向の音を強調し、それ以外の音を抑圧する。
【0032】
【数3】
【0033】
ここで、a(f)は目的音方向の空間伝達特性、R(f)は空間相関行列を表す。
本処理のこれ以上の詳細は当業者であれば周知であるため、ここでは記述しない。
上記で示した音源分離処理により、複数人が同時に発話したような状況においても、発話ごとに分離された音声が得られる。以下の処理は、分離されたそれぞれの音声を音声セグメントとし、個々の音声セグメントに対して別個に行う。
【0034】
まず話者音響特徴抽出部105が、分離されたそれぞれの音声セグメントXに対して、話者性を現す話者音響特徴量を抽出する。ここで話者音響特徴量としては、MFCC(Mel Frequency Cestrum Coefficient)などが利用できる。この特徴量の詳細は、この分野の当業者には周知であるため説明を省略する。
【0035】
次に、上記話者音響特徴量と、話者方向検出部で求めた話者方向及び参加者同定部から得られる参加者情報を元に話者識別部106が話者の判定を行う。この実施例ではGMM(Gaussian Mixture Model)を用いた話者識別を用いる。話者音響特徴量の列X={X1,…,Xn}が与えられたとき、それが話者Aである尤度は以下で表される。
【0036】
【数4】
【0037】
ここでmj,vj,λjはそれぞれ番目の正規分布の平均、分散と分布の混合重みであり、あらかじめユーザ情報保持部において保持されている話者Aの音声から値を学習しておいたものである。
【0038】
当該音声が話者Aである音響的信頼度CMAC(A|X)を求めるためには、さらにBack-ground Modelと呼ばれる、一般的な音響情報を表現するGMMの尤度P(X|GMMbg)を求め、話者尤度との比を計算する。
【0039】
【数5】
【0040】
また上記に加えて、音声方向検出部で推定した話者方向に基づき、当該音声が話者Aの発話である信頼度CMDOA(A|X)を算出することもできる。このためには、例えば話者Aが特定の席に着席していることが多いという情報を確率P(D|A)として表しておき、下記のように求めることが考えられる。
【0041】
【数6】
【0042】
ここでDは音声の到来方向を表す。
P(A|D)の求め方としては、これまでの会議もしくは現在録音中の会議で得られた音声発話集合を元に下記で求めることなどが考えられる。
【0043】
【数7】
【0044】
上記のXの和は、これまでの会議もしくは現在録音中の会議で得られた音声セグメントの集合に関しての和とする。またaはAの要素である個々のユーザとする。
上記で得られたCMAC(A|X)とCMDOA(A|X)から当該音声が話者Aの発話である信頼度CM(A|X)を求める。例えば、上記の線形和で
【0045】
【数8】
と表現することができる。この信頼度の値が大きいほど、当該音声セグメントが当該話者の発言である確率が高いと判断できる。
【0046】
なお、上記では例として話者音響情報から得られる信頼度CMAC(A|X)と話者方向情報から得られる信頼度CMDOA(A|X)の2つのみを用いているが、そのほかにシステムが会議場や会議参加者を撮像するカメラなどの撮像手段を備えており、当該撮像手段から得られた画像を元に、話者の顔画像の特徴情報から当該発話の話者ごとの信頼度を求めて組み合わせることも可能である。同様に話者の顔画像と方向情報から、当該発話の話者ごとの信頼度を求めることも可能である。
【0047】
修正権設定部107では、上記で得られた話者信頼度に基づき、各音声に話者ごとの修正権を付与していく。ここで、下記(1)〜(3)で異なる修正権付与を行う。
(1)話者信頼度が予め定めた閾値θ1以上の話者が1名だけ存在する場合
当該話者に対する修正権を付与する
(2)話者信頼度が閾値θ1以上の話者が複数存在する場合
当該話者全てに対する修正権譲渡証を付与する。
(3)話者信頼度が閾値θ1以上の話者が存在しない場合
全ての参加者に対する修正権譲渡証を付与する。
【0048】
ここで修正権とは、当該音声セグメントXの内容を修正もしくは消去する権限である。また修正権譲渡証とは、修正権譲渡証を持つ全てのユーザの修正権譲渡証を受け取った時点で修正権を得ることができるものである。
【0049】
なお、(1)と判定された話者がゲストアカウントだった場合には、当該会議の参加ユーザ全てに対する修正権譲渡証を付与する。もしくは、予め議長を定めておき、そのユーザに対する修正権を付与するように定めることもできる。
【0050】
上記の処理の流れを図4に示した。音声セグメントが入力されると、当該音声がどの会議参加者の発言であるかを推定し、その信頼度を計算する。その後、上記(1)〜(3)のルールに従って、修正権もしくは修正権譲渡証を発行する。
【0051】
最後にアクセス権情報登録部108が、上記の修正権・修正権譲渡証及び、会議参加者に与えられている視聴権を音声データベース109の中で保存する。またここでは、話者方向検出部103で求めた方向情報や、話者識別部106で求めた話者情報も併せて保存しておくこともできる。
【0052】
これらの情報を音声データベース109に格納した例を図5に示す。ここで音声ファイルIDとは会議の録音ごとに固有に割り振られる識別子であり、音声セグメントIDとは音声セグメントごとに固有に割り振られる識別子である。また図5においては、「話者」という列において話者識別部106で得られた話者とその信頼度を保存している。また「方向」という列において、話者方向検出部103から得られた話者方向を保存している。これらの情報は後述の音声データ検索部111において利用することができる。
【0053】
また上記に加えて、音声ファイルIDと会議名、参加者、録音日時、ファイルのストレージデバイス上での保管場所を示した図6のようなデータも併せて保存しておく。
【0054】
次に、音声インデキシング部119では、音声セグメントXそれぞれについて、音声データ検索部111が音声データをキーワードによって検索するためのデータベースを作成する。音声データベースの検索方法は既に様々な公知技術が存在するが、ここでは大語彙連続音声認識を用いた方法について説明する。
【0055】
まず音声インデキシング部119では、話者識別された音声セグメントXを大語彙連続音声認識器を用いて単語列へと変換する。単語列中の各単語には大語彙連続音声認識器から出力される信頼度が付与されている。なお、大語彙連続音声認識の技術については、この分野の当業者には公知であるため説明を省略する。
【0056】
次に、得られた単語列から、ある単語がどの音声ファイルID/音声セグメントIDに出現するかを表現した索引データを作成する。この例を図7に示した。ここでは、ある単語に対応する{音声ファイルID/音声セグメントID/音声認識から出力される信頼度}の3つ組みを索引として作成する。例えば「製品」という単語は音声ファイルID0012、音声セグメントID0003において信頼度0.8で発話されており、また音声ファイルID0010、音声セグメントID0001において信頼度0.5で発話されているということが分かる。
【0057】
これによりユーザは後述の音声データ検索部111においてキーワードを用いて、当該キーワードが発話された音声ファイルとそのセグメント位置を求めることが可能となる。
【0058】
音声インデキシング部では、上記で作成した索引データを音声データベースに保存する。
【0059】
なお、音声データベースをキーワードを用いて検索する方法として、上記のほかに大語彙連続音声認識器を用いて単語ラティスを作成する方法や、単語よりも細かいサブワードを単位としたサブワード音声認識器を用いた検索方法などが知られており、これらを代わりに利用することも可能である。またキーワードを検索する際に、複数のキーワードが入力された場合や、複合語が入力された場合の処理に関して対処することも可能である。当該技術については、この分野の当業者に公知であるため、説明を省略する。以上が、音声記録部002における処理である。
【0060】
次に、会議の参加者が録音した音声を検索・編集し、公開する録音修正・認証部003における処理について述べる。
【0061】
録音修正・認証部003は、ユーザの認証を行うユーザ認証部117と、キーワードや話者などから音声データを検索することができる音声データ検索部111と、ユーザが修正権を持つ音声データのみ修正・削除できる音声修正部112と、ユーザが公開権を持つ音声のみ公開の認証を行うことができる音声公開認証部113を持つ。さらに修正権譲渡証を持つユーザが修正権譲渡の依頼を行う修正権譲渡依頼部114と、修正権譲渡依頼の承認を行う修正権譲渡承認部115を持つ。
【0062】
まず、ユーザは会議録音の視聴・修正・公開承認を行うために、ユーザ認証部117においてユーザ固有の情報を入力する。ユーザ認証部117では上記入力された情報とユーザ情報保持部118に保存された情報から、システムを操作しているユーザを特定する。ここではユーザにパスワードを入力させることも可能であるし、指静脈認証などのより高度な認証技術を利用することもできる。またユーザ登録部116においてユーザごとにIDカードを発行しておき、それを認証に利用することも可能である。
【0063】
ユーザがユーザ認証部を通してシステムにアクセスすると、図8のようなインタフェースのもと、音声の視聴、検索や、自身が参加した会議の公開承認・修正・修正権譲渡依頼・修正権譲渡承認を選択することができる。
【0064】
ある会議において参加者同定部110で同定されたユーザには、当該会議中の音声全てに視聴権が付与されているため、その音声を視聴・検索することができる。この場合、図8の「会議を一覧から視聴」202をクリックすると、図9のように自身が視聴できる会議の一覧が表示され、内容を聞くことができる。このとき当該会議中の音声の視聴権が付与されていない会議は表示されず、視聴することができない。また会議に参加していたユーザは当該会議音声に自由に名前をつけることができる。この名前はユーザごとに個別に設定できるようにすることもできるし、会議参加者間で自動的に共有するようにすることもできる。
【0065】
また図8の会議音声検索203では、会議名やキーワードを用いて会議の内容を検索することができる。図8のテキストボックス208へ検索したいキーワードを入力し、検索ボタン209を押下する。会議名もしくはキーワード検索の一方だけを利用したい場合には、利用したくない項目のチェックボックス210を解除すればよい。検索ボタンが押下されると音声データ検索部111が動作し、該当するファイルの一覧をユーザへ表示する。
【0066】
ここでは会議名とキーワードによる検索を示したが、そのほかに話者による音声の検索や話者の方向に基づく検索などを行うことも可能である。さらに会議中の画像を蓄積していた場合には、ユーザ情報保持部118に保存されている顔画像に基づく検索なども可能である。
【0067】
会議に参加していたユーザで、当該ユーザへ修正権及び修正譲渡権が付与された発言に関して、公開してもよいと判断した場合は、音声公開承認部113において当該ユーザの発話の公開承認を行う。この際に、例えば図10のようなインタフェースを備えておき、個々の発話に対して公開承認を行うこともできるし、全ての発話を一括して公開承認できるとよい。個々の音声の公開承認を行いたい場合は、公開したい音声セグメントのみにチェックをしてから、「チェックした音声を公開承認」ボタンを押下する。全ての発話を一括して公開承認したい場合には、まず「全ての音声をチェック」にチェックすると、全ての音声セグメントがチェックされる。
【0068】
あるユーザに修正権が付与されている発話は、当該ユーザが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。複数のユーザに修正権譲渡証が付与されている発話は、修正権譲渡証を保持するユーザ全てが公開承認をした時点で、会議に参加していないユーザから視聴・検索できるようになる。
【0069】
会議に参加していたユーザで、公開する際に編集が必要な発言があると判断したユーザは、まず図8の会議音声修正205をクリックし、音声修正部112を起動する。音声修正部112は、図8と同様の検索インタフェースを備えており、キーワードによる音声の検索や、会議名による検索を行うこともできる。
【0070】
編集したい音声セグメントを発見した後のユーザの行動は、当該ユーザが当該音声セグメントのどのアクセス権を保持しているかによって変化する。当該音声セグメントの修正権をユーザが保持していた場合には、その音声の削除や不要部分にマスキングをほどこすなどの操作を行う。
【0071】
ここで音声修正部112は、例えば図11のようなインタフェースを備えており、マウスのドラッグによって修正したい区間の開始点と終了点を指定する。また、キーワードを入力することによって当該音声中のキーワード部分のみを切り出すこともできる。テキストボックス301にキーワードを入力すると、当該キーワード区間の開始点と終了点が設定される。当該技術はワードスポッティングと呼ばれ、この分野の当業者には周知の技術であるため、ここでは詳細は述べない。
【0072】
上記で指定した区間に対して、「指定区間をマスキング」をクリックすると、指定した区間がホワイトノイズやビープ音と差し替えられる。また指定区間を消去すると、指定した区間が消去される。
【0073】
なお、ここで修正した結果はユーザが会議音声を視聴するときに反映されが、実際の音声データベース自体は修正されないようにすることができる。この場合、システムの管理者権限によって、音声波形をもとに戻すなどの操作を行うことも可能である。
【0074】
以上が、当該音声セグメントの修正権をユーザが保持していた場合の処理である。ユーザが編集したい音声の修正権を持っていない場合には、そのままでは当該音声を修正することができない。この場合、ユーザは図8の修正権譲渡依頼206をクリックし、修正権譲渡依頼部114を起動する。
【0075】
修正権譲渡依頼部114は図12のようなインタフェースを持ち、当該音声セグメントの修正権譲渡依頼を、当該音声の修正権譲渡証を保持する全てのユーザへ通知する。この際に例えばメールシステムと本システムが連携し、修正権譲渡依頼の通知が出された参加者にはメールで通知されるなどしてもよい。また修正権譲渡依頼に、ユーザAのメッセージを付与しておいてもよい。
【0076】
修正権譲渡依頼の通知を受け取ったユーザは、ユーザ承認部117からシステムへアクセスした後、図8の修正権譲渡承認207をクリックし、修正権譲渡承認部115を起動する。修正権譲渡承認部115は図13のようなインタフェースを持ち、依頼ユーザ名と依頼された当該音声の聴取と依頼者からのメッセージを確認できる。また必要であれば、当該音声前後の文脈を確認できるように、指定した区間の視聴ができる図13のようなインタフェースを備えているとよい。
【0077】
当該音声を聴取し、当該音声の修正権を依頼ユーザに与えてもよいと判断したら、「音声の修正権譲渡 承認」ボタンをクリックすることにより、当該音声の修正権譲渡証を依頼ユーザへ発行する。
【0078】
修正権譲渡証を持つ全てのユーザがユーザAへ修正権譲渡証を発行した時点で、修正権譲渡承認部115がユーザAに当該音声の修正権を付与する。これによりユーザAは当該音声を修正・削除などすることができる。
【0079】
以上が、会議音声を視聴・検索・修正・公開する枠組みである。本枠組みでは、当該音声を発話したかどうかが定かでない数名の会議参加者のみがユーザAからの修正権譲渡証発行依頼に対応すればよく、その他の大多数のユーザは、当該処理に関与しなくてすむために、全体としてユーザの手間を大幅に削減できる。また発話ごとに発言の修正権やアクセス権が管理されているため、仮に利害関係の異なるユーザどうしが話しあった後にお互いの音声を不適切に修正する心配を避けられ、より自由な論議を行うことが可能となる。
【0080】
なお、上述の例では、修正権を持つユーザが当該発話の公開を承認した時点で、他のユーザが当該音声を聴取できるようになるが、これとは異なり、当該会議に参加していた全てのユーザが全ての音声の公開承認した時点で、当該音声を公開することも可能である。
【0081】
上記のシステムのハードウェア構成について図14に示す。システムは、CPUとメモリからなる計算機を備え、計算機には音声入力装置、データ蓄積装置、キーボード、表示装置を備えている。図1に示した機能部101〜119は、全て計算機のメモリの中に格納されている。また、画像入力も受け付ける場合には、画像入力装置も計算機に接続する。
【0082】
また本システムをTV会議システムと組み合わせたときのハードウェア構成を図15に示した。ここでは音声入力装置と画像入力装置が複数の拠点に分散しており、ネットワークを介して計算機に接続されている点が図14と大きく異なる。
【図面の簡単な説明】
【0083】
【図1】本発明によるシステムの構成例を示す機能ブロック図。
【図2】ユーザ管理部における処理を示すフローチャート。
【図3】音声記録部における処理を示すフローチャート。
【図4】アクセス権設定の処理手順を示すフローチャート。
【図5】音声ファイル及び音声セグメント情報の格納例を示す図。
【図6】音声ファイル情報の格納例を示す図。
【図7】音声インデキシング部によって作成される索引データの例を示す図。
【図8】ユーザ認証後のユーザ画面例を示す図。
【図9】会議音声の一覧表示例を示す図。
【図10】公開承認のインタフェースを示す図。
【図11】音声修正部のインタフェースを示す図。
【図12】修正権譲渡依頼部のインタフェースを示す図。
【図13】修正権譲渡承認部のインタフェースを示す図。
【図14】システムのハードウェア構成例を示す図。
【図15】TV会議システムと組み合わせた場合のハードウェア構成例を示す図。
【符号の説明】
【0084】
001:ユーザ管理部
002:音声記録部
003:録音修正・認証部
【特許請求の範囲】
【請求項1】
音声を録音する音声録音部と、
入力された音声から話者を特定する話者識別部と、
前記話者識別部による話者識別の信頼度に応じて前記入力された音声の発話ごとに異なる種類の修正権を参加者に対して付与する修正権設定部と、
ユーザの認証を行うユーザ認証部と、
前記修正権設定部で修正権を付与されたユーザが当該修正権を付与された発話を修正できる音声修正部と
を有することを特徴とする会議音声録音システム。
【請求項2】
請求項1に記載の会議音声録音システムにおいて、前記修正権設定部は、発話を話者識別した結果の信頼度が予め定めた閾値より高い話者が1名だけの場合には当該話者へ当該発話の修正権を付与し、話者識別の信頼度が前記閾値より高い話者が複数いた場合にはそれら複数の話者へ当該発話の修正権譲渡証を発行することを特徴とする会議音声録音システム。
【請求項3】
請求項1に記載の会議音声録音システムにおいて、前記修正権設定部は、ある発話を話者識別した結果の信頼度が予め定めた閾値より高い話者が存在しなかった場合には、全ての話者へ修正権譲渡証を発行することを特徴とする会議音声録音システム。
【請求項4】
請求項2又は3に記載の会議音声録音システムにおいて、修正権譲渡証を持つ全てのユーザから修正権譲渡証を発行されたユーザに当該発話の修正権が付与されることを特徴とする会議音声録音システム。
【請求項5】
請求項1に記載の会議音声録音システムにおいて、参加者がキーワードや話者名によって音声を検索することが可能な音声検索部を備えていることを特徴とする会議音声録音システム。
【請求項6】
請求項1に記載の会議音声録音システムにおいて、会議の参加者を同定するための参加者同定部を有することを特徴とする会議音声録音システム。
【請求項7】
請求項6に記載の会議音声録音システムにおいて、前記参加者同定部は、会議中に発話された音声を認識した結果に基づき参加者を同定することを特徴とする会議音声録音システム。
【請求項8】
請求項1に記載の会議音声録音システムにおいて、会議場を撮像する撮像部と話者方向検出部のいずれかもしくは両方を備え、前記話者識別部は、前記話者方向検出部から出力される話者方向検出結果と話者性を表す音響特徴量と前記撮像部によって撮像された画像から得られる話者性を表す画像特徴量のいずれかもしくはその組み合わせから話者識別を行うことを特徴とする会議音声録音システム。
【請求項9】
請求項8に記載の会議音声録音システムにおいて、音声入力部として複数のマイクロホンを用いることを特徴とする会議音声録音システム。
【請求項1】
音声を録音する音声録音部と、
入力された音声から話者を特定する話者識別部と、
前記話者識別部による話者識別の信頼度に応じて前記入力された音声の発話ごとに異なる種類の修正権を参加者に対して付与する修正権設定部と、
ユーザの認証を行うユーザ認証部と、
前記修正権設定部で修正権を付与されたユーザが当該修正権を付与された発話を修正できる音声修正部と
を有することを特徴とする会議音声録音システム。
【請求項2】
請求項1に記載の会議音声録音システムにおいて、前記修正権設定部は、発話を話者識別した結果の信頼度が予め定めた閾値より高い話者が1名だけの場合には当該話者へ当該発話の修正権を付与し、話者識別の信頼度が前記閾値より高い話者が複数いた場合にはそれら複数の話者へ当該発話の修正権譲渡証を発行することを特徴とする会議音声録音システム。
【請求項3】
請求項1に記載の会議音声録音システムにおいて、前記修正権設定部は、ある発話を話者識別した結果の信頼度が予め定めた閾値より高い話者が存在しなかった場合には、全ての話者へ修正権譲渡証を発行することを特徴とする会議音声録音システム。
【請求項4】
請求項2又は3に記載の会議音声録音システムにおいて、修正権譲渡証を持つ全てのユーザから修正権譲渡証を発行されたユーザに当該発話の修正権が付与されることを特徴とする会議音声録音システム。
【請求項5】
請求項1に記載の会議音声録音システムにおいて、参加者がキーワードや話者名によって音声を検索することが可能な音声検索部を備えていることを特徴とする会議音声録音システム。
【請求項6】
請求項1に記載の会議音声録音システムにおいて、会議の参加者を同定するための参加者同定部を有することを特徴とする会議音声録音システム。
【請求項7】
請求項6に記載の会議音声録音システムにおいて、前記参加者同定部は、会議中に発話された音声を認識した結果に基づき参加者を同定することを特徴とする会議音声録音システム。
【請求項8】
請求項1に記載の会議音声録音システムにおいて、会議場を撮像する撮像部と話者方向検出部のいずれかもしくは両方を備え、前記話者識別部は、前記話者方向検出部から出力される話者方向検出結果と話者性を表す音響特徴量と前記撮像部によって撮像された画像から得られる話者性を表す画像特徴量のいずれかもしくはその組み合わせから話者識別を行うことを特徴とする会議音声録音システム。
【請求項9】
請求項8に記載の会議音声録音システムにおいて、音声入力部として複数のマイクロホンを用いることを特徴とする会議音声録音システム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2009−301125(P2009−301125A)
【公開日】平成21年12月24日(2009.12.24)
【国際特許分類】
【出願番号】特願2008−152030(P2008−152030)
【出願日】平成20年6月10日(2008.6.10)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
【公開日】平成21年12月24日(2009.12.24)
【国際特許分類】
【出願日】平成20年6月10日(2008.6.10)
【出願人】(000005108)株式会社日立製作所 (27,607)
【Fターム(参考)】
[ Back to top ]