説明

録音装置

【課題】出席者の発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供する。
【解決手段】録音端末1では、収音部10が収音した音声を、解析部11が会議出席者の発言ごとの区間に区分するとともに、各区間の情況を解析する。再生端末2では、各発言者の発言区間および非発言区間をタイムチャート形式で表示するとともに、各区間の情況を示すマークを表示し、そのマークに基づいて区間を選択して個別に再生できるようにする。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、会議等の音声を録音し、所望の位置から再生する録音装置に関する。
【背景技術】
【0002】
従来より会議を録音する装置が提案されている。たとえば、特許文献1には、会議の音声を録音するだけでなく、録音した音声データを発言者ごとの区間に区切ってタイムチャート形式で一覧表示することにより、どの区間が誰の発言であるかが一見して判るようにされたものが一覧表示できるものが提案されている。
【0003】
【特許文献1】特開2007−256498号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
上記特許文献1の装置では、だれがいつ発言したかを一覧表示することができるが、それぞれの発言がどのような雰囲気であったか、また、どのような情況で発言されたものであったかを知ることはできず、録音を聴いてみなければわからなかった。
【0005】
また、会議においては、出席者が発言していない時間帯が存在し、このような時間帯は、録音データにおいては無音区間等の非発言区間となる。従来、会議の録音において、無音区間等の非発言区間は議事録として意味のない区間であるとしてデータを削除されていたが、会議の雰囲気等を計り知るためにはこのような非発言区間も情況としての意味を持つ場合がある。しかし、非発言区間がどのような雰囲気の時間帯であったかも録音を聴いてみないとわからなかった。
【0006】
この発明は、出席者の発言区間や非発言区間を区分して表示するとともに、各区間の雰囲気を一覧表示することができる録音装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
請求項1の発明である録音装置は、音声データを記憶する音声データ記憶部と、該音声データを音声の発生源に基づいて複数の区間に区分する区間情報を記憶する区間情報記憶部と、各区間の音声の情況を分析した情況データを記憶する情況データ記憶部と、各区間の時間的範囲を時間軸に沿って帯状に表示するとともに、各区間の情況を示す図形を前記帯に重ねて表示する表示部と、を備えたことを特徴とする。
【0008】
この発明では、音声データを音声の発生源に基づいて複数の区間に区分する。会議の場合、複数の出席者の各々が音声の発生源となる。なお、特定の発生源が発生した音声が存在しない時間帯(たとえば無音区間、不特定の音声が発生している区間等)も区間として分割される。これにより、どの音声区間が誰の発言かを区分することができる。さらに、この発明では、各区間の音声の情況を分析結果を記憶する。音声の情況とは、明るい声、怒った声等の音声やその場の雰囲気である。そして、各区間とその雰囲気を表示する。これにより利用者は、一見して区間の分布とその雰囲気を知ることができる。
【0009】
請求項2の発明は、請求項1の発明において、前記音声データの波形データに基づき各区間の情況を解析し、解析した各区間の情況を前記情況データ記憶部に書き込む情況解析部を備えたことを特徴とする。
【0010】
請求項3の発明は、請求項2の発明において、前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析することを特徴とする。
【0011】
請求項4の発明は、請求項2、3の発明において、前記音声データをストリーム入力して前記音声データ記憶部に書き込む音声データ入力部を備え、前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析することを特徴とする。
【0012】
請求項5の発明は、請求項1〜4の発明において、区間の選択操作、および、選択された区間の情況データの入力操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えたことを特徴とする。
【0013】
請求項2〜4の発明では、情況データ記憶部に記憶される情況データを音声データに基づき分析する情況解析部を設けた。情況解析部は、バッチ処理で情況を解析しても請求項4に示すようにリアルタイムで情況を解析してもよい。また、無音区間の情況はその前後の有音区間の情況に基づいて解析してもよい。一方、請求項5の発明では、情況データ記憶部に記憶される情況データを操作者がマニュアル入力するための情況データ入力手段を設けた。これにより、操作者が録音された音声データを聴きながら情況データを入力することができる。
【0014】
請求項6の発明は、請求項1〜5の発明において、前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶し、前記区間情報記憶部は、前記音声データを各出席者の発言の区間および発言でない区間ごとに区分する区間情報を記憶することを特徴とする。
【0015】
請求項7の発明は、請求項6の発明において、前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶することを特徴とする。
【0016】
本発明の録音装置は、会議の録音に適用するのが好適であり、その場合、各出席者の発言ごとに区間が分割されるとともに、発言でない時間帯(たとえば笑い声、拍手、物音、無音)も発言でない区間(非発言区間)として区間に分割し、情況が解析される。
【0017】
請求項8の発明は、請求項1〜7の発明において、前記表示部上で、前記区間を指定する操作を受け付ける操作部と、前記操作部で指定された区間の音声データを再生する再生部と、を備えたことを特徴とする。
【0018】
請求項1に示すように、各区間は音声の発生源、時間帯を示す帯状の形状に表示されるため、この表示エリアをマウスでクリックする等の操作で指定することにより、容易に所望の区間の再生が可能になる。
【発明の効果】
【0019】
この発明によれば、音声データを会議の発言者等の音声の発生源に基づいて複数の区間に区分し、その音声の情況を示す図形を表示することにより、発言者等の音声の発生源の分布を一覧で知ることができるとともに、各区間の情況を一見して知ることができる。
【発明を実施するための最良の形態】
【0020】
図1はこの発明の実施形態である議事記録システムの構成図、図2は、同議事記録システムのブロック図である。この実施形態において、議事記録システムは、録音端末1、再生端末2および記録メディア3で構成されている。
【0021】
図1において、録音端末1は会議が行われる部屋に設置され、各出席者の発言を収音して記録メディア3に音声データとして記録する。記録時に音声データを各出席者の発言単位の区間に区切り、各区間の情況を解析したデータを収音した音声データとともに記録する。このため、録音端末1は、図2に示すように、収音部10、解析部11、記録部12を備えている。
【0022】
収音部10は、図1に示すように複数の出席者(出席者A〜G)の音声を収音し、デジタル音声信号に変換して解析部11および記録部12に入力する。収音部10は、必要数のマイクを備えている。マイクは、マイクアレイ、各出席者に個別に向けられた複数の単一指向性マイク、全話者の音声を一括して収音する1または複数の単一指向性または無指向性マイクのいずれであってもよい。マイクアレイを用いる場合、狭指向性の収音ビームを複数形成して各出席者の音声を別々に収音してもよく、広角の指向特性を持つ収音特性を持たせて複数の出席者の音声を一括して収音するようにしてもよい。なお、収音ビームを形成して各出席者の音声を個別に収音する方式については、本出願人の特開2007−256498号公報に詳細に記載されている。
【0023】
解析部11は、収音部から入力されたデジタル音声信号をリアルタイムに解析して、各出席者の発言の区切りを検出することにより、各出席者の発言区間、および、特定の出席者の発言区間でない非発言区間を割り出す。さらに、各発言区間については、どの出席者の発言であるかの発言者を特定し、非発言区間については、その区間が無音区間、笑い区間、拍手区間、物音区間のいずれであるかの非発言音声を特定する。
【0024】
ここで、各出席者の発言は、音声波形を認識することによって識別することができる。また、各出席者に個別にマイクが設けられている場合、マイクアレイを用いて各出席者に個別に収音ビームが向けられている場合には、どのマイク、収音ビームで収音されたかによって発言者を識別することができる。
【0025】
また、笑い区間とは、不特定の出席者の笑い声が収音された区間である。拍手区間とは、不特定の出席者の拍手が収音された区間である。また、物音区間とは、出席者の発言・笑い声・拍手以外の物音(たとえば書類を配布するときの紙の擦れる音など)が収音された区間である。また、無音区間とは、発言者が沈黙し、他の物音も聴こえない区間である。
【0026】
上記の解析部11による処理結果の例を図4に示す。この図では、各発言者、各非発音音声が縦軸に、会議の経過時間が横軸に割り当てられ、各発言者の発言区間、各非発言音声の非発言区間がその区間時間の長さの帯状に表示されている。
【0027】
さらに、解析部11は、各発言区間、非発言区間の情況を解析し、解析結果を情況データとして出力する。ここで、情況とは、たとえば、発言者の語調等から割り出される発言区間の雰囲気、前後の発言から推測される非発言区間の雰囲気等である。発言区間の場合、解析の結果「怒っている」、「楽しい」、「無感情」等の雰囲気に分類され、この雰囲気を示す情況データが割り当てられる。また、非発言区間であっても、前後の発言区間との関係で、その場の雰囲気を表す時間として意味を持つものがある。たとえば、無音区間の場合、「話題が無くなってしまった沈黙」、「怒ったあとの沈黙」、「考え込んでいる沈黙」等である。解析部11は、前後の発言区間の雰囲気(情況データ)を参照して非発言区間の雰囲気(情況データ)を解析する。
【0028】
このため、解析部11は、情況を解析するための解析エンジン、知識ベースを備えている。なお、この情況の解析は、たとえば、特開2002−91482号公報等に記載の技術を適用して実現することができる。この技術では、発言に含まれる感情を強度、テンポ、抑揚等に基づいて解析している。
【0029】
また、解析部11は、情況を解析できなかった区間については、解析データに代えて解析不可であった旨を示す解析不可データを付加する。解析不可の区間は、図5に示す発言一覧表示において「?」のマークが表示されるが、再生端末2の操作者がマニュアル操作で情況データ(マーク)を入力することができる。
【0030】
記録部12は、記憶メディア3のスロットを有し、このスロットにセットされている記録メディア3に、図3に示す議事録データを記録する。議事録データは、会議中に録音したデジタル音声信号列である音声データ、各発言区間・非発言区間を区分するとともに発言者・非発言音声を特定するデータである区間データ、各発言区間・非発言区間の情況を解析したデータである情況データからなる。なお、記憶メディア3としては、たとえばSDカードなどの半導体メディアが用いられる。
【0031】
一方、再生端末2は、録音端末1で議事録データが記録された記憶メディア3を読み込んで、再生・編集するための装置であり、たとえばノートパソコンにプログラムを実行させて実現される。再生端末2は、記憶メディア3に記録されている議事録データに基づき、図5に示すような発言一覧を表示する。そして、ユーザの指定した区間を再生するとともに、ユーザが聴いた結果、その発言の雰囲気が情況データと異なると判断された場合に、情況データの訂正を受け付ける。このため、再生端末2は、図2に示すように、記憶管理部20、表示部21、再生部22および操作部23を機能的に備えている。
【0032】
記憶管理部20はノートパソコンのメディアスロットを含み、スロットに挿入されたSDカードの読み出しや書き込みを実行する。また、表示部21は、ノートパソコンのディスプレイを含み、記録管理部20に表示されているマークデータ、情況データを、図5に示すようなグラフ状に時系列に表示する。なお、表示部21は各情況データに対応するマーク画像を記憶する画像メモリを含んでいる。再生部22は、ノートパソコンのオーディオ回路・スピーカ等を含み、指定された区間の音声データを読み出して再生し、音響として放音する。
【0033】
操作部23は、ノートパソコンのキーボードやマウスを含み、発言一覧(図5)の表示、発言区間・非発言区間の指定、音声データの再生/停止、発言区間・非発言区間の情況データの訂正などの操作を受け付ける。
【0034】
図3は、議事録データの例を示す図である。議事録データは、会議中に録音したデジタル音声信号列である音声データ、各発言区間・非発言区間を区分するとともに発言者・非発言音声を特定するデータである区間データ、各発言区間・非発言区間の情況を解析したデータである情況データからなる。音声データトラックには、音声データがタイムコードを付されて時系列に書き込まれており、区間データトラックには、区間の開始タイミング、終了タイミングの時刻(タイムコード)およびその区間の発言者または非発言音声からなる区間データが、各区間ごとに時系列に書き込まれる。情況データトラックには、各発言区間・非発言区間の情況解析結果である情況データが各区間に対応づけて書き込まれる。
【0035】
図5は、再生装置2のディスプレイに表示される発言一覧の画面を示す図である。この表示は、発言者および非発言音声を縦軸に、経過時間を横軸に配し、各発言者、非発言音声の区間をその占有時間の長さの帯状に表示するとともに、各区間の情況データに対応するマークをその区間の帯状エリアの上に表示したものである。たとえば、発言区間31の表示は、出席者1(キャラ1)が、会議開始00時00分00秒から50秒発言したこと、および、その発言情況はおおむね明るい口調であった旨を表示している。ここで、発言区間のマークは、晴れマーク=明るい口調、雨マーク=暗い口調、曇りマーク=やや暗い口調、雷マーク=怒った口調の情況データに対応している。発言区間31のように1つの発言区間中で口調が変化したとき(情況データが変化したとき)には、発言区間内に複数のマークが付される場合もある。
【0036】
また、無音区間33のマークは、重い沈黙を表すマークである。この情況は、たとえば、その直前の区間32で話者4が怒ったことに対応して会議の出席者全員が沈黙してしまったことによって発生した無音区間であると考えられるため、重い沈黙の情況データ(マーク)が割り当てられる。
【0037】
また、笑い区間35、36および拍手区間37には音符のマークが割り当てられる。これら笑い区間・拍手区間の情況データはその笑い・拍手の大きさを示しており、発言一覧の表示においては、音符の大きさで笑い・拍手の大きさが表現される。
【0038】
図6は、再生装置2の再生動作を示すフローチャートである。この再生動作では、操作者の操作に応じて音声データを再生するとともに、操作者の操作に応じて各区間に割り当てられているマーク(情況データ)を修正する。
【0039】
再生動作がスタートすると、まず図5に示す発言一覧をディスプレイに表示する(S1)。そして指定操作、再生操作、再生停止操作、マーク変更操作、終了操作があるまで待機ルーチン(S2〜S6)で待機する。
【0040】
ここで、指定操作(S2)とは、ディスプレイに表示されている発言一覧(図5参照)のなかから、1つの区間を指定する操作である。この指定操作は、操作者がマウスで所望の区間の表示エリアをクリックすることで行われる。また、再生操作(S3)/再生停止操作(S4)は、音声データの再生の開始/停止を指示する操作であり、ディスプレイに表示される開始ボタン/停止ボタンのマウスクリック、または、キーボードの特定操作(たとえばCtrl+a/Ctrl+zなど)によって行われる。また、マーク変更操作
(S5)は、指定された(選択状態の)区間に割り当てられている情況データ(マーク)を変更する操作であり、ディスプレイに表示されるマーク変更ボタンのマウスクリックまたはキーボードの特定操作(たとえばCtrl+xなど)の操作によってディスプレイにマーク一覧をウィンドウを表示させ、そのウィンドウ内の所望のマークをマウスクリックすることによって行われる。また、終了操作(S6)は、この再生動作の終了を指示する操作であり、発言一覧ウィンドウのクローズボタン「×」のマウスクリックまたはキーボードの特定操作(たとえばCtrl+qなど)によって行われる。
【0041】
指定操作が行われると(S2:Y)
、その指定された区間を選択状態とする(S10)。選択状態とは、再生操作やマーク変更操作が行われたとき、その処理を行う対象となる区間として選択されている状態をいう。このときディスプレイのその区間の表示色を反転させる等、指定された区間が操作者に判るように表示形態を変更する。そして、現在S3の操作で音声データを再生中であるかを判定する(S11)。音声データを再生中であれば(S11:Y)、指定された区間に再生位置をジャンプさせる(S12)。再生中でないときは、そのまま待機ルーチンにもどる。
【0042】
再生操作が行われると(S3:Y)、選択状態の区間があるかを判断する(S13)、選択状態の区間が存在すれば(S13:Y)、その区間から再生をスタートする(S14)。選択状態の区間が存在しない場合には(S13:N)、音声データの先頭から再生をスタートさせる(S15)。なお、音声データの再生中は、その時点の再生位置が属する区間を選択状態とし、再生位置が進行してゆくのに伴って選択状態の区間も進行させてゆく。
【0043】
再生停止操作があった場合には(S4:Y)、再生操作(S3)により、現在再生中であるか否かを判断する(S20)。再生中の場合には(S20:Y)、再生を停止して(S21)待機ルーチンにもどる。なお、このとき、再生を停止した時点での再生位置が属する区間を選択状態にしておく。一方、再生中でなければ(S20:N)何もしないで待機ルーチンへもどる。
【0044】
マーク変更操作(S5)があると、現在選択状態の区間があるかを判断する(S22)、選択状態の区間がない場合には(S22:N)何もしないで待機ルーチンにもどる。一方、選択状態の区間が存在する場合には(S22:Y)、操作にしたがって選択状態の区間の情況データを書き換える(S23)とともに、ディスプレイに表示されている発言一覧(図5参照)中の対応する区間のマークを書き換える(S24)。
【0045】
また、終了操作が行われた場合(S6)には、再生の停止・ディスプレイの消去等の終了処理を行ったのち(S25)、動作を終了する。
【0046】
なお、再生部22に複数の効果音を記憶しておき、再生する区間の情況データに応じた効果音を音声データとともに再生するようにしてもよい。
【0047】
なお、この実施形態では、録音端末1に解析部11を設け、収音されたデジタル音声信号の情況(雰囲気)をリアルタイムに解析しているが、情況の解析は録音後にバッチ処理で行ってもよい。この場合、解析部を再生端末2側に設けてもよい。
【0048】
また、この実施形態では、本発明の録音装置を録音端末1、再生端末2および記憶メディア3からなる議事記録システムで構成しているが、これらを一体に構成した録音装置としてもよい。
【0049】
上記実施形態では、録音装置を会議に適用する例を示しているが、本発明の録音装置は会議以外にも適用することができる。たとえば、屋外録音に適用することも可能である。また、野鳥の鳴き声の録音に適用することも可能であり、鳥の種類ごとに区間を分割すれば利用者が所望の鳴き声を自由に再生することができる。
【図面の簡単な説明】
【0050】
【図1】この発明の実施形態である議事記録システムの構成図である。
【図2】同議事記録システムの機能を示すブロック図である。
【図3】同議事記録システムで記録される議事録データの例を示す図である。
【図4】議事録データの区間分割例を示す図である。
【図5】同議事記録システムの発言一覧の表示例を示す図である。
【図6】同議事記録システムの再生装置の動作を示すフローチャートである。
【符号の説明】
【0051】
1…録音端末
2…再生端末
3…記録メディア
11…解析部


【特許請求の範囲】
【請求項1】
音声データを記憶する音声データ記憶部と、
該音声データを音声の発生源に基づいて複数の区間に区分する区間情報を記憶する区間情報記憶部と、
各区間の音声の情況を分析した情況データを記憶する情況データ記憶部と、
各区間の時間的範囲を時間軸に沿って帯状に表示するとともに、各区間の情況を示す図形を前記帯に重ねて表示する表示部と、
を備えた録音装置。
【請求項2】
前記音声データの波形データに基づき各区間の情況を解析し、解析した各区間の情況を前記情況データ記憶部に書き込む情況解析部を備えた請求項1に記載の録音装置。
【請求項3】
前記情況解析部は、無音の区間の情況を直前の有音区間の情況に基づいて解析する請求項2に記載の録音装置。
【請求項4】
前記音声データをストリーム入力して前記音声データ記憶部に書き込む音声データ入力部を備え、
前記情況解析部は、ストリーム入力される音声データの情況をリアルタイムに解析する請求項2または請求項3に記載の録音装置。
【請求項5】
区間の選択操作、および、選択された区間の情況データの入力操作を受け付け、入力された情況データを前記選択された区間の情況データとして前記情況データ記憶部に書き込む情況データ入力手段をさらに備えた請求項1乃至請求項4のいずれかに記載の録音装置。
【請求項6】
前記音声データ記憶部は、会議における複数の出席者の発言を収音した音声データを記憶し、
前記区間情報記憶部は、前記音声データを各出席者の発言の区間および発言でない区間ごとに区分する区間情報を記憶する
請求項1乃至請求項5のいずれかに記載の録音装置。
【請求項7】
前記区間情報記憶部は、笑い声、拍手、物音または無音の区間を前記発言でない区間として記憶する請求項6に記載の録音装置。
【請求項8】
前記表示部上で、前記区間を指定する操作を受け付ける操作部と、
前記操作部で指定された区間の音声データを再生する再生部と、
を備えた請求項1乃至請求項7のいずれかに記載の録音装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図6】
image rotate

【図5】
image rotate


【公開番号】特開2010−54991(P2010−54991A)
【公開日】平成22年3月11日(2010.3.11)
【国際特許分類】
【出願番号】特願2008−222067(P2008−222067)
【出願日】平成20年8月29日(2008.8.29)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】