説明

音声配信システムおよび音声検索装置

【課題】音声会議の進行中であっても、並行して会議内容を参照することが可能で、利用者が必要とする発話箇所を効率的に特定でき、使い勝手の良い音声検索装置および音声配信システムの提供を図る。
【解決手段】 音声検索装置101は、音声会議装置102で取得している音声から発話の有無を検知する。また、発話取得位置から話者名を検知する。また音声波形から発話された単語を検知する。発話の有無が変化するたび、音声を区分して音声ファイルを生成し、各音声ファイルをネットワーク記憶装置103に分散させて記憶させる。音声検索装置101は各音声ファイルの索引として話者名と発話された単語を記録する。この索引に基づいて検索された音声ファイルを時系列に並べたリストをクライアント104に表示させ、リストから選択された音声ファイルをネットワーク記憶装置103から並行してネットワーク配信する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、会議等での発話を収音した音声から所定の索引のものを検索する音声検索装置、および該音声検索装置で検索した音声をクライアントに配信する音声配信システムに関する。
【背景技術】
【0002】
従来、多地点をネットワークで結んで音声による会議を行う音声会議のための装置が各種考案されている。
【0003】
一般的に音声会議では、会議を行う各地点(会議室等)に音声会議装置が配置され、各音声会議装置に対して一人または複数の会議者が在席する。各音声会議装置は、各会議室内の会議者の音声を収音した音声信号をストリームデータ化し、ネットワークを介して会議相手先の音声会議装置に送信する。また、各音声会議装置は、相手先音声会議装置からのストリームデータを受信し音声化して放音する。
【0004】
このような音声会議装置を用いて多地点音声会議で収音した音声を録音しておき、会議終了後に会議内容の確認を可能にするシステムが特許文献1に開示されている。このシステムでは各地点で収音した音声をそれぞれストリームデータとして記録しながら、一定周期でチャプター情報を生成していく。会議出席者が重要な場面として操作した場合には、操作した出席者名が識別できるようにチャプター情報に索引を付加する。また、発表者を撮影するカメラなどが切り替えられた場合には、カメラの識別名などが識別できるようにチャプター情報に索引を付加する。そして、ストリームデータとチャプター情報とカメラ画像データなどからなるリアルタイム会議データファイルを生成していく。
【0005】
会議終了後には、各地点で収音したストリームデータをまとめて一本のストリームデータを合成する。また、その合成したストリームデータに索引と時刻とを対応付けたインデックスファイルを生成する。その後、カメラ画像データなどにデータ圧縮を施して、ストリームデータ、インデックスファイル、カメラ画像データなどをまとめた議事録ファイルを生成する。その後、クライアントからの配信リクエストがあると、議事録ファイルのインデックスファイルから索引一覧(索引リスト)を生成してクライアントに通知する。いずれかの索引がクライアントから選択されることにより索引に対応する議事録ファイルのデータを読出してクライアントに配信する。
【特許文献1】特開2005−244524号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
このように特許文献1では、会議終了後に一つの議事録ファイルを生成し、ネットワークを介して配信するようにすることで、様々な利用者に対して会議終了後の会議内容の確認を可能にしていた。しかし、特許文献1は会議終了前、すなわち音声会議の進行中に会議内容を確認することを想定したものではなかった。
【0007】
また特許文献1の装置では、会議中の出席者の操作によりキャプチャー情報に索引を付加していたが、この作業は出席者にとって煩雑であった。また、索引を付加する操作の実行は出席者の主観に任されているため、音声配信を受ける利用者が効率的に会議内容を把握できるように索引が付加されるわけではなかった。また、一定周期でチャプター情報を区切るため音声の途中でチャプター情報が区切られることがあり、会議内容をチャプター情報に適切に反映させることが難しかった。また、クライアントに提示する索引、例えば操作者名やカメラ識別名は、音声配信を受けようとする利用者にとって特定のトピックや話者の発話箇所を特定するのに適したもので無く、このような索引を利用者に提示しても、利用者に会議の進行状況や各時点での発話内容を教示することが難しかった。
【0008】
そこで本発明は、音声会議の進行中であっても並行して会議内容を参照することが可能で、利用者が必要とする発話箇所を効率的に特定でき、使い勝手の良い音声検索装置および音声配信システムを提供することを目的とする。
【課題を解決するための手段】
【0009】
(1)この発明の音声配信システムは、音声信号を取得する音声信号取得手段と、該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、前記音声ファイル生成手段により生成した各音声ファイルを記憶する記憶手段と、ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記記憶手段に記憶した音声ファイルを抽出する検索手段と、前記検索手段により検索された前記音声ファイルを前記クライアントに対してネットワーク配信する配信手段と、を備える。
【0010】
この発明によれば、取得した音声信号の音質変化、例えば話者の交代や文章や単語の境界、話題の転換などのたび、取得した音声信号を区分して音声ファイルを生成するので、各音声ファイルは一定の音質条件の下に録音されたものとなる。これにより、各音声ファイルは、配信を受ける利用者にとって発話内容を把握しやすい好ましいものとなる。
また、音声信号の特徴に基づいて音声ファイルの属性を決定し索引としてクライアントに提示するので、音声配信を受けようとする利用者による特定のトピックや話者の発話箇所の特定が容易になり、索引の提示により利用者に会議の進行状況や各時点での発話内容を教示できる。
【0011】
(2)また、この発明の音声配信システムは、前記音声信号取得手段で前記音声信号をストリームデータとして取得し、前記音声ファイル生成手段と、前記索引記録手段と、前記記憶手段とを、前記ストリームデータの取得と並行して逐次実行する。
【0012】
音声ファイルを会議中に逐次生成し、音声ファイルに索引を付け、記憶していくことにより、会議と並行して各音声ファイルを配信することができる。したがって、利用者は会議中であっても並行して過去の発話内容を参照することが可能になる。
【0013】
(3)また、この発明の音声配信システムは、音声信号を取得する音声信号取得手段と、該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、前記音声ファイル生成手段により生成した各音声ファイルを、ネットワークに接続された複数の記憶装置に分散して記憶させるネットワーク記憶手段と、各音声ファイルを記憶した記憶装置のネットワークアドレスを記憶するアドレス記憶手段と、ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記ネットワーク記憶手段に記憶した前記音声ファイルのネットワークアドレスを抽出する検索手段と、前記検索手段により検索された前記音声ファイルのネットワークアドレスを、前記入力を行ったクライアントに通知し、前記ネットワークアドレスから前記クライアントに対して前記音声ファイルをネットワーク配信させる配信手段と、を備える。
【0014】
この発明によれば、複数の音声ファイルをネットワーク上に分散させて記憶させるので、ネットワークの通信負荷を分散できる。複数の音声ファイルを単一の記憶装置に集中して記憶させる場合には通信負荷が集中し、また、その装置の故障により会議情報が失われてしまったり、セキュリティホールにより機密性の高い会議情報が流出したりする恐れがあるが、ネットワーク上に分散して記憶することで、音声ファイルが部分的に損失したり流出したりしても会議情報の機密をある程度、守ることができる。
【0015】
また、各音声ファイルは一定の音質条件の下に録音されたものとなるので、各音声ファイルは、配信を受ける利用者にとって発話内容を把握しやすい好ましいものとなる。また、音声ファイルの属性を索引としてクライアントに提示するので、利用者による特定のトピックや話者の発話箇所の特定が容易になり、索引の提示により利用者に会議の進行状況や各時点での発話内容を教示できる。
【0016】
(4)また、この発明の音声配信システムは、前記音声信号取得手段で前記音声信号をストリームデータとして取得し、前記音声ファイル生成手段と、前記索引記録手段と、前記ネットワーク記憶手段と、前記アドレス記憶手段とを、前記ストリームデータの取得と並行して逐次実行する。
【0017】
音声ファイルを会議中に逐次生成し、音声ファイルに索引を付け、記憶していくことにより、このシステムを用いることで、会議中の音声ファイルの生成と並行して各音声ファイルを配信することができる。したがって、利用者は会議中であっても並行して過去の発話内容を参照することが可能になる。
【0018】
(5)また、この発明の前記音声ファイル生成手段は、前記音声信号の振幅を検出し、少なくとも該音声信号の振幅が閾値を超えて変化する点を前記音質変化点とする。
【0019】
この発明によれば、取得した音声信号の振幅から閾値を超えた変化を検出するので、閾値の設定によって、例えば発話の有無により前記音声を区分できる。その場合、各音声ファイルは時間的に連続した発話を含むものとなり、時間的に連続した発話は一連の文章または単語から構成されるため、各音声ファイルは配信を受ける利用者にとって文章や単語を把握しやすい好ましいものとなる。
【0020】
(6)また、この発明の前記索引記録手段は、前記音声ファイルに含まれる音声の話者を発話取得位置、または個人発話特徴量に基づいて検出し、少なくとも前記話者を前記音声ファイルの属性とする。
【0021】
この発明によれば、取得した音声の話者を、発話取得位置、または個人発話特徴量から特定し、音声ファイルの索引とするので、話者に関する情報の記録を自動化でき、会議出席者の手を煩わせる必要が無くなる。また、音声の配信を受けようとする利用者にその音声ファイルの音声の話者を提示することにより、利用者は特定の話者の発話箇所を効率的に抽出することが可能になる。
【0022】
なお、音声の収音を行う音声会議装置と、音声を検索および配信する音声検索装置から音声配信システムを構築する場合には、音声会議装置により各話者の発話取得位置に関する情報を生成し、音声検索装置はネットワークを介してその情報を受け取るようにすると好適である。また、個人発話特徴量は一般的な音響解析手法により検出することができ、音声検索装置または音声会議装置のいずれで個人発話特徴量を検出してもよい。
【0023】
(7)また、この発明の前記索引記録手段は、前記音声ファイルの音声に含まれる所定の単語を検出し、少なくとも前記単語を前記音声ファイルの属性とする。
【0024】
この発明によれば、所定の単語を検出し、検出した単語を索引として記録するので、音声ファイルに含まれる単語の記録を自動化でき、会議出席者の手を煩わせる必要が無くなる。また、音声の配信を受けようとする利用者に所定の単語を提示することにより、利用者は特定のトピック(話題)を抽出することが可能になる。
なお、音声ファイルから単語を検出する以外にも、音声ファイルを生成する以前の、取得している音声自体から単語を検出するようにしてもよい。
【0025】
(8)また、この発明の音声検索装置は、音声信号を取得する音声信号取得手段と、該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、入力されたキーワードで索引を検索することにより、前記音声ファイルを抽出する検索手段と、を備える。
【0026】
この発明によれば、取得した音声信号の音質変化、例えば話者の交代や文章や単語の境界、話題の転換などのたび、取得した音声信号を区分して音声ファイルを生成するので、各音声ファイルは一定の音質条件の下に録音されたものとなる。これにより、各音声ファイルは、配信を受ける利用者にとって発話内容を把握しやすい好ましいものとなる。
また、音声信号の特徴に基づいて音声ファイルの属性を決定し索引としてクライアントに提示するので、音声を検索しようとする利用者による特定のトピックや話者の発話箇所の特定が容易になり、索引の提示により利用者に会議の進行状況や各時点での発話内容を教示できる。
【0027】
(9)また、この発明の音声検索装置は、前記音声信号取得手段で前記音声信号をストリームデータとして取得し、前記音声ファイル生成手段と、前記索引記録手段とを、前記ストリームデータの取得と並行して逐次実行する。
【0028】
この発明によれば、音声ファイルを会議中に逐次生成し、音声ファイルに索引を付け、記憶していくことにより、会議と並行して各音声ファイルを配信することができる。したがって、利用者は会議中であっても並行して過去の発話内容を参照することが可能になる。
【発明の効果】
【0029】
以上のように本発明によれば、音声検索装置および音声配信システムを利用する利用者が、音声会議の進行中であっても並行して会議内容を参照することが可能になり、音声配信を受ける利用者が、必要とする発話箇所を効率的に特定して、配信を受けることができる。
【発明を実施するための最良の形態】
【0030】
次に、第1の実施形態の音声配信システムを用いて音声会議を行う例について説明する。まず、図1に本実施形態の音声配信システムの概略構成を示す。
図1に示す本実施形態の音声配信システム100は、ネットワーク200に接続された音声検索装置101と音声会議装置102A,102Bと、クライアント104とを備える。
【0031】
この説明では、音声会議装置102A,102Bはそれぞれ離れた地点A、地点Bに配置され、地点Aでは音声会議装置102Aを囲むように話者T1〜T3の3人が在席し、地点Bには音声会議装置102Bを囲むように話者T4〜T6の3人が在席しているものとする。また、話者T3はクライアント104を用いて多地点音声会議における過去の発言を並行して確認する。なお、音声検索装置101は地点Aや地点Bに配置してもよいが、ここではいずれとも異なる地点に配置されているものとする。
【0032】
音声会議装置102A,102Bは地点A,B間で行われる多地点音声会議の進行中、それぞれの地点(AまたはB)で行われる会議の音声をマイクで収音するとともに、それぞれが収音した音声信号をリアルタイム・ストリーミング用のプロトコル形式に変換し、ストリームデータとしてネットワーク200を介して相手先音声会議装置(102Bまたは102A)と音声検索装置101とに順次出力する。また、相手先音声会議装置(102Bまたは102A)から送信されてきたストリームデータを音声信号に変換、再生処理し、スピーカから放音する。
【0033】
音声検索装置101は、音声会議装置102A,102Bから送信されてくるストリームデータそれぞれを音声解析処理することにより、複数の音声ファイルと各音声ファイルの索引とを生成し、生成した音声ファイルを記憶するとともに、生成した索引をインデックスファイルに記録していく。また、クライアント104から送信されてくる検索リクエスト、配信リクエストに対して応答する。
【0034】
クライアント104は、音声検索装置101に対してリモート・プロシージャ・コール(以下、RPC)により音声ファイルの検索を行い、音声配信を受ける。ここでは話者T3が、検索条件をRPC形式の検索リクエストとしてクライアント104に入力し、クライアント104がネットワーク200を介して音声検索装置101に検索リクエストを通知する。音声検索装置101は検索リクエストから検索条件を抽出し、インデックスファイルからこの検索条件に一致する索引の検索を行う。音声検索装置101は、検索条件に一致する索引を有する音声ファイルのリストをクライアント104に通知する。クライアント104は、通知された音声ファイルのリストからいずれかの音声ファイルを選択し、選択した音声ファイルの配信リクエストを音声検索装置101に送信する。配信リクエストを受けた音声検索装置101は、対応する音声ファイルをリアルタイム・ストリーム用のプロトコル形式のストリームデータに変換し、クライアント104に対して配信する。
【0035】
以上のように本実施形態の音声配信システム100では、会議中から音声会議の終了までストリームデータを処理し続ける。したがって、話者T3のようにクライアント104を用いて音声配信を受けようとする利用者は音声検索装置101のインデックスファイルに、すでに索引が記録された音声ファイルであれば、いつでも、たとえ多地点音声会議中であっても並行して音声配信を受けることができる。また、言うまでも無く会議終了後であっても音声配信を受けることができる。
【0036】
以下、本実施形態の音声配信システムを構成する各装置について説明する。
まず、音声検索装置101について図2に基づいて説明する。図2には、音声検索装置101の構成を示している。
【0037】
音声検索装置101はネットワークインターフェイス(I/F)4、記憶部3、制御部1を備える。
【0038】
ネットワークI/F4はネットワーク200に接続していて、ネットワーク200を介して音声会議装置102A,102Bからストリームデータが入力される。入力されたストリームデータは制御部1と記憶部3とに出力する。また、クライアント104からRPC形式の検索リクエストや配信リクエストを受け、制御部1に出力する。
【0039】
記憶部3は、例えばハードディスク等により構成され、音声解析処理を行う前のストリームデータをバッファしていく。バッファサイズは、音声ファイルを抽出するのに十分なサイズに設定される。また、記憶部3はバッファリングされているストリームデータが後述する条件に基づいて制御部1によって順次抽出されてなる音声ファイルを記憶する。また、記憶部3は、各音声ファイルの索引を記録するインデックスファイルや、単語と音声波形が対応付けられ予め登録された単語データベースを記憶する。さらに、記憶部3は方位情報および音声会議装置識別情報の組み合わせと、話者名とが一対一に対応するように予め登録された話者識別テーブルも記憶している。
【0040】
制御部1は、例えば1つの演算用チップと、ROMと、演算用メモリであるRAM等により構成され、音声検索装置101全体の制御を行う。また、ROMに記憶された音声解析プログラム等を実行し、以下に示す音声解析処理をする。
【0041】
(ストリームデータ受信処理)
バッファリングしているストリームデータから音声振幅の検出を行い、所定値以上の音声振幅が検出されたストリームデータから、音声振幅が所定値未満に検出されたストリームデータまでを、1つの音声ファイルとして抽出する。抽出した音声ファイルは記憶部3に記憶する。また、ストリームデータに添付されてくる方位情報、音声会議装置識別情報を基に話者識別テーブルから音声ファイルの話者特定を行い、特定された話者名を記憶部3のインデックスファイルに音声ファイルに対応付けて記録する。また、ストリームデータに添付されてくる収音時間情報からその音声ファイルの収音開始時刻と収音終了時刻を検出し、検出された収音開始時刻と収音終了時刻を記憶部3のインデックスファイルに音声ファイルに対応付けて記録する。
【0042】
(単語解析処理)
バッファリングしているストリームデータから音声波形の検出を行い、記憶部3の単語データベースに登録された単語波形との相関を検知する。相関が検知された場合には、対応する単語を記憶部3のインデックスファイルに音声ファイルに対応付けて記録する。
【0043】
(音声ファイル検索処理)
クライアント104から通知されるRPC形式の検索リクエストから検索条件を抽出し、記憶部3のインデックスファイルから条件に一致する索引を検索する。そして、その索引を持つ音声ファイルのリストをネットワークI/F4を介してクライアント104に通知する。また、クライアント104から通知されるRPC形式の配信リクエストに対して、要求された音声ファイルをリアルタイム・ストリーミング用のプロトコル形式に変換し、ストリームデータとしてネットワーク200を介してクライアント104に配信する。
【0044】
以上のように制御部1は各処理を行う。なお、上記した各処理はソフトウェア処理で無くハードウェア処理に置き換えることも当然可能である。
【0045】
次に、音声会議装置102A,102B(以下、単に音声会議装置102と表記する。)について図3に基づいて説明する。図3には、音声会議装置102の構成を示している。
【0046】
音声会議装置102は、制御部11、操作部12、表示部13、ネットワークI/F14、放音指向性制御部15、スピーカSP1〜SP16、マイクMIC1〜MIC16、収音ビーム生成部16、収音ビーム選択部17、エコーキャンセル回路18を備える。
【0047】
制御部11は、例えば1つの制御用チップと、ROMと、演算用メモリであるRAM等により構成され、ROMに記憶されたプログラムを実行し、音声会議装置102全体を制御する。ネットワークI/F14はネットワーク200に接続していて、ネットワーク200を介して入力された相手先音声会議装置(102Aまたは102B)から受信するストリームデータを、リアルタイム・ストリーム用のプロトコル形式から一般的な音声信号に変換してエコーキャンセル回路18を介して放音指向性制御部15に出力する。この際、制御部11は、ストリームデータに添付された方位情報を取得して、放音指向性制御部15に対して放音制御を行う。
【0048】
放音指向性制御部15はD/Aコンバータやアンプを含み、スピーカSP1〜SP16に対する放音音声信号を生成する。スピーカSP1〜SP16に対する放音音声信号は、遅延制御や振幅制御やD/A変換等の信号制御処理を行い、スピーカSP1〜SP16に与える。スピーカSP1〜SP16は、放音音声信号を音声変換して放音する。これにより、自装置に同席する会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
【0049】
また、マイクMIC1〜MIC16は会議者の発声音を含む自装置周囲の音を収音して電気信号変換し、収音音声信号を生成する。
【0050】
収音ビーム生成部16は、マイクMIC1〜MIC16の収音音声信号に対して振幅制御やA/D変換や遅延処理等を行い、所定方位に強い指向性を有する複数の収音ビーム音声信号を生成する。各収音ビーム音声信号はそれぞれ異なる方位に強い指向性を有するように設定する。図1の音声会議装置102A,102Bであれば、方位Dir1,Dir2,Dir3などに設定される。
【0051】
収音ビーム選択部17は、各収音ビーム音声信号の信号強度を比較して、音声の到来方位に近い指向性を持つ収音ビーム音声信号を選択し、収音ビーム音声信号としてエコーキャンセル回路18に出力する。また、収音ビーム選択部17は、選択した収音ビーム音声信号に対応する方位(Dir1〜3)を方位情報として制御部11に与える。なお、複数の話者が同時に発話した場合には、複数の収音ビーム音声信号を選択し、それぞれをエコーキャンセル回路18に出力する。
【0052】
エコーキャンセル回路18は、スピーカSPからマイクMICへの回り込み音を抑圧する。
【0053】
ネットワークI/F14は、エコーキャンセル回路18からの収音ビーム音声信号をリアルタイム・ストリーム用のプロトコル形式のストリームデータに変換し、順次ネットワーク200に出力する。また、ネットワークI/F14は制御部11から方位情報と収音時間情報と自装置の識別情報を得て、送信するストリームデータに添付する。なお、複数の話者が同時に発話した場合には、複数の収音ビーム音声信号を合成し、出力する。
【0054】
以上の各装置により本実施形態の音声配信システムは構成される。なお、クライアント104は、一般的な通信機能とブラウズ機能、音声再生機能を持った端末であり、具体的にはPC端末や携帯電話端末やハンドヘルド型の専用端末などである。クライアント104は、音声検索装置101に対してRPC形式の検索リクエストを通知し、音声検索装置101から通知される音声ファイルのリストに基づいて音声ファイルの配信リクエストを音声検索装置101に通知する、そして音声検索装置101からのストリームデータの配信を受ける。
【0055】
なお、ここでは複数の話者が同時に発話した場合には、複数の収音ビーム音声信号を合成することにしたが、それ以外に、複数の収音ビーム音声信号それぞれをストリームデータとして独立に出力するようにしても良い。その場合には、音声検索装置では、同時に収音されたストリームデータそれぞれを独立した音声ファイルとして記憶するようにすると好適である。
【0056】
以下、本実施形態の音声検索装置101での処理動作について説明する。
まず、音声検索装置101が音声会議装置102A,102Bからストリームデータを受信する場合の処理動作フローを図4に基づいて説明する。
【0057】
(S1)音声検索装置101は、まず、受信してバッファリングしているストリームデータから音声振幅を検出する。所定値以上の音声振幅が検出されるまで、音声振幅の検出を続ける。
(S2)音声振幅が所定値以上であればストリームデータに特定の話者(複数の話者も含む)の発話が含まれているため、上記ストリームデータに添付されてくる方位情報と音声会議装置識別情報とから予め登録された話者名を特定する。
(S3)また、上記収音時刻情報と音声会議装置識別情報と上記話者名とを記憶部3のインデックスファイルに記録する。
(S4,S5)また、ストリームデータの音声振幅が所定値未満であるかの判定を行い、所定値未満になると、音声振幅が所定値以上になってから所定値未満になるまでのバッファリングしているストリームデータを読み出し、音声ファイルとして記憶部3に記憶する。
(S6)次に、後述する単語解析処理を行う。
(S7)会議全体の録音が終了したかの判定を行い、終了していなければ再び上記処理を繰り返し、終了していればストリームデータの受信を終了する。
【0058】
このような処理により、ストリームデータに基づく音声ファイルが会議中に順次生成されていく。したがって、この会議中に生成する音声ファイルを配信することで、会議中であっても利用者が並行して過去の発話内容を参照することが可能になる。
ここでは音声の有無を検知することで文章や単語の区切りごとに音声ファイルを生成する例を示したが、これにより各音声ファイルは一定の時間的に連続した一連の文章または単語を録音したものとなる。したがって、各音声ファイルは、配信を受ける利用者にとって文章や単語を把握しやすい好ましいものとなる。
なお、音声が無い状態が検知される時間を考慮して、一定時間、無音声状態が検出されることを条件に音声ファイルを区切るようにすれば、話者の息継ぎなど極めて短い時間の無音声状態により音声ファイルが区切られることが無くなる。この時間は必要に応じて設定するとよい。
また、音声の有無のみにより各音声ファイルを区切る以外にも、例えば、音声の有無に加えて話者の交代や、発話されているトピックの転換を、話者検出や単語検出などの結果に基づいて検出し、それらが検出された場合にも各音声ファイルを区切るようにしても良い。
【0059】
また、ここでは索引として話者名を自動化して検出する例を示したが、これにより話者名の記録に会議出席者の手を煩わせる必要が無くなり、音声の配信を受けようとする利用者に話者名を索引として提示することで、利用者が特定の話者の発話箇所を効率的に抽出することが可能になる。
なお、ここでは話者特定に音声会議装置102で検出した方位情報を用いたが、それ以外にも個人発話特徴量に基づいて話者を特定しても良い。また、音声会議装置により方位情報を検出するのではなく、音声検索装置により方位情報を検出するようにしても良い。
【0060】
また、ここでは、単語解析処理を音声ファイルの記録が終了するたびに行う例を示したが、この場合には、ストリームデータに音声が含まれていない時間に各処理が実行できることが条件となる。仮に処理の負荷が大きく、処理時間が掛かる場合には、各音声ファイルの処理を待ち行列に並べておき、無音声時に順に実行するようにするとよい。また単語解析処理を音声ファイルの記録と並列に実行してもよい。
また、単語解析処理は必ずしも行う必要は無く、また、行う場合であっても音声会議と並行する必要も無い、仮に音声会議の終了後に実行するようにしても、利用者は他の索引、例えば話者名などを用いて音声会議に並行して音声ファイルの検索を行うことができる。
【0061】
次に、音声検索装置101がストリームデータから所定の単語に対応する波形を検出する単語解析処理の動作フローを図5に基づいて説明する。
【0062】
(S11)音声検索装置101は、まず、制御部1により記憶部3に記録されている音声ファイルから音声波形の読出を行う。
(S12)次に、単語データベースに登録された単語波形を全て読み出すまで、一つ一つ順番に読み出していく。
(S13)単語波形を読み出すたびに、その単語波形と音声ファイルから読み出した音声波形との相関を調べる。
(S14)単語波形と音声波形が略一致すれば、その単語波形に対応する単語を記憶部3のインデックスファイルに音声ファイルに対応付けて記録し、次の単語波形の読み出しを行い、単語データベースに登録された単語波形の読出が全て終了すれば、音声解析処理を終了する。
【0063】
このように音声解析処理を行うことで、各音声ファイルの発話に含まれる単語がインデックスファイルに索引として登録される。これにより、音声配信を受ける利用者が任意の単語で検索を行い、特定のトピックや話者の発話を抽出することが可能になる。
なお、記憶部3の単語データベースに可能な限り多くの単語を登録しておくことで、音声配信を受ける利用者はトピックの特定が高精度に行える。一方、必要と思われる最小限の単語を登録しておくことで、システムの単語解析処理の負荷を低減することができる。
【0064】
次に、クライアント104から音声検索装置101にRPC形式の検索リクエストと配信リクエストが送信される場合の音声検索装置101の音声ファイル検索処理の動作フローを図6に基づいて説明する。
【0065】
(S21)音声検索装置101は、ネットワークI/F4を介してクライアント104からのRPC形式の配信リクエストを受信したか判別する。
(S22)また、ネットワークI/F4を介してクライアント104からのRPC形式の検索リクエストを受信したか判別する。
(S23)検索リクエストを受信した場合には、その検索リクエストから、利用者が入力した検索条件を抽出する。
(S24)次に、インデックスファイルから各音声ファイルの索引を読み出し、検索条件に該当するものを検索する。
(S25)検索条件に該当する索引があれば、当該索引の音声ファイルの識別名を送信リストに追加して記載する。
(S26)以上の処理を繰り返し、インデックスファイルからの全ての音声ファイルの索引の読出しが終了すれば、送信リストをRPCレスポンス形式に変換する。
(S27)そして、クライアント104に対して上記RPCレスポンス形式の送信リストを送信し、再びクライアント104から配信リクエストまたは検索リクエストの受信をするまで待機する。
(S31)配信リクエストを受信した場合には、その配信リクエストに対応する音声ファイルを読み出す。
(S32)次に、読み出した音声ファイルを、リアルタイム・ストリーム用のプロトコル形式のストリームデータに変換する。
(S33)次に、ストリームデータをネットワークI/F4を介してクライアント104に配信し、再びクライアント104から配信リクエストまたは検索リクエストの受信をするまで待機する。
【0066】
以上のような処理により、利用者が任意の単語で検索を行い、特定のトピックや話者の発話を抽出することが容易になる。なお、クライアント104上では、受け取った送信リストを、各音声ファイルを収音時刻で並べて時系列に表示し、話者名とともに表示するようにすれば、利用者は一目で会議の流れを把握でき好適である。
【0067】
次に、第2の実施形態の音声配信システムを用いて音声会議を行う例について説明する。図7に本実施形態の音声配信システムの概略構成を示す。
図7に示す本実施形態の音声配信システム100は、ネットワーク200に接続された音声検索装置101と音声会議装置102A,102Bとネットワーク記憶装置103A,103Bと、クライアント104とを備える。
【0068】
本実施形態の音声配信システム100は、音声検索装置101には音声ファイルを記憶せず、ネットワーク記憶装置103A,103Bに音声ファイルを記憶させ、その音声ファイルのストリームデータをネットワーク記憶装置103A,103Bからクライアント104に配信する点で第1の実施形態と相違する。
【0069】
ここで音声検索装置101が、第1の実施形態の音声検索装置で示した音声解析処理に加えて、ネットワーク記憶処理を行う。ネットワーク記憶処理の動作フローを図8に示す。
【0070】
(S41)音声検索装置101は、音声ファイルを生成するたびに、音声ファイルを記憶させるネットワーク記憶装置(103Aまたは103B)を選定する。ここでは、ネットワーク記憶装置103Aとネットワーク記憶装置103Bに交互に選択する。
(S42)次に、生成した音声ファイルをネットワークI/F4を介して、選定されたネットワーク記憶装置に送信する。
(S43)次に、選定されたネットワーク記憶装置から、音声ファイルの記憶先のネットワークアドレスを受信する。
(S44)次に、受信したネットワークアドレスを記憶部3のインデックスファイルに記録する。
(S45)次に、送信した音声ファイルを記憶部3から消去する。
【0071】
音声検索装置101は、以上のようなネットワーク記憶処理を行う。
【0072】
このネットワーク記憶処理の後、音声検索装置101は、クライアント104から通知されるRPC形式の検索リクエストから検索条件を抽出し、記憶部3のインデックスファイルに記録している索引からこの検索条件に一致するものの検索を行う。そして、検索条件に一致する索引を有する音声ファイルのネットワークアドレスを送信リストとして記述し、送信リストをネットワークI/F4を介してクライアント104に通知する。
【0073】
ネットワーク記憶装置103は、音声検索装置101から送信されてきた音声ファイルを記憶し、その記憶先のネットワークアドレスを音声検索装置101に送信する。また、クライアント104から送信されてくる配信リクエストに対して、そのネットワークアドレスに記憶している音声ファイルをリアルタイム・ストリーム用のプロトコル形式のストリームデータに変換してクライアント104に対して配信する。
【0074】
クライアント104は、リモート・プロシージャ・コール(以下、RPC)により音声ファイルの検索を行う。音声検索装置101に対してRPC形式の検索リクエストを送信し、ネットワークアドレスが記載された送信リストを受け取る。また、通知された送信リストのネットワークアドレスからいずれかを選択し、選択されたネットワークアドレスに対応するネットワーク記憶装置103Aまたはネットワーク記憶装置103Bに音声ファイルの配信リクエストを送信し、その音声ファイルのストリームデータの配信を受ける。
【0075】
以上のように本実施形態の音声配信システム100では、音声ファイルをネットワーク記憶装置103A,103Bに分散して記憶させる。したがって、通信負荷を分散できる。このようにして音声検索装置101やネットワーク記憶装置103A,103Bなどの故障により会議情報が失われてしまったり、セキュリティホールにより機密性の高い会議情報が流出したりすることを低減できる。音声ファイルが部分的に損失したり流出したりしても会議情報の機密をある程度、守ることができる。
【0076】
なお、ネットワーク記憶装置103A,103Bには、音声検索装置101から交互に音声ファイルを送信するのではなく、両方に音声ファイルを記憶させバックアップをとるように構成しても良い。
【図面の簡単な説明】
【0077】
【図1】第1の実施形態の音声配信システムの構成を示すブロック図である。
【図2】同実施形態の音声検索装置の構成図である。
【図3】同実施形態の音声会議装置の構成図である。
【図4】同実施形態の音声検索装置のストリームデータ受信時の処理のフローチャートである。
【図5】同実施形態の音声検索装置の単語検出処理のフローチャートである。
【図6】同実施形態の音声検索装置の音声ファイル検索処理のフローチャートである。
【図7】第2の実施形態の音声配信システムの構成を示すブロック図である。
【図8】同実施形態の音声検索装置のネットワーク記憶処理のフローチャートである。
【符号の説明】
【0078】
1,11−制御部
3−記憶部
4,14−ネットワークインターフェイス
12−操作部
13−表示部
15−放音指向性制御部
16−収音ビーム生成部
17−収音ビーム選択部
18−エコーキャンセル回路
100−音声配信システム
101−音声検索装置
102A,102B−音声会議装置
103A,103B−ネットワーク記憶装置
104−クライアント
200−ネットワーク
MIC−マイク
SP−スピーカ

【特許請求の範囲】
【請求項1】
音声信号を取得する音声信号取得手段と、
該音声信号取得手段により取得した前記音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、
前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、
前記音声ファイル生成手段により生成した各音声ファイルを記憶する記憶手段と、
ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記記憶手段に記憶した音声ファイルを抽出する検索手段と、
前記検索手段により検索された前記音声ファイルを前記クライアントに対してネットワーク配信する配信手段と、を備える音声配信システム。
【請求項2】
前記音声信号取得手段は前記音声信号をストリームデータとして取得し、
前記音声ファイル生成手段と、前記索引記録手段と、前記記憶手段とを、前記ストリームデータの取得と並行して逐次実行する請求項1に記載の音声配信システム。
【請求項3】
音声信号を取得する音声信号取得手段と、
該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、
前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、
前記音声ファイル生成手段により生成した各音声ファイルを、ネットワークに接続された複数の記憶装置に分散して記憶させるネットワーク記憶手段と、
各音声ファイルを記憶した記憶装置のネットワークアドレスを記憶するアドレス記憶手段と、
ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記記憶手段に記憶した前記音声ファイルのネットワークアドレスを抽出する検索手段と、
前記検索手段により検索された前記音声ファイルのネットワークアドレスを、前記入力を行ったクライアントに通知し、前記ネットワークアドレスから前記クライアントに対して前記音声ファイルをネットワーク配信させる配信手段と、を備える音声配信システム。
【請求項4】
前記音声信号取得手段は前記音声信号をストリームデータとして取得し、
前記音声ファイル生成手段と、前記索引記録手段と、前記ネットワーク記憶手段と、前記アドレス記憶手段とを、前記ストリームデータの取得と並行して逐次実行する請求項3に記載の音声配信システム。
【請求項5】
前記音声ファイル生成手段は、前記音声信号の振幅を検出し、少なくとも該音声信号の振幅が閾値を超えて変化する点を前記音質変化点とする請求項1〜4のいずれかに記載の音声配信システム。
【請求項6】
前記索引記録手段は、前記音声ファイルに含まれる音声の話者を発話取得位置、または個人発話特徴量に基づいて検出し、少なくとも前記話者を前記音声ファイルの属性とする請求項1〜5のいずれかに記載の音声配信システム。
【請求項7】
前記索引記録手段は、前記音声ファイルの音声に含まれる所定の単語を検出し、少なくとも前記単語を前記音声ファイルの属性とする請求項1〜6のいずれかに記載の音声配信システム。
【請求項8】
音声信号を取得する音声信号取得手段と、
該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、
前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、
入力されたキーワードで索引を検索することにより、前記音声ファイルを抽出する検索手段と、を備える音声検索装置。
【請求項9】
前記音声信号取得手段は前記音声信号をストリームデータとして取得し、
前記音声ファイル生成手段と、前記索引記録手段とを、前記ストリームデータの取得と並行して逐次実行する請求項7に記載の音声検索装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2008−59077(P2008−59077A)
【公開日】平成20年3月13日(2008.3.13)
【国際特許分類】
【出願番号】特願2006−232552(P2006−232552)
【出願日】平成18年8月29日(2006.8.29)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】