音声配信システムおよび音声検索装置

【課題】音声会議の進行中であっても、並行して会議内容を参照することが可能で、利用者が必要とする発話箇所を効率的に特定でき、使い勝手の良い音声検索装置および音声配信システムの提供を図る。
【解決手段】音声検索装置１０１は、音声会議装置１０２で取得している音声から発話の有無を検知する。また、発話取得位置から話者名を検知する。また音声波形から発話された単語を検知する。発話の有無が変化するたび、音声を区分して音声ファイルを生成し、各音声ファイルをネットワーク記憶装置１０３に分散させて記憶させる。音声検索装置１０１は各音声ファイルの索引として話者名と発話された単語を記録する。この索引に基づいて検索された音声ファイルを時系列に並べたリストをクライアント１０４に表示させ、リストから選択された音声ファイルをネットワーク記憶装置１０３から並行してネットワーク配信する。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、会議等での発話を収音した音声から所定の索引のものを検索する音声検索装置、および該音声検索装置で検索した音声をクライアントに配信する音声配信システムに関する。
【背景技術】
【０００２】
従来、多地点をネットワークで結んで音声による会議を行う音声会議のための装置が各種考案されている。
【０００３】
一般的に音声会議では、会議を行う各地点（会議室等）に音声会議装置が配置され、各音声会議装置に対して一人または複数の会議者が在席する。各音声会議装置は、各会議室内の会議者の音声を収音した音声信号をストリームデータ化し、ネットワークを介して会議相手先の音声会議装置に送信する。また、各音声会議装置は、相手先音声会議装置からのストリームデータを受信し音声化して放音する。
【０００４】
このような音声会議装置を用いて多地点音声会議で収音した音声を録音しておき、会議終了後に会議内容の確認を可能にするシステムが特許文献１に開示されている。このシステムでは各地点で収音した音声をそれぞれストリームデータとして記録しながら、一定周期でチャプター情報を生成していく。会議出席者が重要な場面として操作した場合には、操作した出席者名が識別できるようにチャプター情報に索引を付加する。また、発表者を撮影するカメラなどが切り替えられた場合には、カメラの識別名などが識別できるようにチャプター情報に索引を付加する。そして、ストリームデータとチャプター情報とカメラ画像データなどからなるリアルタイム会議データファイルを生成していく。
【０００５】
会議終了後には、各地点で収音したストリームデータをまとめて一本のストリームデータを合成する。また、その合成したストリームデータに索引と時刻とを対応付けたインデックスファイルを生成する。その後、カメラ画像データなどにデータ圧縮を施して、ストリームデータ、インデックスファイル、カメラ画像データなどをまとめた議事録ファイルを生成する。その後、クライアントからの配信リクエストがあると、議事録ファイルのインデックスファイルから索引一覧（索引リスト）を生成してクライアントに通知する。いずれかの索引がクライアントから選択されることにより索引に対応する議事録ファイルのデータを読出してクライアントに配信する。
【特許文献１】特開２００５−２４４５２４号公報
【発明の開示】
【発明が解決しようとする課題】
【０００６】
このように特許文献１では、会議終了後に一つの議事録ファイルを生成し、ネットワークを介して配信するようにすることで、様々な利用者に対して会議終了後の会議内容の確認を可能にしていた。しかし、特許文献１は会議終了前、すなわち音声会議の進行中に会議内容を確認することを想定したものではなかった。
【０００７】
また特許文献１の装置では、会議中の出席者の操作によりキャプチャー情報に索引を付加していたが、この作業は出席者にとって煩雑であった。また、索引を付加する操作の実行は出席者の主観に任されているため、音声配信を受ける利用者が効率的に会議内容を把握できるように索引が付加されるわけではなかった。また、一定周期でチャプター情報を区切るため音声の途中でチャプター情報が区切られることがあり、会議内容をチャプター情報に適切に反映させることが難しかった。また、クライアントに提示する索引、例えば操作者名やカメラ識別名は、音声配信を受けようとする利用者にとって特定のトピックや話者の発話箇所を特定するのに適したもので無く、このような索引を利用者に提示しても、利用者に会議の進行状況や各時点での発話内容を教示することが難しかった。
【０００８】
そこで本発明は、音声会議の進行中であっても並行して会議内容を参照することが可能で、利用者が必要とする発話箇所を効率的に特定でき、使い勝手の良い音声検索装置および音声配信システムを提供することを目的とする。
【課題を解決するための手段】
【０００９】
（１）この発明の音声配信システムは、音声信号を取得する音声信号取得手段と、該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、前記音声ファイル生成手段により生成した各音声ファイルを記憶する記憶手段と、ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記記憶手段に記憶した音声ファイルを抽出する検索手段と、前記検索手段により検索された前記音声ファイルを前記クライアントに対してネットワーク配信する配信手段と、を備える。
【００１０】
この発明によれば、取得した音声信号の音質変化、例えば話者の交代や文章や単語の境界、話題の転換などのたび、取得した音声信号を区分して音声ファイルを生成するので、各音声ファイルは一定の音質条件の下に録音されたものとなる。これにより、各音声ファイルは、配信を受ける利用者にとって発話内容を把握しやすい好ましいものとなる。
また、音声信号の特徴に基づいて音声ファイルの属性を決定し索引としてクライアントに提示するので、音声配信を受けようとする利用者による特定のトピックや話者の発話箇所の特定が容易になり、索引の提示により利用者に会議の進行状況や各時点での発話内容を教示できる。
【００１１】
（２）また、この発明の音声配信システムは、前記音声信号取得手段で前記音声信号をストリームデータとして取得し、前記音声ファイル生成手段と、前記索引記録手段と、前記記憶手段とを、前記ストリームデータの取得と並行して逐次実行する。
【００１２】
音声ファイルを会議中に逐次生成し、音声ファイルに索引を付け、記憶していくことにより、会議と並行して各音声ファイルを配信することができる。したがって、利用者は会議中であっても並行して過去の発話内容を参照することが可能になる。
【００１３】
（３）また、この発明の音声配信システムは、音声信号を取得する音声信号取得手段と、該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、前記音声ファイル生成手段により生成した各音声ファイルを、ネットワークに接続された複数の記憶装置に分散して記憶させるネットワーク記憶手段と、各音声ファイルを記憶した記憶装置のネットワークアドレスを記憶するアドレス記憶手段と、ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記ネットワーク記憶手段に記憶した前記音声ファイルのネットワークアドレスを抽出する検索手段と、前記検索手段により検索された前記音声ファイルのネットワークアドレスを、前記入力を行ったクライアントに通知し、前記ネットワークアドレスから前記クライアントに対して前記音声ファイルをネットワーク配信させる配信手段と、を備える。
【００１４】
この発明によれば、複数の音声ファイルをネットワーク上に分散させて記憶させるので、ネットワークの通信負荷を分散できる。複数の音声ファイルを単一の記憶装置に集中して記憶させる場合には通信負荷が集中し、また、その装置の故障により会議情報が失われてしまったり、セキュリティホールにより機密性の高い会議情報が流出したりする恐れがあるが、ネットワーク上に分散して記憶することで、音声ファイルが部分的に損失したり流出したりしても会議情報の機密をある程度、守ることができる。
【００１５】
また、各音声ファイルは一定の音質条件の下に録音されたものとなるので、各音声ファイルは、配信を受ける利用者にとって発話内容を把握しやすい好ましいものとなる。また、音声ファイルの属性を索引としてクライアントに提示するので、利用者による特定のトピックや話者の発話箇所の特定が容易になり、索引の提示により利用者に会議の進行状況や各時点での発話内容を教示できる。
【００１６】
（４）また、この発明の音声配信システムは、前記音声信号取得手段で前記音声信号をストリームデータとして取得し、前記音声ファイル生成手段と、前記索引記録手段と、前記ネットワーク記憶手段と、前記アドレス記憶手段とを、前記ストリームデータの取得と並行して逐次実行する。
【００１７】
音声ファイルを会議中に逐次生成し、音声ファイルに索引を付け、記憶していくことにより、このシステムを用いることで、会議中の音声ファイルの生成と並行して各音声ファイルを配信することができる。したがって、利用者は会議中であっても並行して過去の発話内容を参照することが可能になる。
【００１８】
（５）また、この発明の前記音声ファイル生成手段は、前記音声信号の振幅を検出し、少なくとも該音声信号の振幅が閾値を超えて変化する点を前記音質変化点とする。
【００１９】
この発明によれば、取得した音声信号の振幅から閾値を超えた変化を検出するので、閾値の設定によって、例えば発話の有無により前記音声を区分できる。その場合、各音声ファイルは時間的に連続した発話を含むものとなり、時間的に連続した発話は一連の文章または単語から構成されるため、各音声ファイルは配信を受ける利用者にとって文章や単語を把握しやすい好ましいものとなる。
【００２０】
（６）また、この発明の前記索引記録手段は、前記音声ファイルに含まれる音声の話者を発話取得位置、または個人発話特徴量に基づいて検出し、少なくとも前記話者を前記音声ファイルの属性とする。
【００２１】
この発明によれば、取得した音声の話者を、発話取得位置、または個人発話特徴量から特定し、音声ファイルの索引とするので、話者に関する情報の記録を自動化でき、会議出席者の手を煩わせる必要が無くなる。また、音声の配信を受けようとする利用者にその音声ファイルの音声の話者を提示することにより、利用者は特定の話者の発話箇所を効率的に抽出することが可能になる。
【００２２】
なお、音声の収音を行う音声会議装置と、音声を検索および配信する音声検索装置から音声配信システムを構築する場合には、音声会議装置により各話者の発話取得位置に関する情報を生成し、音声検索装置はネットワークを介してその情報を受け取るようにすると好適である。また、個人発話特徴量は一般的な音響解析手法により検出することができ、音声検索装置または音声会議装置のいずれで個人発話特徴量を検出してもよい。
【００２３】
（７）また、この発明の前記索引記録手段は、前記音声ファイルの音声に含まれる所定の単語を検出し、少なくとも前記単語を前記音声ファイルの属性とする。
【００２４】
この発明によれば、所定の単語を検出し、検出した単語を索引として記録するので、音声ファイルに含まれる単語の記録を自動化でき、会議出席者の手を煩わせる必要が無くなる。また、音声の配信を受けようとする利用者に所定の単語を提示することにより、利用者は特定のトピック（話題）を抽出することが可能になる。
なお、音声ファイルから単語を検出する以外にも、音声ファイルを生成する以前の、取得している音声自体から単語を検出するようにしてもよい。
【００２５】
（８）また、この発明の音声検索装置は、音声信号を取得する音声信号取得手段と、該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、入力されたキーワードで索引を検索することにより、前記音声ファイルを抽出する検索手段と、を備える。
【００２６】
この発明によれば、取得した音声信号の音質変化、例えば話者の交代や文章や単語の境界、話題の転換などのたび、取得した音声信号を区分して音声ファイルを生成するので、各音声ファイルは一定の音質条件の下に録音されたものとなる。これにより、各音声ファイルは、配信を受ける利用者にとって発話内容を把握しやすい好ましいものとなる。
また、音声信号の特徴に基づいて音声ファイルの属性を決定し索引としてクライアントに提示するので、音声を検索しようとする利用者による特定のトピックや話者の発話箇所の特定が容易になり、索引の提示により利用者に会議の進行状況や各時点での発話内容を教示できる。
【００２７】
（９）また、この発明の音声検索装置は、前記音声信号取得手段で前記音声信号をストリームデータとして取得し、前記音声ファイル生成手段と、前記索引記録手段とを、前記ストリームデータの取得と並行して逐次実行する。
【００２８】
この発明によれば、音声ファイルを会議中に逐次生成し、音声ファイルに索引を付け、記憶していくことにより、会議と並行して各音声ファイルを配信することができる。したがって、利用者は会議中であっても並行して過去の発話内容を参照することが可能になる。
【発明の効果】
【００２９】
以上のように本発明によれば、音声検索装置および音声配信システムを利用する利用者が、音声会議の進行中であっても並行して会議内容を参照することが可能になり、音声配信を受ける利用者が、必要とする発話箇所を効率的に特定して、配信を受けることができる。
【発明を実施するための最良の形態】
【００３０】
次に、第１の実施形態の音声配信システムを用いて音声会議を行う例について説明する。まず、図１に本実施形態の音声配信システムの概略構成を示す。
図１に示す本実施形態の音声配信システム１００は、ネットワーク２００に接続された音声検索装置１０１と音声会議装置１０２Ａ，１０２Ｂと、クライアント１０４とを備える。
【００３１】
この説明では、音声会議装置１０２Ａ，１０２Ｂはそれぞれ離れた地点Ａ、地点Ｂに配置され、地点Ａでは音声会議装置１０２Ａを囲むように話者Ｔ１〜Ｔ３の３人が在席し、地点Ｂには音声会議装置１０２Ｂを囲むように話者Ｔ４〜Ｔ６の３人が在席しているものとする。また、話者Ｔ３はクライアント１０４を用いて多地点音声会議における過去の発言を並行して確認する。なお、音声検索装置１０１は地点Ａや地点Ｂに配置してもよいが、ここではいずれとも異なる地点に配置されているものとする。
【００３２】
音声会議装置１０２Ａ，１０２Ｂは地点Ａ，Ｂ間で行われる多地点音声会議の進行中、それぞれの地点（ＡまたはＢ）で行われる会議の音声をマイクで収音するとともに、それぞれが収音した音声信号をリアルタイム・ストリーミング用のプロトコル形式に変換し、ストリームデータとしてネットワーク２００を介して相手先音声会議装置（１０２Ｂまたは１０２Ａ）と音声検索装置１０１とに順次出力する。また、相手先音声会議装置（１０２Ｂまたは１０２Ａ）から送信されてきたストリームデータを音声信号に変換、再生処理し、スピーカから放音する。
【００３３】
音声検索装置１０１は、音声会議装置１０２Ａ，１０２Ｂから送信されてくるストリームデータそれぞれを音声解析処理することにより、複数の音声ファイルと各音声ファイルの索引とを生成し、生成した音声ファイルを記憶するとともに、生成した索引をインデックスファイルに記録していく。また、クライアント１０４から送信されてくる検索リクエスト、配信リクエストに対して応答する。
【００３４】
クライアント１０４は、音声検索装置１０１に対してリモート・プロシージャ・コール（以下、ＲＰＣ）により音声ファイルの検索を行い、音声配信を受ける。ここでは話者Ｔ３が、検索条件をＲＰＣ形式の検索リクエストとしてクライアント１０４に入力し、クライアント１０４がネットワーク２００を介して音声検索装置１０１に検索リクエストを通知する。音声検索装置１０１は検索リクエストから検索条件を抽出し、インデックスファイルからこの検索条件に一致する索引の検索を行う。音声検索装置１０１は、検索条件に一致する索引を有する音声ファイルのリストをクライアント１０４に通知する。クライアント１０４は、通知された音声ファイルのリストからいずれかの音声ファイルを選択し、選択した音声ファイルの配信リクエストを音声検索装置１０１に送信する。配信リクエストを受けた音声検索装置１０１は、対応する音声ファイルをリアルタイム・ストリーム用のプロトコル形式のストリームデータに変換し、クライアント１０４に対して配信する。
【００３５】
以上のように本実施形態の音声配信システム１００では、会議中から音声会議の終了までストリームデータを処理し続ける。したがって、話者Ｔ３のようにクライアント１０４を用いて音声配信を受けようとする利用者は音声検索装置１０１のインデックスファイルに、すでに索引が記録された音声ファイルであれば、いつでも、たとえ多地点音声会議中であっても並行して音声配信を受けることができる。また、言うまでも無く会議終了後であっても音声配信を受けることができる。
【００３６】
以下、本実施形態の音声配信システムを構成する各装置について説明する。
まず、音声検索装置１０１について図２に基づいて説明する。図２には、音声検索装置１０１の構成を示している。
【００３７】
音声検索装置１０１はネットワークインターフェイス（Ｉ／Ｆ）４、記憶部３、制御部１を備える。
【００３８】
ネットワークＩ／Ｆ４はネットワーク２００に接続していて、ネットワーク２００を介して音声会議装置１０２Ａ，１０２Ｂからストリームデータが入力される。入力されたストリームデータは制御部１と記憶部３とに出力する。また、クライアント１０４からＲＰＣ形式の検索リクエストや配信リクエストを受け、制御部１に出力する。
【００３９】
記憶部３は、例えばハードディスク等により構成され、音声解析処理を行う前のストリームデータをバッファしていく。バッファサイズは、音声ファイルを抽出するのに十分なサイズに設定される。また、記憶部３はバッファリングされているストリームデータが後述する条件に基づいて制御部１によって順次抽出されてなる音声ファイルを記憶する。また、記憶部３は、各音声ファイルの索引を記録するインデックスファイルや、単語と音声波形が対応付けられ予め登録された単語データベースを記憶する。さらに、記憶部３は方位情報および音声会議装置識別情報の組み合わせと、話者名とが一対一に対応するように予め登録された話者識別テーブルも記憶している。
【００４０】
制御部１は、例えば１つの演算用チップと、ＲＯＭと、演算用メモリであるＲＡＭ等により構成され、音声検索装置１０１全体の制御を行う。また、ＲＯＭに記憶された音声解析プログラム等を実行し、以下に示す音声解析処理をする。
【００４１】
（ストリームデータ受信処理）
バッファリングしているストリームデータから音声振幅の検出を行い、所定値以上の音声振幅が検出されたストリームデータから、音声振幅が所定値未満に検出されたストリームデータまでを、１つの音声ファイルとして抽出する。抽出した音声ファイルは記憶部３に記憶する。また、ストリームデータに添付されてくる方位情報、音声会議装置識別情報を基に話者識別テーブルから音声ファイルの話者特定を行い、特定された話者名を記憶部３のインデックスファイルに音声ファイルに対応付けて記録する。また、ストリームデータに添付されてくる収音時間情報からその音声ファイルの収音開始時刻と収音終了時刻を検出し、検出された収音開始時刻と収音終了時刻を記憶部３のインデックスファイルに音声ファイルに対応付けて記録する。
【００４２】
（単語解析処理）
バッファリングしているストリームデータから音声波形の検出を行い、記憶部３の単語データベースに登録された単語波形との相関を検知する。相関が検知された場合には、対応する単語を記憶部３のインデックスファイルに音声ファイルに対応付けて記録する。
【００４３】
（音声ファイル検索処理）
クライアント１０４から通知されるＲＰＣ形式の検索リクエストから検索条件を抽出し、記憶部３のインデックスファイルから条件に一致する索引を検索する。そして、その索引を持つ音声ファイルのリストをネットワークＩ／Ｆ４を介してクライアント１０４に通知する。また、クライアント１０４から通知されるＲＰＣ形式の配信リクエストに対して、要求された音声ファイルをリアルタイム・ストリーミング用のプロトコル形式に変換し、ストリームデータとしてネットワーク２００を介してクライアント１０４に配信する。
【００４４】
以上のように制御部１は各処理を行う。なお、上記した各処理はソフトウェア処理で無くハードウェア処理に置き換えることも当然可能である。
【００４５】
次に、音声会議装置１０２Ａ，１０２Ｂ（以下、単に音声会議装置１０２と表記する。）について図３に基づいて説明する。図３には、音声会議装置１０２の構成を示している。
【００４６】
音声会議装置１０２は、制御部１１、操作部１２、表示部１３、ネットワークＩ／Ｆ１４、放音指向性制御部１５、スピーカＳＰ１〜ＳＰ１６、マイクＭＩＣ１〜ＭＩＣ１６、収音ビーム生成部１６、収音ビーム選択部１７、エコーキャンセル回路１８を備える。
【００４７】
制御部１１は、例えば１つの制御用チップと、ＲＯＭと、演算用メモリであるＲＡＭ等により構成され、ＲＯＭに記憶されたプログラムを実行し、音声会議装置１０２全体を制御する。ネットワークＩ／Ｆ１４はネットワーク２００に接続していて、ネットワーク２００を介して入力された相手先音声会議装置（１０２Ａまたは１０２Ｂ）から受信するストリームデータを、リアルタイム・ストリーム用のプロトコル形式から一般的な音声信号に変換してエコーキャンセル回路１８を介して放音指向性制御部１５に出力する。この際、制御部１１は、ストリームデータに添付された方位情報を取得して、放音指向性制御部１５に対して放音制御を行う。
【００４８】
放音指向性制御部１５はＤ／Ａコンバータやアンプを含み、スピーカＳＰ１〜ＳＰ１６に対する放音音声信号を生成する。スピーカＳＰ１〜ＳＰ１６に対する放音音声信号は、遅延制御や振幅制御やＤ／Ａ変換等の信号制御処理を行い、スピーカＳＰ１〜ＳＰ１６に与える。スピーカＳＰ１〜ＳＰ１６は、放音音声信号を音声変換して放音する。これにより、自装置に同席する会議者に、ネットワークで接続された相手先装置の会議者の音声を放音する。
【００４９】
また、マイクＭＩＣ１〜ＭＩＣ１６は会議者の発声音を含む自装置周囲の音を収音して電気信号変換し、収音音声信号を生成する。
【００５０】
収音ビーム生成部１６は、マイクＭＩＣ１〜ＭＩＣ１６の収音音声信号に対して振幅制御やＡ／Ｄ変換や遅延処理等を行い、所定方位に強い指向性を有する複数の収音ビーム音声信号を生成する。各収音ビーム音声信号はそれぞれ異なる方位に強い指向性を有するように設定する。図１の音声会議装置１０２Ａ，１０２Ｂであれば、方位Ｄｉｒ１，Ｄｉｒ２，Ｄｉｒ３などに設定される。
【００５１】
収音ビーム選択部１７は、各収音ビーム音声信号の信号強度を比較して、音声の到来方位に近い指向性を持つ収音ビーム音声信号を選択し、収音ビーム音声信号としてエコーキャンセル回路１８に出力する。また、収音ビーム選択部１７は、選択した収音ビーム音声信号に対応する方位（Ｄｉｒ１〜３）を方位情報として制御部１１に与える。なお、複数の話者が同時に発話した場合には、複数の収音ビーム音声信号を選択し、それぞれをエコーキャンセル回路１８に出力する。
【００５２】
エコーキャンセル回路１８は、スピーカＳＰからマイクＭＩＣへの回り込み音を抑圧する。
【００５３】
ネットワークＩ／Ｆ１４は、エコーキャンセル回路１８からの収音ビーム音声信号をリアルタイム・ストリーム用のプロトコル形式のストリームデータに変換し、順次ネットワーク２００に出力する。また、ネットワークＩ／Ｆ１４は制御部１１から方位情報と収音時間情報と自装置の識別情報を得て、送信するストリームデータに添付する。なお、複数の話者が同時に発話した場合には、複数の収音ビーム音声信号を合成し、出力する。
【００５４】
以上の各装置により本実施形態の音声配信システムは構成される。なお、クライアント１０４は、一般的な通信機能とブラウズ機能、音声再生機能を持った端末であり、具体的にはＰＣ端末や携帯電話端末やハンドヘルド型の専用端末などである。クライアント１０４は、音声検索装置１０１に対してＲＰＣ形式の検索リクエストを通知し、音声検索装置１０１から通知される音声ファイルのリストに基づいて音声ファイルの配信リクエストを音声検索装置１０１に通知する、そして音声検索装置１０１からのストリームデータの配信を受ける。
【００５５】
なお、ここでは複数の話者が同時に発話した場合には、複数の収音ビーム音声信号を合成することにしたが、それ以外に、複数の収音ビーム音声信号それぞれをストリームデータとして独立に出力するようにしても良い。その場合には、音声検索装置では、同時に収音されたストリームデータそれぞれを独立した音声ファイルとして記憶するようにすると好適である。
【００５６】
以下、本実施形態の音声検索装置１０１での処理動作について説明する。
まず、音声検索装置１０１が音声会議装置１０２Ａ，１０２Ｂからストリームデータを受信する場合の処理動作フローを図４に基づいて説明する。
【００５７】
（Ｓ１）音声検索装置１０１は、まず、受信してバッファリングしているストリームデータから音声振幅を検出する。所定値以上の音声振幅が検出されるまで、音声振幅の検出を続ける。
（Ｓ２）音声振幅が所定値以上であればストリームデータに特定の話者（複数の話者も含む）の発話が含まれているため、上記ストリームデータに添付されてくる方位情報と音声会議装置識別情報とから予め登録された話者名を特定する。
（Ｓ３）また、上記収音時刻情報と音声会議装置識別情報と上記話者名とを記憶部３のインデックスファイルに記録する。
（Ｓ４，Ｓ５）また、ストリームデータの音声振幅が所定値未満であるかの判定を行い、所定値未満になると、音声振幅が所定値以上になってから所定値未満になるまでのバッファリングしているストリームデータを読み出し、音声ファイルとして記憶部３に記憶する。
（Ｓ６）次に、後述する単語解析処理を行う。
（Ｓ７）会議全体の録音が終了したかの判定を行い、終了していなければ再び上記処理を繰り返し、終了していればストリームデータの受信を終了する。
【００５８】
このような処理により、ストリームデータに基づく音声ファイルが会議中に順次生成されていく。したがって、この会議中に生成する音声ファイルを配信することで、会議中であっても利用者が並行して過去の発話内容を参照することが可能になる。
ここでは音声の有無を検知することで文章や単語の区切りごとに音声ファイルを生成する例を示したが、これにより各音声ファイルは一定の時間的に連続した一連の文章または単語を録音したものとなる。したがって、各音声ファイルは、配信を受ける利用者にとって文章や単語を把握しやすい好ましいものとなる。
なお、音声が無い状態が検知される時間を考慮して、一定時間、無音声状態が検出されることを条件に音声ファイルを区切るようにすれば、話者の息継ぎなど極めて短い時間の無音声状態により音声ファイルが区切られることが無くなる。この時間は必要に応じて設定するとよい。
また、音声の有無のみにより各音声ファイルを区切る以外にも、例えば、音声の有無に加えて話者の交代や、発話されているトピックの転換を、話者検出や単語検出などの結果に基づいて検出し、それらが検出された場合にも各音声ファイルを区切るようにしても良い。
【００５９】
また、ここでは索引として話者名を自動化して検出する例を示したが、これにより話者名の記録に会議出席者の手を煩わせる必要が無くなり、音声の配信を受けようとする利用者に話者名を索引として提示することで、利用者が特定の話者の発話箇所を効率的に抽出することが可能になる。
なお、ここでは話者特定に音声会議装置１０２で検出した方位情報を用いたが、それ以外にも個人発話特徴量に基づいて話者を特定しても良い。また、音声会議装置により方位情報を検出するのではなく、音声検索装置により方位情報を検出するようにしても良い。
【００６０】
また、ここでは、単語解析処理を音声ファイルの記録が終了するたびに行う例を示したが、この場合には、ストリームデータに音声が含まれていない時間に各処理が実行できることが条件となる。仮に処理の負荷が大きく、処理時間が掛かる場合には、各音声ファイルの処理を待ち行列に並べておき、無音声時に順に実行するようにするとよい。また単語解析処理を音声ファイルの記録と並列に実行してもよい。
また、単語解析処理は必ずしも行う必要は無く、また、行う場合であっても音声会議と並行する必要も無い、仮に音声会議の終了後に実行するようにしても、利用者は他の索引、例えば話者名などを用いて音声会議に並行して音声ファイルの検索を行うことができる。
【００６１】
次に、音声検索装置１０１がストリームデータから所定の単語に対応する波形を検出する単語解析処理の動作フローを図５に基づいて説明する。
【００６２】
（Ｓ１１）音声検索装置１０１は、まず、制御部１により記憶部３に記録されている音声ファイルから音声波形の読出を行う。
（Ｓ１２）次に、単語データベースに登録された単語波形を全て読み出すまで、一つ一つ順番に読み出していく。
（Ｓ１３）単語波形を読み出すたびに、その単語波形と音声ファイルから読み出した音声波形との相関を調べる。
（Ｓ１４）単語波形と音声波形が略一致すれば、その単語波形に対応する単語を記憶部３のインデックスファイルに音声ファイルに対応付けて記録し、次の単語波形の読み出しを行い、単語データベースに登録された単語波形の読出が全て終了すれば、音声解析処理を終了する。
【００６３】
このように音声解析処理を行うことで、各音声ファイルの発話に含まれる単語がインデックスファイルに索引として登録される。これにより、音声配信を受ける利用者が任意の単語で検索を行い、特定のトピックや話者の発話を抽出することが可能になる。
なお、記憶部３の単語データベースに可能な限り多くの単語を登録しておくことで、音声配信を受ける利用者はトピックの特定が高精度に行える。一方、必要と思われる最小限の単語を登録しておくことで、システムの単語解析処理の負荷を低減することができる。
【００６４】
次に、クライアント１０４から音声検索装置１０１にＲＰＣ形式の検索リクエストと配信リクエストが送信される場合の音声検索装置１０１の音声ファイル検索処理の動作フローを図６に基づいて説明する。
【００６５】
（Ｓ２１）音声検索装置１０１は、ネットワークＩ／Ｆ４を介してクライアント１０４からのＲＰＣ形式の配信リクエストを受信したか判別する。
（Ｓ２２）また、ネットワークＩ／Ｆ４を介してクライアント１０４からのＲＰＣ形式の検索リクエストを受信したか判別する。
（Ｓ２３）検索リクエストを受信した場合には、その検索リクエストから、利用者が入力した検索条件を抽出する。
（Ｓ２４）次に、インデックスファイルから各音声ファイルの索引を読み出し、検索条件に該当するものを検索する。
（Ｓ２５）検索条件に該当する索引があれば、当該索引の音声ファイルの識別名を送信リストに追加して記載する。
（Ｓ２６）以上の処理を繰り返し、インデックスファイルからの全ての音声ファイルの索引の読出しが終了すれば、送信リストをＲＰＣレスポンス形式に変換する。
（Ｓ２７）そして、クライアント１０４に対して上記ＲＰＣレスポンス形式の送信リストを送信し、再びクライアント１０４から配信リクエストまたは検索リクエストの受信をするまで待機する。
（Ｓ３１）配信リクエストを受信した場合には、その配信リクエストに対応する音声ファイルを読み出す。
（Ｓ３２）次に、読み出した音声ファイルを、リアルタイム・ストリーム用のプロトコル形式のストリームデータに変換する。
（Ｓ３３）次に、ストリームデータをネットワークＩ／Ｆ４を介してクライアント１０４に配信し、再びクライアント１０４から配信リクエストまたは検索リクエストの受信をするまで待機する。
【００６６】
以上のような処理により、利用者が任意の単語で検索を行い、特定のトピックや話者の発話を抽出することが容易になる。なお、クライアント１０４上では、受け取った送信リストを、各音声ファイルを収音時刻で並べて時系列に表示し、話者名とともに表示するようにすれば、利用者は一目で会議の流れを把握でき好適である。
【００６７】
次に、第２の実施形態の音声配信システムを用いて音声会議を行う例について説明する。図７に本実施形態の音声配信システムの概略構成を示す。
図７に示す本実施形態の音声配信システム１００は、ネットワーク２００に接続された音声検索装置１０１と音声会議装置１０２Ａ，１０２Ｂとネットワーク記憶装置１０３Ａ，１０３Ｂと、クライアント１０４とを備える。
【００６８】
本実施形態の音声配信システム１００は、音声検索装置１０１には音声ファイルを記憶せず、ネットワーク記憶装置１０３Ａ，１０３Ｂに音声ファイルを記憶させ、その音声ファイルのストリームデータをネットワーク記憶装置１０３Ａ，１０３Ｂからクライアント１０４に配信する点で第１の実施形態と相違する。
【００６９】
ここで音声検索装置１０１が、第１の実施形態の音声検索装置で示した音声解析処理に加えて、ネットワーク記憶処理を行う。ネットワーク記憶処理の動作フローを図８に示す。
【００７０】
（Ｓ４１）音声検索装置１０１は、音声ファイルを生成するたびに、音声ファイルを記憶させるネットワーク記憶装置（１０３Ａまたは１０３Ｂ）を選定する。ここでは、ネットワーク記憶装置１０３Ａとネットワーク記憶装置１０３Ｂに交互に選択する。
（Ｓ４２）次に、生成した音声ファイルをネットワークＩ／Ｆ４を介して、選定されたネットワーク記憶装置に送信する。
（Ｓ４３）次に、選定されたネットワーク記憶装置から、音声ファイルの記憶先のネットワークアドレスを受信する。
（Ｓ４４）次に、受信したネットワークアドレスを記憶部３のインデックスファイルに記録する。
（Ｓ４５）次に、送信した音声ファイルを記憶部３から消去する。
【００７１】
音声検索装置１０１は、以上のようなネットワーク記憶処理を行う。
【００７２】
このネットワーク記憶処理の後、音声検索装置１０１は、クライアント１０４から通知されるＲＰＣ形式の検索リクエストから検索条件を抽出し、記憶部３のインデックスファイルに記録している索引からこの検索条件に一致するものの検索を行う。そして、検索条件に一致する索引を有する音声ファイルのネットワークアドレスを送信リストとして記述し、送信リストをネットワークＩ／Ｆ４を介してクライアント１０４に通知する。
【００７３】
ネットワーク記憶装置１０３は、音声検索装置１０１から送信されてきた音声ファイルを記憶し、その記憶先のネットワークアドレスを音声検索装置１０１に送信する。また、クライアント１０４から送信されてくる配信リクエストに対して、そのネットワークアドレスに記憶している音声ファイルをリアルタイム・ストリーム用のプロトコル形式のストリームデータに変換してクライアント１０４に対して配信する。
【００７４】
クライアント１０４は、リモート・プロシージャ・コール（以下、ＲＰＣ）により音声ファイルの検索を行う。音声検索装置１０１に対してＲＰＣ形式の検索リクエストを送信し、ネットワークアドレスが記載された送信リストを受け取る。また、通知された送信リストのネットワークアドレスからいずれかを選択し、選択されたネットワークアドレスに対応するネットワーク記憶装置１０３Ａまたはネットワーク記憶装置１０３Ｂに音声ファイルの配信リクエストを送信し、その音声ファイルのストリームデータの配信を受ける。
【００７５】
以上のように本実施形態の音声配信システム１００では、音声ファイルをネットワーク記憶装置１０３Ａ，１０３Ｂに分散して記憶させる。したがって、通信負荷を分散できる。このようにして音声検索装置１０１やネットワーク記憶装置１０３Ａ，１０３Ｂなどの故障により会議情報が失われてしまったり、セキュリティホールにより機密性の高い会議情報が流出したりすることを低減できる。音声ファイルが部分的に損失したり流出したりしても会議情報の機密をある程度、守ることができる。
【００７６】
なお、ネットワーク記憶装置１０３Ａ，１０３Ｂには、音声検索装置１０１から交互に音声ファイルを送信するのではなく、両方に音声ファイルを記憶させバックアップをとるように構成しても良い。
【図面の簡単な説明】
【００７７】
【図１】第１の実施形態の音声配信システムの構成を示すブロック図である。
【図２】同実施形態の音声検索装置の構成図である。
【図３】同実施形態の音声会議装置の構成図である。
【図４】同実施形態の音声検索装置のストリームデータ受信時の処理のフローチャートである。
【図５】同実施形態の音声検索装置の単語検出処理のフローチャートである。
【図６】同実施形態の音声検索装置の音声ファイル検索処理のフローチャートである。
【図７】第２の実施形態の音声配信システムの構成を示すブロック図である。
【図８】同実施形態の音声検索装置のネットワーク記憶処理のフローチャートである。
【符号の説明】
【００７８】
１，１１−制御部
３−記憶部
４，１４−ネットワークインターフェイス
１２−操作部
１３−表示部
１５−放音指向性制御部
１６−収音ビーム生成部
１７−収音ビーム選択部
１８−エコーキャンセル回路
１００−音声配信システム
１０１−音声検索装置
１０２Ａ，１０２Ｂ−音声会議装置
１０３Ａ，１０３Ｂ−ネットワーク記憶装置
１０４−クライアント
２００−ネットワーク
ＭＩＣ−マイク
ＳＰ−スピーカ

【特許請求の範囲】
【請求項１】
音声信号を取得する音声信号取得手段と、
該音声信号取得手段により取得した前記音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、
前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、
前記音声ファイル生成手段により生成した各音声ファイルを記憶する記憶手段と、
ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記記憶手段に記憶した音声ファイルを抽出する検索手段と、
前記検索手段により検索された前記音声ファイルを前記クライアントに対してネットワーク配信する配信手段と、を備える音声配信システム。
【請求項２】
前記音声信号取得手段は前記音声信号をストリームデータとして取得し、
前記音声ファイル生成手段と、前記索引記録手段と、前記記憶手段とを、前記ストリームデータの取得と並行して逐次実行する請求項１に記載の音声配信システム。
【請求項３】
音声信号を取得する音声信号取得手段と、
該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、
前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、
前記音声ファイル生成手段により生成した各音声ファイルを、ネットワークに接続された複数の記憶装置に分散して記憶させるネットワーク記憶手段と、
各音声ファイルを記憶した記憶装置のネットワークアドレスを記憶するアドレス記憶手段と、
ネットワークを介してクライアントから入力されたキーワードで前記索引を検索することにより、前記記憶手段に記憶した前記音声ファイルのネットワークアドレスを抽出する検索手段と、
前記検索手段により検索された前記音声ファイルのネットワークアドレスを、前記入力を行ったクライアントに通知し、前記ネットワークアドレスから前記クライアントに対して前記音声ファイルをネットワーク配信させる配信手段と、を備える音声配信システム。
【請求項４】
前記音声信号取得手段は前記音声信号をストリームデータとして取得し、
前記音声ファイル生成手段と、前記索引記録手段と、前記ネットワーク記憶手段と、前記アドレス記憶手段とを、前記ストリームデータの取得と並行して逐次実行する請求項３に記載の音声配信システム。
【請求項５】
前記音声ファイル生成手段は、前記音声信号の振幅を検出し、少なくとも該音声信号の振幅が閾値を超えて変化する点を前記音質変化点とする請求項１〜４のいずれかに記載の音声配信システム。
【請求項６】
前記索引記録手段は、前記音声ファイルに含まれる音声の話者を発話取得位置、または個人発話特徴量に基づいて検出し、少なくとも前記話者を前記音声ファイルの属性とする請求項１〜５のいずれかに記載の音声配信システム。
【請求項７】
前記索引記録手段は、前記音声ファイルの音声に含まれる所定の単語を検出し、少なくとも前記単語を前記音声ファイルの属性とする請求項１〜６のいずれかに記載の音声配信システム。
【請求項８】
音声信号を取得する音声信号取得手段と、
該音声信号取得手段により取得した音声信号を、特定の音質変化点で区分し、その区分毎の音声ファイルを生成する音声ファイル生成手段と、
前記音声ファイル生成手段により生成した各音声ファイルの属性を前記音声信号の特徴に基づいて検出し、該属性を前記音声ファイルの索引として記録する索引記録手段と、
入力されたキーワードで索引を検索することにより、前記音声ファイルを抽出する検索手段と、を備える音声検索装置。
【請求項９】
前記音声信号取得手段は前記音声信号をストリームデータとして取得し、
前記音声ファイル生成手段と、前記索引記録手段とを、前記ストリームデータの取得と並行して逐次実行する請求項７に記載の音声検索装置。

【図１】