説明

音声情報処理装置及び方法

【課題】 音声配信と音声蓄積を実施する装置において、適切な無音処理を実行する。
【解決手段】 本発明に係る音声情報処理装置は、相手装置に配信するための音声データが有音、または無音かを判定する配信用無音判定手段と、前記音声データを記憶領域に蓄積するための音声データが有音、または無音かを判定する蓄積用無音判定手段と、前記配信用無音判定手段と前記蓄積用無音判定手段に、前記音声データが無音であると判定するために必要な条件を指定する無音判定条件設定手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば、インターネット等のネットワークを介して、音声等の連続データを伝送する装置及び方法に関する。
【背景技術】
【0002】
近年、IP(Internet Protocol)ネットワークを利用したライブ配信システムやビデオ会議システム等、リアルタイム性が要求されるデータの配信システムが提案されている。
【0003】
このような配信システムにおいて音声配信を行う場合、ネットワーク負荷を軽減させるために音声データが無音の間はデータ送信を行わず、音声データが有音の間だけデータ送信を行うことがある。音声配信の際、音声データを受信するクライアントによっては無音判定の条件を厳しくしたり、緩くしたりしてネットワーク上に送信される音声データ量を調整することができる。
【0004】
また、組込み機器では、PCのように大容量の蓄積ストレージは持っておらず、数〜数十MBしか記憶領域がない場合が多い。このため、音声蓄積時には、記憶領域を有効に使うために有音データのみを保存する方法が有効である。
【0005】
このように、無音判定処理は音声配信用と音声蓄積用の2つの目的のために使用される。
【特許文献1】特開2003−29621号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
音声配信処理と音声蓄積処理を同時に実施した場合を考えると、音声配信用の無音判定の目的はネットワーク負荷を軽減させることである。このため配信用の無音判定条件を緩めて容易に無音と判定するよう設定していたり、通信中に相手装置が無音判定条件を変更する可能性がある。この時、同じ無音判定条件で音声蓄積も実施すると、無音判定条件が緩すぎたり途中で変更されるという問題が発生する。音声蓄積用の無音判定の目的は記憶領域の有効活用であるため、無音判定条件が緩すぎたり、録音中に外部要因により無音判定条件を変更されることは望ましくない。
【0007】
また、音声配信しているデータと同じデータを蓄積することは、記憶領域の有効活用の面からも望ましくない。
【課題を解決するための手段】
【0008】
上記課題を解決するために、本発明に係る音声情報処理装置は、音声信号を入力する手段と、入力された音声データを圧縮する手段と、前記圧縮した音声データを相手装置に配信するために前記圧縮した音声データが有音、または無音かを判定する配信用無音判定手段と、前記圧縮した音声データを記憶領域に蓄積するために前記圧縮した音声データが有音、または無音かを判定する蓄積用無音判定手段と、前記配信用無音判定手段と前記蓄積用無音判定手段に、音声データを無音と判定するために必要な条件を指定する無音判定条件設定手段と、前記音声データを相手装置に配信する配信処理手段と、前記音声データを記憶領域に蓄積する蓄積処理手段と、前記蓄積処理手段が音声データを蓄積する記憶領域と、前記記憶領域に蓄積された音声データを相手装置に送信する蓄積データ送信手段とを備える。
【発明の効果】
【0009】
ネットワーク負荷を軽減させるために音声配信用の無音判定条件を緩めて設定していたり、配信中に相手装置が無音判定条件を変更しても、音声蓄積用の無音判定処理に影響を与えることがなくなる。また、発生するイベントに合わせて動的に音声配信と音声蓄積の無音判定条件を変更し、無音判定条件の値を連携させることで、音声配信を見越した音声蓄積を実施することができ、ネットワーク負荷の低減と記憶領域の有効活用を両立することができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施の形態を図1に基づいて説明する。
【0011】
(第1の実施形態)
音声の配信及び蓄積システムは、図1のようなシステム構成である。
【0012】
図1において、音声を配信及び蓄積する装置をサーバ101、被音声配信装置をクライアント111、蓄積データを取得する装置をクライアント113とすると、サーバ101は、音声入力装置100からの音声信号を受け、データ圧縮する音声データ処理部102、圧縮された音声データが無音かどうかを判定する配信用無音判定部103と蓄積用無音判定部105、前記2つの無音判定部の無音判定条件を設定、変更する無音判定条件設定部104、クライアント111への配信処理を行う配信処理部106、記憶領域への蓄積処理を行う蓄積処理部107、音声データを蓄積する記憶領域109、前記記憶領域109の音声データをクライアント113へ送信する蓄積データ送信部108、等から構成される。
【0013】
音声入力装置100はサーバ101内に存在する場合もあるが、サーバ101の装置外に存在する場合と機能ブロックに大きな違いはないため、サーバ101の装置外にあるものとして説明する。
【0014】
また、記憶領域109もネットワークを通して別装置内にある場合もあるが、サーバ101の装置内に存在する場合と機能ブロックに大きな違いはないため、サーバ101の装置内にあるものとして説明する。
【0015】
次に、図1における音声配信処理と音声蓄積処理のデータフローについて説明する。
【0016】
まず音声データ処理部102はマイクなどの音声入力装置100から入力された音声信号を圧縮し、圧縮された音声データを配信用無音判定部103に送る。配信用無音判定部103はあらかじめ無音判定条件設定部104から指示された無音判定条件に基づき、音声データが有音データなのか無音データなのか判定する。この際、有音無音に関係なく全音声データを配信するように指示されていた場合、判定処理を行うことなく配信処理106に音声データを送り、有音データのみを配信するように指示されていた場合、判定処理の結果に基づいて有音データのみを配信処理部106に送る。配信処理部106はネットワーク110を介して、配信要求があったクライアント111に音声データを送り届ける。クライアント111は受信した音声データを伸長し、音声出力装置112を通して音声信号として出力する。
【0017】
一方、蓄積用無音判定部105もあらかじめ無音判定条件設定部104から指示された無音判定条件に基づき、音声データが有音データなのか無音データなのか判定する。この際、有音無音に関係なく全音声データを蓄積するように指示されていた場合、判定処理を行うことなく蓄積処理107に音声データを送り、有音データのみを蓄積するように指示されていた場合、判定処理の結果に基づいて有音データのみを蓄積処理部107に送る。蓄積処理部107は蓄積用無音判定部105から受け取った音声データをメモリ、FlashROMやハードディスクなどの記憶領域109に保存する。サーバ101は、クライアント113から蓄積データの取得要求があると、蓄積データ送信部108が記憶領域109から該当する音声データを読み取り、クライアント113に送り届ける。また、蓄積データ送信部108はクライアント113からの要求により、記憶領域109に蓄積されている音声データの削除を行う。
【0018】
次に、音声配信または音声蓄積時の無音判定条件の変更する際の動作について説明する。
【0019】
クライアント111は、ネットワーク負荷低減のために有音データのみの配信をサーバ101に要求すると、無音判定条件設定部104にて配信用の無音判定条件を変更し、配信用無音判定部103にその旨指示する。これ以降、配信用無音判定部103は新しい無音判定条件に基づいて有音無音の判定を行う。また、クライアント111は無音判定処理の実施の有無だけでなく、詳細パラメータとして詳細な無音判定条件を指示することもできる。これにより、クライアント111はよりネットワーク負荷に適した無音判定条件を指示できることになる。また、複数クライアントに音声配信を行う場合、無音判定条件設定部104は複数の配信用無音判定条件を保持し、それに対応する複数の配信用無音判定部103の制御を行う。
【0020】
一方、蓄積処理部107は外部デバイス入力や特定時間に到達した等のイベントが発生すると音声蓄積を開始する。無音判定条件設定部104は、必要に応じて各々のイベントが発生する度に無音判定条件を変更し、蓄積用無音判定部105に指示する。これにより、それぞれのイベントに最適な無音判定条件で蓄積処理を実施でき、より有効に記憶領域を活用することができる。
【0021】
配信用無音判定条件と蓄積用無音判定条件が同じ場合、別々に実施していた無音判定処理を片側で一度だけ実施することで、重複する処理を削除することができる。具体的には、蓄積用無音判定部105は、配信用無音判定部103の判定結果を参照し無音判定処理を実施せずに音声データの有音無音判定を行う。逆に、配信用無音判定部103が蓄積用無音判定部105の判定結果を参照することで、重複する処理を省略することができる。
【0022】
次に、配信処理と蓄積処理の無音判定条件の連携について説明する。
【0023】
クライアントからの要求により配信用の無音判定条件を緩くすると、完全に無音でなくても無音と判定してしまい、有音無音の切り替わり時に有音データが配信されない傾向が強くなる。このような場合、無音判定条件設定部104は蓄積処理では極力取りこぼさないように蓄積用の無音判定条件を厳しく、または全音声データを蓄積するように設定する。
【0024】
逆にクライアントからの要求により配信用の無音判定条件を厳しくすると、完全に無音状態にならないと無音と判定しないので、クライアント111における有音データの聞き逃しは発生しにくくなる。このような場合、無音判定条件設定部104は蓄積処理では記憶領域の有効活用を優先し、蓄積用の無音判定条件を緩く設定する。これにより、なるべく無音部分を削除して有音部分だけを蓄積することができる。
【0025】
次に、図2を用いて蓄積処理部107における有音データと無音データの保存方法について説明する。
【0026】
あるイベントが発生した時、蓄積処理部107は有音データのみを記憶領域109に蓄積することも可能であるが、無音判定条件によっては音声データ200のように短時間の間に有音と無音を交互に検出する場合がある。このような場合、音声データは細切れで蓄積されることになり、蓄積データを再生しようとすると細かい音途切れが発生してしまう。このような場合、蓄積処理部107は無音と判定したデータを無音部分202のようにサンプルとして保存し、無音期間がそのサンプルデータの幾つ分繰り返すかという情報も一緒に蓄積データ201のように保存する。これにより、最初のサンプル以外の無音データは削除することができ、さらに再生しようとする場合も、有音区間の無音期間を保存したサンプル無音データから複製でき、細かい音途切れを防ぐことができる。また、無音部分203のようにその無音期間中に無音の音量レベルが変わった場合には、その時刻からの無音データとして追加する。また、無音の音量レベルが変わった場合だけでなく、一定期間毎に追加することも有効な方法である。
【0027】
また、無音サンプルとして保存するのは無音データではなく、無音と判定した際の音量レベルでも可能である。無音期間中にサンプルである音量レベルを追加する、そして、一定期間毎にサンプルの音量レベルを追加するという点はサンプルとして無音データを保存する場合と同様である。
【0028】
次に、クライアント113がサーバ101内に蓄積された音声データを取得する際の動作を説明する。
【0029】
クライアント113はネットワークを介して、サーバ101に自装置が前記蓄積データ201の有音無音部分の区別ができるできないという情報含めた蓄積データの取得要求を送る。サーバ101内では、蓄積データ送信部108が該当する音声データを記憶領域109内から特定する。特定された音声データは、前記蓄積方式により蓄積されているので有音データと無音データが混在する可能性がある。蓄積データ送信部108は、クライアント113が有音無音部分を区別できる場合は蓄積された音声データをそのままクライアント113に送信し、有音無音部分を区別できない、もしくは有音無音を区別できるできないを表す情報が含まれていない場合は、蓄積した音声データの無音部分をサンプルデータと繰り返し回数から補完し、一連の蓄積データは全て有音データであるかのように送信する。サンプルデータが無音データの場合は無音データを回数分複製し、サンプルデータが音量レベルの場合は音量レベルから無音データを生成し、回数分補完する。これにより、蓄積データの有音無音を区別できるクライアントには無音部分を削除された蓄積音声データを送信し、有音無音を区別できないクライアントには無音部分を補完した蓄積音声データを送信することができる。
【図面の簡単な説明】
【0030】
【図1】音声配信及び音声蓄積システムの構成とサーバ装置の機能ブロック。
【図2】音声蓄積処理における無音データの削除方法。

【特許請求の範囲】
【請求項1】
ネットワークを介して音声等の連続データを配信、または蓄積する装置に関し、
音声信号を入力する手段と、
入力された音声データを圧縮する手段と、
前記圧縮した音声データを相手装置に配信するために、前記圧縮した音声データが有音、または無音かを判定する配信用無音判定手段と、
前記圧縮した音声データを記憶領域に蓄積するために、前記圧縮した音声データが有音、または無音かを判定する蓄積用無音判定手段と、
前記配信用無音判定手段と前記蓄積用無音判定手段に、音声データを無音と判定するために必要な条件を指定する無音判定条件設定手段と、
前記音声データを相手装置に配信する配信処理手段と、
前記音声データを記憶領域に蓄積する蓄積処理手段と、
前記蓄積処理手段が音声データを蓄積する記憶領域と、
前記記憶領域に蓄積された音声データを相手装置に送信する蓄積データ送信手段と
を備え、
前記配信用無音判定手段と前記蓄積用無音判定手段は独立した無音判定条件で無音判定処理を行い、前記無音判定条件設定手段は任意のタイミングで前記無音判定条件を変更でき、
前記配信処理手段は有音データのみを配信、または無音データを含めた全音声データを配信することができ、前記蓄積処理手段は有音データのみを蓄積、または無音データを含めた全音声データを蓄積できることを特徴とした音声情報処理装置及び方法。
【請求項2】
前記無音判定条件設定手段は、相手装置の要求に従って前記配信用無音判定条件を任意のタイミングで変更でき、かつ配信するクライアント数分の配信用無音判定手段を持つことができることを特徴とする請求項1記載の音声情報処理装置及び方法。
【請求項3】
前記無音判定条件設定手段は、音声蓄積を開始するようなイベントが発生した時に、前記蓄積用無音判定条件を変更することを特徴した請求項1記載の音声情
【請求項4】
前記配信用無音判定条件と前記録音用無音判定条件が同じ場合、前記蓄積用無音判定手段は前記配信用無音判定手段の無音判定結果を使用する、逆に前記配信用無音判定手段は前記蓄積用無音判定結果を使用する、ことを特徴とした請求項1記載の音声情報処理装置及び方法。
【請求項5】
前記無音判定条件設定手段は、前記配信用無音判定条件を緩くして音声データを容易に無音と判定するように設定する場合、前記蓄積用無音判定条件を厳しくして音声データを容易に無音と判定しない、または、全ての音声データを無音でないと判定することを特徴とした請求項1,2,3,4記載の音声情報処理装置及び方法。
【請求項6】
前記無音判定条件設定手段は、前記配信用無音判定条件を厳しくして音声データを容易に無音と判定しないように設定する、または、全ての音声データを無音でないと判定するよう設定する場合、前記蓄積用無音判定条件を緩くして音声データを比較的容易に無音と判定することを特徴とした請求項1,2,3,4記載の音声情報処理装置及び方法。
【請求項7】
前記蓄積処理部は、蓄積データの内、無音部分はある一定単位のサンプル無音データとその繰り返し回数を保存し、無音データ蓄積中に音量レベルが変わった場合はその時点での無音データを新しいサンプル無音データとして追加できることを特徴とした請求項1,2,3,4記載の音声情報処理装置及び方法。
【請求項8】
請求項7において、前記蓄積処理部は、無音部分をある一定単位のサンプル無音データとその繰り返し回数を保存するのではなく、ある一定単位の無音データの音量レベルをサンプルとし、音量レベルとその繰り返し回数を保存することを特徴とした請求項1,2,3,4記載の音声情報処理装置及び方法。
【請求項9】
前記蓄積データ送信手段は、請求項7,8の方式を用いて蓄積された音声データを、無音部分を特定できる相手装置には記憶領域に蓄積された音声データをそのまま送信し、無音部分を特定できない相手装置には有音データ間をサンプル化した無音データで補完して送信することを特徴とした請求項1,2,3,4記載の音声情報処理装置及び方法。

【図1】
image rotate

【図2】
image rotate


【公開番号】特開2006−301266(P2006−301266A)
【公開日】平成18年11月2日(2006.11.2)
【国際特許分類】
【出願番号】特願2005−122371(P2005−122371)
【出願日】平成17年4月20日(2005.4.20)
【出願人】(000001007)キヤノン株式会社 (59,756)
【Fターム(参考)】