音声データ処理装置

【課題】音声の再生速度変更によって生じる音声品質の劣化を抑制することが可能な音声データ処理装置を得ることを目的とする。
【解決手段】揺らぎ吸収バッファに蓄積されている音声データ量に基づいて、上記音声データの再生速度を決定する再生速度決定部と、上記音声データの再生速度と、上記揺らぎ吸収バッファに蓄積されている音声データの無音区間の区間長とに基づいて、上記無音区間の再生速度を決定する無音区間再生速度決定部と、上記音声データの再生速度と、上記揺らぎ吸収バッファに蓄積されている音声データの有音区間の区間長と、上記無音区間の再生速度とに基づいて、上記有音区間の再生速度を決定する有音区間再生速度決定部と、上記無音区間の再生速度と、上記有音区間の再生速度とに基づいて、上記音声データを再生する音声再生部とを備えたものである。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、揺らぎ吸収バッファに蓄積された音声データを再生する音声データ処理装置に関するものである。
【背景技術】
【０００２】
近年のＩＰ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ）ネットワークの発展により、音声信号をＩＰパケット化して伝送するＶｏＩＰ（ＶｏｉｃｅｏｖｅｒＩＰ）技術の普及が進んでいる。このようなパケット通信においては、ネットワーク負荷の変動やデータ誤りの発生などによってパケット伝送遅延が変動する。このため、ＶｏＩＰのような音声のリアルタイム通信を行う装置は、受信パケットの伝送遅延揺らぎを吸収する揺らぎ吸収バッファを備える。
【０００３】
従来、揺らぎ吸収バッファを備えた音声データ処理装置の制御としては、伝送遅延揺らぎが大きい場合のバッファの枯渇や溢れを防止するために音声の再生速度を変更する技術が開示されている。具体的には、揺らぎ吸収バッファの蓄積量が増大すると音声の再生速度を速め、逆に蓄積量が減少すると音声の再生速度を下げる制御を行う（例えば、特許文献１）。
【０００４】
また、音声の再生速度を変更すると音声品質の劣化が生じる。ここで、音声の無音部分については再生速度変更を行っても音声品質の劣化が小さく、有音部分については劣化が大きくなる。そこで、音声の無音区間を検出し、再生速度を上げる場合は無音部分の音声信号を削除し、再生速度を下げる場合は無音部分に仮無音データを挿入する制御が開示されている（例えば、特許文献２）。
【先行技術文献】
【特許文献】
【０００５】
【特許文献１】特開２００４−２８２６９２号公報
【０００６】
【特許文献２】特開２００５−１９７８５０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００７】
上記の通り、音声の無音部分の削除・挿入により再生速度を変更することで、音声品質の劣化を防止することは出来るが、再生速度の変更が必要な場合に必ずしも無音部分があるとは限らないため、有音部分の再生速度変更は必要になる。従って、揺らぎ吸収バッファを備えた音声データ処理装置の制御において、音声の再生速度の変更を行うと音声品質の劣化が生じるという問題点があった。
【０００８】
この発明は上記のような問題点を解決するためになされたもので、音声の再生速度変更によって生じる音声品質の劣化を抑制することが可能な音声データ処理装置を得ることを目的とする。
【課題を解決するための手段】
【０００９】
この発明にかかる音声データ処理装置は、音声データが蓄積される揺らぎ吸収バッファと、上記揺らぎ吸収バッファに蓄積されている音声データ量に基づいて、上記音声データの再生速度を決定する再生速度決定部と、上記音声データの有音区間及び無音区間の各区間長を抽出する有音／無音区間長抽出部と、上記再生速度決定部で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部で抽出された上記揺らぎ吸収バッファに蓄積されている音声データの無音区間の区間長とに基づいて、上記無音区間の再生速度を決定する無音区間再生速度決定部と、上記再生速度決定部で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部で抽出された上記揺らぎ吸収バッファに蓄積されている音声データの有音区間の区間長と、上記無音区間再生速度決定部で決定された上記無音区間の再生速度とに基づいて、上記有音区間の再生速度を決定する有音区間再生速度決定部と、上記有音／無音区間長抽出部で抽出された有音区間及び無音区間の各区間長に対応する音声データを上記揺らぎ吸収バッファから読み出し、上記無音区間再生速度決定部で決定された上記無音区間の再生速度と、上記有音区間再生速度決定部で決定された上記有音区間の再生速度とに基づいて、上記音声データを再生する音声再生部とを備えたものである。
【発明の効果】
【００１０】
この発明によれば、音声データが蓄積される揺らぎ吸収バッファと、上記揺らぎ吸収バッファに蓄積されている音声データ量に基づいて、上記音声データの再生速度を決定する再生速度決定部と、上記音声データの有音区間及び無音区間の各区間長を抽出する有音／無音区間長抽出部と、上記再生速度決定部で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部で抽出された上記揺らぎ吸収バッファに蓄積されている音声データの無音区間の区間長とに基づいて、上記無音区間の再生速度を決定する無音区間再生速度決定部と、上記再生速度決定部で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部で抽出された上記揺らぎ吸収バッファに蓄積されている音声データの有音区間の区間長と、上記無音区間再生速度決定部で決定された上記無音区間の再生速度とに基づいて、上記有音区間の再生速度を決定する有音区間再生速度決定部と、上記有音／無音区間長抽出部で抽出された有音区間及び無音区間の各区間長に対応する音声データを上記揺らぎ吸収バッファから読み出し、上記無音区間再生速度決定部で決定された上記無音区間の再生速度と、上記有音区間再生速度決定部で決定された上記有音区間の再生速度とに基づいて、上記音声データを再生する音声再生部とを備えたことにより、音声品質の劣化を抑制することが出来る。
【図面の簡単な説明】
【００１１】
【図１】実施の形態１の音声データ処理装置の構成を示すブロック図である。
【図２】音声信号波形と音声信号の圧縮量を求める過程を示した説明図である。
【図３】無音時間（無音区間の時間長）と圧縮量との関係を示すグラフである。
【図４】音声信号波形と音声信号の伸長量を求める過程を示した説明図である。
【図５】無音時間（無音区間の時間長）と伸長量との関係を示すグラフである。
【図６】音声信号波形の一例を示した説明図である。
【図７】音声信号波形の一例を示した説明図である。
【図８】音声信号波形の一例を示した説明図である。
【図９】実施の形態２の音声データ処理装置の構成を示すブロック図である。
【図１０】有音／無音区間長保持部３２の動作を示すフローチャートである。
【図１１】実施の形態３の音声データ処理装置の構成を示すブロック図である。
【図１２】揺らぎ吸収バッファ１の音声パケット蓄積量と再生速度の変化を示した説明図である。
【図１３】揺らぎ吸収バッファ１の音声パケット蓄積量と再生速度の変化を示した説明図である。
【発明を実施するための形態】
【００１２】
以下、本発明の実施の形態を説明する。
【００１３】
実施の形態１．
図１は、この発明の一実施の形態による音声データ処理装置の構成を示すブロック図である。
図１において、揺らぎ吸収バッファ１は、音声データが蓄積され、外部から読み出し可能なバッファであり、本実施の形態では、例えば、音声データとして、伝送路を介してネットワーク側から受信された信された音声パケットが蓄積される。
【００１４】
再生速度決定部２は、上記揺らぎ吸収バッファ１に蓄積されている音声データ量に基づいて、上記音声データの再生速度を決定する。本実施の形態では、音声データとして、揺らぎ吸収バッファ１に蓄積されている音声パケットの音声信号の再生速度を、揺らぎ吸収バッファ１に蓄積されている（読み出されずに残っている）音声パケットの量を監視し、決定する。
【００１５】
有音／無音区間長抽出部３は、上記音声データの有音区間及び無音区間の各区間長を抽出する。本実施の形態では、揺らぎ吸収バッファ１に接続され、揺らぎ吸収バッファ１に蓄積されている音声パケットの音声信号の有音区間及び無音区間を判定し、各区間長を抽出する。
【００１６】
無音区間再生速度決定部４は、上記再生速度決定部２で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部３で抽出された上記揺らぎ吸収バッファ１に蓄積されている音声データの無音区間の区間長とに基づいて、上記無音区間の再生速度を決定する。本実施の形態では、音声パケットの音声信号の再生速度と、音声パケットの音声信号の無音区間とに基づいて、無音区間の再生速度を決定する。
【００１７】
有音区間再生速度決定部５は、上記再生速度決定部２で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部３で抽出された上記揺らぎ吸収バッファ１に蓄積されている音声データの有音区間の区間長と、上記無音区間再生速度決定部４で決定された上記無音区間の再生速度とに基づいて、上記有音区間の再生速度を決定する。本実施の形態では、音声パケットの音声信号の再生速度と、音声パケットの音声信号の有音区間と、無音区間の再生速度とに基づいて、有音区間の再生速度を決定する。
【００１８】
音声再生部６は、上記有音／無音区間長抽出部３で抽出された有音区間及び無音区間の各区間長に対応する音声データを上記揺らぎ吸収バッファ１から読み出し、上記無音区間再生速度決定部４で決定された上記無音区間の再生速度と、上記有音区間再生速度決定部５で決定された上記有音区間の再生速度とに基づいて、上記音声データを再生する。本実施の形態では、揺らぎ吸収バッファ１から音声パケットの音声信号を読み出し、当該音声信号を再生する。
【００１９】
以下、動作について説明する。
ネットワークから受信された音声パケットは、揺らぎ吸収バッファ１に書き込まれ、蓄積される。音声再生部６は揺らぎ吸収バッファ１に蓄積された音声パケットを読み出して音声信号を抜き出し、これを再生してローカル側に出力する。ここで、通信開始時など揺らぎ吸収バッファ１が空の状態である場合、揺らぎ吸収バッファ１に音声パケットが一定時間分（これを初期蓄積量と称する）蓄積されてから、音声パケットの読み出しを開始することで、その後の音声パケット伝送遅延揺らぎが上記初期遅延量以内であれば、その揺らぎを吸収することが出来る。
【００２０】
以降、動作について、詳細に説明する。
再生速度決定部２は、揺らぎ吸収バッファ１に蓄積されている音声パケットの量を監視して、音声再生部６における音声再生速度を決定する。具体的には、例えば、予め速度決定用の３種類のしきい値Ａ、しきい値Ｂ、及び、しきい値Ｃを決めておく。ここで、しきい値Ａ≧しきい値Ｂ≧しきい値Ｃとする。しきい値Ｂは揺らぎ吸収バッファ１の目標遅延量であり、上記初期蓄積量に等しい。再生速度決定部２は、このような３種類のしきい値Ａ、しきい値Ｂ、及び、しきい値Ｃと、揺らぎ吸収バッファ１の音声パケットの蓄積量（読み出されずに残っている量）とを比較して、音声再生部６における音声再生速度を決定する。
【００２１】
例えば、再生速度決定部２は、揺らぎ吸収バッファ１の音声パケットの蓄積量が０の場合、その蓄積量がしきい値Ｂ以上になるまでは再生速度を通常速度の０％（読み出し停止）とし、しきい値Ｂ以上になると１００％（通常速度）とする。そして、再生速度決定部２は、揺らぎ吸収バッファ１の音声パケットの蓄積量がしきい値Ａ以上になった場合に再生速度を通常速度より上げ、１４０％に決定する。そして、再生速度を１４０％にした後は、音声パケットの蓄積量がしきい値Ｂよりも大きい状態では１４０％という状態を維持し、音声パケットの蓄積量がしきい値Ｂ以下になると１００％に戻す。また、再生速度決定部２は、揺らぎ吸収バッファ１の音声パケットの蓄積量がしきい値Ｃ以下になった場合に再生速度を通常速度より遅く、例えば７０％に決定する。そして、再生速度を７０％にした後は、音声パケットの蓄積量がしきい値Ｂよりも小さい状態では７０％という状態を維持し、音声パケットの蓄積量がしきい値Ｂ以上になると１００％に戻す。
【００２２】
有音／無音区間長抽出部３、無音区間再生速度決定部４、有音区間再生速度決定部５の動作については、受信された音声パケットの音声信号波形と、再生速度を上げるために音声信号の圧縮量を求める過程を示した図２を併用して説明する。
図２（ａ）は、音声パケットの音声信号波形を示している。ここで、Ｘで示された範囲はある時点において揺らぎ吸収バッファ１に蓄積されている音声パケットの音声信号であり、この時点において揺らぎ吸収バッファ１内に格納される音声信号の有音区間及び無音区間における再生速度を決定するものとする。
【００２３】
まず、有音／無音区間長抽出部３は、揺らぎ吸収バッファ１内に蓄積されている音声信号の有音・無音を判定し、有音区間及び無音区間の各区間長を抽出する。具体的には、図２（ａ）における有音区間１、無音区間１、有音区間２、無音区間２を抽出し、それぞれの時間長ａ１、ｂ１、ａ２、ｂ２を求め、これらを各区間長として無音区間再生速度決定部４、有音区間再生速度決定部５及び、音声再生部６に出力する。
【００２４】
無音区間再生速度決定部４は、再生速度決定部２で決定された音声再生部６における音声再生速度（速度を上げる決定がなされている場合であり入力値は１４０％）と、有音／無音区間長抽出部３で抽出された各有音区間と無音区間の時間長ａ１、ｂ１、ａ２、ｂ２を基に、無音区間１及び無音区間２の圧縮後の時間長を求める。ここで、予め定められた再生速度の設定範囲内で圧縮後の時間長を求め、無音区間の再生速度を決定する。
【００２５】
図３は、無音時間（無音区間の時間長）に対してどれだけ圧縮することが出来るかを示したものであり、圧縮後の時間がグラフに示す値（以後、最小圧縮時間と称す）以上であれば音声品質劣化は許容範囲内に収まる。このグラフについては、予め実験等により求めておくことが出来る。本実施の形態では、予め定められた再生速度の設定範囲として、図３に示すグラフを用いる。
【００２６】
無音区間再生速度決定部４は、図３に示すグラフより、時間長ｂ１、ｂ２に対する最小圧縮時間ｃ１、ｃ２を求める。そして、ａ１＋ｂ１＋ａ２＋ｂ２≧１．４×（ａ１＋ｃ１＋ａ２＋ｃ２）であるとき、無音区間のみの圧縮、つまり図２（ｂ）に示す音声信号を出力することで再生速度１４０％を達成出来るので、無音区間再生速度決定部４は無音区間１及び無音区間２の圧縮後の時間長ｄ１、ｄ２を下記の式（１）（２）の通り求める。
【００２７】
ｄ１＝ｃ１＋ｅ×ｃ１／（ｃ１＋ｃ２）・・・（１）
ｄ２＝ｃ２＋ｅ×ｃ２／（ｃ１＋ｃ２）・・・（２）
【００２８】
ここで、ｅ＝（ａ１＋ｂ１＋ａ２＋ｂ２）／１．４−（ａ１＋ｃ１＋ａ２＋ｃ２）である。
【００２９】
一方、ａ１＋ｂ１＋ａ２＋ｂ２＜１．４×（ａ１＋ｃ１＋ａ２＋ｃ２）であるとき、無音区間のみの圧縮では再生速度１４０％を達成出来ない。この場合、無音区間再生速度決定部４は、は無音区間１及び無音区間２の圧縮後の時間長ｄ１、ｄ２を、ｄ１＝ｃ１、ｄ２＝ｃ２とする。このように、図３に示すグラフを用いて予め定められた再生速度の設定範囲内で圧縮後の時間長を求め、無音区間の再生速度を決定する。なお、例えば、無音区間１の再生速度は、無音区間１の時間長ｂ１及び圧縮後の時間長ｄ１に基づいて、（ｄ１／ｂ１）×１００％であらわすことができ、無音区間１の時間長ｂ１が既知であれば、圧縮後の時間長ｄ１と無音区間１の再生速度とを同等に扱うことができるので、本実施の形態では、無音区間の再生速度として、圧縮後の時間長を用いて説明する。
【００３０】
無音区間再生速度決定部４は、以上のように求めた時間長ｄ１、ｄ２を有音区間再生速度決定部５と音声再生部６に出力する。
【００３１】
有音区間再生速度決定部５は、再生速度決定部２で決定された音声再生部６における音声再生速度（速度を上げる決定がなされている場合であり入力値は１４０％）と、有音／無音区間長抽出部３で抽出された各有音区間と無音区間の時間長ａ１、ｂ１、ａ２、ｂ２と、無音区間再生速度決定部４で求められた無音区間１及び無音区間２の圧縮後の時間長ｄ１、ｄ２を基に、有音区間１及び有音区間２の圧縮後の時間長ｆ１、ｆ２を求め、有音区間の再生速度を決定する。なお、例えば、有音区間１の再生速度は、有音区間１の時間長ａ１及び時間長ｆ１に基づいて、（ｆ１／ａ１）×１００％であらわすことができ、有音区間１の時間長ａ１が既知であれば、時間長ｆ１と有音区間１の再生速度とを同等に扱うことができるので、本実施の形態では、有音区間の再生速度として、時間長（例えば、ｆ１、ｆ２）を用いて説明する。
【００３２】
有音区間再生速度決定部５は、有音区間１及び有音区間２の時間長ｆ１、ｆ２を下記の式（３）（４）の通り求める。そして、有音区間再生速度決定部５はこのように求めた時間長ｆ１、ｆ２を音声再生部６に出力する。
【００３３】
ｆ１＝ａ１＋ｇ×ａ１／（ａ１＋ａ２）・・・（３）
ｆ２＝ａ２＋ｇ×ａ２／（ａ１＋ａ２）・・・（４）
【００３４】
ここで、ｇ＝（ａ１＋ｂ１＋ａ２＋ｂ２）／１．４−（ａ１＋ｄ１＋ａ２＋ｄ２）である。
【００３５】
音声再生部６は、有音／無音区間長抽出部３、無音区間再生速度決定部４、及び、有音区間再生速度決定部５からの入力を基に、揺らぎ吸収バッファ１に蓄積されている音声パケットの音声信号を再生してローカル側に出力する。
まず、音声再生部６は、有音／無音区間長抽出部３で抽出された音声信号の有音区間及び無音区間の各区間長に基づいて、揺らぎ吸収バッファ１に蓄積された音声パケットを読み出して音声信号（有音区間１、無音区間１、有音区間２、無音区間２）を抜き出す。そして、有音区間１の時間長ａ１をｆ１に、無音区間１の時間長ｂ１をｄ１に、有音区間２の時間長ａ２をｆ２に、そして、無音区間２の時間長ｂ２をｄ２にそれぞれ圧縮して再生する。音声信号出力波形は図２（ｃ）に示す通りとなり、これにより、再生速度が１４０％速められる。なお、再生速度の変更は従来開示されている方法で実現可能である（例えば特許文献１に開示されている）。また、揺らぎ吸収バッファ１に蓄積されているＸで示された範囲の音声信号のうち、有音区間３の先頭部分を再生対象としないことにより、有音区間３の再生時に途中で再生速度が変更され、再生音が劣化することを防ぐことができる。
【００３６】
以上の手順により、図２（ａ）における有音区間１、無音区間１、有音区間２、及び、無音区間２までの再生速度が決定されたが、音声再生部６において無音区間２までの読み出しが完了した時点が、次の再生速度算出タイミングとなり、再生速度決定部２は、有音区間３以降の再生速度を算出する。そして、この時点で揺らぎ吸収バッファ１内に蓄積される音声信号（図２（ａ）においてＹで示される区間）により、上記と同様の手順で図２（ａ）における有音区間３、無音区間３、有音区間４、無音区間４、有音区間５、無音区間５の再生速度を決定する。
【００３７】
以下、図４を用いて、再生速度を下げる場合の動作について説明する。なお、再生速度を下げる場合の動作についても、再生速度を上げる場合とほぼ同様の動作となる。図４は、音声信号波形と、再生速度を下げるために音声信号の伸長量を求める過程を示した説明図である。図４（ａ）は、音声パケットの音声信号波形を示している。ここで、図中のＸで示された範囲はある時点において揺らぎ吸収バッファ１に蓄積されている音声パケットの音声信号であり、この時点において揺らぎ吸収バッファ１内に格納される音声信号の有音区間及び無音区間における再生速度を決定するものとする。
【００３８】
まず、有音／無音区間長抽出部３は、再生速度を上げる場合と同様に、揺らぎ吸収バッファ１内に蓄積されている音声信号の有音・無音を判定し、有音区間及び無音区間の各区間長を抽出する。具体的には、図４（ａ）における有音区間１、無音区間１、有音区間２、無音区間２を抽出し、それぞれの時間長ａ１、ｂ１、ａ２、ｂ２を求め、これらを各区間長として無音区間再生速度決定部４、有音区間再生速度決定部５及び、音声再生部６に出力する。
【００３９】
無音区間再生速度決定部４は、再生速度決定部２で決定された音声再生部６における音声再生速度（速度を下げる決定がなされている場合であり入力値は７０％）と、有音／無音区間長抽出部３で抽出された各有音区間と無音区間の時間長ａ１、ｂ１、ａ２、ｂ２を基に、無音区間１及び無音区間２の伸長後の時間長を求める。ここで、予め定められた再生速度の設定範囲内で伸長後の時間長を求め、無音区間の再生速度を決定する。
【００４０】
図５は、無音時間（無音区間の時間長）に対してどれだけ伸長することが出来るかを示したものであり、伸長後の時間がグラフに示す値（以後、最大伸長時間と称す）以上であれば音声品質劣化は許容範囲内に収まる。このグラフについては、予め実験等により求めておくことが出来る。本実施の形態では、予め定められた再生速度の設定範囲として、図５に示すグラフを用いる。
【００４１】
無音区間再生速度決定部４は、図５に示すグラフより、時間長ｂ１、ｂ２に対する最大伸長時間ｃ１、ｃ２を求める。そして、ａ１＋ｂ１＋ａ２＋ｂ２≦０．７×（ａ１＋ｃ１＋ａ２＋ｃ２）であるとき、無音区間のみの伸長、つまり図４（ｂ）に示す音声信号を出力することで再生速度７０％を達成出来るので、無音区間再生速度決定部４は無音区間１及び無音区間２の伸長後の時間長ｄ１、ｄ２を下記の式（５）（６）の通り求める。
【００４２】
ｄ１＝ｃ１＋ｅ×ｃ１／（ｃ１＋ｃ２）・・・（５）
ｄ２＝ｃ２＋ｅ×ｃ２／（ｃ１＋ｃ２）・・・（６）
【００４３】
ここで、ｅ＝（ａ１＋ｂ１＋ａ２＋ｂ２）／０．７−（ａ１＋ｃ１＋ａ２＋ｃ２）である。
【００４４】
一方、ａ１＋ｂ１＋ａ２＋ｂ２＞０．７×（ａ１＋ｃ１＋ａ２＋ｃ２）であるとき、無音区間のみの伸長では再生速度７０％を達成出来ない。この場合、無音区間再生速度決定部４は無音区間１及び無音区間２の伸長後の時間長ｄ１、ｄ２を、ｄ１＝ｃ１、ｄ２＝ｃ２とする。このように、図５に示すグラフを用いて予め定められた再生速度の設定範囲内で伸長後の時間長を求め、無音区間の再生速度を決定する。なお、上述の再生速度を上げる場合と同様に、無音区間１の時間長ｂ１が既知であれば、伸長後の時間長ｄ１と無音区間１の再生速度とを同等に扱うことができるので、本実施の形態では、無音区間の再生速度として、伸長後の時間長を用いて説明する。
【００４５】
無音区間再生速度決定部４は、以上のように求めた時間長ｄ１、ｄ２を有音区間再生速度決定部５と音声再生部６に出力する。
【００４６】
有音区間再生速度決定部５は、再生速度決定部２で決定された音声再生部６における音声再生速度（速度を下げる決定がなされている場合であり入力値は７０％）と、有音／無音区間長抽出部３で抽出された各有音区間と無音区間の時間長ａ１、ｂ１、ａ２、ｂ２と、無音区間再生速度決定部４で求められた無音区間１及び無音区間２の伸長後の時間長ｄ１、ｄ２を基に、有音区間１及び有音区間２の伸長後の時間長ｆ１、ｆ２を求め、有音区間の再生速度を決定する。なお、上述の再生速度を上げる場合と同様に、有音区間１の時間長ａ１が既知であれば、時間長ｆ１と有音区間１の再生速度とを同等に扱うことができるので、本実施の形態では、有音区間の再生速度として、時間長（例えば、ｆ１、ｆ２）を用いて説明する。
【００４７】
有音区間再生速度決定部５は、有音区間１及び有音区間２の時間長ｆ１、ｆ２を下記の式（７）（８）の通り求める。そして、有音区間再生速度決定部５はこのように求めた時間長ｆ１、ｆ２を音声再生部６に出力する。
【００４８】
ｆ１＝ａ１＋ｇ×ａ１／（ａ１＋ａ２）・・・（７）
ｆ２＝ａ２＋ｇ×ａ２／（ａ１＋ａ２）・・・（８）
【００４９】
ここで、ｇ＝（ａ１＋ｂ１＋ａ２＋ｂ２）／０．７−（ａ１＋ｄ１＋ａ２＋ｄ２）である。
【００５０】
音声再生部６は、有音／無音区間長抽出部３、無音区間再生速度決定部４、及び、有音区間再生速度決定部５からの入力を基に、揺らぎ吸収バッファ１に蓄積されている音声パケットの音声信号を再生してローカル側に出力する。
まず、音声再生部６は、有音／無音区間長抽出部３で抽出された音声信号の有音区間及び無音区間の各区間長に基づいて、揺らぎ吸収バッファ１に蓄積された音声パケットを読み出して音声信号（有音区間１、無音区間１、有音区間２、無音区間２）を抜き出す。そして、有音区間１の時間長ａ１をｆ１に、無音区間１の時間長ｂ１をｄ１に、有音区間２の時間長ａ２をｆ２に、そして、無音区間２の時間長ｂ２をｄ２にそれぞれ伸長して再生する。音声信号出力波形は図４（ｃ）に示す通りとなり、これにより、再生速度が７０％に下がることになる。
【００５１】
以上の手順により、図４（ａ）における有音区間１、無音区間１、有音区間２、及び、無音区間２までの再生速度が決定されたが、音声再生部６において無音区間２までの読み出しが完了した時点が、次の再生速度算出タイミングとなり、再生速度決定部２は、有音区間３以降の再生速度を算出する。そして、この時点で揺らぎ吸収バッファ１内に蓄積される音声信号（図４（ａ）においてＹで示される区間）により、上記と同様の手順で図４（ａ）における有音区間３、無音区間３、有音区間４、無音区間４、有音区間５、無音区間５の再生速度を決定する。
【００５２】
以上では、再生速度算出タイミングにおいて揺らぎ吸収バッファ１に蓄積されている音声信号の末尾が、有音区間の途中である場合の動作を説明した。同様に、揺らぎ吸収バッファ１に蓄積されている音声信号の末尾が無音区間の場合でも同様の手順で再生速度を決定することが出来る。
【００５３】
図６は、音声パケットの音声信号波形の一例を示している。例えば、音声パケットの音声信号波形が図６に示す通りであり、再生速度算出タイミングにおいて、図中のＸで示された範囲の音声信号が揺らぎ吸収バッファ１に蓄積されている場合、図６に示す有音区間１、無音区間１、有音区間２について各区間における圧縮後（再生速度を上げる場合）または伸長後（再生速度を下げる場合）の時間長を算出する。これらの時間長を求める手順は上記の説明と同様である。次に、この有音区間２までの音声信号が音声再生部６から読み出されると新たな再生速度算出タイミングとなり、このとき図６のＹで示す範囲の音声信号が揺らぎ吸収バッファ１に蓄積されている状態とすると、図中の無音区間２、有音区間３、無音区間３、有音区間４、無音区間４について、圧縮後のまたは伸長後の時間長を算出する。
【００５４】
また、再生速度算出タイミングにおいて揺らぎ吸収バッファ１に蓄積されている音声信号の全てが有音であり、引き続き有音が継続する場合がある。
図７は、音声パケットの音声信号波形の一例を示している。例えば、音声パケットの音声信号波形が図７に示す通りであり、再生速度算出タイミングにおいて、図中のＸで示された範囲の音声信号が揺らぎ吸収バッファ１に蓄積されている場合、揺らぎ吸収バッファ１内の音声信号を１個の有音区間（図７中の有音区間１）と見なして圧縮後または伸長後の時間長を決定する。圧縮の場合、圧縮後の時間長をｆ１とすると、ｆ１＝ａ１／１．４、伸長の場合、伸長後の時間長をｆ１とするとｆ１＝ａ１／０．７となる。そして、この有音区間１の音声信号が音声再生部６から読み出されると次の再生速度決定タイミングとなり、このとき図７のＹで示す範囲の音声信号が揺らぎ吸収バッファ１に蓄積されている状態とすると、図中の有音区間２、無音区間１、有音区間３、無音区間２、有音区間４、無音区間３について、圧縮後の時間長または伸長後の時間長を求める。このように、有音区間２を有音区間１と別の有音区間と見なし、他の場合と同様な手順で再生速度を決定する。
【００５５】
逆に、再生速度算出タイミングにおいて揺らぎ吸収バッファ１に蓄積されている音声信号の全てが無音であり、引き続き無音が継続する場合もある。
図８は、音声パケットの音声信号波形の一例を示している。例えば、音声パケットの音声信号波形が図８に示す通りであり、再生速度算出タイミングにおいて、図中のＸで示された範囲の音声信号が揺らぎ吸収バッファ１に蓄積されている場合、揺らぎ吸収バッファ１内の音声信号を１個の無音区間（図８中の無音区間１）と見なして圧縮後または伸長後の時間長を決定する。圧縮の場合、圧縮後の時間長をｄ１とすると、ｄ１＝ｂ１／１．４、伸長の場合、伸長後の時間間隔をｂ１とするとｂ１＝ａ１／０．７となる。そして、この無音区間１の音声信号が音声再生部６から読み出されると次の再生速度決定タイミングとなり、このとき図８のＹで示す範囲の音声信号が揺らぎ吸収バッファ１に蓄積されている状態とすると、図中の無音区間２、有音区間１、無音区間３、有音区間２、無音区間４について、圧縮後の時間間隔または伸長後の時間長を求める。このように、無音区間２を無音区間１と別の無音区間と見なし、他の場合と同様な手順で再生速度を決定する。
【００５６】
以上のように、本実施の形態によれば、揺らぎ吸収バッファ１内に蓄積される音声信号の無音区間の長さに応じて、無音区間再生速度決定部４が無音区間の再生速度を決定し、有音区間再生速度決定部５が、無音区間の再生速度決定結果に基づいて全体の再生速度が必要な速度となるように有音区間の再生速度を決定するので、音声品質が劣化し易い有音区間の再生速度変更量が少なくなり、音声の再生速度変更によって生じる音声品質の劣化を抑制することが出来る。
【００５７】
また、本実施の形態によれば、予め定められた再生速度の設定範囲内で無音区間の再生速度を決定するので、再生速度変更による音声品質劣化を許容範囲内に収めることが出来る。
【００５８】
実施の形態２．
以上の実施の形態１では、再生速度算出タイミングにおいて有音／無音区間長抽出部３が揺らぎ吸収バッファ１内に蓄積されている全ての音声信号について有音区間、無音区間を抽出するようにしたので、再生速度を算出するタイミングが処理負荷のピークとなる。本実施の形態においては、処理を平滑化して処理負荷のピークを低減する実施形態を示す。
【００５９】
図９は、この発明の一実施の形態による音声データ処理装置の構成を示すブロック図である。図において、前述の図と同様な構成には同一符号を付し、説明を省略する。
有音／無音区間長抽出部３は、有音／無音時間監視部３１と、有音／無音区間長保持部３２とを備える構成とされている。
【００６０】
有音／無音時間監視部３１は、上記音声データが上記揺らぎ吸収バッファ１に蓄積される際に上記音声データの有音時間及び無音時間を監視し、上記音声データの有音区間及び無音区間の各区間長を出力する。本実施の形態では、ネットワークから受信された音声パケットが揺らぎ吸収バッファ１に蓄積される際に、書き込み前に順次、当該音声パケットの音声信号の有音時間及び無音時間を監視し、音声信号の有音区間及び無音区間の各区間長を出力する。
【００６１】
有音／無音区間長保持部３２は、上記有音／無音時間監視部３１から出力された上記音声データの有音区間及び無音区間の各区間長を保持する。本実施の形態では、有音／無音時間監視部３１から出力された音声信号の有音区間及び無音区間の各区間長を保持する。
【００６２】
以下、動作について説明する。なお、揺らぎ吸収バッファ１、再生速度決定部２、無音区間再生速度決定部４、有音区間再生速度決定部５、音声再生部６の動作については、図１に示した音声データ処理装置と同様であるので、異なる動作について主に説明することとし、同様な動作については、説明を省略する。
【００６３】
ネットワークから音声パケットが受信されると、有音／無音時間監視部３１は、受信された音声パケットの音声信号の有音時間及び無音時間を監視し、音声信号の有音区間及び無音区間の各区間長を出力する。まず、有音／無音時間監視部３１は、音声信号が有音であるか無音であるかを判定する。そして、有音から無音に変化したときは、変化前の有音の時間長を音声信号の有音区間の区間長として出力し、無音から有音に変化したときは、変化前の無音の時間長を音声信号の無音区間の区間長として出力する。
【００６４】
また、有音／無音時間監視部３１は、区間長を出力する要求があった場合、例えば、再生速度算出タイミングを制御する機能を有する再生速度決定部２又は図示しない動作制御部等より、再生速度算出タイミングに区間長を出力する要求があった場合、その時点で監視中の有音区間または無音区間の区間長を出力すると共に、以降の受信音声信号を新たな有音又は無音区間と見なして有音時間又は無音時間の監視を行う。なお、再生速度算出タイミングは、例えば、予め定められた頻度（２０ｍｓ毎など）の他、揺らぎ吸収バッファ１から読み出された音声信号の量、音声再生部６で音声が再生された量などから検知することが可能である。
【００６５】
そして、有音／無音区間長保持部３２は、有音／無音時間監視部３１から出力された音声信号の有音区間及び無音区間の各区間長を保持する。
【００６６】
図１０は有音／無音区間長保持部３２の動作を示すフローチャートである。以下、このフローチャートに沿って、音声データ処理装置に図２（ａ）に示した音声信号が受信された場合の動作を説明する。
【００６７】
図２（ａ）に示すＸの範囲の音声信号が揺らぎ吸収バッファ１に蓄積されている状態では、それまでに、有音区間１と無音区間１との間、無音区間１と有音区間２の間、有音区間２と無音区間２の間、及び、無音区間２と有音区間３の間のタイミングで、有音／無音時間監視部３１から有音／無音区間長保持部３２に各区間の時間長ａ１、ｂ１、ａ２、ｂ２の入力があり（Ｓ１）、これらを内部に蓄積・保持する（Ｓ２）。そして、有音区間１の先頭が音声再生部６から読み出される直前のタイミングが再生速度算出タイミングであるため（Ｓ３）、内部に保持する有音区間、無音区間の時間長があるかどうかを判断する（Ｓ４）。ここでは、上記時間長ａ１、ｂ１、ａ２、ｂ２が保持されているため、これらを無音区間再生速度決定部４、有音区間再生速度決定部５、音声再生部６に出力し（Ｓ５）、保持していた上記時間長ａ１、ｂ１、ａ２、ｂ２を廃棄する（Ｓ６）。
【００６８】
次に、音声データ処理装置に図７に示した音声信号が受信された場合の動作を説明する。
有音区間１の先頭が音声再生部６から読み出される直前のタイミングが再生速度算出タイミングであり（Ｓ３）、この時点において、それまでの受信音声信号に有音から無音または無音から有音の変化がないため、有音／無音区間長保持部３２が保持する有音区間及び無音区間の時間長が存在しない（Ｓ４）。この場合、再生速度決定部２又は図示しない動作制御部が有音／無音時間監視部３１に有音区間／無音区間の時間長を要求し、この要求によって図７における有音区間１の時間長ａ１が有音／無音区間長保持部３２に入力される（Ｓ７）。そして、この時間長ａ１を有音／無音区間長保持部３２が無音区間再生速度決定部４、有音区間再生速度決定部５、音声再生部６に出力する（Ｓ８）。
【００６９】
このように、音声パケットが揺らぎ吸収バッファ１に蓄積される際に、音声パケットの受信毎に、当該音声パケットの音声信号の有音時間及び無音時間を監視し、音声信号の有音区間及び無音区間の各区間長を保持しておき、その各区間長を再生速度算出タイミングに無音区間再生速度決定部４、有音区間再生速度決定部５、音声再生部６に出力するように動作することにより、有音／無音区間長保持部３２からの出力は、実施の形態１で説明した図１に示される有音／無音区間長抽出部３の出力と同じとなる。そして、再生速度算出タイミングにおいて、揺らぎ吸収バッファ１に蓄積されている全ての音声信号について有音／無音判定し、音／無音区間長抽出する必要がなくなるため、処理負荷が一時的に増大せずに平滑化される。
【００７０】
以上のように、本実施の形態によれば、実施の形態１と同様に、音声品質が劣化し易い有音区間の再生速度変更量が少なくなり、音声の再生速度変更によって生じる音声品質の劣化を抑制することが出来る。更に、音声パケットが揺らぎ吸収バッファ１に蓄積される際に、音声パケットの受信毎に、音声信号の有音／無音判定と、音／無音区間長抽出を行うため、処理負荷を時間的に分散できるので、処理負荷のピークを低減することが出来る。
【００７１】
実施の形態３．
以上の実施の形態１、２では、揺らぎ吸収バッファ１内の音声信号蓄積量に基づいて再生速度を決定するようにしたものであるが、次に、受信音声パケットの伝送遅延量が増大した場合にその増大量に基づいて再生速度を決定する手段を備えた実施形態を示す。
【００７２】
図１１は、この発明の一実施の形態による音声データ処理装置の構成を示すブロック図である。図において、前述の図と同様な構成には同一符号を付し、説明を省略する。
伝送遅延監視部７は、上記音声データの伝送遅延を監視する。本実施の形態では、音声パケットの伝送遅延を監視する。
伝送遅延対応再生速度決定部８は、上記伝送遅延監視部７で監視された伝送遅延に基づいて、上記音声データの再生速度を決定する。本実施の形態では、伝送遅延監視部７で監視された伝送遅延に基づいて、音声信号の再生速度を決定する。また、本実施の形態では、揺らぎ吸収バッファ１の音声信号蓄積量に基づいて、伝送遅延に基づいて決定された音声信号の再生速度と、再生速度決定部２で決定された音声信号の再生速度との何れの再生速度を用いるかを判定する。
スイッチ９は、伝送遅延対応再生速度決定部８の判定結果に基づいて、再生速度決定部２で決定された音声信号の再生速度、又は伝送遅延に基づいて決定された音声信号の再生速度のいずれかの再生速度を出力する。
【００７３】
また、無音区間再生速度決定部４は、上記音声データの再生速度として、上記再生速度決定部２又は上記伝送遅延対応再生速度決定部８で決定された上記音声データの再生速度を用いて、上記無音区間の再生速度を決定するように構成され、本実施の形態では、再生速度決定部２又は伝送遅延対応再生速度決定部８で決定された音声信号の再生速度と、揺らぎ吸収バッファ１に蓄積されている音声信号の無音区間の区間長とに基づいて、上記無音区間の再生速度を決定する。
【００７４】
また、有音区間再生速度決定部５は、上記音声データの再生速度として、上記再生速度決定部２又は上記伝送遅延対応再生速度決定部８で決定された上記音声データの再生速度を用いて、上記有音区間の再生速度を決定するように構成され、本実施の形態では、再生速度決定部２又は伝送遅延対応再生速度決定部８で決定された音声信号の再生速度と、揺らぎ吸収バッファ１に蓄積されている音声信号の有音区間の区間長と、上記無音区間再生速度決定部４で決定された上記無音区間の再生速度とに基づいて、上記有音区間の再生速度を決定する。
【００７５】
次に動作について説明する。なお、揺らぎ吸収バッファ１、再生速度決定部２、無音区間再生速度決定部４、有音区間再生速度決定部５、音声再生部６の動作については、図１に示した音声データ処理装置と同様であるので、異なる動作について主に説明することとし、同様な動作については、説明を省略する。
【００７６】
ネットワークから音声パケットが受信されると、伝送遅延監視部７は、受信音声パケットの到着時間間隔とパケットヘッダのタイムスタンプ差を基に伝送遅延を監視し、伝送遅延量の増大を検出する。例えば、ある受信音声パケットと次の受信音声パケットの到着時間間隔がＴ１、パケットヘッダのタイムスタンプ差がＴ２であったとすると、Ｔ１−Ｔ２が遅延増大検出しきい値ＴＨ以上である場合、遅延増大と判定する。そして遅延増大と判定したら、その遅延増大量Ｔ３＝Ｔ１−Ｔ２を伝送遅延対応再生速度決定部８に指示する。
【００７７】
伝送遅延対応再生速度決定部８は、伝送遅延監視部７で監視された伝送遅延に基づいて、音声信号の再生速度を決定する。例えば、伝送遅延監視部７から遅延増大量Ｔ３を入力すると再生速度を上げる決定をする。そして、スイッチ９に対して再生速度として１４０％を出力する。同時にスイッチ９に対し、再生速度決定部２の出力ではなく、伝送遅延対応再生速度決定部８の出力を選択するように通知する。すなわち、揺らぎ吸収バッファ１の音声信号蓄積量に基づいて、伝送遅延に基づいて決定された音声信号の再生速度ではなく、伝送遅延に基づいて決定された再生速度を用いる判定をする。
【００７８】
そして、伝送遅延対応再生速度決定部８は、揺らぎ吸収バッファ１の音声信号蓄積量が再生速度決定部２において再生速度を上げる判定となるしきい値Ａ以上になると、スイッチ９の選択が元に戻るように、すなわち、再生速度決定部２が出力する再生速度を選択するように通知する。
【００７９】
スイッチ９が伝送遅延対応再生速度決定部８の通知にしたがって音声信号の再生速度を出力すると、出力された再生速度を用いて、実施の形態１と同様に、無音区間再生速度決定部４は、音区間の再生速度を決定し、有音区間再生速度決定部５は、有音区間の再生速度を決定する。
【００８０】
図１２と図１３は、音声データ処理装置の受信音声パケットの伝送遅延が急激に増大した場合における揺らぎ吸収バッファ１の音声パケット蓄積量と再生速度の変化を示したもので、図１２が図１及び図９に示した音声データ処理装置の場合、図１３が図１１に示した音声データ処理装置の場合の変化である。図１２、図１３共に、音声パケットのパケット化周期は２０ｍｓで、３個目の受信パケットと４個目の受信パケットの間で遅延が増大して到着時間差が１０００ｍｓとなり、その後、遅延していたパケットが短時間に到着した場合の例である。また、再生速度決定部２が再生速度を決定するために用いるしきい値Ａは５００ｍｓ、しきい値Ｂは３００ｍｓ、しきい値Ｃは１００ｍｓ、伝送遅延監視部７の遅延増大検出しきい値ＴＨは５００ｍｓに設定された場合の図となっている。
【００８１】
図１２の場合の揺らぎ吸収バッファ１における音声信号の蓄積量と再生速度の変化について説明する。
４個目のパケットが到着すると揺らぎ吸収バッファ１における音声信号の蓄積量が急激に増大してしきい値Ｂ（３００ｍｓ）を超え、再生速度が１００％となる。この速度で音声の再生が始まり、それから３００ｍｓ後（図１２中１３４０ｍｓの時点）に次の再生速度更新タイミングとなる。この時点での揺らぎ吸収バッファ１のバッファ残量は１０００ｍｓとなり、しきい値Ａ（５００ｍｓ）よりも大きいため再生速度は１４０％となる。この１４０％という速度は揺らぎ吸収バッファ１のバッファ残量がしきい値Ｂ（３００ｍｓ）以下になるまで１７５０ｍｓ間続き、その後は再生速度が１００％に戻る。
【００８２】
次に、図１３の場合の揺らぎ吸収バッファ１における音声信号の蓄積量と再生速度の変化について説明する。
４個目のパケットが到着すると、３個目のパケットとの到着時間間隔は１０００ｍｓ、タイムスタンプ差は２０ｍｓであり、その差９８０ｍｓが遅延増大検出しきい値ＴＨ（５００ｍｓ）よりも大きいため、再生速度は１４０％となる。この状態が揺らぎ吸収バッファ１のバッファ残量がしきい値Ｂ（３００ｍｓ）以下になるまで１６９０ｍｓ間続き、その後は再生速度が１００％に戻る。
【００８３】
図１２と図１３とを比較すると分る通り、揺らぎ吸収バッファ１における音声信号の蓄積量が大きい状態は、図１３の方が短い期間で終ることが分る。電話のように音声の双方向通話が行われる場合、伝送遅延は通話品質に大きな影響を与え、伝送遅延が小さいほど通話品質が良い。つまり、揺らぎ吸収バッファ１における音声信号の蓄積量は、図１２に示すような変化（音声の再生の遅延時間が長い状態（揺らぎ吸収バッファ１における音声信号の蓄積量が大きい状態）が長時間続いているような変化）をするよりも図１３に示す変化（音声の再生の遅延時間が長い状態（揺らぎ吸収バッファ１における音声信号の蓄積量が大きい状態）が長時間続かないような変化）をする方が望ましいと言える。
【００８４】
以上のように、本実施の形態によれば、実施の形態１と同様に、音声品質が劣化し易い有音区間の再生速度変更量が少なくなり、音声の再生速度変更によって生じる音声品質の劣化を抑制することが出来る。更に、音声パケットの伝送遅延を監視して伝送遅延に基づいて音声信号の再生速度を決定し、当該伝送遅延に基づいて決定された音声信号の再生速度と、揺らぎ吸収バッファ１の音声信号蓄積量に基づいて決定された音声信号の再生速度とのいずれかの再生速度を用いるようにしたことにより、伝送遅延の変動による通話品質の劣化を抑制することが出来る。例えば、受信音声パケットの伝送遅延が増大した場合に再生速度を上げるようにしたので、伝送遅延が急激に増大した場合の通話品質の劣化を抑制することが出来る。
【００８５】
なお、上記説明では、伝送遅延増大時の再生速度を揺らぎ吸収バッファ１における音声信号の蓄積量がしきい値Ａ以上となった場合と同じ１４０％としたが、これを遅くすることで、伝送遅延増大後に揺らぎ吸収バッファ１における音声信号の蓄積量が３００ｍｓに戻るまでの時間が同じとなるようにしても良い。これにより、再生速度を１４０％より下げることが出来るため、音声の再生速度変更によって生じる音声品質の劣化を更に抑えることが出来る。
【００８６】
また、上記説明では、伝送遅延対応再生速度決定部８が、揺らぎ吸収バッファ１の音声信号蓄積量に基づいて、伝送遅延に基づいて決定された音声信号の再生速度と、再生速度決定部２で決定された音声信号の再生速度との何れの再生速度を用いるかを判定する場合について説明したが、伝送遅延に基づいて決定された音声信号の再生速度と、再生速度決定部２で決定された音声信号の再生速度との何れの再生速度を用いるかを判定する機能をスイッチ９に備えるようにしても良い。この場合、揺らぎ吸収バッファ１と伝送遅延対応再生速度決定部８との接続線は不要となり、スイッチ９は、再生速度決定部２から入力された再生速度と伝送遅延対応再生速度決定部８から入力された再生速度とを比較することにより、何れの再生速度を用いるかを判定する。
【００８７】
また別の構成として、再生速度決定部２で決定された音声信号の再生速度を伝送遅延対応再生速度決定部８に入力するようにし、伝送遅延対応再生速度決定部８が、伝送遅延に基づいて決定された音声信号の再生速度と、再生速度決定部２から入力された再生速度との何れの再生速度を用いるかを判定し、判定結果に基づいていずれかの再生速度を出力するようにしても良い。この場合、揺らぎ吸収バッファ１と伝送遅延対応再生速度決定部８との接続線は不要となり、スイッチ９も不要となる。
【００８８】
実施の形態４．
上記実施の形態１、２、３においては、再生速度を上げる場合に通常速度の１４０％、下げる場合に通常速度の７０％としたが、他の速度であってもよい。更に、再生速度を上げる場合及び下げる場合の速度を２通り以上とすることも可能である。
【００８９】
実施の形態５．
再生速度算出タイミングは１０ｍｓ毎など頻度を上げてもよい。音声復号器と組み合わせて動作する場合には、その音声符号化フレーム毎のタイミングとしてもよい。
また、以上で説明した実施の形態１、２、３の各構成については、発明の主旨を逸脱しない範囲で適宜組み合わせることが可能である。
【符号の説明】
【００９０】
１揺らぎ吸収バッファ、２再生速度決定部、３有音／無音区間長抽出部、４無音区間再生速度決定部、５有音区間再生速度決定部、６音声再生部、７伝送遅延監視部、８伝送遅延対応再生速度決定部、９スイッチ、３１有音／無音時間監視部、３２有音／無音区間長保持部。

【特許請求の範囲】
【請求項１】
音声データが蓄積される揺らぎ吸収バッファと、
上記揺らぎ吸収バッファに蓄積されている音声データ量に基づいて、上記音声データの再生速度を決定する再生速度決定部と、
上記音声データの有音区間及び無音区間の各区間長を抽出する有音／無音区間長抽出部と、
上記再生速度決定部で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部で抽出された上記揺らぎ吸収バッファに蓄積されている音声データの無音区間の区間長とに基づいて、上記無音区間の再生速度を決定する無音区間再生速度決定部と、
上記再生速度決定部で決定された上記音声データの再生速度と、上記有音／無音区間長抽出部で抽出された上記揺らぎ吸収バッファに蓄積されている音声データの有音区間の区間長と、上記無音区間再生速度決定部で決定された上記無音区間の再生速度とに基づいて、上記有音区間の再生速度を決定する有音区間再生速度決定部と、
上記有音／無音区間長抽出部で抽出された有音区間及び無音区間の各区間長に対応する音声データを上記揺らぎ吸収バッファから読み出し、上記無音区間再生速度決定部で決定された上記無音区間の再生速度と、上記有音区間再生速度決定部で決定された上記有音区間の再生速度とに基づいて、上記音声データを再生する音声再生部と
を備えたことを特徴とする音声データ処理装置。
【請求項２】
上記無音区間再生速度決定部は、予め定められた再生速度の設定範囲内で上記無音区間の再生速度を決定することを特徴とする請求項１に記載の音声データ処理装置。
【請求項３】
上記有音／無音区間長抽出部は、上記音声データが上記揺らぎ吸収バッファに蓄積される際に上記音声データの有音時間及び無音時間を監視し、上記音声データの有音区間及び無音区間の各区間長を出力する有音／無音時間監視部と、
上記有音／無音時間監視部から出力された上記音声データの有音区間及び無音区間の各区間長を保持する有音／無音区間長保持部とを備え、
上記無音区間再生速度決定部は、上記揺らぎ吸収バッファに蓄積されている音声データの無音区間の区間長として、上記有音／無音区間長保持部に保持された上記無音区間の区間長を用いて上記無音区間の再生速度を決定し、
上記有音区間再生速度決定部は、上記揺らぎ吸収バッファに蓄積されている音声データの有音区間の区間長として、上記有音／無音区間長保持部に保持された上記有音区間の区間長を用いて上記有音区間の再生速度を決定する
ことを特徴とする請求項１に記載の音声データ処理装置。
【請求項４】
上記音声データの伝送遅延を監視する伝送遅延監視部と、
上記伝送遅延監視部で監視された伝送遅延に基づいて、上記音声データの再生速度を決定する伝送遅延対応再生速度決定部とを備え、
上記無音区間再生速度決定部は、上記音声データの再生速度として、上記再生速度決定部又は上記伝送遅延対応再生速度決定部で決定された上記音声データの再生速度を用いて、上記無音区間の再生速度を決定し、
上記有音区間再生速度決定部は、上記音声データの再生速度として、上記再生速度決定部又は上記伝送遅延対応再生速度決定部で決定された上記音声データの再生速度を用いて、上記有音区間の再生速度を決定する
ことを特徴とする請求項１に記載の音声データ処理装置。

【図１】