説明

電話音声区間検出装置およびそのプログラム

【課題】放送音声データ中に含まれる電話音声区間を自動検出する。
【解決手段】本発明の電話音声区間検出装置は、放送音声データから予め定められた時間間隔でフレーム毎に音声波形を切り出し、音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算し、それぞれの積算値を対数化し、対数化されたそれぞれの積算値の差分を生成し、差分の時間的変化を平滑化し、この差分の時間的変化を平滑化した値と、予め設定された閾値とを比較して電話音声区間か否かを判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、放送音声から電話音声区間を検出する電話音声区間検出装置およびそのプログラムに関する。
【背景技術】
【0002】
従来から、音声区間を検出する方法が種々提案されている。
例えば、短時間の対数エネルギーにおいて適応的な2つの閾値により音声/非音声を判定する方法が知られている(例えば、非特許文献1参照)。
また例えば、放送音声中の音声と音楽とを判別する方法として、単位時間中のゼロ交差の割合とエネルギーを特徴ベクトルとして学習モデルを用いて判定する方法(例えば、非特許文献2参照)や、周波数領域のパラメータを特徴ベクトルとして統計的な識別学習を用いて判定する方法(例えば、非特許文献3参照)が知られている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】S .V. Gerven and F. Xie, ”A Comparative Study of Speech Detection Methods”, Eurospeech, pp.1095‐1098, 1997.
【非特許文献2】J. Saunders, ”Real‐Time Discrimination of Broadcast Speech/Music”, IEEE ICASSP96, pp.993‐996, May 1996
【非特許文献3】C. Liu, L. Xie and H. Meng, ”Classification of Music and Speech in Mandarin News Broadcasts”, 9th National Conference on Man‐Machine Speech Communication, 2007
【発明の概要】
【発明が解決しようとする課題】
【0004】
ここで、放送番組の受信機側では、放送音声をユーザの年代に応じて聞き取りやすい速さに変更して享受することが行われている。このような音声処理は、放送音声の帯域を特定の手法で予め分析し、この分析結果を用いて行われている。
【0005】
ところで、例えばクイズ番組やニュース番組等では、スタジオの司会者等が電話で外部の人間と会話をしながら番組を進行する場面がみられることがある。このような電話音声の帯域は、放送音声の帯域に比べて狭いことから、放送音声に対するのと同様の手法によっては、電話音声の帯域を正確に分析することが困難である。このため、電話音声については、放送音声と別の手法によって帯域を分析する必要がある。したがって、放送音声中の電話音声についても前記したような音声処理を行うためには、放送音声から電話音声を抽出する必要があり、このために、放送音声中の電話音声区間を正確に検出する必要がある。
【0006】
しかしながら、非特許文献1に開示された技術は、入力データ中の音声区間もしくは非音声区間を検出し判定するものであり、放送音声中の電話音声区間を検出することはできなかった。
また、非特許文献2に開示された方法は、ゼロ交差の割合とエネルギーに基づき、学習により放送音声が音声か音楽かを判定するものであり、放送音声中の電話音声区間を検出することはできなかった。
また、非特許文献3に開示された技術は、周波数領域のパラメータを特徴ベクトルとし、音声か音楽かを学習したうえで識別するものであり、放送音声データ中の電話音声区間を検出し判定することはできなかった。このように、いずれの技術によっても放送音声中の電話音声区間を自動的に検出することができなかった。
【0007】
また、図9に示されるような放送音声のデータを用いて電話音声区間を検出することも考えられる。ここで、図9(a)は、音声波形を、図9(b)は、ソナグラムをそれぞれ示したものである。すなわち、図9(a)、(b)に示されるように、音声波形を時間、周波数、強度(パワー)で表示したソナグラム上では、音声のホルマント(主要周波数成分)が縦縞となって特徴的なパターンで出現するため、放送音声中に混在する電話音声を目視で検出することが可能であるが、この方法によると、操作者が放送音声のデータを確認して手作業で電話音声区間を検出しなければならないため、手数がかかってしまっていた。
【0008】
本発明は上記した課題を解決するためになされたものであり、放送音声データ中に含まれる電話音声区間を自動検出する電話音声区間検出装置およびそのプログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
上記した課題を解決するために、本発明の請求項1に記載の電話音声区間検出装置は、入力された放送音声から電話音声区間を検出する電話音声区間検出装置であって、入力音声切出し手段と、パワー積算手段と、対数変換手段と、差分生成手段と、平滑化処理手段と、閾値判定手段とを備えたことを特徴とする。
【0010】
かかる構成において、電話音声区間検出装置は、入力音声切出し手段によって、前記放送音声データから予め定められた時間間隔でフレーム毎に音声波形を切り出す。
【0011】
また、電話音声区間検出装置は、パワー積算手段によって、前記入力音声切出し手段によって切り出された前記音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算する。これによって、電話音声区間検出装置は、フレーム毎に、電話音声周波数帯域と電話音声周波数帯域外のそれぞれについてのパワー積算値を算出することができる。
【0012】
さらに、電話音声区間検出装置は、対数変換手段によって、前記パワー積算手段によって算出されたそれぞれの前記パワー積算値を対数化する。これによって、それぞれの前記パワー積算値を対比しやすい値とすることができる。
【0013】
またさらに、電話音声区間検出装置は、差分生成手段によって、前記対数変換手段によって対数化されたそれぞれの前記パワー積算値の差分を生成する。これによって、電話音声区間検出装置は、フレーム毎に、電話音声周波数帯域のパワー積算値の、電話音声周波数帯域外のパワー積算値に対する割合を算出することができる。
【0014】
そして、電話音声区間検出装置は、平滑化処理手段によって、前記差分生成手段によって生成された前記差分の時間的変化を平滑化する。これによって、ノイズ等の余分な成分を消すことができるので、閾値判定手段による誤判定を防止することができる。
【0015】
そして、電話音声区間検出装置は、閾値判定手段によって、前記平滑化処理手段によって平滑化された値と、予め設定された閾値とを比較して前記電話音声区間か否かを判定する。これによって、放送音声中の電話音声区間を自動で検出することができる。具体的には、平滑化された値が閾値以上の場合、電話音声区間と判定し、平滑化された値が閾値よりも小さい場合、電話音声区間ではないと判定する。
【0016】
また、請求項2に記載の電話音声区間検出装置は、請求項1に記載の電話音声区間検出装置において、前記パワー積算手段は、帯域分割手段と、パワー積算値演算手段とを備えることを特徴とする。
【0017】
かかる構成によれば、電話音声区間検出装置は、帯域分割手段によって、前記入力音声切出し手段によって切り出された前記音声波形を、前記電話音声周波数帯域と、当該電話音声周波数帯域外の帯域とに帯域分割する。例えば、フィルタによって音声波形をそれぞれの帯域に帯域分割することができる。
【0018】
また、電話音声区間検出装置は、パワー積算値演算手段によって、前記帯域分割手段によって分割された前記電話音声周波数帯域のパワー積算値と、前記電話音声周波数帯域外の帯域のパワー積算値とを演算する。
【0019】
また、請求項3に記載の電話音声区間検出装置は、請求項1に記載の電話音声区間検出装置において、前記パワー積算手段は、周波数特性演算手段と、スペクトル算出手段と、パワー積算値演算手段と、を備えることを特徴とする。
かかる構成によれば、電話音声区間検出装置は、周波数特性演算手段によって、前記入力音声切出し手段によって切り出された前記音声波形の周波数特性を算出する。例えば、音声波形をフーリエ変換することによって、周波数特性を算出することができる。
【0020】
また、電話音声区間検出装置は、スペクトル算出手段によって、前記周波数特性演算手段によって算出された前記周波数特性に基づいて前記電話音声周波数帯域のスペクトルと、前記電話音声周波数帯域外のスペクトルとを算出する。
そして、電話音声区間検出装置は、パワー積算値演算手段によって、前記スペクトル算出手段によって算出された前記電話音声周波数帯域の前記スペクトルのパワー積算値と、前記電話音声周波数帯域外の前記スペクトルのパワー積算値とを演算する。
【0021】
さらに、請求項4に記載の電話音声区間検出装置は、請求項3に記載の電話音声区間検出装置において、前記周波数特性演算手段が、前記音声波形の振幅スペクトル、線形予測符号によるスペクトル包絡、線形予測符号によるケプストラム包絡、フーリエ解析ケプストラム包絡の少なくとも一つの音声解析を実行して前記周波数特性を算出することを特徴とする。
【0022】
かかる構成によれば、音声特徴量に基づいて、周波数特性を算出することができる。
【0023】
また、請求項5に記載の電話音声区間検出装置は、請求項1から請求項4のいずれか一項に記載の電話音声区間検出装置において、前記平滑化処理手段は、IIRによる低域フィルタ、またはFIRによる低域フィルタとすることを特徴とする。
【0024】
かかる構成によれば、良好な振幅特性を取り出すことができる。
【0025】
また、請求項6に記載の音声区間検出プログラムは、入力された放送音声から電話音声区間を検出するために、コンピュータを、入力音声切出し手段、パワー積算手段、対数変換手段、差分生成手段、平滑化処理手段、閾値判定手段として機能させるためのものである。
【0026】
かかる構成によれば、音声区間検出プログラムは、入力音声切出し手段によって、前記放送音声データから予め定められた時間間隔でフレーム毎に音声波形を切り出す。
そして、音声区間検出プログラムは、パワー積算手段によって、前記入力音声切出し手段によって切り出された前記音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算する。
さらに、音声区間検出プログラムは、対数変換手段によって、前記パワー積算手段によって算出されたそれぞれの前記パワー積算値を対数化する。
またさらに、音声区間検出プログラムは、差分生成手段によって、前記対数変換手段によって対数化されたそれぞれの前記パワー積算値の差分を生成する。
そして、音声区間検出プログラムは、平滑化処理手段によって、前記差分生成手段によって生成された前記差分の時間的変化を平滑化する。
そして、音声区間検出プログラムは、閾値判定手段によって、前記平滑化処理手段によって平滑化された値と、予め設定された閾値とを比較して前記電話音声区間か否かを判定する。
【発明の効果】
【0027】
本発明によれば、放送音声データ中に含まれる電話音声区間を自動で検出することが可能となる。
【図面の簡単な説明】
【0028】
【図1】本発明の第1の実施形態に係る音声区間検出装置の構成を示すブロック図である。
【図2】本発明の第1の実施形態に係る音声区間検出装置の動作を示すフローチャートである。
【図3】本発明の第1の実施形態に係る音声区間検出装置において、平滑化処理手段としてIIRフィルタを使用した場合の平滑化処理例を時間軸上で示した図である。
【図4】本発明の第1の実施形態に係る音声区間検出装置において、平滑化処理手段としてFIRフィルタを使用した場合の平滑化処理例を時間軸上で示した図である。
【図5】本発明の第1の実施形態に係る音声区間検出装置において、検出閾値が2.0の場合の音声データ毎の電話音声区間検出率の一例を示した図である。
【図6】本発明の第1の実施形態に係る音声区間検出装置において、検出閾値の違いによる電話音声区間検出率の変化を音声データ毎に示した図である。
【図7】本発明の第2の実施形態に係る音声区間検出装置の構成を示すブロック図である。
【図8】本発明の第2の実施形態に係る音声区間検出装置の動作を示すフローチャートである。
【図9】放送音声中に混在する電話音声区間の一例を示した図である。
【発明を実施するための形態】
【0029】
以下、本発明の実施の形態について、詳細に説明する。
【0030】
[第1の実施形態]
図1〜図6を参照しながら第1の実施形態に係る電話音声区間検出装置1Aについて説明する。
図1に示されるように、第1の実施形態に係る電話音声区間検出装置1Aは、入力音声切出し手段11Aと、パワー積算手段12Aと、対数変換手段13と、差分生成手段14と、平滑化処理手段15と、閾値判定手段16と、閾値記憶手段17と、を含む構成とした。
【0031】
入力音声切出し手段11Aは、外部から放送音声データが入力されると、この入力された放送音声から予め定められた時間間隔で分析フレーム毎に音声波形を切り出すものである。ここで入力される放送音声データは、標本化周波数48kHz、量子化16ビットでAD(Analog-Digital)変換されたデジタル信号とする。入力音声切出し手段11Aは、放送音声データから、例えば、窓幅50ms、シフト幅5msのフレームで音声波形を切り出す。以下では、mフレーム、nサンプルのデータをx(m,n)で表す。但し、0≦n<Nであり、Nは窓幅50ms相当のサンプル数とする。例えば、所定の窓幅とシフト幅のフレームで音声波形を切り出す。切り出された音声波形は、パワー積算手段12Aへ出力される。
【0032】
パワー積算手段12Aは、入力音声切出し手段11Aによって切り出された音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを算出するものであり、ここでは、帯域分割手段12Aaと、パワー積算値演算手段12Abとを備えることとした。
帯域分割手段12Aaは、入力音声切出し手段11Aにより切り出されたフレーム毎の音声波形を、低域、中域、高域の3つの帯域に分割するものである。例えば、中域を電話音声周波数帯域である300〜3500Hzとし、低域を300Hzより小さい帯域とし、高域を3500Hzより大きい帯域とする。帯域分割手段12Aaは、IIRフィルタまたはFIRフィルタにより、音声波形をそれぞれの帯域に分割する。ここでは、低域の音声波形をx(m,n)とし、中域の音声波形をx(m,n)とし、高域の音声波形をx(m,n)とする。帯域毎の音声波形は、パワー積算値演算手段12Abへ出力される。
【0033】
パワー積算値演算手段12Abは、帯域分割手段12Aaで分割された音声波形の帯域毎に音声波形のパワー積算値(振幅の自乗値)を演算するものである。すなわち、パワー積算値演算手段12Abは、分割された帯域の音声波形において、音声波形の振幅の自乗値を、所定の窓幅とシフト幅のフレーム分積算する。
パワー積算値演算手段12Abは、例えば式(1)によって低域のパワー積算値P(m)と、中域のパワー積算値P(m)と、高域のパワー積算値P(m)とを算出する。
【0034】
【数1】

【0035】
さらに、パワー積算値演算手段12Abは、低域のパワー積算値P(m)と、高域のパワー積算値P(m)とを加算し、パワー積算加算値PL+H(m)=P(m)+P(m)を算出する。このようにして算出されたパワー積算加算値PL+H(m)と、中域のパワー積算値P(m)は、対数変換手段13へ出力される。
【0036】
対数変換手段13は、パワー積算値演算手段12Abにより算出されたパワー積算加算値PL+H(m)と、中域のパワー積算値P(m)とをそれぞれ対数化するものである。パワー積算加算値PL+H(m)と、中域のパワー積算値P(m)とを対数化することで、桁数を揃えることができるので、対比をしやすくなる。ここでは、パワー積算加算値PL+H(m)を対数化した値を、log(PL+H(m))とし、中域のパワー積算値P(m)を対数化した値をlog(P(m))とする。
このようにして対数化後のパワー積算加算値log(PL+H(m))と、対数化後の中域のパワー積算値log(P(m))は、差分生成手段14へ出力される。
【0037】
差分生成手段14は、対数変換手段13により対数化された対数化後の中域のパワー積算値log(P(m))と、対数化後のパワー積算加算値log(PL+H(m))との差分演算を行い、差分値D(m)=log(PL+H(m))−log(P(m))を生成するものである。生成された差分値D(m)は、平滑化処理手段15へ出力される。
【0038】
平滑化処理手段15は、差分生成手段14より出力される差分値を平滑化するものである。平滑化処理手段15は、例えば、IIR(Infinite Impulse Response)フィルタまたはFIR(Finite Impulse Response)フィルタ等のデジタルフィルタにより差分値を平滑化する。
平滑化処理手段15は、例えば、以下に示す式(2)で示す一次のIIRフィルタで差分値を平滑化する。
【0039】
【数2】


ここでα=0.99とする。図3は、IIRフィルタを使用した場合における差分値の平滑化処理例を時間軸上に表したグラフである。図3に示すように、差分値D(m)を平滑化した値Dsmz(m)は、入力される放送音声データに対するパワー積算値の対数値の0近辺に分布している。
【0040】
一方、オフライン処理を行う場合は、平滑化処理手段15は、例えば、標本化周波数を1.0としたとき、カットオフ周波数が0.005のFIR型のローパスフィルタで平滑化する。
図4は、FIRフィルタを使用した場合における差分値の平滑化処理例を時間軸上に表したグラフである。図4に示すように、差分値D(m)を平滑化した値Dsmz(m)は、入力される放送音声データに対するパワー積算値の対数値の0近辺に分布している。
このようにして平滑化された差分値Dsmz(m)は、閾値判定手段16へ出力される。
【0041】
閾値判定手段16は、平滑化処理手段15により平滑化された差分値と、閾値記憶手段17に記憶された最適化された閾値とを比較し、入力音声切出し手段11Aで切り出された分析フレーム毎に電話音声区間を判定するものである。最適化された閾値の決定方法については後述する。
【0042】
以下、図2のフローチャートを参照しながら、図1に示した本発明の第1の実施形態に係る電話音声区間検出装置1Aの動作について詳細に説明する。
【0043】
電話音声区間検出装置1Aは、入力音声切出し手段11Aによって、入力された放送音声データを、予め定めた時間間隔で分析フレーム毎に切り出す(ステップS201)。電話音声区間検出装置1Aは、入力音声切出し手段11Aによって、フレーム毎に切り出した音声波形をパワー積算手段12Aに出力する。
【0044】
電話音声区間検出装置1Aは、パワー積算手段12Aの帯域分割手段12Aaによって、入力音声切出し手段11Aによりフレーム毎に切り出された音声波形を、低域の音声波形x(m,n)と、中域の音声波形x(m,n)と、高域の音声波形x(m,n)とに分割する(ステップS202)。
そして、電話音声区間検出装置1Aは、帯域分割手段12Aaによって、低域の音声波形x(m,n)と、中域の音声波形x(m,n)と、高域の音声波形x(m,n)とを、パワー積算値演算手段12Abに出力する。
【0045】
電話音声区間検出装置1Aは、パワー積算手段12Aのパワー積算値演算手段12Abによって、帯域分割手段12Aaにより帯域毎に分割されたフレーム毎の音声波形のパワー積算値を前記式(1)により演算し、低域のパワー積算値P(m)と、中域のパワー積算値をP(m)と、高域のパワー積算値をP(m)とを得る(ステップS203〜S205)。
【0046】
さらに、電話音声区間検出装置1Aは、パワー積算値演算手段12Abによって、ステップS204で演算した低域のパワー積算値P(m)と、ステップS206で演算した高域のパワー積算値P(m)とを加算し、パワー積算加算値PL+H(m)を算出する(ステップS206)。そして、電話音声区間検出装置1Aは、パワー積算値演算手段12Abによって、得られたパワー積算加算値PL+H(m)と中域のパワー積算値P(m)とを、対数変換手段13へ出力する。
【0047】
電話音声区間検出装置1Aは、対数変換手段13によって、パワー積算手段12Aのパワー積算値演算手段12Abにより算出されたパワー積算加算値PL+H(m)を対数化して対数化後のパワー積算加算値log(PL+H(m))を得る(ステップS207)。また、電話音声区間検出装置1Aは、対数変換手段13によって、パワー積算手段12Aのパワー積算値演算手段12Abにより算出された中域のパワー積算値P(m)を対数化して、対数化後の中域のパワー積算値log(P(m))を得る(ステップS208)。
そして、電話音声区間検出装置1Aは、対数変換手段13によって、得られた対数化後のパワー積算加算値log(PL+H(m))と、対数化後の中域のパワー積算値log(P(m))を差分生成手段14に出力する。
【0048】
電話音声区間検出装置1Aは、差分生成手段14によって、対数変換手段13から入力された対数化後のパワー積算加算値log(PL+H(m))と、対数化後の中域のパワー積算値log(P(m))との差分演算を行い、差分値D(m)を得る(ステップS209)。そして、電話音声区間検出装置1Aは、差分生成手段14によって、得られた差分値D(m)を平滑化処理手段15に出力する。
【0049】
電話音声区間検出装置1Aは、平滑化処理手段15によって、差分生成手段14により得られた差分値D(m)を平滑化し、差分値D(m)を平滑化した値Dsmz(m)を生成する(ステップS210)。そして、電話音声区間検出装置1Aは、平滑化処理手段15によって、差分値D(m)を平滑化した値Dsmz(m)を閾値判定手段16に出力する。
【0050】
電話音声区間検出装置1Aは、閾値判定手段16によって、平滑化処理手段15から入力された差分値D(m)を平滑化した値Dsmz(m)を、閾値記憶手段17に記憶された予め適切に設定した閾値DTHと比較判定する(ステップS211)。そして、電話音声区間検出装置1Aは、閾値判定手段16によって、差分値D(m)を平滑化した値Dsmz(m)が、閾値DTH未満と判定した場合には(ステップS211“<”)、この分析フレームを電話音声区間と判定する(ステップS212)。
以上の動作によって、電話音声区間検出装置1Aは、電話音声区間を自動で検出することができる。
【0051】
[閾値設定方法]
ここで、電話音声区間検出装置1Aの閾値判定手段16によって、最適な閾値DTHを設定する方法について説明する。
図5に、閾値DTHを2.0としたときの音声データ毎の再現率Rと、適合率R、および、検出率Fの例を示す。検出率Fは、閾値DTHにより、電話音声区間を正しく判定できたか否かを評価する指標である。なお、閾値DTHは、入力される各放送音声データに対し、各分析フレームが、電話音声区間か、電話音声区間以外かを事前に人手により判定したものを正解とし、以下に説明する方法で設定している。
検出率Fは、以下に示す式(3)に示されるように、再現率Rと、適合率Rから求められる。
【0052】
【数3】

【0053】
つまり、再現率Rと適合率Rとをこのように定義したときに、一例として、検出率Fは式(3)により求められる。
【0054】
また、図6に、入力される放送音声データ毎の閾値DTHの違いによる検出率Fの変化例を示す。図6に示す例によれば、閾値DTHが2.0のときに、音声データによらずに比較的高い性能を示す最適値となる。
【0055】
すなわち、閾値判定手段16は、放送音声データを構成するフレームのそれぞれが電話音声区間か電話音声区間外かについて予め人手により判定したデータ(学習データ)に基づき、自身による電話音声区間の判定が人手による電話音声区間判定に合致したフレーム数と、人手により合致したと判定したフレーム数との割合を示す再現率Rと、人手による判定が電話音声区間判定に合致したフレーム数と、自身による電話音声区間判定フレーム数との割合を示す適合率Rとを算出し、ここで算出された再現率Rと適合率Rを式(3)に代入して求めた検出率Fに基づき最適な閾値DTHを設定する。
【0056】
上述した第1の実施形態によれば、電話音声区間検出装置1Aは、入力される放送音声データに対してフレーム毎に音声波形を切り出し、低域、中域、高域に帯域分割して、電話音声周波数帯域(中域)のパワー積算値と、電話音声周波数帯域外(低域と高域)の帯域のパワー積算値(パワー積算加算値)の対数をとった差分を平滑化した値について、閾値と比較判定することで、放送音声中の電話音声区間を自動的に検出することができる。また、閾値を決定するにあたり、事前に与えられた学習データセットによって得られた最適値を用いることで、電話音声区間のより正確な検出が可能になる。
【0057】
[第2の実施形態]
次に、図7を参照しながら本発明の第2の実施形態に係る電話音声区間検出装置1Bについて説明する。
以下に説明する本発明の第2の実施形態に係る電話音声区間検出装置1Bにおいて、本発明の第1の実施形態に係る電話音声区間検出装置1Aとの差異は、入力音声切出し手段の構成およびパワー積算手段の構成を変更した点にある。以下の第2の実施形態に係る電話音声区間検出装置1Bの説明において、第1の実施形態に係る電話音声区間検出装置1Aと共通する構成については同一の符号を付し重複する説明を省略する。
【0058】
電話音声区間検出装置1Bは、入力音声切出し手段11Bと、パワー積算手段12Bと、対数変換手段13と、差分生成手段14と、平滑化処理手段15と、閾値判定手段16と、閾値記憶手段17と、を備える構成とした。
【0059】
入力音声切出し手段11Bは、音声波形切出し手段11Baと、窓関数乗算手段11Bbとを備える。
音声波形切出し手段11Baは、外部から放送音声データが入力されると、この入力された放送音声から予め定められた時間間隔で分析フレーム毎に音声波形を切り出すものである。切り出された音声波形は、窓関数乗算手段11Bbに出力される。
【0060】
窓関数乗算手段11Bbは、音声波形切出し手段11Baによって切り出された音声波形に窓関数を乗算するものである。窓関数を乗じるのは、次に述べるFFT演算手段12Baによって周波数特性を求める際に、切り出し区間の始めと終わりの部分が不連続となることによりスペクトル特性に与える影響を極力少なくするためである。窓関数が乗算された音声波形は、パワー積算手段12Bに出力される。
【0061】
パワー積算手段12Bは、FFT(Fast Fourier Transform)演算手段12Ba(周波数特性演算手段)と、スペクトル算出手段12Bbと、パワー積算値演算手段12Bcを備えたことにある。
【0062】
FFT演算手段12Baは、入力音声切出し手段11Bによってフレーム毎に切り出された放送音声データ中にどの周波数成分がどれくらい含まれているかを示す周波数特性X(m,k)=FFT(x(m,n))をフーリエ変換により抽出するものである。但し、ここでは、0≦k<Kとし、Kは、窓幅50ms相当のサンプル数を超える最小の2の累乗数であり、たとえば、標本化周波数48kHzでは4096ポイントになる。演算された周波数特性は、スペクトル算出手段12Bbへ出力される。
【0063】
スペクトル算出手段12Bbは、FFT演算手段12Baにより演算された周波数特性から、周波数振幅特性を算出するものである。スペクトル算出手段12Bbは、FFT演算手段12Baにより演算された周波数特性から、スペクトルS(m,k)=|X(m,k)|を演算する。
なお、周波数振幅で表現可能な音声特徴量であれば特に限定されるものではなく、例えば、振幅スペクトル、LPC(線形予測符号:Linear Predictive Coding)によるスペクトル包絡、LPCケプストラムによるスペクトル包絡、または、FFTケプストラムによるスペクトル包絡に類するものを用いることができる。
【0064】
パワー積算値演算手段12Bcは、スペクトル算出手段12Bbによって算出されたスペクトルS(m,k)に基づき、帯域毎のパワー積算値(振幅スペクトルの自乗和)を演算するものである。
パワー積算値演算手段12Bcは、例えば式(4)によって低域のパワー積算値P(m)と、中域のパワー積算値P(m)と、高域のパワー積算値P(m)とを演算する。
【0065】
【数4】

【0066】
ここで、例えば標本化周波数48kHzにおけるフーリエ変換のポイント数Kを4096ポイントとしたとき、Kを300Hz相当の25とし、Kを3500Hz相当の298とし、Kを標本化周波数の半分に相当する24kHz相当の2048とする。
さらに、パワー積算値演算手段12Bcは、低域のパワー積算値P(m)と、高域のパワー積算値P(m)とを加算し、パワー積算加算値PL+H(m)=P(m)+P(m)を算出する。このようにして算出されたパワー積算加算値PL+H(m)と、中域のパワー積算値P(m)は、対数変換手段13へ出力される。
【0067】
以下、図8のフローチャートを参照しながら、図7に示した本発明の第2の実施形態に係る電話音声区間検出装置1Bの動作について、第1の実施形態に係る電話音声区間検出装置1Aの動作と異なる点を主に説明する。
【0068】
まず、電話音声区間検出装置1Bは、入力音声切出し手段11Bによって、放送音声データが入力される。ここで入力される放送音声データは、標本化周波数48kHz、量子化16ビットでAD(Analog-Digital)変換されたデジタル信号とする。電話音声区間検出装置1Bは、入力音声切出し手段11Bの音声波形切出し手段11Baによって、入力された放送音声データを、予め定めた時間間隔で分析フレーム毎に切り出し、窓関数乗算手段11Bbに出力する(ステップS801)。
次に、電話音声区間検出装置1Bは、入力音声切出し手段11Bの窓関数乗算手段1Bbによって、音声波形切出し手段11Baによって切り出された音声波形に、窓関数を乗算し、パワー積算手段12Bに出力する(ステップS802)。
【0069】
続いて、電話音声区間検出装置1Bは、パワー積算手段12BのFFT演算手段12Baによって、音声波形切出し手段11Baによりフレーム毎に切り出され、窓関数乗算手段11Bbによって窓関数が乗算された音声波形をフーリエ変換することで、周波数特性を求める(ステップS803)。電話音声区間検出装置1Bは、FFT演算手段12Baによって、演算した周波数特性を、スペクトル算出手段12Bbに出力する。
【0070】
次に、電話音声区間検出装置1Bは、パワー積算手段12Bのスペクトル算出手段12Bbによって、FFT演算手段12Baにより演算された周波数特性からスペクトルS(m,k)を算出する(ステップS804)。
そして、電話音声区間検出装置1Bは、パワー積算値演算手段12Bcによって、スペクトル算出手段12Bbにより算出されたスペクトルS(m,k)に基づいて、帯域毎のパワー積算値をそれぞれ演算する(ステップS805〜S807)。すなわち、パワー積算値演算手段12Bcによって、低域のパワー積算値P(m)と、中域のパワー積算値P(m)と、高域のパワー積算値P(m)とを演算する。
【0071】
さらに、電話音声区間検出装置1Bは、パワー積算値演算手段12Bcによって、ステップS805で演算した低域のパワー積算値P(m)と、ステップS807で演算した高域のパワー積算値P(m)とを加算し、パワー積算加算値PL+H(m)を算出する(ステップS808)。そして、電話音声区間検出装置1Bは、パワー積算値演算手段12Bcによって、得られたパワー積算加算値PL+H(m)と中域のパワー積算値P(m)とを、対数変換手段13に出力する。
【0072】
以降の動作は、第1の実施形態と同様であり、電話音声周波数帯域のパワー積算値と電話音声周波数帯域以外の帯域のパワー積算値の対数変換を行い、その差の時間変化を平滑化した値について閾値判定する。なお、第2の実施形態においても、第1の実施形態と同様、閾値を決定するにあたり、事前に与えられた学習データセットによって得られた最適値を用いることとする。
すなわち、ステップS809は、図2のステップS207に、ステップS810は、図2のステップS208に、ステップS811は、図2のステップS209に、ステップS812は、図2のステップS210に、ステップS813は、図2のステップS211に、ステップS814は、図2のステップS212に、それぞれ相当する。
【0073】
上述した第2の実施形態によれば、電話音声区間検出装置1Bは、入力される放送音声データに対してフレーム毎に音声波形を切り出し、切り出した音声波形の周波数特性を算出し、さらに、音声波形の周波数特性のスペクトルを算出し、電話音声周波数帯域(中域)と、電話音声周波数帯域以外の音声帯域(低域と高域)のスペクトルのパワーの積算値をそれぞれ算出し、電話音声周波数帯域のパワー積算値と、それ以外の音声帯域のパワー積算値(パワー積算加算値)の対数をとった差分を平滑化した値について閾値判定することで、放送音声中の電話音声区間を自動的に検出することができる。
【符号の説明】
【0074】
1A、1B 電話音声区間検出装置
11A 入力音声切出し手段
11B 入力音声切出し手段
11Ba 音声波形切出し手段
11Bb 窓関数乗算手段
12A パワー積算手段
12Aa 帯域分割手段
12Ab パワー積算値演算手段
12B パワー積算手段
12Ba FFT演算手段(周波数特性演算手段)
12Bb スペクトル算出手段
12Bc パワー積算値演算手段
13 対数変換手段
14 差分生成手段
15 平滑化処理手段
16 閾値判定手段
17 閾値記憶手段

【特許請求の範囲】
【請求項1】
入力された放送音声データから電話音声区間を検出する電話音声区間検出装置であって、
前記放送音声データから予め定められた時間間隔でフレーム毎に音声波形を切り出す入力音声切出し手段と、
前記入力音声切出し手段によって切り出された前記音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算するパワー積算手段と、
前記パワー積算手段によって算出されたそれぞれの前記パワー積算値を対数化する対数変換手段と、
前記対数変換手段によって対数化されたそれぞれの前記パワー積算値の差分を生成する差分生成手段と、
前記差分生成手段によって生成された前記差分の時間的変化を平滑化する平滑化処理手段と、
前記平滑化処理手段によって平滑化された値と、予め設定された閾値とを比較して前記電話音声区間か否かを判定する閾値判定手段と、を備えたことを特徴とする電話音声区間検出装置。

【請求項2】
前記パワー積算手段は、
前記入力音声切出し手段によって切り出された前記音声波形を、前記電話音声周波数帯域と、当該電話音声周波数帯域外の帯域とに帯域分割する帯域分割手段と、
前記帯域分割手段によって分割された前記電話音声周波数帯域のパワー積算値と、前記電話音声周波数帯域外の帯域のパワー積算値とを演算するパワー積算値演算手段と、を備えることを特徴とする請求項1に記載の電話音声区間検出装置。

【請求項3】
前記パワー積算手段は、
前記入力音声切出し手段によって切り出された前記音声波形の周波数特性を算出する周波数特性演算手段と、
前記周波数特性演算手段によって算出された前記周波数特性に基づいて前記電話音声周波数帯域のスペクトルと、前記電話音声周波数帯域外のスペクトルとを算出するスペクトル算出手段と、
前記スペクトル算出手段によって算出された前記電話音声周波数帯域の前記スペクトルのパワー積算値と、前記電話音声周波数帯域外の前記スペクトルのパワー積算値とを演算するパワー積算値演算手段と、を備えることを特徴とする請求項1に記載の電話音声区間検出装置。

【請求項4】
前記周波数特性演算手段が、
前記音声波形の振幅スペクトル、線形予測符号によるスペクトル包絡、線形予測符号によるケプストラム包絡、フーリエ解析ケプストラム包絡の少なくとも一つの音声解析を実行して前記周波数特性を算出することを特徴とする請求項3に記載の電話音声区間検出装置。

【請求項5】
前記平滑化処理手段は、
IIRによる低域フィルタ、またはFIRによる低域フィルタとすることを特徴とする請求項1から請求項4のいずれか一項に記載の電話音声区間検出装置。

【請求項6】
入力された放送音声から電話音声区間を検出するために、
コンピュータを、
前記放送音声データから予め定められた時間間隔でフレーム毎に音声波形を切り出す入力音声切出し手段、
前記入力音声切出し手段によって切り出された前記音声波形に含まれる電話音声周波数帯域のパワー積算値と、当該電話音声周波数帯域外の帯域のパワー積算値とを演算するパワー積算手段、
前記パワー積算手段によって算出されたそれぞれの前記パワー積算値を対数化する対数変換手段、
前記対数変換手段によって対数化されたそれぞれの前記パワー積算値の差分を生成する差分生成手段、
前記差分生成手段によって生成された前記差分の時間的変化を平滑化する平滑化処理手段、
前記平滑化処理手段によって平滑化された値と、予め設定された閾値とを比較して前記電話音声区間か否かを判定する閾値判定手段、として機能させるための電話音声区間検出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−277023(P2010−277023A)
【公開日】平成22年12月9日(2010.12.9)
【国際特許分類】
【出願番号】特願2009−131925(P2009−131925)
【出願日】平成21年6月1日(2009.6.1)
【出願人】(000004352)日本放送協会 (2,206)
【出願人】(591053926)財団法人エヌエイチケイエンジニアリングサービス (169)