音声比較装置及び音声比較プログラム
【課題】異なる変調方式で変調した場合の復調信号である2つの音声信号の素材の同一性を適切に判定することができる音声比較装置等を提供する。
【解決手段】第1の音声信号と第2の音声信号とを時間差に従って同期させる同期手段101と、所定の時間幅の窓関数を乗じて当該時間幅に対応するフレームを取得するフレーム取得手段102a,102bと、フーリエ変換により周波数領域に変換する周波数変換手段103a,103bと、正規化処理を行う正規化手段104a,104bと、2つの音声信号の距離を算出する距離算出手段105と、距離算出手段105の算出値である距離の値と所定の基準値とを比較して、その結果を出力する比較手段106と、を備える。
【解決手段】第1の音声信号と第2の音声信号とを時間差に従って同期させる同期手段101と、所定の時間幅の窓関数を乗じて当該時間幅に対応するフレームを取得するフレーム取得手段102a,102bと、フーリエ変換により周波数領域に変換する周波数変換手段103a,103bと、正規化処理を行う正規化手段104a,104bと、2つの音声信号の距離を算出する距離算出手段105と、距離算出手段105の算出値である距離の値と所定の基準値とを比較して、その結果を出力する比較手段106と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、2つの音声信号を比較して同一素材であるか否かを判定する、音声比較装置及び音声比較プログラムに関する。
【背景技術】
【0002】
放送局においては、放送を安定して送出するために様々な監視装置が用いられている。放送局では、例えば、「電波の停波」、「音声無変調」、「ネット局からの回線の切断」、「逆相」などの異常がないかを監視することにより、放送の安定性を担保している。しかしながら、同一の放送内容(同一の素材)を様々な変調方式により変調して送出した場合に、各放送信号が誤りなく送出されているか否かは、受信機が受信した放送信号を人間が実際に視聴することにより行われていた。
【0003】
特許文献1には、同じ番組をアナログ放送とデジタル放送で同時に放送する「サイマル放送」について、各放送信号が誤りなく送出されているか否かを監視する手法が提案されている。
特許文献1には、監視担当者が、スピーカから出力されるアナログ放送の音声信号とデジタル放送の音声信号とのいずれか一方を聞きながら、放送信号監視装置が音声の不一致を通知するか否かを監視することにより、両方の音声信号が正常(同一内容)であるかを監視する技術について記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−340935号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術では音声信号の比較を時間軸で行っているため、一方の音声信号に対する他方の音声信号の遅延時間の算出精度が、ノイズなどの影響により落ちてしまう可能性がある。また、異なる変調方式で変調すると音質が変わる場合があり、正しい検知結果を出力できなくなる可能性がある。
つまり、特許文献1に記載の技術では、同じ内容(同一素材)の音声信号であっても変調方式が異なる場合には音質が変わり、同一素材であるか否かを適切に判定できない場合がある。
【0006】
そこで、本発明は、異なる変調方式で変調した場合の復調信号である2つの音声信号の素材の同一性を適切に判定することができる音声比較装置等を提供することを課題とする。
【課題を解決するための手段】
【0007】
本発明は、前記目的を達成するために創案されたものであり、請求項1に係る音声比較装置は、異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定する音声比較装置であって、同期手段と、フレーム取得手段と、周波数変換手段と、正規化手段と、距離算出手段と、比較手段と、を備える構成とした。
かかる構成において、音声比較装置は同期手段によって、第1の音声信号と第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って第1の音声信号と第2の音声信号とを同期させる。これによって、音声比較装置に第1の音声信号が到達する時刻と、音声比較装置に第2の音声信号が到達する時刻との間に時間差が生じた場合でも、同期手段によって同期させることができる。
そして、音声比較装置はフレーム取得手段によって、第1の音声信号及び第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得する。これによって、音声比較装置は、窓関数を用いて音声信号の波形をその定常性が確認できる程度の短い時間に分割することができる。
【0008】
そして、音声比較装置は周波数変換手段によって、フレーム取得手段により所定の時間幅に対応するフレームとして入力された第1の音声信号及び第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する。これによって、音声比較装置は、フレーム取得手段によりフレームとして入力された第1の音声信号及び第2の音声信号を、時間領域から周波数領域に変換することができる。
そして、音声比較装置は正規化手段によって、周波数変換手段により周波数領域に変換して入力された第1の音声信号と第2の音声信号のそれぞれに対して正規化処理を行う。これによって、音声比較装置は、基準となる音声レベルが入力の時点でずれている場合でも各音声信号の波形を正規化することにより音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
そして、音声比較装置は距離算出手段によって、正規化手段により正規化された第1の音声信号と第2の音声信号との距離を算出する。さらに、音声比較装置は比較手段によって、距離算出手段の算出値である距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する。これによって、音声比較装置は、第1の音声信号と第2の音声信号のそれぞれの周波数スペクトルの差分である距離の値が所定の基準値以上であるか否かによって、第1の音声信号と第2の音声信号とが同一素材であるか否かを適切に判断することができる。
【0009】
また、請求項2に記載の音声比較装置は、請求項1に記載の音声比較装置において、さらに、スペクトル包絡手段を備える構成とした。かかる構成において音声比較装置は、スペクトル包絡変換手段によって、周波数変換手段により周波数領域に変換して入力された第1の音声信号及び第2の音声信号のそれぞれをスペクトル包絡に変換する。そして、正規化手段は、スペクトル包絡変換手段によりスペクトル包絡に変換して入力された第1の音声信号と第2の音声信号のそれぞれに対して、正規化処理を行う。
これによって、音声比較装置は、音声信号の特徴を判断する上で有効なスペクトル包絡を比較することで、検出精度の信頼性を高めることができる。
【0010】
また、請求項3に記載の音声比較装置は、請求項2に記載の音声比較装置において、さらに、高域通過フィルタ手段を備える構成とした。かかる構成において音声比較装置は、高域通過フィルタ手段によって、スペクトル包絡変換手段によりスペクトル包絡に変換して入力された第1の音声信号と第2の音声信号のそれぞれについて、所定の周波数より低い周波数帯域の信号を除去することにより、当該所定の周波数以上の周波数帯域の信号を取り出す処理を行う。そして、正規化手段は、高域通過フィルタ手段により所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された第1の音声信号及び第2の音声信号のそれぞれに対して正規化処理を行う。
これによって、音声比較装置は、高域通過フィルタ手段により第1の音声信号及び第2の音声信号に対して周波数の高い領域を強調する処理を行い、人間の聴覚特性により近い周波数特性に変換することができる。
【0011】
また、請求項4に記載の音声比較装置は、請求項3に記載の音声比較装置において、さらに、メル尺度変換手段を備える構成とした。かかる構成において音声比較装置は、メル尺度変換手段によって、高域通過フィルタ手段により所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された第1の音声信号と第2の音声信号のそれぞれに対して、メル尺度を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行う。そして、正規化手段は、メル尺度変換手段により周波数上の重み付けをして入力された第1の音声信号及び第2の音声信号のそれぞれに対して、正規化処理を行う。
これによって、音声比較装置は、メル尺度変換手段により人間の聴覚特性に近い形で第1の音声信号及び第2の音声信号を抽出することができる。
【0012】
また、請求項5に記載の音声比較装置は、請求項1から請求項4のいずれか一項に記載の音声比較装置において、距離算出手段は、所定のサンプル周波数における第1の音声信号と第2の音声信号との差の絶対値の二乗を算出し、さらに各サンプル周波数において算出された差の絶対値の二乗の和の平方根を距離として算出する。これによって、音声比較装置は、第1の音声信号と第2の音声信号とを周波数領域で比較して、その距離を算出することで、検出精度の信頼性を高めることができる。
【0013】
また、請求項6に記載の音声比較装置は、請求項4又は請求項5に記載の音声比較装置において、メル尺度変換手段で用いられるメル尺度関数は、音声信号の周波数をfとすると、Mel(f)=2595log10(1+f/700)で表されることとした。これによって、音声比較装置は、人間の聴覚特性に近い形で第1の音声信号及び第2の音声信号を抽出することができる。
【0014】
また、請求項7に記載のプログラムは、異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定するために、コンピュータを、同期手段、フレーム取得手段、周波数変換手段、正規化手段、距離算出手段、比較手段として機能させるためのものである。
かかる構成において、音声比較プログラムは、コンピュータを同期手段として機能させることによって、第1の音声信号と第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って第1の音声信号と第2の音声信号とを同期させる。
そして、音声比較プログラムは、コンピュータをフレーム取得手段として機能させるによって、同期手段により同期された第1の音声信号と第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得する。
そして、音声比較プログラムは、コンピュータを周波数変換手段として機能させることによって、フレーム取得手段により所定の時間幅に対応するフレームとして入力された第1の音声信号及び第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する。
【0015】
そして、音声比較プログラムは、コンピュータを正規化手段として機能させることによって、周波数変換手段により周波数領域に変換して入力された第1の音声信号と第2の音声信号のそれぞれに対して正規化処理を行う。
そして、音声比較プログラムは、コンピュータを距離算出手段として機能させることによって、正規化手段により正規化された第1の音声信号と第2の音声信号との距離を算出する。
さらに、音声比較プログラムは、コンピュータを比較手段として機能させることによって、距離算出手段の算出値である距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する。
これによって、音声比較プログラムは、第1の音声信号と第2の音声信号との周波数領域における距離の値が所定の基準値以上であるか否かによって、第1の音声信号と第2の音声信号とが同一素材であるか否かを適切にコンピュータに判断させることができる。
【発明の効果】
【0016】
本発明によれば、異なる変調方式で変調した場合の復調信号である2つの音声信号の素材の同一性を適切に判定することができる音声比較装置等を提供することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の第1実施形態に係る音声比較装置、インタフェース装置、表示装置の概略構成図である。
【図2】音声比較装置、インタフェース装置、表示装置のブロック構成図である。
【図3】音声比較装置が備える同期手段のブロック構成図である。
【図4】同期手段によって、第1の音声信号に対する第2の音声信号の相対的遅延時間を決定する処理についての説明図であり、(a)は第1の音声信号の波形を示し、(b)は第2の音声信号の波形を示す。
【図5】音声比較装置の一連の処理の流れを示すフローチャートである。
【図6】本発明の第2実施形態に係る音声比較装置、インタフェース装置、表示装置のブロック構成図である。
【図7】音声比較装置の一連の処理の流れを示すフローチャートである。
【図8】本発明の第3実施形態に係る音声比較装置、インタフェース装置、表示装置のブロック構成図である。
【図9】音声比較装置の一連の処理の流れを示すフローチャートである。
【図10】本発明の第1実施形態に係る音声比較装置を用いた場合と、本発明の第3実施形態に係る音声比較装置を用いた場合と、において12SEG放送と1SEG放送を比較した実験データを示す図である。
【図11】本発明の第1実施形態に係る音声比較装置を用いた場合と、本発明の第3実施形態に係る音声比較装置を用いた場合と、においてAM放送とFM放送を比較した実験データを示す図である。
【発明を実施するための形態】
【0018】
本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各図において、共通する部分には同一の符号を付し、重複した説明を省略する。
【0019】
≪第1実施形態≫
本実施形態に係る音声比較装置1は、異なる変調方式で変調された場合の復調信号である第1の音声信号と第2の音声信号が同一素材(同一内容)であるか否かを判定する装置である。第1の音声信号及び第2の音声信号は、例えば、所定の放送番組が放送局(図示せず)で互いに異なる変調方式(例えば、AM変調,FM変調)に従って変調され、放送局から電波として送信された各信号が受信機(図示せず)によって受信され、さらに復調された音声信号である。
【0020】
音声比較装置1の各構成について説明する前に、音声比較装置1と接続される機器について説明する。
図1に示すように、インタフェース装置2は、音声比較装置1の入力側に接続されている。インタフェース装置2は、異なる変調方式で変調された場合の復調信号である第1の音声信号及び第2の音声信号を、所定のサンプリング周波数に従ってA/D変換する装置である。インタフェース装置2は、A/D変換器201aと、A/D変換器201bとを備える。A/D変換器201aはアナログ信号として入力された第1の音声信号に対して所定のサンプリング周波数でデジタル信号に変換し、音声比較装置1に出力する。同様に、A/D変換器201bは、アナログ信号として入力された第2の音声信号に対してA/D変換を行い、デジタル信号として音声比較装置1に出力する。
【0021】
なお、第1の音声信号は、例えば、放送局において所定の放送信号が1セグメント放送(以下、1SEG放送と称する。)に対応して変調して送信され、さらに当該信号が図示しない復調器で復調された音声信号である。また、第2の音声信号は、例えば、放送局において所定の放送信号が12セグメント放送(以下、12SEGと称する。)に対応して変調して送信され、さらに当該信号が図示しない復調器で復調された音声信号である。
ちなみに、地上デジタル放送では、1つのチャンネルが13の周波数帯域(セグメント)に分割されており、このうち1セグメントの周波数帯域を利用して変調する場合が「1SEG放送」であり、12セグメントの周波数帯域を利用して変調する場合が「12SEG放送」である。
また、第1の音声信号及び第2の音声信号としては、上記で説明したように、1SEG放送や12SEG放送を復調した音声信号に限らない。すなわち、異なる変調方式で変調された場合の復調信号であれば、音声比較装置1は、様々な変調方式及び復調方式に対応可能である。例えば、第1の音声信号をAM(Amplitude Modulation)放送が復調された音声信号とし、第2の音声信号をFM(Frequency Modulation)放送が復調された音声信号としてもよい。
【0022】
図1に示すように、復調信号である第1の音声信号と第2の音声信号は、インタフェース装置2にリアルタイムで入力し、それぞれA/D変換されて音声比較装置1に出力される。
また、第1の音声信号及び第2の音声信号のうち、いずれか一方は他方に対して所定時間だけ遅れてインタフェース装置2に到達する。遅延の原因として、放送局から放送信号を送信する際のエンコード及び図示しない受信機で処理されるデコードに伴う遅延がある。例えば、一方の音声信号は、他方の音声信号に対して1.7sec程度遅れてインタフェース装置2に到達する。
【0023】
表示装置3は、音声比較装置1の出力側に接続されている。表示装置3は、音声比較装置1が第1の音声信号と第2の音声信号とを比較した場合の判定結果を表示することにより、監視者に正常又は異常を知らせる。すなわち表示装置3は、音声比較装置1が第1の音声信号と第2の音声信号とが同一素材(同一内容)であると判定した場合には、「異常なし」に相当する表示をする。一方、表示装置3は、音声比較装置1が、第1の音声信号と第2の音声信号とが互いに異なる素材(同一の内容ではない)であると判定した場合には、「異常あり」に相当する表示をする。
【0024】
次に、本実施形態に係る音声比較装置1について説明する。図2に示すように、音声比較装置1は、同期手段101と、フレーム取得手段102a,102bと、周波数変換手段103a,103bと、正規化手段104a,104bと、距離算出手段105と、比較手段106と、を備える。
同期手段101は、第1の音声信号と第2の音声信号のそれぞれに対して所定時間分の波形を切り出し、切り出した各波形について相互相関関数を求め、相互相関関数が最大となる場合の相対的遅延時間を求める。ここで相対的遅延時間とは、第1の音声信号が音声比較装置1に到達する時刻と、第2の音声信号が音声比較装置1に到達する時刻との差で表される。例えば、第1の音声信号に対して第2の音声信号が所定時間tだけ遅れて到達する場合の遅延時間を「t」とすると、その逆の場合(第1の音声信号に対して第2の音声信号が所定時間だけ早く到達する場合)の遅延時間は「−t」と表される。
相互相関関数の値は、2つの関数の類似性が高いほど大きな値をとるため、相対的遅延時間は相互相関関数の値が最大となる場合での各波形の時間差として求められる。なお、相対的遅延時間の導出の詳細については、後記する。
【0025】
図3に示すように、同期手段101は、記憶部1011a,1011bと、音声信号切出し部1012a,1012bと、相互相関関数算出部1013と、相互相関関数記憶部1014と、相互相関関数比較部1015と、音声信号読出部1016と、を備える。
記憶部1011aは、インタフェース装置2のA/D変換器201aによってデジタル信号に変換された第1の音声信号を一時的に記憶するバッファとして機能する。同様に、記憶部1011bは、インタフェース装置2のA/D変換器201bによってデジタル信号に変換された第2の音声信号を一時的に記憶するバッファとして機能する。
【0026】
音声信号切出し部1012aは、A/D変換器201aでデジタル信号に変換された第1の音声信号を記憶部1011aから読み出し、所定時間分の波形を切り出して相互相関関数算出部1013に出力する。例えば、図4(a)に示すように、音声信号切出し部1012aは、第1の音声信号からt1〜t2までの時間幅の波形を切り出す。
なお、上記の時間幅(t2−t1)は、予め定められた値である。t1〜t2の時間幅の波形は、t1〜t2における値が1であり、それ以外の時間における値が0である関数を第1の音声信号に乗算することにより取得することができる。
同様に、音声信号切出し部1012bは、A/D変換器201bでデジタル信号に変換された第2の音声信号を記憶部1011bから読み出し、所定時間分の波形を切り出して取得し、相互相関関数算出部1013に出力する。図4(b)に示すように、音声信号切出し部1012bは、まず、上記の音声信号切出し部1012aが取得した波形の時間と同一の時間(上記の例では、t1〜t2)の波形を切り出して取得し、相互相関関数算出部1013に出力する。
【0027】
さらに、音声信号切出し部1012bは、音声信号切出し部1012aが取得した波形の時間(t1〜t2)からt0だけ進んだ時間(t1+t0〜t2+t0)における第2の音声信号の波形を取得して、相互相関関数算出部1013に出力する。なお、t0は予め定められた時間である。
同様にして、音声信号切出し部1012bは、(t1+2t0〜t2+2t0:図4参照)、(t1−t0〜t2−t0:図示せず)、(t1−2t0〜t2−2t0:図示せず)のように、時間(t1〜t2)から正又は負方向にt0ずつシフトさせた時間における第2の音声信号を切り出して相互相関関数算出部1013に出力する。なお、第2の音声信号から所定時間分だけ切り出して取得されるデータの個数(上記では、5個)は、予め設定されているものとする。
【0028】
相互相関関数算出部1013は、音声信号切出し部1012aで取得された所定時間t1〜t2の音声信号と、1012bから取得された時間幅(t2−t1)である複数の(上記では、5個)の音声信号との相互相関関数を逐次算出して、相互相関関数記憶部1014に出力する。
例えば、相互相関関数は、t1〜t2(図4参照)における第1の音声信号とt1+t0〜t2+t0(図4参照)における第2の音声信号との相互相関関数を算出して、相互相関関数記憶部1014に出力する。相互相関関数記憶部1014は、相互相関関数算出部1013で算出された複数の相互相関関数を記憶する。
相互相関関数比較部1015は、相互相関関数記憶部1014に記憶された相互相関関数の値を読み出して順次比較し、相互相関関数算出部1013で算出した相互相関関数の値が最大になる場合での相対的遅延時間n*t0(nは整数)を音声信号読出部1016に出力する。
【0029】
例えば、図4において第2の音声信号の波形(図4(b)参照)は、第1の音声信号の波形(図4(a)参照)よりも時間t0だけ進んでいる。この場合、相互相関関数算出部1013で算出される複数の相互相関関数のうち、t1〜t2の範囲での第1の音声信号と、t1+t0〜t2+t0の範囲での第2の音声信号との相互相関関数が最大になる。
この場合、相互相関関数比較部1015は、第1の音声信号に対する第2の音声信号の相対的遅延時間である「−t0」を音声信号読出部1016に出力する。なお、上記のマイナスの符号は、第1の音声信号に対して第2の音声信号が時間t0だけ進んでいる(−t0だけ遅れている)ことを表す。
音声信号読出部1016は、相互相関関数比較部1015から出力された相対的遅延時間に従って、各音声信号が同期するように読み出し処理を行う。上記の例では、音声信号読出部1016は、同期手段101に入力したタイミングを基準として、第2の音声信号を第1の音声信号より時間t0だけ遅らせて記憶部1011a,1011bから読み出し、フレーム取得手段102a,102bに出力する。
以上のような処理によって、同期手段101は第1の音声信号と第2の音声信号とを同期させることができる。
【0030】
再び図2に戻って、音声比較装置1について説明を続ける。なお、重複した説明を避けるため、フレーム取得手段102a,102b、周波数変換手段103a,103b、正規化手段104a,104bについては、第1の音声信号を処理する場合のみ説明し、第2の音声信号を処理する場合については第1の音声信号の処理と同様になるので、説明を省略する。
フレーム取得手段102aは、同期手段101から出力された第1の音声信号から所定の窓関数を用いてフレームを切り取る。ここで「フレーム」とは、窓関数によって切り出された部分の音声信号を指す。
音声は、その統計的性質が時間とともに変化するが、十分に短い期間内では定常性を仮定できると考えられている。したがって、音声信号の分析では、窓関数を用いて音声信号の波形をその定常性が確認できる程度の短い時間に分割する。窓関数として、例えば、方形窓、バーレット窓、ハニング窓、ハミング窓、ブラックマン窓などを用いることができる。本実施形態では、長さが10〜1000msecの時間窓を、10〜1000msecの間隔で順次シフトしながら分析を行う。
同期手段101により同期処理をして入力された第1の音声信号は、フレーム取得手段102aによってフレームに切り取られ、周波数変換手段103aに対して出力される。
【0031】
周波数変換手段103aは、高速フーリエ変換(Fast Fourier Transform :FFT)を実行することにより、フレーム取得手段102aによりフレームに切り取られた第1の音声信号を、時間領域から周波数領域に変換する。つまり、周波数変換手段103aは、第1の音声信号に対して離散フーリエ変換を高速に実行することにより、時間領域の信号として入力された第1の音声信号を周波数スペクトルに変換する。
したがって、フレーム取得手段102aによりフレームに切り取られて入力された第1の音声信号は、周波数変換手段103aによって時間領域から周波数領域の音声信号に変換され、正規化処理手段104aに対して出力される。
【0032】
正規化手段104aは、周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号に対して、正規化の処理を行う。具体的に正規化手段104aは、スペクトルを表す関数S(f)を、各サンプル周波数における値(強度)の和で除することにより正規化を行う。すなわち、正規化手段104aは、以下の式(1)及び式(2)で表される正規化処理を実行する。
なお、S(f)はスペクトルを表す関数、fは周波数、fminは最小周波数、fmaxは最大周波数、Rは各サンプル周波数における値(強度)の和、N(f)は正規化されたスペクトルである。
【数1】
【数2】
【0033】
音声信号の音量が大きくなると、第1の音声信号及び第2の音声信号の波形も大きくなるため、周波数成分を比較する場合の誤差が大きくなる。本実施形態のように、周波数変換手段103aの後段に正規化手段104aを備えることによって、基準となる音声レベルが入力の時点でずれている場合でも各音声信号の波形を正規化することにより音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号は、正規化手段104aによって正規化処理され、距離算出手段105に対して出力される。
【0034】
距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号と、正規化手段104bにより正規化して入力された第2の音声信号との距離(ノルム)を算出する。すなわち、距離算出手段105は、正規化手段104aから入力された第1の音声信号と正規化手段104bから入力された第2の音声信号について、サンプル周波数ごとの強度差の絶対値を算出し、さらに、算出した各サンプル周波数における強度差の絶対値から距離(ノルム)を算出して、比較手段106に対して出力する。
第1の音声信号のスペクトルをS(f)とし、第2の音声信号のスペクトルをT(f)とすると、以下の(式3)及び(式4)のようになる。
【数3】
【0035】
したがって、第1の音声信号と第2の音声信号との距離であるノルム‖S(f)−T(f)‖は、以下の式(5)のようになる。
【数4】
【0036】
比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
距離算出手段105により算出された距離が、予め定められた所定の値以上であった場合には、第1の音声信号と第2の音声信号とは異なる内容であると考えられる。したがって、この場合、比較手段106は、「異常あり」に対応する信号を表示装置3に対して出力する。また、距離算出手段105により算出された距離が、予め定められた所定の値より小さい場合には、第1の音声信号と第2の音声信号とは同一の内容であると考えられる。したがって、この場合比較手段106は、「異常なし」に対応する信号を表示装置3に対して出力する。
なお、比較手段107は、予め定められた所定時間(例えば、10秒)内に算出されたスペクトル包絡間の距離の合計値を算出し、当該合計値が予め定められた所定値以上であるか否かを判断することとしてもよい。
【0037】
図5は、本実施形態に係る音声比較装置1の一連の処理の流れを示すフローチャートである。なお、重複した説明を避けるため、ステップS20〜S40は第1の音声信号についてのみ説明する。
図5のステップS10で音声比較装置1は、同期手段101によって、入力された第1の音声信号と第2の音声信号とが同期するように、同期処理を行う。すなわち、同期手段101は、第1の音声信号と第2の音声信号との相互相関関数が最大となる場合の相対的遅延時間を求め、この相対的遅延時間に従って一方を他方に遅らせて出力することにより、同期処理を行う。
ステップS20で音声比較装置1は、フレーム取得手段102aによって、同期手段101から入力された第1の音声信号から所定の窓関数を用いてフレームを切り取る。ステップS30で音声比較装置1は、周波数変換手段103aによって、フレーム取得手段102aから入力された第1の音声信号に対してフーリエ変換を高速に実行することにより、時間領域の信号として入力された第1の音声信号を周波数スペクトルに変換する。ステップS40で音声比較装置1は、正規化手段104aによって、周波数変換手段103aから入力された第1の音声信号に対して、正規化の処理を行う。
【0038】
ステップS50で音声比較装置1は、距離算出手段105によって、正規化手段104aから入力された第一の音声信号と、正規化手段104bから入力された第2の音声信号との距離(ノルム)を算出する。ステップS60で音声比較装置1は、比較手段106によって、距離算出手段105により算出された距離(ノルム)が予め定められた所定の値以上であるか否か判断する。ステップS60で、距離算出手段105により算出された距離(ノルム)が、予め定められた所定の値以上であった場合(ステップS60→Yes)、音声比較装置1は、比較手段106によって、表示部3に対して「異常あり」に対応する信号を出力する(ステップS70)。また、ステップS60で、距離算出手段105により算出された距離(ノルム)が、予め定められた所定の値より小さかった場合(ステップS60→No)、音声比較装置1は、比較手段106によって、表示部3に対して「異常なし」に対応する信号を出力する(ステップS80)。
【0039】
本実施形態に係る音声比較装置1によれば、フレーム取得手段102a,102bが、所定の窓関数を用いて各音声信号の波形をその定常性が確認できる程度の短い時間で切り出して、さらに周波数変換手段103a,103bが周波数領域に変換する処理を行う。
したがって、同期手段101で算出した相対的遅延時間に誤差が生じた場合でも、定常性が確認できる程度の短い時間で切り出した音声信号の周波数特性の変動が小さいため、音声比較装置1の判定結果にはほとんど影響しない。
なお、第1の音声信号に対する第2の音声信号の相対的遅延時間が変動しないことが分かっている場合には、同期手段101が相対的遅延時間を算出する処理は、フレームごとに逐次行う必要はなく、音声比較装置1による比較処理を行う際に1度だけ行えばよい。
また、所定時間ごとに相対的遅延時間の算出を行うよう設定してもよい。
【0040】
本実施形態に係る音質監視装置1は、同一の音質素材に対して異なる変調方式で変調を行った場合に、変調方式の違いに起因する音質の差が復調信号に現れても、各音声信号の周波数特性に着目し、その距離(ノルム)を所定値と比較することによって、正常であるか異常であるかを適切に検知することができる。
また、本実施形態に係る音質監視装置1は、周波数変換手段103aから入力された第1の音声信号と、周波数変換手段103bから入力された第2の音声信号について、正規化手段104a,104bにより正規化する処理を行っている。これによって、基準となる音声レベルが入力の時点でずれている場合でも、各音声信号の波形を正規化することによって、音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
したがって、本実施形態に係る音質監視装置1によれば、異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号の素材の同一性を適切に判定することができる
【0041】
≪第2実施形態≫
本実施形態に係る音声比較装置1Aは、スペクトル包絡変換手段107a,107bを備える点が第1実施形態と異なるが、他の点は第1実施形態の場合と同様である。したがって、当該異なる点について主に説明し、第1実施形態と共通する点についてはその説明を省略する。また、以下の説明では、第1の音声信号に対する処理を中心に説明し、第2の音声信号に対する処理については、第1の音声信号に対する処理と同様であるので、その説明を省略する。
【0042】
図6に示すように、本実施形態に係る音声比較装置1Aは、周波数変換手段103aと正規化手段104aとの間にスペクトル包絡変換手段107aが挿入されている
なお、図6に示す同期手段101、フレーム取得手段102a,102b、周波数変換手段103a,103bによる処理は、第1実施形態(図2参照)で説明した処理と同様である。
スペクトル包絡変換手段107aは、周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号をスペクトル包絡に変換する。スペクトル包絡を得るための手法としては、線形予測分析(linear predictive coding:LPC)が有効である。線形予測分析は、過去の出力と現在の入力を用いてワンステップ先である現在の出力を予測するために、線形結合における各々の係数(LPC係数ベクトル)を求める手法である。
具体的には、スペクトル包絡変換手段107aは線形予測分析を用いて、音声信号の各サンプリング値をいくつかの過去のサンプリング値の線形結合で表し、予測される最小誤りの二乗平均値に基づいて個々の重み付け係数を求める。ちなみに、予測される誤りは、実際のサンプリング値と予測値との差によって求められる。
すなわち、スペクトル包絡変換手段107aは、線形予測分析を用いて第1の音声信号のパラメータ(フォルマント等)を推定してスペクトル包絡に変換し、正規化手段104aに出力する。
【0043】
そして、正規化手段104aは、スペクトル包絡変換手段107aから入力された第1の音声信号に対応する第1のスペクトル包絡に対して、正規化の処理を行う。具体的に正規化手段104aは、上記で説明したように、スペクトルを表す関数S(f)を、スペクトル包絡の各サンプル周波数における値(強度)の和で除することにより正規化を行う。
そして、距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bにより正規化して入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。
さらに、比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
【0044】
図7は、本実施形態に係る音声比較装置1Aの一連の処理の流れを示すフローチャートである。図7に示すステップS10〜S30は、図5で説明したステップS10〜S30と同様であるから、説明を省略する。
図7のステップS31で音声比較装置1Aは、スペクトル包絡変換手段105aによって、周波数変換手段104aから入力された第1の音声信号をスペクトル包絡に変換する。そして、ステップS40で音声比較装置1Aは、正規化手段104aによって、スペクトル包絡変換手段105aから入力された第1の音声信号(第1のスペクトル包絡)に対して、正規化の処理を行う。ステップS50で音声比較装置1Aは、距離算出手段105によって、正規化手段104aから入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bから入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。なお、ステップS60〜S80は、図5で説明したステップS60〜S80と同様であるから、説明を省略する。
【0045】
本実施形態に係る音声比較装置1Aは、スペクトル包絡変換手段107a,107bが線形予測分析を用いて各音声信号のスペクトル包絡を出力し、さらに正規化手段104a,104bによって正規化処理を行った上で、距離算出手段105が2つのスペクトル包絡間の距離(ノルム)を算出する。各音声信号に対して周波数変換のみを行った場合には、音声信号の特徴を判別する上で必要の無い情報も含まれている可能性があるが、本実施形態に係る音声比較装置1Aは、上記のように音声信号の特徴を判断する上で有効なスペクトル包絡を比較することによって、検出精度の信頼性を高めることができる。
すなわち、本実施形態に係る音質監視装置1Aは、同一の音質素材に対して異なる変調方式で変調を行って復調した場合に、変調方式の違いに起因する音質の差が各音声信号に現れても、音源の「音の特徴」であるスペクトル包絡に焦点を絞った比較を行う事によって、各音声信号について素材の同一性を適切に判定することができる。
【0046】
≪第3実施形態≫
本実施形態に係る音声比較装置1Bは、高域通過フィルタ手段108a,108bと、メル尺度変換手段109a,109bとを備える点が第2実施形態と異なるが、他の点は第2実施形態の場合と同様である。したがって、当該異なる点について主に説明し、第2実施形態と共通する点についてはその説明を省略する。また、第1の音声信号に対する処理を中心に説明し、第2の音声信号に対する処理については、第1の音声信号に対する処理と同様であるので、その説明を省略する。
【0047】
図8に示すように、本実施形態に係る音声比較装置1Bは、スペクトル包絡変換手段107aと正規化手段104aとの間に高域通過フィルタ手段108aと、メル尺度変換手段109aとが挿入されている。
なお、図8に示す同期手段101、フレーム取得手段102a,102b、周波数変換手段103a,103bによる処理は、第1実施形態(図2参照)で説明した処理と同様である。また、図8に示すスペクトル包絡変換手段107a,107bによる処理は、第2実施形態(図6参照)で説明した処理と同様である。
【0048】
高域通過フィルタ手段108aは、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(第1のスペクトル包絡)について、所定の周波数より低い周波数帯域の信号を除去することにより、上記所定の周波数以上の周波数帯域の信号を取り出す処理を行う。
人間が感じる音の大きさは同じ音圧レベルでも周波数によって変わることが知られており、人間の感じる音の大きさは「等ラウドネス曲線(フレッチャー・マンソン曲線)」で表される。本実施形態に係る音声比較装置1Bは、上記の等ラウドネス曲線の特性を、周波数の高い領域を強調する処理を行う高域通過フィルタ手段108aによって近似する。高域通過フィルタ手段108aとして、例えば、FIRフィルタ(finite impulse response filter)を使用することができる。
【0049】
高域通過フィルタ手段108aは、所定の基準となる周波数以上の高い周波数帯域の音声信号を取り出し、低い周波数成分を除去するという特性を有する。なお、上記の基準となる周波数は、予め定めされた周波数である。
高域通過フィルタ手段108aとして有効なFIRフィルタの特性は、インパルス応答のZ変換を行った場合の伝達関数H(z)で表され、以下の式(6)のようになる。FIRフィルタは、フィードバックを必要とせず安定性があること、線形位相情報を保つことなどの特長がある。
【数5】
【0050】
スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号は、高域通過フィルタ手段108aにより高い周波数帯域の音声信号が取り出され、メル尺度変換手段109aに対して出力される。
【0051】
メル尺度変換手段109aは、高域通過フィルタ手段108aにより所定の周波数以上の周波数帯域の信号を取り出す処理を行って入力された第1の音声信号に対し、メル尺度関数を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行う。ここでメル尺度関数は、下記の式(7)で表される。なお、f[Hz]は音声信号の周波数を表す。
【数6】
【0052】
メル尺度は、人間が感じる音の高さを表す尺度であり、特に、低域の周波数分解能を向上させた音声認識手法である。したがって、メル尺度変換手段109aにより、人間の聴覚特性に近い形で第1の音声信号を抽出することができる。メル尺度変換を行う手法として、例えば、MFCC法(Mel Frequency Cepstrum Coefficient)を用いることができる。MFCC法は、三角形状の周波数特性を有する帯域通過フィルタ(図示せず)の出力を逆フーリエ変換し、低ケフレンシー部分を抽出する処理を行うことにより実行される。
高域通過フィルタ手段108aにより高い周波数帯域の音声信号を取り出して入力された第1の音声信号は、メル尺度変換手段109aによりメル尺度に変換され、正規化手段104aに対して出力される。
【0053】
そして、正規化手段104aは、メル尺度変換手段109aから入力された第1の音声信号(第1のスペクトル包絡)に対して、正規化の処理を行う。具体的に正規化手段104aは、上記で説明したように、スペクトルを表す関数S(f)を、スペクトル包絡の各サンプル周波数における値(強度)の和で除することにより正規化を行う。
そして、距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bにより正規化して入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。
さらに、比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
【0054】
図9は、本実施形態に係る音声比較装置1Bの一連の処理の流れを示すフローチャートである。図9に示すステップS10〜S31は、図7で説明したステップS10〜S31と同様であるから、説明を省略する。
図9のステップS32で音声比較装置1Bは、高域通過フィルタ手段108aによって、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(第1のスペクトル包絡)について、所定の周波数より低い周波数帯域の信号を除去することにより、上記所定の周波数以上の周波数帯域の信号を取り出す。次に、ステップS33で音声比較装置1Bは、メル尺度変換手段109aによって、高域通過フィルタ手段108aから入力された第1の音声信号(第1のスペクトル包絡)に対し、メル尺度関数を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行う。そして、ステップS40で音声比較装置1Bは正規化手段104aによって、メル尺度変換手段109aから入力された第1の音声信号(スペクトル包絡)に対して、正規化の処理を行う。ステップS50で音声比較装置1Bは、距離算出手段105によって、正規化手段104aから入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bから入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。なお、ステップS60〜S80は、図5で説明したステップS60〜S80と同様であるから、説明を省略する。
【0055】
本実施形態に係る音声比較装置1Bは、高域通過フィルタ手段108a,108bにより周波数の高い領域を強調することによって、人間の聴覚特性に近い周波数特性に変換する。さらに、音声比較装置1Bは、メル尺度変換手段109a,109bにより、人間の聴覚感度特性に対応する周波数上の重み付けを行うことによって、人間の聴覚特性により近い周波数特性に変換することができる。
すなわち、本実施形態に係る音質監視装置1Bは、同一の音質素材に対して異なる変調方式で変調を行って復調した場合に、変調方式の違いに起因する音質の差が各音声信号に現れても、人間の聴覚特性を取り入れ、さらに音源の「音の特徴」に焦点を絞った比較を行う事によって、各音声信号について素材の同一性を適切に判定することができる。
【0056】
[音声比較プログラム]
前記した音声比較装置1,1A,1Bは、一般的なコンピュータを、前記した各手段及び各部として機能させるプログラムにより動作させることで実現することができる。
【0057】
以上、本発明に係る音声比較装置1,1A,1Bについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。
【0058】
音声比較装置1,1A,1Bでは、図4に示すように、t1〜t2の時間における第1の音声信号に対して、時間t1〜t2の範囲からt0ずつ正又は負方向に範囲をシフトして、各範囲での第2の音声信号を取得する場合について説明したが、これに限らない。
例えば、t1〜t2の時間における第2の音声信号を基準として、時間t1〜t2の範囲からt0ずつ正又は負方向に範囲をシフトして、各範囲での第1の音声信号を取得してもよい。また、例えば、第1の音声信号に対する第2の音声信号の相対的遅延時間について予め見当がついていれば(この場合の相対的遅延時間をt3とする)、当該相対的遅延時間t3を中心として波形を切り出す範囲を正又は負方向に順次シフトさせて、それぞれの場合について相対的遅延時間を算出すればよい。
【0059】
また、第1の音声信号に対する第2の音声信号の相対的遅延時間(この場合の相対的遅延時間をt4とする)が予め分かっている場合には、音声信号を所定時間分だけ順次ずらして切り出し、複数の相互相関関数を算出する処理を省略することができる。この場合には、音声信号読出部1016(図3参照)が相対的遅延時間t4に従って第1の音声信号と第2の音声信号とを同期させ、フレーム取得手段102a,102bにそれぞれ出力すればよい。ちなみに、この場合には、既知の相対的遅延時間t4を予め入力部(図示せず)を介して入力して記憶部(図示せず)に格納し、音声信号読出部1016が相対的遅延時間t4を上記の記憶部から読み出して、第1の音声信号と第2の音声信号とを同期させればよい。
【0060】
また、本発明に係る音声比較装置1,1A,1Bでは、同期手段101(図3参照)が、記憶部1011a,1011b、及び、相互相関関数記憶部1014を含む構成となっているが、これに限らない。すなわち、記憶部1011a,1011b、及び、相互相関関数記憶部1014が音声比較装置1,1A,1Bの外部に存在する構成としてもよい。
【0061】
また、音声比較装置1,1A,1Bの外部に、放送局(図示せず)から番組情報を受信して、第1の音声信号と第2の音声信号とが同じ番組に対応するものであるか否かを音声比較装置1,1A,1Bに対して出力する番組情報受信装置(図示せず)を備えることとしてもよい。この場合には、番組情報受信装置から、第1の音声信号に対応する第1の放送と、第2の音声信号に対応する第2の放送とが同じであるか否かを示す信号が音声比較装置1の比較手段106(図2、図6、図8参照)に入力される。
【0062】
上記の第1の放送と第2の放送とが同じ番組であることを示す信号が番組情報受信装置から入力された場合、比較手段106は、上記で説明した場合と同様の処理を行う。すなわち、比較手段106は、距離算出手段105により算出された距離(ノルム)の値が所定値より大きいか否かによって「正常」又は「異常」に対応する信号を表示装置3に対して出力する。一方、上記の第1の放送と第2の放送とが異なる番組であることを示す信号が番組情報受信装置から入力された場合には、比較手段107は、距離算出手段105により算出された距離(ノルム)の値に関わらず、常に「正常」に対応する信号を表示装置3に出力する。
これは、例えば、第1の音声信号が「マラソン中継」の放送に対応する音声信号で、第2の音声信号が「トーク番組」の放送に対応する音声信号であることが番組情報受信装置から入力された番組情報により予め分かっている場合には、第1の音声信号と第2の音声信号との距離の値に関わらず、「正常」と判定することが適当だからである。
【0063】
また、図8に示すように、音声比較装置1Bは、第2実施形態に係る音声比較装置1Aに高域通過フィルタ手段108a,108b及びメル尺度変換手段109a,109bを追加した構成となっているが、上記の各構成のうち高域通過フィルタ手段108a,108bのみを追加する構成としてもよい。この場合、正規化手段104aは、高域通過フィルタ手段108aにより周波数の高い領域を強調して入力された第1の音声信号(スペクトル包絡)に対して正規化処理を行い、距離算出手段105に対して出力する。第2の音声信号についても同様である。
また、第2実施形態に係る音声比較装置1Aにメル尺度変換手段109a,109bのみを追加する構成としてもよい。この場合、メル尺度変換手109aは、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(スペクトル包絡)に対して、人間の聴覚感度特性に対応する周波数上の重み付けを行い、正規化手段104aに対して出力する。
【0064】
図10は、本発明の第1実施形態に係る音声比較装置1を用いた場合と、本発明の第3実施形態に係る音声比較装置1Bを用いた場合と、において12SEG放送と1SEG放送を比較した実験データを示す図である。
図10のグラフの破線は本発明の第1実施形態に係る音声比較装置1を用いて処理を行った場合であり、2つの音声信号に対して同期処理、フレーム取得処理、周数変換処理、正規化処理を行って、2つの音声信号の強度の差分(距離)を1秒ごとに算出したものである。なお、図中には簡単のため、「周波数スペクトル」と記載されている。
一方、図10のグラフの実線は本発明の第3実施形態に係る音声比較装置1Bを用いて処理を行った場合であり、第1実施形態に係る音声比較装置1の処理に加えて、さらにスペクトル包絡変換処理、高域通過フィルタ処理、メル尺度変換処理を行って、2つのスペクトル包絡の差分(距離)を1秒ごとに算出したものである。なお、図中には簡単のため、「スペクトル包絡+高域通過フィルタ+MEL尺度」と記載されている。
【0065】
図10に示す実験データにおいて、破線で示す「周波数スペクトル」の場合と、実線で示す「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合とでは、サンプル点の量が異なるため、当該サンプル点の量に基づいて正規化した。また、図10に示す実験データでは、フレーム取得手段102a,102b(図2、図8参照)で用いられる窓関数のずらし幅を100msecとし、窓関数の長さを66msecとした。また、サンプリング周波数を48000Hzとし、量子化ビットを16bitとした。また、図10に示す実験データでは、12SEG放送と1SEG放送とが同一の放送内容である場合の各音声信号の差異(距離)を0dBとした。
また、1SEG放送の送出において障害が起きた事を想定し、1SEG放送を無音とした区間B1、及び、1SEG放送をホワイトノイズ(白色雑音)とした区間D1を設け、異常を検知できたかを示した。なお、ホワイトノイズとは、すべての波が同じエネルギーで重なっている雑音である。
【0066】
図10に示すA1及びC1で示した区間では、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号として、第1の音声信号と同一内容の1SEG放送を受信した。また、B1で示した区間は、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号を無音とした。C1で示した区間は、A1の範囲と同様に、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号として、第1の音声信号と同一内容の1SEG放送を受信した。D1で示した区間は、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号を定常的なホワイトノイズとした。
【0067】
図10に示すように、実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」、及び、破線で示した「周波数スペクトル」の両方において、B1(1SEG 無音)の区間で波形の差異の値が大きくなり、異常を検知した事が分かる。また、実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」及び破線で示した「周波数スペクトル」の両方において、D1(1SEG ホワイトノイズ)の区間で、波形の差異の値が大きくなり、異常を検知した事が分かる。さらに、「周波数スペクトル」の場合よりも「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合の方が、正常な区間(2つの音声信号の内容が同一であるA1,C1の区間)における値と、異常な区間(1SEG放送が無音であるC1の区間、及び1SEG放送がホワイトノイズであるD1の区間)における値との相対的な差が大きいことが分かる。つまり、「周波数スペクトル」の場合よりも「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合の方が、所定のしきい値を基準として、2つの音声信号の素材が同一であるか否かを適切に判断することができる。
【0068】
図11は、本発明の第1実施形態に係る音声比較装置1を用いた場合と、本発明の第3実施形態に係る音声比較装置1Bを用いた場合と、においてAM放送とFM放送を比較した実験データを示す図である。
図11のグラフの破線は、図10に示す実験データと同様に、本発明の第1実施形態に係る音声比較装置1を用いて処理を行った場合であり、図中には簡単のため、「周波数スペクトル」と記載されている。
一方、図11のグラフの実線は、図10に示す実験データと同様に、本発明の第3実施形態に係る音声比較装置1Bを用いて処理を行った場合であり、図中には簡単のため、「スペクトル包絡+高域通過フィルタ+MEL尺度」と記載されている。
【0069】
図11に示す実験データにおいて、破線で示す「周波数スペクトル」の場合と、実線で示す「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合とでは、サンプル点の量が異なるため、当該サンプル点の量に基づいて正規化した。また、図11に示す実験データでは、フレーム取得手段102a,102b(図2、図8参照)で用いられる窓関数のずらし幅を100msecとし、窓関数の長さを66msecとした。また、サンプリング周波数を48000Hzとし、量子化ビットを16bitとした。また、図11に示す実験データでは、AM放送とFM放送とが同一の放送内容である場合の各音声信号の差異(距離)を0dBとした。
【0070】
なお、図11に示す実験データでは、測定音声の音声レベルは、16bitで量子化した時のフルビットスケールを0dBFSとした場合の−18dBFSの正弦波信号を+4dBmとした。また、素材のニュース番組は0dBm程度の平均トークレベルで収録されたもので放送波を復調して収録したものを使用した。また、B2で示した範囲では、平均トークレベルが0dBm〜+4dBmの音声素材に、定常ノイズ(サーマルノイズ)を−16dBm〜−11dBm程度で混入した。また、インピーダンスが600Ωの機器に1kHzの正弦波信号を加えて1mWの電力を消費した場合を0dBmとし、電圧を0.775Vとした場合を0VU=+4dBmとした。
ちなみに、平均音声レベルは、VUメータ(図示せず)から読み取った値である。VUメータの電気的特性により、応答速度が300msで、300ms以上の継続する信号が入った時に、正確なレベルを指示する。この場合VUメータは、入力信号の平均値をVU値(Volume Unit:音量単位)として示すことができる。
【0071】
図11のA2〜C2の区間において、AM放送とFM放送とは同一の放送内容(ニュース番組)であるが、AM放送の送出において障害が起きた事を想定し、B2の区間ではAM放送に定常ノイズを混入させ、C2の区間ではAM放送にパルスノイズを混入させた。また、D2の区間では、AM放送をホワイトノイズとした。また、E2の区間ではAM放送とFM放送とを異なる内容(AM放送ではマラソン中継、FM放送ではトーク番組)とした。
【0072】
図11に示すように、破線で示した「周波数スペクトル」、及び、実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」の両方の場合において、B2(AM放送に定常ノイズが混入した場合)、C2(AM放送にパルスノイズが混入した場合)、D2(第1の音声信号が定常ノイズである場合)、E2(第1の音声信号と第2の音声信号の内容が異なる場合)の区間で波形の差異の値が大きくなり、異常を検知した事が分かる。すなわち、音声比較装置1(破線で示した「周波数スペクトル」を参照)、及び、音声比較装置1B(実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」を参照)の両方の場合において、異常を適切に検知できたことが分かる。
【符号の説明】
【0073】
1,1A,1B 音声比較装置
101 同期手段
102a,102b フレーム取得手段
103a,103b 周波数変換手段
104a,104b 正規化手段
105 距離算出手段
106 比較手段
107a,107b スペクトル包絡変換手段
108a,108b 高域通過フィルタ手段
109a,109b メル尺度変換手段
2 インタフェース装置
201a,201b A/D変換器
3 表示装置
【技術分野】
【0001】
本発明は、2つの音声信号を比較して同一素材であるか否かを判定する、音声比較装置及び音声比較プログラムに関する。
【背景技術】
【0002】
放送局においては、放送を安定して送出するために様々な監視装置が用いられている。放送局では、例えば、「電波の停波」、「音声無変調」、「ネット局からの回線の切断」、「逆相」などの異常がないかを監視することにより、放送の安定性を担保している。しかしながら、同一の放送内容(同一の素材)を様々な変調方式により変調して送出した場合に、各放送信号が誤りなく送出されているか否かは、受信機が受信した放送信号を人間が実際に視聴することにより行われていた。
【0003】
特許文献1には、同じ番組をアナログ放送とデジタル放送で同時に放送する「サイマル放送」について、各放送信号が誤りなく送出されているか否かを監視する手法が提案されている。
特許文献1には、監視担当者が、スピーカから出力されるアナログ放送の音声信号とデジタル放送の音声信号とのいずれか一方を聞きながら、放送信号監視装置が音声の不一致を通知するか否かを監視することにより、両方の音声信号が正常(同一内容)であるかを監視する技術について記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2005−340935号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術では音声信号の比較を時間軸で行っているため、一方の音声信号に対する他方の音声信号の遅延時間の算出精度が、ノイズなどの影響により落ちてしまう可能性がある。また、異なる変調方式で変調すると音質が変わる場合があり、正しい検知結果を出力できなくなる可能性がある。
つまり、特許文献1に記載の技術では、同じ内容(同一素材)の音声信号であっても変調方式が異なる場合には音質が変わり、同一素材であるか否かを適切に判定できない場合がある。
【0006】
そこで、本発明は、異なる変調方式で変調した場合の復調信号である2つの音声信号の素材の同一性を適切に判定することができる音声比較装置等を提供することを課題とする。
【課題を解決するための手段】
【0007】
本発明は、前記目的を達成するために創案されたものであり、請求項1に係る音声比較装置は、異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定する音声比較装置であって、同期手段と、フレーム取得手段と、周波数変換手段と、正規化手段と、距離算出手段と、比較手段と、を備える構成とした。
かかる構成において、音声比較装置は同期手段によって、第1の音声信号と第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って第1の音声信号と第2の音声信号とを同期させる。これによって、音声比較装置に第1の音声信号が到達する時刻と、音声比較装置に第2の音声信号が到達する時刻との間に時間差が生じた場合でも、同期手段によって同期させることができる。
そして、音声比較装置はフレーム取得手段によって、第1の音声信号及び第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得する。これによって、音声比較装置は、窓関数を用いて音声信号の波形をその定常性が確認できる程度の短い時間に分割することができる。
【0008】
そして、音声比較装置は周波数変換手段によって、フレーム取得手段により所定の時間幅に対応するフレームとして入力された第1の音声信号及び第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する。これによって、音声比較装置は、フレーム取得手段によりフレームとして入力された第1の音声信号及び第2の音声信号を、時間領域から周波数領域に変換することができる。
そして、音声比較装置は正規化手段によって、周波数変換手段により周波数領域に変換して入力された第1の音声信号と第2の音声信号のそれぞれに対して正規化処理を行う。これによって、音声比較装置は、基準となる音声レベルが入力の時点でずれている場合でも各音声信号の波形を正規化することにより音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
そして、音声比較装置は距離算出手段によって、正規化手段により正規化された第1の音声信号と第2の音声信号との距離を算出する。さらに、音声比較装置は比較手段によって、距離算出手段の算出値である距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する。これによって、音声比較装置は、第1の音声信号と第2の音声信号のそれぞれの周波数スペクトルの差分である距離の値が所定の基準値以上であるか否かによって、第1の音声信号と第2の音声信号とが同一素材であるか否かを適切に判断することができる。
【0009】
また、請求項2に記載の音声比較装置は、請求項1に記載の音声比較装置において、さらに、スペクトル包絡手段を備える構成とした。かかる構成において音声比較装置は、スペクトル包絡変換手段によって、周波数変換手段により周波数領域に変換して入力された第1の音声信号及び第2の音声信号のそれぞれをスペクトル包絡に変換する。そして、正規化手段は、スペクトル包絡変換手段によりスペクトル包絡に変換して入力された第1の音声信号と第2の音声信号のそれぞれに対して、正規化処理を行う。
これによって、音声比較装置は、音声信号の特徴を判断する上で有効なスペクトル包絡を比較することで、検出精度の信頼性を高めることができる。
【0010】
また、請求項3に記載の音声比較装置は、請求項2に記載の音声比較装置において、さらに、高域通過フィルタ手段を備える構成とした。かかる構成において音声比較装置は、高域通過フィルタ手段によって、スペクトル包絡変換手段によりスペクトル包絡に変換して入力された第1の音声信号と第2の音声信号のそれぞれについて、所定の周波数より低い周波数帯域の信号を除去することにより、当該所定の周波数以上の周波数帯域の信号を取り出す処理を行う。そして、正規化手段は、高域通過フィルタ手段により所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された第1の音声信号及び第2の音声信号のそれぞれに対して正規化処理を行う。
これによって、音声比較装置は、高域通過フィルタ手段により第1の音声信号及び第2の音声信号に対して周波数の高い領域を強調する処理を行い、人間の聴覚特性により近い周波数特性に変換することができる。
【0011】
また、請求項4に記載の音声比較装置は、請求項3に記載の音声比較装置において、さらに、メル尺度変換手段を備える構成とした。かかる構成において音声比較装置は、メル尺度変換手段によって、高域通過フィルタ手段により所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された第1の音声信号と第2の音声信号のそれぞれに対して、メル尺度を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行う。そして、正規化手段は、メル尺度変換手段により周波数上の重み付けをして入力された第1の音声信号及び第2の音声信号のそれぞれに対して、正規化処理を行う。
これによって、音声比較装置は、メル尺度変換手段により人間の聴覚特性に近い形で第1の音声信号及び第2の音声信号を抽出することができる。
【0012】
また、請求項5に記載の音声比較装置は、請求項1から請求項4のいずれか一項に記載の音声比較装置において、距離算出手段は、所定のサンプル周波数における第1の音声信号と第2の音声信号との差の絶対値の二乗を算出し、さらに各サンプル周波数において算出された差の絶対値の二乗の和の平方根を距離として算出する。これによって、音声比較装置は、第1の音声信号と第2の音声信号とを周波数領域で比較して、その距離を算出することで、検出精度の信頼性を高めることができる。
【0013】
また、請求項6に記載の音声比較装置は、請求項4又は請求項5に記載の音声比較装置において、メル尺度変換手段で用いられるメル尺度関数は、音声信号の周波数をfとすると、Mel(f)=2595log10(1+f/700)で表されることとした。これによって、音声比較装置は、人間の聴覚特性に近い形で第1の音声信号及び第2の音声信号を抽出することができる。
【0014】
また、請求項7に記載のプログラムは、異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定するために、コンピュータを、同期手段、フレーム取得手段、周波数変換手段、正規化手段、距離算出手段、比較手段として機能させるためのものである。
かかる構成において、音声比較プログラムは、コンピュータを同期手段として機能させることによって、第1の音声信号と第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って第1の音声信号と第2の音声信号とを同期させる。
そして、音声比較プログラムは、コンピュータをフレーム取得手段として機能させるによって、同期手段により同期された第1の音声信号と第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得する。
そして、音声比較プログラムは、コンピュータを周波数変換手段として機能させることによって、フレーム取得手段により所定の時間幅に対応するフレームとして入力された第1の音声信号及び第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する。
【0015】
そして、音声比較プログラムは、コンピュータを正規化手段として機能させることによって、周波数変換手段により周波数領域に変換して入力された第1の音声信号と第2の音声信号のそれぞれに対して正規化処理を行う。
そして、音声比較プログラムは、コンピュータを距離算出手段として機能させることによって、正規化手段により正規化された第1の音声信号と第2の音声信号との距離を算出する。
さらに、音声比較プログラムは、コンピュータを比較手段として機能させることによって、距離算出手段の算出値である距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する。
これによって、音声比較プログラムは、第1の音声信号と第2の音声信号との周波数領域における距離の値が所定の基準値以上であるか否かによって、第1の音声信号と第2の音声信号とが同一素材であるか否かを適切にコンピュータに判断させることができる。
【発明の効果】
【0016】
本発明によれば、異なる変調方式で変調した場合の復調信号である2つの音声信号の素材の同一性を適切に判定することができる音声比較装置等を提供することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の第1実施形態に係る音声比較装置、インタフェース装置、表示装置の概略構成図である。
【図2】音声比較装置、インタフェース装置、表示装置のブロック構成図である。
【図3】音声比較装置が備える同期手段のブロック構成図である。
【図4】同期手段によって、第1の音声信号に対する第2の音声信号の相対的遅延時間を決定する処理についての説明図であり、(a)は第1の音声信号の波形を示し、(b)は第2の音声信号の波形を示す。
【図5】音声比較装置の一連の処理の流れを示すフローチャートである。
【図6】本発明の第2実施形態に係る音声比較装置、インタフェース装置、表示装置のブロック構成図である。
【図7】音声比較装置の一連の処理の流れを示すフローチャートである。
【図8】本発明の第3実施形態に係る音声比較装置、インタフェース装置、表示装置のブロック構成図である。
【図9】音声比較装置の一連の処理の流れを示すフローチャートである。
【図10】本発明の第1実施形態に係る音声比較装置を用いた場合と、本発明の第3実施形態に係る音声比較装置を用いた場合と、において12SEG放送と1SEG放送を比較した実験データを示す図である。
【図11】本発明の第1実施形態に係る音声比較装置を用いた場合と、本発明の第3実施形態に係る音声比較装置を用いた場合と、においてAM放送とFM放送を比較した実験データを示す図である。
【発明を実施するための形態】
【0018】
本発明の実施形態について、適宜図面を参照しながら詳細に説明する。なお、各図において、共通する部分には同一の符号を付し、重複した説明を省略する。
【0019】
≪第1実施形態≫
本実施形態に係る音声比較装置1は、異なる変調方式で変調された場合の復調信号である第1の音声信号と第2の音声信号が同一素材(同一内容)であるか否かを判定する装置である。第1の音声信号及び第2の音声信号は、例えば、所定の放送番組が放送局(図示せず)で互いに異なる変調方式(例えば、AM変調,FM変調)に従って変調され、放送局から電波として送信された各信号が受信機(図示せず)によって受信され、さらに復調された音声信号である。
【0020】
音声比較装置1の各構成について説明する前に、音声比較装置1と接続される機器について説明する。
図1に示すように、インタフェース装置2は、音声比較装置1の入力側に接続されている。インタフェース装置2は、異なる変調方式で変調された場合の復調信号である第1の音声信号及び第2の音声信号を、所定のサンプリング周波数に従ってA/D変換する装置である。インタフェース装置2は、A/D変換器201aと、A/D変換器201bとを備える。A/D変換器201aはアナログ信号として入力された第1の音声信号に対して所定のサンプリング周波数でデジタル信号に変換し、音声比較装置1に出力する。同様に、A/D変換器201bは、アナログ信号として入力された第2の音声信号に対してA/D変換を行い、デジタル信号として音声比較装置1に出力する。
【0021】
なお、第1の音声信号は、例えば、放送局において所定の放送信号が1セグメント放送(以下、1SEG放送と称する。)に対応して変調して送信され、さらに当該信号が図示しない復調器で復調された音声信号である。また、第2の音声信号は、例えば、放送局において所定の放送信号が12セグメント放送(以下、12SEGと称する。)に対応して変調して送信され、さらに当該信号が図示しない復調器で復調された音声信号である。
ちなみに、地上デジタル放送では、1つのチャンネルが13の周波数帯域(セグメント)に分割されており、このうち1セグメントの周波数帯域を利用して変調する場合が「1SEG放送」であり、12セグメントの周波数帯域を利用して変調する場合が「12SEG放送」である。
また、第1の音声信号及び第2の音声信号としては、上記で説明したように、1SEG放送や12SEG放送を復調した音声信号に限らない。すなわち、異なる変調方式で変調された場合の復調信号であれば、音声比較装置1は、様々な変調方式及び復調方式に対応可能である。例えば、第1の音声信号をAM(Amplitude Modulation)放送が復調された音声信号とし、第2の音声信号をFM(Frequency Modulation)放送が復調された音声信号としてもよい。
【0022】
図1に示すように、復調信号である第1の音声信号と第2の音声信号は、インタフェース装置2にリアルタイムで入力し、それぞれA/D変換されて音声比較装置1に出力される。
また、第1の音声信号及び第2の音声信号のうち、いずれか一方は他方に対して所定時間だけ遅れてインタフェース装置2に到達する。遅延の原因として、放送局から放送信号を送信する際のエンコード及び図示しない受信機で処理されるデコードに伴う遅延がある。例えば、一方の音声信号は、他方の音声信号に対して1.7sec程度遅れてインタフェース装置2に到達する。
【0023】
表示装置3は、音声比較装置1の出力側に接続されている。表示装置3は、音声比較装置1が第1の音声信号と第2の音声信号とを比較した場合の判定結果を表示することにより、監視者に正常又は異常を知らせる。すなわち表示装置3は、音声比較装置1が第1の音声信号と第2の音声信号とが同一素材(同一内容)であると判定した場合には、「異常なし」に相当する表示をする。一方、表示装置3は、音声比較装置1が、第1の音声信号と第2の音声信号とが互いに異なる素材(同一の内容ではない)であると判定した場合には、「異常あり」に相当する表示をする。
【0024】
次に、本実施形態に係る音声比較装置1について説明する。図2に示すように、音声比較装置1は、同期手段101と、フレーム取得手段102a,102bと、周波数変換手段103a,103bと、正規化手段104a,104bと、距離算出手段105と、比較手段106と、を備える。
同期手段101は、第1の音声信号と第2の音声信号のそれぞれに対して所定時間分の波形を切り出し、切り出した各波形について相互相関関数を求め、相互相関関数が最大となる場合の相対的遅延時間を求める。ここで相対的遅延時間とは、第1の音声信号が音声比較装置1に到達する時刻と、第2の音声信号が音声比較装置1に到達する時刻との差で表される。例えば、第1の音声信号に対して第2の音声信号が所定時間tだけ遅れて到達する場合の遅延時間を「t」とすると、その逆の場合(第1の音声信号に対して第2の音声信号が所定時間だけ早く到達する場合)の遅延時間は「−t」と表される。
相互相関関数の値は、2つの関数の類似性が高いほど大きな値をとるため、相対的遅延時間は相互相関関数の値が最大となる場合での各波形の時間差として求められる。なお、相対的遅延時間の導出の詳細については、後記する。
【0025】
図3に示すように、同期手段101は、記憶部1011a,1011bと、音声信号切出し部1012a,1012bと、相互相関関数算出部1013と、相互相関関数記憶部1014と、相互相関関数比較部1015と、音声信号読出部1016と、を備える。
記憶部1011aは、インタフェース装置2のA/D変換器201aによってデジタル信号に変換された第1の音声信号を一時的に記憶するバッファとして機能する。同様に、記憶部1011bは、インタフェース装置2のA/D変換器201bによってデジタル信号に変換された第2の音声信号を一時的に記憶するバッファとして機能する。
【0026】
音声信号切出し部1012aは、A/D変換器201aでデジタル信号に変換された第1の音声信号を記憶部1011aから読み出し、所定時間分の波形を切り出して相互相関関数算出部1013に出力する。例えば、図4(a)に示すように、音声信号切出し部1012aは、第1の音声信号からt1〜t2までの時間幅の波形を切り出す。
なお、上記の時間幅(t2−t1)は、予め定められた値である。t1〜t2の時間幅の波形は、t1〜t2における値が1であり、それ以外の時間における値が0である関数を第1の音声信号に乗算することにより取得することができる。
同様に、音声信号切出し部1012bは、A/D変換器201bでデジタル信号に変換された第2の音声信号を記憶部1011bから読み出し、所定時間分の波形を切り出して取得し、相互相関関数算出部1013に出力する。図4(b)に示すように、音声信号切出し部1012bは、まず、上記の音声信号切出し部1012aが取得した波形の時間と同一の時間(上記の例では、t1〜t2)の波形を切り出して取得し、相互相関関数算出部1013に出力する。
【0027】
さらに、音声信号切出し部1012bは、音声信号切出し部1012aが取得した波形の時間(t1〜t2)からt0だけ進んだ時間(t1+t0〜t2+t0)における第2の音声信号の波形を取得して、相互相関関数算出部1013に出力する。なお、t0は予め定められた時間である。
同様にして、音声信号切出し部1012bは、(t1+2t0〜t2+2t0:図4参照)、(t1−t0〜t2−t0:図示せず)、(t1−2t0〜t2−2t0:図示せず)のように、時間(t1〜t2)から正又は負方向にt0ずつシフトさせた時間における第2の音声信号を切り出して相互相関関数算出部1013に出力する。なお、第2の音声信号から所定時間分だけ切り出して取得されるデータの個数(上記では、5個)は、予め設定されているものとする。
【0028】
相互相関関数算出部1013は、音声信号切出し部1012aで取得された所定時間t1〜t2の音声信号と、1012bから取得された時間幅(t2−t1)である複数の(上記では、5個)の音声信号との相互相関関数を逐次算出して、相互相関関数記憶部1014に出力する。
例えば、相互相関関数は、t1〜t2(図4参照)における第1の音声信号とt1+t0〜t2+t0(図4参照)における第2の音声信号との相互相関関数を算出して、相互相関関数記憶部1014に出力する。相互相関関数記憶部1014は、相互相関関数算出部1013で算出された複数の相互相関関数を記憶する。
相互相関関数比較部1015は、相互相関関数記憶部1014に記憶された相互相関関数の値を読み出して順次比較し、相互相関関数算出部1013で算出した相互相関関数の値が最大になる場合での相対的遅延時間n*t0(nは整数)を音声信号読出部1016に出力する。
【0029】
例えば、図4において第2の音声信号の波形(図4(b)参照)は、第1の音声信号の波形(図4(a)参照)よりも時間t0だけ進んでいる。この場合、相互相関関数算出部1013で算出される複数の相互相関関数のうち、t1〜t2の範囲での第1の音声信号と、t1+t0〜t2+t0の範囲での第2の音声信号との相互相関関数が最大になる。
この場合、相互相関関数比較部1015は、第1の音声信号に対する第2の音声信号の相対的遅延時間である「−t0」を音声信号読出部1016に出力する。なお、上記のマイナスの符号は、第1の音声信号に対して第2の音声信号が時間t0だけ進んでいる(−t0だけ遅れている)ことを表す。
音声信号読出部1016は、相互相関関数比較部1015から出力された相対的遅延時間に従って、各音声信号が同期するように読み出し処理を行う。上記の例では、音声信号読出部1016は、同期手段101に入力したタイミングを基準として、第2の音声信号を第1の音声信号より時間t0だけ遅らせて記憶部1011a,1011bから読み出し、フレーム取得手段102a,102bに出力する。
以上のような処理によって、同期手段101は第1の音声信号と第2の音声信号とを同期させることができる。
【0030】
再び図2に戻って、音声比較装置1について説明を続ける。なお、重複した説明を避けるため、フレーム取得手段102a,102b、周波数変換手段103a,103b、正規化手段104a,104bについては、第1の音声信号を処理する場合のみ説明し、第2の音声信号を処理する場合については第1の音声信号の処理と同様になるので、説明を省略する。
フレーム取得手段102aは、同期手段101から出力された第1の音声信号から所定の窓関数を用いてフレームを切り取る。ここで「フレーム」とは、窓関数によって切り出された部分の音声信号を指す。
音声は、その統計的性質が時間とともに変化するが、十分に短い期間内では定常性を仮定できると考えられている。したがって、音声信号の分析では、窓関数を用いて音声信号の波形をその定常性が確認できる程度の短い時間に分割する。窓関数として、例えば、方形窓、バーレット窓、ハニング窓、ハミング窓、ブラックマン窓などを用いることができる。本実施形態では、長さが10〜1000msecの時間窓を、10〜1000msecの間隔で順次シフトしながら分析を行う。
同期手段101により同期処理をして入力された第1の音声信号は、フレーム取得手段102aによってフレームに切り取られ、周波数変換手段103aに対して出力される。
【0031】
周波数変換手段103aは、高速フーリエ変換(Fast Fourier Transform :FFT)を実行することにより、フレーム取得手段102aによりフレームに切り取られた第1の音声信号を、時間領域から周波数領域に変換する。つまり、周波数変換手段103aは、第1の音声信号に対して離散フーリエ変換を高速に実行することにより、時間領域の信号として入力された第1の音声信号を周波数スペクトルに変換する。
したがって、フレーム取得手段102aによりフレームに切り取られて入力された第1の音声信号は、周波数変換手段103aによって時間領域から周波数領域の音声信号に変換され、正規化処理手段104aに対して出力される。
【0032】
正規化手段104aは、周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号に対して、正規化の処理を行う。具体的に正規化手段104aは、スペクトルを表す関数S(f)を、各サンプル周波数における値(強度)の和で除することにより正規化を行う。すなわち、正規化手段104aは、以下の式(1)及び式(2)で表される正規化処理を実行する。
なお、S(f)はスペクトルを表す関数、fは周波数、fminは最小周波数、fmaxは最大周波数、Rは各サンプル周波数における値(強度)の和、N(f)は正規化されたスペクトルである。
【数1】
【数2】
【0033】
音声信号の音量が大きくなると、第1の音声信号及び第2の音声信号の波形も大きくなるため、周波数成分を比較する場合の誤差が大きくなる。本実施形態のように、周波数変換手段103aの後段に正規化手段104aを備えることによって、基準となる音声レベルが入力の時点でずれている場合でも各音声信号の波形を正規化することにより音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号は、正規化手段104aによって正規化処理され、距離算出手段105に対して出力される。
【0034】
距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号と、正規化手段104bにより正規化して入力された第2の音声信号との距離(ノルム)を算出する。すなわち、距離算出手段105は、正規化手段104aから入力された第1の音声信号と正規化手段104bから入力された第2の音声信号について、サンプル周波数ごとの強度差の絶対値を算出し、さらに、算出した各サンプル周波数における強度差の絶対値から距離(ノルム)を算出して、比較手段106に対して出力する。
第1の音声信号のスペクトルをS(f)とし、第2の音声信号のスペクトルをT(f)とすると、以下の(式3)及び(式4)のようになる。
【数3】
【0035】
したがって、第1の音声信号と第2の音声信号との距離であるノルム‖S(f)−T(f)‖は、以下の式(5)のようになる。
【数4】
【0036】
比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
距離算出手段105により算出された距離が、予め定められた所定の値以上であった場合には、第1の音声信号と第2の音声信号とは異なる内容であると考えられる。したがって、この場合、比較手段106は、「異常あり」に対応する信号を表示装置3に対して出力する。また、距離算出手段105により算出された距離が、予め定められた所定の値より小さい場合には、第1の音声信号と第2の音声信号とは同一の内容であると考えられる。したがって、この場合比較手段106は、「異常なし」に対応する信号を表示装置3に対して出力する。
なお、比較手段107は、予め定められた所定時間(例えば、10秒)内に算出されたスペクトル包絡間の距離の合計値を算出し、当該合計値が予め定められた所定値以上であるか否かを判断することとしてもよい。
【0037】
図5は、本実施形態に係る音声比較装置1の一連の処理の流れを示すフローチャートである。なお、重複した説明を避けるため、ステップS20〜S40は第1の音声信号についてのみ説明する。
図5のステップS10で音声比較装置1は、同期手段101によって、入力された第1の音声信号と第2の音声信号とが同期するように、同期処理を行う。すなわち、同期手段101は、第1の音声信号と第2の音声信号との相互相関関数が最大となる場合の相対的遅延時間を求め、この相対的遅延時間に従って一方を他方に遅らせて出力することにより、同期処理を行う。
ステップS20で音声比較装置1は、フレーム取得手段102aによって、同期手段101から入力された第1の音声信号から所定の窓関数を用いてフレームを切り取る。ステップS30で音声比較装置1は、周波数変換手段103aによって、フレーム取得手段102aから入力された第1の音声信号に対してフーリエ変換を高速に実行することにより、時間領域の信号として入力された第1の音声信号を周波数スペクトルに変換する。ステップS40で音声比較装置1は、正規化手段104aによって、周波数変換手段103aから入力された第1の音声信号に対して、正規化の処理を行う。
【0038】
ステップS50で音声比較装置1は、距離算出手段105によって、正規化手段104aから入力された第一の音声信号と、正規化手段104bから入力された第2の音声信号との距離(ノルム)を算出する。ステップS60で音声比較装置1は、比較手段106によって、距離算出手段105により算出された距離(ノルム)が予め定められた所定の値以上であるか否か判断する。ステップS60で、距離算出手段105により算出された距離(ノルム)が、予め定められた所定の値以上であった場合(ステップS60→Yes)、音声比較装置1は、比較手段106によって、表示部3に対して「異常あり」に対応する信号を出力する(ステップS70)。また、ステップS60で、距離算出手段105により算出された距離(ノルム)が、予め定められた所定の値より小さかった場合(ステップS60→No)、音声比較装置1は、比較手段106によって、表示部3に対して「異常なし」に対応する信号を出力する(ステップS80)。
【0039】
本実施形態に係る音声比較装置1によれば、フレーム取得手段102a,102bが、所定の窓関数を用いて各音声信号の波形をその定常性が確認できる程度の短い時間で切り出して、さらに周波数変換手段103a,103bが周波数領域に変換する処理を行う。
したがって、同期手段101で算出した相対的遅延時間に誤差が生じた場合でも、定常性が確認できる程度の短い時間で切り出した音声信号の周波数特性の変動が小さいため、音声比較装置1の判定結果にはほとんど影響しない。
なお、第1の音声信号に対する第2の音声信号の相対的遅延時間が変動しないことが分かっている場合には、同期手段101が相対的遅延時間を算出する処理は、フレームごとに逐次行う必要はなく、音声比較装置1による比較処理を行う際に1度だけ行えばよい。
また、所定時間ごとに相対的遅延時間の算出を行うよう設定してもよい。
【0040】
本実施形態に係る音質監視装置1は、同一の音質素材に対して異なる変調方式で変調を行った場合に、変調方式の違いに起因する音質の差が復調信号に現れても、各音声信号の周波数特性に着目し、その距離(ノルム)を所定値と比較することによって、正常であるか異常であるかを適切に検知することができる。
また、本実施形態に係る音質監視装置1は、周波数変換手段103aから入力された第1の音声信号と、周波数変換手段103bから入力された第2の音声信号について、正規化手段104a,104bにより正規化する処理を行っている。これによって、基準となる音声レベルが入力の時点でずれている場合でも、各音声信号の波形を正規化することによって、音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
したがって、本実施形態に係る音質監視装置1によれば、異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号の素材の同一性を適切に判定することができる
【0041】
≪第2実施形態≫
本実施形態に係る音声比較装置1Aは、スペクトル包絡変換手段107a,107bを備える点が第1実施形態と異なるが、他の点は第1実施形態の場合と同様である。したがって、当該異なる点について主に説明し、第1実施形態と共通する点についてはその説明を省略する。また、以下の説明では、第1の音声信号に対する処理を中心に説明し、第2の音声信号に対する処理については、第1の音声信号に対する処理と同様であるので、その説明を省略する。
【0042】
図6に示すように、本実施形態に係る音声比較装置1Aは、周波数変換手段103aと正規化手段104aとの間にスペクトル包絡変換手段107aが挿入されている
なお、図6に示す同期手段101、フレーム取得手段102a,102b、周波数変換手段103a,103bによる処理は、第1実施形態(図2参照)で説明した処理と同様である。
スペクトル包絡変換手段107aは、周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号をスペクトル包絡に変換する。スペクトル包絡を得るための手法としては、線形予測分析(linear predictive coding:LPC)が有効である。線形予測分析は、過去の出力と現在の入力を用いてワンステップ先である現在の出力を予測するために、線形結合における各々の係数(LPC係数ベクトル)を求める手法である。
具体的には、スペクトル包絡変換手段107aは線形予測分析を用いて、音声信号の各サンプリング値をいくつかの過去のサンプリング値の線形結合で表し、予測される最小誤りの二乗平均値に基づいて個々の重み付け係数を求める。ちなみに、予測される誤りは、実際のサンプリング値と予測値との差によって求められる。
すなわち、スペクトル包絡変換手段107aは、線形予測分析を用いて第1の音声信号のパラメータ(フォルマント等)を推定してスペクトル包絡に変換し、正規化手段104aに出力する。
【0043】
そして、正規化手段104aは、スペクトル包絡変換手段107aから入力された第1の音声信号に対応する第1のスペクトル包絡に対して、正規化の処理を行う。具体的に正規化手段104aは、上記で説明したように、スペクトルを表す関数S(f)を、スペクトル包絡の各サンプル周波数における値(強度)の和で除することにより正規化を行う。
そして、距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bにより正規化して入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。
さらに、比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
【0044】
図7は、本実施形態に係る音声比較装置1Aの一連の処理の流れを示すフローチャートである。図7に示すステップS10〜S30は、図5で説明したステップS10〜S30と同様であるから、説明を省略する。
図7のステップS31で音声比較装置1Aは、スペクトル包絡変換手段105aによって、周波数変換手段104aから入力された第1の音声信号をスペクトル包絡に変換する。そして、ステップS40で音声比較装置1Aは、正規化手段104aによって、スペクトル包絡変換手段105aから入力された第1の音声信号(第1のスペクトル包絡)に対して、正規化の処理を行う。ステップS50で音声比較装置1Aは、距離算出手段105によって、正規化手段104aから入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bから入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。なお、ステップS60〜S80は、図5で説明したステップS60〜S80と同様であるから、説明を省略する。
【0045】
本実施形態に係る音声比較装置1Aは、スペクトル包絡変換手段107a,107bが線形予測分析を用いて各音声信号のスペクトル包絡を出力し、さらに正規化手段104a,104bによって正規化処理を行った上で、距離算出手段105が2つのスペクトル包絡間の距離(ノルム)を算出する。各音声信号に対して周波数変換のみを行った場合には、音声信号の特徴を判別する上で必要の無い情報も含まれている可能性があるが、本実施形態に係る音声比較装置1Aは、上記のように音声信号の特徴を判断する上で有効なスペクトル包絡を比較することによって、検出精度の信頼性を高めることができる。
すなわち、本実施形態に係る音質監視装置1Aは、同一の音質素材に対して異なる変調方式で変調を行って復調した場合に、変調方式の違いに起因する音質の差が各音声信号に現れても、音源の「音の特徴」であるスペクトル包絡に焦点を絞った比較を行う事によって、各音声信号について素材の同一性を適切に判定することができる。
【0046】
≪第3実施形態≫
本実施形態に係る音声比較装置1Bは、高域通過フィルタ手段108a,108bと、メル尺度変換手段109a,109bとを備える点が第2実施形態と異なるが、他の点は第2実施形態の場合と同様である。したがって、当該異なる点について主に説明し、第2実施形態と共通する点についてはその説明を省略する。また、第1の音声信号に対する処理を中心に説明し、第2の音声信号に対する処理については、第1の音声信号に対する処理と同様であるので、その説明を省略する。
【0047】
図8に示すように、本実施形態に係る音声比較装置1Bは、スペクトル包絡変換手段107aと正規化手段104aとの間に高域通過フィルタ手段108aと、メル尺度変換手段109aとが挿入されている。
なお、図8に示す同期手段101、フレーム取得手段102a,102b、周波数変換手段103a,103bによる処理は、第1実施形態(図2参照)で説明した処理と同様である。また、図8に示すスペクトル包絡変換手段107a,107bによる処理は、第2実施形態(図6参照)で説明した処理と同様である。
【0048】
高域通過フィルタ手段108aは、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(第1のスペクトル包絡)について、所定の周波数より低い周波数帯域の信号を除去することにより、上記所定の周波数以上の周波数帯域の信号を取り出す処理を行う。
人間が感じる音の大きさは同じ音圧レベルでも周波数によって変わることが知られており、人間の感じる音の大きさは「等ラウドネス曲線(フレッチャー・マンソン曲線)」で表される。本実施形態に係る音声比較装置1Bは、上記の等ラウドネス曲線の特性を、周波数の高い領域を強調する処理を行う高域通過フィルタ手段108aによって近似する。高域通過フィルタ手段108aとして、例えば、FIRフィルタ(finite impulse response filter)を使用することができる。
【0049】
高域通過フィルタ手段108aは、所定の基準となる周波数以上の高い周波数帯域の音声信号を取り出し、低い周波数成分を除去するという特性を有する。なお、上記の基準となる周波数は、予め定めされた周波数である。
高域通過フィルタ手段108aとして有効なFIRフィルタの特性は、インパルス応答のZ変換を行った場合の伝達関数H(z)で表され、以下の式(6)のようになる。FIRフィルタは、フィードバックを必要とせず安定性があること、線形位相情報を保つことなどの特長がある。
【数5】
【0050】
スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号は、高域通過フィルタ手段108aにより高い周波数帯域の音声信号が取り出され、メル尺度変換手段109aに対して出力される。
【0051】
メル尺度変換手段109aは、高域通過フィルタ手段108aにより所定の周波数以上の周波数帯域の信号を取り出す処理を行って入力された第1の音声信号に対し、メル尺度関数を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行う。ここでメル尺度関数は、下記の式(7)で表される。なお、f[Hz]は音声信号の周波数を表す。
【数6】
【0052】
メル尺度は、人間が感じる音の高さを表す尺度であり、特に、低域の周波数分解能を向上させた音声認識手法である。したがって、メル尺度変換手段109aにより、人間の聴覚特性に近い形で第1の音声信号を抽出することができる。メル尺度変換を行う手法として、例えば、MFCC法(Mel Frequency Cepstrum Coefficient)を用いることができる。MFCC法は、三角形状の周波数特性を有する帯域通過フィルタ(図示せず)の出力を逆フーリエ変換し、低ケフレンシー部分を抽出する処理を行うことにより実行される。
高域通過フィルタ手段108aにより高い周波数帯域の音声信号を取り出して入力された第1の音声信号は、メル尺度変換手段109aによりメル尺度に変換され、正規化手段104aに対して出力される。
【0053】
そして、正規化手段104aは、メル尺度変換手段109aから入力された第1の音声信号(第1のスペクトル包絡)に対して、正規化の処理を行う。具体的に正規化手段104aは、上記で説明したように、スペクトルを表す関数S(f)を、スペクトル包絡の各サンプル周波数における値(強度)の和で除することにより正規化を行う。
そして、距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bにより正規化して入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。
さらに、比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
【0054】
図9は、本実施形態に係る音声比較装置1Bの一連の処理の流れを示すフローチャートである。図9に示すステップS10〜S31は、図7で説明したステップS10〜S31と同様であるから、説明を省略する。
図9のステップS32で音声比較装置1Bは、高域通過フィルタ手段108aによって、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(第1のスペクトル包絡)について、所定の周波数より低い周波数帯域の信号を除去することにより、上記所定の周波数以上の周波数帯域の信号を取り出す。次に、ステップS33で音声比較装置1Bは、メル尺度変換手段109aによって、高域通過フィルタ手段108aから入力された第1の音声信号(第1のスペクトル包絡)に対し、メル尺度関数を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行う。そして、ステップS40で音声比較装置1Bは正規化手段104aによって、メル尺度変換手段109aから入力された第1の音声信号(スペクトル包絡)に対して、正規化の処理を行う。ステップS50で音声比較装置1Bは、距離算出手段105によって、正規化手段104aから入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bから入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。なお、ステップS60〜S80は、図5で説明したステップS60〜S80と同様であるから、説明を省略する。
【0055】
本実施形態に係る音声比較装置1Bは、高域通過フィルタ手段108a,108bにより周波数の高い領域を強調することによって、人間の聴覚特性に近い周波数特性に変換する。さらに、音声比較装置1Bは、メル尺度変換手段109a,109bにより、人間の聴覚感度特性に対応する周波数上の重み付けを行うことによって、人間の聴覚特性により近い周波数特性に変換することができる。
すなわち、本実施形態に係る音質監視装置1Bは、同一の音質素材に対して異なる変調方式で変調を行って復調した場合に、変調方式の違いに起因する音質の差が各音声信号に現れても、人間の聴覚特性を取り入れ、さらに音源の「音の特徴」に焦点を絞った比較を行う事によって、各音声信号について素材の同一性を適切に判定することができる。
【0056】
[音声比較プログラム]
前記した音声比較装置1,1A,1Bは、一般的なコンピュータを、前記した各手段及び各部として機能させるプログラムにより動作させることで実現することができる。
【0057】
以上、本発明に係る音声比較装置1,1A,1Bについて、発明を実施するための形態により具体的に説明したが、本発明の趣旨はこれらの記載に限定されるものではなく、特許請求の範囲の記載に基づいて広く解釈されなければならない。また、これらの記載に基づいて種々変更、改変等したものも本発明の趣旨に含まれることはいうまでもない。
【0058】
音声比較装置1,1A,1Bでは、図4に示すように、t1〜t2の時間における第1の音声信号に対して、時間t1〜t2の範囲からt0ずつ正又は負方向に範囲をシフトして、各範囲での第2の音声信号を取得する場合について説明したが、これに限らない。
例えば、t1〜t2の時間における第2の音声信号を基準として、時間t1〜t2の範囲からt0ずつ正又は負方向に範囲をシフトして、各範囲での第1の音声信号を取得してもよい。また、例えば、第1の音声信号に対する第2の音声信号の相対的遅延時間について予め見当がついていれば(この場合の相対的遅延時間をt3とする)、当該相対的遅延時間t3を中心として波形を切り出す範囲を正又は負方向に順次シフトさせて、それぞれの場合について相対的遅延時間を算出すればよい。
【0059】
また、第1の音声信号に対する第2の音声信号の相対的遅延時間(この場合の相対的遅延時間をt4とする)が予め分かっている場合には、音声信号を所定時間分だけ順次ずらして切り出し、複数の相互相関関数を算出する処理を省略することができる。この場合には、音声信号読出部1016(図3参照)が相対的遅延時間t4に従って第1の音声信号と第2の音声信号とを同期させ、フレーム取得手段102a,102bにそれぞれ出力すればよい。ちなみに、この場合には、既知の相対的遅延時間t4を予め入力部(図示せず)を介して入力して記憶部(図示せず)に格納し、音声信号読出部1016が相対的遅延時間t4を上記の記憶部から読み出して、第1の音声信号と第2の音声信号とを同期させればよい。
【0060】
また、本発明に係る音声比較装置1,1A,1Bでは、同期手段101(図3参照)が、記憶部1011a,1011b、及び、相互相関関数記憶部1014を含む構成となっているが、これに限らない。すなわち、記憶部1011a,1011b、及び、相互相関関数記憶部1014が音声比較装置1,1A,1Bの外部に存在する構成としてもよい。
【0061】
また、音声比較装置1,1A,1Bの外部に、放送局(図示せず)から番組情報を受信して、第1の音声信号と第2の音声信号とが同じ番組に対応するものであるか否かを音声比較装置1,1A,1Bに対して出力する番組情報受信装置(図示せず)を備えることとしてもよい。この場合には、番組情報受信装置から、第1の音声信号に対応する第1の放送と、第2の音声信号に対応する第2の放送とが同じであるか否かを示す信号が音声比較装置1の比較手段106(図2、図6、図8参照)に入力される。
【0062】
上記の第1の放送と第2の放送とが同じ番組であることを示す信号が番組情報受信装置から入力された場合、比較手段106は、上記で説明した場合と同様の処理を行う。すなわち、比較手段106は、距離算出手段105により算出された距離(ノルム)の値が所定値より大きいか否かによって「正常」又は「異常」に対応する信号を表示装置3に対して出力する。一方、上記の第1の放送と第2の放送とが異なる番組であることを示す信号が番組情報受信装置から入力された場合には、比較手段107は、距離算出手段105により算出された距離(ノルム)の値に関わらず、常に「正常」に対応する信号を表示装置3に出力する。
これは、例えば、第1の音声信号が「マラソン中継」の放送に対応する音声信号で、第2の音声信号が「トーク番組」の放送に対応する音声信号であることが番組情報受信装置から入力された番組情報により予め分かっている場合には、第1の音声信号と第2の音声信号との距離の値に関わらず、「正常」と判定することが適当だからである。
【0063】
また、図8に示すように、音声比較装置1Bは、第2実施形態に係る音声比較装置1Aに高域通過フィルタ手段108a,108b及びメル尺度変換手段109a,109bを追加した構成となっているが、上記の各構成のうち高域通過フィルタ手段108a,108bのみを追加する構成としてもよい。この場合、正規化手段104aは、高域通過フィルタ手段108aにより周波数の高い領域を強調して入力された第1の音声信号(スペクトル包絡)に対して正規化処理を行い、距離算出手段105に対して出力する。第2の音声信号についても同様である。
また、第2実施形態に係る音声比較装置1Aにメル尺度変換手段109a,109bのみを追加する構成としてもよい。この場合、メル尺度変換手109aは、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(スペクトル包絡)に対して、人間の聴覚感度特性に対応する周波数上の重み付けを行い、正規化手段104aに対して出力する。
【0064】
図10は、本発明の第1実施形態に係る音声比較装置1を用いた場合と、本発明の第3実施形態に係る音声比較装置1Bを用いた場合と、において12SEG放送と1SEG放送を比較した実験データを示す図である。
図10のグラフの破線は本発明の第1実施形態に係る音声比較装置1を用いて処理を行った場合であり、2つの音声信号に対して同期処理、フレーム取得処理、周数変換処理、正規化処理を行って、2つの音声信号の強度の差分(距離)を1秒ごとに算出したものである。なお、図中には簡単のため、「周波数スペクトル」と記載されている。
一方、図10のグラフの実線は本発明の第3実施形態に係る音声比較装置1Bを用いて処理を行った場合であり、第1実施形態に係る音声比較装置1の処理に加えて、さらにスペクトル包絡変換処理、高域通過フィルタ処理、メル尺度変換処理を行って、2つのスペクトル包絡の差分(距離)を1秒ごとに算出したものである。なお、図中には簡単のため、「スペクトル包絡+高域通過フィルタ+MEL尺度」と記載されている。
【0065】
図10に示す実験データにおいて、破線で示す「周波数スペクトル」の場合と、実線で示す「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合とでは、サンプル点の量が異なるため、当該サンプル点の量に基づいて正規化した。また、図10に示す実験データでは、フレーム取得手段102a,102b(図2、図8参照)で用いられる窓関数のずらし幅を100msecとし、窓関数の長さを66msecとした。また、サンプリング周波数を48000Hzとし、量子化ビットを16bitとした。また、図10に示す実験データでは、12SEG放送と1SEG放送とが同一の放送内容である場合の各音声信号の差異(距離)を0dBとした。
また、1SEG放送の送出において障害が起きた事を想定し、1SEG放送を無音とした区間B1、及び、1SEG放送をホワイトノイズ(白色雑音)とした区間D1を設け、異常を検知できたかを示した。なお、ホワイトノイズとは、すべての波が同じエネルギーで重なっている雑音である。
【0066】
図10に示すA1及びC1で示した区間では、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号として、第1の音声信号と同一内容の1SEG放送を受信した。また、B1で示した区間は、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号を無音とした。C1で示した区間は、A1の範囲と同様に、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号として、第1の音声信号と同一内容の1SEG放送を受信した。D1で示した区間は、音声比較装置1,1Bが第1の音声信号として12SEG放送を受信し、第2の音声信号を定常的なホワイトノイズとした。
【0067】
図10に示すように、実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」、及び、破線で示した「周波数スペクトル」の両方において、B1(1SEG 無音)の区間で波形の差異の値が大きくなり、異常を検知した事が分かる。また、実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」及び破線で示した「周波数スペクトル」の両方において、D1(1SEG ホワイトノイズ)の区間で、波形の差異の値が大きくなり、異常を検知した事が分かる。さらに、「周波数スペクトル」の場合よりも「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合の方が、正常な区間(2つの音声信号の内容が同一であるA1,C1の区間)における値と、異常な区間(1SEG放送が無音であるC1の区間、及び1SEG放送がホワイトノイズであるD1の区間)における値との相対的な差が大きいことが分かる。つまり、「周波数スペクトル」の場合よりも「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合の方が、所定のしきい値を基準として、2つの音声信号の素材が同一であるか否かを適切に判断することができる。
【0068】
図11は、本発明の第1実施形態に係る音声比較装置1を用いた場合と、本発明の第3実施形態に係る音声比較装置1Bを用いた場合と、においてAM放送とFM放送を比較した実験データを示す図である。
図11のグラフの破線は、図10に示す実験データと同様に、本発明の第1実施形態に係る音声比較装置1を用いて処理を行った場合であり、図中には簡単のため、「周波数スペクトル」と記載されている。
一方、図11のグラフの実線は、図10に示す実験データと同様に、本発明の第3実施形態に係る音声比較装置1Bを用いて処理を行った場合であり、図中には簡単のため、「スペクトル包絡+高域通過フィルタ+MEL尺度」と記載されている。
【0069】
図11に示す実験データにおいて、破線で示す「周波数スペクトル」の場合と、実線で示す「スペクトル包絡+高域通過フィルタ+MEL尺度」の場合とでは、サンプル点の量が異なるため、当該サンプル点の量に基づいて正規化した。また、図11に示す実験データでは、フレーム取得手段102a,102b(図2、図8参照)で用いられる窓関数のずらし幅を100msecとし、窓関数の長さを66msecとした。また、サンプリング周波数を48000Hzとし、量子化ビットを16bitとした。また、図11に示す実験データでは、AM放送とFM放送とが同一の放送内容である場合の各音声信号の差異(距離)を0dBとした。
【0070】
なお、図11に示す実験データでは、測定音声の音声レベルは、16bitで量子化した時のフルビットスケールを0dBFSとした場合の−18dBFSの正弦波信号を+4dBmとした。また、素材のニュース番組は0dBm程度の平均トークレベルで収録されたもので放送波を復調して収録したものを使用した。また、B2で示した範囲では、平均トークレベルが0dBm〜+4dBmの音声素材に、定常ノイズ(サーマルノイズ)を−16dBm〜−11dBm程度で混入した。また、インピーダンスが600Ωの機器に1kHzの正弦波信号を加えて1mWの電力を消費した場合を0dBmとし、電圧を0.775Vとした場合を0VU=+4dBmとした。
ちなみに、平均音声レベルは、VUメータ(図示せず)から読み取った値である。VUメータの電気的特性により、応答速度が300msで、300ms以上の継続する信号が入った時に、正確なレベルを指示する。この場合VUメータは、入力信号の平均値をVU値(Volume Unit:音量単位)として示すことができる。
【0071】
図11のA2〜C2の区間において、AM放送とFM放送とは同一の放送内容(ニュース番組)であるが、AM放送の送出において障害が起きた事を想定し、B2の区間ではAM放送に定常ノイズを混入させ、C2の区間ではAM放送にパルスノイズを混入させた。また、D2の区間では、AM放送をホワイトノイズとした。また、E2の区間ではAM放送とFM放送とを異なる内容(AM放送ではマラソン中継、FM放送ではトーク番組)とした。
【0072】
図11に示すように、破線で示した「周波数スペクトル」、及び、実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」の両方の場合において、B2(AM放送に定常ノイズが混入した場合)、C2(AM放送にパルスノイズが混入した場合)、D2(第1の音声信号が定常ノイズである場合)、E2(第1の音声信号と第2の音声信号の内容が異なる場合)の区間で波形の差異の値が大きくなり、異常を検知した事が分かる。すなわち、音声比較装置1(破線で示した「周波数スペクトル」を参照)、及び、音声比較装置1B(実線で示した「スペクトル包絡+高域通過フィルタ+MEL尺度」を参照)の両方の場合において、異常を適切に検知できたことが分かる。
【符号の説明】
【0073】
1,1A,1B 音声比較装置
101 同期手段
102a,102b フレーム取得手段
103a,103b 周波数変換手段
104a,104b 正規化手段
105 距離算出手段
106 比較手段
107a,107b スペクトル包絡変換手段
108a,108b 高域通過フィルタ手段
109a,109b メル尺度変換手段
2 インタフェース装置
201a,201b A/D変換器
3 表示装置
【特許請求の範囲】
【請求項1】
異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定する音声比較装置であって、
前記第1の音声信号と前記第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って前記第1の音声信号と前記第2の音声信号とを同期させる同期手段と、
前記同期手段により同期された前記第1の音声信号と前記第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得するフレーム取得手段と、
前記フレーム取得手段により所定の時間幅に対応するフレームとして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する周波数変換手段と、
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して正規化処理を行う正規化手段と、
前記正規化手段により正規化された前記第1の音声信号と前記第2の音声信号との距離を算出する距離算出手段と、
前記距離算出手段の算出値である前記距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する比較手段と、を備えること
を特徴とする音声比較装置。
【請求項2】
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号及び前記第2の音声信号のそれぞれをスペクトル包絡に変換するスペクトル包絡変換手段をさらに備え、
前記正規化手段は、前記スペクトル包絡変換手段によりスペクトル包絡に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して、正規化処理を行うこと
を特徴とする請求項1に記載の音声比較装置。
【請求項3】
前記スペクトル包絡変換手段によりスペクトル包絡に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれについて、所定の周波数より低い周波数帯域の信号を除去することにより、前記所定の周波数以上の周波数帯域の信号を取り出す処理を行う高域通過フィルタ手段をさらに備え、
前記正規化手段は、前記高域通過フィルタ手段により前記所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれに対して正規化処理を行うこと
を特徴とする請求項2に記載の音声比較装置。
【請求項4】
前記高域通過フィルタ手段により前記所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して、メル尺度を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行うメル尺度変換手段をさらに備え、
前記正規化手段は、前記メル尺度変換手段により周波数上の重み付けをして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれに対して、正規化処理を行うこと
を特徴とする請求項3に記載の音声比較装置。
【請求項5】
前記距離算出手段は、所定のサンプル周波数における前記第1の音声信号と前記第2の音声信号との差の絶対値の二乗を算出し、さらに各サンプル周波数において算出された前記差の絶対値の二乗の和の平方根を距離として算出することを特徴とする請求項1から請求項4のいずれか一項に記載の音声比較装置。
【請求項6】
前記メル尺度変換手段で用いられるメル尺度関数は、音声信号の周波数をfとすると、Mel(f)=2595log10(1+f/700)で表されることを特徴とする請求項4又は請求項5に記載の音声比較装置。
【請求項7】
異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定するために、コンピュータを、
前記第1の音声信号と前記第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って前記第1の音声信号と前記第2の音声信号とを同期させる同期手段、
前記同期手段により同期された前記第1の音声信号と前記第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得するフレーム取得手段、
前記フレーム取得手段により所定の時間幅に対応するフレームとして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する周波数変換手段、
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して正規化処理を行う正規化手段、
前記正規化手段により正規化された前記第1の音声信号と前記第2の音声信号との距離を算出する距離算出手段、
前記距離算出手段の算出値である前記距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する比較手段、
として機能させるための音声比較プログラム。
【請求項1】
異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定する音声比較装置であって、
前記第1の音声信号と前記第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って前記第1の音声信号と前記第2の音声信号とを同期させる同期手段と、
前記同期手段により同期された前記第1の音声信号と前記第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得するフレーム取得手段と、
前記フレーム取得手段により所定の時間幅に対応するフレームとして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する周波数変換手段と、
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して正規化処理を行う正規化手段と、
前記正規化手段により正規化された前記第1の音声信号と前記第2の音声信号との距離を算出する距離算出手段と、
前記距離算出手段の算出値である前記距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する比較手段と、を備えること
を特徴とする音声比較装置。
【請求項2】
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号及び前記第2の音声信号のそれぞれをスペクトル包絡に変換するスペクトル包絡変換手段をさらに備え、
前記正規化手段は、前記スペクトル包絡変換手段によりスペクトル包絡に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して、正規化処理を行うこと
を特徴とする請求項1に記載の音声比較装置。
【請求項3】
前記スペクトル包絡変換手段によりスペクトル包絡に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれについて、所定の周波数より低い周波数帯域の信号を除去することにより、前記所定の周波数以上の周波数帯域の信号を取り出す処理を行う高域通過フィルタ手段をさらに備え、
前記正規化手段は、前記高域通過フィルタ手段により前記所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれに対して正規化処理を行うこと
を特徴とする請求項2に記載の音声比較装置。
【請求項4】
前記高域通過フィルタ手段により前記所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して、メル尺度を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行うメル尺度変換手段をさらに備え、
前記正規化手段は、前記メル尺度変換手段により周波数上の重み付けをして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれに対して、正規化処理を行うこと
を特徴とする請求項3に記載の音声比較装置。
【請求項5】
前記距離算出手段は、所定のサンプル周波数における前記第1の音声信号と前記第2の音声信号との差の絶対値の二乗を算出し、さらに各サンプル周波数において算出された前記差の絶対値の二乗の和の平方根を距離として算出することを特徴とする請求項1から請求項4のいずれか一項に記載の音声比較装置。
【請求項6】
前記メル尺度変換手段で用いられるメル尺度関数は、音声信号の周波数をfとすると、Mel(f)=2595log10(1+f/700)で表されることを特徴とする請求項4又は請求項5に記載の音声比較装置。
【請求項7】
異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定するために、コンピュータを、
前記第1の音声信号と前記第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って前記第1の音声信号と前記第2の音声信号とを同期させる同期手段、
前記同期手段により同期された前記第1の音声信号と前記第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得するフレーム取得手段、
前記フレーム取得手段により所定の時間幅に対応するフレームとして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する周波数変換手段、
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して正規化処理を行う正規化手段、
前記正規化手段により正規化された前記第1の音声信号と前記第2の音声信号との距離を算出する距離算出手段、
前記距離算出手段の算出値である前記距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する比較手段、
として機能させるための音声比較プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2012−242542(P2012−242542A)
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願番号】特願2011−111380(P2011−111380)
【出願日】平成23年5月18日(2011.5.18)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
【公開日】平成24年12月10日(2012.12.10)
【国際特許分類】
【出願日】平成23年5月18日(2011.5.18)
【出願人】(000004352)日本放送協会 (2,206)
【Fターム(参考)】
[ Back to top ]