説明

音声信号判別装置、音質調整装置、放送受信機、プログラム、及び記録媒体

【課題】入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能な音声信号判別装置を提供する。
【解決手段】音声信号判別装置において、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定手段12と、入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定手段13と、モノラル/ステレオ判定手段13での判定結果に基づいて、スピーチ/非スピーチ判定手段12における判定基準を最適化する基準最適化手段14とを有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声信号判別装置、音質調整装置、放送受信機、プログラム、及び記録媒体に関し、より詳細には、音声信号に対しスピーチ/非スピーチの判別を行う音声信号判別装置、その装置を備えた音質調整装置、その音質調整装置を備えた放送受信機、それらのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体に関する。
【背景技術】
【0002】
従来から、一般的なオーディオ装置では、低音域の出力周波数特性を調整するバス調整、高音域の出力周波数特性を調整するトレブル調整、低音域及び高音域を強調するラウドネス調整等の各種音質調整装置が設けられている。
【0003】
このような音質調整装置としては、入力された音声信号の音声情報自体からその周期性の有無を検出することにより、入力された信号が音楽情報かそれ以外の情報かを判断し、その結果に応じて音響パラメータを制御するものも提案されている(例えば、特許文献1を参照)。
【特許文献1】特開昭61−93712号公報
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、特にテレビジョン放送やラジオ放送を受信する機器においては、音声情報だけから音楽情報の是非を判断すると思わぬ誤判定が生じる場合がある。
【0005】
例えば、音楽番組でアカペラが流れた場合は、その作風のためにリズム感を検出することができずに、音楽情報ではないと判定し、この音楽情報に最適な音響パラメータをイコライザ等で選択しないという誤判定が生じる。その結果、この音楽情報は、イコライザの方で例えばスピーチに最適な音響パラメータ等を選択することも生じ得るので、生の音の響きを重視したいアカペラの音楽情報に対して、言葉の明瞭性を重視した(中音域を比較的強調した)音響特性で出力する結果となり、ユーザが本来聞きたい音響設定にならない。
【0006】
また、ニュース番組を視聴中には、本来言語の明瞭性を重視したスピーチに最適なパラメータ等を選択するのが好適であるが、ニュースの内容によっては時にはアナウンサのスピーチと平行してニュースの取材現場で集音した音声をそのまま出力する場合もある。このような集音した音声情報に音楽が混在していると、その両者の音量のバランスによってはニュース番組のスピーチより、集音した音声から出力された音楽情報などが優位性を持つことも想定されるので、このような場合も、上述のアカペラの例とは逆の例として十分起こり得る問題点である。
【0007】
本発明は、上述のごとき実情に鑑みてなされたものであり、入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能な音声信号判別装置、その装置を備えた音質調整装置、その音質調整装置を備えた放送受信機、それらのプログラム、及びそのプログラムを記録したコンピュータ読み取り可能な記録媒体を提供することをその目的とする。
【課題を解決するための手段】
【0008】
本発明は、上述のごとき課題を解決するために、以下の各技術手段でそれぞれ構成される。
第1の技術手段は、音声信号判別装置において、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定手段と、入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定手段と、該モノラル/ステレオ判定手段での判定結果に基づいて、前記スピーチ/非スピーチ判定手段における判定基準を最適化する基準最適化手段とを有することを特徴としたものである。
【0009】
第2の技術手段は、第1の技術手段において、前記スピーチ/非スピーチ判定手段における判定は、複数の信号解析によって行い、前記基準最適化手段は、前記判定基準としての各信号解析に対する閾値のセットを、モノラル/ステレオ判定に基づいて変更することを特徴としたものである。
【0010】
第3の技術手段は、第1又は第2の技術手段における音声信号判別装置を備えた音質調整装置であって、該音声信号判別装置によってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整することを特徴としたものである。
【0011】
第4の技術手段は、第3の技術手段における音質調整装置と放送受信装置とを備えた放送受信機であって、該放送受信装置で受信した放送信号から前記音声信号を前記音質調整装置に入力し、音質を調整して音声出力することを特徴としたものである。
【0012】
第5の技術手段は、入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定ステップと、その判定結果に基づいて所定の基準を最適化する基準最適化ステップと、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを、前記所定の基準で判定するスピーチ/非スピーチ判定ステップとを、コンピュータに実行させるためのプログラムである。
【0013】
第6の技術手段は、第5の技術手段において、前記スピーチ/非スピーチ判定ステップにおける判定は、複数の信号解析によって行い、前記基準最適化ステップは、前記所定の基準としての各信号解析に対する閾値のセットを、モノラル/ステレオ判定に基づいて変更することを特徴としたものである。
【0014】
第7の技術手段は、第5又は第6の技術手段において、前記コンピュータに、前記スピーチ/非スピーチ判定ステップによってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整するステップを実行させるプログラムをさらに含むことを特徴としたものである。
【0015】
第8の技術手段は、第5乃至第7のいずれかの技術手段におけるプログラムを記録したコンピュータ読み取り可能な記録媒体である。
【発明の効果】
【0016】
本発明によれば、入力された音声信号に対して的確にスピーチ/非スピーチを判別することが可能となる。
【発明を実施するための最良の形態】
【0017】
本発明に係る音声信号判別装置は、スピーチ/非スピーチ判定手段、モノラル/ステレオ判定手段、及び基準最適化手段を備えるものとする。以下、このような音声信号判別装置を備え、ここでの判別に基づいた音質調整を行う音質調整装置について説明するが、本発明に係る音声信号判別装置は、音質調整以外、例えば判別に基づいたコンテンツ(その音声信号を含むコンテンツ)の分別記録(録画)などにも適用可能である。
【0018】
図1は、本発明の一実施形態に係る音質調整装置の一構成例を示すブロック図で、図中、1は音質調整装置、11は音声信号入力手段、12はスピーチ/非スピーチ判定手段、13はモノラル/ステレオ判定手段、14は基準最適化手段、14aはスイッチ、14bは閾値(スレッショルド)VSL1への設定手段、14cは閾値VSL2への設定手段、15は音質調整手段、16は音声信号出力手段である。
【0019】
スピーチ/非スピーチ判定手段12は、音声信号入力手段11で入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行う。音声信号入力手段11では、その入力元や入力方法は問わない。また、スピーチ/非スピーチ判定手段12は、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよい。本発明に係る音声信号判別装置は、スピーチ/非スピーチ判定手段12により音声信号がスピーチか非スピーチかを判別することとなる。
【0020】
本発明に係る音声信号判別装置では、「ニュース番組などは一般的にモノラル放送が多く、一方で音楽が流れるCMや音楽番組はステレオ放送に設定されていることが多い」といった経験則を利用し、音声信号に重畳されたモノラル/ステレオ信号を検出することによって、現在放送されている番組がスピーチ/非スピーチ(音楽)のいずれに好適かを判断する。このため、本発明に係る音声信号判別装置には、モノラル/ステレオ判定手段13及び基準最適化手段14を備える。そして、本発明に係る音質調整装置では、その判断に基づき音響パラメータの制御を行っている。
【0021】
モノラル/ステレオ判定手段13は、入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定する。モノラル/ステレオ判定手段13も、その全体又は一部をハードウェアで構成してもソフトウェアで構成してもよく、また、単に音声信号を入力した際のモノラル/ステレオの切り替えなどの情報によって判定してもよい。さらに、音声信号の元のコンテンツが電子プログラムガイド(EPG)に掲載され予約録画可能なようになっている場合などには、EPGにおけるモノラル/ステレオの情報も共に掲載されているので、その情報を取得することでモノラル/ステレオ判定を行うことも可能である。
【0022】
基準最適化手段14は、モノラル/ステレオ判定手段13での判定結果に基づいて、スピーチ/非スピーチ判定手段12における判定基準を最適化する。従って、本発明に係る音声信号判別装置では、音声信号のスピーチ/非スピーチの判定を的確に行うには、その音声信号に対してモノラル/ステレオ判定及び基準最適化が予めなされていることを前提とするが、ディレイなどを用いてもよいし、単に、音声信号が入力される度に、逐次、モノラル/ステレオ判定及び基準最適化を行ってスピーチ/非スピーチ判定を行っていってもよい。
【0023】
音質調整手段15は、このような構成要素を備えた音声信号判別装置によってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整する。ここでの音質設定の方法は任意であり、スピーチ/非スピーチにより、その設定値や増減の設定値、或いは各周波数帯での設定値などが異なっていればよい。例えば、グラフィックイコライザのごときイコライザの中心周波数とフィルタのQ値(グラフィックイコライザの1つの帯域分のカーブにおける山,谷の鋭さ)が固定されている音質設定や、パラメトリックイコライザのごとくこれらも変更可能な音質設定であってもよい。そして、音声信号出力手段16は、音質調整手段15で調整された音声信号を出力する。
【0024】
図2は、図1の音質調整装置における音質調整処理の一例を説明するためのフロー図で、図3は、図1の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図である。
【0025】
簡略化のため、スピーチ/非スピーチにおける判定基準が、ある1つの閾値処理によってなされるものとして説明する。まず、音声信号が入力されると、モノラル/ステレオ判定手段13によりモノラル/ステレオ判定がなされる(ステップS1)。この判定に際しては、例えば、Lを左入力信号、Rを右入力信号とすると、入力信号に(L−R)/(L+R)の演算を実行し、位相差判定を実施するとよい。
【0026】
この判定により、モノラル信号であると判定された場合には、基準最適化手段14において、スイッチ14aを閾値VSL1への設定手段14b側へ接続し、スピーチ/非スピーチ判定手段12における判定の閾値をVSL1に設定する(ステップS2)。一方、ステップS1により、ステレオ信号であると判定された場合には、基準最適化手段14において、スイッチ14aを閾値VSL2への設定手段14c側へ接続し、スピーチ/非スピーチ判定手段12における判定の閾値をVSL2に設定する(ステップS3)。このように閾値の設定を最適化することで、ニュース等のモノラル信号時はスピーチと判定し易く、またBGMを含めた音楽が多いステレオ信号時は非スピーチと判定し易くなるように制御することができる。なお、基準最適化手段14の構成は図示したものに限定されるものではない。
【0027】
次に、スピーチ/非スピーチ判定手段12が、ステップS2/S3のいずれかで設定された閾値VSL1/VSL2に基づいて、スピーチ/非スピーチの判定を行う(ステップS4)。そして、スピーチであると判定された場合には、音質設定Aを選択し(ステップS5)、処理を終了する。一方、ステップS4で非スピーチと判定された場合、音質設定Bを選択し(ステップS6)、処理を終了する。
【0028】
ここで、音質設定Aと音質設定Bとの違いの例について、図3を参照して説明する。音質設定A(スピーチ)の場合、イコライザの周波数特性をグラフ21で示すように設定し、音質設定B(非スピーチ)の場合、イコライザの周波数特性をグラフ22で示すように設定する。グラフ21とグラフ22との違いは、非スピーチのときはスピーチのときに比べて、所定の低周波数22aの付近及び所定の高周波数22bの付近を強調している点にある。
【0029】
以上、本実施形態に係る音声信号判別装置によれば、モノラル/ステレオ判定をすることによって、スピーチ自動検出機能の判定基準を最適化させて、検出機能の精度を向上させることができる。従って、入力された音声信号に対して的確にスピーチ/非スピーチを判別すること、すなわち音声信号のモノラル/ステレオの信号に応じて好適なスピーチ/非スピーチ検出が可能となる。例えば、ニュース等のモノラル信号時はスピーチと判定し易く、またBGMを含めた音楽が多いステレオ信号時は非スピーチと判定し易くなるように最適化制御を行うことができる。
【0030】
また、本実施形態に係る音質調整装置によれば、音声信号にとって最適な音響パラメータを、音声信号の音声情報だけからではなく番組(その音声信号を含む番組)の主旨に沿った判断(スピーチ/非スピーチの判断)も同時になすことで、入力された音声信号の特性によるイコライザ等の音響パラメータ制御の誤判定を極力低減し、的確な音響パラメータの制御及び的確な音質調整が可能となる。また、本実施形態に係る音質調整装置も含め、本発明に係る音声信号判別装置を備えた機器においては、例えば、音声信号に音声情報と同時に重畳されたモノラル/ステレオ信号によってその番組の主旨を判定し、その結果に応じて入力された音声信号がスピーチか非スピーチ(音楽)かを判断するための判断基準を最適化することによって、放送された番組の内容、特性に応じたスピーチ/非スピーチ検出の自由な制御、及びその制御に基づく機器の制御(例えば音質調整や分別録画等)が可能になる。
【0031】
また、本発明の他の実施形態として、スピーチ/非スピーチ判定手段12における判定は、複数の信号解析によって行うようにすることが好ましい。この形態にあっては、図2のステップS4において、入力された音声信号に対して複数の信号解析を実施する。信号解析としては、例えば、信号の対時間エネルギー変化解析,音節の均一解析,周波数対音声強度の解析などである。このような信号解析により、例えば、(I)信号の対時間エネルギー変化,(II)周波数対音声強度,(III)母音と子音の順序,(IV)音節の長さ,(V)子音と母音のエネルギー量などが得られる。
【0032】
これらは、例えば次のような点を考慮して、スピーチ/非スピーチを判定するとよい。(I)スピーチには、音節(音声エネルギーが高い)と音節との間に、音声エネルギーが低い区分が存在し、非スピーチにはこのような区分は存在しないことが多い。(II)スピーチが100Hz〜3kHzの中域の強度が強く、非スピーチが低域及び高域の強度が強い。(III)スピーチは、音節内の順序が子音から母音へと続く場合が多い。(IV)スピーチは、音節の長さが均一の場合が多い。(V)スピーチは、母音のエネルギー量が子音のエネルギー量より大きい場合が多い。さらに、(I)〜(V)に対し、重み付けを行って合算し、統計処理を施すなどして、最終的な信号解析の結果を得、その数値をモノラルの場合には閾値VSL1でステレオの場合は閾値VSL2で判定することで、スピーチ/非スピーチの判定を行えばよい。他の方法として、この実施形態において基準最適化手段14が、判定基準としての各信号解析に対する閾値のセットを、モノラル/ステレオ判定に基づいて変更するようにしてもよい。
【0033】
なお、本実施形態においても、ステップS1では、説明した通り、例えば入力信号に(L−R)/(L+R)を実行し、位相差判定を実施し、この結果によりステップS2/S3において判定基準のスレッショルド(VSL1/VSL2)を決定する。そして、信号解析の結果より、音質設定(A又はB)を実施し(ステップS5/S6)、音声信号を出力する。
【0034】
また、図1乃至図3で上述した音声信号判別装置や音質調整装置1やその構成要素となる各手段は、上述したように、ハードウェアで構成してもよいがその一部をソフトウェアで構成してもよい。例えば、PC(パーソナルコンピュータ)等の汎用コンピュータなどにプログラムを組み込むことで構成してもよく、その場合の各種処理について、図4に示す一般的な情報処理装置の構成例を参照して説明する。図4は、一般的な情報処理装置の構成例を示すブロック図で、図中、3は情報処理装置、31はCPU(Central Processing Unit)、32はRAM(Random Access Memory)、33は書き換え可能なROM(Read Only Memory)、34は入力装置、35は表示装置、36は出力装置、37はバスである。
【0035】
また、コンピュータを本発明における装置や各手段として機能させるためのプログラムは、ROM33に蓄積されており、CPU31が読み出すことによって実行される。コンピュータ等に搭載される場合のこのプログラムは、上述の各手段としてコンピュータのCPU31等を制御するプログラム(コンピュータを機能させるプログラム)である。本発明に係る装置や各手段で取り扱われる情報は、その処理時に一時的にRAM32に蓄積され、その後、各種ROM33に格納され、必要に応じて、CPU31によって読み出し、修正・書き込みが行われる。ここで本発明に関連する情報としては、閾値や入力装置34の一つとしての音声信号入力手段によって入力され信号解析される時の音声信号などが挙げられる。また、例えばROM33に記憶された閾値のうち設定された閾値をRAM32に読み出すことで閾値設定をその間維持するようにしてもよい。
【0036】
また、処理の途中経過や途中結果は、LCD,PDP,有機EL,CRT等の表示装置35を通して装置ユーザに提示され、必要な場合には、キーボード,マウス(ポインティングデバイス)等の入力装置34から装置ユーザが処理に必要なパラメータを入力指定すればよい(例えば入力する音声信号或いはそれを含むコンテンツの指定など)。また、このプログラムは、装置ユーザが使用する際に容易となるように、表示装置35用のグラフィカルユーザインターフェース(GUI)を備えるようにするとよい。出力装置36としては、音声信号の出力装置であるスピーカをはじめとして、ネットワークに接続して通信を行うためのネットワークボード等の通信機器や、その他、印刷装置等の出力デバイス用の出力装置がある。なお、CPU31,RAM32,ROM33,入力装置34,表示装置35,出力装置36は、バス37などで接続されていればよい。
【0037】
また、上述のごときプログラムを記録した記録媒体としては、具体的には、CD−ROM、光磁気ディスク、DVD−ROM、FD、フラッシュメモリ、及びその他各種ROM(書き換え可能なROMも含む)やRAM等が想定でき、上述した本発明の各実施形態の機能をコンピュータに実行させるプログラムを、これら記録媒体に記録して流通させることにより、当機能の実現を容易にする。そして、コンピュータ等の情報処理装置に、上述のごとくの記録媒体を装着して情報処理装置によりプログラムを読み出すか、若しくは情報処理装置が備えている記録媒体に当プログラムを記憶させておき、必要に応じて読み出すことにより、本発明に係わる機能を実行することができる。
【0038】
さらに、本発明は、上述の各実施形態のごとき音声信号判別装置(或いは音質調整装置)と、デジタル/アナログに限らずテレビジョン放送やラジオ放送の放送信号を受信する放送受信装置とを備えた放送受信機にも適用可能である。ここでは、放送受信装置で受信した放送信号から音声信号を音質調整装置に入力し、音質を調整して音声出力する。また、上述したように本発明に係る音声信号の判別をコンテンツの記録に適用する場合には、このような放送受信機に、放送を受信するだけでなく受信した放送を記録或いは予約記録する機能を付加したものであってもよい。さらに、本発明に係る音声信号の判別をコンテンツの記録に適用する場合には、受信したコンテンツでなくても、ネットワーク経由や記録媒体経由で取得したコンテンツを再録画する場合などにも好適であり、例えば、各種レコーダなどでスピーチ/非スピーチ判定をCM判定やその他の分別録画に利用することもできる。
【図面の簡単な説明】
【0039】
【図1】本発明の一実施形態に係る音質調整装置の一構成例を示すブロック図である。
【図2】図1の音質調整装置における音質調整処理の一例を説明するためのフロー図である。
【図3】図1の音質調整装置における音質調整処理で用いる音質設定イコライジングの一例を示す図である。
【図4】一般的な情報処理装置の構成例を示すブロック図である。
【符号の説明】
【0040】
1…音質調整装置、3…情報処理装置、11…音声信号入力手段、12…スピーチ/非スピーチ判定手段、13…モノラル/ステレオ判定手段、14…基準最適化手段、14a…スイッチ、14b…閾値VSL1への設定手段、14c…閾値VSL2への設定手段、15…音質調整手段、16…音声信号出力手段、31…CPU、32…RAM、33…書き換え可能なROM、34…入力装置、35…表示装置、36…出力装置、37…バス。

【特許請求の範囲】
【請求項1】
入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを判別するための判定を行うスピーチ/非スピーチ判定手段と、入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定手段と、該モノラル/ステレオ判定手段での判定結果に基づいて、前記スピーチ/非スピーチ判定手段における判定基準を最適化する基準最適化手段とを有することを特徴とする音声信号判別装置。
【請求項2】
前記スピーチ/非スピーチ判定手段における判定は、複数の信号解析によって行い、前記基準最適化手段は、前記判定基準としての各信号解析に対する閾値のセットを、モノラル/ステレオ判定に基づいて変更することを特徴とする請求項1に記載の音声信号判別装置。
【請求項3】
請求項1又は2に記載の音声信号判別装置を備えた音質調整装置であって、該音声信号判別装置によってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整することを特徴とする音質調整装置。
【請求項4】
請求項3に記載の音質調整装置と放送受信装置とを備えた放送受信機であって、該放送受信装置で受信した放送信号から前記音声信号を前記音質調整装置に入力し、音質を調整して音声出力することを特徴とする放送受信機。
【請求項5】
入力された音声信号が、モノラル信号又はステレオ信号のいずれであるかを判定するモノラル/ステレオ判定ステップと、その判定結果に基づいて所定の基準を最適化する基準最適化ステップと、入力された音声信号がスピーチに対応するものか、非スピーチに対応するものかを、前記所定の基準で判定するスピーチ/非スピーチ判定ステップとを、コンピュータに実行させるためのプログラム。
【請求項6】
前記スピーチ/非スピーチ判定ステップにおける判定は、複数の信号解析によって行い、前記基準最適化ステップは、前記所定の基準としての各信号解析に対する閾値のセットを、モノラル/ステレオ判定に基づいて変更することを特徴とする請求項5に記載のプログラム。
【請求項7】
前記コンピュータに、前記スピーチ/非スピーチ判定ステップによってスピーチ/非スピーチに判別された音声信号に対し、スピーチと非スピーチとで異なる音質に調整するステップを実行させるプログラムをさらに含むことを特徴とする請求項5又は6に記載のプログラム。
【請求項8】
請求項5乃至7のいずれか1項に記載のプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2006−148608(P2006−148608A)
【公開日】平成18年6月8日(2006.6.8)
【国際特許分類】
【出願番号】特願2004−336823(P2004−336823)
【出願日】平成16年11月22日(2004.11.22)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】