説明

音響信号加工装置及びプログラム

【課題】 入力する音響信号から、ボーカル音と周波数帯域の近い伴奏音を残しつつ効率的にボーカル音を除去する。
【解決手段】 入力信号から特定の周波数帯域の成分を除去して出力するBEF101,111と、入力信号の上記特定の周波数帯域の成分を抽出するBPF102,112とを設け、BPF102,112の出力を解析部122により解析し、その振幅が所定の閾値を超えた場合に、所定の時間だけ、スイッチ106,116に、BEF101,111等による加工がされていない信号を出力として選択させるようにした。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、入力する音響信号を加工して出力する音響信号加工装置及び、コンピュータをこのような音響信号加工装置として機能させるためのプログラムに関する。
【背景技術】
【0002】
従来から、音響信号を加工して出力する装置として、ボーカル音(歌声)を含む楽曲のステレオのオーディオ信号からボーカル音を除去する、いわゆるボイスキャンセルの機能を備えたオーディオ再生装置が知られている。
【0003】
例えば、特許文献1には、ボーカル音は音像がLとRの中間の位置(センター)に定位し、LとRにほぼ同位相かつ同レベルで含まれることを利用した技術が開示されている。具体的には、LとRの差を取った信号に低域成分(例えば200Hz以下)と高域成分(例えば4KHz以上)を補充することによって、入力するオーディオ信号からボーカル音を除去できることが記載されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】実開平5−63197号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に記載の技術によりボイスキャンセルを行うと、ボーカル音と周波数帯域が近くかつ同じくセンターに定位していることの多い打楽器のタムやスネアの音も、ボーカル音と共に除去されてしまうという問題があった。
この発明は、このような問題を解決し、入力する音響信号から、ボーカル音と周波数帯域の近い伴奏音を残しつつ効率的にボーカル音を除去できるようにすることを目的とする。
【課題を解決するための手段】
【0006】
上記の目的を達成するため、この発明の音響信号加工装置は、入力する音響信号から特定の周波数帯域の成分を除去して出力する帯域除去手段と、上記入力する音響信号の上記特定の周波数帯域の成分を抽出する帯域抽出手段と、上記帯域抽出手段が抽出した成分の振幅が所定の閾値を超えた場合に、所定の時間だけ、上記帯域除去手段による上記特定の周波数帯域の成分の除去を緩和又は停止した信号を出力するようにする調整手段とを設けたものである。
【0007】
このような音響信号加工装置において、上記音響信号をステレオの音響信号とし、上記帯域除去手段に、上記特定の周波数帯域の成分を除去した信号に、上記帯域抽出手段が抽出した上記特定の周波数帯域の成分についてLとRの差分を取った信号を加算して出力する手段を設けるとよい。
これらの発明は、装置として実施する他、プログラムや方法等として実施することも可能である。
【発明の効果】
【0008】
以上のようなこの発明によれば、入力する音響信号から、ボーカル音と周波数帯域の近い伴奏音を残しつつ効率的にボーカル音を除去することができる。
【図面の簡単な説明】
【0009】
【図1】この発明の音響信号加工装置の実施形態である楽音再生装置のハードウェア構成を示す図である。
【図2】図1に示した楽音再生装置が備えるボーカル除去部の構成を示す図である。
【図3】図2に示したボーカル除去部が備える解析部の構成を示す図である。
【発明を実施するための形態】
【0010】
以下、この発明を実施するための形態を図面に基づいて具体的に説明する。
まず、図1に、この発明の音響信号加工装置の実施形態である楽音再生装置のハードウェア構成を示す。
図1に示すように、楽音再生装置10は、CPU11、フラッシュメモリ12、RAM13、表示器14、操作子15、外部機器I/O16、波形再生部17、信号処理部(DSP)18、ボーカル除去部19を備え、これらをシステムバス21により接続している。また、サウンドシステム20も備える。
【0011】
そして、CPU11が、RAM13をワークメモリとしてフラッシュメモリ12に記憶している所要のプログラムを実行することにより、楽音再生装置10全体を制御する。CPU11は、所要のプログラムを実行することにより、操作子15に対してなされたユーザの操作を検出しそれに従って波形再生部17、DSP18及びボーカル除去部19における信号処理や加工処理を制御したり設定を行ったりする機能等、種々の機能を実現する。
【0012】
表示器14は、楽音再生装置10において設定されているパラメータや楽音再生装置10の動作状態に関する情報を表示するための表示手段である。
操作子15は、ユーザからの操作を受け付けるための、ボタンやスイッチ等からなる操作手段である。表示器14と一体のタッチパネルを用いることができる。
外部機器I/O16は、ポインティングデバイスやディスプレイ等を接続して表示器14あるいは操作子15に代えて用いたり、PC(パーソナルコンピュータ)等を接続して楽音再生装置10を外部から制御できるようにしたりするために用いるインタフェースである。
【0013】
波形再生部17は、フラッシュメモリ12やその他の不図示の記憶媒体に記憶されている波形データを読み出してオーディオ形式のデジタル波形データとして再生し、DSP18に供給する。波形再生部17がDSP18に供給するデジタル波形データは、典型的には、CD(コンパクトディスク)やMP3(MPEG Audio Layer-3)形式の音声データの再生により得られるステレオの波形データである。また、ボーカル音と伴奏音とがミキシング済みの、ボーカル音の入った波形データである。
【0014】
DSP18は、信号処理回路を含み、波形再生部17から入力するデジタル波形データに対し、カレントメモリに設定されている各種処理パラメータに従って、ミキサ、コンプレッサ、イコライザ、アッテネータ、ディレイ、エフェクト付与等の何れか1ないし複数の各種信号処理を施した上で、ステレオのデジタル波形データとしてボーカル除去部19に出力する。ボーカル除去部19を経由せずにサウンドシステム20に出力することも可能である。
【0015】
ボーカル除去部19は、DSP18が出力するステレオのデジタル波形データに対し、ボーカル音の成分を除去する加工を行い、その結果を出力のデジタル波形データとしてサウンドシステム20に供給する。加工処理の詳細については後述する。
サウンドシステム20は、DA変換器とスピーカ等により構成され、DSP18又はボーカル除去部19から供給されるデジタル波形データに基づいて音声を出力する発音手段である。
【0016】
次に、図2に、図1に示した楽音再生装置10が備えるボーカル除去部19の構成を示す。
図2に示す通り、ボーカル除去部19は、DSP18から入力するLとRの入力信号をそれぞれ加工して、LとRの出力信号としてサウンドシステム20に出力する。そして、BEF(バンドエリミネートフィルタ)101,111、BPF(バンドパスフィルタ)102,112、加算部103,113,121、ディレイ104,105,114,115、スイッチ106,116、解析部122、調整部123を備える。これらの各部の機能はハードウェアによって実現しても、ソフトウェアによって実現しても、それらの組み合わせであってもよい。
【0017】
このボーカル除去部19においてはまず、BEF101により、DSP18から入力する入力L信号から、ボーカル音が含まれると考えられる特定の周波数帯域(例えば300Hzから4又は5KHzの中音域、以後「ボーカル音周波数帯域」と呼ぶ)の成分を除去する。また、BPF102により、同じ入力L信号から、そのボーカル音周波数帯域の成分を抽出する。入力R信号についても、同様にBEF111によりボーカル音周波数帯域の成分を除去し、BPF112によりそのボーカル音周波数帯域の成分を抽出する。BEF101,111が帯域除去手段、BPF102,112が帯域抽出手段である。
【0018】
なお、BEF101とBEF111において、ボーカル音周波数帯域としては、同じ帯域を設定する。しかし、BEF101とBPF102、あるいはBEF111とBPF112においては、除去する帯域と抽出する帯域は、一致していることが好ましいが、必ずしも一致している必要はない。また、上記「同じ」及び「一致」の意味も、完全一致は必須ではなく、概ね同等の帯域範囲であればよい。
【0019】
そして、BPF102の出力とBPF112の出力をそれぞれ加算部121に供給し、R−Lの差分信号を得る。この信号は概ね、ボーカル音周波数帯域の信号から、音像がLとRの中間(センター)に定位した信号を除いた信号となる。ボーカル音は通常は中央に定位していると考えられるため、この処理によりボーカル音を効果的に除去することができる。
【0020】
この差分信号は、加算部103,113により、L側とR側でそれぞれBEF101,111の出力に加算する。このとき、L側では正負を反転させて加算する。従って、L側ではL−Rの信号を、R側ではR−Lの信号を加算することになる。
【0021】
これらの加算により、LとRのそれぞれについて、ボーカル音周波数帯域の成分が除去された入力信号に、その周波数帯域の成分からボーカル音(と考えられるセンターに定位した成分)を除去した信号を復元することができる。従って、全体としては、入力信号からボーカル音の成分を除去した信号が得られる。LとRの差分を取る処理は、ボーカル音周波数帯域の成分に対してしか行っていないので、差分を取ることによりボーカル音以外の成分が失われることをかなり防止することができる。
【0022】
また、ボーカル除去部19は、スイッチ106,116により、LとRのそれぞれについて、以上の処理によりボーカル音を除去した信号と、加工しない入力信号とのどちらを出力信号として出力するかを選択することができる。この選択は、BPF102,112の出力を解析部122において解析し、その結果に基づいて調整部123が出力する選択信号SWにより行う。通常はボーカル音を除去した信号を選択し、加工しない入力信号を選択するよう指示された場合のみそちらを選択するようにするとよい。また、スイッチ106,116は連動して動作し、一方がボーカル音を除去した信号を選択した場合には他方もそちらを選択する。加工しない入力信号の選択についても同様である。
【0023】
ディレイ104,114は、解析部122における解析に要するタイムラグの分だけ信号を遅延させるためのものである。また、ディレイ105,115は、上記のタイムラグに加えて、ボーカル除去処理中のフィルタ処理や加算処理に要する時間の分だけ信号を遅延させ、ボーカル音を除去した信号と、加工しない入力信号との位相を合わせるためのものである。
【0024】
ところで、ボーカル除去部19において解析部122、調整部123及びスイッチ106,116を設けたのは、BEF、BPF及び加算部等によるボーカル音の除去処理を行った結果、ボーカル音以外の音も意図せず除去してしまうことになってしまう期間につき、その除去処理を緩和(この例では完全に停止)するためである。これらの各部が調整手段に該当する。
【0025】
意図せず除去してしまう音としては、スネアやタムの音が考えられる。これらの音は、ボーカル音と周波数帯域が近くかつ同じくセンターに定位していることが多いため、ボーカル音と同様、BEF101,111では除去され、加算器121での差分信号生成の際にも除去されてしまう。
しかし、スネアやタムのようなリズム音は、演奏のリズムを取るために大切な音であり、ボーカル音と共に除去されることは好ましくない。
一方、スネアやタムの音は、ボーカル音と比べ、ボリュームが大きく、アタックが速い傾向にあるという特徴がある。そこで、解析部122においてこの特徴に着目してBPF102,112の出力を解析することにより、入力信号にスネアやタムの音が含まれる期間を識別することができる。
【0026】
ここで、図3に解析部122のより詳細な構成を示す。

図3に示すように、解析部122は、Lエンベロープ検出部131、Rエンベロープ検出部132及びアタック検出部133を備える。
【0027】
そして、Lエンベロープ検出部131にBPF102の出力を、Rエンベロープ検出部132にBPF112の出力をそれぞれ入力し、エンベロープ(振幅)の検出を行う。アタック検出部133では、LとRの双方の振幅が所定の閾値を超えたか否か判断し、超えた場合に、センターに定位したスネアやタムの音のアタックがあったと判断し、その旨を示す信号を調整部123に出力する。なお、この基準ではセンターから外れた位置に定位した音は検出できない可能性があるが、そのような音はボーカル音の除去処理で除去されないと考えられるため、検出できなくても問題ない。また、この閾値は、固定の値ではなく、平均の何倍、というように動的に変化する値でもよい。振幅の急激な増加及び減少を検出するような定め方をしてもよい。
【0028】
図2の説明に戻る。
調整部123は、解析部122からアタックがあった旨の信号を受け取ると、その時点から所定期間だけ、スイッチ106,116にそれぞれ加工しない入力信号を選択させるための選択信号SWを出力する。したがって、この期間だけは、ボーカル音の除去処理が行われていない信号を出力することができる。
このため、スネアやタムの音が含まれる信号を出力することができる。このときには、ボーカル音も含まれた信号を出力することとなるが、瞬間的にはスネアやタムの音の方が音量が大きく、ボーカル音はこれにマスクされてしまうため、人の耳で聞く範囲ではさほど問題とならない。
【0029】
しかし、スネアやタムの音の音量が低下する前に出力をボーカル音を除去した信号に戻さないと、ボーカル音が目立ってしまう。そこで、スイッチ106,116に加工しない入力信号を選択させる期間は、アタックがあった旨の信号を受け取ってから数十ミリ秒程度とすることが好ましい。
【0030】
ボーカル除去部19においては、以上の構成により、入力するオーディオ信号から、ボーカル音と周波数帯域の近い伴奏音を残しつつ効率的にボーカル音を除去することができる。従って、楽音再生装置10においては、波形再生部17がボーカル音の入った楽曲のデータを再生した場合でも、その楽曲からボーカル音と周波数帯域の近い伴奏音を残しつつ効率的にボーカル音を除去した音をサウンドシステム20から出力することができる。
【0031】
以上で実施形態の説明を終了するが、装置の構成や処理の内容、具体的な数値等が上述の実施形態で説明したものに限られないことはもちろんである。
例えば、上述した実施形態では、スネアやタムのアタックがあるとボーカル音の除去処理を全く行わない信号を出力するようにしたが、除去処理を緩和するのみでもよい。この緩和は例えば、BEF101,111において成分を除去する周波数帯域を狭めることにより行うことができる。より具体的には、スネアやタムの音が含まれる帯域は、ボーカル音が含まれ得る帯域のうち低周波数側に位置するため、成分を除去する周波数帯域の下限を、所定の変化量だけ高周波数側にずらせばよい。
【0032】
このようにすれば、ボーカル音の除去処理もある程度行いつつ、スネアやタムの音を残すことができる。この場合、スイッチ106,116は不要であり、調整部123が、解析部122からアタックがあった旨の信号を受け取った場合に、BEF101,111におけるフィルタのパラメータを変更し、所定時間経過後にそれを元に戻せばよい。
【0033】
またこのとき、BPF102,112における抽出周波数帯域も、BEF101,111に連動して変更させるとよいが、処理速度等の観点で難しければ、変更しなくてもよい。BEFとBPFで重複する帯域や抜けが生じる帯域があっても、短時間でありまたスネアやタムの音がある期間であるので、人の耳で聞く範囲ではさほど問題とならない。
また、除去処理を緩和する手法としては、BPFの出力自身と差分信号とをそれぞれレベル調整して混合し、それをBEFの出力に加算することも考えられる。このようにしても、ある程度はスネアやタムの音を残すことができる。
【0034】
また、上述した実施形態では、加算部121により生成した差分信号をBEF101,111の出力にそれぞれ足し込む例について説明した。しかし、加算部121,103,113を設けず、ボーカル信号の除去を、単にBEF101,111によりボーカル音周波数帯域の信号を除去することによって行ってもよい。このような方式は、モノラルの音響信号にも適用することができる。また、定位位置と関係なくボーカル信号を除去することができる。
【0035】
また、上述した実施形態では、ボーカル音と共に除去されてしまう音としてスネアやタムの音を想定したが、これ以外の音を想定してもよい。その想定した音を検出できるように解析部122における解析内容を定め、想定した音が入力信号に含まれる期間だけ、ボーカル信号の除去処理を緩和又は停止できるようにすればよい。さらに、意図して除去する音も、ボーカル音であることは必須ではない。少なくとも、除去処理を行う装置自身は、除去されている音がどのような音源からの音であるかを認識している必要はない。
【0036】
また、上述した実施形態ではこの発明を楽音再生装置に適用した例について説明したが、この発明は、音響信号を取り扱う装置であれば、ICレコーダ、携帯音楽再生装置、オーディオ機器、カラオケ装置、電子楽器、音源装置等、任意の装置に適用可能である。単体のボイスキャンセル装置あるいは回路モジュールとして実施することも可能である。また、音響信号の加工も、デジタル波形データの状態で行うことも必須ではなく、アナログ信号に対して加工を行うようにする場合にも適用可能である。
【0037】
また、この発明のプログラムは、コンピュータを少なくとも上述したようなボーカル除去部19として機能させるためのプログラムである。このようなプログラムは、予めコンピュータがアクセス可能なROMやHDD等に記憶させておくほか、CD−ROMあるいはフレキシブルディスク等の不揮発性記録媒体(メモリ)に記録して提供し、そのメモリからこのプログラムをRAMに読み出させてCPUに実行させたり、プログラムを記録した記録媒体を備える外部機器あるいはプログラムをHDD等の記憶手段に記憶した外部機器からダウンロードして実行させたりしても、同様の効果を得ることができる。
また、以上述べてきた構成及び変形例は、矛盾しない範囲で適宜組み合わせて適用することも可能である。
【産業上の利用可能性】
【0038】
以上の説明から明らかなように、この発明によれば、入力する音響信号から、ボーカル音と周波数帯域の近い伴奏音を残しつつ効率的にボーカル音を除去することができる。
従って、この発明を適用することにより、音響信号加工装置におけるボーカル音除去後の音響信号の品質を向上させることができる。
【符号の説明】
【0039】
10…楽音再生装置、11…CPU、12…フラッシュメモリ、13…RAM、14…表示器、15…操作子、16…外部機器I/O、17…波形再生部、18…DSP、19…ボーカル除去部、20…サウンドシステム、21…システムバス、101,111…BEF、102,112…BPF、103,113,121…加算部、104,105,114,115…ディレイ、106,116…スイッチ、122…解析部、123…調整部、131…Lエンベロープ検出部、132…Rエンベロープ検出部、133…アタック検出部

【特許請求の範囲】
【請求項1】
入力する音響信号から特定の周波数帯域の成分を除去して出力する帯域除去手段と、
前記入力する音響信号の前記特定の周波数帯域の成分を抽出する帯域抽出手段と、
前記帯域抽出手段が抽出した成分の振幅が所定の閾値を超えた場合に、所定の時間だけ、前記帯域除去手段による前記特定の周波数帯域の成分の除去を緩和又は停止した信号を出力するようにする調整手段とを備えたことを特徴とする音響信号加工装置。
【請求項2】
請求項1に記載の音響信号加工装置であって、
前記音響信号はステレオの音響信号であり、
前記帯域除去手段は、前記特定の周波数帯域の成分を除去した信号に、前記帯域抽出手段が抽出した前記特定の周波数帯域の成分についてLとRの差分を取った信号を加算して出力する手段を備えることを特徴とする音響信号加工装置。
【請求項3】
コンピュータを、
入力する音響信号から特定の周波数帯域の成分を除去して出力する帯域除去手段と、
前記入力する音響信号の前記特定の周波数帯域の成分を抽出する帯域抽出手段と、
前記帯域抽出手段が抽出した成分の振幅が所定の閾値を超えた場合に、所定の時間だけ、前記帯域除去手段による前記特定の周波数帯域の成分の除去を緩和又は停止した信号を出力するようにする調整手段として機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2013−109207(P2013−109207A)
【公開日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2011−254972(P2011−254972)
【出願日】平成23年11月22日(2011.11.22)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】