説明

カラオケ装置

【課題】主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没することを防止する。
【解決手段】複数のマイクのそれぞれから出力される歌唱音声信号について主旋律データとの一致度を算出し、主旋律パートを歌唱する歌唱音声信号を特定する。そして、特定された歌唱音声信号についてはエンハンサ処理を施し、その他の歌唱音声信号についてはディエッサ処理を施す。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、カラオケ曲のパート別にエフェクト処理を施す技術に関する。
【背景技術】
【0002】
カラオケ装置の普及と利用者の歌唱技術の向上に伴い、主旋律パート以外のパート(ハーモニー旋律パート)を歌唱するニーズが高まっている。しかし、ハーモニー旋律パートは主旋律パートに比べて旋律が難しいことが多いため、ハーモニー旋律パートを歌唱する利用者の歌唱を補助する技術が提案されている(特許文献1参照)。この技術によれば、複数のマイクのうちどのマイクからハーモニー旋律パートを歌唱する歌唱音声信号が出力されているかが判別され、ハーモニー旋律パートを歌唱する歌唱音声信号と判別された歌唱音声信号にはピッチ修正やコーラス効果の付加がなされる。その結果、当該技術によれば、ハーモニー旋律パートの歌唱がより的確で、かつ、よりバックコーラスらしく聞こえるようになる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平10−161672号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、上記の技術を利用した場合、ハーモニー旋律パートの歌唱者の子音の発音が強い場合や、声の音量が大きい場合に、主旋律パートの歌唱が埋もれてしまう可能性がある。特に上記の技術によれば、コーラス効果が付加されるため、ハーモニー旋律パートの歌唱音に厚みや広がりが出て、より主旋律パートの歌唱が埋もれてしまう可能性が高くなる。
本発明は、このような事情に鑑みてなされたものであり、主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没することを防ぐことを目的とする。
【課題を解決するための手段】
【0005】
上記の課題を解決するため、本発明は、カラオケ曲の主旋律データを記憶する記憶手段と、収音した音声を音声信号として出力する第1及び第2の収音手段により出力された第1及び第2の音声信号と、前記記憶手段に記憶された主旋律データとを比較して、一致度を判定する判定手段と、前記判定手段の判定結果に基づき、前記第1及び第2の音声信号のうち、前記一致度の高い音声信号を主旋律の音声信号と識別し、かつ、他方の音声信号をハーモニー旋律の音声信号と識別する識別手段と、前記識別手段により主旋律の音声信号と識別された音声信号について、第1の閾値以上の周波数帯域に、当該音声信号の倍音成分を付加する処理を行う第1の修正手段と、前記識別手段によりハーモニー旋律の音声信号と識別された音声信号について、第2の閾値以上の周波数帯域において音量を減少させる処理を行う第2の修正手段と、前記第1の修正手段により処理が行われた主旋律の音声信号と、前記第2の修正手段により処理が行われたハーモニー旋律の音声信号とを増幅して出力する出力手段とを有することを特徴とするカラオケ装置を提供する。
【0006】
好ましい態様において、上記カラオケ装置は、前記識別手段により主旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、前記第1の修正手段の処理と前記第2の修正手段の処理のうち少なくとも1の処理が、前記判別手段により判別された特性に基づいて行われてもよい。
【0007】
また、別の好ましい態様において、上記のカラオケ装置は、前記識別手段によりハーモニー旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、前記第1の修正手段の処理と前記第2の修正手段の処理のうち少なくとも1の処理が、前記判別手段により判別された特性に基づいて行われてもよい。
【発明の効果】
【0008】
本発明によれば、主旋律パートの歌唱音声信号とハーモニー旋律パートの歌唱音声信号に別々にエフェクト処理を施すことにより、主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没することを防ぐことができる。
【図面の簡単な説明】
【0009】
【図1】本発明の一実施形態に係るカラオケシステムのハードウェア構成を示す図である。
【図2】本発明の一実施形態に係る楽曲データの構成を示す図である。
【図3】本発明の一実施形態に係る機能構成図である。
【図4】本発明の一変形例に係る機能構成図である。
【発明を実施するための形態】
【0010】
<実施形態>
図1は、本発明の一実施形態に係るカラオケシステムのハードウェア構成を示す図である。同図においてカラオケ装置1は、2本のマイク2A及び2Bと、スピーカ3と、ディスプレイ4に接続されている。マイク2A及び2Bは、歌唱者の歌唱音声を収音し、アナログ信号として後述するA/Dコンバータ11A又は11Bに出力する。スピーカ3は、後述するミキサ14からステレオ信号を取得し、当該信号に基づいて音声を出力する。ディスプレイ4は、液晶ディスプレイ等の表示デバイスであって、後述するVDP(Video Display Processor)17の制御の下、イメージ画像や歌詞テロップを表示する。
【0011】
カラオケ装置1は、図1に示されるように、A/Dコンバータ11A並びに11B、エフェクタ12A並びに12B、D/Aコンバータ13A並びに13B、ミキサ14、制御部15、記憶部16、VDP17、操作部18及び音源19を有している。A/Dコンバータ11A及び11Bは、上述のマイク2A又は2Bから歌唱音声のアナログ信号を取得し、当該信号をデジタル信号に変換してエフェクタ12A又は12Bに出力する。A/Dコンバータ11A及び11Bは、当該デジタル信号を制御部15にも出力する。エフェクタ12A及び12Bは、DSP(Digital Signal Processor)であり、A/Dコンバータ11A又は11Bから取得したデジタル信号に、後述するエフェクト処理を施し、D/Aコンバータ13A又は13Bに出力する。D/Aコンバータ13A及び13Bは、エフェクタ12A又は12Bからデジタル信号を取得し、当該信号をアナログ信号に変換してミキサ14に出力する。ミキサ14は、エフェクタ12A及び12Bから取得したアナログ信号と、音源19から取得する楽音信号とを混合、増幅し、ステレオ信号として上述のスピーカ3に出力する。
【0012】
制御部15は、CPU、ROM、RAM等からなり、CPUがROMに記憶されているプログラムをRAMにロードして実行することにより、カラオケ装置1の各部を制御する。記憶部16は、HDD(Hard Disk Drive)等の記憶装置であって、カラオケ曲の楽曲データを複数記憶する。各楽曲データは、例えばMIDI形式のデータであり、図2に示されるように、ヘッダ、楽音トラック、主旋律トラック、ハーモニー旋律トラック、歌詞トラック、イメージ画像トラック等を有する。ヘッダには、楽曲の曲名、ジャンル、演奏時間等の楽曲の属性データが書き込まれる。各トラックには、それぞれ楽音データ、主旋律データ、ハーモニー旋律データ、歌詞データ、イメージ画像データ等が書き込まれる。各トラックを識別するためのパラメータはROMにも記憶されており、CPUはこのパラメータを参照することにより各トラックに書き込まれたデータを識別することができる。例えば、いずれのデータが主旋律を表すデータであるかを識別することができる。VDP17は、制御部15により記憶部16から読み出された歌詞データ及びイメージ画像データを取得し、ディスプレイ4に歌詞テロップ及びイメージ画像を表示させる。操作部18は、複数のボタンを有し、押下されたボタンに対応する操作信号を制御部15に出力する。音源19は、例えばMIDI音源であり、制御部15により記憶部16から読み出された楽音データ等を取得し、当該データを楽音信号に変換してミキサ14に出力する。
【0013】
図3は、制御部15のCPUがROMに記憶されているプログラムを実行することによって実現される機能の構成図である。当該図面の機能群は、特にエフェクト処理の決定に関する機能である。
差分算出部151A及び151Bは、A/Dコンバータ11A又は11Bから出力される歌唱音声信号を取得し、かつ、記憶部16から読み出された主旋律データを取得し、両データの差分を算出する。ここで差分とは、両データの音高・音量の差や、発声(発音)タイミングの差等を定量化したものである。この差分を表すデータ(差分データ)は、差分算出部151A及び151Bから、それぞれ採点部152A、152Bに出力される。
採点部152A及び152Bは、差分算出部151A又は151Bから出力される差分データを蓄積し、所定のタイミングで、歌唱音声信号が主旋律データとどの程度一致しているかについて採点を行う。そして、採点結果をポイント値データとして比較部153に出力する。採点を行うタイミングは、例えば、カラオケ曲の演奏がスタートし、1フレーズの歌唱が終了したタイミングや、Aメロが終了したタイミングである。
【0014】
比較部153は、採点部152A及び152Bからそれぞれ出力されたポイント値データを取得し、両データを比較することによって、いずれの歌唱音声信号が主旋律データに近似するかを判定する。そして判定結果を示すデータ(判定結果データ)をエフェクト処理決定部154に出力する。
エフェクト処理決定部154は、比較部153から出力された判定結果データに基づいて、エフェクタ12A及び12Bにより実行されるエフェクト処理を決定する。具体的には、例えば、判定結果データにより、A/Dコンバータ11Aにより出力された歌唱音声信号の方がA/Dコンバータ11Bにより出力された歌唱音声信号よりも主旋律データに近似していることが示された場合には、エフェクタ12Aに対してはエンハンサ(Enhancer)処理の実行を指示するデータを出力し、かつ、エフェクタ12Bに対してはディエッサ(De-esser)処理の実行を指示するデータを出力する。逆に、A/Dコンバータ11Bにより出力された歌唱音声信号の方がA/Dコンバータ11Aにより出力された歌唱音声信号よりも主旋律データに近似していることが示された場合には、エフェクタ12Aに対してはディエッサ処理の実行を指示するデータを出力し、かつ、エフェクタ12Bに対してはエンハンサ処理の実行を指示するデータを出力する。
【0015】
ここでエンハンサ処理とは、所定の閾値以上の周波数帯域において原音を歪ませて(ディストーション処理を施して)倍音成分のみを取り出し、原音に付加する処理である(ハーモニックエンハンサ処理)。あるいは、所定の閾値以上の周波数帯域において原音に当該原音の位相をずらしたものを付加し、コムフィルタ効果によって得られる倍音成分を取り出し、原音に付加する処理である(フェイズエンハンサ処理)。主に高音域で使用され、いずれのエンハンサ処理を施した場合でも、音の輪郭をはっきりさせることができる。
エンハンサ処理の内容を規定するパラメータ(エフェクトパラメータ)には、スレッショルド周波数(Threshold Frequency)、レベル(Level)、ミックスバランス(Mix Balance)等がある。スレッショルド周波数は、倍音成分を付加する周波数帯域を指定する値であり、スレッショルド周波数として指定された値以上の周波数帯域において倍音成分が付加される。スレッショルド周波数は、例えば、1〜10kHzの範囲内で設定される。レベルは、倍音成分を付加する度合いを指定する値である。ミックスバランスは、原音と倍音成分を混合する割合を指定する値である。これらの値は予め、上述の操作部18や図示せぬリモコン等を操作して設定しておくことができる。上記の例においてエフェクト処理決定部154は、エフェクタ12A又は12Bに対してエンハンサ処理の実行を指示する際、予め設定しておいたエフェクトパラメータも出力する。
【0016】
一方、ディエッサ処理とは、所定の閾値以上の周波数帯域において音量を抑制する処理である。主に歯擦音の周波数帯域で使用され、子音の発音を目立たなくさせることができるという効果が得られる。
ディエッサ処理の内容を規定するパラメータには、スレッショルド(Threshold)、レシオ(Ratio)、カットオフ周波数(Cutoff Frequency)等がある。スレッショルドは、抑制される音量のレベルを指定する値であり、スレッショルドとして指定された値以上の音量が抑制される。スレッショルドは、例えば、2〜10kHzの範囲内で設定される。レシオは、音量が抑制される度合いを指定する値である。カットオフ周波数は、音量が抑制される周波数帯域を指定する値であり、カットオフ周波数として指定された値以上の周波数帯域において音量が抑制される。これらの値もまた、エンハンサ処理のパラメータと同様に、予め設定しておくことが可能である。上記の例においてエフェクト処理決定部154は、エフェクタ12A又は12Bに対してディエッサ処理の実行を指示する際、予め設定しておいたエフェクトパラメータも出力する。
【0017】
エフェクト処理の実行を指示するデータと当該処理のパラメータを取得したエフェクタ12A及び12Bは、取得したパラメータに基づいて実行を指示されたエフェクト処理を実行する。具体的には、例えば、エフェクタ12Aがエンハンサ処理の実行を指示された場合には、エフェクタ12Aは、A/Dコンバータ11Aから出力された歌唱音声信号について、指定された閾値以上の周波数帯域において原音を歪ませて倍音成分のみを取り出し、原音に付加する処理を行う。また、エフェクタ12Bがディエッサ処理の実行を指示された場合には、A/Dコンバータ11Bから出力された歌唱音声信号について、指定された閾値以上の周波数帯域において音量を抑制する処理を行う。
【0018】
以上説明した実施形態によれば、主旋律パートを歌唱する歌唱音声が比較部153によって判別され、当該歌唱音声を表す信号に対してはエンハンサ処理が施される。一方、主旋律パートを歌唱する歌唱音声ではないと判別された歌唱音声(すなわち、ハーモニー旋律パートを歌唱する歌唱音声)に対してはディエッサ処理が施される。この結果、主旋律パートを歌唱する歌唱音声については音の輪郭がはっきりし、ハーモニー旋律パートを歌唱する歌唱音声については子音の発音が目立たなくなる。よって、主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没するという事態を防止することができる。
【0019】
<変形例>
(1)上記の実施形態において、エフェクタ12A又は12Bは、ディエッサ処理に代えてローパスフィルタ(Low Path Filter)処理を施してもよい。ここでローパスフィルタ処理とは、所定の閾値以上の周波数の成分を除去する処理である。ローパスフィルタ処理によれば、高音域の周波数成分が除去されるため、ハーモニー旋律パートの歌唱音声において子音の発音が目立たなくなり、主旋律パートの歌唱の埋没を防止することができる。なお、ローパスフィルタ処理の内容を規定するパラメータとしては、カットオフ周波数(Cutoff Frequency)やレゾナンス(Resonance)等がある。カットオフ周波数は、成分の除去が行われる周波数帯域を指定する値であり、カットオフ周波数として指定された値以上の周波数帯域において成分の除去が行われる。レゾナンスは、カットオフ周波数周辺の倍音を強調する度合いを指定する値である。これらの値もまた、エンハンサ処理のパラメータと同様に、予め設定しておくことができる。
【0020】
(2)上記の実施形態においては、各エフェクト処理につき1セットのエフェクトパラメータのみが設定されているが、複数セットのエフェクトパラメータを設定しておき、曲の属性に応じて使い分けてもよい。例えば、カラオケ装置1の記憶部16は、各エフェクト処理につき曲のジャンルごとにエフェクトパラメータのセットを記憶しておき、エフェクト処理決定部154は、演奏する楽曲のデータのヘッダを参照して当該曲のジャンルを特定し、当該ジャンルに対応するエフェクトパラメータのセットを記憶部16から読み出し、エフェクタ12A又は12Bに対してエフェクト処理を指示する際に当該エフェクトパラメータのセットを出力してもよい。この変形例によれば、主旋律パートの歌唱の埋没を防止するという課題を解決する上で、曲の属性という要素も考慮することができる。
【0021】
(3)上記の実施形態においては、上述のように各エフェクト処理につき1セットのエフェクトパラメータのみが設定されているが、複数セットのエフェクトパラメータを設定しておき、入力される歌唱音声信号の特性に応じて使い分けてもよい。具体的には、カラオケ装置1の記憶部16に、各エフェクト処理につき歌唱音声の特性ごとにエフェクトパラメータのセットを記憶しておき、入力される歌唱音声信号の特性を判別し、この判別された特性に基づいてエフェクタ12A又は12Bに出力するエフェクトパラメータのセットを決定してもよい。以下、具体的に説明する。
図4は、本変形例に係る、制御部15のCPUがROMに記憶されているプログラムを実行することによって実現される機能の構成図である。本変形例に係る機能構成図では、上記の実施形態に係る機能構成図と比較して、解析部155A及び155Bが追加されている。
【0022】
同図において解析部155A及び155Bは、A/Dコンバータ11A又は11Bから出力される歌唱音声信号を取得し、当該信号の特性について解析を行う。例えば、解析部155A及び155Bは、取得する歌唱音声信号の基本周波数が180Hz以上であるか否かについて判別する。これは、通常、男性の声の周波数は80〜120Hz程度であり、女性の声の周波数は240〜500Hz程度であることから、歌唱音声信号の基本周波数が180Hz以上であるか否かについて判別することにより、当該信号により表される音声が男性のものであるか女性のものであるかを判別することができるからである。解析部155A及び155Bは、解析結果を示すデータ(解析結果データ)をエフェクト処理決定部154に出力し、エフェクト処理決定部154は、解析結果データにより表される特性に対応するエフェクトパラメータのセットを記憶部16から読み出し、エフェクタ12A又は12Bに対してエフェクト処理を指示する際に当該エフェクトパラメータのセットを出力する。この場合、エフェクト処理決定部154は、解析部155Aから出力される解析結果データに基づいてエフェクタ12Aに出力するエフェクトパラメータのセットを特定し、解析部155Bから出力される解析結果データに基づいてエフェクタ12Bに出力するエフェクトパラメータのセットを特定する。この変形例によれば、主旋律パートの歌唱の埋没を防止するという課題を解決する上で、歌唱音声の特性という要素も考慮することができる。
【0023】
なお、上記の本変形例に係る説明において、解析部から出力される解析結果データに基づいてエフェクトパラメータのセットが特定されるエフェクタは、エフェクタ12A及び12Bのうちいずれか一方のみであってもよい。例えば、上記の本変形例に係る説明において、エフェクタ12Aに出力されるエフェクトパラメータのセットについては解析部155Aから出力される解析結果データに基づいて特定し、エフェクタ12Bに出力されるエフェクトパラメータのセットについては所定のセットを使用してもよい。なおここで所定のセットとは、記憶部16に記憶される、予め設定しておいたエフェクトパラメータのセットのことである。
また、上記の本変形例に係る説明では、解析部155Aから出力される解析結果データに基づいてエフェクタ12Bに出力するエフェクトパラメータのセットを特定し、解析部155Bから出力される解析結果データに基づいてエフェクタ12Aに出力するエフェクトパラメータのセットを特定してもよい。この場合、相手方の歌唱音声の特性に基づいてエフェクトパラメータセットが決定されることになり、例えば、自身が男性であり主旋律パートを歌唱する場合に、相手方が女性であり音高が高い場合には、レベルをより高めに設定するといった調節が可能になる。なお、この場合も、解析部から出力される解析結果データに基づいてエフェクトパラメータのセットが特定されるエフェクタは、エフェクタ12A及び12Bのうちいずれか一方のみであってもよい。
【0024】
(4)上記の実施形態では、マイクを2本設けていたが、3本以上設けてもよい。この場合、追加するマイクごとに、マイク2A及び2Bと同様に、A/Dコンバータ、エフェクタ及びD/Aコンバータが設けられ、かつ、差分算出部及び採点部の機能が設けられる。エフェクト処理決定部154は、入力される歌唱音声信号のうち最も主旋律データに近似する信号を処理するエフェクタにエンハンサ処理の実行を指示し、その他の歌唱音声信号を処理するエフェクタに対してはディエッサ処理の実行を処理する。
【符号の説明】
【0025】
1…カラオケ装置、2A,2B…マイク、3…スピーカ、4…ディスプレイ、11A,11B…A/Dコンバータ、12A,12B…エフェクタ、13A,13B…D/Aコンバータ、14…ミキサ、15…制御部、16…記憶部、17…VDP、18…操作部、19…音源、151A,151B…差分算出部、152A,152B…採点部、153…比較部、154…エフェクト処理決定部、155A,155B…解析部

【特許請求の範囲】
【請求項1】
カラオケ曲の主旋律データを記憶する記憶手段と、
収音した音声を音声信号として出力する第1及び第2の収音手段により出力された第1及び第2の音声信号と、前記記憶手段に記憶された主旋律データとを比較して、一致度を判定する判定手段と、
前記判定手段の判定結果に基づき、前記第1及び第2の音声信号のうち、前記一致度の高い音声信号を主旋律の音声信号と識別し、かつ、他方の音声信号をハーモニー旋律の音声信号と識別する識別手段と、
前記識別手段により主旋律の音声信号と識別された音声信号について、第1の閾値以上の周波数帯域に、当該音声信号の倍音成分を付加する処理を行う第1の修正手段と、
前記識別手段によりハーモニー旋律の音声信号と識別された音声信号について、第2の閾値以上の周波数帯域において音量を減少させる処理を行う第2の修正手段と、
前記第1の修正手段により処理が行われた主旋律の音声信号と、前記第2の修正手段により処理が行われたハーモニー旋律の音声信号とを増幅して出力する出力手段と
を有することを特徴とするカラオケ装置。
【請求項2】
前記識別手段により主旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、
前記第1の修正手段の処理と前記第2の修正手段の処理のうち少なくとも1の処理が、前記判別手段により判別された特性に基づいて行われる
ことを特徴とする請求項1に記載のカラオケ装置。
【請求項3】
前記識別手段によりハーモニー旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、
前記第1の修正手段の処理と前記第2の修正手段の処理のうち少なくとも1の処理が、前記判別手段により判別された特性に基づいて行われる
ことを特徴とする請求項1に記載のカラオケ装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2011−197533(P2011−197533A)
【公開日】平成23年10月6日(2011.10.6)
【国際特許分類】
【出願番号】特願2010−66155(P2010−66155)
【出願日】平成22年3月23日(2010.3.23)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】