カラオケ装置

【課題】主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没することを防止する。
【解決手段】複数のマイクのそれぞれから出力される歌唱音声信号について主旋律データとの一致度を算出し、主旋律パートを歌唱する歌唱音声信号を特定する。そして、特定された歌唱音声信号についてはエンハンサ処理を施し、その他の歌唱音声信号についてはディエッサ処理を施す。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、カラオケ曲のパート別にエフェクト処理を施す技術に関する。
【背景技術】
【０００２】
カラオケ装置の普及と利用者の歌唱技術の向上に伴い、主旋律パート以外のパート（ハーモニー旋律パート）を歌唱するニーズが高まっている。しかし、ハーモニー旋律パートは主旋律パートに比べて旋律が難しいことが多いため、ハーモニー旋律パートを歌唱する利用者の歌唱を補助する技術が提案されている（特許文献１参照）。この技術によれば、複数のマイクのうちどのマイクからハーモニー旋律パートを歌唱する歌唱音声信号が出力されているかが判別され、ハーモニー旋律パートを歌唱する歌唱音声信号と判別された歌唱音声信号にはピッチ修正やコーラス効果の付加がなされる。その結果、当該技術によれば、ハーモニー旋律パートの歌唱がより的確で、かつ、よりバックコーラスらしく聞こえるようになる。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開平１０−１６１６７２号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
しかし、上記の技術を利用した場合、ハーモニー旋律パートの歌唱者の子音の発音が強い場合や、声の音量が大きい場合に、主旋律パートの歌唱が埋もれてしまう可能性がある。特に上記の技術によれば、コーラス効果が付加されるため、ハーモニー旋律パートの歌唱音に厚みや広がりが出て、より主旋律パートの歌唱が埋もれてしまう可能性が高くなる。
本発明は、このような事情に鑑みてなされたものであり、主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没することを防ぐことを目的とする。
【課題を解決するための手段】
【０００５】
上記の課題を解決するため、本発明は、カラオケ曲の主旋律データを記憶する記憶手段と、収音した音声を音声信号として出力する第１及び第２の収音手段により出力された第１及び第２の音声信号と、前記記憶手段に記憶された主旋律データとを比較して、一致度を判定する判定手段と、前記判定手段の判定結果に基づき、前記第１及び第２の音声信号のうち、前記一致度の高い音声信号を主旋律の音声信号と識別し、かつ、他方の音声信号をハーモニー旋律の音声信号と識別する識別手段と、前記識別手段により主旋律の音声信号と識別された音声信号について、第１の閾値以上の周波数帯域に、当該音声信号の倍音成分を付加する処理を行う第１の修正手段と、前記識別手段によりハーモニー旋律の音声信号と識別された音声信号について、第２の閾値以上の周波数帯域において音量を減少させる処理を行う第２の修正手段と、前記第１の修正手段により処理が行われた主旋律の音声信号と、前記第２の修正手段により処理が行われたハーモニー旋律の音声信号とを増幅して出力する出力手段とを有することを特徴とするカラオケ装置を提供する。
【０００６】
好ましい態様において、上記カラオケ装置は、前記識別手段により主旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、前記第１の修正手段の処理と前記第２の修正手段の処理のうち少なくとも１の処理が、前記判別手段により判別された特性に基づいて行われてもよい。
【０００７】
また、別の好ましい態様において、上記のカラオケ装置は、前記識別手段によりハーモニー旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、前記第１の修正手段の処理と前記第２の修正手段の処理のうち少なくとも１の処理が、前記判別手段により判別された特性に基づいて行われてもよい。
【発明の効果】
【０００８】
本発明によれば、主旋律パートの歌唱音声信号とハーモニー旋律パートの歌唱音声信号に別々にエフェクト処理を施すことにより、主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没することを防ぐことができる。
【図面の簡単な説明】
【０００９】
【図１】本発明の一実施形態に係るカラオケシステムのハードウェア構成を示す図である。
【図２】本発明の一実施形態に係る楽曲データの構成を示す図である。
【図３】本発明の一実施形態に係る機能構成図である。
【図４】本発明の一変形例に係る機能構成図である。
【発明を実施するための形態】
【００１０】
＜実施形態＞
図１は、本発明の一実施形態に係るカラオケシステムのハードウェア構成を示す図である。同図においてカラオケ装置１は、２本のマイク２Ａ及び２Ｂと、スピーカ３と、ディスプレイ４に接続されている。マイク２Ａ及び２Ｂは、歌唱者の歌唱音声を収音し、アナログ信号として後述するＡ／Ｄコンバータ１１Ａ又は１１Ｂに出力する。スピーカ３は、後述するミキサ１４からステレオ信号を取得し、当該信号に基づいて音声を出力する。ディスプレイ４は、液晶ディスプレイ等の表示デバイスであって、後述するＶＤＰ（Video Display Processor）１７の制御の下、イメージ画像や歌詞テロップを表示する。
【００１１】
カラオケ装置１は、図１に示されるように、Ａ／Ｄコンバータ１１Ａ並びに１１Ｂ、エフェクタ１２Ａ並びに１２Ｂ、Ｄ／Ａコンバータ１３Ａ並びに１３Ｂ、ミキサ１４、制御部１５、記憶部１６、ＶＤＰ１７、操作部１８及び音源１９を有している。Ａ／Ｄコンバータ１１Ａ及び１１Ｂは、上述のマイク２Ａ又は２Ｂから歌唱音声のアナログ信号を取得し、当該信号をデジタル信号に変換してエフェクタ１２Ａ又は１２Ｂに出力する。Ａ／Ｄコンバータ１１Ａ及び１１Ｂは、当該デジタル信号を制御部１５にも出力する。エフェクタ１２Ａ及び１２Ｂは、ＤＳＰ（Digital Signal Processor）であり、Ａ／Ｄコンバータ１１Ａ又は１１Ｂから取得したデジタル信号に、後述するエフェクト処理を施し、Ｄ／Ａコンバータ１３Ａ又は１３Ｂに出力する。Ｄ／Ａコンバータ１３Ａ及び１３Ｂは、エフェクタ１２Ａ又は１２Ｂからデジタル信号を取得し、当該信号をアナログ信号に変換してミキサ１４に出力する。ミキサ１４は、エフェクタ１２Ａ及び１２Ｂから取得したアナログ信号と、音源１９から取得する楽音信号とを混合、増幅し、ステレオ信号として上述のスピーカ３に出力する。
【００１２】
制御部１５は、ＣＰＵ、ＲＯＭ、ＲＡＭ等からなり、ＣＰＵがＲＯＭに記憶されているプログラムをＲＡＭにロードして実行することにより、カラオケ装置１の各部を制御する。記憶部１６は、ＨＤＤ（Hard Disk Drive）等の記憶装置であって、カラオケ曲の楽曲データを複数記憶する。各楽曲データは、例えばＭＩＤＩ形式のデータであり、図２に示されるように、ヘッダ、楽音トラック、主旋律トラック、ハーモニー旋律トラック、歌詞トラック、イメージ画像トラック等を有する。ヘッダには、楽曲の曲名、ジャンル、演奏時間等の楽曲の属性データが書き込まれる。各トラックには、それぞれ楽音データ、主旋律データ、ハーモニー旋律データ、歌詞データ、イメージ画像データ等が書き込まれる。各トラックを識別するためのパラメータはＲＯＭにも記憶されており、ＣＰＵはこのパラメータを参照することにより各トラックに書き込まれたデータを識別することができる。例えば、いずれのデータが主旋律を表すデータであるかを識別することができる。ＶＤＰ１７は、制御部１５により記憶部１６から読み出された歌詞データ及びイメージ画像データを取得し、ディスプレイ４に歌詞テロップ及びイメージ画像を表示させる。操作部１８は、複数のボタンを有し、押下されたボタンに対応する操作信号を制御部１５に出力する。音源１９は、例えばＭＩＤＩ音源であり、制御部１５により記憶部１６から読み出された楽音データ等を取得し、当該データを楽音信号に変換してミキサ１４に出力する。
【００１３】
図３は、制御部１５のＣＰＵがＲＯＭに記憶されているプログラムを実行することによって実現される機能の構成図である。当該図面の機能群は、特にエフェクト処理の決定に関する機能である。
差分算出部１５１Ａ及び１５１Ｂは、Ａ／Ｄコンバータ１１Ａ又は１１Ｂから出力される歌唱音声信号を取得し、かつ、記憶部１６から読み出された主旋律データを取得し、両データの差分を算出する。ここで差分とは、両データの音高・音量の差や、発声（発音）タイミングの差等を定量化したものである。この差分を表すデータ（差分データ）は、差分算出部１５１Ａ及び１５１Ｂから、それぞれ採点部１５２Ａ、１５２Ｂに出力される。
採点部１５２Ａ及び１５２Ｂは、差分算出部１５１Ａ又は１５１Ｂから出力される差分データを蓄積し、所定のタイミングで、歌唱音声信号が主旋律データとどの程度一致しているかについて採点を行う。そして、採点結果をポイント値データとして比較部１５３に出力する。採点を行うタイミングは、例えば、カラオケ曲の演奏がスタートし、１フレーズの歌唱が終了したタイミングや、Ａメロが終了したタイミングである。
【００１４】
比較部１５３は、採点部１５２Ａ及び１５２Ｂからそれぞれ出力されたポイント値データを取得し、両データを比較することによって、いずれの歌唱音声信号が主旋律データに近似するかを判定する。そして判定結果を示すデータ（判定結果データ）をエフェクト処理決定部１５４に出力する。
エフェクト処理決定部１５４は、比較部１５３から出力された判定結果データに基づいて、エフェクタ１２Ａ及び１２Ｂにより実行されるエフェクト処理を決定する。具体的には、例えば、判定結果データにより、Ａ／Ｄコンバータ１１Ａにより出力された歌唱音声信号の方がＡ／Ｄコンバータ１１Ｂにより出力された歌唱音声信号よりも主旋律データに近似していることが示された場合には、エフェクタ１２Ａに対してはエンハンサ（Enhancer）処理の実行を指示するデータを出力し、かつ、エフェクタ１２Ｂに対してはディエッサ（De-esser）処理の実行を指示するデータを出力する。逆に、Ａ／Ｄコンバータ１１Ｂにより出力された歌唱音声信号の方がＡ／Ｄコンバータ１１Ａにより出力された歌唱音声信号よりも主旋律データに近似していることが示された場合には、エフェクタ１２Ａに対してはディエッサ処理の実行を指示するデータを出力し、かつ、エフェクタ１２Ｂに対してはエンハンサ処理の実行を指示するデータを出力する。
【００１５】
ここでエンハンサ処理とは、所定の閾値以上の周波数帯域において原音を歪ませて（ディストーション処理を施して）倍音成分のみを取り出し、原音に付加する処理である（ハーモニックエンハンサ処理）。あるいは、所定の閾値以上の周波数帯域において原音に当該原音の位相をずらしたものを付加し、コムフィルタ効果によって得られる倍音成分を取り出し、原音に付加する処理である（フェイズエンハンサ処理）。主に高音域で使用され、いずれのエンハンサ処理を施した場合でも、音の輪郭をはっきりさせることができる。
エンハンサ処理の内容を規定するパラメータ（エフェクトパラメータ）には、スレッショルド周波数（Threshold Frequency）、レベル（Level）、ミックスバランス（Mix Balance）等がある。スレッショルド周波数は、倍音成分を付加する周波数帯域を指定する値であり、スレッショルド周波数として指定された値以上の周波数帯域において倍音成分が付加される。スレッショルド周波数は、例えば、１〜１０ｋＨｚの範囲内で設定される。レベルは、倍音成分を付加する度合いを指定する値である。ミックスバランスは、原音と倍音成分を混合する割合を指定する値である。これらの値は予め、上述の操作部１８や図示せぬリモコン等を操作して設定しておくことができる。上記の例においてエフェクト処理決定部１５４は、エフェクタ１２Ａ又は１２Ｂに対してエンハンサ処理の実行を指示する際、予め設定しておいたエフェクトパラメータも出力する。
【００１６】
一方、ディエッサ処理とは、所定の閾値以上の周波数帯域において音量を抑制する処理である。主に歯擦音の周波数帯域で使用され、子音の発音を目立たなくさせることができるという効果が得られる。
ディエッサ処理の内容を規定するパラメータには、スレッショルド（Threshold）、レシオ（Ratio）、カットオフ周波数（Cutoff Frequency）等がある。スレッショルドは、抑制される音量のレベルを指定する値であり、スレッショルドとして指定された値以上の音量が抑制される。スレッショルドは、例えば、２〜１０ｋＨｚの範囲内で設定される。レシオは、音量が抑制される度合いを指定する値である。カットオフ周波数は、音量が抑制される周波数帯域を指定する値であり、カットオフ周波数として指定された値以上の周波数帯域において音量が抑制される。これらの値もまた、エンハンサ処理のパラメータと同様に、予め設定しておくことが可能である。上記の例においてエフェクト処理決定部１５４は、エフェクタ１２Ａ又は１２Ｂに対してディエッサ処理の実行を指示する際、予め設定しておいたエフェクトパラメータも出力する。
【００１７】
エフェクト処理の実行を指示するデータと当該処理のパラメータを取得したエフェクタ１２Ａ及び１２Ｂは、取得したパラメータに基づいて実行を指示されたエフェクト処理を実行する。具体的には、例えば、エフェクタ１２Ａがエンハンサ処理の実行を指示された場合には、エフェクタ１２Ａは、Ａ／Ｄコンバータ１１Ａから出力された歌唱音声信号について、指定された閾値以上の周波数帯域において原音を歪ませて倍音成分のみを取り出し、原音に付加する処理を行う。また、エフェクタ１２Ｂがディエッサ処理の実行を指示された場合には、Ａ／Ｄコンバータ１１Ｂから出力された歌唱音声信号について、指定された閾値以上の周波数帯域において音量を抑制する処理を行う。
【００１８】
以上説明した実施形態によれば、主旋律パートを歌唱する歌唱音声が比較部１５３によって判別され、当該歌唱音声を表す信号に対してはエンハンサ処理が施される。一方、主旋律パートを歌唱する歌唱音声ではないと判別された歌唱音声（すなわち、ハーモニー旋律パートを歌唱する歌唱音声）に対してはディエッサ処理が施される。この結果、主旋律パートを歌唱する歌唱音声については音の輪郭がはっきりし、ハーモニー旋律パートを歌唱する歌唱音声については子音の発音が目立たなくなる。よって、主旋律パートの歌唱がハーモニー旋律パートの歌唱に埋没するという事態を防止することができる。
【００１９】
＜変形例＞
（１）上記の実施形態において、エフェクタ１２Ａ又は１２Ｂは、ディエッサ処理に代えてローパスフィルタ（Low Path Filter）処理を施してもよい。ここでローパスフィルタ処理とは、所定の閾値以上の周波数の成分を除去する処理である。ローパスフィルタ処理によれば、高音域の周波数成分が除去されるため、ハーモニー旋律パートの歌唱音声において子音の発音が目立たなくなり、主旋律パートの歌唱の埋没を防止することができる。なお、ローパスフィルタ処理の内容を規定するパラメータとしては、カットオフ周波数（Cutoff Frequency）やレゾナンス（Resonance）等がある。カットオフ周波数は、成分の除去が行われる周波数帯域を指定する値であり、カットオフ周波数として指定された値以上の周波数帯域において成分の除去が行われる。レゾナンスは、カットオフ周波数周辺の倍音を強調する度合いを指定する値である。これらの値もまた、エンハンサ処理のパラメータと同様に、予め設定しておくことができる。
【００２０】
（２）上記の実施形態においては、各エフェクト処理につき１セットのエフェクトパラメータのみが設定されているが、複数セットのエフェクトパラメータを設定しておき、曲の属性に応じて使い分けてもよい。例えば、カラオケ装置１の記憶部１６は、各エフェクト処理につき曲のジャンルごとにエフェクトパラメータのセットを記憶しておき、エフェクト処理決定部１５４は、演奏する楽曲のデータのヘッダを参照して当該曲のジャンルを特定し、当該ジャンルに対応するエフェクトパラメータのセットを記憶部１６から読み出し、エフェクタ１２Ａ又は１２Ｂに対してエフェクト処理を指示する際に当該エフェクトパラメータのセットを出力してもよい。この変形例によれば、主旋律パートの歌唱の埋没を防止するという課題を解決する上で、曲の属性という要素も考慮することができる。
【００２１】
（３）上記の実施形態においては、上述のように各エフェクト処理につき１セットのエフェクトパラメータのみが設定されているが、複数セットのエフェクトパラメータを設定しておき、入力される歌唱音声信号の特性に応じて使い分けてもよい。具体的には、カラオケ装置１の記憶部１６に、各エフェクト処理につき歌唱音声の特性ごとにエフェクトパラメータのセットを記憶しておき、入力される歌唱音声信号の特性を判別し、この判別された特性に基づいてエフェクタ１２Ａ又は１２Ｂに出力するエフェクトパラメータのセットを決定してもよい。以下、具体的に説明する。
図４は、本変形例に係る、制御部１５のＣＰＵがＲＯＭに記憶されているプログラムを実行することによって実現される機能の構成図である。本変形例に係る機能構成図では、上記の実施形態に係る機能構成図と比較して、解析部１５５Ａ及び１５５Ｂが追加されている。
【００２２】
同図において解析部１５５Ａ及び１５５Ｂは、Ａ／Ｄコンバータ１１Ａ又は１１Ｂから出力される歌唱音声信号を取得し、当該信号の特性について解析を行う。例えば、解析部１５５Ａ及び１５５Ｂは、取得する歌唱音声信号の基本周波数が１８０Ｈｚ以上であるか否かについて判別する。これは、通常、男性の声の周波数は８０〜１２０Ｈｚ程度であり、女性の声の周波数は２４０〜５００Ｈｚ程度であることから、歌唱音声信号の基本周波数が１８０Ｈｚ以上であるか否かについて判別することにより、当該信号により表される音声が男性のものであるか女性のものであるかを判別することができるからである。解析部１５５Ａ及び１５５Ｂは、解析結果を示すデータ（解析結果データ）をエフェクト処理決定部１５４に出力し、エフェクト処理決定部１５４は、解析結果データにより表される特性に対応するエフェクトパラメータのセットを記憶部１６から読み出し、エフェクタ１２Ａ又は１２Ｂに対してエフェクト処理を指示する際に当該エフェクトパラメータのセットを出力する。この場合、エフェクト処理決定部１５４は、解析部１５５Ａから出力される解析結果データに基づいてエフェクタ１２Ａに出力するエフェクトパラメータのセットを特定し、解析部１５５Ｂから出力される解析結果データに基づいてエフェクタ１２Ｂに出力するエフェクトパラメータのセットを特定する。この変形例によれば、主旋律パートの歌唱の埋没を防止するという課題を解決する上で、歌唱音声の特性という要素も考慮することができる。
【００２３】
なお、上記の本変形例に係る説明において、解析部から出力される解析結果データに基づいてエフェクトパラメータのセットが特定されるエフェクタは、エフェクタ１２Ａ及び１２Ｂのうちいずれか一方のみであってもよい。例えば、上記の本変形例に係る説明において、エフェクタ１２Ａに出力されるエフェクトパラメータのセットについては解析部１５５Ａから出力される解析結果データに基づいて特定し、エフェクタ１２Ｂに出力されるエフェクトパラメータのセットについては所定のセットを使用してもよい。なおここで所定のセットとは、記憶部１６に記憶される、予め設定しておいたエフェクトパラメータのセットのことである。
また、上記の本変形例に係る説明では、解析部１５５Ａから出力される解析結果データに基づいてエフェクタ１２Ｂに出力するエフェクトパラメータのセットを特定し、解析部１５５Ｂから出力される解析結果データに基づいてエフェクタ１２Ａに出力するエフェクトパラメータのセットを特定してもよい。この場合、相手方の歌唱音声の特性に基づいてエフェクトパラメータセットが決定されることになり、例えば、自身が男性であり主旋律パートを歌唱する場合に、相手方が女性であり音高が高い場合には、レベルをより高めに設定するといった調節が可能になる。なお、この場合も、解析部から出力される解析結果データに基づいてエフェクトパラメータのセットが特定されるエフェクタは、エフェクタ１２Ａ及び１２Ｂのうちいずれか一方のみであってもよい。
【００２４】
（４）上記の実施形態では、マイクを２本設けていたが、３本以上設けてもよい。この場合、追加するマイクごとに、マイク２Ａ及び２Ｂと同様に、Ａ／Ｄコンバータ、エフェクタ及びＤ／Ａコンバータが設けられ、かつ、差分算出部及び採点部の機能が設けられる。エフェクト処理決定部１５４は、入力される歌唱音声信号のうち最も主旋律データに近似する信号を処理するエフェクタにエンハンサ処理の実行を指示し、その他の歌唱音声信号を処理するエフェクタに対してはディエッサ処理の実行を処理する。
【符号の説明】
【００２５】
１…カラオケ装置、２Ａ，２Ｂ…マイク、３…スピーカ、４…ディスプレイ、１１Ａ，１１Ｂ…Ａ／Ｄコンバータ、１２Ａ，１２Ｂ…エフェクタ、１３Ａ，１３Ｂ…Ｄ／Ａコンバータ、１４…ミキサ、１５…制御部、１６…記憶部、１７…ＶＤＰ、１８…操作部、１９…音源、１５１Ａ，１５１Ｂ…差分算出部、１５２Ａ，１５２Ｂ…採点部、１５３…比較部、１５４…エフェクト処理決定部、１５５Ａ，１５５Ｂ…解析部

【特許請求の範囲】
【請求項１】
カラオケ曲の主旋律データを記憶する記憶手段と、
収音した音声を音声信号として出力する第１及び第２の収音手段により出力された第１及び第２の音声信号と、前記記憶手段に記憶された主旋律データとを比較して、一致度を判定する判定手段と、
前記判定手段の判定結果に基づき、前記第１及び第２の音声信号のうち、前記一致度の高い音声信号を主旋律の音声信号と識別し、かつ、他方の音声信号をハーモニー旋律の音声信号と識別する識別手段と、
前記識別手段により主旋律の音声信号と識別された音声信号について、第１の閾値以上の周波数帯域に、当該音声信号の倍音成分を付加する処理を行う第１の修正手段と、
前記識別手段によりハーモニー旋律の音声信号と識別された音声信号について、第２の閾値以上の周波数帯域において音量を減少させる処理を行う第２の修正手段と、
前記第１の修正手段により処理が行われた主旋律の音声信号と、前記第２の修正手段により処理が行われたハーモニー旋律の音声信号とを増幅して出力する出力手段と
を有することを特徴とするカラオケ装置。
【請求項２】
前記識別手段により主旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、
前記第１の修正手段の処理と前記第２の修正手段の処理のうち少なくとも１の処理が、前記判別手段により判別された特性に基づいて行われる
ことを特徴とする請求項１に記載のカラオケ装置。
【請求項３】
前記識別手段によりハーモニー旋律の音声信号と識別される音声信号の特性を判別する判別手段をさらに有し、
前記第１の修正手段の処理と前記第２の修正手段の処理のうち少なくとも１の処理が、前記判別手段により判別された特性に基づいて行われる
ことを特徴とする請求項１に記載のカラオケ装置。

【図１】