エンベロープ形状を使用してオーディオ信号を変更する装置及び方法
オーディオ信号変更装置は、エンベロープ形状決定部、フィルターバンク処理部、信号処理部、結合部及びエンベロープ成形部を含む。エンベロープ形状決定部は、時間領域入力オーディオ信号を表す周波数領域オーディオ信号に基づきエンベロープ形状係数を決定し、フィルターバンク処理部は、周波数領域オーディオ信号に基づき、複数のバンドパス信号をサブバンド領域で生成する。さらに、複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号を所定の変更目標に基づき変更する。結合部は、時間領域オーディオ信号を得るために、変更後のサブバンド領域バンドパス信号を含むサブバンド領域バンドパス信号の少なくとも一部を結合する。さらに、エンベロープ成形部は、成形されたオーディオ信号を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形するか、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するか、または、サブバンド領域バンドパス信号が信号処理部によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明に係る実施形態はオーディオ処理に関し、特にオーディオ信号を変更する装置及び方法に関する。
【背景技術】
【0002】
以前に記録されたオーディオ信号、例えばデータベースから取り出したオーディオ信号を新たな音楽コンテキストに適合させるための膨大な信号処理の必要性に対応できるデジタル信号処理技術に対する要求が高まっている。そうするためには、ピッチ、音楽キー、スケールモードのような高レベルの意味的信号特性を適合させる必要がある。これらの操作の全てに共通していることは、主観的な音質をできる限り良い状態に保ちながら、元のオーディオ資料の音楽的特性を実質的に変更することを目標としていることである。換言すれば、これらの編集はオーディオ資料の音楽的内容を大きく変えるものであるが、それにもかかわらず、処理されたオーディオサンプルの本質を保持し、従って信憑性を保持することが求められる。これにより、理想的には、多声混合音楽内容を含む異なる種類の信号に対して幅広く応用できる信号処理方法が求められる。
【0003】
今日、オーディオ信号を変更するための多くの考えが知られている。これらの考えのうちのいくつかは、ボコーダーに基づくものである。
【0004】
例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号処理のための振幅・周波数変調ボコーダー」(デジタルオーディオ効果(DAFx)国際学会2008の会報)、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報)、S.ディッシュ(Disch)とB.エドラー(Edler)による「推定局所的重心に応じた、オーディオ信号スペクトルのための相互作用セグメンテーションアルゴリズム」(デジタルオーディオ効果(DAFx)第12回国際学会2009の会報)の中で、変調ボコーダー(MOVOC)の概念が紹介され、多声音楽内容に関して意味のある選択的な転置を行うというこの変調ボコーダーの一般的な機能が論じられている。これは、以前に記録されたPCM音楽サンプルのキーモードを変換するという目的への応用を可能にするものである(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報参照)。また、このような多声音楽の操作課題に対処できる最初の市販のソフトウェア(セレモニー(Celemony)によるメロダイン(Melodyne)エディター)が入手可能である。このソフトウェアは、ディレクト・ノート・アクセス(DNA)というブランド名が付けられ販売されてきた技術を実施するものである。最近、特許出願(EP2099024、P.ニューベッカー(Neubacker)、「多声音楽録音の音響のオブジェクト指向解析及び音符のオブジェクト指向処理方法」2009年9月)が公開され、おそらく、これがDNAの基本的な機能をカバーし、開示していると思われる。オーディオ信号の変更に使用される方法とは別に、感覚的に高い質のオーディオ信号を得ることが求められている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、オーディオ信号を変更するための改良された考えを提供することであり、これによれば、変更後のオーディオ信号の知覚的質を高めることができる。
【課題を解決するための手段】
【0006】
この目的は、クレーム1に係る装置、クレーム14に係る方法またはクレーム15に係るコンピュータプログラムで達成できる。
【0007】
本発明の一実施形態は、フィルターバンク処理部、基音決定部、倍音決定部、信号処理部及び結合部を含むオーディオ信号変更装置を提供する。フィルターバンク処理部は、オーディオ信号に基づき複数のバンドパス信号を生成するように構成されている。さらに、基音決定部は、基音バンドパス信号を得るために、複数のバンドパス信号から一つのバンドパス信号を選択するように構成されている。倍音決定部は、選択された基音バンドパス信号に関連する倍音バンドパス信号を得るために、複数のバンドパス信号のうち、選択された基音バンドパス信号に関する倍音基準を満たす一つのバンドパス信号を識別するように構成されている。さらに、信号処理部は、選択された基音バンドパス信号を所定の変更目標に基づき変更するように構成されている。また、信号処理部は、選択された基音バンドパス信号に関連づけて識別された倍音バンドパス信号を、選択された基音バンドパス信号への変更に応じて変更するように構成されている。さらに、結合部は、変更後のオーディオ信号を得るために、複数のバンドパス信号を結合するように構成されている。
【0008】
基本周波数の倍音を識別し、これらの倍音を基音に対するのと同じように変更することにより、基音とそれらの倍音との間での異なる変更を避けることができ、その結果、変更後のオーディオ信号の音色が元のオーディオ信号に対してより正確に保持され得る。このようにして、変更後のオーディオ信号の感覚的な質を大きく向上することができる。例えば、選択的ピッチ転置をしようとする際(例えば、与えられた音楽信号のキーモードをCメジャーからCマイナーに変更する場合)、識別された倍音バンドパス信号に対する変更は、基音バンドパス信号に対する変更に関連して行われる。これとは対照的に、周知の方法では、倍音を示すバンドパス信号の周波数領域を、基音バンドパス信号とは違う方法で変更する。換言すれば、識別された倍音バンドパス信号は、上記方法により、基音バンドパス信号にロック(固定)される。
【0009】
本発明のいくつかの実施形態によれば、基音バンドパス信号の周波数を複数のバンドパス信号のうちの一つのバンドパス信号と比較することにより、基音バンドパス信号のエネルギー量を複数のバンドパス信号のうちの一つのバンドパス信号と比較することにより、及び/または基音バンドパス信号の時間的エンベロープと複数のバンドパス信号のうちの一つのバンドパス信号のエンベロープとの関連性を判断することによって、倍音バンドパス信号を識別してもよい。この方法において、倍音識別の間違いを最小限に抑えるために、一つまたはそれ以上の倍音基準を設定してもよい。
【0010】
本発明に係るいくつかの実施形態は、複数のバンドパス信号からの基音バンドパス信号の決定と倍音バンドパス信号の識別とを反復的に行うことに関する。既に選択された基音バンドパス信号と既に識別された倍音バンドパス信号をサーチ範囲から排除してもよく、換言すれば、これらを、更なる基音バンドパス信号の決定または更なる倍音バンドパス信号の決定の際の考慮には入れなくてもよい。このようにして、複数のバンドパス信号のうちの各バンドパス信号は、基音バンドパス信号として(従って他の基音バンドパス信号とは独立して変更されてもよく)または倍音バンドパス信号として(従ってそれに関連する基音バンドパス信号に応じて変更されてもよい)。
【0011】
本発明の別の実施形態は、エンベロープ形状決定部、フィルターバンク処理部、信号処理部、結合部、及びエンベロープ成形部を含むオーディオ信号変更装置を提供する。エンベロープ形状決定部は、時間領域入力オーディオ信号を示す周波数領域オーディオ信号に基づき、エンベロープ形状係数を決定するように構成されている。さらに、フィルターバンク処理部は、周波数領域オーディオ信号に基づき、サブバンド領域で複数のバンドパス信号を生成するように構成されている。信号処理部は、複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号を、所定の変更目標に基づき変更するように構成されている。さらに、結合器は、時間領域オーディオ信号を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部を合成するように構成されている。また、エンベロープ成形部は、成形されたオーディオ信号を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形するように、または、変形後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するように、または、サブバンド領域バンドパス信号が信号処理部によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するように構成されている。
【0012】
周波数領域オーディオ信号が複数のサブバンド領域バンドパス信号に分けられる前に周波数領域オーディオ信号のエンベロープ形状係数を決定することにより、オーディオ信号のスペクトルコヒーレンスに関する情報が保持され、一つまたはそれ以上のサブバンド領域バンドパス信号が変更された後も、時間領域オーディオ信号のエンベロープ成形に使用され得る。このようにして、いくつかの(または一つの)サブバンド領域バンドパス信号のみが変更されるか、またはサブバンド領域バンドパス信号が互いに異なる方法で変更され、オーディオ信号のスペクトルコヒーレンスを損なう可能性があるにも関わらず、変更後のオーディオ信号のスペクトルコヒーレンスはより正確に保持できる。これにより、変更後のオーディオ信号の感覚的な質を大きく向上させることができる。
【0013】
本発明に係るいくつかの実施形態は、複数のサブバンド領域バンドパス信号のうちの第2のサブバンド領域バンドパス信号を、第2の所定の変更目標に基づき変更するように構成された信号処理部に関する。前記所定の変更目標とこの第2の所定の変更目標とは異なるものである。バンドパス信号が別々に変更されるにも関わらず、バンドパス信号のそれぞれの変更後にエンベロープ成形を行うことにより、変更後のオーディオ信号のスペクトルコヒーレンスはより正確に保持できる。
【図面の簡単な説明】
【0014】
【図1】オーディオ信号変更装置のブロック図である。
【図2】オーディオ信号変更装置のブロック図である。
【図3】オーディオ信号変更方法のフローチャートである。
【図4】倍音ロッキングを用いた変調ボコーダーの一部を示すブロック図である。
【図5】オーディオ信号変更方法のフローチャートである。
【図6A】オーディオ信号変更装置のブロック図である。
【図6B】オーディオ信号変更装置のブロック図である。
【図6C】オーディオ信号変更装置のブロック図である。
【図6D】オーディオ信号変更装置のブロック図である。
【図7】フィルターバンク処理部のブロック図である。
【図8】エンベロープ成形部のブロック図である。
【図9】エンベロープ成形を用いた変調解析の略図である。
【図10】エンベロープ成形を用いた変調解析の略図である。
【図11】オーディオ信号変更方法のフローチャートである。
【図12】オーディオ信号変更方法のフローチャートである。
【図13】変調解析の略図である。
【図14】変調解析の実施例の略図である。
【図15】変調合成の略図である。
【図16】変調ボコーダー成分の選択的な転置の略図である。
【図17】選択的ピッチ転置のための変調ボコーダー処理の主観的な品質評価のためのテストセットを生成する過程を示す略図である。
【図18】選択的ピッチ転置を処理するリスニングテストの絶対MUSHIRAスコアと95%の信頼区間を示す図である。
【図19】変調ボコーダーの条件によりMUSHIRAスコアが異なることと、選択的ピッチ転置を処理するリスニングテストの95%の信頼区間を示す図である。
【図20】DNA条件によりMUSHIRAスコアが異なることと、選択的ピッチ転置を処理するリスニングテストの95%の信頼区間を示す図である。
【発明を実施するための形態】
【0015】
添付図面を参照しながら、本発明に係る実施形態を以下に説明する。
【0016】
以下、同じまたは類似の機能特性を有する部品や機能ユニットには同じ参照符号が部分的に使用され、実施形態の説明での繰り返しを低減するために、一つの図面に関して行われるこれらの部品やユニットの説明が他の図面にも適用される。
【0017】
選択的ピッチ転置とも呼ばれる選択的な周波数帯域変更は、例えばボコーダーまたは変調ボコーダーによって実現され得る。
【0018】
マルチバンド変調分解(例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報)を参照)は、オーディオ信号を、(解析的)バンドパス信号の信号適応セットに分解し、バンドパス信号のそれぞれはさらに、正弦波搬送波と、その振幅変調(AM)と周波数変調(FM)とに分けられる。このバンドパスフィルターセットは、一方では全領域が切れ目なくカバーされ、他方ではフィルターが例えば総重心(COG)に合わせて並べられるように算出される。また、例えばERB基準(例えば、B.C.J.ムーア(Moore)とB.R.グラスバーグ(Glasberg)による「ツイッカーのラウドネスモデルの逆転」(Acta Acustica,第82巻、335〜345ページ、1996年)参照)のような感覚的基準に合うように、フィルターの帯域幅を選択することで人間の聴覚を考慮してもよい。
【0019】
例えば、局所的COGは、その周波数域におけるスペクトルの寄与により、リスナーによって感知される中間周波数に相当する。さらに、中心が局所的COG位置にある帯域は、典型的な位相ボコーダーの影響に基づく位相ロッキング範囲に相当し得る(例えば、L.ラローシュ(Laroche)とM.ドルソン(Dolson)による「改良された位相ボコーダーによるオーディオのタイムスケール変更」(スピーチ及びオーディオ処理に関するIEEE議事録、第7巻、第3番、323〜332ページ、1999年)、またはC.デュクスバリー(Duxbury)、M.デビーズ(Davies)及びM.サンドラー(Sandler)による「過渡信号での位相ロッキングを用いた音楽的オーディオの改良タイムスケーリング」(第112回AES学会、2002年)参照)。バンドパス信号のエンベロープと影響位相ロッキングの従来の領域は、どちらもバンドパス信号の時間的エンベロープを保持する。これは本質的なものであるか、あるいは後者の場合、合成の間に局所的スペクトルの位相コヒーレンスを確実なものにすることによって達成される。推定局所的COGに相当する周波数の正弦波搬送波に関して、AMとFMのどちらもが、それぞれ解析バンドパス信号の振幅エンベロープとヘテロダイン位相に捉えられる。専用の合成方法により、搬送波周波数AM,FMから出力信号が提供される。
【0020】
信号の搬送波信号への分解とそれに関連する変調部品の実施例1300のブロック図を図13に示す。図13において、マルチバンド成分(バンドパス信号)から一つの成分を抽出するためのシグナルフローが概略的に示されている。他の全ての成分も同様に得られる。まず、ブロードバンド入力信号xが、信号に適応して出力信号を生成するよう設計されたバンドパスフィルターに送られる。次に、式(1)に基づくヒルベルト変換により、解析信号が生成される。
【0021】
【数1】
【0022】
AM(振幅変調信号)はの振幅エンベロープによって与えられる。
【0023】
【数2】
【0024】
FM(周波数変調信号)は、各周波数ωcを有する固定の正弦波搬送波によって周波数変換処理された解析信号の位相導関数によって得られる。搬送波周波数は局所的COGの見積もりとして決定される。従って、FMは搬送波周波数fcにおけるIF(瞬間周波数)の変動として理解できる。
【0025】
【数3】
【0026】
局所的COGの見積もりとフロントエンドフィルターバンクの信号適応設計については、専門の出版物(例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「推定局所的重心に応じた、オーディオ信号スペクトルのための相互作用セグメンテーションアルゴリズム」(デジタルオーディオ効果(DAFx)第12回国際学会2009の会報)で説明されている。
実用的には、離散時間システムにおいて、図14に示すように、全ての成分に関して成分抽出が一緒に行われてもよい。この処理により、リアルタイムの計算が可能となる。ある時間ブロックの処理は、前のブロックのパラメータに依存しているだけである。従って、全体的な処理の遅延をできる限り抑えるために先読みが必要となるわけではない。この処理は、例えば75%の解析ブロック重複とそれぞれのウィンドウ処理後の信号ブロックに対する離散フーリエ変換の応用とにより、ブロックごとに計算が行われる。ウィンドウは、式(4)に基づく上部が平らなウィンドウである。これにより、次の50%重複を用いた変調合成に受け渡される中央のN/2個のサンプルは解析ウィンドウの裾野によって影響を受けないで済む。計算はより複雑化するが、正確性向上のために高次の重複を使用してもよい。
【0027】
【数4】
【0028】
スペクトル表示が与えられ、次に局所的COG位置に合わせた一組の信号適応スペクトルバンドパス重み付け関数が算出される。スペクトルに対するバンドパス重み付け処理を行った後、信号は時間領域に変換され、ヒルベルト変換により解析信号が導き出される。これら二つの処理ステップは、各バンドパス信号に関する片面IDFTの計算により効率的に組み合わせることができる。離散時間バンドパス信号が与えられ、式(3)によるIFの見積もりが、式(5)(*は複素共役を示す)で定義されるような位相差分により実施される。この式は位相の曖昧さと位相接続法の必要性を避けるので、便宜的に使用される。
【0029】
【数5】
【0030】
信号は、全ての成分の付加に基づき合成される。連続するブロックは、合成メカニズムによって制御される重複追加(OLA)により混ぜ合わされる。この成分結合によれば、成分が変調領域処理により実質的に変更されても、隣接するブロックの境界間の円滑な移行が確実になる。この合成は、前のブロックを考慮に入れるだけなので、リアルタイム処理が実現できる。合成は基本的に、現在のブロックの成分と前のブロックのそれぞれに相当する先行するものとの間のペアごとの組み合わせを行う。また、合成は、現在のブロックの絶対的成分位相を前のブロックのものに揃える。異なる時間ブロックを超えて適合するものがない成分に関しては、それぞれ、フェードインまたはフェードアウトが行われる。
【0031】
一つの成分に関する処理過程を図15に示す。まず、FM信号が固定搬送波周波数に付加され、その結果生じた信号はOLA段階に送られ、続いて、そこからの出力が時間的に積分される。その結果生じた位相信号は正弦波振動子に送られる。AM信号は第2OLA段階で処理される。次に、その成分が出力信号に対してさらに別の寄与をもたらすように、振動子の出力はAM信号によって振幅変調される。最後のステップでは、出力信号yを得るために、全成分からの寄与が合計される。
【0032】
図13,14は変調アナライザ1300を示している。変調アナライザ1300は、好ましくは、バンドパス信号を出力するバンドパスフィルター1320aを含む。ブロック1320bの出力はAM情報とFM情報を算出するために使用される。AM情報を算出するために、解析信号の振幅がブロック1320cによって算出される。解析信号ブロック1320bの出力は乗算器1320dに入力される。乗算器1320dは、他方の入力として、振動子1320eからの振動信号を受信し、振動子1320eはバンドパス1320aの実際の搬送波周波数fc1310によって制御される。そして、乗算器の出力の位相はブロック1320fで決定される。最終的にFM情報を得るために、ブロック1320gで瞬間位相が微分される。さらに、図14は、オーディオ信号のDFTスペクトルを生成するプリプロセッサ1410を示している。
【0033】
マルチバンド変調分解は、オーディオ信号を適応可能な一組の(解析)バンドパス信号に分解し、それぞれのバンドパス信号は、さらに正弦波搬送波と、その振幅変調(AM)と周波数変調(FM)に分けられる。バンドパスフィルターセットは、一方では全帯域スペクトルが切れ目なくカバーされるように、また他方ではフィルターがそれぞれ局所的COGに沿って並べられるように算出される。また、例えばERB基準のような感覚的基準に合うようにフィルターの帯域を選択することによって、人間の聴覚が考慮に入れられる(B.C.J.ムーア(Moore)とB.R.グラスバーグ(Glasberg)による「ツイッカーのラウドネスモデルの逆転」(Acta Acustica,第82巻、335〜345ページ、1996年)参照)。
【0034】
局所的COGは、その周波数領域へのスペクトルの寄与により、リスナーによって知覚される中心周波数に一致する。さらに、中心が局所的COGにある帯域は、典型的な位相ボコーダーの影響に基づく位相ロッキング範囲に相当し得る(例えば、L.ラローシュ(Laroche)とM.ドルソン(Dolson)による「改良された位相ボコーダーによるオーディオのタイムスケール変更」(スピーチ及びオーディオ処理に関するIEEE議事録、第7巻、第3番、323〜332ページ、1999年)、またはC.デュクスバリー(Duxbury)、M.デビーズ(Davies)及びM.サンドラー(Sandler)による「過渡信号での位相ロッキングを用いた音楽的オーディオの改良タイムスケーリング」(第112回AES学会、2002年)、A.リューベル(Robel)による「位相ボコーダーにおける過渡処理への新規なアプローチ」(デジタルオーディオ効果(DAFx)に関する国際学会の会報、344〜349ページ、2003年)、A.リューベル(Robel)による「位相ボコーダーにおける過渡の検知と保持」(国際コンピュータ音楽学会(ICMC’03)、247〜250ページ、2003年)参照)。バンドパス信号のエンベロープと影響位相ロッキングの従来の領域は、どちらもバンドパス信号の時間的エンベロープを保持する。これは本質的なものであるか、あるいは後者の場合、合成の間に局所的スペクトルの位相コヒーレンスを確実なものにすることによって達成される。推定局所的COGに相当する周波数の正弦波搬送波に関して、AMとFMのどちらもが、それぞれ解析バンドパス信号の振幅エンベロープとヘテロダイン位相に捉えられる。専用の合成方法により、搬送波周波数AM,FMから出力信号が提供される。
【0035】
信号から搬送波信号への分解とこれに関する変調部品のブロック図を図12に示す。この図は、一つの成分の抽出のためのシグナルフローの略図である。他の全ての成分も同様に得られる。実際、抽出は全ての成分に関してブロックごとに一緒に行われ、例えば48kHzのサンプリング周波数と75%の解析重複でN=214のブロックサイズで(つまり、大体340msの時間間隔と85msの幅で)、ウィンドウ処理後のそれぞれのブロックに対する離散フーリエ変換(DFT)の応用により行われる。ウィンドウは式(a)に基づく「上部が平らな」ウィンドウであってもよい。これにより、次の変調合成に受け渡される中央のN/2個のサンプルは解析ウィンドウの傾きによって影響を受けないで済む。計算はより複雑化するが、正確性向上のために高次の重複を使用してもよい。
【0036】
【数6】
【0037】
スペクトル表示が与えられ、次に局所的COG位置に合わせた一組の信号適応スペクトルバンドパス重み付け関数が(搬送波周波数の概算または多重搬送波COG周波数の概算に関して、搬送波周波数決定部1330によって)算出される。スペクトルに対するバンドパス重み付け処理を行った後、信号は時間領域に変換され、ヒルベルト変換により解析信号が導き出される。これら二つの処理ステップは、各バンドパス信号に関する片面IDFTの計算により効率的に組み合わせることができる。最後に、信号はさらに振幅エンベロープと瞬間周波数(IF)トラックに分解され、それらは位相導関数を算出することによって得られ、望ましいAM及びFM信号を出力する(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号処理のための振幅・周波数変調ボコーダー」(デジタルオーディオ効果(DAFx)国際学会2008の会報参照)。
【0038】
図15は変更合成部1500を示し、オーディオ信号パラメータ化表示である。例えば、有利な実施は、変調領域、つまり時間領域バンドパス信号を生成する前の領域での重複計算(OLA)に基づくものである。入力信号はビットストリームであってもよく、またアナライザや変更子に直接接続されていてもよいものであるが、この入力信号はAM成分1502とFM成分1504と搬送波周波数成分1506とに分けられる。AM合成部は好ましくは重複加算器1510とさらに成分合成制御部1520とを含む。この成分合成制御部1520は、ブロック1510だけでなく、FM合成部内の重複加算器であるブロック1530をも含むことが好ましい。FM合成部はさらに、周波数重複加算器1530と瞬間周波数積分器1532と位相合成部1534とを含み、この位相合成部1534もまた、前のブロックからの一つの信号の位相が現在のブロックの位相に接続するように、ブロックからブロックへの定位相を再生するために成分合成制御部1520によって制御され得る一般的な加算器と移相器1536として実施されてもよい。従って、これらの部品1534,1536における位相加算は、アナライザ側の図13におけるブロック1520gでの微分の間に失われてしまった定数の再生に相当すると言える。感覚領域における情報損失の観点からは、これ、つまり、図13における微分部1320gによる定数部分の損失が唯一の情報損失である。この損失は、成分合成部1520によって決定される定位相を加算することによって補うことができる。
【0039】
重複加算(OLA)は、隣接する時間ブロック間のうなり作用を避けるために、容易に合成された信号よりもむしろパラメータ領域に適用される。OLAはスペクトルの周辺(ERBスケールで測定した)によって導かれ、現在のブロックの成分と前のブロックのこれら成分に相当するものとのペアごとの組み合わせを行う成分合成メカニズムによって制御される。また、この合成は現在のブロックの絶対成分移相を前のブロックのものに合わせる。
【0040】
詳しくは、まずFM信号が搬送波周波数に付加され、その結果はOLA段階に送られ、その後OLA段階の出力が積分される。その結果生じた位相信号は正弦波振動子1540に送られる。AM信号は第2OLA段階で処理される。最後に、その成分が出力信号1560へ付加的に寄与するように、振動子の出力が結果として生じたAM信号によって振幅変調される(1550)。
【0041】
変調解析における信号の適切なスペクトル区分は、その後の変調パラメータ処理において説得力のある結果を得るために最も重要なことである。従って、ここで、適切な区分アルゴリズムを説明する。
【0042】
図16は、多声キーモード変更のための適用例1600を示す。図16は変調ボコーダー素子の選択的な転置を示す。搬送波周波数は、適当なMIDI楽譜上にマッピングされるMIDI音符に量子化される。これらのマッピングされた成分をオリジナルと変更後の搬送波周波数との比で掛けることによって、相対的なFM変調が保たれる。
【0043】
元の再生スピードを保ちながらオーディオ信号の転置を行うことは、困難な課題である。ここで提案するシステムを使用すれば、全ての搬送波成分に一定の係数を掛けることで、この課題を簡単に達成できる。入力信号の時間的構造は完全にAM信号によって捕えられているので、搬送波のスペクトル間隔の引き伸ばしに影響を受けることはない。
【0044】
選択的な処理によって、もっと望ましい効果が得られる。一曲の音楽のキーモードを、例えばマイナーからメジャーにまたはその逆に変更可能である。従って、ある既定の周波数間隔に相当する搬送波の一部のみが適当な新しい値にマッピングされる。これを達成するために、搬送波周波数はMIDIピッチに量子化され(1670)、その後、(処理されるべき音楽のモードとキーの先験的な知識を使用して)適当な新しいMIDIピッチ上にマッピングされる(1672)。
【0045】
そして、マッピングされたMIDI音符は、合成に使用される変調搬送波周波数を得るために、元に戻すように変換される(1574)。時間的特徴は主に変更されていないAMによって表され保持されているので、一つのMIDI音符の発現と消失だけを検知するための専用素子は必要ではない。任意のマッピング表が規定され、これにより他のマイナーの趣(例えばハーモニックマイナー)からのまたはそれへの変換が可能となる。
【0046】
オーディオ効果の分野への応用は、オーディオ信号の全体的な転置である。このオーディオ効果に必要な処理は、搬送波を一定の転置係数で掛けることだけである。さらにFM信号をも同じ係数で掛けることにより、各成分において、相対的なFM変調度が確実に保持される。入力信号の時間的構造は完全にAM信号によって捕えられているので、この処理によって影響を受けることはない。全体的な転置は、元のテンポを保ちながら、音楽信号の元のキーを目標とするキーに(例えばCメジャーからGメジャーへ)変更する。
【0047】
しかし、ここで提案する変調解析は信号適応性を有するので、変調ボコーダーはこの課題以上のことを行う可能性がある。今や、倍音音楽の選択された成分の転置でさえ実現可能となり、例えば与えられた音楽信号のキーモードを変更する(例えばCメジャーからCマイナーへ)ための応用が可能となる(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報参照)。これは、各成分搬送波がそのスペクトル領域での知覚されるピッチに密接に対応しているという事実により、可能である。あるオリジナルのピッチに関連する搬送波だけを新しく目標とする値に置き換えることで、キーモードによって決定される全体的な音楽的特徴を操作できる。
【0048】
前述したように、MODVOC成分に関する必要な処理が図16に示されている。MODVOC解析領域内において、搬送波周波数はMIDI音符に量子化され、それらはその後相当するMIDI楽譜上にマッピングされる。ミディのピッチと音符名の意味のある配置転換のためには、オリジナルの音楽のモードとキーの先験的知識が必要となる場合がある。いかなるAMもピッチ情報をまったく含まないので、いかなる成分のAMも全く影響を及ぼさない。
【0049】
特に、成分の搬送波周波数fはその成分のピッチを表しているが、式(6)に基づき、MIDIピッチ値mに変換される。式(6)において、fstdはMIDIピッチ69、音符A0に相当する標準ピッチを示す。
【0050】
【数7】
【0051】
続いて、MIDIピッチはMIDI音符n(f)に量子化され、さらに、各音符のピッチの補正値o(f)が決定される。キーとオリジナルのモードと目標とするモードに応じたMIDI音符マッピング表を使用することで、これらのMIDI音符は適切な目標とする値n’に変換される。下記表に、Cのキーをメジャーからナチュラルマイナーに変換するためのマッピングの典型例を示す。この表は、CメジャーからCナチュラルマイナーへのスケールモード変換のためのMIDI音符マッピング表である。このマッピングは全オクターブの音符に適用される。
【0052】
【表1】
【0053】
最後に、合成(式7)に使用される変更後の搬送波周波数を得るために、ピッチ補正値を含むマッピングされたMIDI音符は周波数f’に戻るように変換される。また、相対的なFM変調度を保つために、マッピングされた成分のFMに、オリジナルと変更後の搬送波周波数の比として得られる個々のピッチ転置係数を掛ける。時間的特徴は主に変更されていないAMによって表され保持されているので、一つのMIDI音符の発現と消失だけを検知するための専用素子は必要ではない。
【0054】
上述した変調ボコーダーは、オーディオ信号の異なる周波数領域(バンドパス信号)を別々に変更するための一つの可能性であり、選択的なピッチ転置として説明した。本発明の概念により、このような変更後のオーディオ信号の感覚的質を高めることが可能になる。本発明のいくつかの実施形態はボコーダーまたは変調ボコーダーに関して説明しているが、本発明は、ボコーダーの使用とは関係なく、変更後のオーディオ信号の感覚的質を向上させるために広く使用されてもよい。
【0055】
図1は、本発明の一実施形態に係る、オーディオ信号102を変更するための装置100のブロック図である。装置100は、フィルターバンク処理部110、基音決定部120、倍音決定部130、信号処理部140、及び合成部150を含む。フィルターバンク処理部110は基音決定部120と倍音決定部130と信号処理部140とに接続され、基音決定部120は基音決定部120と倍音決定部130とに接続されている。さらに、倍音決定部130は信号処理部140に接続され、信号処理部140は合成部150に接続されている。フィルターバンク処理部110は、オーディオ信号102に基づき複数のバンドパス信号112を生成する。さらに、基音決定部120は、基音バンドパス信号122を得るために、複数のバンドパス信号から一つのバンドパス信号112を選択する。倍音決定部130は、選択された基音バンドパス信号122に関連する倍音バンドパス信号132を得るために、複数のバンドパス信号112のうちから、選択された基音バンドパス信号122に関する倍音基準を満たす一つのバンドパス信号を識別する。さらに、信号処理部140は、既定の変更目標に基づき、選択された基音バンドパス信号122を変更する。また、信号処理部140は、選択された基音バンドパス信号122の変更に応じて、選択された基音バンドパス信号122に関連して識別された倍音バンドパス信号132を変更する。合成部150は、変更後のオーディオ信号152を得るために、選択・変更された基音バンドパス信号と識別・変更された倍音バンドパス信号を含む複数のバンドパス信号を合成する。
【0056】
基音バンドパス信号122と基音バンドパス信号122に関連して識別された倍音バンドパス信号132を同じように変更することにより(複数のバンドパス信号のうちの他のものは異なる方法で変更してもよいが)、これらの倍音の一般的なふるまいが保持され得る。これにより、オリジナルのオーディオ信号102の音色がより正確に保持され、変更後のオーディオ信号の感覚的質が大きく向上される。例えば、ほとんどの楽器は、一つの基本周波数とその倍音から成る調和した音を発生させる。基本周波数部分が変更される場合、上述した概念に基づく倍音同士の相関性のある変更が、変更後のオーディオ信号の感覚的質を非常に向上させる結果となり得る。さらに、全てのオーディオ信号に関する先験的情報(例えば全ての多声音楽のタイトル)を必ずしも必要とはしないので、オーディオ信号はリアルタイムで変更できる。
【0057】
オーディオ信号102は、例えば時間領域入力オーディオ信号、または時間領域入力オーディオ信号を表す周波数領域入力オーディオ信号であってもよい。
【0058】
基音決定部120は、選択された基音バンドパス信号122を変更のために信号処理部140に送ってもよいし、あるいは、信号処理部140に複数のバンドパス信号から選択されたバンドパス信号の既定の変更目標に応じた変更を開始させるように、トリガー信号122(例えば選択された基音バンドパス信号の指標i∈[0…I−1](Iは複数のバンドパス信号の個数))を送ってもよい。倍音決定部130もまた、識別された倍音バンドパス信号132を変更のために信号処理部140に送ってもよいし、あるいは、信号処理部140に複数のバンドパス信号から識別されたバンドパス信号の変更を開始させるように、トリガー信号132(例えば複数のバンドパス信号から倍音バンドパス信号として識別されたバンドパス信号の指標)を送ってもよい。
【0059】
倍音基準は、基音の倍音を識別するための一つまたはそれ以上の規定を含んでいてもよい。複数のバンドパス信号から選択された基音バンドパス信号122の倍音として識別するのに満たされるべき倍音基準は一つまたはそれ以上存在し得る。
【0060】
既定の変更目標は、異なる周波数域を含むバンドパス信号ごとに異なっていてもよいし、また、要求されているオーディオ信号102の変更に応じたものであってもよい。例えば、オーディオ信号の元のキーが目標のキーに変更される場合を考える。Cのキーをメジャーからナチュラルマイナーへ変更するために、上記表によるマッピングの典型例が挙げられた。例えば、複数のバンドパス信号のうちの一つのバンドパス信号の周波数域がオリジナルの音符Cに相当する場合、目標音符もまたCであり、このバンドパス信号は変更されない(変更された基音バンドパス信号に関連する倍音バンドパス信号であると認識される場合は除いて)。この場合、変更目標は、このバンドパス信号を変更しないままで保つことである。他方、複数のバンドパス信号のうち、オリジナルの音符Aと相関関係のある周波数域を含む一つのバンドパス信号は変更され、変更後のバンドパス信号は目標音符A♭と相関関係のある周波数域を含み得る(この場合を除いて、バンドパス信号は、別の変更目標に応じて変更されるべき基音バンドパス信号の倍音バンドパス信号として認識される)。さらに、識別された倍音バンドパス信号(オリジナルの音符Aの倍音と相関関係のある周波数域を含むバンドパス信号)は、変更後の倍音バンドパス信号が目標音符A♭の倍音と相関関係のある周波数域を含むように変更され得る。
【0061】
複数のバンドパス信号112の全てが搬送波周波数を含んでいてもよい。搬送波周波数は、例えばバンドパス信号の周波数域の中心周波数、周波数域の上部カットオフ周波数、周波数域の下部カットオフ周波数または周波数域の重心として一つのバンドパス信号によって表されるかまたはバンドパス信号に含まれる周波数域の特性周波数であってもよい。バンドパス信号の搬送波周波数は、バンドパス信号ごとに互いに異なっていてもよい。これらの搬送波周波数は、倍音バンドパス信号を識別するために倍音決定部130によって使用されてもよい。例えば、倍音決定部130は、複数のバンドパス信号のうちの一つのバンドパス信号112の搬送波周波数を、選択された基音バンドパス信号122の搬送波周波数と比較してもよい。倍音は基音の周波数の大体倍数であるので、あるバンドパス信号112の搬送波周波数が選択された基音バンドパス信号122の倍数であるならば(例えば100Hz、50Hz、20Hzまたはそれ以下の既定の搬送波周波数の許容範囲で)、倍音基準が満たされていることになる。換言すれば、倍音基準は、例えば、バンドパス信号112の搬送波周波数が既定の搬送波周波数の許容範囲内で選択された基音バンドパス信号122の倍数であることであってもよい。
【0062】
倍音決定部130は付加的にまたは選択的に、複数のうちの一つのバンドパス信号112のエネルギー量を、選択された基音バンドパス信号122のエネルギー量と比較してもよい。この例では、バンドパス信号112のエネルギー量の選択された基音バンドパス信号122のエネルギー量に対する比が規定のエネルギー許容範囲内であるならば、倍音基準が満たされたことになる。この倍音基準は、倍音は通常基音よりも低いエネルギーを示すことを考慮に入れている。既定のエネルギー許容範囲は、例えば0.3〜0.9、0.5〜0.8、0.6〜0.7または他の範囲であってもよい。このエネルギー量に基づく倍音基準と、上述の搬送波周波数に基づく倍音基準とを組み合わせてもよい。
【0063】
倍音決定部130は付加的にまたは選択的に、複数のうちの一つのバンドパス信号112の時間的エンベロープと、選択された基音バンドパス信号122の時間的エンベロープとの相関関係を示す相関値を算出してもよい。この場合、この相関値が既定の相関閾値よりも高ければ、倍音基準を満たしていることになる。この倍音基準は、基音とその倍音は類似の時間的エンベロープを共有しているという事実を考慮するものである。既定の相関閾値は、例えば0.2、0.3、0.4またはそれ以上であってもよい。このような相関関係による倍音基準は、前述の搬送周波数による倍音基準及び/またはエネルギー量による倍音基準と組み合わせてもよい。
【0064】
基音決定部120は、既に選択された基音バンドパス信号122と既に識別された倍音バンドパス信号132を全く考慮することなく、複数のバンドパス信号からさらに別のバンドパス信号112を選択してもよい。つまり、基音決定部120は、まだ基音バンドパス信号として選択されてもいないし倍音バンドパス信号132として識別されてもいないバンドパス信号を含む一組のバンドパス信号から、基音バンドパス信号を繰り返し洗濯してもよい。複数のバンドパス信号のうちの全てのバンドパス信号が、基音バンドパス信号として選択されるか、またはある基音バンドパス信号の倍音として識別されるまで、これが行われてもよい。それ故に、倍音決定部130は、既に識別された倍音バンドパス信号132と既に選択された基音バンドパス信号122を全く考慮することなく、前記さらに選択された基音バンドパス信号に関する倍音基準を満たすバンドパス信号112を複数のバンドパス信号から識別してもよい。
【0065】
さらに、信号処理部140は、前記さらに別の基音バンドパス信号122を、別の所定の変更目標に基づき、また他の全ての選択された基音バンドパス信号からは独立して変更してもよい。つまり、各基音バンドパス信号またはいくつかの選択された基音バンドパス信号に関して、別々の変更目標が設定されていてもよい。例えば、変更目標は、前述のような一つのキー音符から別のものへの変換を示す表によって規定されていてもよい。基音バンドパス信号は互いに独立して変更できるので、例えば、ある楽器の基音と倍音のみが選択的に、この楽器のキーモードまたは音量を変えるように変更されてもよい。
【0066】
基音決定部120は、バンドパス信号112をエネルギー基準に基づき選択してもよい。例えば、最大エネルギー量またはいくつかの最大エネルギー量のうちの一つを有する(例えば、他のバンドパス信号と比べて70%以上高い)バンドパス信号が選択されてもよい。この例では、選択されるべき基音バンドパス信号のエネルギー量を示すエネルギー量パラメータを0に設定することで、既に選択した基音バンドパス信号をその後の選択から排除することができる。バンドパス信号の選択に関して、感覚的に重要なバンドパス信号の選択を強調するために、各バンドパス信号のエネルギー量(例えば基音決定部によって決定されたエネルギー量パラメータによって示される)が重み付け(例えばA重み付け)されてもよい。
【0067】
信号処理部140は、選択された基音バンドパス信号132とそれに関連する倍音バンドパス信号132を、多様な方法で変更できる。例えば、信号処理部140は、選択された基音バンドパス信号122の搬送波周波数を転置係数(例えばキーモード変換に応じたもの)で掛けることで、あるいは選択された基音バンドパス信号122の搬送波周波数に転置周波数を加算することで、選択された基音バンドパス信号122を変更してもよい。さらに、信号処理部140は、識別された倍音バンドパス信号132の搬送波周波数を転置係数(例えば20%、10%、5%、1%またはそれ以下の許容範囲を有するもの)で掛けることで、あるいは識別された倍音バンドパス信号132の搬送波周波数に転置周波数の倍数(例えば20%、10%、5%、1%またはそれ以下の許容範囲を有するもの)を加算することで、識別された倍音バンドパス信号132を変更してもよい。換言すれば、例えば、基音とそれに関連する倍音を同じ転置係数で掛けることで、あるいは基音に転置周波数を加算し、その倍音にその転置周波数の倍数を加算することで、キーモード変換が達成され得る。このようにして、識別された倍音バンドパス信号132は、選択された基音バンドパス信号122に応じて(基音バンドパス信号122と同じ方法で)変更される。
【0068】
図2は、本発明の一実施形態に係る、オーディオ信号102を変更するための装置200のブロック図である。この装置200は図1に示した装置と同様のものであるが、搬送波周波数決定部260をさらに含むものである。また、フィルターバンク処理部110は、フィルターバンク212と信号変換器214とを含んでいる。フィルターバンク212は信号変換器214に接続され、信号変換器214は信号処理部140に接続されている。この任意の搬送周波数決定部260は、フィルターバンク処理部110のフィルターバンク212と信号処理部140とに接続されている。
【0069】
フィルターバンク212はオーディオ信号102に基づきバンドパス信号を生成してもよく、信号変換器214は、基音決定部120、倍音決定部130及び信号処理部140に送るべき複数のバンドパス信号を得るために、この生成されたバンドパス信号をサブバンド領域に変換してもよい。信号変換器214は、例えば片側逆転離散フーリエ変換ユニットとして実施してもよく、これにより複数のバンドパス信号122のうちのそれぞれが解析信号を示すことになる。このサブバンド領域において、基音決定部120は、基音バンドパス信号122を得るために、複数のバンドパス信号からこれらのサブバンド領域バンドパス信号のうちの一つを選択してもよい。さらに、倍音決定部130は、複数のバンドパス信号からこれらのサブバンド領域バンドパス信号のうちの一つを識別してもよい。
【0070】
さらに、搬送波周波数決定部260はオーディオ信号102に基づき複数の搬送波周波数を決定してもよく、フィルターバンク処理部110のフィルターバンク212はバンドパス信号を生成してもよい。そして、複数の搬送波周波数のそれぞれ262に関連するバンドパス信号を得るために、各バンドパス信号は複数の搬送波周波数のうちの別の搬送波周波数262を含む周波数域を含む。つまり、フィルターバンク212によって生成されたバンドパス信号の帯域幅と中心周波数は搬送波周波数決定部260によって制御されてもよい。これは多様な方法で行うことができ、例えば、前述のように、オーディオ信号102の重心(COG)を算出することにより行ってもよい。
【0071】
既に述べたように、バンドパス信号112は様々な方法で変更可能である。例えば、信号処理部140は、複数のバンドパス信号の各バンドパス信号112に関して振幅変調信号(AM)と周波数変調信号(FM)を生成してもよい。各バンドパス信号はサブバンド領域の解析信号であるので、信号処理部140は、例えば変調ボコーダーに関連して、前述のような振幅変調信号と周波数変調信号を生成してもよい。さらに、信号処理部140は、選択された基音バンドパス信号122の振幅変調信号または周波数変調信号を既定の変更目標に基づき変更してもよく、また識別された倍音バンドパス信号132の振幅変調信号または周波数変調信号を基音バンドパス信号122の変更に応じて変更してもよい。
【0072】
フィルターバンク処理部110、基音決定部120、倍音決定部130、信号処理部140、結合部150及び/または周波数決定部260は、例えば、それぞれ個別のハードウェアユニットあるいはデジタル信号処理装置、コンピュータまたはマイクロコントローラの一部であってもよく、またデジタル信号処理装置、コンピュータまたはマイクロコントローラ上で動作するよう構成されたコンピュータプログラムまたはソフトウェア製品の一部であってもよい。
【0073】
本発明に係るいくつかの実施形態は、本発明に係るオーディオ信号変更方法300に関するものである。この方法300は、基音バンドパス信号を得るために、オーディオ信号に基づき複数のバンドパス信号を生成すること310と、複数のバンドパス信号から一つのバンドパス信号を選択すること320とを含んでいてもよい。さらに、方法300は、選択された基音バンドパス信号122に関連する倍音バンドパス信号を得るために、複数のバンドパス信号から、選択された基音バンドパス信号に関する倍音基準を満たす一つのバンドパス信号を識別すること330を含んでいてもよい。さらに、選択された基音バンドパス信号は既定の変更目標に基づき変更され(340)、識別された倍音バンドパス信号は、前記選択された基音バンドパス信号の変更に応じて変更される(350)。さらに、方法300は、変更後のオーディオ信号を得るために、選択及び変更された基音バンドパス信号と識別及び変更された倍音バンドパス信号とを含む複数のバンドパス信号を結合すること360を含んでいてもよい。
【0074】
方法300は、上述のまたは以下に説明する本発明の概念の任意の特徴を表す付加的なステップをさらに含んでいてもよい。
【0075】
以下に、変調ボコーダーを使用した実施例を挙げて上述の概念を詳細に説明するが、ここで提案する概念はもっと一般的に他の実施形態にも使用できる。
【0076】
ほとんどの楽器は、基音周波数部分と、その基音周波数の約整数倍である倍音とから成る調和音を発生させる。音程は対数尺度に従うので、それぞれの倍音は異なる音程と基音(及びそのオクターブ)に関して共通点がある。下記の表は、最初の7つの倍音に関して倍音番号と音程の対応を示している。
【0077】
下記の表に、基音とそのオクターブに関する倍音番号と音程を示す。
【0078】
【表2】
【0079】
課題が多声音楽の選択的な転置である場合、MODVOC成分の音楽的機能に関して特有の曖昧さが存在する。その成分が基音に由来する場合、望ましいスケールマッピングに応じて転置されなければならず、それが基音に起因する倍音によって特徴付けられている場合、その音の音色を最良に保持するためにはこの基音と共に転置されなければならない。このことから、最適な転置係数を選択するために、それぞれのMODVOC成分(バンドパス信号)を割り当てる必要性が出てくる。
【0080】
これを達成するために、上述した簡単な処理方法が倍音ロッキング機能によって拡大された。倍音ロッキングは、全ての成分に関して、転置の前に、各成分(バンドパス信号)が基音に起因するものであるかまたは独立した構成要素と見なすべきものであるかについて調べる。これは反復的なアルゴリズムによって行われる。このアルゴリズムのフローチャートを図5に示す。このアルゴリズムは、510において、一つのテスト成分t(基音バンドパス信号)のiE[0…I−1]/t(Iは成分の総数(複数のバンドパス信号の数)を示す)で示される他の全ての成分(バンドパス信号)に対する周波数比、エネルギー比及びエンベロープの相互相関を評価する。反復の間の520において、一連のテスト成分(基音バンドパス信号)は、評価順序がエネルギーが小さくなっていく順番になるように、A重み付けされたエネルギーによって決定される。A重み付け(米国規格協会「アンシ規格 sl.4−1983」1983年)、(米国規格協会「アンシ規格 sl.42−2001」2001年)は、音量に関して各成分の感覚的な隆起を具現化するために応用される(例えば、H.フレッチャー(Fletcher)とW.A.マンソン(Munson)による「音量、その定義、測定及び算出」米国音響教会、第5巻、82~108ページ、1933年参照)。
【0081】
倍音搬送波周波数の一致、倍音搬送波周波数の不一致、成分のエネルギー及び/またはゼロ遅延での正規化振幅エンベロープ相関関係が閾値化によって調べられてもよい。
【0082】
周波数の一致及び不一致は以下の式(8)に基づき規定されてもよい。式(8)において、ftはテスト成分の搬送波周波数(選択された基音バンドパス信号の搬送波周波数)、fiは指標iの成分(複数のバンドパス信号のうちの一つ)である。周波数の一致に関して、1よりも大きいすべての倍数が潜在的な倍音である。潜在的な倍音として許容される周波数の不一致のための適切な閾値(搬送波周波数閾値)は例えば22Hzである。
【0083】
【数8】
【0084】
A重み付けされた成分の倍音の基音に対するエネルギー比(式(9))は、ほとんどの楽器に関して、倍音は基音よりも低いエネルギーを有するという事実を反映して、所定の閾値よりも小さいことを必要条件としてもよい。適切な閾値(エネルギー許容範囲)は、例えば比で0.6である。
【0085】
【数9】
【0086】
テスト成分のエンベロープenvtと指標iの成分のエンベロープenviとの正規化ゼロ遅延振幅エンベロープ相関関係は式(10)によって定義される。この方策は、一つの基音とその倍音は、M以内のブロック長でかなり類似の時間的エンベロープを共有しているという事実を利用するものである。適切な閾値(相関閾値)は、非公式の実験によって0.4と決定された。
【0087】
【数10】
【0088】
調査の結果、570で全ての閾値条件を満たした全ての成分iは、580で、そのテスト成分に関して倍音として分類され、その後調査から除外される。次に、そのテスト成分も、542でそのエネルギーを0に設定することにより、その後の反復処理から除外される。このアルゴリズムは、全ての成分が割り当てられるまで、つまり、最大の成分エネルギーがゼロで示されるようになるまで繰り返される。
【0089】
図4は、倍音ロッキングを含むMODVOCによる選択的転置の改良処理スキームを示す。図16とは対照的に、ロックされた成分が第2段階でそれらが帰属する基音に用いられたのと同じ転置係数で変更されている間に、ロックされていない成分だけが転置段階に入ってくる。
【0090】
つまり、図5は上述の倍音ロッキング(オーディオ信号変更方法500)のフローチャートを示している。テスト基音(選択された基音バンドパス信号)の倍音の条件に一致する成分が繰り返し分類され、サーチ範囲から除かれる。このために、複数のバンドパス信号のそれぞれは搬送波周波数とエネルギー量と時間的エンベロープを持っているか、あるいは510で、複数のバンドパス信号のそれぞれに関して、搬送波周波数、エネルギー量及び/または時間的エンベロープ(時間的エンベロープパラメータ)が決定される。さらに、各バンドパス信号のエネルギー量(エネルギー量パラメータ)は520でA重み付けされる。そして530で、最大エネルギー(最大エネルギー量パラメータ)を有する基音バンドパス信号(テスト基音ft)が選択される。既に選択された基音バンドパス信号は全て0にセットされ、既に識別された倍音バンドパス信号は全てサーチ範囲から除外されているので、選択された基音バンドパス信号は0に等しいエネルギー量パラメータを有している可能性があり、この時点でこの反復的なアルゴリズムは終了する(540)。そうでなければ、560で、選択された基音バンドパス信号と複数のバンドパス信号のうちの残りのものとの周波数の一致(または不一致)、エネルギー量及び/または時間的エンベロープの相関関係を比較する。570で一つまたはいくつかあるいは全ての条件(倍音基準)が満たされた場合、580で、それら各々のバンドパス信号は倍音バンドパス信号として識別され、この識別された倍音バンドパス信号をサーチ範囲から除外すると共に、倍音ロッキングデータを生成してもよい(例えば、倍音リストに識別されたバンドパス信号の指標を記録する)。この倍音ロッキングデータは、590で、選択された基音バンドパス信号と関連して保存されてもよい。選択された基音バンドパス信号の全ての倍音バンドパス信号を識別した後、592で、選択された基音バンドパス信号のエネルギー(エネルギー量パラメータ)を0にセットし、530で、次の基音バンドパス信号として最大エネルギーを有するものを選択する。
【0091】
信号処理部は、バンドパス信号の変更のために倍音ロッキングデータを使用してもよい。可能な実施例を図4に示す。この例では、例えば、信号処理部はMIDIマッパー1600と倍音変更器400を含む。MIDIマッパー1600は、それぞれの選択された基音バンドパス信号の搬送波周波数を、個々の変更目標に応じて変更する(基音が変更されない場合も含み得る)。MIDIマッパー1600は、例えば図16に示すように実施されてもよい。倍音変更器400は倍音変更コントローラ410、倍音乗算器420及び倍音変更供給器430を含んでいてもよい。倍音変更コントローラ410は倍音乗算器420と倍音変更供給器430とに接続されていてもよく、倍音乗算器420は倍音変更供給器430に接続されていてもよい。倍音乗算器420は、識別された倍音バンドパス信号の搬送波周波数fに、関連する基音バンドパス信号に掛けられたものと同じ転置係数(前述の許容範囲を有する)を掛けてもよく、倍音変更供給器430に変更後の搬送波周波数f’を送る。倍音変更器400が識別された倍音バンドパス信号の搬送波周波数を認識した場合(例えば倍音ロッキングデータに基づき)、倍音変更コントローラ410は倍音変更供給器430に対して、識別された倍音バンドパス信号の変更後の搬送波周波数を供給するよう始動させてもよい。そうでなければ、倍音変更供給器430はMIDIマッパー1600の出力を供給してもよい。さらに、図4はここで提案する概念のボコーダーでの実施を示し、バンドパス信号の搬送波周波数に加えて、それに対応する周波数変調(FM)信号も、変更前の搬送波周波数と変更後の搬送波周波数との比で掛けられることで変更される。周波数変調の代わりにまたは周波数変調に加えて、オーディオ信号の音量がバンドパス信号選択的に変更されてもよい。このために、バンドパス信号の振幅変調(AM)信号が変更されてもよい。
【0092】
つまり、図4は、倍音ロッキングを使用した(識別された倍音バンドパス信号をそれに関連する基音バンドパス信号の変更に応じて変更する)変調ボコーダー成分(バンドパス信号)の改良された選択的転置を示すものである。ロックされていない搬送波周波数(基音バンドパス信号であり得る)のみがMIDI音符に量子化され、適切な対応するMIDI楽譜上にマッピングされる(それぞれの変更目標に応じて)。ロックされた成分(識別された倍音バンドパス信号)は、帰属の基音(関連する基音バンドパス信号)の元の搬送波周波数と変更後の搬送波周波数との比で掛けることによって転置されてもよい。
【0093】
図6Aは、本発明の一実施形態に係るオーディオ信号変更装置600のブロック図である。この装置600は、エンベロープ形状決定部610、フィルターバンク処理部620、信号処理部630、結合部640及びエンベロープ成形部650を含む。エンベロープ形状決定部610はエンベロープ成形部650に接続され、フィルターバンク処理部620は信号処理部630に接続され、信号処理部630は結合部640に接続され、結合部640はエンベロープ成形部650に接続されている。エンベロープ形状決定部610は、時間領域入力オーディオ信号を表す周波数領域オーディオ信号602に基づき、エンベロープ形状係数612を決定する。さらに、フィルターバンク処理部620は、周波数領域オーディオ信号602に基づき、サブバンド領域の複数のバンドパス信号622を生成する。信号処理部630は、所定の変更目標に基づき、複数のサブバンド領域バンドパス信号のうちの一つ622を変更する。さらに、結合部640は、時間領域オーディオ信号642を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部(例えば変更後のサブバンド領域バンドパス信号を含む)を結合する。エンベロープ成形部650は、成形されたオーディオ信号652を得るために、時間領域オーディオ信号642のエンベロープをエンベロープ形状係数612に基づき成形する。
【0094】
あるいは、エンベロープ成形部650は、信号処理部630と結合部640の間に配置されていてもよく(信号処理部630はエンベロープ成形部650に接続され、エンベロープ成形部650は結合部640に接続される)、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープを、エンベロープ形状係数612に基づき成形してもよい。
【0095】
オーディオ信号を処理する前にエンベロープ形状係数612を抽出し、一つまたはそれ以上のバンドパス信号を変更した後にそのエンベロープ形状係数612を使用してオーディオ信号のエンベロープを成形することにより、違う方法で変更されたバンドパス信号のスペクトルのコヒーレンスがより正確に保たれ得る。さらに、過渡信号に関して、時間とともに広がる量子化ノイズもエンベロープ成形部650によって成形し得る。このようにして、変更後のオーディオ信号の感覚的質をかなり向上することができる。さらに、オーディオ信号全体に関する先験的な情報(例えば多声音楽の全体のタイトル)は必要ではないので、オーディオ信号のリアルタイムの変更が可能である。
【0096】
また別の方法として、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620の間に配置されてもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0097】
オーディオ信号を処理する前にエンベロープ形状係数612を抽出し、フィルターバンク処理部620によって複数のバンドパス信号622がサブバンド領域で生成された後にそのエンベロープ形状係数612を使用してその複数のバンドパス信号622のエンベロープを成形することにより、適応フィルターバンクが実現でき、特に過渡信号に関して局所的なコヒーレンスを向上させることができる(例えば、J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「感覚的高品質オーディオコーディングのための断続的信号適応フィルターバンク」(信号処理のオーディオ及び音響への応用に関するIEEEのASSPワークショップ、モーホンク、1997年)を参照)。この場合、変更後の信号(変更後のバンドパス信号)が成形されるのではなく、変更の前に、生成されたバンドパス信号の質が過渡信号の再生という点で向上され得る。
【0098】
周波数領域オーディオ信号602は、例えば、時間領域入力信号に基づき(例えば離散フーリエ変換によって)周波数領域オーディオ信号602を生成する前処理部から与えられてもよいし、記憶ユニットから与えられてもよい。エンベロープ形状決定部10によって決定されるエンベロープ形状係数612は、例えば、線形予測係数であるかまたは周波数領域オーディオ信号602のスペクトルをパラメータ化する他の係数であってもよい。
【0099】
信号処理部630は、複数のサブバンド領域バンドパス信号のうちの一つ、一部または全部の信号622を変更可能である。所定の変更目標は、例えば全部のサブバンド領域バンドパス信号に対する場合と一部のサブバンド領域バンドパス信号に対する場合とで異なる。例えば、オーディオ信号のキーモードを変換するためのサブバンド領域バンドパス信号の所定の変更目標は、上記の表を参照して前述したようなものであってもよい。
【0100】
周波数領域オーディオ信号602は、例えばフーリエ変換で得られるスペクトル線を含んでいてもよい。周波数領域オーディオ信号のスペクトル線(バンドパス信号とみなすこともできる)とフィルターバンク処理部620によって生成されるバンドパス信号との違いは、周波数領域オーディオ信号のスペクトル線は、フィルターバンク処理部620によって生成されるサブバンド領域バンドパス信号によって表される帯域幅よりも狭い帯域幅を表すということである。例えば、周波数領域オーディオ信号602は離散フーリエ変換によって得られる周波数スペクトルを示しているが、それはフィルターバンク処理部620によって複数のバンドパス信号に分解される。そして、この複数のバンドパス信号の信号数(例えば10、16、20またはそれ以上)は、周波数スペクトルのスペクトル値の個数またはスペクトル線の個数(例えば512個またはそれ以上の個数のスペクトル値)よりも非常に少ない。
【0101】
エンベロープ形状決定部610は周波数領域オーディオ信号602の周波数に関する予測に基づきエンベロープ形状係数を決定するが、これは例えば前述したような線形予測係数の決定により実行されてもよい。
【0102】
フィルターバンク処理部620は複数のバンドパス信号を出力するが、これらの各バンドパス信号622は周波数領域オーディオ信号602の特定の周波数領域を表すものであってもよい。あるいは、図7に示すように、フィルターバンク処理部620は、予測フィルター710と信号減算器720とフィルターバンク730とを含み、残余オーディオ信号722に基づき複数のバンドパス信号622を得るためのものであってもよい。このために、予測フィルター710は周波数領域オーディオ信号602とエンベロープ形状係数612に基づき予測オーディオ信号712を生成してもよい。さらに、信号減算器720は周波数領域オーディオ信号602から予測オーディオ信号712を差し引いて残余オーディオ信号722を得てもよい。複数のバンドパス信号を得るために、この残余オーディオ信号722は、フィルターバンク730がバンドパス信号を生成するのに使用されてもよい。
【0103】
さらに、フィルターバンク処理部620は任意の信号変換器を含んでいてもよい。この信号変換器(例えば片側逆転離散フーリエ変換器)は、複数のバンドパス信号622を得るために、フィルターバンク730によって生成されたバンドパス信号をサブバンド領域に変換してもよい。あるいは、この信号変換器は信号処理部630の一部であってもよい。
【0104】
本発明に係るいくつかの実施形態において、変更後のオーディオ信号の低周波部分でのアーチファクト生成を避けるために、入力オーディオ信号の低周波部分を変更から除外してもよい。このために、オーディオ信号変更装置680は、例えば図6Bに示すように、高域/低域フィルターを含んでいてもよい。高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域フィルタリングし、そして、エンベロープ形状決定部610は高域周波数領域オーディオ信号602に基づきエンベロープ形状係数612を決定し、フィルターバンク処理部620は高域周波数領域オーディオ信号602に基づきサブバンド領域の複数のバンドパス信号を生成する。さらに、高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を低域フィルタリングし、低域オーディオ信号662を得る。さらに、装置680は、フルバンドオーディオ信号を得るために、成形されたオーディオ信号652と低域オーディオ信号662を結合するように構成されたフルバンド信号供給器670を備えている。つまり、高域/低域フィルター660は、時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域オーディオ信号と低域オーディオ信号とに分けるものであってもよい。高域オーディオ信号あるいは高域オーディオ信号の周波数領域表示が、エンベロープ形状決定部610及びフィルターバンク処理部620に与えられてもよい。これは、高域/低域フィルタリングが時間領域で実施され、続いて信号処理部が高域オーディオ信号に基づき周波数領域オーディオ信号を生成するのか、あるいは高域/低域フィルターが時間領域入力信号を表す周波数領域オーディオ信号を既に受信して、高域/低域フィルタリングを周波数領域で実施するのかによって、決定される。
【0105】
高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号をフィルタリングし、その結果、低域オーディオ信号は所定の閾値周波数(例えば100Hzまたはそれ以上)までの周波数を含むことになる。従って、高域オーディオ信号は閾値周波数以上の周波数を含む。つまり、低域オーディオ信号662を供給するためには、所定の閾値周波数よりも高い周波数が高域/低域フィルター660によって減衰され、高域オーディオ信号を供給するためには、所定の閾値周波数よりも低い周波数が高域/低域フィルター660によって減衰され得る。
【0106】
別の例においては、図6Cに示すように、エンベロープ成形部650が信号処理部630と結合部640の間に配置されている。この場合、高域/低域フィルター660は低域オーディオ信号を結合部640に送る。結合部640は、時間領域入力信号642を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号を結合する。この場合、エンベロープ成形部650は、(例えば各サブバンド領域バンドパス信号の一部である周波数域に相当する)各サブバンド領域バンドパス信号に関して、エンベロープ形状係数612に基づき(例えば係数変換器810によって)一組のバンドパスエンベロープ形状係数を決定してもよい。そして、例えば、サブバンド領域バンドパス信号の各時間サンプルに、対応する一組のエンベロープ形状係数のうちの一つのバンドパスエンベロープ形状係数を掛けることができる。例えば図15に示すボコーダーの例において、エンベロープ成形部650は乗算器1550と結合部1560との間に配置してもよい。
【0107】
さらに別の例において、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620との間に配置してもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0108】
本発明に係るいくつかの実施形態において、変更後のオーディオ信号の低周波部分でのアーチファクト生成を避けるために、入力オーディオ信号の低周波部分をエンビロープ成形から除外してもよい。このために、オーディオ信号変更装置680は、例えば図6Dに示すように、高域/低域フィルターを含んでいてもよい。高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域フィルタリングする。さらに、高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を低域フィルタリングし、低域オーディオ信号662を得る。エンベロープ形状決定部610は、高域周波数領域オーディオ信号602に基づき、低域オーディオ信号622を考慮することなく、エンベロープ形状係数612を決定する。フィルターバンク処理部620は、高域周波数領域オーディオ信号602と低周波域オーディオ信号622に基づき、サブバンド領域の複数のバンドパス信号622を生成する。例えば図7に示すように、予測フィルターが使用されている場合には、高域残余オーディオ信号を得るために、高域周波数領域オーディオ信号602のみが予測フィルターと信号減算器に与えられる。低域オーディオ信号622は、サブバンド領域バンドパス信号を生成するフィルターバンクに直接与えられてもよい。信号処理部630は、高域周波数領域オーディオ信号602または低域オーディオ信号622に相当するサブバンド領域バンドパス信号を変更してもよい。あるいは、信号処理部630は、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号と低域オーディオ信号622に相当するサブバンド領域バンドパス信号を変更してもよい。結合部640は高周波域オーディオ信号602に相当するサブバンド領域バンドパス信号のみを結合してもよく、その結果、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号のみがエンベロープ成形部650によって成形されてもよい(低域オーディオ信号622に相当するサブバンド領域バンドパス信号は成形されない)。
【0109】
さらに、装置680は、フルバンドオーディオ信号を得るために、成形されたオーディオ信号652と低域オーディオ信号662に相当するサブバンド領域バンドパス信号を結合するよう構成されたフルバンド信号供給器670を含む。このために、信号処理部630はフルバンド信号供給器670に、低域オーディオ信号662に相当するサブバンド領域バンドパス信号を与えてもよい。
【0110】
別の例では、エンベロープ成形部650は信号処理部630と結合部640の間に配置されている。この場合、信号処理部630は結合部640に、低域オーディオ信号662に相当するサブバンド領域バンドパス信号を与えてもよい。結合部640は、時間領域オーディオ信号を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号(低域オーディオ信号662に相当するサブバンド領域バンドパス信号及び高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号)を結合する。この場合、エンベロープ成形部650は、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号の(例えば各サブバンド領域バンドパス信号の一部である周波数域に相当する)各サブバンド領域バンドパス信号に関して、エンベロープ形状係数612に基づき(例えば係数変換器810によって)一組のバンドパスエンベロープ形状係数を決定してもよい。そして、例えば、サブバンド領域バンドパス信号の各時間サンプルに、対応する一組のエンベロープ形状係数のうちの一つのバンドパスエンベロープ形状係数を掛けることができる。例えば図15に示すボコーダーの例において、エンベロープ成形部650は乗算器1550と結合部1560との間に配置してもよい。
【0111】
さらに別の例では、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620の間に配置されていてもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0112】
このようにして入力オーディオ信号の低周波部はエンベロープ成形から除外されてもよい。しかし、この低周波部は他の処理には(例えばサブバンド領域バンドパス信号の変更)送られる。さらに、予測フィルター(例えば図7に示すようなもの)は所定の閾値周波数よりも高いものだけに適用されてもよい。あるいは、高域/低域分離が既に解析側で行われている場合、高域信号のエンベロープはエンベロープ形状係数の逆数により時間領域で変更してもよい。例えば選択的転置のための適用において、AMは変更されなくてもよいので、上記の配置は処理後の配置と同じ結果をもたらす。
【0113】
本発明の一側面によると、エンベロープ成形部650は周波数領域オーディオ信号602のエネルギー量EFDASと残余オーディオ信号722のエネルギー量ERASとのエネルギー比を決定してもよい。このエネルギー比に基づき、このエネルギー比が所定のエネルギー閾値PET(0.1、0.2、0.5、0.8、1.2またはそれ以上あるいはそれ以下)よりも小さい場合には、エンベロープ成形部650は時間領域オーディオ信号642のエンベロープ成形を中断してもよい。
【0114】
【数11】
【0115】
つまり、エンベロープ成形の動作は予測の良好性に応じてオン/オフされてもよい。予測の良好性は信号(周波数領域オーディオ信号)と予測エラー(残余オーディオ信号)とのエネルギー比として定義されてもよい予測ゲインによって測定できる。時間領域オーディオ信号642のエンベロープ成形が中断された場合、成形されたオーディオ信号652は、結合部640によって出力される時間領域オーディオ信号642と等しくなる。
【0116】
エンベロープ成形部650は様々な方法で実施され得る。その一つの例を図8に示す。エンベロープ成形部650は係数変換器810と乗算器820を含んでいてもよい。係数変換器810はエンベロープ形状係数612を時間領域に変換され、そして変換後のエンベロープ形状係数812は、時間領域オーディオ信号の時間的エンベロープを成形し、成形されたオーディオ信号652を得るために、時間領域オーディオ信号642に掛けられる。これは乗算器820によって行われてもよい。例えば、時間領域オーディオ信号642の時間ブロックは512個(またはそれ以上の個数)時間サンプルを含んでいてもよく、係数変換器810は、各時間サンプルに変換後のエンベロープ形状係数812を掛けるために、512個(またはそれ以上の個数)の変換後のエンベロープ形状係数812を出力してもよい。
【0117】
既に述べたように、装置600は異なるサブバンド領域バンドパス信号を異なる方法で変更してもよい。より一般的には、信号処理部630は、複数のサブバンド領域バンドパス信号の二番目またはそれ以降の信号622を二番目またはそれ以降の所定の変更目標に基づき変更してもよいということである。前述のような最初の所定の変更目標と、二番目またはそれ以降の所定の変更目標とは異なっていてもよい。
【0118】
いくつかの実施形態において、上述の概念はボコーダーあるいは変調ボコーダーに関して利用可能である。この場合、信号処理部630は、複数のサブバンド領域バンドパス信号の各信号622に関する振幅変調信号(AM)と周波数変調信号(FM)を生成してもよい。さらに、信号処理部630はサブバンド領域バンドパス信号の振幅変調信号と周波数変調信号を所定の変更目標に基づき変更してもよい。
【0119】
さらに装置600は、図2に示した装置200に関して既に説明したように、任意に搬送波周波数決定部を含んでいてもよい。搬送波周波数決定部は、周波数領域オーディオ信号602に基づき複数の搬送波周波数を決定してもよい。これらの決定された搬送波周波数は、サブバンド領域バンドパス信号を生成するために、フィルターバンク処理部620によって、または図7に示すような実施例の場合にはフィルターバンク処理部620のフィルターバンク730によって使用されてもよく、これにより、各サブバンド領域バンドパス信号は複数の搬送波周波数のうちの異なる搬送波周波数を有する周波数域を含み、複数の搬送波周波数のうちのそれぞれに関連したサブバンド領域バンドパス信号を得ることになる。これは、例えば、上述したように周波数領域オーディオ信号の重心を決定することによって行われてもよい。
【0120】
エンベロープ形状決定部610、フィルターバンク処理部620、信号処理部630、結合部640及び/またはエンベロープ成形部650は、例えば、それぞれ個別のハードウェアユニットあるいはデジタル信号処理装置、コンピュータまたはマイクロコントローラの一部であってもよく、また、デジタル信号処理装置、コンピュータまたはマイクロコントローラ上で動作するよう構成されたコンピュータプログラムまたはソフトウェア製品の一部であってもよい。
【0121】
本発明のいくつかの実施形態は上述の概念の変調ボコーダー適用に関する。これに関して、以下でより詳細に説明する。上述の特徴は他の実施例や応用にも使用できる。
【0122】
MODVOC処理は搬送波位置周辺のバンドパス範囲におけるスペクトルコヒーレンスを保持するということを前に述べた。しかし、広帯域の全体的なスペクトルコヒーレンスは保持されない。準定常信号に関しては、このことは合成信号の感覚的質に対してわずかな影響を与えるにすぎない。もし信号がドラムビートやカスタネットなどの際立った過渡信号を含むものである場合、全体的なコヒーレンスの保持はこれらの信号の再生品質を大きく向上させることができる。
【0123】
全体的なコヒーレンスの保持は、スペクトル領域における線形予測によって向上させることができる。いくつかの方法が、例えばMPEG2/4改良オーディオ符号化(AAC)の時間的ノイズ成形(TNS)装置(例えば、J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「時間的ノイズ成形(TNS)の使用による感覚的オーディオコーダーの性能向上」(第101回AES学会、ロサンゼルス、原稿番号4384、1996年参照))により、オーディオコーデックに活用される。J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「感覚的高品質オーディオコーディングのための断続的信号適応フィルターバンク」(信号処理のオーディオ及び音響への応用に関するIEEEのASSPワークショップ、モーホンク、1997年)において、高解像時間−周波数変換とスペクトル予測の組み合わせが、本質的に信号適応変換に相当すると示されている。
【0124】
図9は、上述の概念のMODVOC処理スキームへの統合を示している。解析段階において、入力信号xの最初のDFTに引き続き、インパルス応答h(w)を有する周波数に平行してその先の予測部の線形予測係数(LPC)が、例えば最小二乗の点で予測エラーを最小化する自動相関法によって導き出される。次に、このフィルターはスペクトル値に適用され、残余信号はMODVOCアルゴリズムによってさらに処理される。フィルター係数は全体的なエンベロープを表すものであるが、これらの係数は合成段階に送られる。合成段階において、単位円上の予測フィルターの見積もり|H(ejt)|によって導き出された全体的なエンベロープは、それを合計信号に乗法適用することで元の状態に戻され、図10に示すように出力信号yが生成される。
【0125】
つまり、図9,10は上述の概念の変調ボコーダーにおける実施を示している。図9は前処理部910を含む変調解析部を示す。前処理部910は、例えば、時間領域オーディオ信号の離散フーリエ変換を行って周波数領域オーディオ信号602を得て、その周波数領域オーディオ信号602をエンベロープ形状決定部610、予測フィルター710(例えばLPCフィルターh(ω))、信号減算器720及び搬送波周波数決定部920に送る。信号減算器720は残余オーディオ信号722をフィルターバンク730に与えてもよい。搬送波周波数決定部920は、多重搬送波重心周波数を見積もり、これらの搬送波周波数を、バンドパススペクトルの重みを制御するためのフィルターバンク730に送ってもよい。フィルターバンク730はバンドパス信号を信号変換器930に与えてもよく、この信号変換器930は、各バンドパス信号に関して片側逆離散フーリエ変換を行い、複数のサブバンド領域バンドパス信号を信号処理部に送る。変調ボコーダーのこれらの部品に関しては既に詳細に説明した。図10は変調ボコーダーの合成部を示す。合成部は結合部640、及び係数変換器810と乗算器829とを含むエンベロープ成形部を含む。変調ボコーダーのこれらの備品とエンベロープ成形部に関しては既に詳細に説明した。
【0126】
図11は、本発明の一実施形態に係るオーディオ信号変更方法1100のフローチャートを示している。この方法1100は、時間領域入力オーディオ信号を表す周波数領域オーディオ信号に基づき、エンベロープ形状係数を決定すること(1110)と、周波数領域オーディオ信号に基づきサブバンド領域で複数のバンドパス信号を生成すること(1120)を含む。さらに、方法1100は、複数のサブバンド領域バンドパス信号のうちの一つの信号を所定の変更目標に基づき変更すること(1130)を含む。また、複数のサブバンド領域バンドパス信号の少なくとも一部は、時間領域オーディオ信号を得るために結合される(1140)。さらに、方法1100は、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)、変更後のサブバンド領域バンドパス信号を含むサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)、または、サブバンド領域バンドパス信号が信号処理部によって成形されたオーディオ信号を得るために変更される前に、サブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)を含む。
【0127】
この方法1100は、さらに任意に、上述の概念の特徴を表すステップを含んでいてもよい。
【0128】
本発明に係るいくつかの実施形態はオーディオ信号変更装置であり、図1または図2に示した装置の特徴と図6に示した装置の特徴を組み合わせたものに関する。図12は、本発明の一実施形態に係る装置1200のブロック図である。
【0129】
図1に示した装置を基に、装置1200はさらにエンベロープ形状決定部610及びエンベロープ成形部650を含む。これに関して、オーディオ信号は時間領域入力オーディオ信号を表す周波数領域オーディオ信号であってもよく、エンベロープ形状決定部はこの周波数領域オーディオ信号に基づきエンベロープ形状係数を決定する。さらに、フィルターバンクによって生成される複数のバンドパス信号は、周波数領域オーディオ信号に基づきサブバンド領域で生成されてもよい。選択及び変更後の基音バンドパス信号と識別及び変更後の倍音バンドパス信号を含むサブバンド領域バンドパス信号を結合した後、得られた時間領域オーディオ信号152,642はエンベロープ成形部650に送られてもよい。エンベロープ成形部650は、成形されたオーディオ信号652を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0130】
あるいは、図6に示した装置を基に、装置1200はさらに、図1に示した装置に関して説明したような基音決定部120と倍音決定部130を含む。基音決定部120は、基音バンドパス信号122を得るために、複数のサブバンド領域バンドパス信号のうちから一つの信号を選択してもよい。さらに、倍音決定部130は、選択された基音バンドパス信号122に関連する倍音バンドパス信号を得るために、複数のサブバンド領域バンドパス信号のうちから、選択された基音バンドパス信号122に関する倍音標準を満たす一つの信号112を識別してもよい。信号処理部140,630は、選択された基音バンドパス信号122を所定の変更目標に基づき変更し、選択されたその基音バンドパス信号122に関連して識別された倍音バンドパス信号132を、上述したように、選択されたその基音バンドパス信号122の変更に応じて変更してもよい。
【0131】
このように、オーディオ信号の変更中、基音とその倍音は同じように取り扱われ、複数のバンドパス信号のスペクトルコヒーレンスは、変更後の時間領域オーディオ信号を変更前のバンドパス信号から導き出されたエンベロープ形状係数に基づき成形することにより、非常に正確に保持することができる。このようにして、変更後のオーディオ信号の感覚的質をかなり向上させることができる。
【0132】
装置1200は上述の様々な実施例の更なる特徴を実現するものであってもよい。
【0133】
以下のように、変更後のオーディオ信号の感覚的質に関する向上はリスニングテストの結果によって示される。このリスニングテストのために、変調ボコーダー(MODVOC)を基にした実施例が使用されたが、その結果はここで提案している概念全般に当てはまる。
【0134】
選択的ピッチ変換という応用のための変調ボコーダー(MODVOC)の主観的なオーディオ品質と、さらに基本的なMODVOCの原理に対してここで提案する改良の利点を見積もるために、一例として、一組のオーディオファイルが作成され、処理された。また、MODVOC技術は、市場で入手可能な多声オーディオ操作のためのオーディオソフトウェア、2009年終わり頃から市場で入手可能なセレモニー(Celemony)によるメロダイン(Melodyne)エディターと比較される。
【0135】
テストにおける処理は信号のオーディオ内容を大きく変えるものであるので、オリジナルと処理後の信号の直接的な比較(標準的なリスニングテストにおいては、通常、固有の部分であるが)は、この場合には目的にかなったものではないように思われる。それでもなお、対象となるオーディオ品質を意義深い方法で測定するために、特別なリスニングテスト方法が適用されてきた。このリスニングテスト装置は、高品質MIDIエクスパンダーを使用して波形にされる記号MIDIデータに由来する。この方法により、テストにおいて同様に変更されたオーディオファイル同士の直接的な比較が可能となり、単独での選択的ピッチ処理の効果に関する調査が可能となる。このテスト装置を作成する方法を図17に示す。オリジナルのテスト信号は記号MIDIデータ表記で作成される(左上部)。これらの信号の第2バージョンは、波形にされたオリジナルオーディオに関するテストにおける目標処理に似た記号MIDI処理によって生成される(右上部)。次に、これらの信号対は高品質MIDIエクスパンダーによって波形(WAV)ファイルに変換される(左右下部)。このリスニングテストにおいて、処理後のMIDIファイルから変換された波形と、オリジナルのMIDIファイルから波形変換されたものを変調ボコーダー(MODVOC)で処理したいくつかのバージョンとを比較する(右下部)。さらに、MODVOCの出力をメロダインエディターの出力と比較する。
【0136】
MODVOCで処理された状態のものとは別に、このテストには、この種のオーディオ操作を行うためのものであり、現在では唯一市場に出ているアプリケーションであるメロダインエディターによって得られた状態のものが含まれている。メロダインエディターは最初にオーディオファイル全体の解析を自動的に行う。この初期段階の後、メロダインはオーディオファイルの分解を提案する。ユーザーとの意思疎通により、この分解をさらに精密化することも可能である。MODVOC処理の結果との正当な比較のために、評価はこの自動初期解析の結果に基づき行われる。キーや標準ピッチという先験的知識は別として、MODVOCの分解もまた全て自動で行われるからである。
【0137】
このリスニングテスト装置は、ITU(国際電気通信連合)推薦のBS.1534(ITU−R(国際電気通信連合無線通信部門)、「中音質の主観的評価方法(mushra)」2001年)に準じた標準的なMUSHRAテストに基づくものである。MUSHRAは目隠しをした状態で行うリスニングテストである。テストの被験者は一度に一人だけである。各音楽に関して、テストでは、隠れ基準とローパスフィルターを通した隠れアンカーと共に、全ての条件によるテスト音がリスナーに順番に与えられる。隠れ基準と劣化アンカーは、リスナーの信頼性をチェックするために入れられている。リスニングの間にこれらのテスト音を切り替えることが認められており、BS.1116−1で提案され(ITU−R(国際電気通信連合無線通信部門)、「多重チャンネルサウンドシステムを含むオーディオシステムにおけるわずかな障害に対する主観的評価方法」1994〜1997年)、MUSHRAテストにも適用できるような、その音楽の任意に選択できる区分に対してループが設けられている。一つの楽曲の評価をして次の楽曲に進む前に、被験者は無制限に何度も繰り返して聞くことができるので、様々な条件によるテスト音の間の非常に緻密な比較とそれらの徹底的な調査が可能となる。これらのテスト音の感覚的質は、「優良」(100ポイント)から、「良」、「普通」を介して「劣悪」(0ポイント)までの基準で評価される。楽曲の順番はランダムであり、さらに、各楽曲のテスト音の順番もランダムである。
【0138】
8つのテスト楽曲が、シートミュージックを無料で一般に提供するMUTOPIAプロジェクトから入手した。単楽器(例えばG,E)とフルオーケストラ(例えばF)を含むクラシック音楽の様々な曲から、最長約20秒の適切な部分が抜粋された。また、他の楽器の伴奏が付いた主要楽器のソロによるメロディー(例えばC)がテストの組に含まれている。いくつかの楽曲には、短時間準定常調性部分だけでなく打楽器部分も含まれており(Cではギターの出だしとGではピアノの出だし)、これはこのシステムの過渡応答に関する特別なチャレンジを提示するものである。以下の表にこれら全ての楽曲を示す。
【0139】
【表3】
【0140】
オリジナルの転置信号を得るためのMIDI処理は、ケイクウォーク(Cakewalk)製造のSonar8で行われ、高品質波形レンダリングは、サウンドライブラリーバージョン1.0.1R3でネイティブ・インスツルメンツ(Native Instruments)からのバンドスタンド(Bandstand)を使用して行われた。MODVOC処理は、倍音ロッキングとエンベロープ成形という二つの改良された処理ステップとの三つの異なる組み合わせで評価された。メロダインエディターとの比較のために、バージョン1.0.11が使用された。これら全てのテスト音の条件を以下の表に示す。
【0141】
【表4】
【0142】
主観リスニングテストは、「理想的な」リビングルームに類似した環境で高質なリスニングテストが行えるように設計された防音リスニングラボで行われた。リスナー達は、アップル(Apple)のMACミニに接続されたエディロール(EDIROL)のUSBサウンドインターフェースから引き出されたSTAX静電ヘッドフォンを装着した。リスニングテストのソフトウェアはフラウンホファーのIISによってWAV変換され、MUSHRAモードで作動され、テストを行う際にリスナーをサポートするための簡単なGUIを提供するものであった。リスナー達は、プレイアウトの間、基準音(1)と別の様々なテスト音(2〜7)の間で切り換えることができる。各リスナーは、各楽曲及び各テスト音をどれくらいの時間聞くのかは、個別に決定することができる。実際の切り換えの際には、音は弱まる。GUIにおいて、仮想バーが各テスト音の評価を視覚化する。一方ではプレエコーやポストエコーまたは過渡信号の分散のような典型的な信号処理のアーチファクトに関して、また他方ではスペクトルピッチやメロディーや音色のような音楽的パラメータに関して知識に基づいた判断が得られるように、オーディオコーディングに精通し、音楽に関する経歴のある経験豊富なリスナー達が選ばれた。リスナー達は、さらに、彼らの見解や印象を非公式に述べるように依頼された。
【0143】
合計15人の被験者がこのテスト結果に貢献した。一人のリスナーは、隠れオリジナルを識別するのに失敗したことが明らかであった(オリジナルに対して64ポイントの評価をした)ため、後で除外された。
【0144】
図18はこのリスニングテストの結果をまとめたものである。選択的ピッチ転置によって処理された楽曲の感覚的質は、「普通」から「良」の範囲にある。劣化アンカーは「不良」と「劣悪」の間に評価づけられ、前記処理された楽曲とアンカーとの間の隔たりは約40MUSHRAポイントにもなる。
【0145】
絶対的なスコアは、各楽曲の(各テスト音での)感覚的質を定量化する情報を提供し、従ってそのテストセット中の楽曲間の質の違いを暗に評価するものであるが、そのリスニングテスト内の様々なテスト音を比較するのには適切ではない。これらのテスト音の評価は独立したものではないからである。異なる選択的転置処理方法により得られたテスト音を直接的に比較するために、スコアの違いは以下のように考慮される。
【0146】
図19は、改良MODVOCの様々な結果(条件4,5によるテスト音)のスコアを単純なMODVOCの結果(条件3によるテスト音)のスコアに基づき算出された結果を示す。ここでは、改良MODVOCの結果の全てのスコアが単純なMODVOCの結果のスコアよりもかなり良い(改良MODVOCの結果の全てのスコアは0よりも上に位置している)。楽曲A,Cに対して倍音ロッキングを適用した場合を除く全ての楽曲とテスト音に関して、95%の信頼性で有意性がある。
【0147】
図20は、条件6(メロダインエディター)によるテスト音に対するスコアの違いを表示したものである。楽曲Cに関して、条件5でのMODVOC結果のスコアはメロダインエディターによる結果よりもかなり良いのに対し、条件4での結果はわずかに良いが、条件3は95%の信頼区間で(信頼区間の重複が全くない状態で)不確定である。楽曲Bのテスト音2、F,Gのテスト音5に関しても、全く何の優位性のある結果も得られなかった。しかし、楽曲Cのテスト音4と楽曲Fのテスト音4,5に関しても、MODVOCの良好な性能が見られる。他の全ての場合においては、MODVOCのスコアはメロダインエディターよりもかなり悪い。
【0148】
このスコアは、プレエコーまたはポストエコーによる過渡信号の品質低下のような不自然な音のアーチファクト、ピッチの精密さ、メロディーの正確さ及び音色の保持というような面を含む全体的な質に関する判断を反映している。この結果をより詳細に解釈するために、リスナー達は実際のスコアを記載する際に、彼らの非公式な見解も記載するよう依頼された。これらの見解から、音色の保持と不自然な音のアーチファクトの無さは、例えばメロディーの良好な保持よりも、延滞的なスコアによりよくあらわされていることがわかった。さらに、リスナーがあるメロディーを知らなかった場合、そのリスナー(被験者)はテストの間にすぐさま基準メロディーを覚えることができず、正しいメロディーを確信することができなかったようである。これが、音色、特に一つの楽器による音の保持に関する高い忠実性を有するメロダインエディターで処理された楽曲に対する評価の方が高かった説明であり得る。しかし、たぶん分類の間違いにより起こり得る大きなメロディーの間違いを偶然に引き起こす代償を支払うことになる。MODVOCは分類技術に基づく特性に主に頼っているわけではないので、この点においてより堅固である。
【0149】
本発明に係るいくつかの実施形態はピッチの選択的転置のための改良変調ボコーダーに関する。変調ボコーダー(MODVOC)の概念はもう既に紹介されており、多声音楽に関する選択的転置を行うことができるその一般的な機能が取り上げられてきた。これは、前もって録音されたPCM音楽サンプルのキーモードを変換することを目的とする応用を可能にする。MODVOCによる選択的ピッチ転置のために、ここで、二つの改良技術を提案する。選択的転置の性能とこれらの技術の長所は、オリジナルのオーディオ刺激に関して、ピッチの点で非常に大きな変化をもたらすことができる特別に指定されたリスニングテスト手順から得られた結果によって評価される。この主観的な感覚的質の評価結果は、MODVOCとさらにまたこの課題を達成可能な最初に市販されたソフトウェアによって、マイナーキーとメジャーキーとの間でモード変換された楽曲に関して提示される。
【0150】
ここで言及すべきことは、メロダインエディターはいかなる操作をも可能にする前に最初にオーディオファイル全体の自動解析を行うのに対し、MODVOCはブロックごとに処理を行うのでリアルタイム処理が可能であるということである。
【0151】
ピッチの選択的転置のための変調ボコーダー(MODVOC)の改良技術を提案してきた。MIDIからもたらされたテスト信号に対するリスニングテストの結果から、単純なMODVOCの感覚的質は、倍音ロッキングとエンベロープ成形により確かに改善されることが結論付けられる。全ての楽曲に関して、10MUSHURAポイントもの増加が見込まれる。この向上は主に倍音ロッキングに起因するものである。
【0152】
また、MODVOCと市販されているソフトウェア(メロダインエディター)の比較から、現時点において選択的ピッチ転置で達成可能な一般的な質のレベルは「まあまあ」と「良い」の間に位置するであろう。MODVOCは本質的に分類の決定に主に頼るものではないので、メロディーの誤った解釈に関してはより確実なものである。
【0153】
操作の前にオーディオファイル全体に対してメロダインエディターが行うマルチパス解析とは対照的に、MODVOCはもっぱらシングルパスのブロックごとの処理に基づくものであり、潜在的にストリーミングつまりリアルタイム処理が可能である。
【0154】
上述の概念のいくつかの側面を一つの装置に関して説明してきたが、これらの側面は、これに対応する方法(ブロックや装置は方法ステップや方法ステップの特徴に対応する)の説明でもあることは明らかである。同様に、方法ステップに関して説明した側面は、これに対応する装置の相応のブロック、部品または特徴の説明でもある。
【0155】
本発明により符号化されたオーディオ信号は、デジタル記憶媒体に記憶可能であり、またインターネットのような無線通信媒体や有線通信媒体のような通信媒体上で通信可能である。
【0156】
実施条件に応じて、本発明の実施形態はハードウェアでまたはソフトウェアで実施できる。このような実施は、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリーなどのコンピュータ上で読み取り可能な制御信号を記憶しているデジタル記憶媒体を使用して行うことができ、これは、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(協働可能な)ものである。従って、このデジタル記憶媒体はコンピュータ上で読み取り可能なものであってもよい。
【0157】
本発明に係るいくつかの実施形態は、コンピュータ上で読み取り可能な制御信号を有するデータキャリアを含み、このデータキャリアはプログラム可能なコンピュータシステムと協働可能であり、ここで説明してきた方法のうちの一つが実行される。
【0158】
概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施でき、このコンピュータプログラム製品がコンピュータ上で起動されると、このプログラムコードは上述の方法の一つを実行するように働く。このプログラムコードは、例えば、機械で読み取り可能なキャリアに記憶されていてもよい。
【0159】
他の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムであり、機械で読み取り可能なキャリアに記憶されているものを含む。
【0160】
つまり、本発明の方法の一つの実施形態は、コンピュータ上で起動された際に、ここで説明してきた方法のうちの一つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0161】
本発明の方法の別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムを記憶したデータキャリア(デジタル記憶媒体またはコンピュータで読み取り可能な媒体)である。
【0162】
本発明の方法のさらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。このデータストリームまたは一連の信号は、例えばインターネットのようなデータ通信接続を介して送受信されるように構成されていてもよい。
【0163】
さらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するよう構成された例えばコンピュータやプログラム制御可能な論理素子のような処理手段を含む。
【0164】
さらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0165】
いくつかの実施形態において、プログラム制御可能な論理素子(例えばフィールド・プログラマブル・ゲート・アレイ)は、ここで説明してきた方法の機能のうちのいくつかを実行するためにあるいは全部を実行するために使用できる。いくつかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、ここで説明してきた方法のうちの一つを実行するために、マイクロプロセッサと協働してもよい。概して、これらの方法は何らかのハードウェア装置によって実行されることが好ましい。
【0166】
上述の実施形態は、単に本発明の原理を説明するためのものである。当業者にとっては、ここで説明してきた配置や詳細に対する様々な変更が容易であろうと思われる。従って、本発明は特許請求項の範囲によってのみ制限され、ここでの説明により提示された具体的詳細によっては制限されない。
【技術分野】
【0001】
本発明に係る実施形態はオーディオ処理に関し、特にオーディオ信号を変更する装置及び方法に関する。
【背景技術】
【0002】
以前に記録されたオーディオ信号、例えばデータベースから取り出したオーディオ信号を新たな音楽コンテキストに適合させるための膨大な信号処理の必要性に対応できるデジタル信号処理技術に対する要求が高まっている。そうするためには、ピッチ、音楽キー、スケールモードのような高レベルの意味的信号特性を適合させる必要がある。これらの操作の全てに共通していることは、主観的な音質をできる限り良い状態に保ちながら、元のオーディオ資料の音楽的特性を実質的に変更することを目標としていることである。換言すれば、これらの編集はオーディオ資料の音楽的内容を大きく変えるものであるが、それにもかかわらず、処理されたオーディオサンプルの本質を保持し、従って信憑性を保持することが求められる。これにより、理想的には、多声混合音楽内容を含む異なる種類の信号に対して幅広く応用できる信号処理方法が求められる。
【0003】
今日、オーディオ信号を変更するための多くの考えが知られている。これらの考えのうちのいくつかは、ボコーダーに基づくものである。
【0004】
例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号処理のための振幅・周波数変調ボコーダー」(デジタルオーディオ効果(DAFx)国際学会2008の会報)、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報)、S.ディッシュ(Disch)とB.エドラー(Edler)による「推定局所的重心に応じた、オーディオ信号スペクトルのための相互作用セグメンテーションアルゴリズム」(デジタルオーディオ効果(DAFx)第12回国際学会2009の会報)の中で、変調ボコーダー(MOVOC)の概念が紹介され、多声音楽内容に関して意味のある選択的な転置を行うというこの変調ボコーダーの一般的な機能が論じられている。これは、以前に記録されたPCM音楽サンプルのキーモードを変換するという目的への応用を可能にするものである(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報参照)。また、このような多声音楽の操作課題に対処できる最初の市販のソフトウェア(セレモニー(Celemony)によるメロダイン(Melodyne)エディター)が入手可能である。このソフトウェアは、ディレクト・ノート・アクセス(DNA)というブランド名が付けられ販売されてきた技術を実施するものである。最近、特許出願(EP2099024、P.ニューベッカー(Neubacker)、「多声音楽録音の音響のオブジェクト指向解析及び音符のオブジェクト指向処理方法」2009年9月)が公開され、おそらく、これがDNAの基本的な機能をカバーし、開示していると思われる。オーディオ信号の変更に使用される方法とは別に、感覚的に高い質のオーディオ信号を得ることが求められている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、オーディオ信号を変更するための改良された考えを提供することであり、これによれば、変更後のオーディオ信号の知覚的質を高めることができる。
【課題を解決するための手段】
【0006】
この目的は、クレーム1に係る装置、クレーム14に係る方法またはクレーム15に係るコンピュータプログラムで達成できる。
【0007】
本発明の一実施形態は、フィルターバンク処理部、基音決定部、倍音決定部、信号処理部及び結合部を含むオーディオ信号変更装置を提供する。フィルターバンク処理部は、オーディオ信号に基づき複数のバンドパス信号を生成するように構成されている。さらに、基音決定部は、基音バンドパス信号を得るために、複数のバンドパス信号から一つのバンドパス信号を選択するように構成されている。倍音決定部は、選択された基音バンドパス信号に関連する倍音バンドパス信号を得るために、複数のバンドパス信号のうち、選択された基音バンドパス信号に関する倍音基準を満たす一つのバンドパス信号を識別するように構成されている。さらに、信号処理部は、選択された基音バンドパス信号を所定の変更目標に基づき変更するように構成されている。また、信号処理部は、選択された基音バンドパス信号に関連づけて識別された倍音バンドパス信号を、選択された基音バンドパス信号への変更に応じて変更するように構成されている。さらに、結合部は、変更後のオーディオ信号を得るために、複数のバンドパス信号を結合するように構成されている。
【0008】
基本周波数の倍音を識別し、これらの倍音を基音に対するのと同じように変更することにより、基音とそれらの倍音との間での異なる変更を避けることができ、その結果、変更後のオーディオ信号の音色が元のオーディオ信号に対してより正確に保持され得る。このようにして、変更後のオーディオ信号の感覚的な質を大きく向上することができる。例えば、選択的ピッチ転置をしようとする際(例えば、与えられた音楽信号のキーモードをCメジャーからCマイナーに変更する場合)、識別された倍音バンドパス信号に対する変更は、基音バンドパス信号に対する変更に関連して行われる。これとは対照的に、周知の方法では、倍音を示すバンドパス信号の周波数領域を、基音バンドパス信号とは違う方法で変更する。換言すれば、識別された倍音バンドパス信号は、上記方法により、基音バンドパス信号にロック(固定)される。
【0009】
本発明のいくつかの実施形態によれば、基音バンドパス信号の周波数を複数のバンドパス信号のうちの一つのバンドパス信号と比較することにより、基音バンドパス信号のエネルギー量を複数のバンドパス信号のうちの一つのバンドパス信号と比較することにより、及び/または基音バンドパス信号の時間的エンベロープと複数のバンドパス信号のうちの一つのバンドパス信号のエンベロープとの関連性を判断することによって、倍音バンドパス信号を識別してもよい。この方法において、倍音識別の間違いを最小限に抑えるために、一つまたはそれ以上の倍音基準を設定してもよい。
【0010】
本発明に係るいくつかの実施形態は、複数のバンドパス信号からの基音バンドパス信号の決定と倍音バンドパス信号の識別とを反復的に行うことに関する。既に選択された基音バンドパス信号と既に識別された倍音バンドパス信号をサーチ範囲から排除してもよく、換言すれば、これらを、更なる基音バンドパス信号の決定または更なる倍音バンドパス信号の決定の際の考慮には入れなくてもよい。このようにして、複数のバンドパス信号のうちの各バンドパス信号は、基音バンドパス信号として(従って他の基音バンドパス信号とは独立して変更されてもよく)または倍音バンドパス信号として(従ってそれに関連する基音バンドパス信号に応じて変更されてもよい)。
【0011】
本発明の別の実施形態は、エンベロープ形状決定部、フィルターバンク処理部、信号処理部、結合部、及びエンベロープ成形部を含むオーディオ信号変更装置を提供する。エンベロープ形状決定部は、時間領域入力オーディオ信号を示す周波数領域オーディオ信号に基づき、エンベロープ形状係数を決定するように構成されている。さらに、フィルターバンク処理部は、周波数領域オーディオ信号に基づき、サブバンド領域で複数のバンドパス信号を生成するように構成されている。信号処理部は、複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号を、所定の変更目標に基づき変更するように構成されている。さらに、結合器は、時間領域オーディオ信号を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部を合成するように構成されている。また、エンベロープ成形部は、成形されたオーディオ信号を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形するように、または、変形後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するように、または、サブバンド領域バンドパス信号が信号処理部によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形するように構成されている。
【0012】
周波数領域オーディオ信号が複数のサブバンド領域バンドパス信号に分けられる前に周波数領域オーディオ信号のエンベロープ形状係数を決定することにより、オーディオ信号のスペクトルコヒーレンスに関する情報が保持され、一つまたはそれ以上のサブバンド領域バンドパス信号が変更された後も、時間領域オーディオ信号のエンベロープ成形に使用され得る。このようにして、いくつかの(または一つの)サブバンド領域バンドパス信号のみが変更されるか、またはサブバンド領域バンドパス信号が互いに異なる方法で変更され、オーディオ信号のスペクトルコヒーレンスを損なう可能性があるにも関わらず、変更後のオーディオ信号のスペクトルコヒーレンスはより正確に保持できる。これにより、変更後のオーディオ信号の感覚的な質を大きく向上させることができる。
【0013】
本発明に係るいくつかの実施形態は、複数のサブバンド領域バンドパス信号のうちの第2のサブバンド領域バンドパス信号を、第2の所定の変更目標に基づき変更するように構成された信号処理部に関する。前記所定の変更目標とこの第2の所定の変更目標とは異なるものである。バンドパス信号が別々に変更されるにも関わらず、バンドパス信号のそれぞれの変更後にエンベロープ成形を行うことにより、変更後のオーディオ信号のスペクトルコヒーレンスはより正確に保持できる。
【図面の簡単な説明】
【0014】
【図1】オーディオ信号変更装置のブロック図である。
【図2】オーディオ信号変更装置のブロック図である。
【図3】オーディオ信号変更方法のフローチャートである。
【図4】倍音ロッキングを用いた変調ボコーダーの一部を示すブロック図である。
【図5】オーディオ信号変更方法のフローチャートである。
【図6A】オーディオ信号変更装置のブロック図である。
【図6B】オーディオ信号変更装置のブロック図である。
【図6C】オーディオ信号変更装置のブロック図である。
【図6D】オーディオ信号変更装置のブロック図である。
【図7】フィルターバンク処理部のブロック図である。
【図8】エンベロープ成形部のブロック図である。
【図9】エンベロープ成形を用いた変調解析の略図である。
【図10】エンベロープ成形を用いた変調解析の略図である。
【図11】オーディオ信号変更方法のフローチャートである。
【図12】オーディオ信号変更方法のフローチャートである。
【図13】変調解析の略図である。
【図14】変調解析の実施例の略図である。
【図15】変調合成の略図である。
【図16】変調ボコーダー成分の選択的な転置の略図である。
【図17】選択的ピッチ転置のための変調ボコーダー処理の主観的な品質評価のためのテストセットを生成する過程を示す略図である。
【図18】選択的ピッチ転置を処理するリスニングテストの絶対MUSHIRAスコアと95%の信頼区間を示す図である。
【図19】変調ボコーダーの条件によりMUSHIRAスコアが異なることと、選択的ピッチ転置を処理するリスニングテストの95%の信頼区間を示す図である。
【図20】DNA条件によりMUSHIRAスコアが異なることと、選択的ピッチ転置を処理するリスニングテストの95%の信頼区間を示す図である。
【発明を実施するための形態】
【0015】
添付図面を参照しながら、本発明に係る実施形態を以下に説明する。
【0016】
以下、同じまたは類似の機能特性を有する部品や機能ユニットには同じ参照符号が部分的に使用され、実施形態の説明での繰り返しを低減するために、一つの図面に関して行われるこれらの部品やユニットの説明が他の図面にも適用される。
【0017】
選択的ピッチ転置とも呼ばれる選択的な周波数帯域変更は、例えばボコーダーまたは変調ボコーダーによって実現され得る。
【0018】
マルチバンド変調分解(例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報)を参照)は、オーディオ信号を、(解析的)バンドパス信号の信号適応セットに分解し、バンドパス信号のそれぞれはさらに、正弦波搬送波と、その振幅変調(AM)と周波数変調(FM)とに分けられる。このバンドパスフィルターセットは、一方では全領域が切れ目なくカバーされ、他方ではフィルターが例えば総重心(COG)に合わせて並べられるように算出される。また、例えばERB基準(例えば、B.C.J.ムーア(Moore)とB.R.グラスバーグ(Glasberg)による「ツイッカーのラウドネスモデルの逆転」(Acta Acustica,第82巻、335〜345ページ、1996年)参照)のような感覚的基準に合うように、フィルターの帯域幅を選択することで人間の聴覚を考慮してもよい。
【0019】
例えば、局所的COGは、その周波数域におけるスペクトルの寄与により、リスナーによって感知される中間周波数に相当する。さらに、中心が局所的COG位置にある帯域は、典型的な位相ボコーダーの影響に基づく位相ロッキング範囲に相当し得る(例えば、L.ラローシュ(Laroche)とM.ドルソン(Dolson)による「改良された位相ボコーダーによるオーディオのタイムスケール変更」(スピーチ及びオーディオ処理に関するIEEE議事録、第7巻、第3番、323〜332ページ、1999年)、またはC.デュクスバリー(Duxbury)、M.デビーズ(Davies)及びM.サンドラー(Sandler)による「過渡信号での位相ロッキングを用いた音楽的オーディオの改良タイムスケーリング」(第112回AES学会、2002年)参照)。バンドパス信号のエンベロープと影響位相ロッキングの従来の領域は、どちらもバンドパス信号の時間的エンベロープを保持する。これは本質的なものであるか、あるいは後者の場合、合成の間に局所的スペクトルの位相コヒーレンスを確実なものにすることによって達成される。推定局所的COGに相当する周波数の正弦波搬送波に関して、AMとFMのどちらもが、それぞれ解析バンドパス信号の振幅エンベロープとヘテロダイン位相に捉えられる。専用の合成方法により、搬送波周波数AM,FMから出力信号が提供される。
【0020】
信号の搬送波信号への分解とそれに関連する変調部品の実施例1300のブロック図を図13に示す。図13において、マルチバンド成分(バンドパス信号)から一つの成分を抽出するためのシグナルフローが概略的に示されている。他の全ての成分も同様に得られる。まず、ブロードバンド入力信号xが、信号に適応して出力信号を生成するよう設計されたバンドパスフィルターに送られる。次に、式(1)に基づくヒルベルト変換により、解析信号が生成される。
【0021】
【数1】
【0022】
AM(振幅変調信号)はの振幅エンベロープによって与えられる。
【0023】
【数2】
【0024】
FM(周波数変調信号)は、各周波数ωcを有する固定の正弦波搬送波によって周波数変換処理された解析信号の位相導関数によって得られる。搬送波周波数は局所的COGの見積もりとして決定される。従って、FMは搬送波周波数fcにおけるIF(瞬間周波数)の変動として理解できる。
【0025】
【数3】
【0026】
局所的COGの見積もりとフロントエンドフィルターバンクの信号適応設計については、専門の出版物(例えば、S.ディッシュ(Disch)とB.エドラー(Edler)による「推定局所的重心に応じた、オーディオ信号スペクトルのための相互作用セグメンテーションアルゴリズム」(デジタルオーディオ効果(DAFx)第12回国際学会2009の会報)で説明されている。
実用的には、離散時間システムにおいて、図14に示すように、全ての成分に関して成分抽出が一緒に行われてもよい。この処理により、リアルタイムの計算が可能となる。ある時間ブロックの処理は、前のブロックのパラメータに依存しているだけである。従って、全体的な処理の遅延をできる限り抑えるために先読みが必要となるわけではない。この処理は、例えば75%の解析ブロック重複とそれぞれのウィンドウ処理後の信号ブロックに対する離散フーリエ変換の応用とにより、ブロックごとに計算が行われる。ウィンドウは、式(4)に基づく上部が平らなウィンドウである。これにより、次の50%重複を用いた変調合成に受け渡される中央のN/2個のサンプルは解析ウィンドウの裾野によって影響を受けないで済む。計算はより複雑化するが、正確性向上のために高次の重複を使用してもよい。
【0027】
【数4】
【0028】
スペクトル表示が与えられ、次に局所的COG位置に合わせた一組の信号適応スペクトルバンドパス重み付け関数が算出される。スペクトルに対するバンドパス重み付け処理を行った後、信号は時間領域に変換され、ヒルベルト変換により解析信号が導き出される。これら二つの処理ステップは、各バンドパス信号に関する片面IDFTの計算により効率的に組み合わせることができる。離散時間バンドパス信号が与えられ、式(3)によるIFの見積もりが、式(5)(*は複素共役を示す)で定義されるような位相差分により実施される。この式は位相の曖昧さと位相接続法の必要性を避けるので、便宜的に使用される。
【0029】
【数5】
【0030】
信号は、全ての成分の付加に基づき合成される。連続するブロックは、合成メカニズムによって制御される重複追加(OLA)により混ぜ合わされる。この成分結合によれば、成分が変調領域処理により実質的に変更されても、隣接するブロックの境界間の円滑な移行が確実になる。この合成は、前のブロックを考慮に入れるだけなので、リアルタイム処理が実現できる。合成は基本的に、現在のブロックの成分と前のブロックのそれぞれに相当する先行するものとの間のペアごとの組み合わせを行う。また、合成は、現在のブロックの絶対的成分位相を前のブロックのものに揃える。異なる時間ブロックを超えて適合するものがない成分に関しては、それぞれ、フェードインまたはフェードアウトが行われる。
【0031】
一つの成分に関する処理過程を図15に示す。まず、FM信号が固定搬送波周波数に付加され、その結果生じた信号はOLA段階に送られ、続いて、そこからの出力が時間的に積分される。その結果生じた位相信号は正弦波振動子に送られる。AM信号は第2OLA段階で処理される。次に、その成分が出力信号に対してさらに別の寄与をもたらすように、振動子の出力はAM信号によって振幅変調される。最後のステップでは、出力信号yを得るために、全成分からの寄与が合計される。
【0032】
図13,14は変調アナライザ1300を示している。変調アナライザ1300は、好ましくは、バンドパス信号を出力するバンドパスフィルター1320aを含む。ブロック1320bの出力はAM情報とFM情報を算出するために使用される。AM情報を算出するために、解析信号の振幅がブロック1320cによって算出される。解析信号ブロック1320bの出力は乗算器1320dに入力される。乗算器1320dは、他方の入力として、振動子1320eからの振動信号を受信し、振動子1320eはバンドパス1320aの実際の搬送波周波数fc1310によって制御される。そして、乗算器の出力の位相はブロック1320fで決定される。最終的にFM情報を得るために、ブロック1320gで瞬間位相が微分される。さらに、図14は、オーディオ信号のDFTスペクトルを生成するプリプロセッサ1410を示している。
【0033】
マルチバンド変調分解は、オーディオ信号を適応可能な一組の(解析)バンドパス信号に分解し、それぞれのバンドパス信号は、さらに正弦波搬送波と、その振幅変調(AM)と周波数変調(FM)に分けられる。バンドパスフィルターセットは、一方では全帯域スペクトルが切れ目なくカバーされるように、また他方ではフィルターがそれぞれ局所的COGに沿って並べられるように算出される。また、例えばERB基準のような感覚的基準に合うようにフィルターの帯域を選択することによって、人間の聴覚が考慮に入れられる(B.C.J.ムーア(Moore)とB.R.グラスバーグ(Glasberg)による「ツイッカーのラウドネスモデルの逆転」(Acta Acustica,第82巻、335〜345ページ、1996年)参照)。
【0034】
局所的COGは、その周波数領域へのスペクトルの寄与により、リスナーによって知覚される中心周波数に一致する。さらに、中心が局所的COGにある帯域は、典型的な位相ボコーダーの影響に基づく位相ロッキング範囲に相当し得る(例えば、L.ラローシュ(Laroche)とM.ドルソン(Dolson)による「改良された位相ボコーダーによるオーディオのタイムスケール変更」(スピーチ及びオーディオ処理に関するIEEE議事録、第7巻、第3番、323〜332ページ、1999年)、またはC.デュクスバリー(Duxbury)、M.デビーズ(Davies)及びM.サンドラー(Sandler)による「過渡信号での位相ロッキングを用いた音楽的オーディオの改良タイムスケーリング」(第112回AES学会、2002年)、A.リューベル(Robel)による「位相ボコーダーにおける過渡処理への新規なアプローチ」(デジタルオーディオ効果(DAFx)に関する国際学会の会報、344〜349ページ、2003年)、A.リューベル(Robel)による「位相ボコーダーにおける過渡の検知と保持」(国際コンピュータ音楽学会(ICMC’03)、247〜250ページ、2003年)参照)。バンドパス信号のエンベロープと影響位相ロッキングの従来の領域は、どちらもバンドパス信号の時間的エンベロープを保持する。これは本質的なものであるか、あるいは後者の場合、合成の間に局所的スペクトルの位相コヒーレンスを確実なものにすることによって達成される。推定局所的COGに相当する周波数の正弦波搬送波に関して、AMとFMのどちらもが、それぞれ解析バンドパス信号の振幅エンベロープとヘテロダイン位相に捉えられる。専用の合成方法により、搬送波周波数AM,FMから出力信号が提供される。
【0035】
信号から搬送波信号への分解とこれに関する変調部品のブロック図を図12に示す。この図は、一つの成分の抽出のためのシグナルフローの略図である。他の全ての成分も同様に得られる。実際、抽出は全ての成分に関してブロックごとに一緒に行われ、例えば48kHzのサンプリング周波数と75%の解析重複でN=214のブロックサイズで(つまり、大体340msの時間間隔と85msの幅で)、ウィンドウ処理後のそれぞれのブロックに対する離散フーリエ変換(DFT)の応用により行われる。ウィンドウは式(a)に基づく「上部が平らな」ウィンドウであってもよい。これにより、次の変調合成に受け渡される中央のN/2個のサンプルは解析ウィンドウの傾きによって影響を受けないで済む。計算はより複雑化するが、正確性向上のために高次の重複を使用してもよい。
【0036】
【数6】
【0037】
スペクトル表示が与えられ、次に局所的COG位置に合わせた一組の信号適応スペクトルバンドパス重み付け関数が(搬送波周波数の概算または多重搬送波COG周波数の概算に関して、搬送波周波数決定部1330によって)算出される。スペクトルに対するバンドパス重み付け処理を行った後、信号は時間領域に変換され、ヒルベルト変換により解析信号が導き出される。これら二つの処理ステップは、各バンドパス信号に関する片面IDFTの計算により効率的に組み合わせることができる。最後に、信号はさらに振幅エンベロープと瞬間周波数(IF)トラックに分解され、それらは位相導関数を算出することによって得られ、望ましいAM及びFM信号を出力する(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号処理のための振幅・周波数変調ボコーダー」(デジタルオーディオ効果(DAFx)国際学会2008の会報参照)。
【0038】
図15は変更合成部1500を示し、オーディオ信号パラメータ化表示である。例えば、有利な実施は、変調領域、つまり時間領域バンドパス信号を生成する前の領域での重複計算(OLA)に基づくものである。入力信号はビットストリームであってもよく、またアナライザや変更子に直接接続されていてもよいものであるが、この入力信号はAM成分1502とFM成分1504と搬送波周波数成分1506とに分けられる。AM合成部は好ましくは重複加算器1510とさらに成分合成制御部1520とを含む。この成分合成制御部1520は、ブロック1510だけでなく、FM合成部内の重複加算器であるブロック1530をも含むことが好ましい。FM合成部はさらに、周波数重複加算器1530と瞬間周波数積分器1532と位相合成部1534とを含み、この位相合成部1534もまた、前のブロックからの一つの信号の位相が現在のブロックの位相に接続するように、ブロックからブロックへの定位相を再生するために成分合成制御部1520によって制御され得る一般的な加算器と移相器1536として実施されてもよい。従って、これらの部品1534,1536における位相加算は、アナライザ側の図13におけるブロック1520gでの微分の間に失われてしまった定数の再生に相当すると言える。感覚領域における情報損失の観点からは、これ、つまり、図13における微分部1320gによる定数部分の損失が唯一の情報損失である。この損失は、成分合成部1520によって決定される定位相を加算することによって補うことができる。
【0039】
重複加算(OLA)は、隣接する時間ブロック間のうなり作用を避けるために、容易に合成された信号よりもむしろパラメータ領域に適用される。OLAはスペクトルの周辺(ERBスケールで測定した)によって導かれ、現在のブロックの成分と前のブロックのこれら成分に相当するものとのペアごとの組み合わせを行う成分合成メカニズムによって制御される。また、この合成は現在のブロックの絶対成分移相を前のブロックのものに合わせる。
【0040】
詳しくは、まずFM信号が搬送波周波数に付加され、その結果はOLA段階に送られ、その後OLA段階の出力が積分される。その結果生じた位相信号は正弦波振動子1540に送られる。AM信号は第2OLA段階で処理される。最後に、その成分が出力信号1560へ付加的に寄与するように、振動子の出力が結果として生じたAM信号によって振幅変調される(1550)。
【0041】
変調解析における信号の適切なスペクトル区分は、その後の変調パラメータ処理において説得力のある結果を得るために最も重要なことである。従って、ここで、適切な区分アルゴリズムを説明する。
【0042】
図16は、多声キーモード変更のための適用例1600を示す。図16は変調ボコーダー素子の選択的な転置を示す。搬送波周波数は、適当なMIDI楽譜上にマッピングされるMIDI音符に量子化される。これらのマッピングされた成分をオリジナルと変更後の搬送波周波数との比で掛けることによって、相対的なFM変調が保たれる。
【0043】
元の再生スピードを保ちながらオーディオ信号の転置を行うことは、困難な課題である。ここで提案するシステムを使用すれば、全ての搬送波成分に一定の係数を掛けることで、この課題を簡単に達成できる。入力信号の時間的構造は完全にAM信号によって捕えられているので、搬送波のスペクトル間隔の引き伸ばしに影響を受けることはない。
【0044】
選択的な処理によって、もっと望ましい効果が得られる。一曲の音楽のキーモードを、例えばマイナーからメジャーにまたはその逆に変更可能である。従って、ある既定の周波数間隔に相当する搬送波の一部のみが適当な新しい値にマッピングされる。これを達成するために、搬送波周波数はMIDIピッチに量子化され(1670)、その後、(処理されるべき音楽のモードとキーの先験的な知識を使用して)適当な新しいMIDIピッチ上にマッピングされる(1672)。
【0045】
そして、マッピングされたMIDI音符は、合成に使用される変調搬送波周波数を得るために、元に戻すように変換される(1574)。時間的特徴は主に変更されていないAMによって表され保持されているので、一つのMIDI音符の発現と消失だけを検知するための専用素子は必要ではない。任意のマッピング表が規定され、これにより他のマイナーの趣(例えばハーモニックマイナー)からのまたはそれへの変換が可能となる。
【0046】
オーディオ効果の分野への応用は、オーディオ信号の全体的な転置である。このオーディオ効果に必要な処理は、搬送波を一定の転置係数で掛けることだけである。さらにFM信号をも同じ係数で掛けることにより、各成分において、相対的なFM変調度が確実に保持される。入力信号の時間的構造は完全にAM信号によって捕えられているので、この処理によって影響を受けることはない。全体的な転置は、元のテンポを保ちながら、音楽信号の元のキーを目標とするキーに(例えばCメジャーからGメジャーへ)変更する。
【0047】
しかし、ここで提案する変調解析は信号適応性を有するので、変調ボコーダーはこの課題以上のことを行う可能性がある。今や、倍音音楽の選択された成分の転置でさえ実現可能となり、例えば与えられた音楽信号のキーモードを変更する(例えばCメジャーからCマイナーへ)ための応用が可能となる(S.ディッシュ(Disch)とB.エドラー(Edler)による「オーディオ信号のマルチバンド感覚的変調解析、処理及び合成」(IEEE−ICASSP2009の会報参照)。これは、各成分搬送波がそのスペクトル領域での知覚されるピッチに密接に対応しているという事実により、可能である。あるオリジナルのピッチに関連する搬送波だけを新しく目標とする値に置き換えることで、キーモードによって決定される全体的な音楽的特徴を操作できる。
【0048】
前述したように、MODVOC成分に関する必要な処理が図16に示されている。MODVOC解析領域内において、搬送波周波数はMIDI音符に量子化され、それらはその後相当するMIDI楽譜上にマッピングされる。ミディのピッチと音符名の意味のある配置転換のためには、オリジナルの音楽のモードとキーの先験的知識が必要となる場合がある。いかなるAMもピッチ情報をまったく含まないので、いかなる成分のAMも全く影響を及ぼさない。
【0049】
特に、成分の搬送波周波数fはその成分のピッチを表しているが、式(6)に基づき、MIDIピッチ値mに変換される。式(6)において、fstdはMIDIピッチ69、音符A0に相当する標準ピッチを示す。
【0050】
【数7】
【0051】
続いて、MIDIピッチはMIDI音符n(f)に量子化され、さらに、各音符のピッチの補正値o(f)が決定される。キーとオリジナルのモードと目標とするモードに応じたMIDI音符マッピング表を使用することで、これらのMIDI音符は適切な目標とする値n’に変換される。下記表に、Cのキーをメジャーからナチュラルマイナーに変換するためのマッピングの典型例を示す。この表は、CメジャーからCナチュラルマイナーへのスケールモード変換のためのMIDI音符マッピング表である。このマッピングは全オクターブの音符に適用される。
【0052】
【表1】
【0053】
最後に、合成(式7)に使用される変更後の搬送波周波数を得るために、ピッチ補正値を含むマッピングされたMIDI音符は周波数f’に戻るように変換される。また、相対的なFM変調度を保つために、マッピングされた成分のFMに、オリジナルと変更後の搬送波周波数の比として得られる個々のピッチ転置係数を掛ける。時間的特徴は主に変更されていないAMによって表され保持されているので、一つのMIDI音符の発現と消失だけを検知するための専用素子は必要ではない。
【0054】
上述した変調ボコーダーは、オーディオ信号の異なる周波数領域(バンドパス信号)を別々に変更するための一つの可能性であり、選択的なピッチ転置として説明した。本発明の概念により、このような変更後のオーディオ信号の感覚的質を高めることが可能になる。本発明のいくつかの実施形態はボコーダーまたは変調ボコーダーに関して説明しているが、本発明は、ボコーダーの使用とは関係なく、変更後のオーディオ信号の感覚的質を向上させるために広く使用されてもよい。
【0055】
図1は、本発明の一実施形態に係る、オーディオ信号102を変更するための装置100のブロック図である。装置100は、フィルターバンク処理部110、基音決定部120、倍音決定部130、信号処理部140、及び合成部150を含む。フィルターバンク処理部110は基音決定部120と倍音決定部130と信号処理部140とに接続され、基音決定部120は基音決定部120と倍音決定部130とに接続されている。さらに、倍音決定部130は信号処理部140に接続され、信号処理部140は合成部150に接続されている。フィルターバンク処理部110は、オーディオ信号102に基づき複数のバンドパス信号112を生成する。さらに、基音決定部120は、基音バンドパス信号122を得るために、複数のバンドパス信号から一つのバンドパス信号112を選択する。倍音決定部130は、選択された基音バンドパス信号122に関連する倍音バンドパス信号132を得るために、複数のバンドパス信号112のうちから、選択された基音バンドパス信号122に関する倍音基準を満たす一つのバンドパス信号を識別する。さらに、信号処理部140は、既定の変更目標に基づき、選択された基音バンドパス信号122を変更する。また、信号処理部140は、選択された基音バンドパス信号122の変更に応じて、選択された基音バンドパス信号122に関連して識別された倍音バンドパス信号132を変更する。合成部150は、変更後のオーディオ信号152を得るために、選択・変更された基音バンドパス信号と識別・変更された倍音バンドパス信号を含む複数のバンドパス信号を合成する。
【0056】
基音バンドパス信号122と基音バンドパス信号122に関連して識別された倍音バンドパス信号132を同じように変更することにより(複数のバンドパス信号のうちの他のものは異なる方法で変更してもよいが)、これらの倍音の一般的なふるまいが保持され得る。これにより、オリジナルのオーディオ信号102の音色がより正確に保持され、変更後のオーディオ信号の感覚的質が大きく向上される。例えば、ほとんどの楽器は、一つの基本周波数とその倍音から成る調和した音を発生させる。基本周波数部分が変更される場合、上述した概念に基づく倍音同士の相関性のある変更が、変更後のオーディオ信号の感覚的質を非常に向上させる結果となり得る。さらに、全てのオーディオ信号に関する先験的情報(例えば全ての多声音楽のタイトル)を必ずしも必要とはしないので、オーディオ信号はリアルタイムで変更できる。
【0057】
オーディオ信号102は、例えば時間領域入力オーディオ信号、または時間領域入力オーディオ信号を表す周波数領域入力オーディオ信号であってもよい。
【0058】
基音決定部120は、選択された基音バンドパス信号122を変更のために信号処理部140に送ってもよいし、あるいは、信号処理部140に複数のバンドパス信号から選択されたバンドパス信号の既定の変更目標に応じた変更を開始させるように、トリガー信号122(例えば選択された基音バンドパス信号の指標i∈[0…I−1](Iは複数のバンドパス信号の個数))を送ってもよい。倍音決定部130もまた、識別された倍音バンドパス信号132を変更のために信号処理部140に送ってもよいし、あるいは、信号処理部140に複数のバンドパス信号から識別されたバンドパス信号の変更を開始させるように、トリガー信号132(例えば複数のバンドパス信号から倍音バンドパス信号として識別されたバンドパス信号の指標)を送ってもよい。
【0059】
倍音基準は、基音の倍音を識別するための一つまたはそれ以上の規定を含んでいてもよい。複数のバンドパス信号から選択された基音バンドパス信号122の倍音として識別するのに満たされるべき倍音基準は一つまたはそれ以上存在し得る。
【0060】
既定の変更目標は、異なる周波数域を含むバンドパス信号ごとに異なっていてもよいし、また、要求されているオーディオ信号102の変更に応じたものであってもよい。例えば、オーディオ信号の元のキーが目標のキーに変更される場合を考える。Cのキーをメジャーからナチュラルマイナーへ変更するために、上記表によるマッピングの典型例が挙げられた。例えば、複数のバンドパス信号のうちの一つのバンドパス信号の周波数域がオリジナルの音符Cに相当する場合、目標音符もまたCであり、このバンドパス信号は変更されない(変更された基音バンドパス信号に関連する倍音バンドパス信号であると認識される場合は除いて)。この場合、変更目標は、このバンドパス信号を変更しないままで保つことである。他方、複数のバンドパス信号のうち、オリジナルの音符Aと相関関係のある周波数域を含む一つのバンドパス信号は変更され、変更後のバンドパス信号は目標音符A♭と相関関係のある周波数域を含み得る(この場合を除いて、バンドパス信号は、別の変更目標に応じて変更されるべき基音バンドパス信号の倍音バンドパス信号として認識される)。さらに、識別された倍音バンドパス信号(オリジナルの音符Aの倍音と相関関係のある周波数域を含むバンドパス信号)は、変更後の倍音バンドパス信号が目標音符A♭の倍音と相関関係のある周波数域を含むように変更され得る。
【0061】
複数のバンドパス信号112の全てが搬送波周波数を含んでいてもよい。搬送波周波数は、例えばバンドパス信号の周波数域の中心周波数、周波数域の上部カットオフ周波数、周波数域の下部カットオフ周波数または周波数域の重心として一つのバンドパス信号によって表されるかまたはバンドパス信号に含まれる周波数域の特性周波数であってもよい。バンドパス信号の搬送波周波数は、バンドパス信号ごとに互いに異なっていてもよい。これらの搬送波周波数は、倍音バンドパス信号を識別するために倍音決定部130によって使用されてもよい。例えば、倍音決定部130は、複数のバンドパス信号のうちの一つのバンドパス信号112の搬送波周波数を、選択された基音バンドパス信号122の搬送波周波数と比較してもよい。倍音は基音の周波数の大体倍数であるので、あるバンドパス信号112の搬送波周波数が選択された基音バンドパス信号122の倍数であるならば(例えば100Hz、50Hz、20Hzまたはそれ以下の既定の搬送波周波数の許容範囲で)、倍音基準が満たされていることになる。換言すれば、倍音基準は、例えば、バンドパス信号112の搬送波周波数が既定の搬送波周波数の許容範囲内で選択された基音バンドパス信号122の倍数であることであってもよい。
【0062】
倍音決定部130は付加的にまたは選択的に、複数のうちの一つのバンドパス信号112のエネルギー量を、選択された基音バンドパス信号122のエネルギー量と比較してもよい。この例では、バンドパス信号112のエネルギー量の選択された基音バンドパス信号122のエネルギー量に対する比が規定のエネルギー許容範囲内であるならば、倍音基準が満たされたことになる。この倍音基準は、倍音は通常基音よりも低いエネルギーを示すことを考慮に入れている。既定のエネルギー許容範囲は、例えば0.3〜0.9、0.5〜0.8、0.6〜0.7または他の範囲であってもよい。このエネルギー量に基づく倍音基準と、上述の搬送波周波数に基づく倍音基準とを組み合わせてもよい。
【0063】
倍音決定部130は付加的にまたは選択的に、複数のうちの一つのバンドパス信号112の時間的エンベロープと、選択された基音バンドパス信号122の時間的エンベロープとの相関関係を示す相関値を算出してもよい。この場合、この相関値が既定の相関閾値よりも高ければ、倍音基準を満たしていることになる。この倍音基準は、基音とその倍音は類似の時間的エンベロープを共有しているという事実を考慮するものである。既定の相関閾値は、例えば0.2、0.3、0.4またはそれ以上であってもよい。このような相関関係による倍音基準は、前述の搬送周波数による倍音基準及び/またはエネルギー量による倍音基準と組み合わせてもよい。
【0064】
基音決定部120は、既に選択された基音バンドパス信号122と既に識別された倍音バンドパス信号132を全く考慮することなく、複数のバンドパス信号からさらに別のバンドパス信号112を選択してもよい。つまり、基音決定部120は、まだ基音バンドパス信号として選択されてもいないし倍音バンドパス信号132として識別されてもいないバンドパス信号を含む一組のバンドパス信号から、基音バンドパス信号を繰り返し洗濯してもよい。複数のバンドパス信号のうちの全てのバンドパス信号が、基音バンドパス信号として選択されるか、またはある基音バンドパス信号の倍音として識別されるまで、これが行われてもよい。それ故に、倍音決定部130は、既に識別された倍音バンドパス信号132と既に選択された基音バンドパス信号122を全く考慮することなく、前記さらに選択された基音バンドパス信号に関する倍音基準を満たすバンドパス信号112を複数のバンドパス信号から識別してもよい。
【0065】
さらに、信号処理部140は、前記さらに別の基音バンドパス信号122を、別の所定の変更目標に基づき、また他の全ての選択された基音バンドパス信号からは独立して変更してもよい。つまり、各基音バンドパス信号またはいくつかの選択された基音バンドパス信号に関して、別々の変更目標が設定されていてもよい。例えば、変更目標は、前述のような一つのキー音符から別のものへの変換を示す表によって規定されていてもよい。基音バンドパス信号は互いに独立して変更できるので、例えば、ある楽器の基音と倍音のみが選択的に、この楽器のキーモードまたは音量を変えるように変更されてもよい。
【0066】
基音決定部120は、バンドパス信号112をエネルギー基準に基づき選択してもよい。例えば、最大エネルギー量またはいくつかの最大エネルギー量のうちの一つを有する(例えば、他のバンドパス信号と比べて70%以上高い)バンドパス信号が選択されてもよい。この例では、選択されるべき基音バンドパス信号のエネルギー量を示すエネルギー量パラメータを0に設定することで、既に選択した基音バンドパス信号をその後の選択から排除することができる。バンドパス信号の選択に関して、感覚的に重要なバンドパス信号の選択を強調するために、各バンドパス信号のエネルギー量(例えば基音決定部によって決定されたエネルギー量パラメータによって示される)が重み付け(例えばA重み付け)されてもよい。
【0067】
信号処理部140は、選択された基音バンドパス信号132とそれに関連する倍音バンドパス信号132を、多様な方法で変更できる。例えば、信号処理部140は、選択された基音バンドパス信号122の搬送波周波数を転置係数(例えばキーモード変換に応じたもの)で掛けることで、あるいは選択された基音バンドパス信号122の搬送波周波数に転置周波数を加算することで、選択された基音バンドパス信号122を変更してもよい。さらに、信号処理部140は、識別された倍音バンドパス信号132の搬送波周波数を転置係数(例えば20%、10%、5%、1%またはそれ以下の許容範囲を有するもの)で掛けることで、あるいは識別された倍音バンドパス信号132の搬送波周波数に転置周波数の倍数(例えば20%、10%、5%、1%またはそれ以下の許容範囲を有するもの)を加算することで、識別された倍音バンドパス信号132を変更してもよい。換言すれば、例えば、基音とそれに関連する倍音を同じ転置係数で掛けることで、あるいは基音に転置周波数を加算し、その倍音にその転置周波数の倍数を加算することで、キーモード変換が達成され得る。このようにして、識別された倍音バンドパス信号132は、選択された基音バンドパス信号122に応じて(基音バンドパス信号122と同じ方法で)変更される。
【0068】
図2は、本発明の一実施形態に係る、オーディオ信号102を変更するための装置200のブロック図である。この装置200は図1に示した装置と同様のものであるが、搬送波周波数決定部260をさらに含むものである。また、フィルターバンク処理部110は、フィルターバンク212と信号変換器214とを含んでいる。フィルターバンク212は信号変換器214に接続され、信号変換器214は信号処理部140に接続されている。この任意の搬送周波数決定部260は、フィルターバンク処理部110のフィルターバンク212と信号処理部140とに接続されている。
【0069】
フィルターバンク212はオーディオ信号102に基づきバンドパス信号を生成してもよく、信号変換器214は、基音決定部120、倍音決定部130及び信号処理部140に送るべき複数のバンドパス信号を得るために、この生成されたバンドパス信号をサブバンド領域に変換してもよい。信号変換器214は、例えば片側逆転離散フーリエ変換ユニットとして実施してもよく、これにより複数のバンドパス信号122のうちのそれぞれが解析信号を示すことになる。このサブバンド領域において、基音決定部120は、基音バンドパス信号122を得るために、複数のバンドパス信号からこれらのサブバンド領域バンドパス信号のうちの一つを選択してもよい。さらに、倍音決定部130は、複数のバンドパス信号からこれらのサブバンド領域バンドパス信号のうちの一つを識別してもよい。
【0070】
さらに、搬送波周波数決定部260はオーディオ信号102に基づき複数の搬送波周波数を決定してもよく、フィルターバンク処理部110のフィルターバンク212はバンドパス信号を生成してもよい。そして、複数の搬送波周波数のそれぞれ262に関連するバンドパス信号を得るために、各バンドパス信号は複数の搬送波周波数のうちの別の搬送波周波数262を含む周波数域を含む。つまり、フィルターバンク212によって生成されたバンドパス信号の帯域幅と中心周波数は搬送波周波数決定部260によって制御されてもよい。これは多様な方法で行うことができ、例えば、前述のように、オーディオ信号102の重心(COG)を算出することにより行ってもよい。
【0071】
既に述べたように、バンドパス信号112は様々な方法で変更可能である。例えば、信号処理部140は、複数のバンドパス信号の各バンドパス信号112に関して振幅変調信号(AM)と周波数変調信号(FM)を生成してもよい。各バンドパス信号はサブバンド領域の解析信号であるので、信号処理部140は、例えば変調ボコーダーに関連して、前述のような振幅変調信号と周波数変調信号を生成してもよい。さらに、信号処理部140は、選択された基音バンドパス信号122の振幅変調信号または周波数変調信号を既定の変更目標に基づき変更してもよく、また識別された倍音バンドパス信号132の振幅変調信号または周波数変調信号を基音バンドパス信号122の変更に応じて変更してもよい。
【0072】
フィルターバンク処理部110、基音決定部120、倍音決定部130、信号処理部140、結合部150及び/または周波数決定部260は、例えば、それぞれ個別のハードウェアユニットあるいはデジタル信号処理装置、コンピュータまたはマイクロコントローラの一部であってもよく、またデジタル信号処理装置、コンピュータまたはマイクロコントローラ上で動作するよう構成されたコンピュータプログラムまたはソフトウェア製品の一部であってもよい。
【0073】
本発明に係るいくつかの実施形態は、本発明に係るオーディオ信号変更方法300に関するものである。この方法300は、基音バンドパス信号を得るために、オーディオ信号に基づき複数のバンドパス信号を生成すること310と、複数のバンドパス信号から一つのバンドパス信号を選択すること320とを含んでいてもよい。さらに、方法300は、選択された基音バンドパス信号122に関連する倍音バンドパス信号を得るために、複数のバンドパス信号から、選択された基音バンドパス信号に関する倍音基準を満たす一つのバンドパス信号を識別すること330を含んでいてもよい。さらに、選択された基音バンドパス信号は既定の変更目標に基づき変更され(340)、識別された倍音バンドパス信号は、前記選択された基音バンドパス信号の変更に応じて変更される(350)。さらに、方法300は、変更後のオーディオ信号を得るために、選択及び変更された基音バンドパス信号と識別及び変更された倍音バンドパス信号とを含む複数のバンドパス信号を結合すること360を含んでいてもよい。
【0074】
方法300は、上述のまたは以下に説明する本発明の概念の任意の特徴を表す付加的なステップをさらに含んでいてもよい。
【0075】
以下に、変調ボコーダーを使用した実施例を挙げて上述の概念を詳細に説明するが、ここで提案する概念はもっと一般的に他の実施形態にも使用できる。
【0076】
ほとんどの楽器は、基音周波数部分と、その基音周波数の約整数倍である倍音とから成る調和音を発生させる。音程は対数尺度に従うので、それぞれの倍音は異なる音程と基音(及びそのオクターブ)に関して共通点がある。下記の表は、最初の7つの倍音に関して倍音番号と音程の対応を示している。
【0077】
下記の表に、基音とそのオクターブに関する倍音番号と音程を示す。
【0078】
【表2】
【0079】
課題が多声音楽の選択的な転置である場合、MODVOC成分の音楽的機能に関して特有の曖昧さが存在する。その成分が基音に由来する場合、望ましいスケールマッピングに応じて転置されなければならず、それが基音に起因する倍音によって特徴付けられている場合、その音の音色を最良に保持するためにはこの基音と共に転置されなければならない。このことから、最適な転置係数を選択するために、それぞれのMODVOC成分(バンドパス信号)を割り当てる必要性が出てくる。
【0080】
これを達成するために、上述した簡単な処理方法が倍音ロッキング機能によって拡大された。倍音ロッキングは、全ての成分に関して、転置の前に、各成分(バンドパス信号)が基音に起因するものであるかまたは独立した構成要素と見なすべきものであるかについて調べる。これは反復的なアルゴリズムによって行われる。このアルゴリズムのフローチャートを図5に示す。このアルゴリズムは、510において、一つのテスト成分t(基音バンドパス信号)のiE[0…I−1]/t(Iは成分の総数(複数のバンドパス信号の数)を示す)で示される他の全ての成分(バンドパス信号)に対する周波数比、エネルギー比及びエンベロープの相互相関を評価する。反復の間の520において、一連のテスト成分(基音バンドパス信号)は、評価順序がエネルギーが小さくなっていく順番になるように、A重み付けされたエネルギーによって決定される。A重み付け(米国規格協会「アンシ規格 sl.4−1983」1983年)、(米国規格協会「アンシ規格 sl.42−2001」2001年)は、音量に関して各成分の感覚的な隆起を具現化するために応用される(例えば、H.フレッチャー(Fletcher)とW.A.マンソン(Munson)による「音量、その定義、測定及び算出」米国音響教会、第5巻、82~108ページ、1933年参照)。
【0081】
倍音搬送波周波数の一致、倍音搬送波周波数の不一致、成分のエネルギー及び/またはゼロ遅延での正規化振幅エンベロープ相関関係が閾値化によって調べられてもよい。
【0082】
周波数の一致及び不一致は以下の式(8)に基づき規定されてもよい。式(8)において、ftはテスト成分の搬送波周波数(選択された基音バンドパス信号の搬送波周波数)、fiは指標iの成分(複数のバンドパス信号のうちの一つ)である。周波数の一致に関して、1よりも大きいすべての倍数が潜在的な倍音である。潜在的な倍音として許容される周波数の不一致のための適切な閾値(搬送波周波数閾値)は例えば22Hzである。
【0083】
【数8】
【0084】
A重み付けされた成分の倍音の基音に対するエネルギー比(式(9))は、ほとんどの楽器に関して、倍音は基音よりも低いエネルギーを有するという事実を反映して、所定の閾値よりも小さいことを必要条件としてもよい。適切な閾値(エネルギー許容範囲)は、例えば比で0.6である。
【0085】
【数9】
【0086】
テスト成分のエンベロープenvtと指標iの成分のエンベロープenviとの正規化ゼロ遅延振幅エンベロープ相関関係は式(10)によって定義される。この方策は、一つの基音とその倍音は、M以内のブロック長でかなり類似の時間的エンベロープを共有しているという事実を利用するものである。適切な閾値(相関閾値)は、非公式の実験によって0.4と決定された。
【0087】
【数10】
【0088】
調査の結果、570で全ての閾値条件を満たした全ての成分iは、580で、そのテスト成分に関して倍音として分類され、その後調査から除外される。次に、そのテスト成分も、542でそのエネルギーを0に設定することにより、その後の反復処理から除外される。このアルゴリズムは、全ての成分が割り当てられるまで、つまり、最大の成分エネルギーがゼロで示されるようになるまで繰り返される。
【0089】
図4は、倍音ロッキングを含むMODVOCによる選択的転置の改良処理スキームを示す。図16とは対照的に、ロックされた成分が第2段階でそれらが帰属する基音に用いられたのと同じ転置係数で変更されている間に、ロックされていない成分だけが転置段階に入ってくる。
【0090】
つまり、図5は上述の倍音ロッキング(オーディオ信号変更方法500)のフローチャートを示している。テスト基音(選択された基音バンドパス信号)の倍音の条件に一致する成分が繰り返し分類され、サーチ範囲から除かれる。このために、複数のバンドパス信号のそれぞれは搬送波周波数とエネルギー量と時間的エンベロープを持っているか、あるいは510で、複数のバンドパス信号のそれぞれに関して、搬送波周波数、エネルギー量及び/または時間的エンベロープ(時間的エンベロープパラメータ)が決定される。さらに、各バンドパス信号のエネルギー量(エネルギー量パラメータ)は520でA重み付けされる。そして530で、最大エネルギー(最大エネルギー量パラメータ)を有する基音バンドパス信号(テスト基音ft)が選択される。既に選択された基音バンドパス信号は全て0にセットされ、既に識別された倍音バンドパス信号は全てサーチ範囲から除外されているので、選択された基音バンドパス信号は0に等しいエネルギー量パラメータを有している可能性があり、この時点でこの反復的なアルゴリズムは終了する(540)。そうでなければ、560で、選択された基音バンドパス信号と複数のバンドパス信号のうちの残りのものとの周波数の一致(または不一致)、エネルギー量及び/または時間的エンベロープの相関関係を比較する。570で一つまたはいくつかあるいは全ての条件(倍音基準)が満たされた場合、580で、それら各々のバンドパス信号は倍音バンドパス信号として識別され、この識別された倍音バンドパス信号をサーチ範囲から除外すると共に、倍音ロッキングデータを生成してもよい(例えば、倍音リストに識別されたバンドパス信号の指標を記録する)。この倍音ロッキングデータは、590で、選択された基音バンドパス信号と関連して保存されてもよい。選択された基音バンドパス信号の全ての倍音バンドパス信号を識別した後、592で、選択された基音バンドパス信号のエネルギー(エネルギー量パラメータ)を0にセットし、530で、次の基音バンドパス信号として最大エネルギーを有するものを選択する。
【0091】
信号処理部は、バンドパス信号の変更のために倍音ロッキングデータを使用してもよい。可能な実施例を図4に示す。この例では、例えば、信号処理部はMIDIマッパー1600と倍音変更器400を含む。MIDIマッパー1600は、それぞれの選択された基音バンドパス信号の搬送波周波数を、個々の変更目標に応じて変更する(基音が変更されない場合も含み得る)。MIDIマッパー1600は、例えば図16に示すように実施されてもよい。倍音変更器400は倍音変更コントローラ410、倍音乗算器420及び倍音変更供給器430を含んでいてもよい。倍音変更コントローラ410は倍音乗算器420と倍音変更供給器430とに接続されていてもよく、倍音乗算器420は倍音変更供給器430に接続されていてもよい。倍音乗算器420は、識別された倍音バンドパス信号の搬送波周波数fに、関連する基音バンドパス信号に掛けられたものと同じ転置係数(前述の許容範囲を有する)を掛けてもよく、倍音変更供給器430に変更後の搬送波周波数f’を送る。倍音変更器400が識別された倍音バンドパス信号の搬送波周波数を認識した場合(例えば倍音ロッキングデータに基づき)、倍音変更コントローラ410は倍音変更供給器430に対して、識別された倍音バンドパス信号の変更後の搬送波周波数を供給するよう始動させてもよい。そうでなければ、倍音変更供給器430はMIDIマッパー1600の出力を供給してもよい。さらに、図4はここで提案する概念のボコーダーでの実施を示し、バンドパス信号の搬送波周波数に加えて、それに対応する周波数変調(FM)信号も、変更前の搬送波周波数と変更後の搬送波周波数との比で掛けられることで変更される。周波数変調の代わりにまたは周波数変調に加えて、オーディオ信号の音量がバンドパス信号選択的に変更されてもよい。このために、バンドパス信号の振幅変調(AM)信号が変更されてもよい。
【0092】
つまり、図4は、倍音ロッキングを使用した(識別された倍音バンドパス信号をそれに関連する基音バンドパス信号の変更に応じて変更する)変調ボコーダー成分(バンドパス信号)の改良された選択的転置を示すものである。ロックされていない搬送波周波数(基音バンドパス信号であり得る)のみがMIDI音符に量子化され、適切な対応するMIDI楽譜上にマッピングされる(それぞれの変更目標に応じて)。ロックされた成分(識別された倍音バンドパス信号)は、帰属の基音(関連する基音バンドパス信号)の元の搬送波周波数と変更後の搬送波周波数との比で掛けることによって転置されてもよい。
【0093】
図6Aは、本発明の一実施形態に係るオーディオ信号変更装置600のブロック図である。この装置600は、エンベロープ形状決定部610、フィルターバンク処理部620、信号処理部630、結合部640及びエンベロープ成形部650を含む。エンベロープ形状決定部610はエンベロープ成形部650に接続され、フィルターバンク処理部620は信号処理部630に接続され、信号処理部630は結合部640に接続され、結合部640はエンベロープ成形部650に接続されている。エンベロープ形状決定部610は、時間領域入力オーディオ信号を表す周波数領域オーディオ信号602に基づき、エンベロープ形状係数612を決定する。さらに、フィルターバンク処理部620は、周波数領域オーディオ信号602に基づき、サブバンド領域の複数のバンドパス信号622を生成する。信号処理部630は、所定の変更目標に基づき、複数のサブバンド領域バンドパス信号のうちの一つ622を変更する。さらに、結合部640は、時間領域オーディオ信号642を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部(例えば変更後のサブバンド領域バンドパス信号を含む)を結合する。エンベロープ成形部650は、成形されたオーディオ信号652を得るために、時間領域オーディオ信号642のエンベロープをエンベロープ形状係数612に基づき成形する。
【0094】
あるいは、エンベロープ成形部650は、信号処理部630と結合部640の間に配置されていてもよく(信号処理部630はエンベロープ成形部650に接続され、エンベロープ成形部650は結合部640に接続される)、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープを、エンベロープ形状係数612に基づき成形してもよい。
【0095】
オーディオ信号を処理する前にエンベロープ形状係数612を抽出し、一つまたはそれ以上のバンドパス信号を変更した後にそのエンベロープ形状係数612を使用してオーディオ信号のエンベロープを成形することにより、違う方法で変更されたバンドパス信号のスペクトルのコヒーレンスがより正確に保たれ得る。さらに、過渡信号に関して、時間とともに広がる量子化ノイズもエンベロープ成形部650によって成形し得る。このようにして、変更後のオーディオ信号の感覚的質をかなり向上することができる。さらに、オーディオ信号全体に関する先験的な情報(例えば多声音楽の全体のタイトル)は必要ではないので、オーディオ信号のリアルタイムの変更が可能である。
【0096】
また別の方法として、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620の間に配置されてもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0097】
オーディオ信号を処理する前にエンベロープ形状係数612を抽出し、フィルターバンク処理部620によって複数のバンドパス信号622がサブバンド領域で生成された後にそのエンベロープ形状係数612を使用してその複数のバンドパス信号622のエンベロープを成形することにより、適応フィルターバンクが実現でき、特に過渡信号に関して局所的なコヒーレンスを向上させることができる(例えば、J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「感覚的高品質オーディオコーディングのための断続的信号適応フィルターバンク」(信号処理のオーディオ及び音響への応用に関するIEEEのASSPワークショップ、モーホンク、1997年)を参照)。この場合、変更後の信号(変更後のバンドパス信号)が成形されるのではなく、変更の前に、生成されたバンドパス信号の質が過渡信号の再生という点で向上され得る。
【0098】
周波数領域オーディオ信号602は、例えば、時間領域入力信号に基づき(例えば離散フーリエ変換によって)周波数領域オーディオ信号602を生成する前処理部から与えられてもよいし、記憶ユニットから与えられてもよい。エンベロープ形状決定部10によって決定されるエンベロープ形状係数612は、例えば、線形予測係数であるかまたは周波数領域オーディオ信号602のスペクトルをパラメータ化する他の係数であってもよい。
【0099】
信号処理部630は、複数のサブバンド領域バンドパス信号のうちの一つ、一部または全部の信号622を変更可能である。所定の変更目標は、例えば全部のサブバンド領域バンドパス信号に対する場合と一部のサブバンド領域バンドパス信号に対する場合とで異なる。例えば、オーディオ信号のキーモードを変換するためのサブバンド領域バンドパス信号の所定の変更目標は、上記の表を参照して前述したようなものであってもよい。
【0100】
周波数領域オーディオ信号602は、例えばフーリエ変換で得られるスペクトル線を含んでいてもよい。周波数領域オーディオ信号のスペクトル線(バンドパス信号とみなすこともできる)とフィルターバンク処理部620によって生成されるバンドパス信号との違いは、周波数領域オーディオ信号のスペクトル線は、フィルターバンク処理部620によって生成されるサブバンド領域バンドパス信号によって表される帯域幅よりも狭い帯域幅を表すということである。例えば、周波数領域オーディオ信号602は離散フーリエ変換によって得られる周波数スペクトルを示しているが、それはフィルターバンク処理部620によって複数のバンドパス信号に分解される。そして、この複数のバンドパス信号の信号数(例えば10、16、20またはそれ以上)は、周波数スペクトルのスペクトル値の個数またはスペクトル線の個数(例えば512個またはそれ以上の個数のスペクトル値)よりも非常に少ない。
【0101】
エンベロープ形状決定部610は周波数領域オーディオ信号602の周波数に関する予測に基づきエンベロープ形状係数を決定するが、これは例えば前述したような線形予測係数の決定により実行されてもよい。
【0102】
フィルターバンク処理部620は複数のバンドパス信号を出力するが、これらの各バンドパス信号622は周波数領域オーディオ信号602の特定の周波数領域を表すものであってもよい。あるいは、図7に示すように、フィルターバンク処理部620は、予測フィルター710と信号減算器720とフィルターバンク730とを含み、残余オーディオ信号722に基づき複数のバンドパス信号622を得るためのものであってもよい。このために、予測フィルター710は周波数領域オーディオ信号602とエンベロープ形状係数612に基づき予測オーディオ信号712を生成してもよい。さらに、信号減算器720は周波数領域オーディオ信号602から予測オーディオ信号712を差し引いて残余オーディオ信号722を得てもよい。複数のバンドパス信号を得るために、この残余オーディオ信号722は、フィルターバンク730がバンドパス信号を生成するのに使用されてもよい。
【0103】
さらに、フィルターバンク処理部620は任意の信号変換器を含んでいてもよい。この信号変換器(例えば片側逆転離散フーリエ変換器)は、複数のバンドパス信号622を得るために、フィルターバンク730によって生成されたバンドパス信号をサブバンド領域に変換してもよい。あるいは、この信号変換器は信号処理部630の一部であってもよい。
【0104】
本発明に係るいくつかの実施形態において、変更後のオーディオ信号の低周波部分でのアーチファクト生成を避けるために、入力オーディオ信号の低周波部分を変更から除外してもよい。このために、オーディオ信号変更装置680は、例えば図6Bに示すように、高域/低域フィルターを含んでいてもよい。高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域フィルタリングし、そして、エンベロープ形状決定部610は高域周波数領域オーディオ信号602に基づきエンベロープ形状係数612を決定し、フィルターバンク処理部620は高域周波数領域オーディオ信号602に基づきサブバンド領域の複数のバンドパス信号を生成する。さらに、高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を低域フィルタリングし、低域オーディオ信号662を得る。さらに、装置680は、フルバンドオーディオ信号を得るために、成形されたオーディオ信号652と低域オーディオ信号662を結合するように構成されたフルバンド信号供給器670を備えている。つまり、高域/低域フィルター660は、時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域オーディオ信号と低域オーディオ信号とに分けるものであってもよい。高域オーディオ信号あるいは高域オーディオ信号の周波数領域表示が、エンベロープ形状決定部610及びフィルターバンク処理部620に与えられてもよい。これは、高域/低域フィルタリングが時間領域で実施され、続いて信号処理部が高域オーディオ信号に基づき周波数領域オーディオ信号を生成するのか、あるいは高域/低域フィルターが時間領域入力信号を表す周波数領域オーディオ信号を既に受信して、高域/低域フィルタリングを周波数領域で実施するのかによって、決定される。
【0105】
高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号をフィルタリングし、その結果、低域オーディオ信号は所定の閾値周波数(例えば100Hzまたはそれ以上)までの周波数を含むことになる。従って、高域オーディオ信号は閾値周波数以上の周波数を含む。つまり、低域オーディオ信号662を供給するためには、所定の閾値周波数よりも高い周波数が高域/低域フィルター660によって減衰され、高域オーディオ信号を供給するためには、所定の閾値周波数よりも低い周波数が高域/低域フィルター660によって減衰され得る。
【0106】
別の例においては、図6Cに示すように、エンベロープ成形部650が信号処理部630と結合部640の間に配置されている。この場合、高域/低域フィルター660は低域オーディオ信号を結合部640に送る。結合部640は、時間領域入力信号642を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号を結合する。この場合、エンベロープ成形部650は、(例えば各サブバンド領域バンドパス信号の一部である周波数域に相当する)各サブバンド領域バンドパス信号に関して、エンベロープ形状係数612に基づき(例えば係数変換器810によって)一組のバンドパスエンベロープ形状係数を決定してもよい。そして、例えば、サブバンド領域バンドパス信号の各時間サンプルに、対応する一組のエンベロープ形状係数のうちの一つのバンドパスエンベロープ形状係数を掛けることができる。例えば図15に示すボコーダーの例において、エンベロープ成形部650は乗算器1550と結合部1560との間に配置してもよい。
【0107】
さらに別の例において、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620との間に配置してもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0108】
本発明に係るいくつかの実施形態において、変更後のオーディオ信号の低周波部分でのアーチファクト生成を避けるために、入力オーディオ信号の低周波部分をエンビロープ成形から除外してもよい。このために、オーディオ信号変更装置680は、例えば図6Dに示すように、高域/低域フィルターを含んでいてもよい。高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を高域フィルタリングする。さらに、高域/低域フィルター660は時間領域入力信号または時間領域入力信号を表す周波数領域オーディオ信号を低域フィルタリングし、低域オーディオ信号662を得る。エンベロープ形状決定部610は、高域周波数領域オーディオ信号602に基づき、低域オーディオ信号622を考慮することなく、エンベロープ形状係数612を決定する。フィルターバンク処理部620は、高域周波数領域オーディオ信号602と低周波域オーディオ信号622に基づき、サブバンド領域の複数のバンドパス信号622を生成する。例えば図7に示すように、予測フィルターが使用されている場合には、高域残余オーディオ信号を得るために、高域周波数領域オーディオ信号602のみが予測フィルターと信号減算器に与えられる。低域オーディオ信号622は、サブバンド領域バンドパス信号を生成するフィルターバンクに直接与えられてもよい。信号処理部630は、高域周波数領域オーディオ信号602または低域オーディオ信号622に相当するサブバンド領域バンドパス信号を変更してもよい。あるいは、信号処理部630は、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号と低域オーディオ信号622に相当するサブバンド領域バンドパス信号を変更してもよい。結合部640は高周波域オーディオ信号602に相当するサブバンド領域バンドパス信号のみを結合してもよく、その結果、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号のみがエンベロープ成形部650によって成形されてもよい(低域オーディオ信号622に相当するサブバンド領域バンドパス信号は成形されない)。
【0109】
さらに、装置680は、フルバンドオーディオ信号を得るために、成形されたオーディオ信号652と低域オーディオ信号662に相当するサブバンド領域バンドパス信号を結合するよう構成されたフルバンド信号供給器670を含む。このために、信号処理部630はフルバンド信号供給器670に、低域オーディオ信号662に相当するサブバンド領域バンドパス信号を与えてもよい。
【0110】
別の例では、エンベロープ成形部650は信号処理部630と結合部640の間に配置されている。この場合、信号処理部630は結合部640に、低域オーディオ信号662に相当するサブバンド領域バンドパス信号を与えてもよい。結合部640は、時間領域オーディオ信号を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号(低域オーディオ信号662に相当するサブバンド領域バンドパス信号及び高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号)を結合する。この場合、エンベロープ成形部650は、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号の(例えば各サブバンド領域バンドパス信号の一部である周波数域に相当する)各サブバンド領域バンドパス信号に関して、エンベロープ形状係数612に基づき(例えば係数変換器810によって)一組のバンドパスエンベロープ形状係数を決定してもよい。そして、例えば、サブバンド領域バンドパス信号の各時間サンプルに、対応する一組のエンベロープ形状係数のうちの一つのバンドパスエンベロープ形状係数を掛けることができる。例えば図15に示すボコーダーの例において、エンベロープ成形部650は乗算器1550と結合部1560との間に配置してもよい。
【0111】
さらに別の例では、エンベロープ成形部650は信号処理部630とフィルターバンク処理部620の間に配置されていてもよく(フィルターバンク処理部620はエンベロープ成形部650に接続され、エンベロープ成形部650は信号処理部630に接続される)、成形されたオーディオ信号652を得るために、サブバンド領域バンドパス信号が信号処理部630によって変更される前に、高域周波数領域オーディオ信号602に相当するサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0112】
このようにして入力オーディオ信号の低周波部はエンベロープ成形から除外されてもよい。しかし、この低周波部は他の処理には(例えばサブバンド領域バンドパス信号の変更)送られる。さらに、予測フィルター(例えば図7に示すようなもの)は所定の閾値周波数よりも高いものだけに適用されてもよい。あるいは、高域/低域分離が既に解析側で行われている場合、高域信号のエンベロープはエンベロープ形状係数の逆数により時間領域で変更してもよい。例えば選択的転置のための適用において、AMは変更されなくてもよいので、上記の配置は処理後の配置と同じ結果をもたらす。
【0113】
本発明の一側面によると、エンベロープ成形部650は周波数領域オーディオ信号602のエネルギー量EFDASと残余オーディオ信号722のエネルギー量ERASとのエネルギー比を決定してもよい。このエネルギー比に基づき、このエネルギー比が所定のエネルギー閾値PET(0.1、0.2、0.5、0.8、1.2またはそれ以上あるいはそれ以下)よりも小さい場合には、エンベロープ成形部650は時間領域オーディオ信号642のエンベロープ成形を中断してもよい。
【0114】
【数11】
【0115】
つまり、エンベロープ成形の動作は予測の良好性に応じてオン/オフされてもよい。予測の良好性は信号(周波数領域オーディオ信号)と予測エラー(残余オーディオ信号)とのエネルギー比として定義されてもよい予測ゲインによって測定できる。時間領域オーディオ信号642のエンベロープ成形が中断された場合、成形されたオーディオ信号652は、結合部640によって出力される時間領域オーディオ信号642と等しくなる。
【0116】
エンベロープ成形部650は様々な方法で実施され得る。その一つの例を図8に示す。エンベロープ成形部650は係数変換器810と乗算器820を含んでいてもよい。係数変換器810はエンベロープ形状係数612を時間領域に変換され、そして変換後のエンベロープ形状係数812は、時間領域オーディオ信号の時間的エンベロープを成形し、成形されたオーディオ信号652を得るために、時間領域オーディオ信号642に掛けられる。これは乗算器820によって行われてもよい。例えば、時間領域オーディオ信号642の時間ブロックは512個(またはそれ以上の個数)時間サンプルを含んでいてもよく、係数変換器810は、各時間サンプルに変換後のエンベロープ形状係数812を掛けるために、512個(またはそれ以上の個数)の変換後のエンベロープ形状係数812を出力してもよい。
【0117】
既に述べたように、装置600は異なるサブバンド領域バンドパス信号を異なる方法で変更してもよい。より一般的には、信号処理部630は、複数のサブバンド領域バンドパス信号の二番目またはそれ以降の信号622を二番目またはそれ以降の所定の変更目標に基づき変更してもよいということである。前述のような最初の所定の変更目標と、二番目またはそれ以降の所定の変更目標とは異なっていてもよい。
【0118】
いくつかの実施形態において、上述の概念はボコーダーあるいは変調ボコーダーに関して利用可能である。この場合、信号処理部630は、複数のサブバンド領域バンドパス信号の各信号622に関する振幅変調信号(AM)と周波数変調信号(FM)を生成してもよい。さらに、信号処理部630はサブバンド領域バンドパス信号の振幅変調信号と周波数変調信号を所定の変更目標に基づき変更してもよい。
【0119】
さらに装置600は、図2に示した装置200に関して既に説明したように、任意に搬送波周波数決定部を含んでいてもよい。搬送波周波数決定部は、周波数領域オーディオ信号602に基づき複数の搬送波周波数を決定してもよい。これらの決定された搬送波周波数は、サブバンド領域バンドパス信号を生成するために、フィルターバンク処理部620によって、または図7に示すような実施例の場合にはフィルターバンク処理部620のフィルターバンク730によって使用されてもよく、これにより、各サブバンド領域バンドパス信号は複数の搬送波周波数のうちの異なる搬送波周波数を有する周波数域を含み、複数の搬送波周波数のうちのそれぞれに関連したサブバンド領域バンドパス信号を得ることになる。これは、例えば、上述したように周波数領域オーディオ信号の重心を決定することによって行われてもよい。
【0120】
エンベロープ形状決定部610、フィルターバンク処理部620、信号処理部630、結合部640及び/またはエンベロープ成形部650は、例えば、それぞれ個別のハードウェアユニットあるいはデジタル信号処理装置、コンピュータまたはマイクロコントローラの一部であってもよく、また、デジタル信号処理装置、コンピュータまたはマイクロコントローラ上で動作するよう構成されたコンピュータプログラムまたはソフトウェア製品の一部であってもよい。
【0121】
本発明のいくつかの実施形態は上述の概念の変調ボコーダー適用に関する。これに関して、以下でより詳細に説明する。上述の特徴は他の実施例や応用にも使用できる。
【0122】
MODVOC処理は搬送波位置周辺のバンドパス範囲におけるスペクトルコヒーレンスを保持するということを前に述べた。しかし、広帯域の全体的なスペクトルコヒーレンスは保持されない。準定常信号に関しては、このことは合成信号の感覚的質に対してわずかな影響を与えるにすぎない。もし信号がドラムビートやカスタネットなどの際立った過渡信号を含むものである場合、全体的なコヒーレンスの保持はこれらの信号の再生品質を大きく向上させることができる。
【0123】
全体的なコヒーレンスの保持は、スペクトル領域における線形予測によって向上させることができる。いくつかの方法が、例えばMPEG2/4改良オーディオ符号化(AAC)の時間的ノイズ成形(TNS)装置(例えば、J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「時間的ノイズ成形(TNS)の使用による感覚的オーディオコーダーの性能向上」(第101回AES学会、ロサンゼルス、原稿番号4384、1996年参照))により、オーディオコーデックに活用される。J.ヘレ(Herre)とJ.D.ジョンストン(Johnston)による「感覚的高品質オーディオコーディングのための断続的信号適応フィルターバンク」(信号処理のオーディオ及び音響への応用に関するIEEEのASSPワークショップ、モーホンク、1997年)において、高解像時間−周波数変換とスペクトル予測の組み合わせが、本質的に信号適応変換に相当すると示されている。
【0124】
図9は、上述の概念のMODVOC処理スキームへの統合を示している。解析段階において、入力信号xの最初のDFTに引き続き、インパルス応答h(w)を有する周波数に平行してその先の予測部の線形予測係数(LPC)が、例えば最小二乗の点で予測エラーを最小化する自動相関法によって導き出される。次に、このフィルターはスペクトル値に適用され、残余信号はMODVOCアルゴリズムによってさらに処理される。フィルター係数は全体的なエンベロープを表すものであるが、これらの係数は合成段階に送られる。合成段階において、単位円上の予測フィルターの見積もり|H(ejt)|によって導き出された全体的なエンベロープは、それを合計信号に乗法適用することで元の状態に戻され、図10に示すように出力信号yが生成される。
【0125】
つまり、図9,10は上述の概念の変調ボコーダーにおける実施を示している。図9は前処理部910を含む変調解析部を示す。前処理部910は、例えば、時間領域オーディオ信号の離散フーリエ変換を行って周波数領域オーディオ信号602を得て、その周波数領域オーディオ信号602をエンベロープ形状決定部610、予測フィルター710(例えばLPCフィルターh(ω))、信号減算器720及び搬送波周波数決定部920に送る。信号減算器720は残余オーディオ信号722をフィルターバンク730に与えてもよい。搬送波周波数決定部920は、多重搬送波重心周波数を見積もり、これらの搬送波周波数を、バンドパススペクトルの重みを制御するためのフィルターバンク730に送ってもよい。フィルターバンク730はバンドパス信号を信号変換器930に与えてもよく、この信号変換器930は、各バンドパス信号に関して片側逆離散フーリエ変換を行い、複数のサブバンド領域バンドパス信号を信号処理部に送る。変調ボコーダーのこれらの部品に関しては既に詳細に説明した。図10は変調ボコーダーの合成部を示す。合成部は結合部640、及び係数変換器810と乗算器829とを含むエンベロープ成形部を含む。変調ボコーダーのこれらの備品とエンベロープ成形部に関しては既に詳細に説明した。
【0126】
図11は、本発明の一実施形態に係るオーディオ信号変更方法1100のフローチャートを示している。この方法1100は、時間領域入力オーディオ信号を表す周波数領域オーディオ信号に基づき、エンベロープ形状係数を決定すること(1110)と、周波数領域オーディオ信号に基づきサブバンド領域で複数のバンドパス信号を生成すること(1120)を含む。さらに、方法1100は、複数のサブバンド領域バンドパス信号のうちの一つの信号を所定の変更目標に基づき変更すること(1130)を含む。また、複数のサブバンド領域バンドパス信号の少なくとも一部は、時間領域オーディオ信号を得るために結合される(1140)。さらに、方法1100は、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)、変更後のサブバンド領域バンドパス信号を含むサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)、または、サブバンド領域バンドパス信号が信号処理部によって成形されたオーディオ信号を得るために変更される前に、サブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)を含む。
【0127】
この方法1100は、さらに任意に、上述の概念の特徴を表すステップを含んでいてもよい。
【0128】
本発明に係るいくつかの実施形態はオーディオ信号変更装置であり、図1または図2に示した装置の特徴と図6に示した装置の特徴を組み合わせたものに関する。図12は、本発明の一実施形態に係る装置1200のブロック図である。
【0129】
図1に示した装置を基に、装置1200はさらにエンベロープ形状決定部610及びエンベロープ成形部650を含む。これに関して、オーディオ信号は時間領域入力オーディオ信号を表す周波数領域オーディオ信号であってもよく、エンベロープ形状決定部はこの周波数領域オーディオ信号に基づきエンベロープ形状係数を決定する。さらに、フィルターバンクによって生成される複数のバンドパス信号は、周波数領域オーディオ信号に基づきサブバンド領域で生成されてもよい。選択及び変更後の基音バンドパス信号と識別及び変更後の倍音バンドパス信号を含むサブバンド領域バンドパス信号を結合した後、得られた時間領域オーディオ信号152,642はエンベロープ成形部650に送られてもよい。エンベロープ成形部650は、成形されたオーディオ信号652を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数612に基づき成形してもよい。
【0130】
あるいは、図6に示した装置を基に、装置1200はさらに、図1に示した装置に関して説明したような基音決定部120と倍音決定部130を含む。基音決定部120は、基音バンドパス信号122を得るために、複数のサブバンド領域バンドパス信号のうちから一つの信号を選択してもよい。さらに、倍音決定部130は、選択された基音バンドパス信号122に関連する倍音バンドパス信号を得るために、複数のサブバンド領域バンドパス信号のうちから、選択された基音バンドパス信号122に関する倍音標準を満たす一つの信号112を識別してもよい。信号処理部140,630は、選択された基音バンドパス信号122を所定の変更目標に基づき変更し、選択されたその基音バンドパス信号122に関連して識別された倍音バンドパス信号132を、上述したように、選択されたその基音バンドパス信号122の変更に応じて変更してもよい。
【0131】
このように、オーディオ信号の変更中、基音とその倍音は同じように取り扱われ、複数のバンドパス信号のスペクトルコヒーレンスは、変更後の時間領域オーディオ信号を変更前のバンドパス信号から導き出されたエンベロープ形状係数に基づき成形することにより、非常に正確に保持することができる。このようにして、変更後のオーディオ信号の感覚的質をかなり向上させることができる。
【0132】
装置1200は上述の様々な実施例の更なる特徴を実現するものであってもよい。
【0133】
以下のように、変更後のオーディオ信号の感覚的質に関する向上はリスニングテストの結果によって示される。このリスニングテストのために、変調ボコーダー(MODVOC)を基にした実施例が使用されたが、その結果はここで提案している概念全般に当てはまる。
【0134】
選択的ピッチ変換という応用のための変調ボコーダー(MODVOC)の主観的なオーディオ品質と、さらに基本的なMODVOCの原理に対してここで提案する改良の利点を見積もるために、一例として、一組のオーディオファイルが作成され、処理された。また、MODVOC技術は、市場で入手可能な多声オーディオ操作のためのオーディオソフトウェア、2009年終わり頃から市場で入手可能なセレモニー(Celemony)によるメロダイン(Melodyne)エディターと比較される。
【0135】
テストにおける処理は信号のオーディオ内容を大きく変えるものであるので、オリジナルと処理後の信号の直接的な比較(標準的なリスニングテストにおいては、通常、固有の部分であるが)は、この場合には目的にかなったものではないように思われる。それでもなお、対象となるオーディオ品質を意義深い方法で測定するために、特別なリスニングテスト方法が適用されてきた。このリスニングテスト装置は、高品質MIDIエクスパンダーを使用して波形にされる記号MIDIデータに由来する。この方法により、テストにおいて同様に変更されたオーディオファイル同士の直接的な比較が可能となり、単独での選択的ピッチ処理の効果に関する調査が可能となる。このテスト装置を作成する方法を図17に示す。オリジナルのテスト信号は記号MIDIデータ表記で作成される(左上部)。これらの信号の第2バージョンは、波形にされたオリジナルオーディオに関するテストにおける目標処理に似た記号MIDI処理によって生成される(右上部)。次に、これらの信号対は高品質MIDIエクスパンダーによって波形(WAV)ファイルに変換される(左右下部)。このリスニングテストにおいて、処理後のMIDIファイルから変換された波形と、オリジナルのMIDIファイルから波形変換されたものを変調ボコーダー(MODVOC)で処理したいくつかのバージョンとを比較する(右下部)。さらに、MODVOCの出力をメロダインエディターの出力と比較する。
【0136】
MODVOCで処理された状態のものとは別に、このテストには、この種のオーディオ操作を行うためのものであり、現在では唯一市場に出ているアプリケーションであるメロダインエディターによって得られた状態のものが含まれている。メロダインエディターは最初にオーディオファイル全体の解析を自動的に行う。この初期段階の後、メロダインはオーディオファイルの分解を提案する。ユーザーとの意思疎通により、この分解をさらに精密化することも可能である。MODVOC処理の結果との正当な比較のために、評価はこの自動初期解析の結果に基づき行われる。キーや標準ピッチという先験的知識は別として、MODVOCの分解もまた全て自動で行われるからである。
【0137】
このリスニングテスト装置は、ITU(国際電気通信連合)推薦のBS.1534(ITU−R(国際電気通信連合無線通信部門)、「中音質の主観的評価方法(mushra)」2001年)に準じた標準的なMUSHRAテストに基づくものである。MUSHRAは目隠しをした状態で行うリスニングテストである。テストの被験者は一度に一人だけである。各音楽に関して、テストでは、隠れ基準とローパスフィルターを通した隠れアンカーと共に、全ての条件によるテスト音がリスナーに順番に与えられる。隠れ基準と劣化アンカーは、リスナーの信頼性をチェックするために入れられている。リスニングの間にこれらのテスト音を切り替えることが認められており、BS.1116−1で提案され(ITU−R(国際電気通信連合無線通信部門)、「多重チャンネルサウンドシステムを含むオーディオシステムにおけるわずかな障害に対する主観的評価方法」1994〜1997年)、MUSHRAテストにも適用できるような、その音楽の任意に選択できる区分に対してループが設けられている。一つの楽曲の評価をして次の楽曲に進む前に、被験者は無制限に何度も繰り返して聞くことができるので、様々な条件によるテスト音の間の非常に緻密な比較とそれらの徹底的な調査が可能となる。これらのテスト音の感覚的質は、「優良」(100ポイント)から、「良」、「普通」を介して「劣悪」(0ポイント)までの基準で評価される。楽曲の順番はランダムであり、さらに、各楽曲のテスト音の順番もランダムである。
【0138】
8つのテスト楽曲が、シートミュージックを無料で一般に提供するMUTOPIAプロジェクトから入手した。単楽器(例えばG,E)とフルオーケストラ(例えばF)を含むクラシック音楽の様々な曲から、最長約20秒の適切な部分が抜粋された。また、他の楽器の伴奏が付いた主要楽器のソロによるメロディー(例えばC)がテストの組に含まれている。いくつかの楽曲には、短時間準定常調性部分だけでなく打楽器部分も含まれており(Cではギターの出だしとGではピアノの出だし)、これはこのシステムの過渡応答に関する特別なチャレンジを提示するものである。以下の表にこれら全ての楽曲を示す。
【0139】
【表3】
【0140】
オリジナルの転置信号を得るためのMIDI処理は、ケイクウォーク(Cakewalk)製造のSonar8で行われ、高品質波形レンダリングは、サウンドライブラリーバージョン1.0.1R3でネイティブ・インスツルメンツ(Native Instruments)からのバンドスタンド(Bandstand)を使用して行われた。MODVOC処理は、倍音ロッキングとエンベロープ成形という二つの改良された処理ステップとの三つの異なる組み合わせで評価された。メロダインエディターとの比較のために、バージョン1.0.11が使用された。これら全てのテスト音の条件を以下の表に示す。
【0141】
【表4】
【0142】
主観リスニングテストは、「理想的な」リビングルームに類似した環境で高質なリスニングテストが行えるように設計された防音リスニングラボで行われた。リスナー達は、アップル(Apple)のMACミニに接続されたエディロール(EDIROL)のUSBサウンドインターフェースから引き出されたSTAX静電ヘッドフォンを装着した。リスニングテストのソフトウェアはフラウンホファーのIISによってWAV変換され、MUSHRAモードで作動され、テストを行う際にリスナーをサポートするための簡単なGUIを提供するものであった。リスナー達は、プレイアウトの間、基準音(1)と別の様々なテスト音(2〜7)の間で切り換えることができる。各リスナーは、各楽曲及び各テスト音をどれくらいの時間聞くのかは、個別に決定することができる。実際の切り換えの際には、音は弱まる。GUIにおいて、仮想バーが各テスト音の評価を視覚化する。一方ではプレエコーやポストエコーまたは過渡信号の分散のような典型的な信号処理のアーチファクトに関して、また他方ではスペクトルピッチやメロディーや音色のような音楽的パラメータに関して知識に基づいた判断が得られるように、オーディオコーディングに精通し、音楽に関する経歴のある経験豊富なリスナー達が選ばれた。リスナー達は、さらに、彼らの見解や印象を非公式に述べるように依頼された。
【0143】
合計15人の被験者がこのテスト結果に貢献した。一人のリスナーは、隠れオリジナルを識別するのに失敗したことが明らかであった(オリジナルに対して64ポイントの評価をした)ため、後で除外された。
【0144】
図18はこのリスニングテストの結果をまとめたものである。選択的ピッチ転置によって処理された楽曲の感覚的質は、「普通」から「良」の範囲にある。劣化アンカーは「不良」と「劣悪」の間に評価づけられ、前記処理された楽曲とアンカーとの間の隔たりは約40MUSHRAポイントにもなる。
【0145】
絶対的なスコアは、各楽曲の(各テスト音での)感覚的質を定量化する情報を提供し、従ってそのテストセット中の楽曲間の質の違いを暗に評価するものであるが、そのリスニングテスト内の様々なテスト音を比較するのには適切ではない。これらのテスト音の評価は独立したものではないからである。異なる選択的転置処理方法により得られたテスト音を直接的に比較するために、スコアの違いは以下のように考慮される。
【0146】
図19は、改良MODVOCの様々な結果(条件4,5によるテスト音)のスコアを単純なMODVOCの結果(条件3によるテスト音)のスコアに基づき算出された結果を示す。ここでは、改良MODVOCの結果の全てのスコアが単純なMODVOCの結果のスコアよりもかなり良い(改良MODVOCの結果の全てのスコアは0よりも上に位置している)。楽曲A,Cに対して倍音ロッキングを適用した場合を除く全ての楽曲とテスト音に関して、95%の信頼性で有意性がある。
【0147】
図20は、条件6(メロダインエディター)によるテスト音に対するスコアの違いを表示したものである。楽曲Cに関して、条件5でのMODVOC結果のスコアはメロダインエディターによる結果よりもかなり良いのに対し、条件4での結果はわずかに良いが、条件3は95%の信頼区間で(信頼区間の重複が全くない状態で)不確定である。楽曲Bのテスト音2、F,Gのテスト音5に関しても、全く何の優位性のある結果も得られなかった。しかし、楽曲Cのテスト音4と楽曲Fのテスト音4,5に関しても、MODVOCの良好な性能が見られる。他の全ての場合においては、MODVOCのスコアはメロダインエディターよりもかなり悪い。
【0148】
このスコアは、プレエコーまたはポストエコーによる過渡信号の品質低下のような不自然な音のアーチファクト、ピッチの精密さ、メロディーの正確さ及び音色の保持というような面を含む全体的な質に関する判断を反映している。この結果をより詳細に解釈するために、リスナー達は実際のスコアを記載する際に、彼らの非公式な見解も記載するよう依頼された。これらの見解から、音色の保持と不自然な音のアーチファクトの無さは、例えばメロディーの良好な保持よりも、延滞的なスコアによりよくあらわされていることがわかった。さらに、リスナーがあるメロディーを知らなかった場合、そのリスナー(被験者)はテストの間にすぐさま基準メロディーを覚えることができず、正しいメロディーを確信することができなかったようである。これが、音色、特に一つの楽器による音の保持に関する高い忠実性を有するメロダインエディターで処理された楽曲に対する評価の方が高かった説明であり得る。しかし、たぶん分類の間違いにより起こり得る大きなメロディーの間違いを偶然に引き起こす代償を支払うことになる。MODVOCは分類技術に基づく特性に主に頼っているわけではないので、この点においてより堅固である。
【0149】
本発明に係るいくつかの実施形態はピッチの選択的転置のための改良変調ボコーダーに関する。変調ボコーダー(MODVOC)の概念はもう既に紹介されており、多声音楽に関する選択的転置を行うことができるその一般的な機能が取り上げられてきた。これは、前もって録音されたPCM音楽サンプルのキーモードを変換することを目的とする応用を可能にする。MODVOCによる選択的ピッチ転置のために、ここで、二つの改良技術を提案する。選択的転置の性能とこれらの技術の長所は、オリジナルのオーディオ刺激に関して、ピッチの点で非常に大きな変化をもたらすことができる特別に指定されたリスニングテスト手順から得られた結果によって評価される。この主観的な感覚的質の評価結果は、MODVOCとさらにまたこの課題を達成可能な最初に市販されたソフトウェアによって、マイナーキーとメジャーキーとの間でモード変換された楽曲に関して提示される。
【0150】
ここで言及すべきことは、メロダインエディターはいかなる操作をも可能にする前に最初にオーディオファイル全体の自動解析を行うのに対し、MODVOCはブロックごとに処理を行うのでリアルタイム処理が可能であるということである。
【0151】
ピッチの選択的転置のための変調ボコーダー(MODVOC)の改良技術を提案してきた。MIDIからもたらされたテスト信号に対するリスニングテストの結果から、単純なMODVOCの感覚的質は、倍音ロッキングとエンベロープ成形により確かに改善されることが結論付けられる。全ての楽曲に関して、10MUSHURAポイントもの増加が見込まれる。この向上は主に倍音ロッキングに起因するものである。
【0152】
また、MODVOCと市販されているソフトウェア(メロダインエディター)の比較から、現時点において選択的ピッチ転置で達成可能な一般的な質のレベルは「まあまあ」と「良い」の間に位置するであろう。MODVOCは本質的に分類の決定に主に頼るものではないので、メロディーの誤った解釈に関してはより確実なものである。
【0153】
操作の前にオーディオファイル全体に対してメロダインエディターが行うマルチパス解析とは対照的に、MODVOCはもっぱらシングルパスのブロックごとの処理に基づくものであり、潜在的にストリーミングつまりリアルタイム処理が可能である。
【0154】
上述の概念のいくつかの側面を一つの装置に関して説明してきたが、これらの側面は、これに対応する方法(ブロックや装置は方法ステップや方法ステップの特徴に対応する)の説明でもあることは明らかである。同様に、方法ステップに関して説明した側面は、これに対応する装置の相応のブロック、部品または特徴の説明でもある。
【0155】
本発明により符号化されたオーディオ信号は、デジタル記憶媒体に記憶可能であり、またインターネットのような無線通信媒体や有線通信媒体のような通信媒体上で通信可能である。
【0156】
実施条件に応じて、本発明の実施形態はハードウェアでまたはソフトウェアで実施できる。このような実施は、例えばフロッピーディスク、DVD、ブルーレイ、CD、ROM、PROM、EPROM、EEPROM、またはFLASHメモリーなどのコンピュータ上で読み取り可能な制御信号を記憶しているデジタル記憶媒体を使用して行うことができ、これは、それぞれの方法が実行されるようにプログラム可能なコンピュータシステムと協働する(協働可能な)ものである。従って、このデジタル記憶媒体はコンピュータ上で読み取り可能なものであってもよい。
【0157】
本発明に係るいくつかの実施形態は、コンピュータ上で読み取り可能な制御信号を有するデータキャリアを含み、このデータキャリアはプログラム可能なコンピュータシステムと協働可能であり、ここで説明してきた方法のうちの一つが実行される。
【0158】
概して、本発明の実施形態は、プログラムコードを有するコンピュータプログラム製品として実施でき、このコンピュータプログラム製品がコンピュータ上で起動されると、このプログラムコードは上述の方法の一つを実行するように働く。このプログラムコードは、例えば、機械で読み取り可能なキャリアに記憶されていてもよい。
【0159】
他の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムであり、機械で読み取り可能なキャリアに記憶されているものを含む。
【0160】
つまり、本発明の方法の一つの実施形態は、コンピュータ上で起動された際に、ここで説明してきた方法のうちの一つを実行するためのプログラムコードを有するコンピュータプログラムである。
【0161】
本発明の方法の別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムを記憶したデータキャリア(デジタル記憶媒体またはコンピュータで読み取り可能な媒体)である。
【0162】
本発明の方法のさらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムを表すデータストリームまたは一連の信号である。このデータストリームまたは一連の信号は、例えばインターネットのようなデータ通信接続を介して送受信されるように構成されていてもよい。
【0163】
さらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するよう構成された例えばコンピュータやプログラム制御可能な論理素子のような処理手段を含む。
【0164】
さらに別の実施形態は、ここで説明してきた方法のうちの一つを実行するためのコンピュータプログラムがインストールされたコンピュータを含む。
【0165】
いくつかの実施形態において、プログラム制御可能な論理素子(例えばフィールド・プログラマブル・ゲート・アレイ)は、ここで説明してきた方法の機能のうちのいくつかを実行するためにあるいは全部を実行するために使用できる。いくつかの実施形態において、フィールド・プログラマブル・ゲート・アレイは、ここで説明してきた方法のうちの一つを実行するために、マイクロプロセッサと協働してもよい。概して、これらの方法は何らかのハードウェア装置によって実行されることが好ましい。
【0166】
上述の実施形態は、単に本発明の原理を説明するためのものである。当業者にとっては、ここで説明してきた配置や詳細に対する様々な変更が容易であろうと思われる。従って、本発明は特許請求項の範囲によってのみ制限され、ここでの説明により提示された具体的詳細によっては制限されない。
【特許請求の範囲】
【請求項1】
オーディオ信号を変更するための装置(600)であり、
時間領域入力オーディオ信号を表す周波数領域オーディオ信号(602)に基づき、エンベロープ形状係数(612)を決定するよう構成されたエンベロープ形状決定部(610)と、
周波数領域オーディオ信号(602)に基づき、複数のバンドパス信号(622)をサブバンド領域で生成するよう構成されたフィルターバンク処理部(620)と、
複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号(622)を、所定の変更目標に基づき変更するよう構成された信号処理部(630)と、
時間領域オーディオ信号(642)を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部を結合するよう構成された結合部(640)と、
成形されたオーディオ信号(652)を得るために、時間領域オーディオ信号(642)のエンベロープをエンベロープ形状係数(612)に基づき成形するか、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数(612)に基づき成形するか、または、サブバンド領域バンドパス信号が信号処理部(630)によって処理される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数(612)に基づき成形するよう構成されたエンベロープ成形部(650)を含む、
オーディオ信号変更装置(600)。
【請求項2】
請求項1に記載の装置であり、
エンベロープ成形部(650)は係数変換器(810)と乗算器(820)を含み、
係数変換器(810)はエンベロープ形状係数(612)を時間領域に変換するよう構成され、
乗算器(820)は時間領域オーディオ信号(642)に変換後のエンベロープ形状係数(812)を掛けるよう構成されている。
【請求項3】
請求項1または2に記載の装置であり、
エンベロープ形状決定部(610)は、周波数領域オーディオ信号(602)の周波数に関する予測に基づき、エンベロープ形状係数(612)を決定するよう構成されている。
【請求項4】
請求項1、2または3に記載の装置であり、
フィルターバンク処理部(620)は予測フィルター(710)と信号減算器(720)とフィルターバンク(730)とを含み、
予測フィルター(710)は、周波数領域オーディオ信号(602)とエンベロープ形状係数(612)に基づき、予測オーディオ信号(712)を生成するよう構成され、
信号減算器(720)は、残余オーディオ信号(722)を得るために、周波数領域オーディオ信号(602)から予測オーディオ信号(712)を差し引くよう構成され、
フィルターバンク(730)は、残余オーディオ信号(722)に基づく複数のバンドパス信号を得るために、バンドパス信号(622)を生成するよう構成されている。
【請求項5】
請求項4に記載の装置であり、
エンベロープ成形部(650)は、周波数領域オーディオ信号(602)のエネルギー量と残余オーディオ信号(722)のエネルギー量とのエネルギー比を決定するよう構成され、
エンベロープ成形部(650)は、エネルギー比が所定のエネルギー閾値よりも低い場合には、時間領域オーディオ信号(642)のエンベロープ成形を中断するよう構成されている。
【請求項6】
請求項4または5に記載の装置であり、
フィルターバンク処理部(620)は、複数のバンドパス信号を得るためにフィルターバンク(730)によって生成されたバンドパス信号をサブバンド領域に変換するよう構成された信号変換器(930)を含む。
【請求項7】
請求項1、2、3、4、5または6に記載の装置であり、
信号処理部(630)は、複数のサブバンド領域バンドパス信号のうちの第2のサブバンド領域バンドパス信号を、第2の所定の変更目標に基づき変更するよう構成され、
前記所定の変更目標と第2の所定の変更目標とは異なる。
【請求項8】
請求項1、2、3、4、5、6または7に記載の装置であり、
信号処理部(630)は、複数のサブバンド領域バンドパス信号のうちの各サブバンド領域バンドパス信号(622)に関して、振幅変調信号(AM)と周波数変調信号(FM)を生成するよう構成され、
信号処理部(630)は、サブバンド領域バンドパス信号の振幅変調信号(AM)または周波数変調信号(FM)を、所定の変更目標に基づき変更するよう構成されている。
【請求項9】
請求項1、2、3、4、5、6、7または8に記載の装置であり、
該装置は、周波数領域オーディオ信号(602)に基づき、複数の搬送波周波数を決定するよう構成された搬送波周波数決定部(920)をさらに含み、
フィルターバンク処理部(620)は、複数の搬送波周波数のうちの各搬送波周波数に関連するバンドパス信号を得るために、各バンドパス信号が複数の搬送波周波数のうちの別々の搬送波周波数を含む周波数域を有するようにバンドパス信号を生成するよう構成されている。
【請求項10】
請求項1、2、3、4、5、6、7、8または9に記載の装置であり、
該装置は、時間領域入力オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を高域フィルタリングするよう構成された高域/低域フィルター(660)をさらに含み、
高域/低域フィルター(660)は、低域オーディオ信号(662)を得るために、時間領域入力オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を低域フィルタリングするよう構成され、
エンベロープ形状決定部(610)は高域周波数領域オーディオ信号(602)に基づきエンベロープ形状係数(612)を決定するよう構成され、
フィルターバンク処理部(620)は、高域周波数領域オーディオ信号(602)と低域オーディオ信号(662)とに基づき、複数のバンドパス(622)をサブバンド領域で生成するよう構成され、
信号処理部(630)は、高域周波数領域オーディオ信号(602)または低域オーディオ信号(662)に関連するサブバンド領域バンドパス信号を変更するよう構成され、
結合器(640)は、時間領域オーディオ信号(642)を得るために、高域周波数領域オーディオ信号(602)に対応するサブバンド領域バンドパス信号を結合するか、または、時間領域オーディオ信号(642)を得るために、高域周波数領域オーディオ信号(602)に対応するサブバンド領域バンドパス信号と低域オーディオ信号(662)に対応するサブバンド領域バンドパス信号を結合するよう構成されている。
【請求項11】
請求項1、2、3、4、5、6、7、8、9または10に記載の装置であり、
該装置は、時間領域オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を高域フィルタリングするよう構成された高域/低域フィルター(660)をさらに含み、これにより、エンベロープ形状決定部(610)は高域周波数領域オーディオ信号(602)に基づきエンベロープ形状係数(612)を決定し、フィルターバンク処理部(620)は、高域周波数領域オーディオ信号(602)に基づき、複数のバンドパス(622)をサブバンド領域で生成し、
高域/低域フィルター(660)は、低域オーディオ信号(662)を得るために、時間領域入力オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を低域フィルタリングするよう構成され、
結合部(640)が、時間領域オーディオ信号(642)を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号と低域オーディオ信号を結合するよう構成されているか、または、フルバンド信号供給部(670)が、フルバンドオーディオ信号を得るために、成形されたオーディオ信号(652)と低域オーディオ信号を結合するよう構成されている。
【請求項12】
請求項1、2、3、4、5、6、7、8、9、10または11に記載の装置であり、
該装置は基音決定部と倍音決定部をさらに含み、
基音決定部は、基音バンドパス信号を得るために、複数のサブバンド領域バンドパス信号のうちから一つのサブバンド領域バンドパス信号(622)を選択するよう構成され、
倍音決定部は、選択された基音バンドパス信号に関連する倍音バンドパス信号を得るために、複数のサブバンド領域バンドパス信号のうちから選択された基音バンドパス信号に関する倍音基準を満たす一つのサブバンド領域バンドパス信号を識別するよう構成され、
信号処理部(630)は、選択された基音バンドパス信号を所定の変更目標に基づき変更するよう構成され、選択された基音バンドパス信号に関連して識別された倍音バンドパス信号を、選択された基音バンドパス信号に対する変更に応じて変更するよう構成されている。
【請求項13】
請求項12に記載の装置であり、
各サブバンド領域バンドパス信号(622)は搬送波周波数を含み、
倍音決定部は、複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号(622)の搬送波周波数を選択された基音バンドパス信号の搬送波周波数と比較するよう構成され、
前記サブバンド領域バンドパス信号(622)の搬送波周波数が、所定の周波数許容誤差で、選択された基音バンドパス信号の搬送周波数の倍数である場合、倍音基準は満たされる。
【請求項14】
オーディオ信号を変更するための方法(1100)であり、
時間領域入力オーディオ信号を表す周波数領域オーディオ信号(602)に基づき、エンベロープ形状係数を決定すること(1110)と、
周波数領域オーディオ信号に基づき、複数のバンドパス信号をサブバンド領域で生成すること(1120)と、
複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号を、所定の変更目標に基づき変更すること(1130)と、
時間領域オーディオ信号を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部を結合すること(1140)と、
成形されたオーディオ信号を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形する(1150)か、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形する(1150)か、または、サブバンド領域バンドパス信号が信号処理部によって処理される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)を含む、
オーディオ信号変更方法(1100)。
【請求項15】
請求項14に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムであり、デジタル信号処理装置、コンピュータまたはマイクロコントローラ上での動作に伴い、請求項14に記載の方法を実行する。
【請求項1】
オーディオ信号を変更するための装置(600)であり、
時間領域入力オーディオ信号を表す周波数領域オーディオ信号(602)に基づき、エンベロープ形状係数(612)を決定するよう構成されたエンベロープ形状決定部(610)と、
周波数領域オーディオ信号(602)に基づき、複数のバンドパス信号(622)をサブバンド領域で生成するよう構成されたフィルターバンク処理部(620)と、
複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号(622)を、所定の変更目標に基づき変更するよう構成された信号処理部(630)と、
時間領域オーディオ信号(642)を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部を結合するよう構成された結合部(640)と、
成形されたオーディオ信号(652)を得るために、時間領域オーディオ信号(642)のエンベロープをエンベロープ形状係数(612)に基づき成形するか、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数(612)に基づき成形するか、または、サブバンド領域バンドパス信号が信号処理部(630)によって処理される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数(612)に基づき成形するよう構成されたエンベロープ成形部(650)を含む、
オーディオ信号変更装置(600)。
【請求項2】
請求項1に記載の装置であり、
エンベロープ成形部(650)は係数変換器(810)と乗算器(820)を含み、
係数変換器(810)はエンベロープ形状係数(612)を時間領域に変換するよう構成され、
乗算器(820)は時間領域オーディオ信号(642)に変換後のエンベロープ形状係数(812)を掛けるよう構成されている。
【請求項3】
請求項1または2に記載の装置であり、
エンベロープ形状決定部(610)は、周波数領域オーディオ信号(602)の周波数に関する予測に基づき、エンベロープ形状係数(612)を決定するよう構成されている。
【請求項4】
請求項1、2または3に記載の装置であり、
フィルターバンク処理部(620)は予測フィルター(710)と信号減算器(720)とフィルターバンク(730)とを含み、
予測フィルター(710)は、周波数領域オーディオ信号(602)とエンベロープ形状係数(612)に基づき、予測オーディオ信号(712)を生成するよう構成され、
信号減算器(720)は、残余オーディオ信号(722)を得るために、周波数領域オーディオ信号(602)から予測オーディオ信号(712)を差し引くよう構成され、
フィルターバンク(730)は、残余オーディオ信号(722)に基づく複数のバンドパス信号を得るために、バンドパス信号(622)を生成するよう構成されている。
【請求項5】
請求項4に記載の装置であり、
エンベロープ成形部(650)は、周波数領域オーディオ信号(602)のエネルギー量と残余オーディオ信号(722)のエネルギー量とのエネルギー比を決定するよう構成され、
エンベロープ成形部(650)は、エネルギー比が所定のエネルギー閾値よりも低い場合には、時間領域オーディオ信号(642)のエンベロープ成形を中断するよう構成されている。
【請求項6】
請求項4または5に記載の装置であり、
フィルターバンク処理部(620)は、複数のバンドパス信号を得るためにフィルターバンク(730)によって生成されたバンドパス信号をサブバンド領域に変換するよう構成された信号変換器(930)を含む。
【請求項7】
請求項1、2、3、4、5または6に記載の装置であり、
信号処理部(630)は、複数のサブバンド領域バンドパス信号のうちの第2のサブバンド領域バンドパス信号を、第2の所定の変更目標に基づき変更するよう構成され、
前記所定の変更目標と第2の所定の変更目標とは異なる。
【請求項8】
請求項1、2、3、4、5、6または7に記載の装置であり、
信号処理部(630)は、複数のサブバンド領域バンドパス信号のうちの各サブバンド領域バンドパス信号(622)に関して、振幅変調信号(AM)と周波数変調信号(FM)を生成するよう構成され、
信号処理部(630)は、サブバンド領域バンドパス信号の振幅変調信号(AM)または周波数変調信号(FM)を、所定の変更目標に基づき変更するよう構成されている。
【請求項9】
請求項1、2、3、4、5、6、7または8に記載の装置であり、
該装置は、周波数領域オーディオ信号(602)に基づき、複数の搬送波周波数を決定するよう構成された搬送波周波数決定部(920)をさらに含み、
フィルターバンク処理部(620)は、複数の搬送波周波数のうちの各搬送波周波数に関連するバンドパス信号を得るために、各バンドパス信号が複数の搬送波周波数のうちの別々の搬送波周波数を含む周波数域を有するようにバンドパス信号を生成するよう構成されている。
【請求項10】
請求項1、2、3、4、5、6、7、8または9に記載の装置であり、
該装置は、時間領域入力オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を高域フィルタリングするよう構成された高域/低域フィルター(660)をさらに含み、
高域/低域フィルター(660)は、低域オーディオ信号(662)を得るために、時間領域入力オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を低域フィルタリングするよう構成され、
エンベロープ形状決定部(610)は高域周波数領域オーディオ信号(602)に基づきエンベロープ形状係数(612)を決定するよう構成され、
フィルターバンク処理部(620)は、高域周波数領域オーディオ信号(602)と低域オーディオ信号(662)とに基づき、複数のバンドパス(622)をサブバンド領域で生成するよう構成され、
信号処理部(630)は、高域周波数領域オーディオ信号(602)または低域オーディオ信号(662)に関連するサブバンド領域バンドパス信号を変更するよう構成され、
結合器(640)は、時間領域オーディオ信号(642)を得るために、高域周波数領域オーディオ信号(602)に対応するサブバンド領域バンドパス信号を結合するか、または、時間領域オーディオ信号(642)を得るために、高域周波数領域オーディオ信号(602)に対応するサブバンド領域バンドパス信号と低域オーディオ信号(662)に対応するサブバンド領域バンドパス信号を結合するよう構成されている。
【請求項11】
請求項1、2、3、4、5、6、7、8、9または10に記載の装置であり、
該装置は、時間領域オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を高域フィルタリングするよう構成された高域/低域フィルター(660)をさらに含み、これにより、エンベロープ形状決定部(610)は高域周波数領域オーディオ信号(602)に基づきエンベロープ形状係数(612)を決定し、フィルターバンク処理部(620)は、高域周波数領域オーディオ信号(602)に基づき、複数のバンドパス(622)をサブバンド領域で生成し、
高域/低域フィルター(660)は、低域オーディオ信号(662)を得るために、時間領域入力オーディオ信号または時間領域入力オーディオ信号を表す周波数領域オーディオ信号を低域フィルタリングするよう構成され、
結合部(640)が、時間領域オーディオ信号(642)を得るために、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号と低域オーディオ信号を結合するよう構成されているか、または、フルバンド信号供給部(670)が、フルバンドオーディオ信号を得るために、成形されたオーディオ信号(652)と低域オーディオ信号を結合するよう構成されている。
【請求項12】
請求項1、2、3、4、5、6、7、8、9、10または11に記載の装置であり、
該装置は基音決定部と倍音決定部をさらに含み、
基音決定部は、基音バンドパス信号を得るために、複数のサブバンド領域バンドパス信号のうちから一つのサブバンド領域バンドパス信号(622)を選択するよう構成され、
倍音決定部は、選択された基音バンドパス信号に関連する倍音バンドパス信号を得るために、複数のサブバンド領域バンドパス信号のうちから選択された基音バンドパス信号に関する倍音基準を満たす一つのサブバンド領域バンドパス信号を識別するよう構成され、
信号処理部(630)は、選択された基音バンドパス信号を所定の変更目標に基づき変更するよう構成され、選択された基音バンドパス信号に関連して識別された倍音バンドパス信号を、選択された基音バンドパス信号に対する変更に応じて変更するよう構成されている。
【請求項13】
請求項12に記載の装置であり、
各サブバンド領域バンドパス信号(622)は搬送波周波数を含み、
倍音決定部は、複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号(622)の搬送波周波数を選択された基音バンドパス信号の搬送波周波数と比較するよう構成され、
前記サブバンド領域バンドパス信号(622)の搬送波周波数が、所定の周波数許容誤差で、選択された基音バンドパス信号の搬送周波数の倍数である場合、倍音基準は満たされる。
【請求項14】
オーディオ信号を変更するための方法(1100)であり、
時間領域入力オーディオ信号を表す周波数領域オーディオ信号(602)に基づき、エンベロープ形状係数を決定すること(1110)と、
周波数領域オーディオ信号に基づき、複数のバンドパス信号をサブバンド領域で生成すること(1120)と、
複数のサブバンド領域バンドパス信号のうちの一つのサブバンド領域バンドパス信号を、所定の変更目標に基づき変更すること(1130)と、
時間領域オーディオ信号を得るために、複数のサブバンド領域バンドパス信号の少なくとも一部を結合すること(1140)と、
成形されたオーディオ信号を得るために、時間領域オーディオ信号のエンベロープをエンベロープ形状係数に基づき成形する(1150)か、変更後のサブバンド領域バンドパス信号を含む複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形する(1150)か、または、サブバンド領域バンドパス信号が信号処理部によって処理される前に、複数のサブバンド領域バンドパス信号のエンベロープをエンベロープ形状係数に基づき成形すること(1150)を含む、
オーディオ信号変更方法(1100)。
【請求項15】
請求項14に記載の方法を実行するためのプログラムコードを有するコンピュータプログラムであり、デジタル信号処理装置、コンピュータまたはマイクロコントローラ上での動作に伴い、請求項14に記載の方法を実行する。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6A】
【図6B】
【図6C】
【図6D】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図2】
【図3】
【図4】
【図5】
【図6A】
【図6B】
【図6C】
【図6D】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【公表番号】特表2013−520698(P2013−520698A)
【公表日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願番号】特願2012−554355(P2012−554355)
【出願日】平成23年2月25日(2011.2.25)
【国際出願番号】PCT/EP2011/052838
【国際公開番号】WO2011/104356
【国際公開日】平成23年9月1日(2011.9.1)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(500341779)フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン (75)
【公表日】平成25年6月6日(2013.6.6)
【国際特許分類】
【出願日】平成23年2月25日(2011.2.25)
【国際出願番号】PCT/EP2011/052838
【国際公開番号】WO2011/104356
【国際公開日】平成23年9月1日(2011.9.1)
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.フロッピー
【出願人】(500341779)フラウンホーファー−ゲゼルシャフト・ツール・フェルデルング・デル・アンゲヴァンテン・フォルシュング・アインゲトラーゲネル・フェライン (75)
[ Back to top ]