説明

スパース主成分分析の基数制約組み合わせ最適化問題に対する候補解を最大にするための、そして該最適化問題を解くための、コンピュータによって実施される方法

【課題】方法は、スパース主成分分析の基数制約組み合わせ最適化問題に対する候補解を最大にする。
【解決手段】近似的な方法は、入力として、共分散行列A、候補解、およびスパーシティパラメータkを有する。その後、Aの部分行列固有値分解によって、共分散行列Aおよびスパーシティパラメータkの固有値構造に関する候補解ベクトルxのための変分再正規化を実行して、最も可能性の高い解である、分散最大化k−スパース固有ベクトルx(^)が求められる。別の方法は、順方向パスおよび逆方向パスを含むネストされた貪欲探索技法によって、その問題を解く。その問題に対する厳密解は、貪欲解の出力で、分岐限定探索を初期化する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、包括的には主成分分析(PCA:Principal Component Analysis)に関し、より詳細には、顔認識および金融資産管理のような実用的な応用形態にスパース主成分分析を適用することに関する。
【背景技術】
【0002】
主成分分析(PCA)は、よく知られている多変量統計分析技法である。PCAは、データ分析および次元削減のために頻繁に用いられる。PCAは、科学、工学および金融の至るところで応用形態を有する。
【0003】
PCAは、データにおいて、最大分散を獲得する入力変数の一次結合を求める。典型的には、PCAは、データ行列の特異値分解(SVD)を用いて実行される。別法として、共分散行列が用いられる場合には、固有値分解を適用することができる。PCAは、情報の損失を最小限に抑えたデータ圧縮を提供する。さらに、主成分は、無相関である。これは、データ分析を容易にする。
【0004】
残念なことに、PCAは、通常、全てのデータの0でない一次結合、すなわち「負荷」を伴う。しかしながら、生命情報科学、計算機生物学、コンピュータビジョン、金融資産管理、並びに地球物理学的データ、遺伝学的データおよび医療データの分析のような、多くの実用的な応用形態の場合に、座標軸は、物理的な意味を有する。それゆえ、0でない負荷の数を削減することが好都合であろう。これは、低次元であるが、それでもデータ内の分散を特徴付ける「スパースな(まばらな)」主成分を提供するであろう。
【0005】
スパースなデータ表現は、人間が理解するのを助け、計算コストを削減し、学習モデルにおいて、より良好な一般化を与えるので、一般的に望ましい。
【0006】
金融ポートフォリオ最適化、および地理空間統計学における資源配分等の応用形態の場合、スパースネスは、多くの場合に、空間/時間および材料費が投資または測定単位の数を制約する可能性があるか否かの判定基準を定義する鍵である。機械学習では、入力データのスパースネスは、特徴選択および自動適合性判定に関連付けられる。
【0007】
従来のスパースPCAは、典型的には、軸回転および成分閾値処理等の簡単な変換を適用する。J. CadimaおよびI. Jolliffe著「Loadings and correlations in the interpretation of principal components」(Applied Statistics, vol. 22, pp. 203-214, 1995)を参照願いたい。基本的に、根底にある目標は、多くの場合に主変数の特定および分析に基づいて、回帰分析のための特徴の部分集合を選択することである。G. McCabe著「Principal Variables」(Technometrics, vol. 26, pp. 137-144, 1984)を参照願いたい。
【0008】
最初の確実な計算方法、すなわち、SCoTLASSは、適当な最適化フレームワークを提供する。しかしながら、その方法は、計算上、実用的ではない。I. JolliffeおよびM. Uddin著「A modified principal component technique based on the Lasso」(Journal of Computational and Graphical Statistics, vol. 12, pp. 531-547, 2003)を参照願いたい。
【0009】
別の方法は、従来の主成分に関して、L−罰則付き回帰を用いるElasticNet定式化を用いる。H. Zou、T. HastieおよびR. Tibshirani著「Sparse principal component analysis」(Journal of Computational and Graphical Statistics)(掲載予定)を参照願いたい。
【0010】
別の方法は、スパースPCAに関連する問題、すなわち、非凸性の高い目的関数を認識している。A. d'Aspremont、L. El Ghaoui、M. I. JordanおよびG. R. G. Lanckriet著「A direct formulation for sparse PCA using semi-definite programming」(Advances in Neural Information Processing Systems (NIPS), December 2004)を参照願いたい。その方法は、半正定値計画(SDP:Semi−Definite Programming)を用いて凸近似を求めることにより、厳しい基数制約を緩和する。
【発明の開示】
【発明が解決しようとする課題】
【0011】
データのスパース主成分分析(PCA)が、スパース固有ベクトルの基底を求める。スパース固有ベクトルの射影が、そのデータの最大分散を表す。スパースPCAは、特定の部類のNP困難で、基数制約の、非凸最適化問題に属する。スパースPCAは、生命情報科学から金融工学およびコンピュータビジョンに及ぶ広範な応用形態のために用いることができる。
【0012】
従来のスパースPCAは、典型的には、連続的な近似および凸緩和を用いて、スパースな主成分を求める。
【0013】
本発明は、新規のスパースPCA法を提供する。本方法は、変分固有値範囲に基づく離散的な定式化を用いる。本方法は、最適なスパースな主成分を求める。本方法は、近似的な貪欲探索過程および厳密分岐限定(探索過程を用いることができる。
【0014】
さらに、任意のPCA法によって得られた近似的な候補解を改善するために、離散スペクトル定式化を用いる簡単な後処理再正規化ステップを適用することができる。
【課題を解決するための手段】
【0015】
本発明の1つの実施の形態では、コンピュータによって実施される方法が、スパース主成分分析の基数制約組み合わせ最適化問題に対する候補解を最大にする。
【0016】
複数の要素からなる候補解ベクトルxが、その候補解ベクトルxのそれぞれ取り得る要素対間の共分散を示す共分散行列Aとともに与えられる。その候補解は、貪欲探索を用いて求めることができる。最終解の基数を表すスパーシティパラメータkも自動的に与えられるか、または求められる。
【0017】
その後、共分散行列Aおよびスパーシティパラメータkに関して候補解ベクトルxのための変分再正規化を実行して、スパーシティパラメータkに局所的に最適であり、かつスパース主成分分析最適化問題に対する最終解である、以下の分散最大化k−スパース固有ベクトルx(^)が得られる(ここで、x(^)は、xの上に^がついたものを表す)。
【発明を実施するための最良の形態】
【0018】
本発明の1つの実施の形態は、スペクトル範囲を用いて、データに対してスパース主成分分析を実行するための方法を提供する。スパースPCAを用いて、実用的な組み合わせ最適化問題に対する解を求めることができる。
【0019】
従来技術とは対照的に、本発明は、変分固有値範囲に基づく離散的な定式化を用いる。本方法は、近似解の場合には貪欲探索を、厳密解の場合には分岐限定探索を用いて、最適なスパースな主成分を求める。
【0020】
たとえば、本方法は、以下の実用的な株式ポートフォリオ最適化問題を最適に解くために用いることができる。スタンダード&プアーズ株価指数に掲載される500銘柄のような、入手可能な株式の実質的に大きなプールから選定された10銘柄xに投資することが望ましい。入力500×500共分散行列Aは、500銘柄の各対間のリスク/リターン実績における共分散を示す。最終解ベクトルx(^)内に0でない10個の要素だけが存在するという制約を前提として、xAx/xxが最大にされるような、配分の500次元ベクトルx(^)を見つけることが望ましい。
【0021】
これは基本的には、2つの問題、すなわち最良の10銘柄の株式を選定するという問題、および選択された株式の中で資金を配分するという問題に分解することができる。第2の問題は、第1の問題よりも解くのが容易である。第2の問題に対する解または「解決法」は、以下のとおりである。10銘柄の株式が既に選定されているものと仮定する。その際、以下に記述される命題1に従って、最良の資金配分方式が、これらの10銘柄の株式に対応する共分散行列Aの行/列を抽出し、主要または主固有ベクトル、すなわち、最大固有値または分散に対応する固有ベクトルを求める。これは、候補解のための最良の局所解であることが保証される。ただし、「局所」は、同じ10銘柄の株式を用いる全ての取り得る配分の中にあることを意味する。
【0022】
これは簡単な解のように見えるかもしれないが、従来技術は、これまで、ここで示した目新しいやり方で、この問題を取り扱ったことがない。言い換えると、人々は、上記の2つの問題を一緒に取り扱っており、それゆえ、10銘柄の株式のリストと同時に、各株式に配分される資金を見つけ出した。彼らは、10銘柄の株式のリストを得た後に、主要固有ベクトルを用いて、選択された株式の中で資金を配分することへの最適解を求めるべきであることを理解していなかった。
【0023】
第1の問題は、解くのがはるかに難しい。実際には、この問題は、NP困難として知られている問題である。これは、この問題の複雑さが、多項式時間における非決定性チューリング機械によって解くことができる問題よりも本質的に難解であることを意味する。組み合わせ最適化問題の決定性のものがNP完全問題の部類に属するとき、最適化するものはNP困難である。
【0024】
それゆえ、その解は、以下のように特徴付けられる。株式の候補リストを与えられるとき、その最大値は、Aの対応する部分行列の固有値によって範囲を定められることがわかっている。株式銘柄A、B、Cが選定される場合には、Aから3×3行列が生成され、その最大固有値が求められる。これが最大値になるであろう。さらに、10銘柄の株式のリストがAの対応する10×10部分行列の主要固有値によって上限を定められる場合には、これらの10銘柄の株式の任意の部分集合が、その10×10部分行列の主要固有値によって同様に上限を定められる。
【0025】
分岐限定探索において、これら2つの観測値の組み合わせが用いられ、全体的に最適な厳密解を見つけることが保証される。局所的に次善最適な貪欲探索は、その探索が終了するまで、株式を1つずつ追加(または削除)する。
【0026】
コンピュータビジョンの応用形態では、同じ技法を用いて、1つの画像内で処理すべきピクセルの部分集合を求めることができる。たとえば、顔認識の応用形態では、計算資源およびメモリ資源が限られている。それゆえ、画像内の顔の突出部に対応するピクセルだけを処理することが理にかなっている。
【0027】
最大化された解
ここで、図1を用いて、実用的な組み合わせ最適化問題に対する事前に得られた候補解101を改善するための方法100を説明する。その方法への入力は、その問題の候補解である要素からなるデータベクトルx101、共分散行列A103、およびスパーシティパラメータk102である。スパーシティパラメータkは、その問題の最終解ベクトルx(^)104内の0でない要素または「基数」の最大数を表す。
【0028】
たとえば、データベクトルx内の要素は、4つの入手可能な株式または資産グループ内のスパースな投資に対応する。共分散行列Aは、これら4つの資産の中のそれぞれ入手可能な要素対のリスク/リターン共分散を示す。株式および指標は、任意の既知の方法を用いて求めることができる。ここで、スパーシティパラメータkは、2に設定される。言い換えると、最良の金融リターンを得るために、資金は、4つの資産のうちの2つだけに配分されることになる。
【0029】
それらの入力に従って、変分再正規化200が実行され、最大化された解ベクトルx(^)104が求められる。図2に示されるように、変分再正規化200は、入力データベクトルx101の最も大きなk個の要素102または「負荷」を、入力行列A103の行および列から抽出される、対応するk×k主部分行列A201の主固有ベクトルu(A)202のk個の要素で置き換え、そのベクトルxの全ての他の要素を0に設定して、実用的な組み合わせ最適化問題に対する最大化された最終解ベクトルx(^)104を求める。
【0030】
貪欲探索解
図3は、スパースPCA最適化問題に対する貪欲解のステップ300を示す。その方法への入力は、共分散行列A103およびスパーシティパラメータk102である。ネストされた順方向探索400および逆方向探索500を適用して、候補解(複数可)101’〜101’’が得られる。その後、これら2つの候補解から、分散(最大固有値)が大きい方の解が、出力のスパース固有ベクトル(最終解ベクトル)x(^)104として選択される(310)。
【0031】
順方向探索および逆方向探索
図4は、順方向探索400のステップを示す。この探索では、候補解のリストは、最初に空であり、「最良の」、または最も大きな最大分散を有する要素が、値kまで1つずつ追加される。対応する逆方向探索500は、図5に示すように、完全な候補リストで開始し、要素が1つずつ削除される。
【0032】
厳密な最適解
図6は、スパースPCA問題に対する厳密解を得るための仕組み500を示す。最初に、双方向貪欲法300が、先に説明されたように、共分散行列103および所望のスパーシティパラメータk102を与えられる。貪欲探索300の近似解は、後述する式(4)に関して後にさらに詳細に説明されるように、共分散行列103および固有値範囲611を用いて、分岐限定組み合わせ探索(610)アルゴリズムとともに後に用いるための初期の上限としてその分散を有する、初期の候補解x101を与える。その際、分岐限定アルゴリズム610は、そのアルゴリズムが終了するときに、厳密な最適解x601を見つけることを保証される。
【0033】
ここで、本発明の実施の形態について、明示的にさらに詳細に説明する。
【0034】
スパースPCA定式化
一般的に、スパース主成分分析(PCA)は、基数制約二次計画(QP)として定式化することができる。対称な正定値共分散行列A∈S103が与えられるとき、k<n個以下の0でない主成分を有するスパース測定ベクトルx∈Rの分散の二次形式x’Axが最大にされる。
【0035】
【数1】

【0036】
ただし、基数card(x)=‖x‖は、L−ノルムの中にある。この最適化問題は、非凸で、NP困難であり、それゆえ手に負えない。
【0037】
本発明は、最適なベクトルx(^)104を求め、その後、従来の数値ルーチンを用いる共分散行列Aの再帰的分解を用いて、スパース固有ベクトルが得られる。
【0038】
その分解では、固有ベクトルのスパースネスが、スパーシティパラメータk102の値によって制御される。kの値が異なる場合、主成分も異なる。しかしながら、特に、主成分が多数の場合に、値kを設定するための指針はなく、それらの相互作用、たとえば、非直交基底が起こり得る。
【0039】
したがって、従来のPCAとは異なり、スパースな分解は、唯一の解を与えない。実際には、数多くの異なる解を取り得る。それゆえ、本発明の1つの実施の形態は、スパーシティパラメータkの選択を「導く」。結果として、本発明によれば、最適なスパース固有ベクトルを求めることができる。
【0040】
基数制約を用いない場合、式(1)のQP最適化は、以下の分析範囲を有し、対応する唯一の固有ベクトル解を有するレイリー−リッツ商である。
【0041】
【数2】

【0042】
その場合に、最適な目標値または分散は、まさに、主固有ベクトルx(^)=uを用いる最大固有値λ(A)である。全ての(λ,u)のランクは、昇順である。それゆえ、λmin=λおよびλmax=λである。しかしながら、非線形基数制約の追加は、k<nの場合に、最適な目標値が厳密にλmax(A)未満であり、従来技術の場合のように、主固有ベクトルがもはや、最適化問題の解に不可欠ではない。代わりに、それは、最適解x(^)104を得るために用いられる共分散行列A103の固有値のスペクトルである。
【0043】
最適性条件
式(1)を最適化するための計算方法を定式化する際に、最適解がわかっているものと仮定して、適合しなければならない条件を最初に考える。基数kを有する単位ノルムベクトルx(^)が、最大目標値vを生成する。すなわち、最終解ベクトルx(^)は、スパーシティパラメータkに局所的に最適である分散最大化k−スパース固有ベクトルである。
【0044】
z∈Rの場合に、これは、x’(^)Ax(^)=z’Azが、ベクトルx(^)と同じk個の0でない主成分を含むことを意味する。部分行列A201は、共分散行列A103のk×k主部分行列である。部分行列Aは、順方向探索および逆方向探索を用いて、ベクトルx(^)のゼロインデックスに対応する行および列を削除することによって、または同じく、0でないインデックスの行および列を追加することによって得られる。ベクトルx(^)と同様に、k−ベクトルzは、単位ノルムであり、z’Azは、標準的な制約のないレイリー−リッツ商に等価である。下位問題の最大分散は、λmax(A)であり、それは、最適な目標値vである。これは、以下の命題によって要約することできる。
【0045】
命題1
式(1)によって表されるスパースPCA最適化問題の最適値vは、λmax(A)に等しい。ただし、Aは、最も大きな最大固有値を有する、共分散行列Aのk×k主部分行列である。詳細には、最適なスパースベクトルx(^)の0でない主成分は、uの主成分に厳密に等しく、それは、部分行列Aの主固有ベクトルを構成する。
【0046】
この命題は、スパースPCA、および同等の部類の基数制約最適化問題の組み合わせの性質を明示する。しかしながら、特に、そのような簡単な行列項の場合に、スパース固有ベクトルのこの厳密な定義、および最適性のための必要十分条件は、組み合わせC(n,k)の指数関数的増加に起因し、主部分行列Aを実際に求めるための効率的な方法を提供しない。しかしながら、nが比較的小さく、たとえば、約30未満であり、最適性が保証されているときには、網羅的な探索が実用的である。それゆえ、実用科学および金融分野において示される数多くの実際のデータセットの場合には、最適化問題を強引に解くことができる。
【0047】
変分再正規化
さらに、命題1は、命題2によって表されるように、従来の連続的なPCA法、たとえば、d'Aspremont他、Jolliffe他およびZou他の方法によって得られるスパースな主成分を改善するためのかなり簡単で、非常に効率的な、計算による「解決法」を提供する。
【0048】
命題2
基数kを有する単位ノルムベクトルx(〜)が任意の既知の近似技法によって求められる候補主成分を含む(ここで、x(〜)は、xの上に〜がついたものを表す)。x(〜)の0でない部分ベクトルはz(〜)である。部分行列Aの最大主固有ベクトルは、uであり、uは、ベクトルx(〜)の同じ0でないインデックスによって定義される。
【0049】
z(〜)≠u(A)である場合には、x(〜)は、次善最適解である。x(〜)の0でない主成分を主固有ベクトルuの0でない主成分で置き換えることによって、分散がv(〜)からλ(A)まで増加することが保証される。この変分再正規化200は、任意の従来のPCA法を用いて、近似的なスパースな主成分、すなわち候補解101を求めることができ、その後、より簡単で、かつ容易な制約のない問題、すなわち部分行列Aの固有分解を解くことができることを示す。この手順、すなわち「解決法」は、近似的な主成分の品質を低下させること、または分散を小さくすることは決してない。実際には、大体の場合に、解の品質は改善される。
【0050】
詳細には、「簡単な閾値処理」の従来技術の方法の場合、従来の(スパースでない)主固有ベクトルは、u(A)の最も小さな絶対値負荷の(n−k)を0に設定し、その後、単位ノルムベクトルのために適した再正規化を適用することによって、単に閾値処理される。残念なことに、そのような簡単なベクトル再正規化(または等価な連続近似)は、0でない要素によって指示される部分空間(部分集合)内であっても、最適解を生成するためにほとんど当てにすることはできない。こうして、大部分の従来のスパースPCA法は、本明細書において記述される適当な再正規化によって容易に改善することができる。
【0051】
変分固有値範囲
式(1)から得ることができる目標値vは、レイリー−リッツ定理によって、スペクトル半径λmax(A)によって範囲を定められることを思い起こされたい。さらに、共分散行列Aの主部分行列のスペクトルは、ある程度、最適解を定義する。驚くほどのことではないが、2つの固有値スペクトルは、ポアンカレ包含原理(inclusion principle)として知られている不等式によって関連付けられる。
【0052】
定理1:包含原理
Aを、スペクトルλ(A)を有する対称n×n行列とする。Aを、固有値λ(A)を有する、1≦k≦nの場合の行列Aの任意のk×k主部分行列とする。ここで、各整数iは、1≦i≦kであり、下式(2)の関係が成り立つ。
【0053】
【数3】

【0054】
この定理は、クーラント−フィッシャー「最小−最大」定理の変分不等式において、基数kのスパーシティパターンを付加的な直交性制約として課すことによって証明することができる。たとえば、J. H. Wilkinson著「The Algebraic Eigenvalue Problem」(Clarendon Press, Oxford, England, 1965)を参照願いたい。
【0055】
それゆえ、対称行列の固有値は、その全ての部分行列の固有値612のための上限および下限611を形成する。k=n−1である式(2)の特殊な場合には、下式(3)のように、対称行列のよく知られている固有値「飛越し特性(interlacing property)」が導かれる。
【0056】
【数4】

【0057】
すなわち、AおよびAn−1のスペクトルは、交互に存在し、より大きな行列の固有値は、より小さな行列の固有値を包含する。
【0058】
正定値対称共分散行列の場合、新たな変数を追加することによって、行列AからAm+1に拡大すると、λminを減少させて、λmaxを増加させることによって、スペクトル範囲が必ず拡張される。こうして、固有値最大化の場合、式(1)の不等式制約card(x)≦kが、最適時には等式になる。
【0059】
それゆえ、基数のために指定された上限kにおいて、最大分散が達成される。さらに、関数v(k)は、所与の基数の場合の最適な分散を表す。その関数は、下式に示すある範囲にわたって単調に増加する。
【0060】
【数5】

【0061】
ただし、σmaxは、行列A内の最大対角分散である。実際には、スパースPCA法の動作を視覚化し、比較するための簡単で有益な方法は、それらの個々の分散曲線v(〜)(k)をプロットし、その曲線を最適な分散v(k)と比較することである。たとえば、図7を参照願いたい。
【0062】
分散を最大にするので、式(2)において、i=kを設定することによって、関連する包含範囲611が得られる。これにより、以式(4)の場合の下限および上限がもたらされる。
【0063】
【数6】

【0064】
意外にも、行列Aのk番目の最も小さな固有値は、基数kで得られる分散の場合の下限である。したがって、その下限によって、kの最適な値を選択できるようになる。また、従来のPCA法において、次元削減のための固有ベクトルの選択を導いた、行列Aのスペクトルを用いて、スパースPCA法のための基数kを選択し、所望の最小分散が確実に得られるようにすることもできる。さらに、分岐限定過程を迅速化するために、また、種々の解の品質を従来の動作指標と比較するために、以式のように、下限λ(A)を用いることができる。
【0065】
【数7】

【0066】
式(4)は、基数に関係なく、λmax(A)において上限を定義し、それは、全ての分岐限定下位問題において、たとえば、べき乗法で求めることができる。式(4)は、λmax(A)=1のように共分散をあらかじめ正規化するために、または別法では、本発明の分散曲線v(〜)/λmax(A)を正規化するために用いることもできる。実際には、飛越し特性の結果として、この範囲に関連する興味深い関係が生じる。単一のj番目の行および列A\jを削除することによって得られる、Aのn個の取り得る(n−1)×(n−1)主部分行列の中に、その最大固有値がλ(A)の(n−1)/n以上である少なくとも1つの部分行列が、下式(5)に示されるように、存在する。
【0067】
【数8】

【0068】
分岐限定探索過程の場合のこの不等式の意味は、特に大きなnの場合において、共分散行列Aの全ての主部分行列のスペクトル半径(λmax)を恣意的に小さくできないことである。それゆえ、適度に高い基数において、λ(A)の概ね全てが獲得される。この事実は、kが大きくなるのに応じて、下限λ(A)が増加することによって裏付けられる。
【0069】
組み合わせ探索アルゴリズム
命題1および2、包含原理および飛越し特性に基づいて、そして、特に分散曲線v(k)の単調性が与えられるとき、本明細書において記述されるようなスパースな主成分を求めるために、一般的な部類の整数計画(IP)最適化技法を用いることができる。
【0070】
実際には、逆方向削除500のような貪欲探索過程が、式(5)の範囲によって指示される。完全なインデックス集合I={1,2,...,n}で開始し、その後、k個の主成分だけが残るまで、最大のλmax(A\j)を生成する変数jを順次削除することができる。小さな基数k≪nの場合、逆方向探索の計算コストは、最大の複雑さO(n)まで増加する可能性がある。
【0071】
それゆえ、順方向選択400を実行することもできる。ゼロインデックス集合I={}で開始し、その後、k個の主成分が選択されるまで、最大のλmax(A+j)を生成する変数jを順次追加することができる。順方向貪欲探索は、O(n)未満の最悪時の複雑さを有する。順方向探索および逆方向探索を組み合わせて、双方向貪欲探索300にすることができる。1からnまで貪欲順方向パスを実行し、その後、nから1まで個別に逆方向探索を実行して、k毎に最良の解を選択する。この双方向貪欲探索は、非常に有効である。
【0072】
貪欲探索は、概ね最適であり、好都合ではあるが、特に、スパースPCA問題が金融または工学の応用分野の中にあり、最適性のギャップが小さい場合であっても、時間とともに大きな損失を生じる可能性がある場合には、やはり最適解を求める方法を使うだけの価値がある。
【0073】
本発明の分岐限定探索610は、計算上効率の良い範囲、具体的には式(4)の上限を利用する。この範囲は、縦型探索のためのFIFOキューにおいて直面している全ての下位問題において用いられる。より効率的な最良優先探索のために、式(4)の下限を用いて、キューを分類することができる。それゆえ、この厳密なスパースPCA探索過程は、それが終了するときに、最適解を見つけるであろう。必然的に、分岐限定の場合、探索時間は、初期の候補主成分の分散の品質によって決まる。その品質が、通常、極めて高いので、本発明の双方向貪欲探索によって得られる解を用いて、厳密な探索を初期化することができる。
【0074】
スパースPCAのための全体として最もよい探索方法は、最初に双方向貪欲探索300を実行し、その結果を用いて、厳密かつ最適解601を求めるための分岐限定探索610を初期化することである。
【0075】
発明の効果
本発明の実施の形態は、変分固有値範囲を用いて、スパース主成分分析の離散スペクトル定式化を提供する。さらに、本方法は、任意の他の近似技法(式(1)の最適化における基数制約および/またはランク制約の連続緩和または凸緩和等)によって得られる任意のスパース固有ベクトルを再正規化し、それにより、獲得された分散を大きくすることによってその品質を改善することができる。さらに、貪欲探索手順および厳密分岐限定探索手順の両方を用いてスパースな主成分を得るための効率的な探索アルゴリズムが提供される。
【図面の簡単な説明】
【0076】
【図1】本発明の1つの実施の形態による組み合わせ最適化問題に対する最大化された解のブロック図である。
【図2】本発明の1つの実施の形態による変分正規化手順のブロック図である。
【図3】本発明の1つの実施の形態による組み合わせ最適化問題に対する貪欲解のブロック図である。
【図4】本発明の1つの実施の形態による貪欲解のための順方向探索のブロック図である。
【図5】本発明の1つの実施の形態による貪欲解のための逆方向探索のブロック図である。
【図6】本発明の1つの実施の形態による組み合わせ最適化問題に対する厳密解のブロック図である。
【図7】本発明の複数の実施の形態による分散を比較するグラフである。

【特許請求の範囲】
【請求項1】
スパース主成分分析の基数制約組み合わせ最適化問題に対する候補解を最大にするための、コンピュータによって実施される方法であって、
複数の要素からなる候補解ベクトルx、該候補解ベクトルxのそれぞれ取り得る要素対間の共分散を示す共分散行列A、および最終解の基数を表すスパーシティパラメータkを入力するステップと、
該スパーシティパラメータkに局所的に最適であり、かつ前記スパース主成分分析最適化問題に対する前記最終解である、分散最大化k−スパース固有ベクトルx(^)を得るために、前記共分散行列Aおよび前記スパーシティパラメータkに関して前記候補解ベクトルxの変分再正規化を実行するステップと
を含むスパース主成分分析の基数制約組み合わせ最適化問題に対する候補解を最大にするための、コンピュータによって実施される方法。
【請求項2】
前記変分再正規化は、
前記候補解ベクトルxの最も大きなk個の要素を、前記共分散行列Aの対応するk×k主部分行列Aの主固有ベクトルu(A)のk個の要素で置き換えることと、
前記分散最大化k−スパース固有ベクトルx(^)を得るために、前記候補解ベクトルxの全ての他の要素を0に設定することと
をさらに含む請求項1に記載の方法。
【請求項3】
前記共分散行列Aの行および列から前記k×k主部分行列Aを抽出することをさらに含む請求項2に記載の方法。
【請求項4】
候補解を求めるために貪欲探索を実行することをさらに含む請求項1に記載の方法。
【請求項5】
前記貪欲探索は、順方向パスおよび独立した逆方向パスを含む双方向のネストされた探索を含み、
前記方法は、前記スパーシティパラメータkのために個別に、前記順方向パスまたは前記逆方向パスのいずれかから、前記分散最大化k−スパース固有ベクトルとして最良のスパース固有ベクトルを選択する
ことをさらに含む請求項4に記載の方法。
【請求項6】
前記分散最大化k−スパース固有ベクトルx(^)のk個の非ゼロ値は、主固有ベクトルuのk個のエントリに厳密に等しく、該k個のエントリは、前記k×k主部分行列Aの最大固有値に対応する請求項2に記載の方法。
【請求項7】
前記要素は、入手可能な株式の実質的に大きなプールから選択される相対的に少ない数の株式であり、前記共分散は、該株式のそれぞれ取り得る対間のリスク/リターン実績を示す請求項1に記載の方法。
【請求項8】
前記スパーシティパラメータkは、前記分散最大化k−スパース固有ベクトルx(^)のために必要とされる最小の分散に対して大きさが最も近い前記共分散行列Aの固有値のランクに少なくとも等しい請求項1に記載の方法。
【請求項9】
スパース主成分分析の基数制約組み合わせ最適化問題を解くための、コンピュータによって実施される方法であって、
スパース主成分分析最適化問題のための入力要素間の共分散を示す共分散行列Aおよびスパーシティパラメータkを入力するステップと、
複数の要素からなる候補解ベクトルxを得るために貪欲探索を適用するステップと、
前記共分散行列Aおよび前記スパーシティパラメータkによって定義される前記基数制約組み合わせ最適化問題のための全体として最適な厳密解ベクトルxを得るために、前記候補解ベクトルxを用いる分岐限定組み合わせ探索を適用するステップと
を含むスパース主成分分析の基数制約組み合わせ最適化問題を解くための、コンピュータによって実施される方法。
【請求項10】
前記分岐限定組み合わせ探索は、探索木内の下位問題分岐パスを取り除くために固有値範囲を用いる請求項9に記載の方法。
【請求項11】
前記スパーシティパラメータkは、前記分散最大化k−スパース固有ベクトルx(^)のために必要とされる最小の分散に対して大きさが最も近い前記共分散行列Aの固有値のランクに少なくとも等しい請求項9に記載の方法。
【請求項12】
前記要素は、入手可能な株式の実質的に大きなプールから選択される相対的に少ない数の株式であり、前記共分散は、該株式のそれぞれ取り得る対間のリスク/リターン実績を示す請求項9に記載の方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2007−164783(P2007−164783A)
【公開日】平成19年6月28日(2007.6.28)
【国際特許分類】
【外国語出願】
【出願番号】特願2006−321950(P2006−321950)
【出願日】平成18年11月29日(2006.11.29)
【出願人】(597067574)ミツビシ・エレクトリック・リサーチ・ラボラトリーズ・インコーポレイテッド (484)
【住所又は居所原語表記】201 BROADWAY, CAMBRIDGE, MASSACHUSETTS 02139, U.S.A.
【Fターム(参考)】