トランスダクティブデータ分類のための方法およびシステム、ならびに機械学習手法を用いたデータ分類方法

データを分類するためのシステム、方法、データ処理装置、および製品が提供される。機械学習手法を用いたデータ分類方法がまた、開示される。該データ分類方法の一実施形態は、ラベル付きデータ点を受信するステップと、ラベルなしデータ点を受信するステップと、該ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因を受信するステップと、該少なくとも１つのコスト要因ならびに該ラベル付きデータ点および該ラベルなしデータ点を訓練例として、最大エントロピー識別を用いてトランスダクティブ分類器を訓練するステップと、該ラベルなしデータ点、該ラベル付きデータ点、および入力データ点の少なくとも１つを分類するために訓練された分類器を適用するステップと、分類されたデータ点の分類、またはその派生物を出力するステップと、を含む。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、全体としてデータ分類のための方法および装置に関する。より詳細には、本発明は、改良されたトランスダクティブ機械学習法を提供する。本発明はまた、機械学習手法を用いた新規なアプリケーションにも関する。
【背景技術】
【０００２】
データを処理する方法は、情報化時代において重要性を増しており、より最近では、とりわけ、スキャンした文書、ウェブ材料、検索エンジンデータ、文字データ、画像、音声データファイル等を含む、あらゆる生活分野における電子データの急増と共に、その重要性を増してきている。
【０００３】
探究が始まったばかりの１つの分野は、データの非手動分類である。多くの分類法において、機械またはコンピュータは、手作業で入力され生成されたルールセットおよび／または手作業で生成された訓練例に基づいて学習しなければならない。訓練例が用いられる機械学習では、学習例の数は、推定する必要のあるパラメータの数と比較して少ないことが一般的である。すなわち、訓練例によって与えられる制約を満たす解の数が多いということである。機械学習の課題は、制約の不足にもかかわらず十分に汎用化する解を求めることである。従って、従来技術と関連するこれらのおよび／または他の問題を克服する必要がある。
【０００４】
さらに必要とされることは、あらゆる種類の機械学習手法のための実用的なアプリケーションである。
【発明の開示】
【課題を解決するための手段】
【０００５】
コンピュータベースのシステムでは、本発明の一実施形態によるデータの分類手法は、ラベル付きデータ点が指定されたカテゴリに含まれるべきデータ点の訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点の訓練例であるかを示す少なくとも１つのラベルを各々が有するラベル付きデータ点を受信するステップと、ラベルなしデータ点を受信するステップと、ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因を受信するステップと、少なくとも１つのコスト要因と、ラベル付きデータ点と、ラベルなしデータ点とを訓練例として用い、繰り返し計算によって、最大エントロピー識別法（ＭＥＤ）を用いてトランスダクティブ分類器を訓練するステップであって、計算の各繰り返しに対して、ラベルなしデータ点のコスト要因は期待ラベル値の関数として調整され、データ点ラベルの事前確率はデータ点のクラス帰属確率の推定に基づいて調整されるステップと、訓練された分類器を適用して、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するステップと、分類されたデータ点の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するステップとを含む。
【０００６】
本発明の別の実施形態によるデータの分類方法は、コンピュータ上に配備して実行されることになるコンピュータ実行可能プログラムコードを準備するステップを含む。このプログラムコードは、データ点が指定されたカテゴリに含まれるべきデータ点の訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点の訓練例であるのかを示す少なくとも１つのラベルを各々が有する、コンピュータのメモリ内の格納されたラベル付きデータ点にアクセスする命令と、コンピュータのメモリからラベルなしデータ点にアクセスする命令と、コンピュータのメモリからラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因にアクセスする命令と、計算の各繰り返しに対して、ラベルなしデータ点のコスト要因が期待ラベル値の関数として調整され、データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に応じて調整される、少なくとも１つの格納されたコスト要因と、格納されたラベル付きデータ点と、ラベルなしデータ点とを訓練例として用いる繰り返し計算によって、最大エントロピー識別（ＭＥＤ）トランスダクティブ分類器を訓練する命令と、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するために、訓練された分類器を適用する命令と、分類されたデータ点の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するための命令と、を備える。
【０００７】
本発明の別の実施形態によるデータ処理装置は、（ｉ）データ点が指定されたカテゴリに含まれているデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されているデータ点に対する訓練例であるのかを示す少なくとも１つのラベルを各々が有するラベル付きデータ点と、（ｉｉ）ラベルなしデータ点と、（ｉｉｉ）ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因と、を格納するための少なくとも１つのメモリと、少なくとも１つの格納されたコスト要因ならびに格納されたラベル付きデータ点および格納されたラベルなしデータ点を訓練例として用い、トランスダクティブ最大エントロピー識別（ＭＥＤ）を用いてトランスダクティブ分類器に繰り返し教示するためのトランスダクティブ分類器訓練装置とを含む。ＭＥＤ計算の各繰り返し時に、ラベルなしデータ点のコスト要因が期待ラベル値の関数として調整され、データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に応じて調整され、トランスダクティブ分類器訓練装置によって訓練された分類器を用いて、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つが分類され、分類されたデータ点、またはその派生物は、ユーザ、別のシステム、別のステップのうちの少なくとも１つに出力される。
【０００８】
本発明の別の実施形態による製品は、コンピュータ可読のプログラム格納媒体を備えており、該媒体は、データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されているデータ点に対する訓練例であるのかを示す少なくとも１つのラベルを各々が有するラベル付きデータ点を受信するステップと、ラベルなしデータ点を受信するステップと、ラベルなしデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因を受信するステップと、ＭＥＤ計算の各繰り返し時に、ラベルなしデータ点のコスト要因が期待ラベル値の関数として調整され、データ点の事前確率がデータ点のクラス帰属確率の推定値に応じて調整される、少なくとも１つの格納されたコスト要因ならびに格納されたラベル付きデータ点および格納されたラベルなしデータ点を用いて、繰り返し最大エントロピー識別（ＭＥＤ）によってトランスダクティブ分類器を訓練するステップと、訓練された分類器を適用して、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するステップと、分類されたデータ点の分類、またはその派生物を、ユーザ、別のシステム、および別のステップのうちの少なくとも１つに出力するステップとを包含する、分類法を実行するためのコンピュータによって実行可能な命令からなる１つ以上のプログラムを明白に具体化している。
【０００９】
コンピュータベースのシステムでは、本発明の別の実施形態によるラベルなしデータを分類する方法は、データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されているデータ点に対する訓練例であるのかを示す少なくとも１つのラベルを各々が有するラベル付きデータ点を受信するステップと、ラベル付きおよびラベルなしデータ点を受信するステップと、ラベル付きデータ点およびラベルなしデータ点の事前ラベル確率を受信するステップと、ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因を受信するステップと、データ点のラベルの事前確率に基づいて各ラベル付きおよびラベルなしデータ点に対する期待ラベルを決定するステップと、データ値がほぼ収束するまで、以下の下位ステップ、すなわち、
・データ点の期待ラベルの絶対値に比例して各ラベルなしデータ点に対するスケーリングされたコスト値を生成するステップと、
・ラベル付きおよびラベルなしデータをそれらの期待ラベルに従って訓練例として用い、含まれた訓練例および除外された訓練例を与えられた決定関数パラメータの事前確率分布に対してＫＬダイバージェンスを最小化する決定関数を決定することによって、分類器を訓練するステップと、
・訓練された分類器を用いて、ラベル付きおよびラベルなしデータ点の分類スコアを決定するステップと、
・訓練された分類器の出力をクラス帰属確率に対して較正するステップと、
・決定されたクラス帰属確率に従って、ラベルなしデータ点のラベルの事前確率を更新するステップと、
・更新されたラベルの事前確率および先に決定された分類スコアを用い、最大エントロピー識別（ＭＥＤ）を用いて、ラベルおよびマージンの確率分布を決定するステップと、
・先に決定されたラベルの確率分布を用いて、新たな期待ラベルを計算するステップと、
・前回の繰り返しにより得た期待ラベルと共に新たな期待ラベルを組み込むことによって、各データ点に対する期待ラベルを更新するステップと、
を繰り返すステップと、を含む。
入力データ点の分類、またはその派生物は、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力される。
【００１０】
本発明の別の実施形態による文書を分類する方法は、ラベル割り当てに関して既知の信頼水準を有する少なくとも１つのラベル付きシード文書を受信するステップと、ラベルなし文書を受信するステップと、少なくとも１つの所定コスト要因を受信するステップと、計算の各繰り返しに対して期待ラベル値の関数として調整される少なくとも１つの所定コスト要因、少なくとも１つのシード文書、およびラベルなし文書を用い、繰り返し計算によってトランスダクティブ分類器を訓練するステップと、少なくともある程度の繰り返しの後に、ラベルなし文書に対する信頼スコアを格納するステップと、最も高い信頼スコアを有するラベルなし文書の識別子を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するステップと、を含む。
【００１１】
本発明の別の実施形態による、法的開示手続（ｄｉｓｃｏｖｅｒｙ）と関連する文書を分析する方法は、法的事項と関連する文書を受信するステップと、該文書に関して文書分類手法を実行するステップと、該文書の分類に基づいて、文書のうちの少なくとも一部の識別子を出力するステップと、を含む。
【００１２】
本発明の別の実施形態によるデータを整理する方法は、複数のラベル付きデータ項目を受信するステップと、複数のカテゴリの各々に対して、複数のカテゴリの各々に対するデータ項目のサブセットを選択するステップと、各サブセット内のデータ項目に対する不確実性をほぼゼロに設定するステップと、サブセット内に存在しないデータ項目に対する不確実性をほぼゼロではない所定値に設定するステップと、不確実性、サブセット内のデータ項目、およびサブセット内に存在しないデータ項目を訓練例として用い、繰り返し計算によってトランスダクティブ分類器を訓練するステップと、データ項目の各々を分類するために、訓練された分類器をラベル付きデータ項目の各々に適用するステップと、入力データ項目の分類またはその派生物を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するステップと、を含む。
【００１３】
本発明の別の実施形態によるインボイスと実体との関連を検証する方法は、第１の実体と関連するインボイスの形式に基づいて分類器を訓練するステップと、第１の実体および他の実体のうちの少なくとも１つと関連する旨のラベルが付けられた複数のインボイスにアクセスするステップと、分類器を用いて、インボイスに関して文書分類手法を実行するステップと、第１の実体と関連していない確率が高いインボイスのうちの少なくとも１つの識別子を出力するステップと、を含む。
【００１４】
本発明の別の実施形態による医療記録を管理する方法は、医学的診断に基づいて分類器を訓練するステップと、複数の医療記録にアクセスするステップと、分類器を用い、医療記録に関して文書分類を実行するステップと、医学的診断と関連している確率が低い医療記録のうちの少なくとも１つの識別子を出力するステップと、を含む。
【００１５】
本発明の別の実施形態による顔認識方法は、既知の信頼水準を有する少なくとも１つのラベル付きの顔のシード画像を受信するステップと、ラベルなし画像を受信するステップと、少なくとも１つの所定コスト要因を受信するステップと、少なくとも１つの所定コスト要因、少なくとも１つのシード画像、およびラベルなし画像を用い、各々に対してコスト要因が期待ラベル値の関数として調整される繰り返し計算によってトランスダクティブ分類器を訓練するステップと、少なくともある程度の繰り返しの後に、ラベルなしシード画像に対する信頼スコアを格納するステップと、最も高い信頼スコアを有するラベルなし画像の識別子を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するステップと、を含む。
【００１６】
本発明の別の実施形態による従来技術文書を分析する方法は、検索クエリに基づいて分類器を訓練するステップと、複数の先行技術文書にアクセスするステップと、分類器を用いて、従来技術文書のうちの少なくともいくつかに関して文書分類手法を実行するステップと、従来技術文書の分類に基づいて、文書のうちの少なくとも一部の識別子を出力するステップと、を含む。
【００１７】
本発明の別の実施形態による文書内容のシフトに特許分類を順応させる方法は、少なくとも１つのラベル付きシード文書を受信するステップと、ラベルなし文書を受信するステップと、少なくとも１つのシード文書およびラベルなし文書を用いてトランスダクティブ分類器を訓練するステップと、分類器を用いて、所定の閾値を上回る信頼水準を有するラベルなし文書を複数の既存のカテゴリに分類するステップと、分類器を用いて、所定の閾値を下回る信頼水準を有するラベルなし文書を少なくとも１つの新たなカテゴリに分類するステップと、分類器を用いて、カテゴライズされた文書のうちの少なくとも一部を既存のカテゴリおよび少なくとも１つの新たなカテゴリに再分類するステップと、カテゴライズされた文書の識別子を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するステップと、を含む。
【００１８】
本発明の別の実施形態による、文書を請求項にマッチングする方法は、特許文書または特許出願書類の少なくとも１つの請求項に基づいて、分類器を訓練するステップと、複数の文書にアクセスするステップと、分類器を用いて、文書のうちの少なくとも一部に関して文書分類手法を実行するステップと、文書の分類に基づいて、文書のうちの少なくとも一部の識別子を出力するステップと、を含む。
【００１９】
本発明の別の実施形態による特許文書または特許出願書類を分類する方法は、特定の特許分類に存在することが分かっている複数の文書に基づいて分類器を訓練するステップと、特許文書または特許出願書類の少なくとも一部を受信するステップと、分類器を用いて、特許文書または特許出願書類の少なくとも一部に関して文書分類手法を実行するステップと、特許文書または特許出願書類の分類を出力するステップと、を含み、文書分類手法は、はい／いいえ式分類手法である。
【００２０】
本発明の別の実施形態による特許文書または特許出願書類を分類する方法は、特定の特許分類と関連する少なくとも１つの文書に基づいて訓練された分類器を用い、特許文書または特許出願書類の少なくとも一部に関して、はい／いいえ式分類手法である文書分類手法を実行するステップと、特許文書または特許出願書類の分類を出力するステップと、を含む。
【００２１】
本発明の別の実施形態による文書内容のシフトに順応する方法は、少なくとも１つのラベル付きシード文書を受信するステップと、ラベルなし文書を受信するステップと、少なくとも１つの所定コスト要因を受信するステップと、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、およびラベルなし文書を用いてトランスダクティブ分類器を訓練するステップと、分類器を用いて、所定の閾値を上回る信頼水準を有するラベルなし文書を複数のカテゴリに分類するステップと、分類器を用いて、カテゴライズされた文書のうちの少なくとも一部をカテゴリに再分類するステップと、カテゴライズされた文書の識別子を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するステップと、を含む。
【００２２】
本発明の別の実施形態による文書を分離する方法は、ラベル付きデータを受信するステップと、一連のラベルなし文書を受信するステップと、ラベル付きデータおよびラベルなし文書に基づくトランスダクションを用いて、確率的分類規則を順応させるステップと、確率的分類規則に従って文書分類用に用いられる重みを更新するステップと、一連の文書における分離位置を決定するステップと、決定された連なりにおける分離位置の標識を、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力するステップと、標識と相関するコードのフラグを文書に立てるステップと、を含む。
【００２３】
本発明の別の実施形態による文書検索方法は、検索クエリを受信するステップと、検索クエリに基づいて文書を取り出すステップと、文書を出力するステップと、文書のうちの少なくとも１つに対する、検索クエリとの文書の関連性を示すユーザ入力ラベルを受信するステップと、検索クエリおよびユーザ入力ラベルに基づいて分類器を訓練するステップと、文書を再分類するために、分類器を用いて、文書に関して文書分類手法を実行するステップと、文書の分類に基づいて、文書のうちの少なくとも一部の識別子を出力するステップと、を含む。
【発明を実施するための最良の形態】
【００２４】
以下の記述は、本発明を実施するために現在企図される最良の形態である。この記述は、本発明の一般的原理を説明する目的でなされるものであり、本明細書において主張される発明の概念を制限することを意図するものではない。さらに、本明細書において記述される特定の特徴は、記述される他の特徴と、種々の可能な組み合わせおよび順列の各々において、組み合わせて用いられ得る。
【００２５】
本明細書において別途具体的に定義しない限り、すべての用語は、本明細書によりもたらされる意味、および当業者によって理解され、また辞書、専門書などに定義される意味を含んで、それらの用語に可能な限りの最も幅広い解釈を与えられる。
【００２６】
（文字分類）
文字データの分類に対する関心および必要性は特に強く、いくつかの分類手法が採用されてきた。以下に、文字データの分類法について検討する。
【００２７】
分類法の有用性および知能を向上させるために、例えばコンピュータのような機械が、常に増加し続ける内容に対象を分類する（または認識する）ために必要とされる。例えば、コンピュータは、光学式文字認識を用いて、手書きまたはスキャンした数字および文字を分類することができ、パターン認識を用いて、顔、指紋、戦闘機などのような画像を分類することができ、あるいは、音声認識を用いて、音、声などを分類することができる。
【００２８】
機械は、例えば文字からなるコンピュータファイルまたは文書のような文字情報オブジェクトを分類するためにも必要とされてきた。文字分類用アプリケーションは様々であり、かつ重要である。例えば、文字分類は、文字情報オブジェクトを、例えば所定のクラスまたはカテゴリの階層構造に編成するために、使用され得る。この手法で、特定の主題に関連する文字情報オブジェクトの発見（またはそれへのナビゲーション）が簡易化される。文字分類は、文字情報オブジェクトを、しかるべき人々または場所に送るために使用され得る。この手法で、情報サービス産業は、多岐にわたる主題（例えば、ビジネス、スポーツ、株式市場、フットボール、特定の会社、特定のフットボールチーム）をカバーする文字情報オブジェクトを、様々な関心を有する人々に送ることができる。文字分類は、望まない文字内容（ジャンクメール、または「スパム」とも呼ばれる望まない未承諾メールのような）によって個人が迷惑を被らないように、文字情報オブジェクトにフィルタをかけるために使用され得る。これら少数の例から分かるように、文字分類に対する多くの魅力的かつ重要な用途がある。
【００２９】
（ルールベースの分類）
一部の場合には、文字内容は、特定の承認された論理に基づき、絶対的確実性をもって分類される必要がある。ルールベースシステムは、そのような種類の分類を行うために使用され得る。基本的に、ルールベースシステムは、次の形の生成規則を用い：
もし、（条件）であれば、（事実）である。
ここで条件は、文字情報が特定の語または語句を含むか否か、特定の構文を有するか否か、または特定の属性を有するか否かを、含み得る。例えば、文字内容が語「終える」、語句「ナスダック」および数を有する場合には、それは「株式市場」に関する文字に分類される。
【００３０】
この１０年間ほどの間に、他の種類の分類器が次第に用いられるようになってきた。これらの分類器は、ルールベースの分類器のように静的で事前定義された論理を用いるものではないが、それらは、多くのアプリケーションにおいて、ルールベース分類器を上回る性能を示してきた。このような分類器は通常、学習要素と実行要素とを含む。このような分類器は、ニューラルネットワークと、ベイジアン（Ｂａｙｅｓｉａｎ）ネットワークと、サポートベクタマシンとを含み得る。これらの分類器の各々が公知であるが、読者の便宜のために、各々を以下に簡単に紹介する。
【００３１】
（学習要素および実行要素を有する分類器）
前節末でちょうど言及したとおり、学習要素および実行要素を有する分類器は、多くのアプリケーションにおいて、ルールベース分類器を上回る性能を有する。繰り返して述べると、これらの分類器は、ニューラルネットワークと、ベイジアンネットワークと、サポートベクタマシンとを含み得る。
【００３２】
（ニューラルネットワーク）
ニューラルネットワークは、基本的に、ニューロンとも呼ばれる同一の処理要素の多層にわたる階層的な配列である。各ニューロンは、１つ以上の入力を有し得るが、出力はひとつだけである。各ニューロン入力は、係数によって重み付けされる。ニューロンの出力は通常、重み付けされた入力の合計とバイアス値との関数である。活性化関数とも呼ばれるこの関数は、一般的にシグモイド関数である。すなわち、活性化関数は、Ｓ字状で、単調に増加し得、その入力（単数または複数）がそれぞれ正または負の無限大に近づくにつれて漸近的に固定値（例えば、＋１、０、−１）に接近し得る。シグモイド関数と個々のニューラル重み付けおよびバイアス値が、入力信号に対するニューロンの応答または「敏感性」を決定する。
【００３３】
ニューロンの階層的配列においては、１つの層におけるニューロンの出力は、次の層における１つ以上のニューロンへの入力として分配され得る。典型的なニューラルネットワークは、入力層と２つの別個の層、すなわち、入力層、中間ニューロン層、および出力ニューロン層を含み得る。入力層のノードはニューロンではないことに留意されたい。むしろ、入力層のノードは、１つだけの入力を有しており、基本的に、該入力を、無処理の状態で次の層の入力に供給する。例えば、ニューラルネットワークが２０×１５ピクセルアレイ内の数字を認識するために用いられる場合には、入力層は３００ニューロン（すなわち、入力の各ピクセルに対して１つ）を有し得、出力アレイは、１０ニューロン（すなわち、１０個の数字の各々に対して１つ）を有し得る。
【００３４】
ニューラルネットワークの使用法は、全体として、２つの連続する段階を含む。最初に、ネットワークが初期化され、既知の出力値（または分類）を有する既知の入力に関して訓練される。ひとたびニューラルネットワークが訓練されると、それは、次いで、未知入力を分類するために使用され得る。ニューラルネットワークは、ニューロンの重みおよびバイアスを一般的にガウス分布から生成されるランダム値に設定することによって、初期化され得る。次いで、既知の出力（または分類）を有する一連の入力を用いて、ニューラルネットワークが訓練される。訓練入力がニューラルネットワークに供給される際に、各個々の訓練パターンについてのニューラルネットワークの出力が既知の出力に近づくか、またはそれに一致するように、ニューロンの重みおよびバイアスの値が調整（例えば、既知の逆伝播法に従って）される。基本的に、重み空間における最急降下法（ｇｒａｄｉｅｎｔｄｅｓｃｅｎｔ）が、出力誤差を最小化するために用いられる。この手法で、連続的訓練入力を用いた学習は、重みおよびバイアスに対する局所最適解に向けて収束する。すなわち、重みおよびバイアスは、誤差を最小化するように調整される。
【００３５】
実際には、このシステムは、通常は、最適解に収束する点に至るまで訓練されることはない。さもなければ、このシステムは「過度に訓練」され、その結果として、このシステムは訓練データに対して過度に特殊化されることになり、訓練集合内の入力とどこか異なる入力を分類することに、適さなくなり得る。従って、訓練期間中の様々な時点で、このシステムは一組の検証データを使用して試験される。検証セットを使用したこのシステムの性能がもはや向上しなくなったときに、訓練は中止される。
【００３６】
ひとたび訓練が完了すれば、ニューラルネットワークは、訓練中に算出された重みおよびバイアスに基づいて、未知の入力を分類するために使用され得る。ニューラルネットワークが信頼性をもって未知の入力を分類できる場合には、出力層におけるニューロンの出力の１つは、他よりもはるかに高くなる。
【００３７】
（ベイジアンネットワーク）
一般的に、ベイジアンネットワークは、データ（例えば特徴ベクトル入力）と予測（例えば分類）との間の中間段階のものとして、仮説を用いる。データを所与として、各仮説の確率（「Ｐ（ｈｙｐｏ｜ｄａｔａ）」）が推定され得る。仮説の事後確率を用いて、仮説から予測が行われ、各々の仮説に関する個々の予測が重み付けされる。データＤを所与とした場合の予測Ｘの確率は、
【００３８】
【数１】

で表され、ここで、Ｈ_ｉはｉ番目の仮説である。Ｄを所与とした場合のＨ_ｉの確率（Ｐ（Ｈ_ｉ｜Ｄ））を最大化する最も確からしい仮説は、最大事後仮説（または「Ｈ_ＭＡＰ」）と呼ばれ、
【００３９】
【数２】

で表すことができる。
ベイズの定理を用いると、データＤを所与とした場合の仮説Ｈ．ｓｕｂ．ｉの確率は、
【００４０】
【数３】

で表すことができる。データＤの確率は固定されたままである。従って、Ｈ_ＭＡＰを求めるためには分子を最大化する必要がある。
【００４１】
分子の第１項は、仮説をｉをとしてそのデータが観測されたであろう確率を表す。第２項は、所与の仮説ｉに割り当てられた事前確率を表す。
【００４２】
ベイジアンネットワークは、変数と、変数間の有向辺（ｄｉｒｅｃｔｅｄｅｄｇｅ）とを含んでおり、それによって有向非巡回（ｄｉｒｅｃｔｅｄａｃｙｃｌｉｃ）グラフ（または「ＤＡＧ」）を定義する。各変数は、相互排他的状態の任意の有限数をとることができる。親変数Ｂ_１、．．．Ｂ_ｎ、を有する各変数Ａに対して、確率テーブル（Ｐ（Ａ｜Ｂ_１．．．Ｂ_ｎ）が添付されている。ベイジアンネットワークの構造は、各変数が、その親変数を所与とした場合、各変数の非子孫（ｎｏｎ−ｄｅｓｃｅｎｄａｎｔ）とは条件付きで独立であるという仮定を、符号化している。
【００４３】
ベイジアンネットワークの構造が既知であり、変数が観測可能であると仮定すれば、条件付き確率テーブルの集合のみを学習すればよい。これらのテーブルは、一組の学習例からもたらされる統計を用いて直接推定され得る。構造が既知であるが一部の変数が隠されている場合には、学習は、上に論じたニューラルネットワークの学習に類似している。
【００４４】
簡単なベイジアンネットワークの一例を以下に紹介する。変数「ＭＭＬ」は、「私の芝生の水分」を表し得、「湿った」状態と「乾燥した」状態を有し得る。ＭＭＬ変数は、「雨」という親変数と「私のスプリンクラーが作動している」という親変数とを有し得、各々の親変数は「はい」の状態と「いいえ」の状態とを有する。別の変数「ＭＮＬ」は、「私の隣人の芝生の水分」を表し得、「湿った」状態と「乾燥した」状態を有し得る。ＭＮＬ変数は、「雨」という親変数を共有し得る。この例では、予測は、私の芝生が「湿っている」か、または「乾燥している」かであり得る。この予測は、仮説（ｉ）「もし雨が降れば、私の芝生は確率（ｘ_１）で湿るであろう」と、仮説（ｉｉ）「もし私のスプリンクラーが作動していたら、私の芝生は確率（ｘ_２）で湿るであろう」とに依存し得る。雨が降ったという確率または私のスプリンクラーが作動していたという確率は、他の変数に依存し得る。例えば、もし私の隣人の芝生が湿っており、かつ隣人がスプリンクラーを持っていなければ、雨が降ったという可能性がより高くなる。
【００４５】
上に論じたように、ベイジアンネットワークにおける条件付き確率テーブルは、ニューラルネットワークの場合のように訓練され得る。有用にも、予備的知識の提供を許容することによって、学習過程は短縮され得る。しかしながら、残念なことに、条件付き確率に対する事前確率は通常未知であり、その場合には、一様な事前確率が用いられる。
【００４６】
本発明の一実施形態は、２つの基本機能、すなわち分類器用パラメータの生成と、文字情報オブジェクトのようなオブジェクトの分類とのうちの、少なくとも１つを実行し得る。
【００４７】
基本的に、パラメータは、一組の訓練例に基づいて、分類器用に生成される。一組の訓練例から、一組の特徴ベクトルが生成され得る。一組の特徴ベクトルの特徴が縮約され得る。生成されるべきパラメータは、定義済みの単調（例えばシグモイド）関数および重みベクトルを含み得る。重みベクトルは、ＳＶＭ訓練（または別の公知の手法）によって決定され得る。単調（例えば、シグモイド）関数は、最適化手法を用いて定義され得る。
【００４８】
文字分類器は、重みベクトルと、定義済みの単調（例えば、シグモイド）関数とを含み得る。基本的に、本発明の文字分類器の出力は、
【００４９】
【数４】

で表すことができる。ここで、
Ｏ_ｃ＝カテゴリｃに関する分類出力、
ｗ_ｃ＝カテゴリｃと関連付けられた重みベクトルのパラメータ、
ｘ＝未知の文字情報オブジェクトに基づく（縮約）特徴ベクトル、であり、
ＡおよびＢは、単調（例えばシグモイド）関数の調整パラメータである。
【００５０】
式（２）からの出力の計算は、式（１）からの出力の計算よりも速い。
【００５１】
分類されるべきオブジェクトの形に応じて、分類器は、（ｉ）文字情報オブジェクトを特徴ベクトルに変換し、（ｉｉ）特徴ベクトルを縮約してより少ない要素を有する特徴ベクトルとする、ことができる。
【００５２】
（トランスダクティブ機械学習）
商用の自動分類システムにおける現在の最先端手法は、ルールベースのものであるか、または帰納的機械学習、すなわち手動でラベルを付けた訓練例を用いる機械学習を利用している。いずれの手法も一般的に、トランスダクティブ法と比較して、多くの手作業による設定努力を必要とする。ルールベースシステムまたは帰納的手法によって提供される解は静的な解であり、それは、人手による努力なくしては、ドリフトする分類概念に順応することができない。
【００５３】
帰納的機械学習は、特徴または関係を、トークン（すなわち、１つまたは少数の観測または経験）に基づいた種類に帰するために、または繰り返し起こるパターンの限られた観測に基づいて法則を定式化するために用いられる。帰納的機械学習は、一般規則を生成するための観測済み訓練例からの推論を含み、該一般規則はその後、試験例に適用される。
【００５４】
特に、好適な実施形態は、トランスダクティブ機械学習手法を用いる。トランスダクティブ機械学習は、これらの不利点を被らない強力な手法である。
【００５５】
トランスダクティブ機械手法は、ドリフトする分類概念に自動的に順応し、かつラベル付き訓練例を自動的に修正しながら、極めて小さい組のラベル付き訓練例から学習することができる。これらの利点が、トランスダクティブ機械学習を、多種多様な商用アプリケーション用の興味深くかつ価値ある手法としている。
【００５６】
トランスダクション法は、データ内のパターンを学習する。ラベル付きデータからのみならず、ラベルなしデータからも学習することによって、それは帰納的学習の概念を拡張する。これにより、トランスダクション法は、ラベル付きデータ内では捕捉されないか、または部分的にしか捕捉されないパターンを学習することが可能となる。その結果として、ルールベースシステムまたは帰納的学習に基づくシステムとは対照的に、トランスダクション法は、動的に変化する環境に順応し得る。この能力によって、トランスダクション法が、文書の発見、データの整理、および、とりわけドリフトする分類概念への対処のために、用いられることを可能とする。
【００５７】
以下は、サポートベクタマシン（ＳＶＭ）による分類および最大エントロピー識別（ＭＥＤ）の枠組みを使用した、トランスダクティブ分類の一実施形態の説明である。
【００５８】
（サポートベクタマシン）
サポートベクタマシン（ＳＶＭ）は、文字分類に採用される１つの手法であり、このような手法は、正則化理論の概念を用いてあり得る解に制約を導入することによって、多数の解に関する問題点およびその結果生じる一般化の問題に対処する。例えば、２値のＳＶＭ分類器は、訓練データを適切に分離するすべての超平面から、解として、マージンを最大化する超平面を選択する。訓練データが適切に分類されるという制約下での最大マージン正規化は、一般化と記憶との間の適切なトレードオフを選択するという、前述の問題の学習に取り組む。訓練データ上の制約は該データを記憶するが、一方で、正規化が適切な一般化を確実なものとする。帰納的分類は、既知のラベルを有する訓練例から学習する、すなわち、すべての訓練例のクラス帰属が既知である。帰納的分類は既知のラベルから学習するが、トランスダクティブ分類は、ラベル付きデータおよびラベルなしデータから分類規則を決定する。トランスダクティブＳＶＭ分類の一例を表１に示す。
【００５９】
（トランスダクティブＳＶＭ分類の原理）
【００６０】
【数５】

表１は、サポートベクタマシンを用いたトランスダクティブ分類の原理を示している。解は、ラベルなしデータの全てのあり得るラベル割り当てに関して、最大マージンをもたらす超平面（ｈｙｐｅｒｐｌａｎｅ）によって与えられる。あり得るラベル割り当ては、ラベルなしデータの数において指数関数的に増加し、実際に当てはまる解に対しては、表１のアルゴリズムを近似的に使用する必要がある。そのような近似の例は、Ｔ．Ｊｏａｃｈｉｍｓによる「Ｔｒａｎｓｄｕｃｔｉｖｅｉｎｆｅｒｅｎｃｅｆｏｒｔｅｘｔｃｌａｓｓｉｆｉｃａｔｉｏｎｕｓｉｎｇｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓ」、Ｔｅｃｈｎｉｃａｌｒｅｐｏｒｔ、ＵｎｉｖｅｒｓｉｔａｅｔＤｏｒｔｍｕｎｄ、ＬＡＳＶＩＩＩ、１９９９年に記載され（Ｊｏａｃｈｉｍｓ）ている。
【００６１】
表１におけるラベル割り当て全体にわたる一様分布は、ラベルなしデータ点がクラスの正の例となる１／２の確率および負の例となる１／２の確率を有すること、すなわち、ｙ＝＋１（正の例）およびｙ＝−１（負の例）という２つのあり得るラベル割り当ての確率は等しく、その結果として期待されるラベルはゼロであることを、意味している。ゼロのラベル期待値は、１／２に等しい固定クラスの事前確率によって、または一様な事前分布を有するランダム変数であるクラスの事前確率、すなわち未知のクラスの事前確率によって求められ得る。従って、１／２に等しくない既知のクラスの事前確率を有するアプリケーションにおいては、この追加情報を組み込むことによってアルゴリズムが改善され得る。例えば、表１のラベル割り当てに関する一様分布を用いる代わりに、クラスの事前確率に従って、他のものよりも一部のラベル割り当てを優先することが、選択され得る。しかしながら、尤もらしいラベル割り当てを有するより小さいマージンの解と、より高いマージンを有するがラベル割り当ての尤もらしさにおいて劣る解との間の、トレードオフは困難である。ラベル割り当ての確率とマージンとは、尺度を異にする。
【００６２】
（最大エントロピー識別）
別の分類法、最大エントロピー識別（ＭＥＤ）法（例えばＴ．Ｊｅｂａｒａ「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＤｉｓｃｒｉｍｉｎａｔｉｖｅａｎｄＧｅｎｅｒａｔｉｖｅ」、ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓを参照されたい）（Ｊｅｂａｒａ）は、決定関数正規化項およびラベル割り当て正規化項の両方とも解上の事前確率分布から導出され、従って、両方とも同一の確率的尺度上にあるので、ＳＶＭに関連する問題に遭遇することはない。従って、クラスの事前確率、従って、ラベルの事前確率が既知の場合には、トランスダクティブＭＥＤ分類は、理にかなった手法で事前ラベル知識の組み込みを許容するので、トランスダクティブＳＶＭ分類よりも優れている。
【００６３】
帰納的ＭＥＤ分類法は、決定関数のパラメータの上に事前分布を、バイアス項の上に事前分布を、マージンの上に事前分布を仮定する。帰納的ＭＥＤ分類法は、これらのパラメータの上の最終分布として、事前分布に最も近いものを選択し、データ点を適切に分類する推定決定関数を得る。
【００６４】
形式的には、例えば線形分類器とすれば、この問題は、次のように定式化される。超平面パラメータに関する分布ｐ（Θ）、バイアス分布ｐ（ｂ）、データ点分類マージンｐ（γ）を、それらの結合された確率分布が結合されたそれぞれの事前分布ｐ_０に対して最小のカルバックライブラーダイバージェンスＫＬを有するように求める、すなわち、
【００６５】
【数６】

は、下の制約条件に従う。
【００６６】
【数７】

ここで、
【００６７】
【数８】

は、分離超平面の重みベクトルとｔ番目のデータ点の特徴ベクトルとのドット積である。ラベル割り当てｙ_ｔは既知でありかつ固定されているので、２値のラベル割り当てに対する事前分布は必要ではない。従って、帰納的ＭＥＤ分類をトランスダクティブＭＥＤ分類に一般化する直接的手法は、２値のラベル割り当てを、あり得るラベル割り当てに対する事前分布によって制約されるパラメータとして処理することである。トランスダクティブＭＥＤの一例を表２に示す。
【００６８】
（トランスダクティブＭＥＤ分類）
【００６９】
【数９】

ラベル付きデータに対しては、ラベルの事前分布はδ関数であり、従って、＋１または−１となるようにラベルを効果的に固定する。ラベルなしデータに対しては、ラベルの事前確率ｐ_０（ｙ）は、すべてのラベルなしデータ点に、ｐ_０（ｙ）の確率を有するｙ＝＋１の正のラベルおよび１−ｐ_０（ｙ）の確率を有するｙ＝−１の負のラベルを割り当ると仮定される。情報を提供しないラベルの事前確率（ｐ_０（ｙ）＝１／２）を仮定することで、上に論じたトランスダクティブＳＶＭ分類に類似したトランスダクティブＭＥＤ分類が得られる。
【００７０】
トランスダクティブＳＶＭ分類の場合のように、このようなＭＥＤアルゴリズムの実用的実施は、あり得る全ラベル割り当てにわたって検索を近似する必要がある。Ｔ．Ｊａａｋｋｏｌａ、Ｍ．ＭｅｉｌａおよびＴ．Ｊｅｂａｒａによる「Ｍａｘｉｍｕｍｅｎｔｒｏｐｙｄｉｓｃｒｉｍｉｎａｔｉｏｎ」、ＴｅｃｈｎｉｃａｌＲｅｐｏｒｔＡＩＴＲ−１６６８、マサチューセッツ工科大学、人工知能研究所、１９９９年に記載された（Ｊａａｋｋｏｌａ）手法は、近似式として、期待値最大化（ＥＭ）の定式化に類似して、手順を２段階に分解することを選んでいる。この定式化には、解決すべき２つの問題点がある。第１は、ＥＭアルゴリズムのＭ段階に類似し、ラベル割り当てに関する現在最善の推測に従って全データ点を適切に分類する一方での、マージンの最大化と似ている点である。第２の段階は、Ｅ段階に類似して、Ｍ段階で決定された分類結果を用いて各例のクラス帰属に関する新たな値を推定する。この第２の段階を、本発明者らはラベル帰納と呼ぶ。全体的な説明は表２に示されている。
【００７１】
本明細書において参照するＪａａｋｋｏｌａの手法の特定の実装は、超平面のパラメータに対して、平均ゼロと単位分散を有するガウス分布を、バイアスのパラメータに対して、平均ゼロと分散σ_ｂ^２を有するガウス分布を、上に論じたラベルなしデータに対して、γがデータ点のマージン、ｃがコスト要因である式ｅｘｐ［−ｃ（１−γ）］の形のマージン事前確率、およびｐ_０（ｙ）の２値ラベルの事前確率を、仮定する。本明細書において参照するトランスダクティブ分類アルゴリズム、Ｊａａｋｋｏｌａに関する以下の論述に関しては、簡略化の理由から、また一般性を喪失しないために、１／２のラベルの事前確率を仮定する。
【００７２】
ラベル帰納段階は、超平面のパラメータに関する固定確率分布を所与としたラベルの確率分布を決定する。上に紹介したマージンおよびラベルの事前確率を用いて、ラベル帰納段階に対する以下の目的関数が得られる（表２参照）。
【００７３】
【数１０】

ここで、λ_ｔはｔ回目の訓練例のラグランジュ乗数、ｓ_ｔは先のＭ段階で決定されたその分類スコア、ｃはコスト要因である。訓練例に関する合計の中の最初の２つの項はマージンの事前分布から導出されるが、それに対して、３番目の項はラベルの事前分布によって与えられる。
【００７４】
【数１１】

を最大化することによってラグランジュ乗数が決定され、その結果として、ラベルなしデータに関するラベルの確率分布が決定される。式３から分かるように、各データ点は独立して目的関数に寄与する。従って、各ラグランジュ乗数は、他のすべてのラグランジュ乗数に関係なく決定され得る。例えば、その分類スコアの高い絶対値｜ｓ_ｔ｜を有するラベルなしデータ点の寄与を最大化するためには、小さいラグランジュ乗数λ_ｔが必要であるが、それに対して、小さい値｜ｓ_ｔ｜を有するラベルなしデータ点は、大きいラグランジュ乗数と共に、
【００７５】
【数１２】

に対する寄与を最大化する。その一方では、ラベルなしデータ点の分類スコアｓおよびそのラグランジュ乗数λの関数としてのラベルなしデータ点の期待ラベル＜ｙ＞は、
【００７６】
【数１３】

となる。
図１に、ｃ＝５およびｃ＝１．５のコスト要因を用いた分類スコアｓの関数としての期待ラベル＜ｙ＞を示す。図１の生成に用いたラグランジュ乗数は、ｃ＝５およびｃ＝１．５のコスト要因を用いて式３を解くことによって決定された。図１から分かるように、マージンの外側、すなわち｜ｓ｜＞１のラベルなしデータ点は、ゼロに近い期待ラベル＜ｙ＞を有しており、マージンに近い、すなわち｜ｓ｜≒１のデータ点は、最も高い期待ラベル絶対値をもたらし、超平面に近い、すなわち｜ｓ｜＜∈のデータ点は、｜＜ｙ＞｜＜∈をもたらす。｜ｓ｜→∞に対して＜ｙ＞→０というこの非直感的ラベル割り当ての理由は、分類上の制約が満たされる限りはできるだけ事前分布の近傍にとどまろうとする、選択された識別的手法にある。これは、表２の既知の手法によって選択された近似式のアーチファクトではなく、すなわち、あり得る全ラベル割り当てを網羅的に検索し、従って、大域的最適解を求めることを保証するするアルゴリズムがまた、マージンの外側のラベルなしデータにもゼロに近いかまたはゼロに等しい期待ラベルを割り当てる。上に述べたように、ここでもまた、識別的観点からそれが期待される。マージンの外側のデータ点は、例を分離するのには重要ではなく、従って、これらのデータ点のすべての個々の確率分布は、それらの事前確率分布に戻る。
【００７７】
本明細書において参照するＪａａｋｋｏｌａのトランスダクティブ分類アルゴリズムのＭ段階は、下記の制約下で、それぞれの事前分布に最も近い、超平面のパラメータ、バイアス項、およびデータ点のマージンに関する確率分布を決定する。
【００７８】
【数１４】

ここで、ｓ_ｔはｔ回目のデータ点分類スコア、〈ｙ_ｔ〉はその期待ラベル、〈γ_ｔ〉はその期待マージンである。ラベル付きデータに対しては、期待ラベルは固定されており、＜ｙ＞＝＋１または＜ｙ＞＝−１である。ラベルなしデータに関する期待ラベルは、区間（−１、＋１）の中にあり、ラベル帰納段階で推定される。式５によれば、分類スコアは期待ラベルによってスケーリングされるので、ラベルなしデータは、ラベル付きデータよりも厳しい分類制約を満たす必要がある。さらに、図１を参照し、分類スコアの関数としての期待ラベルの依存性を所与とすると、分離超平面に近いラベルなしデータは、最も厳しい分類制約を有する。なぜならば、それらのスコアおよびそれらの期待ラベルの絶対値｜〈ｙ_ｔ〉｜が小さいからである。上述の事前分布を所与としたＭ段階の全目的関数は、
【００７９】
【数１５】

となる。
第１項はガウスの超平面パラメータ事前分布から導出され、第２項はマージン事前正規化項、最後の項は、平均ゼロと分散σ_ｂ^２とを有するガウス事前分布から導出されるバイアスの事前正規化項である。バイアス項に対する事前分布は、クラスの事前確率に対する事前分布として解釈され得る。従って、バイアスの事前分布に対応する正規化項は、正から負までの例の重みを制約する。式６によれば、バイアス項の寄与は、超平面上での正の例の一括プルと負の例の一括プルとが等しくなる場合に最小化される。バイアスの事前分布によるラグランジュ乗数に対する一括制約は、データ点の期待ラベルによって重み付けされ、従って、ラベル付きデータに対するよりもラベルなしデータに対する方が制約が少ない。従って、ラベルなしデータは、最終解に対して、ラベル付きデータよりも強い影響を与える能力を有する。
【００８０】
要約すれば、本明細書において参照するＪａａｋｋｏｌａのトランスダクティブ分類アルゴリズムのＭ段階で、ラベルなしデータは、ラベル付きデータよりも厳しい分類上の制約を満たす必要があり、解に対するラベルなしデータの累積重みは、ラベル付きデータに対するよりも少ない制約を受ける。さらに、現在のＭ段階のマージン内に位置するゼロに近い期待ラベルを有するラベルなしデータは、解に最も影響を与える。この手法でＥ段階およびＭ段階を定式化することから得られた正味の効果が、データセットに対してこのアルゴリズムを適用することによって、図２において示される。このデータセットは、２つのラベル付き例、すなわちｘ−位置−１に位置する負の例（×）および＋１に位置する正の例（＋）と、ｘ−軸に沿って−１と＋１との間に位置する６つのラベルなしの例（○）とを含む。×印（×）はラベル付きの負の例、プラス記号（＋）はラベル付きの正の例、円（○）はラベルなしデータを示す。様々なプロットは、Ｍ段階の種々の繰り返し時点で求められた分離超平面を示す。本明細書において参照するＪａａｋｋｏｌａのトランスダクティブＭＥＤ分類器によって選ばれた最終解は、正のラベル付き訓練例を誤分類する。図２に、Ｍ段階のいくつかの繰り返しを示す。Ｍ段階の最初の繰り返しでは、ラベルなしデータについては考慮されず、分離超平面はｘ＝０に位置する。負のｘ値を有する１つのラベルなしデータ点は、他のどのラベルなしデータよりもこの分離超平面に近い。次のラベル帰納段階で、このラベルなしデータ点は、最小の｜＜ｙ＞｜を割り当てられることになり、従って、次のＭ段階で、これは、正のラベル付き例に向けて超平面をプッシュする最も大きい力を有する。ラベルなしデータ点の特定の間隔と結合された、選択されたコスト要因によって決定される分類スコアの関数としての期待ラベル＜ｙ＞の特定の形状（図１参照）は、各連続的Ｍ段階において分離超平面が正のラベル付き例に向けて次第に近づいてゆくブリッジ効果を生成する。直観的に、Ｍ段階では、最新の分離超平面に最も近いラベルなしデータ点が該平面の最終位置を最も決定し、さらに離れたデータ点はさほど重要ではない、一種の近視状態となる。最終的に、ラベル付きデータの一括プルよりもラベルなしデータの一括プルをより少なく制約するバイアスの事前分布項により、分離超平面は正のラベル付き例を超えて先へ移動し、最終解、すなわち、図２の１５回目の繰り返しが得られ、それは正のラベル付き例を誤分類する。σ_ｂ^２＝１のバイアス分散およびｃ＝１０のコスト要因が図２で用いられた。σ_ｂ^２＝１を有すれば、９．８＜ｃ＜１３の範囲内の任意のコスト要因が、結果的に、１つの正のラベル付き例を誤分類する最終超平面をもたらす。区間９．８＜ｃ＜１３の外のコスト要因は、２つのラベル付き例の間のいずれかの位置に分離超平面をもたらす。
【００８１】
このアルゴリズムのこの不安定さは、図２に示す例に限定されるものではなく、本明細書において参照するＪａａｋｋｏｌａ法を当業者に公知のロイターのデータセットを含む実世界に適用する間にも、経験されている。表２に記載した方法に固有の不安定さは、この実装の主要な欠点であり、その一般的利用性を限定するが、しかし、Ｊａａｋｋｏｌａ法は本発明の一部の実施形態において実行され得る。
【００８２】
本発明の１つの好適な手法は、最大エントロピー識別（ＭＥＤ）の枠組みを用いたトランスダクティブ分類を採用している。本発明の種々の実施形態は、分類に適用可能であると同時に、これに限定するものではないが、トランスダクティブＭＥＤ回帰およびグラフィカルモデルを含む、トランスダクションを用いた他のＭＥＤ学習上の問題にもまた適用可能であることが、理解されるべきである。
【００８３】
最大エントロピー識別法は、パラメータに対する事前確率分布を仮定することによって、あり得る解に制約を加えて縮約する。最終解は、期待される解が訓練データを適切に記述するという制約下で、仮定された事前確率分布に最も近い確率分布に従ったあり得るすべての解の期待値である。解の上の事前確率分布は、正規化項にマッピングする。すなわち、特定の事前分布を選択することによって、特定の正規化を選択したことになる。
【００８４】
サポートベクタマシンによって適用される識別的推定は、数少ない例から学習する際に効果的である。本発明の一実施形態のこの方法および装置は、これをサポートベクタマシンと同様に有しており、与えられた問題を解くために必要以上のパラメータを推定しようとせず、その結果、スパース解をもたらす。これは、基礎となるプロセスを説明しようとし、かつ一般的に識別的推定よりも大きな統計データを必要とする、生成的モデル推定と対照的である。一方では、生成的モデルはより用途が広く、より多種多様な問題に適用され得る。さらに、生成的モデル推定は、従来知識の直接的包含が可能である。最大エントロピー識別を用いた本発明の一実施形態の方法および装置は、純粋に識別的な、例えばサポートベクタマシン学習と、生成的モデル推定との間のギャップを埋める。
【００８５】
表３に示す本発明の一実施形態の方法は、本明細書において参照するＪａａｋｋｏｌａにおいて論じた方法の不安定さの問題を有しない、改良されたトランスダクティブＭＥＤ分類アルゴリズムである。相違点は、これに限定するものではないが、本発明の一実施形態では、各データ点がそのラベル期待絶対値｜＜ｙ＞｜に比例するそれ自体のコスト要因を有することを含む。さらに、各データ点のラベルの事前確率は、決定関数までのデータ点の距離の関数としての推定クラス帰属確率に従って、各Ｍ段階の後に更新される。本発明の一実施形態の方法は、以下の表３で説明される。
【００８６】
（改良されたトランスダクティブＭＥＤ分類）
【００８７】
【数１６】

｜＜ｙ＞｜によってデータ点のコスト要因をスケーリングすることは、ラベルなしデータがラベル付きデータよりも超平面上でより強い累積プルを有し得るという問題を緩和する。なぜならば、ラベルなしデータのコスト要因は今やラベル付きのコスト要因よりも小さい、すなわち各ラベルなしデータ点の最終解に対する個々の寄与はラベル付きデータ点の個々の寄与よりも常に小さいからである。しかしながら、ラベルなしデータの量がラベル付きデータの数よりもはるかに大きい場合には、ラベルなしデータは依然として、ラベル付きデータよりも最終解に影響を与え得る。さらに、コスト要因のスケーリングと推定クラス確率を用いたラベルの事前確率の更新との結合は、上に概説したブリッジ効果の問題を解決する。最初のＭ段階で、ラベルなしデータは、極めて平坦な分類スコアの関数として期待ラベルをもたらす小さいコスト要因を有し（図１参照）、従って、小さい重みにすぎないが、ある程度まで、全ラベルなしデータは超平面上でプルすることが可能である。さらに、ラベルの事前確率の更新の結果として、分離超平面から離れたラベルなしデータはゼロに近い期待ラベルを割り当てられないが、数回の繰り返しの後に、ｙ＝＋１またはｙ＝−１に近いラベルが割り当てられ、かくして、ラベル付きデータのようにゆっくりと処理される。
【００８８】
本発明の一実施形態の方法の特定の実装において、決定関数パラメータΘに対して、平均ゼロと単位分散とを有するガウス事前分布を仮定することによって、次のようになる。
【００８９】
【数１７】

決定関数パラメータに対する事前分布は、当面の特定の分類上の問題に関する重要な従来知識を組み込んでいる。分類上の問題にとって重要な決定関数パラメータの他の事前分布は、例えば、多項分布、ポアソン分布、コーシー分布（Ｂｒｅｉｔ−Ｗｉｇｎｅｒ）、マクスウェル−ボルツマン分布、またはボーズ−アインシュタイン分布である。
【００９０】
決定関数の閾値ｂに対する事前分布は、平均μ_ｂと分散σ_ｂ^２とを有するガウス分布によって与えられる。
【００９１】
【数１８】

データ点の分類マージンγ_ｉの事前分布として、
【００９２】
【数１９】

が選ばれ、ここで、ｃはコスト要因である。この事前分布は、式ｅｘｐ［−ｃ（ｌ−γ）］の形を有する本明細書において参照するＪａａｋｋｏｌａで用いられるものとは異なっている。式９で与えられた形が本明細書において参照するＪａａｋｋｏｌａで用いられる形を越えることが好ましく、なぜならば、Ｊａａｋｋｏｌａの形が１より小さいコスト要因に対してさえも正の期待マージンをもたらすのに対して、式ｅｘｐ［−ｃ（ｌ−γ）］は、ｃ＜１に対して負の期待マージンをもたらすからである。
【００９３】
これらの事前分布が与えられると、対応する分配関数Ζを決定することは容易であり（例えば、Ｔ．Ｍ．ＣｏｖｅｒおよびＪ．Ａ．Ｔｈｏｍａｓ「ＥｌｅｍｅｎｔｓｏｆＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ」、ＪｏｈｎＷｉｌｅｙ＆Ｓｏｎｓ，Ｉｎｃ．参照）（Ｃｏｖｅｒ）、目的関数
【００９４】
【数２０】

は、
【００９５】
【数２１】

となる。本明細書において参照するＪａａｋｋｏｌａによれば、Ｍ段階の目的関数は、
【００９６】
【数２２】

となり、Ｅ段階の目的関数は、
【００９７】
【数２３】

となる。ここで、ｓ_ｔは先のＭ段階で決定されたｔ番目のデータ点の分類スコアであり、ｐ_０，ｔ（ｙ_ｔ）はデータ点の２値ラベル事前確率である。ラベルの事前確率は、ラベル付きデータに対してはｐ_０，ｔ（ｙ_ｔ）＝１に、ラベルなしデータに対しては、ｐ_０，ｔ（ｙ_ｔ）＝１／２の情報を与えない事前確率またはクラスの事前確率に初期化される。
【００９８】
本明細書におけるＭ段階と題する章は、Ｍ段階の目的関数を解くためのアルゴリズムについて説明する。また、本明細書におけるＥ段階と題する章は、Ｅ段階のアルゴリズムについて説明する。
【００９９】
表３の行５の、ＥｓｔｉｍａｔｅＣｌａｓｓＰｒｏｂａｂｉｌｉｔｙの段階は、訓練データを用いて、分類スコアをクラス帰属確率に、すなわちスコアｐ（ｃ｜ｓ）を与えられたクラスの確率に、変えるための較正パラメータを決定する。確率に関するスコア較正を推定するための関連する方法は、Ｊ．Ｐｌａｔｔ「Ｐｒｏｂａｂｉｌｉｓｔｉｃｏｕｔｐｕｔｓｆｏｒｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅｓａｎｄｃｏｍｐａｒｉｓｏｎｔｏｒｅｇｕｌａｒｉｚｅｄｌｉｋｅｌｉｈｏｏｄｍｅｔｈｏｄｓ」、６１−７４頁、２０００年（Ｐｌａｔｔ）に、ならびにＢ．ＺａｄｒｏｚｎｙおよびＣ．Ｅｌｋａｎ「Ｔｒａｎｓｆｏｒｍｉｎｇｃｌａｓｓｉｆｉｅｒｓｃｏｒｅｓｉｎｔｏａｃｃｕｒａｔｅｍｕｌｔｉ−ｃｌａｓｓｐｒｏｂａｂｉｌｉｔｙｅｓｔｉｍａｔｅｓ」、２００２年（Ｚａｄｒｏｚｎｙ）に、記載されている。
【０１００】
図３を特に参照し、×印（×）はラベル付きの負の例、プラス記号（＋）はラベル付きの正の例、円（○）はラベルなしデータを示す。様々なプロットは、Ｍ段階の種々の繰り返し時点で決定された分離超平面を示す。２０回目の繰り返しは、改良されたトランスダクティブＭＥＤ分類器によって選ばれた最終解を示す。図３は、上で紹介した玩具データセットに適用された改良型トランスダクティブＭＥＤ分類アルゴリズムを示す。使用パラメータは、ｃ＝１０、σ_ｂ^２＝１、およびμ_ｂ＝０である。異なるｃがｘ≒−０．５とｘ＝０との間に位置する分離超平面をもたらし、それにより、ｃ＜３．５で、超平面はｘ＜０を有する１つのラベルなしデータの右に位置し、ｃ≧３．５でこのラベルなしデータ点の左に位置する。
図４を特に参照して、本発明の一実施形態のラベルなしデータの分類法を示す制御流れ図が示されている。方法１００は、ステップ１０２で始まり、ステップ１０４で、格納されたデータ１０６にアクセスする。データは記憶域に格納されており、ラベル付きデータと、ラベルなしデータと、少なくとも１つの所定コスト要因とを含む。データ１０６は、割り当てられたラベルを有するデータ点を含む。割り当てられたラベルは、ラベル付きデータ点が特定のカテゴリに含まれることを意図されているのか、あるいは特定のカテゴリから除外されることを意図されているのかを識別する。
【０１０１】
ひとたびステップ１０４でデータがアクセスされると、本発明の一実施形態の方法は次いで、ステップ１０８で、データ点のラベル情報を用いて、データ点のラベルの事前確率を決定する。次いで、ステップ１１０で、ラベルの事前確率に従って、データ点の期待ラベルが決定される。ステップ１１０で決定された期待ラベルと、ラベル付きデータ、ラベルなしデータ、およびコスト要因と共に、ステップ１１２は、コスト要因のラベルなしデータ点のスケーリングによるトランスダクティブＭＥＤ分類器の繰り返し訓練を含む。計算の各繰り返しの中で、データ点のコスト要因がスケーリングされる。かくして、ＭＥＤ分類器は、計算の反復繰り返しを通じて学習する。訓練された分類器は次いで、ステップ１１６で入力データ１１４にアクセスする。訓練された分類器は次いで、ステップ１１８で入力データ分類のステップを完了し得、ステップ１２０で終了する。
【０１０２】
１０６のラベルなしデータおよび入力データ１１４は、単一のソースから導出され得ることが、理解されるべきである。かくして、入力データ／ラベルなしデータは、１１２の繰り返しプロセスに用いられ得、それは次いで、１１８で分類するために使用される。さらに、本発明の一実施形態は、入力データ１１４が、該入力データを１０６に格納されたデータに供給するためのフィードバック機構を含み、それにより１１２のＭＥＤ分類器が、入力された新たなデータから動的に学習し得ることを、企図している。
【０１０３】
図５を特に参照して、ユーザ定義の事前確率情報を含む、本発明の一実施形態のラベルなしデータの別の分類法を示す制御流れ図が示されている。方法２００は、ステップ２０２で始まり、ステップ２０４で格納されたデータ２０６にアクセスする。データ２０６は、ラベル付きデータと、ラベルなしデータと、所定コスト要因と、ユーザによって提供された事前確率情報とを含む。２０６のラベル付きデータは、割り当てられたラベルを有するデータ点を含む。割り当てられたラベルは、ラベル付きデータ点が特定のカテゴリに含まれることを意図されているのか、あるいは特定のカテゴリから除外されることを意図されているのかを識別する。
【０１０４】
ステップ２０８で、期待ラベルが２０６のデータから計算される。期待ラベルは次いで、ステップ２１０で、ラベル付きデータ、ラベルなしデータ、およびコスト要因と共に、トランスダクティブＭＥＤ分類器の繰り返し訓練を行うために用いられる。２１０の繰り返し計算は、各計算時点で、ラベルなしデータのコスト要因をスケーリングする。計算は、分類器が適切に訓練されるまで続く。
【０１０５】
訓練された分類器は次いで、２１４で、入力データ２１２からの入力データにアクセスする。訓練された分類器は次いで、ステップ２１６で、入力データを分類するステップを完了し得る。図４で説明したプロセスおよび方法の場合と同様に、入力データおよびラベルなしデータは単一のソースから導出され得、２０６と２１２との両方においてシステムに入力され得る。かくして、入力データ２１２は２１０での訓練に影響を与え得、その結果として、プロセスは継続入力データで動的に経時変化し得る。
【０１０６】
図４および図５に示す両方の方法において、モニタが、システムが収束に到達したか否かを判断し得る。収束は、ＭＥＤ計算の各繰り返しの間における超平面の変化が所定の閾値を下回ったときに、判断され得る。本発明の代替の実施形態では、この閾値は、決定された期待ラベルの変化がある所定の閾値を下回ったときに、判断され得る。収束に到達した場合には、繰り返し訓練プロセスは終了し得る。
【０１０７】
図６を特に参照して、本発明の方法の少なくとも１つの実施形態の、繰り返し訓練プロセスのより詳細な制御流れ図が示されている。プロセス３００は、ステップ３０２で始まり、ステップ３０４で、データ３０６からデータがアクセスされる。データ３０６は、ラベル付きデータと、ラベルなしデータと、少なくとも１つの所定コスト要因と、事前確率情報とを含み得る。３０６のラベル付きデータ点は、データが指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されるべきデータ点に対する訓練例であるのかを識別するラベルを含む。３０６の事前確率情報は、ラベル付きデータセットおよびラベルなしデータセットの確率情報を含む。
【０１０８】
ステップ３０８で、３０６の事前確率情報からのデータから期待ラベルが決定される。ステップ３１０で、データ点の期待ラベルの絶対値に比例して、各ラベルなしデータに対するコスト要因がスケーリングされる。次いで、ステップ３１２で、ラベル付きデータとラベルなしデータをそれらの期待ラベルに従って訓練例として用い、含まれた訓練例と除外された訓練例との間のマージンを最大化する決定関数を決定することによって、ＭＥＤ分類器が訓練される。ステップ３１４で、３１２の訓練された分類器を用いて、分類スコアが決定される。３１６で、クラス帰属確率に対して分類スコアが較正される。ステップ３１８で、クラス帰属確率に基づいて、ラベルの事前確率情報が更新される。ステップ３２０でＭＥＤ計算が行われ、ラベルおよびマージンの確率分布が決定される。ここで、先に決定された分類スコアがＭＥＤ計算に用いられる。その結果として、ステップ３２２で新たな期待ラベルが計算され、ステップ３２２からの計算結果を用いて、ステップ３２４で期待ラベルが更新される。ステップ３２６で本方法は、収束に到達したか否かを判断する。到達した場合には、本方法はステップ３２８で終了する。収束に到達していない場合には、ステップ３１０で始まる、本方法の別の繰り返しが完了される。繰り返しは収束に到達するまで反復され、その結果として、ＭＥＤ分類器が繰り返して訓練される。ＭＥＤ計算の各繰り返しの間における決定関数の変化が所定の値を下回ったときに、収束に到達し得る。本発明の代替の実施形態では、決定された期待ラベル値の変化が所定の閾値を下回ったときに、収束に到達し得る。
【０１０９】
図７は、一実施形態によるネットワークアーキテクチャ７００を示す。図に示すように、第１の遠隔ネットワーク７０４および第２の遠隔ネットワーク７０６を含む複数の遠隔ネットワーク７０２が提供される。ゲートウェイ７０７が、遠隔ネットワーク７０２と隣接ネットワーク７０８と間に結合され得る。本ネットワークアーキテクチャ７００の状況においては、ネットワーク７０４、７０６はそれぞれ、これに限定するものではないが、ＬＡＮ、インターネットのようなＷＡＮ、ＰＳＴＮ、内部電話ネットワークなどを含む、任意の形態をとり得る。
【０１１０】
使用時には、ゲートウェイ７０７は、遠隔ネットワーク７０２から隣接ネットワーク７０８への入口点としての役割を果たす。かくして、ゲートウェイ７０７は、ゲートウェイ７０７に到達する与えられたデータパケットを誘導するルータとして、また与えられたパケットに対してゲートウェイ７０７を出入りする実際の経路を提供するスイッチとして、機能し得る。
【０１１１】
さらに、隣接ネットワーク７０８に結合され、ゲートウェイ７０７を介して遠隔ネットワーク７０２からアクセス可能な、少なくとも１つのデータサーバ７１４が含まれる。データサーバ（単数または複数）７１４は任意の種類の計算装置／グループウェアをも含み得ることが、留意されるべきである。各データサーバ７１４に、複数のユーザ装置７１６が結合されている。このようなユーザ装置７１６は、デスクトップコンピュータ、ラップトップコンピュータ、ハンドヘルドコンピュータ、プリンタまたは任意の他の種類の論理を含み得る。一実施形態では、ユーザ装置７１７はまた任意のネットワークに直接的に結合され得ることが、留意されるべきである。
【０１１２】
１つのファクシミリ装置７２０または一連のファクシミリ装置７２０が、ネットワーク７０４、７０６、７０８のうちの１つ以上に結合され得る。
【０１１３】
データベースおよび／または追加の構成要素が、ネットワーク７０４、７０６、７０８に結合された任意の種類のネットワーク要素と共に用いられ得、またはそれに統合され得ることが、留意されるべきである。本説明の文脈の中で、ネットワーク要素は、ネットワークの任意の構成要素を参照し得る。
【０１１４】
図８は、一実施形態による、図７のユーザ装置７１６と関連付けられた代表的なハードウェア環境を示す。当該の図は、マイクロプロセッサのような中央処理ユニット８１０、およびシステムバス８１２を介して相互に接続された多数の他のユニットを有する、ワークステーションの一般的なハードウェア構成を示している。
【０１１５】
図８に示すワークステーションは、ランダムアクセスメモリ（ＲＡＭ）８１４と、読取り専用メモリ（ＲＯＭ）８１６と、磁気ディスク装置８２０のような周辺装置をバス８１２に接続するためのＩ／Ｏアダプタ８１８と、キーボード８２４、マウス８２６、スピーカ８２８、マイクロホン８３２、および／またはタッチスクリーンおよびデジタルカメラ（図示せず）のような他のインタフェース装置をバス８１２に接続するためのユーザインタフェースアダプタ８２２と、ワークステーションを通信ネットワーク８３５（例えば、データ処理ネットワーク）に接続するための通信アダプタ８３４と、バス８１２をディスプレイ装置８３８に接続するためのディスプレイアダプタ８３６と、を含む。
【０１１６】
図９を特に参照して、本発明の一実施形態の装置４１４が示されている。本発明の一実施形態は、ラベル付きデータ４１６を格納するためのメモリ装置８１４を備える。ラベル付きデータ点４１６はそれぞれ、データ点が指定されたカテゴリに含まれるデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点に対する訓練例であるのかを示すラベルを含む。メモリ８１４はまた、ラベルなしデータ４１８、事前確率データ４２０、およびコスト要因データ４２２をも格納する。
【０１１７】
プロセッサ８１０は、メモリ８１４からのデータにアクセスし、トランスダクティブＭＥＤ計算を用いて２値分類器を訓練し、それがラベルなしデータを分類できるようにする。プロセッサ８１０は、ラベル付きデータとラベルなしデータとからのコスト要因および訓練例を用いることによって、かつそのコスト要因を期待ラベル値の関数としてスケーリングして、その後プロセッサ８１０に再入力されるコスト要因データ４２２のデータに影響を与えることによって、繰り返しトランスダクティブ計算を使用する。従って、コスト要因４２２は、プロセッサ８１０によるＭＥＤ分類の各繰り返しと共に変化する。ひとたびプロセッサ８１０が適切にＭＥＤ分類器を訓練すると、プロセッサは次いで、ラベルなしデータを分類済みデータ４２４に分類するための分類器を構築し得る。
【０１１８】
従来技術のトランスダクティブＳＶＭ定式化およびＭＥＤ定式化は、あり得るラベル割り当ての指数関数的増加をもたらし、実用化のためには、近似式を開発する必要がある。本発明の代替の実施形態においては、あり得るラベル割り当てが指数関数的に増加せず、一般的な閉形式解を可能にする、トランスダクティブＭＥＤ分類の異なる定式化が導入されている。線形分類器に対して、この問題は以下のように定式化される。超平面パラメータに関する分布ｐ（Θ）、バイアス分布ｐ（ｂ）、データ点分類マージンｐ（γ）を、これらの結合された確率分布が結合されたそれぞれの事前分布ｐ_０に対して最小のカルバックライブラーダイバージェンスＫＬを有するように求める、すなわち、
【０１１９】
【数２４】

であり、ラベル付きデータに対して以下の制約に従い、
【０１２０】
【数２５】

ラベルなしデータに対して以下の制約に従い、
【０１２１】
【数２６】

ここで、ΘＸ_ｔは、分離超平面の重みベクトルとｔ番目のデータ点の特徴ベクトルとのドット積である。ラベルに対する事前分布は必要ではない。ラベル付きデータは、それらの既知のラベルに従って分離超平面の右側に位置するように制約されているが、ラベルなしデータに対する唯一の要求条件は、超平面までのラベルなしデータの距離の２乗がマージンよりも大きいということである。要約すると、本発明のこの実施形態は、選択された事前分布に最も近く、ラベル付きデータを適切に分離し、かつマージン間にラベルなしデータを全く有しないという、妥協点となる分離超平面を求める。利点は、ラベルに対する事前分布を導入する必要がなく、従って、指数関数的に増加するラベル割り当てに関する問題が回避されることである。
【０１２２】
本発明の別の実施形態の特定の実装では、超平面パラメータ、バイアス、およびマージンに対して式７、式８、および式９に与えられた事前分布を用いて、以下の分配関数が得られ、
【０１２３】
【数２７】

ここで、ｔはラベル付きデータの添え字であり、ｔ´はラベルなしデータの添え字である。下記の表記法を用いると、
【０１２４】
【数２８】

式１６は、以下のように書き換えられる。
【０１２５】
【数２９】

積分の後に、以下の分配関数が得られる。
【０１２６】
【数３０】

すなわち、最終目的関数は、
【０１２７】
【数３１】

となる。目的関数
【０１２８】
【数３２】

は、本明細書においてＭ段階と題する章で述べられる、既知のラベルの場合の手法に類似した手法を適用することによって解かれ得る。差異は、最大マージン項の二次形式におけるマトリックスＧ_３^−１が、ここで非対角項を有する点である。
【０１２９】
分類に加えて、最大エントロピー識別の枠組みを採り入れた本発明の方法の用途は、数多く存在する。例えば、ＭＥＤは、一般的なデータの分類、任意の種類の識別関数および事前分布、回帰モデルおよびグラフィカルモデルを解くために適用され得る（Ｔ．Ｊｅｂａｒａ「ＭａｃｈｉｎｅＬｅａｒｎｉｎｇＤｉｓｃｒｉｍｉｎａｔｉｖｅａｎｄＧｅｎｅｒａｔｉｖｅ」、ＫｌｕｗｅｒＡｃａｄｅｍｉｃＰｕｂｌｉｓｈｅｒｓ）（Ｊｅｂａｒａ）。
【０１３０】
本発明の実施形態のアプリケーションは、既知のラベルを有する純粋に帰納的な学習問題として、およびラベル付きとラベルなしの訓練例を有するトランスダクティブ学習問題として、定式化され得る。後者の場合には、表３に記載されたトランスダクティブＭＥＤ分類アルゴリズムに対する改良が、一般のトランスダクティブＭＥＤ分類、トランスダクティブＭＥＤ回帰、グラフィカルモデルのトランスダクティブＭＥＤ学習に対しても、同様に適用可能である。かくして、本開示および特許請求の範囲の目的に対して、語「分類」は、回帰またはグラフィカルモデルを含み得る。
【０１３１】
（Ｍ段階）
式１１によれば、Ｍ段階の目的関数は、
【０１３２】
【数３３】

となる。これにより、ラグランジュ乗数λ_ｔは、Ｊ_Ｍを最大化することによって決定される。
【０１３３】
λ_ｔ＜ｃという冗長制約を省くと、上記の双対問題に対するラグランジアンは、
【０１３４】
【数３４】

となる。最適性に対して必要かつ十分なＫＫＴ条件は、
【０１３５】
【数３５】

となる。ここで、Ｆ_ｔは、
【０１３６】
【数３６】

である。最適点において、基底は期待バイアス
【０１３７】
【数３７】

と等しくなり、
【０１３８】
【数３８】

が得られる。
【０１３９】
これらの式は、δ_ｔλ_ｔ＝０制約を用いた２つの例を考察することによって、要約され得る。第１の例は、すべてに対してλ_ｔ＝０、第２の例は、すべてに対して０＜λ_ｔ＜ｃ、である。ＳＶＭアルゴリズムに適用された、Ｓ．Ｋｅｅｒｔｈｉ、Ｓ．Ｓｈｅｖａｄｅ、Ｃ．Ｂｈａｔｔａｃｈａｒｙｙａ、およびＫ．Ｍｕｒｔｈｙ「Ｉｍｐｒｏｖｅｍｅｎｔｓｔｏｐｌａｉｔ’ｓｓｍｏａｌｇｏｒｉｔｈｍｆｏｒｓｖｍｃｌａｓｓｉｆｉｅｒｄｅｓｉｇｎ」、１９９９年（Ｋｅｅｒｔｈｉ）に記載されているような、第３の例は必要でない。この定式化におけるポテンシャル関数は、λ_ｔ≠ｃを保っている。
【０１４０】
【数３９】

最適条件に到達するまでに、一部のデータ点ｔに対するこれらの条件の侵害が存在する。すなわち、λ_ｔがゼロでないときにはＦ_ｔ≠−〈ｂ〉、またはλ_ｔがゼロのときにはＦ_ｔ〈ｙ_ｔ〉＜−〈ｂ〉〈ｙ_ｔ〉、である。残念なことに、〈ｂ〉の計算は、最適なλ_ｔのそれなくしては不可能である。これに対する良解は、以下の３つの組を構築することによって、再び本明細書において参照するＫｅｅｒｔｈｉから借用される。
【０１４１】
【数４０】

これらの組を利用して、以下の定義を用いた最も極端な最適性条件違反を定義することができる。Ｉ_０の要素は、それらが−〈ｂ〉に等しくないときは常に違反であり、従って、Ｉ_０からの最大Ｆ_ｔおよび最小Ｆ_ｔは、違反の候補である。Ｉ_１の要素は、Ｆ_ｔ＜−〈ｂ〉のときに違反であり、従って、Ｉ_１からの最小要素は、もしあるとすれば、最も極端な違反である。最後に、Ｉ_４の要素は、Ｆ_ｔ＞−〈ｂ〉のときに違反であり、それはＩ_４からの最大要素を違反候補にする。従って、−〈ｂ〉は以下に示すように、これらの組に関する最小および最大によって制限される。
【０１４２】
【数４１】

最適な−ｂ_ｕｐと−ｂ_ｌｏｗとは等しくなければならず、すなわち−〈ｂ〉であるので、−ｂ_ｕｐと−ｂ_ｌｏｗとの間のギャップを減らすことが、訓練アルゴリズムを収束に向けてプッシュする。さらに、ギャップはまた、数値的収束を判断するための手法として、測定され得る。
【０１４３】
先に述べたように、ｂ＝〈ｂ〉の値は、収束するまでは未知である。この代替の実施形態の方法は、１度に１例のみが最適化され得るという点で異なる。従って、訓練のヒューリスティックは、１回おきに、Ｉ_０の例とすべての例との間で行きつ戻りつすることである。
【０１４４】
（Ｅ段階）
式１２のＥ段階の目的関数は、
【０１４５】
【数４２】

であり、ここでｓ_ｔは、先のＭ段階で決定されたｔ番目のデータ点の分類スコアである。ラグランジュ乗数λ_ｔは、
【０１４６】
【数４３】

を最大化することによって決定される。
【０１４７】
λ_ｔ＜ｃという冗長制約を省くと、上記の双対問題に対するラグランジアンは、
【０１４８】
【数４４】

となる。最適性に対して必要かつ十分なＫＫＴ条件は、
【０１４９】
【数４５】

である。ＫＫＴ条件を最適化することによってラグランジュ５乗数に対する解を求めることは、ＫＫＴ条件が例を分解する（ｆａｃｔｏｒｉｚｅ）ので、例を１回パスすることによって行われ得る。
【０１５０】
ラベル付き例に対しては、期待ラベル〈ｙ_ｔ〉は、Ｐ_０，ｔ（ｙ_ｔ）＝１およびＰ_０，ｔ（−ｙ_ｔ）＝０を有するものであり、ＫＫＴ条件を
【０１５１】
【数４６】

に簡略化し、ラベル付き例のラグランジュ乗数に対する解として、
【０１５２】
【数４７】

をもたらす。ラベルなし例に対して、式３５は解析的に解くことはできないが、しかしながら、式３５を満たす各ラベルなし例のラグランジュ乗数に対して、例えば線形探索を適用することによって、決定されねばならない。
【０１５３】
以下は、上述の手法によって可能となるいくつかの非限定的な例、それらの派生物または変形物、および当業界で公知の他の手法である。各例は、好適な算法と、基本的な好適な手法の中で実装され得る任意選択的な算法またはパラメータとを含む。
【０１５４】
図１０に提示される一実施形態では、ラベル付きデータ点がステップ１００２で受信され、そこでは、データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されるデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを、ラベル付きデータ点の各々が有する。さらに、ラベルなしデータ点が、ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因と共に、ステップ１００４で受信される。データ点は、任意の媒体、例えば語、画像、音響等を含み得る。ラベル付きとラベルなしデータ点の事前確率情報がまた、受信され得る。また、含まれた訓練例のラベルは、第１の数値、例えば＋１などにマッピングされ得、除外された訓練例のラベルは、第２の数値、例えば−１などにマッピングされ得る。さらに、ラベル付きデータ点、ラベルなしデータ点、入力データ点、ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因が、コンピュータのメモリに格納され得る。
【０１５５】
さらに、ステップ１００６で、上述の少なくとも１つのコスト要因と、ラベル付きデータ点およびラベルなしデータ点とを訓練例として用いて、繰り返し計算によってトランスダクティブＭＥＤ分類器が訓練される。計算の各繰り返しに対して、ラベルなしデータ点のコスト要因は、期待ラベル値、例えばデータ点の期待ラベルの絶対値などの関数として調整され、データ点のラベルの事前確率は、データ点のクラス帰属確率の推定値に基づいて調整され、これによって安定性を確保する。また、トランスダクティブ分類器は、ラベル付きとラベルなしデータの事前確率情報を用いて学習し得、これは安定性をさらに向上させる。トランスダクティブ分類器を訓練する繰り返しステップは、データ値が収束に到達するまで、例えば、トランスダクティブ分類器の決定関数の変化が所定の閾値を下回るとき、決定された期待ラベル値の変化が所定の閾値を下回るとき、などまで反復され得る。
【０１５６】
さらに、ステップ１００８で、訓練された分類器は、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するために適用される。入力データ点は、分類器が訓練される前に、または後に受信され得、あるいは全く受信され得ない。また、含まれた訓練例および除外された訓練例を与えられた、決定関数パラメータの事前確率分布に対するＫＬダイバージェンスを最小化する決定関数は、ラベル付きとラベルなしデータ点をそれらの期待ラベルに従って学習例として用いて決定され得る。代替案としては、決定関数パラメータに対して多項分布を用いた最小のＫＬダイバージェンスによって、決定関数が決定され得る。
【０１５７】
ステップ１０１０で、分類されたデータ点の分類、またはその派生物が、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力される。本システムは遠隔の、または局地のものであり得る。分類の派生物の例は、これに限定するものではないが、分類されたデータ点そのもの、分類されたデータ点を表現したものまたはその識別子、あるいはホストファイル／文書、などであり得る。
【０１５８】
別の実施形態では、コンピュータ実行可能なプログラムコードがコンピュータシステムに配備され、その上で実行される。このプログラムコードは、コンピュータのメモリ内に格納されたラベル付きデータ点にアクセスするための命令を備え、該ラベル付きデータ点の各々は、データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点に対する訓練例であるのかを示す少なくとも１つのラベルを有する。さらに、コンピュータコードは、コンピュータのメモリからラベルなしデータ点にアクセスするための命令と、コンピュータのメモリからラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因にアクセスするための命令をも含む。コンピュータのメモリ内に格納されたラベル付きとラベルなしデータ点の事前確率情報がまた、アクセスされ得る。また、含まれた訓練例のラベルは、第１の数値、例えば＋１などにマッピングされ得、除外された訓練例のラベルは、第２の数値、例えば−１などにマッピングされ得る。
【０１５９】
さらに、プログラムコードは、少なくとも１つの格納されたコスト要因と格納されたラベル付きデータ点、および格納されたラベルなしデータ点、ならびに訓練例を用いた繰り返し計算によって、トランスダクティブ分類器を訓練するための命令を備える。また、計算の各繰り返しに対して、ラベルなしデータ点のコスト要因が、該データ点の期待ラベル値、例えばデータ点の期待ラベルの絶対値の関数として調整される。また、各繰り返しに対して、データ点のクラス帰属確率の推定値に基づき、事前確率情報が調整され得る。トランスダクティブ分類器を訓練する繰り返しステップは、データ値の収束に到達するまで、例えば、トランスダクティブ分類器の決定関数の変化が所定の閾値を下回るとき、決定された期待ラベル値の変化が所定の閾値を下回るとき、などまで反復され得る。
【０１６０】
さらに、プログラムコードは、訓練された分類器を適用して、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するための命令と、分類されたデータ点の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスに出力するための命令とを備える。また、含まれた訓練例および除外された訓練例を与えられた、決定関数パラメータの事前確率分布に対してＫＬダイバージェンスを最小化する決定関数は、ラベル付きとラベルなしデータ点をそれらの期待ラベルに従って学習例として用いて、決定され得る。
【０１６１】
さらに別の実施形態では、データ処理装置は、（ｉ）データ点が指定されたカテゴリに含まれるデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを各々が有するラベル付きデータ点、（ｉｉ）ラベルなしデータ点、および（ｉｉｉ）ラベル付きデータ点とラベルなしデータ点の少なくとも１つの所定コスト要因、を格納するための少なくとも１つのメモリを備える。このメモリは、ラベル付きとラベルなしデータ点の事前確率情報をも格納し得る。また、含まれた訓練例のラベルは、第１の数値、例えば＋１などにマッピングされ得、除外された訓練例のラベルは、第２の数値、例えば−１などにマッピングされ得る。
【０１６２】
さらに、このデータ処理装置は、少なくとも１つの格納されたコスト要因および格納されたラベル付きデータ点ならびに格納されたラベルなしデータ点を訓練例として用いて、トランスダクティブ最大エントロピー識別（ＭＥＤ）を用いてトランスダクティブ分類器に繰り返し教示するためのトランスダクティブ分類器訓練装置を備える。さらに、ＭＥＤ計算の各繰り返しにおいて、ラベルなしデータ点のコスト要因が、データ点の期待ラベル値、例えばデータ点の期待ラベルの絶対値などの関数として調整される。また、ＭＥＤ計算の各繰り返しにおいて、事前確率情報が、データ点のクラス帰属確率の推定値に基づいて調整され得る。本装置は、例えば、トランスダクティブ分類器の計算の決定関数の変化が所定の閾値を下回ったとき、決定された期待ラベル値の変化が所定の閾値を下回ったときなどに、データ値の収束を判断するための手段、および収束の判断と同時に計算を終了するための手段を、さらに備え得る。
【０１６３】
さらに、訓練された分類器を用いて、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つが分類される。さらに、含まれた訓練例および除外された訓練例を与えられた、決定関数パラメータの事前確率分布に対してＫＬダイバージェンスを最小化する決定関数が、ラベル付きとラベルなしデータをそれらの期待ラベルに従って学習例として用いてプロセッサによって決定され得る。また、分類されたデータ点の分類、またはその派生物が、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力される。
【０１６４】
さらなる実施形態において、製品は、コンピュータ読み取り可能なプログラム格納媒体を備え、該媒体は、データの分類法を実行するためのコンピュータによって実行可能な命令の１つ以上のプログラムを明白に具体化する。使用時には、データ点が指定されたカテゴリに含まれるデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを各々が有するラベル付きデータ点が受信される。さらに、ラベルなしデータ点と、ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因とが、受信される。ラベル付きとラベルなしデータ点の事前確率情報がまた、コンピュータのメモリ内に格納され得る。また、含まれた訓練例のラベルは、第１の数値、例えば＋１などにマッピングされ得、除外された訓練例のラベルは第２の数値、例えば−１などにマッピングされ得る。
【０１６５】
さらに、トランスダクティブ分類器は、少なくとも１つの格納されたコスト要因ならびに格納されたラベル付きデータ点およびラベルなしデータ点を訓練例として用いて、繰り返し最大エントロピー識別（ＭＥＤ）計算によって訓練される。ＭＥＤ計算の各繰り返しにおいて、ラベルなしデータ点のコスト要因が、データ点の期待ラベル値、例えばデータ点の期待ラベルの絶対値などの関数として調整される。また、ＭＥＤの各繰り返しにおいて、事前確率情報が、データ点のクラス帰属確率の推定値に基づいて調整され得る。トランスダクティブ分類器を訓練する繰り返しステップは、データ値の収束に到達するまで、例えば、トランスダクティブ分類器の決定関数の変化が所定の閾値を下回るとき、決定された期待ラベル値の変化が所定の閾値を下回るとき、などまで、反復され得る。
【０１６６】
さらに、入力データ点がコンピュータのメモリからアクセスされ、訓練された分類器が、ラベルなしデータ点、ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するために適用される。また、含まれた訓練例および除外された訓練例を与えられた、決定関数パラメータの事前確率分布に対してＫＬダイバージェンスを最小化する決定関数が、ラベル付きとラベルなしデータをそれらの期待ラベルに従って学習例として用いて決定され得る。さらに、分類されたデータ点の分類、またはその派生物が、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力される。
【０１６７】
さらに別の実施形態において、コンピュータベースのシステムにおけるラベルなしデータの分類法が提示される。使用時には、データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを各々が有するラベル付きデータ点が受信される。
【０１６８】
さらに、ラベル付きデータ点およびラベルなしデータ点の事前ラベル確率情報と同様に、ラベル付きデータ点およびラベルなしデータ点が受信される。さらに、ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因が受信される。
【０１６９】
さらに、各ラベル付きとラベルなしデータ点に対する期待ラベルが、データ点のラベルの事前確率に基づいて決定される。データ値の実質的な収束まで、以下の下位ステップが繰り返される。すなわち、
・データ点の期待ラベルの絶対値に比例して、各ラベルなしデータ点に対するスケーリングされたコスト値を生成し、
・ラベル付きとラベルなしデータをそれらの期待ラベルに従って訓練例として用いて、含まれた訓練例および除外された訓練例を与えられた、決定関数パラメータの事前確率分布に対してＫＬダイバージェンスを最小化する決定関数を決定することによって、最大エントロピー識別（ＭＥＤ）分類器を訓練し、
・訓練された分類器を用いて、ラベル付きデータ点とラベルなしデータ点の分類スコアを決定し、
・訓練された分類器の出力をクラス帰属確率に対して較正し、
・決定されたクラス帰属確率に従って、ラベルなしデータ点のラベルの事前確率を更新し、
・更新されたラベルの事前確率および先に決定された分類スコアを用いて、最大エントロピー識別（ＭＥＤ）を用いてラベルおよびマージンの確率分布を決定し、
・先に決定されたラベルの確率分布を用いて、新たな期待ラベルを計算し、
・新たな期待ラベルを前回の繰り返しの期待ラベルで補間することによって、各データ点に対する期待ラベルを更新する。
【０１７０】
また、入力データ点の分類またはその派生物が、ユーザ、別のシステム、および別のプロセスのうちの少なくとも１つに出力される。
【０１７１】
決定関数の変化が所定の閾値を下回ったときに、収束に到達し得る。さらに、算出された期待ラベル値の変化が所定の閾値を下回ったときにも、収束に到達し得る。さらに、含まれた訓練例のラベルは、任意の値、例えば＋１という値を有し得、除外された訓練例のラベルは、任意の値、例えば−１という値を有し得る。
【０１７２】
本発明の一実施形態における、文書を分類する方法が図１１に提示される。使用時には、ステップ１１００で、ラベルなし文書および少なくとも１つの所定コスト要因と共に、既知の信頼水準を有する少なくとも１つのシード文書が受信される。シード文書および他のアイテムは、コンピュータのメモリ、ユーザ、ネットワーク接続などから受信され得、本方法を実行中のシステムからの要求後に受信され得る。少なくとも１つのシード文書は、該文書が指定されたカテゴリに含まれているか否かを示すラベルを有し得、キーワードのリストを含み得、または文書の分類を支援し得る任意の他の属性を有し得る。さらに、ステップ１１０２で、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、およびラベルなし文書を用いた繰り返し計算によって、トランスダクティブ分類器が訓練され、ここで、各計算の繰り返しに対して、コスト要因が期待ラベル値の関数として調整される。ラベル付きとラベルなし文書に関するデータ点のラベルの事前確率がまた受信され得、ここで、計算の各繰り返しに対して、データ点のクラス帰属確率の推定に従って、データ点のラベルの事前確率が調整され得る。
【０１７３】
さらに、少なくともいくつかの繰り返しの後に、ステップ１１０４で、ラベルなし文書に対する信頼スコアが格納され、ステップ１１０６で、最も高い信頼スコアを有するラベルなし文書の識別子が、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力される。識別子は、文書自体の電子コピー、それらの部分、それらの表題、それらの名前、それらのファイル名、それらの文書へのポインタなどであり得る。また信頼スコアは、各々の繰り返しの後に格納され得、その場合、各繰り返し後に最も高い信頼スコアを有するラベルなし文書の識別子が出力される。
【０１７４】
本発明の一実施形態は、最初の文書を残りの文書にリンクするパターンを発見することができる。開示手続きという仕事は、このパターン発見が特に価値のあるものとなる分野である。例えば、事実審理前の法的開示手続では、当面の訴訟と関連を有し得る大量の文書を調査する必要がある。究極の目標は、「決定的証拠」を発見することである。別の例では、発明者、特許審査官、および特許専門弁護士の日常的な仕事は、従来技術の検索によって技術の新規性を評価することである。詳細には、この仕事は、公開されたすべての特許および他の広報を検索して、新規性に関して審査されている特定の技術に関連し得る文書をこの組の中に発見することである。
【０１７５】
開示手続の仕事は、一組のデータ内の一文書または一組の文書の発見を含む。最初の文書または概念を得ると、ユーザは、該最初の文書または概念に関連する文書の発見を望み得る。しかしながら、最初の文書または概念と、標的文書、すなわち発見対象の文書との間の関係性の見解は、発見が生じた後にのみ十分に理解される。ラベル付きデータ点およびラベルなし文書、概念などから学習することによって、本発明は、最初の一文書または複数の文書と標的文書との間のパターンおよび関連性を学習し得る。
【０１７６】
本発明の別の実施形態における、法的開示手続と関連する文書を分析する方法が図１２に提示される。使用時には、ステップ１２００で、法的事項と関連する文書が受信される。そのような文書は、文書自体の電子コピー、それらの部分、それらの表題、それらの名前、それらのファイル名、文書へのポインタなどを含み得る。さらに、ステップ１２０２で、文書分類手法が文書に関して実行される。さらに、ステップ１２０４で、文書の分類に基づいて、文書の少なくとも一部の識別子が出力される。オプションとして、文書間のリンクを表示するものが、出力され得る。
【０１７７】
文書分類手法は、任意の種類の処理、例えばトランスダクティブ処理などを含み得る。例えば、上述の任意の帰納的手法またはトランスダクティブ手法が使用され得る。好ましい手法では、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、および法的事項と関連する文書を用いた繰り返し計算によって、トランスダクティブ分類器が訓練される。計算の各繰り返しに対して、コスト要因が期待ラベル値の関数として好適にも調整され、この訓練された分類器が、受信された文書を分類するために使用される。このプロセスは、ラベル付きとラベルなし文書に関するデータ点のラベルの事前確率を受信するステップをさらに含み得、ここで、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定に応じて調整される。さらに、文書分類手法は、サポートベクタマシン処理および最大エントロピー識別処理のうちの１つ以上を含み得る。
【０１７８】
さらに別の実施形態における、従来技術文書を分析する方法が図１３に提示される。使用時には、ステップ１３００で、検索クエリに基づいて分類器が訓練される。ステップ１３０２で、複数の従来技術文書がアクセスされる。そのような従来技術文書は、所与の日付よりも前に任意の形で公表された任意の情報を含み得る。そのような従来技術は、所与の日付よりも前の時点では任意の形において公表されていない任意の情報をさらに、あるいは代替案として含み得る。例示的な従来技術文書は、任意の種類の文書、例えば特許庁の広報、データベースから取り出されたデータ、従来技術を収集したもの、ウェブサイトの一部、などであり得る。また、文書分類手法が、ステップ１３０４で、分類器を用いて従来技術文書の少なくとも一部に関して実行され、従来技術文書の少なくとも一部の識別子が、従来技術文書の分類に基づいてステップ１３０６で出力される。この文書分類手法は、サポートベクタマシン処理、最大エントロピー識別処理、または上述の任意の帰納的手法またはトランスダクティブ手法を含む、任意の１つ以上の処理を含み得る。また、あるいは代替案として、文書間のリンクを表示するものが、出力され得る。さらに別の実施形態では、少なくとも一部の従来文書の関連性スコアが、文書の分類に基づいて出力される。
【０１７９】
検索クエリは、特許情報開示の少なくとも一部を含み得る。例示的な特許情報開示は、発明を要約した、発明者によって作成された開示、特許仮出願、非暫定特許出願、外国特許出願、または特許出願、などを含む。
【０１８０】
好適な一手法では、検索クエリは、特許文書または特許出願書類から取り出した請求項の少なくとも一部を含む。別の手法では、検索クエリは、特許文書または特許出願書類の要約書の少なくとも一部を含む。さらに別の手法では、検索クエリは、特許文書または特許出願書類から取り出された概要の少なくとも一部を含む。
【０１８１】
図２７は、文書を請求項とマッチングするための方法を示す。ステップ２７００で、特許文書または特許出願書類の少なくとも１つの請求項に基づいて、分類器が訓練される。従って、１つ以上の請求項またはそれらの一部が、分類器を訓練するために用いられ得る。ステップ２７０２で、複数の文書がアクセスされる。そのような文書は、従来技術文書、潜在的に侵害または出し抜きをはかる製品を記載している文書、などを含み得る。ステップ２７０４で、分類器を用いて、少なくとも一部の文書に関して文書分類手法が実行される。ステップ２７０６で、少なくとも一部の文書の識別子が、文書の分類に基づいて出力される。少なくとも一部の文書の関連性スコアがまた、文書の分類に基づいて出力され得る。
【０１８２】
本発明の一実施形態は、特許出願の分類に使用され得る。例えば、米国では、特許および特許出願は現在、米国特許分類（ＵＳＰＣ）システムを用いて、主題によって分類されている。この仕事は現在手作業で行われており、従って、非常に費用がかかりかつ多大な時間を必要とする。このような手作業による分類はまた、人為的ミスを被る。特許文書または特許出願書類が多数のクラスに分類され得ることが、そのような仕事の複雑さの度合いを増している。
【０１８３】
図２８は、一実施形態による特許出願を分類する方法を示す。ステップ２８００で、特定の特許分類に入ることが分かっている複数の文書に基づいて、分類器が訓練される。そのような文書は一般的に、特許文書および特許出願書類（またはそれらの一部）であり得るが、特定の特許分類の標的主題を記載した概要票でもあり得る。ステップ２８０２で、特許文書または特許出願書類の少なくとも一部が受信される。この一部は、請求項、概要、要約書、明細書、タイトルなどを含み得る。ステップ２８０４で、分類器を用いて、特許文書または特許出願書類の少なくとも一部に関して文書分類手法が実行される。ステップ２８０６で、特許文書または特許出願書類の分類が出力される。オプションとして、ユーザは、特許出願の一部または全部の分類を、手動で検証し得る。
【０１８４】
文書分類手法は、はい／いいえ式の分類手法であることが好ましい。換言すれば、文書が特定のクラスにある確率が閾値を上回る場合には、判定は「はい」で、その文書はこのクラスに属する。文書が特定のクラスにある確率が閾値を下回る場合には、判定は「いいえ」で、その文書はこのクラスに属さない。
【０１８５】
図２９は、特許出願を分類するさらに別の方法を示している。ステップ２９００で、特定の特許分類と関連する少なくとも１つの文書に基づいて訓練された分類器を用いて、特許文書または特許出願書類の少なくとも一部に関して文書分類手法が実行される。この場合にもまた、分類手法は、はい／いいえ式の分類手法であることが好ましい。ステップ２９０２で、特許文書または特許出願書類の分類が出力される。
【０１８６】
図２８および図２９に示す方法のいずれにおいても、異なる特許分類に入ることが分かっている複数の文書に基づいて訓練された異なる分類器を用いて、それぞれの方法が反復され得る。
【０１８７】
公式には、特許の分類は、請求項に基づくべきである。しかしながら、（任意のＩＰ関連内容）と（任意のＩＰ関連内容）との間のマッチングを行うことが、また所望され得る。一例を挙げれば、１つの手法は、特許の明細書を用いて訓練を行い、該特許の請求項に基づいて出願を分類する。別の手法は、明細書と請求項を用いて訓練を行い、要約書に基づいて分類する。特に好適な手法では、特許文書または特許出願書類のいかなる部分を用いて訓練が行われても、分類時にもそれと同じ種類の内容が用いられることであり、すなわち、システムが請求項に基づいて訓練される場合には、分類は請求項に基づいて行われることである。文書分類手法は、任意の種類の処理、例えばトランスダクティブ処理などを含み得る。例えば、上述の任意の帰納的手法またはトランスダクティブ手法が用いられ得る。好適な手法では、分類器はトランスダクティブ分類器であり得、トランスダクティブ分類器は、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、および従来技術文書を用いた繰り返し計算によって訓練され得、ここで、計算の各繰り返しに対して、コスト要因が期待ラベル値の関数として調整され、訓練された分類器は、従来技術文書を分類するために使用され得る。シード文書および従来技術文書に対するデータ点のラベルの事前確率がまた、受信され得、ここで、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定値に応じて調整され得る。シード文書は任意の文書、例えば特許庁の広報、データベースから取り出されたデータ、従来技術を収集したもの、ウェブサイト、特許開示情報、などであり得る。
【０１８８】
図１４は、１つの手法における、本発明の一実施形態を説明する。ステップ１４０１で、一組のデータが読み込まれる。この組の中の、ユーザと関連する文書の発見が所望されている。ステップ１４０２で、最初の１シード文書または複数のシード文書にラベルが付けられる。文書は任意の種類の文書、例えば特許庁の公報、データベースから取り出されたデータ、従来技術を収集したもの、ウェブサイト、などであり得る。ユーザによって提供された異なる一連のキーワードまたは文書で、トランスダクション処理をシードすることが、また可能である。ステップ１４０６で、トランスダクティブ分類器の訓練が、ラベル付きデータおよび所与の組のラベルなしデータの組を用いて行われる。繰り返しトランスダクション処理中の各ラベル帰納ステップで、ラベル帰納中に決定された信頼スコアが格納される。ひとたび訓練が終了すると、ラベル帰納ステップで高い信頼スコアを達成した文書が、ステップ１４０８でユーザに対して表示される。高い信頼スコアを有するこれらの文書は、発見という目的に対してユーザに関連する文書を表す。表示は、最初のシード文書から始まり、最後のラベル帰納ステップで発見された最終組の文書まで、ラベル帰納ステップの時間順になされ得る。
【０１８９】
本発明の別の実施形態は、例えば業務処理の自動化と結びついた、データの整理および正確な分類を含む。整理および分類の手法は、任意の種類の処理、例えばトランスダクティブ処理、などを含み得る。例えば、上述の任意の帰納的手法またはトランスダクティブ手法が使用され得る。好適な手法では、データベースへのエントリキーが、データベースの期待清浄度に応じて、一部の信頼水準と関連付けられたラベルとして用いられる。次いで、関連付けられた信頼水準を併せ持つラベル、すなわち期待ラベルが、トランスダクティブ分類器を訓練するために使用され、該トランスダクティブ分類器がラベル（キー）を修正し、データベース内のデータのより一貫性のある編成を達成する。例えば、自動的データ抽出、例えば合計金額、発注番号、製品量、発送先などの決定を可能にするために、インボイスは、該インボイスを発行した会社または個人に従って最初に分類される必要がある。通常、自動分類システムを準備するためには、訓練例が必要である。しかしながら、顧客によって提供される訓練例は、誤分類文書または他のノイズ―例えばファックスの表紙−をしばしば含んでおり、それらは、正確な分類を得るために自動分類システムの訓練に先立って識別され除去されねばならない。別の例では、患者記録の分野において、医師によって書かれた報告書と診断との間の矛盾を検出するために役立つ。
【０１９０】
別の例では、特許庁は持続的に再分類プロセスを実施していることが知られており、その際に特許庁は、（１）混同に対する特許庁の分類法の既存の分岐を評価し、（２）過度に輻輳しているノードを平等に分配するために分類法を再構築し、かつ（３）既存の特許を新たな構造内に再分類する。本明細書に提示されるトランスダクティブ学習法は、特許庁、およびこの作業を外部委託する会社によって、その分類法を再評価し、（１）所与の主要分類に対して新たな分類法を構築し、かつ（２）既存の特許を再分類することで、それを支援するために使用され得る。
【０１９１】
トランスダクションは、ラベル付きとラベルなしデータから学習し、それによって、ラベル付きデータからラベルなしデータへの移行が滑らかとなる。スペクトルの一方の端部には、完全な予備的知識を有するラベル付きデータがある。すなわち、与えられたラベルは例外なく正しい。他方の端部には、予備的知識が与えられていないラベルなしデータがある。あるレベルのノイズを含む編成されたデータは、ラベル付けに誤りのあるデータを構成し、上述の２つの最端部の間のスペクトル上のどこかに位置している。データの編成によって与えられたラベルは、ある程度まで正しいとして信用され得るが、完全にではない。従って、トランスダクションは、データの所与の編成内に一定のレベルの誤りを仮定することによって、および、これらをラベル割り当てに関する予備的知識における不確実性として解釈することによって、既存のデータ編成を整理するために使用され得る。
【０１９２】
一実施形態における、データを整理する方法が、図１５に提示される。使用時には、ステップ１５００で、複数のラベル付きデータ項目が受信され、ステップ１５０２で、複数のカテゴリの各々に対するデータ項目のサブセットが選択される。さらに、ステップ１５０４で、各サブセット内のデータ項目に対する不確実性がほぼゼロに設定され、ステップ１５０６で、サブセット内に存在しないデータ項目に対する不確実性が、ほぼゼロではない所定値に設定される。さらに、ステップ１５０８で、不確実性、サブセット内のデータ項目、およびサブセット内に存在しないデータ項目を訓練例として用いて、繰り返し計算によってトランスダクティブ分類器が訓練され、ステップ１５１０で、訓練された分類器が、データ項目の各々を分類するために、ラベル付きデータ項目の各々に適用される。また、ステップ１５１２で、入力データ項目の分類またはその派生物が、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力される。
【０１９３】
さらに、サブセットは無作為に選択され得、またユーザによって選択および検証され得る。少なくとも一部のデータ項目のラベルは、分類に基づいて変更され得る。また、データ項目の分類後、所定の閾値を下回る信頼水準を有するデータ項目の識別子が、ユーザに出力され得る。識別子は、文書自体の電子コピー、それらの部分、それらの表題、それらの名前、それらのファイル名、文書へのポインタ、などであり得る。
【０１９４】
本発明の一実施形態では、図１６に示すように、ステップ１６００で、整理プロセスを開始する２つの選択肢がユーザに提示される。１つ選択肢は、ステップ１６０２での完全自動整理であり、この場合には、各概念またはカテゴリに対して、特定数の文書が無作為に選択され、正しく編成されていると見なされる。代替案としては、ステップ１６０４で、いくつかの文書が、各概念またはカテゴリに対する１つ以上のラベル割り当てが適切に編成されていることの、人手による再調査および検証のために、フラグを立てられ得る。ステップ１６０６で、データ内のノイズレベルの推定値が受信される。ステップ１６１０で、検証済み（人手により検証された、または無作為に選択された）データおよびステップ１６０８の未検証データを用いて、トランスダクティブ分類器が訓練される。ひとたび訓練が終了すれば、文書は、新たなラベルに従って再編成される。ステップ１６１２で、ラベル割り当てにおいて特定の閾値を下回る低い信頼度を有する文書が、人手による再調査のためにユーザに対して表示される。ステップ１６１４で、ラベル割り当てにおいて特定の閾値を上回る信頼水準を有する文書が、トランスダクティブラベル割り当てに従って自動的に修正される。
【０１９５】
別の実施形態における、医療記録を管理する方法が、図１７に示される。使用時には、ステップ１７００で、医学的診断に基づいて分類器が訓練され、ステップ１７０２で、複数の医療記録がアクセスされる。さらに、ステップ１７０４で、分類器を用いて医療記録に関して文書分類手法が実行され、ステップ１７０６で、医学的診断と関連する低い確率を有する、少なくとも１つの医療記録の識別子が出力される。文書分類手法は、任意の種類の処理、例えばトランスダクティブ処理、などを含み得、かつ、サポートベクタマシン処理、最大エントロピー識別処理などを含む、１つ以上の上述の任意の帰納的手法またはトランスダクティブ手法を含み得る。
【０１９６】
一実施形態では、分類器はトランスダクティブ分類器であり得、トランスダクティブ分類器は、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、および医療記録を用いた繰り返し計算によって訓練され得、ここで、計算の各繰り返しに対して、コスト要因が期待ラベル値の関数として調整され、その後、訓練された分類器は、医療記録を分類するために使用され得る。シード文書および医療記録に対するデータ点のラベルの事前確率がまた、受信され得、ここで、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定値に従って調整され得る。
【０１９７】
本発明の別の実施形態は、動的な、シフトする分類概念に対して責任を負う。例えば、アプリケーションを処理する形式では、文書は、その後の処理に備えて文書を分類するために、文書のレイアウト情報および／または内容情報を用いて分類される。多くのアプリケーションにおいて、文書は静的ではなく、時間と共に進化する。例えば、文書の内容および／またはレイアウトは、新たな法律の制定によって変化し得る。トランスダクティブ分類は、これらの変化に自動的に順応し、ドリフトする分類概念にもかかわらず、同一のまたは同等の分類精度をもたらす。これは、人手による調整なくしては、概念のドリフトによって最初から分類精度に苦しむ、ルールベースシステムまたは帰納的分類法とは対照的である。この一例はインボイス処理であり、それは従来から帰納的学習を含み、またはインボイスのレイアウトを利用するルールベースシステムが用いられる。これら従来のシステムの下では、レイアウトに変化が生じた場合には、新たな訓練データにラベルを付けるか、または新たなルールを定めることによって、システムは手動で再構成されねばならない。しかしながら、トランスダクションの使用は、インボイスのレイアウトの小さな変化にも自動的に順応することによって、手動での再構成を不要とする。別の例では、トランスダクティブ分類は顧客の苦情分析に適用され得、そのような苦情の性質の変化を監視することができる。例えば、会社は、製品の変更を顧客の苦情と自動的に結び付け得る。
【０１９８】
トランスダクションは、ニュース記事の分類にも用いられ得る。例えば、２００１年９月１１日のテロリストによる攻撃に関する記事で始まり、アフガニスタンでの戦争を経て、今日のイラク情勢に関するニュース報道内容までの、テロとの戦いに関するニュース記事が、トランスダクションを用いて自動的に特定され得る。
【０１９９】
さらに別の例では、生物体の分類（アルファ分類学）が、生物体の新たな種を生成し他の種が絶滅することによる進化と共に、時間と共に変化し得る。分類体系または分類学のこれらの法則は、時間と共にシフトまたは変化する分類概念を有する、動的なものであり得る。
【０２００】
ラベルなしデータとして分類されるべき入力データを用いることによって、トランスダクションは、シフトする分類概念を認識し得、従って、進化する分類体系に動的に順応し得る。例えば、図１８は、ドリフトする分類概念を与えられた、トランスダクションを用いた本発明の一実施形態を示す。ステップ１８０２に示すように、文書セットＤ_ｉは、時刻ｔ_ｉにシステムに入る。ステップ１８０４で、トランスダクティブ分類器Ｃ_ｉが、これまで蓄積されたラベル付きデータおよびラベルなしデータを用いて訓練され、ステップ１８０６で、セットＤ_ｉの中の文書が分類される。手動モードが用いられる場合には、ステップ１８０８で判定されたユーザ指定閾値を下回る信頼水準を有する文書が、ステップ１８１０で、手動による再調査のためにユーザに提示される。ステップ１８１２に示すように、自動モードでは、ある信頼水準を有する文書が、システムに追加される新たなカテゴリの生成をトリガし、次いで該文書は、その新たなカテゴリに割り当てられる。選択された閾値を上回る信頼水準を有する文書は、ステップ１８２０Ａ〜１８２０Ｂで、現在のカテゴリ１からＮまでに分類される。ステップｔ_ｉの前に現在のカテゴリに分類されてきた、現在のカテゴリ内の全文書が、ステップ１８２２で分類器Ｃ_ｉによって再分類され、以前に割り当てられたカテゴリに分類されない全ての文書が、ステップ１８２４および１８２６で新たなカテゴリに移される。
【０２０１】
さらに別の実施形態における、文書内容のシフトに順応する方法が、図１９に提示される。文書の内容は、これに限定するものではないが、グラフィカルな内容、文字の内容、レイアウト、ナンバリング、などを含み得る。シフトの例は、時間的なシフト、スタイルのシフト（２人以上の人間が１つ以上の文書に関して作業する場合）、施される処理のシフト、レイアウトのシフト、などを含み得る。ステップ１９００で、ラベルなし文書および少なくとも１つの所定コスト要因と共に、少なくとも１つのラベル付きシード文書が受信される。文書は、これに限定するものではないが、顧客の苦情、インボイス、様式文書、領収書、などを含み得る。さらに、ステップ１９０２で、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、およびラベルなし文書を用いて、トランスダクティブ分類器が訓練される。また、ステップ１９０４で、所定の閾値を上回る信頼水準を有するラベルなし文書は、分類器を用いて複数のカテゴリに分類され、少なくとも一部のカテゴライズされた文書は、ステップ１９０６で、分類器を用いてカテゴリに再分類される。さらに、ステップ１９０８で、カテゴライズされた文書の識別子が、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力される。識別子は、文書自体の電子コピー、それらの部分、それらの表題、それらの名前、それらのファイル名、文書へのポインタ、などであり得る。さらに、製品の変更が、顧客の苦情などと結び付けられ得る。
【０２０２】
さらに、所定の閾値を下回る信頼水準を有するラベルなし文書が、１つ以上の新たなカテゴリに移され得る。また、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、およびラベルなし文書を用いた繰り返し計算によって、トランスダクティブ分類器が訓練され得、ここで、計算の各繰り返しに対して、コスト要因が期待ラベル値の関数として調整され得、訓練された分類器を用いてラベルなし文書を分類し得る。さらに、シード文書およびラベルなし文書に対するデータ点のラベルの事前確率が、受信され得、ここで、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定値に従って調整され得る。
【０２０３】
別の実施形態における、特許分類を文書内容のシフトに対して順応させる方法が、図２０に提示される。ステップ２０００で、ラベルなし文書と共に、少なくとも１つのラベル付きシード文書が受信される。ラベルなし文書は、任意の種類の文書、例えば、特許出願書類、裁判所提出書類、情報開示フォーム、文書の修正、などを含み得る。シード文書（単数または複数）は、特許文書（単数または複数）、特許出願書類（単数または複数）、などを含み得る。ステップ２００２で、少なくとも１つのシード文書およびラベルなし文書を用いて、トランスダクティブ分類器が訓練され、所定の閾値を上回る信頼水準を有するラベルなし文書は、分類器を用いて複数の既存のカテゴリに分類される。分類器は任意の種類の分類器、例えばトランスダクティブ分類器であり得、文書分類手法は任意の手法、例えばサポートベクタマシン処理、最大エントロピー識別処理、などであり得る。例えば、上述の任意の帰納的手法またはトランスダクティブ手法が用いられ得る。
【０２０４】
また、ステップ２００４で、所定の閾値を下回る信頼水準を有するラベルなし文書が、分類器を用いて少なくとも１つの新たなカテゴリに分類され、ステップ２００６で、少なくとも一部のカテゴライズされた文書が、分類器を用いて既存のカテゴリおよび少なくとも１つの新たなカテゴリに再分類される。さらに、ステップ２００８で、カテゴライズされた文書の識別子が、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力される。また、トランスダクティブ分類器が、少なくとも１つの所定コスト要因、検索クエリ、および文書を用いた繰り返し計算によって訓練され得、ここで、計算の各繰り返しに対して、コスト要因が期待ラベル値の関数として調整され得、訓練された分類器が、文書を分類するために使用され得る。さらに、検索クエリおよび文書に対するデータ点のラベルの事前確率が受信され得、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定に従って調整される。
【０２０５】
本発明のさらに別の実施形態は、文書分離の分野における文書のドリフトに対して責任を負う。文書分離に対する１つの実用例は、抵当文書の処理を含む。一連の様々な貸付文書、例えば、融資申込書、融資承認書、融資依頼書、融資金額などからなる、融資関係文書フォルダがスキャンされ、一連の画像内の様々な文書が、その後の処理の前に確認される必要がある。用いられる文書は静的ではなく、時が経つにつれて変化し得る。例えば、融資関係文書フォルダ内で用いられる納税申告用紙は、法律の変更により、時が経つにつれて変化し得る。
【０２０６】
文書分離は、一連の画像内の文書または部分文書の境界を見出すという問題を解決する。一連の画像を生成する一般的な例は、デジタルスキャナまたは多機能周辺装置（ＭＦＰ）である。分類の場合と同様に、トランスダクションが、文書およびそれらの境界の経時ドリフトに対処するために、文書分離に用いられ得る。ルールベースシステムまたは帰納的学習による解決に基づくシステムのような静的分離システムは、ドリフトする分離概念に自動的に順応し得ない。これらの静的分離システムの性能は、ドリフトが発生したときは常に、経時低下する。性能をその初期のレベルに維持するためには、ルールに手動で順応させる（ルールベースシステムの場合）か、または手動で新たな文書にラベルを付け、システムを再学習させる（帰納的学習による解決の場合）必要がある。いずれの方法も、時間と費用を要する。文書分離にトランスダクションを適用することにより、分離概念のドリフトに自動的に順応するシステムの開発が可能となる。
【０２０７】
一実施形態における、文書分離の方法が、図２１に提示される。ステップ２１００でラベル付きデータが受信され、ステップ２１０２で、一連のラベルなし文書が受信される。そのようなデータおよび文書は、法定開示文書、拒絶理由通知書、ウェブページデータ、代理人と依頼者との間の往復書簡、などを含み得る。さらに、ステップ２１０４で、ラベル付きデータおよびラベルなし文書に基づいて、トランスダクションを用いて確率的分類規則が順応され、ステップ２１０６で、文書分離用に用いられる重みが、確率的分類規則に従って更新される。また、ステップ２１０８で、一連の文書の中の分離位置が決定され、ステップ２１１０で、一連の文書の中の決定された分離位置の標識が、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力される。標識は、文書自体の電子コピー、それらの部分、それらの表題、それらの名前、それらのファイル名、文書へのポインタ、などであり得る。さらに、ステップ２１１２で、文書は、標識と相関するコードのフラグを立てられる。
【０２０８】
図２２は、文書分離と関連して用いられる本発明の分類法および装置の実装を示す。自動文書分離は、デジタルスキャン後の文書の分離および特定に含まれる、人手による努力を低減するために用いられる。１つのそのような文書分類方法は、本明細書に記載する分類方法を用い、分類規則を結合して、入手可能な全情報から可能性が最も高い分離を減じる推論アルゴリズムを使用することによって、ページの連なりを自動的に分離する。図２２に示す本発明の一実施形態では、本発明のトランスダクティブＭＥＤの分類法が、文書分離に採用されている。より詳細には、文書ページ２２００がデジタルスキャナ２２０２またはＭＦＰに挿入され、一連のデジタル画像２２０４に変換される。文書ページは、任意の種類の文書、例えば、特許庁の公報、データベースから取り出されたデータ、従来技術を集めたもの、ウェブサイト、などからのページであり得る。ステップ２２０６で、一連のデジタル画像が入力され、トランスダクションを用いて、確率的分類規則を動的に順応させる。ステップ２２０６は、ラベルなしデータとしての一連の画像の２２０４、およびラベル付きデータ２２０８を使用する。ステップ２２１０で、確率的ネットワーク内の重みが更新され、動的に順応された分類規則に従って、自動的文書分離に用いられる。出力ステップ２２１２は、一連のデジタル化されたページ２２１４が分離シート２２１６の自動画像によりインタリーブされる、分離画像の自動挿入の動的順応であり、ステップ２２１２で、一連の画像に分離シートの画像を自動的に挿入する。本発明の一実施形態では、ソフトウェアで生成された分離ページ２２１６はまた、分離ページ２２１６のすぐ後に続くかまたは先行する文書の種類を示し得る。ここで説明するシステムは、経時的に生じる文書のドリフトする分離概念に自動的に順応し、ルールに基づく解決または帰納的機械学習に基づく解決のような静的システムのように、分離精度の低下を被ることはない。アプリケーション処理の形式におけるドリフトする分離概念または分類概念の一般的な例は、先に述べたように、新たな法律の制定による文書の改正である。
【０２０９】
さらに、図２２に示すシステムは、図２３に示すシステムに修正され得る。図２３に示すシステムでは、ページ２３００がデジタルスキャナ２３０２またはＭＦＰに挿入され、一連のデジタル画像２３０４に変換される。ステップ２３０６で、一連のデジタル画像が入力され、トランスダクションを用いて確率的分類規則を動的に順応させる。ステップ２３０６は、ラベルなしデータとしての一連の画像２３０４、およびラベル付きデータ２３０８を使用する。ステップ２３１０は、採用された動的に順応された分類規則に従って自動文書分離に用いられる、確率的ネットワーク内の重みを更新する。ステップ２３１２では図１８で説明したように分離シート画像を挿入せずに、ステップ２３１２は、分離情報の自動挿入を動的に順応させ、文書の画像２３１４に、コード化された記述のフラグを立てる。このようにして、文書ページ画像は、可視化処理されたデータベース２３１６に入力され得、文書はソフトウェア識別子によってアクセスされ得る。
【０２１０】
本発明のさらに別の実施形態は、トランスダクションを用いて顔認識を行うことができる。上に述べたように、トランスダクションの利用は、多くの利点、例えば、必要となる訓練例が比較的少数であること、訓練にラベルなしの例を利用できること、などを有する。上述の利点を活用することによって、トランスダクティブ顔認識は、犯罪の検挙のために実装され得る。
【０２１１】
例えば、国土安全保障省は、テロリストが民間航空機への搭乗を許可されないことを保証しなければならない。空港のスクリーニングプロセスの一部は、空港の検問所で各乗客の写真を撮り、その人物を認識しようとすることであり得る。本システムは先ず、テロリスト容疑者に関して入手可能な限られた写真からの小数の例を用いて、訓練され得る。同じく訓練に用いられ得る、入手可能な同一テロリストのより多くのラベルなし写真がまた、他の捜査当局のデータベースにもあるかもしれない。従って、トランスダクティブ訓練装置は、機能的顔認識システムを生成するために、最初の疎なデータを活用するだけでなく、他の供給源からのラベルなし例をも用いて性能を向上させる。空港の検問所で撮られた写真を処理した後に、トランスダクティブシステムは、対比され得る帰納的システムよりもより正確に、問題の人物を認識することができる。
【０２１２】
さらに別の実施形態における、顔認識法が、図２４に提示される。ステップ２４００で、既知の信頼水準を有する少なくとも１つのラベル付きの顔のシード画像が受信される。この少なくとも１つのシード画像は、該画像が指定されたカテゴリに含まれているか否かを示すラベルを有し得る。さらに、ステップ２４００で、ラベルなし画像が、例えば、警察、政府系機関、迷子データベース、空港警備部門、またはその他の任意の場所から受信され、少なくとも１つの所定コスト要因が受信される。また、ステップ２４０２で、少なくとも１つの所定コスト要因、少なくとも１つのシード画像、およびラベルなし画像を用いて、繰り返し計算によって、トランスダクティブ分類器が訓練され、ここで、各計算の繰り返しに対して、コスト要因が期待ラベル値の関数として調整される。少なくとも一部の繰り返しの後に、ステップ２４０４で、ラベルなしシード画像に対する信頼スコアが格納される。
【０２１３】
さらに、ステップ２４０６で、最も高い信頼スコアを有するラベルなし文書の識別子が、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力される。識別子は、文書自体の電子コピー、それらの部分、それらの表題、それらの名前、それらのファイル名、文書へのポインタ、などであり得る。また、各繰り返しの後に、信頼スコアが格納され得、各繰り返しの後に最も高い信頼スコアを有する、ラベルなし画像の識別子が出力される。さらに、ラベル付きとラベルなし画像に対するデータ点のラベルの事前確率が受信され得、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定に従って調整され得る。さらに、例えば上述の空港の検問所の例からの、顔の第３のラベルなし画像が受信され得、この第３のラベルなし画像は、最も高い信頼スコアを有する少なくとも一部の画像と比較され得、第３のラベルなし画像の顔の信頼度がシード画像の顔と同一である場合には、第３のラベルなし画像の識別子が出力され得る。
【０２１４】
本発明のさらに別の実施形態は、文書発見システムにフィードバックを提供することによって、ユーザが自身の検索結果を向上させることを可能にする。例えば、インターネットの検索エンジン上で、特許文書または特許出願書類の検索結果など、検索を行っているときに、ユーザは、自身の検索クエリに応答した多数の結果を入手し得る。本発明の一実施形態は、ユーザが検索エンジンから提案された結果を再吟味して、１つ以上の取り出された結果についての関連度、例えば「私が望んだものに近いが、そのものではない」、「全く違う」などをエンジンに報告することを可能にする。ユーザがエンジンにフィードバックを提供するたびに、より良い結果がユーザの再吟味のために優先される。
【０２１５】
一実施形態における、文書検索法が、図２５に提示される。ステップ２５００で、検索クエリが受信される。検索クエリは、大文字と小文字を区別するクエリ、ブールクエリ、近似マッチングクエリ、構造化クエリ、などを含む、任意の種類のクエリであり得る。ステップ２５０２で、検索クエリに基づいた文書が取り出される。さらに、ステップ２５０４で文書が出力され、ステップ２５０６で、少なくとも一部の文書に対して、検索クエリへの文書の関連性を示すユーザ入力ラベルが受信される。例えば、ユーザは、クエリから返送された特定の結果が関連性を有するか否かを示し得る。また、ステップ２５０８で、検索クエリおよびユーザ入力ラベルに基づいて分類器が訓練され、ステップ２５１０で、文書を再分類するために分類器を用いて、文書に関して文書分類手法が実行される。さらに、ステップ２５１２で、少なくとも一部の文書の識別子が、文書の分類に基づいて出力される。識別子は、文書自体の電子コピー、それらの部分、それらの表題、それらの名前、それらのファイル名、文書へのポインタ、などであり得る。再分類された文書がまた、最初に出力された最も高い信頼性を有する文書と共に、出力され得る。
【０２１６】
文書分類手法は、任意の種類の処理、例えば、トランスダクティブ処理、サポートベクタマシン処理、最大エントロピー識別処理、などを含み得る。上述の任意の帰納的手法またはトランスダクティブ手法が、使用され得る。好適な手法では、分類器はトランスダクティブ分類器であり得、トランスダクティブ分類器は、少なくとも１つの所定コスト要因、検索クエリ、および文書を用いて、繰り返し計算によって訓練され得、ここで、計算の各繰り返しに対して、コスト要因が期待ラベル値の関数として調整され得、訓練された分類器が文書を分類するために使用され得る。さらに、検索クエリおよび文書に対するデータ点のラベルの事前確率が受信され得、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定に従って調整され得る。
【０２１７】
本発明のさらなる実施形態は、ＩＣＲ／ＯＣＲ、および音声認識を向上させるために用いられ得る。例えば、音声認識プログラムおよび音声認識システムの多くの実施形態は、システムを訓練するために、オペレータがいくつかの語を繰り返すことを必要とする。本発明は、例えば電話での会話を聴くことによって、最初に、あらかじめ設定された期間だけユーザの声をモニタして、「未分類」の内容を集め得る。その結果として、ユーザが認識システムの訓練を開始するときに、本システムは、トランスダクティブ学習を活用してモニタした音声を利用し、メモリモデルの構築を支援する。
【０２１８】
さらに別の実施形態における、インボイスと実体との関連付けを検証する方法が、図２６に提示される。ステップ２６００で、第１の実体と関連するインボイスの形式に基づいて分類器が訓練される。インボイスの形式は、インボイスの上での荷印の物理的レイアウト、またはインボイスの上のキーワード、インボイス番号、顧客名などのような特徴の、いずれかまたは両方を指すことができる。さらに、ステップ２６０２で、第１の実体および他の実体のうちの少なくとも１つと関連する旨のラベルが付けられた複数のインボイスがアクセスされ、ステップ２６０４で、分類器を用いて、インボイスに関して文書分類手法が実行される。例えば、上述の任意の帰納的手法またはトランスダクティブ手法が、文書分類手法として用いられ得る。例えば、文書分類手法は、トランスダクティブ処理、サポートベクタマシン処理、最大エントロピー識別処理、などを含み得る。また、ステップ２６０６で、第１の実体と関連していない高い確率を有するインボイスのうちの、少なくとも１つの識別子が出力される。
【０２１９】
さらに、分類器は、任意の種類の分類器、例えばトランスダクティブ分類器であり得、トランスダクティブ分類器は、少なくとも１つの所定コスト要因、少なくとも１つの文書分類、およびインボイスを用いて、繰り返し計算によって訓練され得、計算の各繰り返しに対して、コスト要因が期待ラベル値の関数として調整され、訓練された分類器を用いてインボイスを分類する。また、シード文書およびインボイスに対するデータ点のラベルの事前確率が受信され得、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定に従って調整される。
【０２２０】
本明細書に記述された実施形態によって提供される利点の１つは、トランスダクティブアルゴリズムの安定性である。この安定性は、コスト要因のスケーリングおよびラベルの事前確率の調整によって達成される。例えば、一実施形態では、トランスダクティブ分類器は、少なくとも１つのコスト要因、ラベル付きデータ点、およびラベルなしデータ点を訓練例として用いて、繰り返し分類によって訓練される。計算の各繰り返しに対して、ラベルなしデータ点のコスト要因が、期待ラベル値の関数として調整される。さらに、計算の各繰り返しに対して、データ点のラベルの事前確率が、データ点のクラス帰属確率の推定に従って調整される。
【０２２１】
ワークステーションは、ＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（登録商標）オペレーティングシステム（ＯＳ）、ＭＡＣＯＳ、またはＵＮＩＸ（登録商標）オペレーティングシステムのような、オペレーティングシステムを搭載して有し得る。好適な実施形態がまた、言及したもの以外のプラットフォームおよびオペレーティングシステム上で実装され得ることが、理解される。好適な実施形態は、ＪＡＶＡ（登録商標）、ＸＭＬ、Ｃ、および／またはＣ^＋＋言語、または他のプログラミング言語、また、オブジェクト指向のプログラム方法論を用いて、記述され得る。複雑なアプリケーションを開発するためにますます多く用いられる、オブジェクト指向プログラミング（ＯＯＰ）が、使用され得る。
【０２２２】
上述のアプリケーションは、トランスダクティブ学習を用いて、帰納的顔認識システムに困難をもたらす極めて疎なデータの問題を克服する。トランスダクティブ学習のこの局面は、このアプリケーションに限定されるものではなく、疎なデータに起因する他の機械学習上の問題を解決するために使用され得る。
【０２２３】
当業者は、本明細書において開示される本発明の種々の実施形態の範囲および精神内にある、変形形態を工夫し得る。さらに、本明細書において開示される実施形態の種々の特徴は、単独で、または相互の様々な組み合わせの形で用いられ得、本明細書において記載される特定の組み合わせに限定されることを意図されてはいない。従って、特許請求の範囲は、例示された実施形態によって限定されない。
【図面の簡単な説明】
【０２２４】
【図１】図１は、ラベル帰納に応用されたＭＥＤ識別学習を採り入れることによって得られる、分類スコアの関数として期待ラベルをプロットしたチャートの描画である。
【図２】図２Ａ〜図２Ｈは、トランスダクティブＭＥＤ学習によって得られる、決定関数の計算の繰り返しを示す、一連のプロットの描画である。
【図３】図３Ａ〜図３Ｈは、本発明の一実施形態の、改良されたトランスダクティブＭＥＤ学習によって得られる、決定関数の計算の繰り返しを示す、一連のプロットの描画である。
【図４】図４は、スケーリングされたコスト要因を用いる本発明の一実施形態による、ラベルなしデータの分類のための制御流れ図を示す。
【図５】図５は、ユーザ定義の事前確率情報を用いる本発明の一実施形態による、ラベルなしデータの分類のための制御流れ図を示す。
【図６】図６は、スケーリングされたコスト要因および事前確率情報と共に最大エントロピー識別を用いる、本発明の一実施形態による、ラベルなしデータの分類のための詳細な制御流れ図を示す。
【図７】図７は、本明細書に記載される種々の実施形態が実装され得る、ネットワークアーキテクチャを示す、ネットワーク図である。
【図８】図８は、ユーザ装置と関連付けられる代表的なハードウェア環境の系統図である。
【図９】図９は、本発明の一実施形態の装置のブロック図を示す。
【図１０】図１０は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１１】図１１は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１２】図１２は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１３】図１３は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１４】図１４は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１５】図１５は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１６】図１６は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１７】図１７は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１８】図１８は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図１９】図１９は、一実施形態に従って実行される分類プロセスを、フローチャートで示す。
【図２０】図２０は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図２１】図２１は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図２２】図２２は、第１の文書分離システムに適用された本発明の、一実施形態の方法を示す制御流れ図を示す。
【図２３】図２３は、第２の分離システムに適用された本発明の、一実施形態の方法を示す制御流れ図を示す。
【図２４】図２４は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図２５】図２５は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図２６】図２６は、一実施形態に従って実行される分類プロセスを、フローチャートに示す。
【図２７】図２７は、一実施形態に従って実行される分類プロセスを、フローチャートで示す。
【図２８】図２８は、一実施形態に従って実行される分類プロセスを、フローチャートで示す。
【図２９】図２９は、一実施形態に従って実行される分類プロセスを、フローチャートで示す。

【特許請求の範囲】
【請求項１】
コンピュータベースのシステムにおける、データ分類の方法であって、
ラベル付きデータ点を受信するステップであって、該ラベル付きデータ点の各々が、該データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されるデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを有する、ステップと、
ラベルなしデータ点を受信するステップと、
該ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因を受信するステップと、
該少なくとも１つのコスト要因ならびに該ラベル付きデータ点および該ラベルなしデータ点を訓練例として用いる繰り返し計算によって、最大エントロピー識別（ＭＥＤ）を用いてトランスダクティブ分類器を訓練するステップであって、計算の各繰り返しに対して、該ラベルなしデータ点のコスト要因が期待ラベル値の関数として調整され、データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、ステップと、
該ラベルなしデータ点、該ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するために、該訓練された分類器を適用するステップと、
該分類されたデータ点の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、方法。
【請求項２】
前記関数は、データ点の前記期待ラベルの絶対値である、請求項１に記載の方法。
【請求項３】
ラベル付きとラベルなしデータ点の事前確率情報を受信するステップ、をさらに包含する、請求項１に記載の方法。
【請求項４】
前記トランスダクティブ分類器は、前記ラベル付きとラベルなしデータの事前確率情報を用いて学習する、請求項３に記載の方法。
【請求項５】
前記記ラベル付きデータと前記ラベルなしデータとをそれらの期待ラベルに従って学習例として利用して、前記含まれる訓練例および除外される訓練例を与えられた決定関数パラメータに対してガウス事前分布を用いて、最小のＫＬダイバージェンスを有する決定関数を決定する、さらなるステップを包含する、請求項１に記載の方法。
【請求項６】
決定関数パラメータに対して多項事前分布を用いて、最小のＫＬダイバージェンスを有する決定関数を決定する、さらなるステップを包含する、請求項１に記載の方法。
【請求項７】
トランスダクティブ分類器を訓練する前記繰り返しステップは、データ値の収束に到達するまで反復される、請求項１に記載の方法。
【請求項８】
前記トランスダクティブ分類器の決定関数の変化が所定の閾値を下回ったときに、収束に到達する、請求項７に記載の方法。
【請求項９】
決定された期待ラベル値の変化が所定の閾値を下回ったときに、収束に到達する、請求項７に記載の方法。
【請求項１０】
前記含まれる訓練例の前記ラベルは＋１の値を有し、前記除外される訓練例のラベルは−１の値を有する、請求項１に記載の方法。
【請求項１１】
前記含まれる例の前記ラベルは第１の数値にマッピングされ、前記除外される例の前記ラベルは第２の数値にマッピングされる、請求項１に記載の方法。
【請求項１２】
前記ラベル付きデータ点をコンピュータのメモリ内に格納するステップと、
前記ラベルなしデータ点をコンピュータのメモリ内に格納するステップと、
前記入力データ点をコンピュータのメモリ内に格納するステップと、
前記ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因をコンピュータのメモリ内に格納するステップと、
をさらに包含する、請求項１に記載の方法。
【請求項１３】
コンピュータシステム上に配備され実行されるコンピュータ実行可能なプログラムコードを提供するステップを包含する、データ分類の方法であって、
該プログラムコードは、
ラベル付きデータ点の各々が、該データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されるデータ点に対する訓練例であるのかを示す少なくとも１つのラベルを有する、コンピュータのメモリ内に格納された該ラベル付きデータ点にアクセスし、
コンピュータのメモリからラベルなしデータ点にアクセスし、
コンピュータのメモリから該ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因にアクセスし、
該少なくとも１つの格納されたコスト要因ならびに格納されたラベル付きデータ点および格納されたラベルなしデータ点を用いて、繰り返し計算によって最大エントロピー識別（ＭＥＤ）トランスダクティブ分類器を訓練し、計算の各繰り返しに対して、該ラベルなしデータ点のコスト要因が期待ラベル値の関数として調整され、データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整され、
該ラベルなしデータ点、該ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するために、該訓練された分類器を適用し、
該分類されたデータ点の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力する、
ための命令を備える、
方法。
【請求項１４】
前記関数は、データ点の前記期待ラベルの絶対値である、請求項１３に記載の方法。
【請求項１５】
コンピュータのメモリ内に格納されたラベル付きとラベルなしデータ点の事前確率情報にアクセスするステップ、をさらに包含する、請求項１３に記載の方法。
【請求項１６】
各繰り返しに対して、前記事前確率情報がデータ点のクラス帰属確率の推定値に従って調整される、請求項１５に記載の方法。
【請求項１７】
前記ラベル付きとラベルなしデータをそれらの期待ラベルに従って学習例として利用して、前記含まれる訓練例および除外される訓練例を与えられた決定関数パラメータの事前分布に対して最小のＫＬダイバージェンスを有する決定関数を決定するための命令を、さらに備える、請求項１３に記載の方法。
【請求項１８】
トランスダクティブ分類器を訓練する前記繰り返しステップは、データ値の収束に到達するまで反復される、請求項１３に記載の方法。
【請求項１９】
トランスダクティブ分類の決定関数の変化が所定の閾値を下回ったときに、収束に到達する、請求項１８に記載の方法。
【請求項２０】
決定された期待ラベル値の変化が所定の閾値を下回ったときに、収束に到達する、請求項１８に記載の方法。
【請求項２１】
前記含まれる訓練例の前記ラベルは＋１の値を有し、前記除外される訓練例の前記ラベルは−１の値を有する、請求項１３に記載の方法。
【請求項２２】
前記含まれる例の前記ラベルは第１の数値にマッピングされ、前記除外される例の前記ラベルは第２の数値にマッピングされる、請求項１３に記載の方法。
【請求項２３】
データ処理装置であって、該装置は、
（ｉ）ラベル付きデータ点の各々が、該データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されるデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを有する、該ラベル付きデータ点と、（ｉｉ）ラベルなしデータ点と、（ｉｉｉ）該ラベル付きとラベルなしデータ点の少なくとも１つの所定コスト要因と、を格納する、少なくとも１つのメモリと、
該少なくとも１つの格納されたコスト要因ならびに格納されたラベル付きデータ点および格納されたラベルなしデータ点を訓練例として用いて、トランスダクティブ最大エントロピー識別（ＭＥＤ）を用いてトランスダクティブ分類器に繰り返し教示するためのトランスダクティブ分類器訓練装置であって、ＭＥＤ計算の各繰り返しにおいて、該ラベルなしデータ点の該コスト要因が期待ラベル値の関数として調整され、データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、訓練装置と、
を備え、
該トランスダクティブ分類器訓練装置によって訓練された分類器は、該ラベルなしデータ点、該ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するために用いられ、
該分類されたデータ点の分類、またはその派生物が、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力される、
装置。
【請求項２４】
前記関数は、データ点の前記期待ラベルの絶対値である、請求項２３に記載の装置。
【請求項２５】
前記メモリは、ラベル付きとラベルなしデータ点の事前確率情報をも格納する、請求項２３に記載の装置。
【請求項２６】
前記ＭＥＤ計算の各繰り返しにおいて、前記事前確率情報がデータ点のクラス帰属確率の推定値に従って調整される、請求項２５に記載の装置。
【請求項２７】
前記ラベル付きとラベルなしデータをそれらの期待ラベルに従って学習例として用いて、前記含まれる訓練例および除外される訓練例を与えられた決定関数の事前分布に対して、最小のＫＬダイバージェンスを有する該決定関数を決定するためのプロセッサをさらに備える、請求項２３に記載の装置。
【請求項２８】
データ値の収束を判定し、収束の判定と同時に計算を終了する手段をさらに備える、請求項２３に記載の装置。
【請求項２９】
前記トランスダクティブ分類器計算の決定関数の変化が所定の閾値を下回ったときに、収束に到達する、請求項２８に記載の装置。
【請求項３０】
決定された期待ラベル値の変化が所定の閾値を下回ったときに、収束に到達する、請求項２８に記載の装置。
【請求項３１】
前記含まれる訓練例の前記ラベルは＋１の値を有し、前記除外される訓練例の前記ラベルは−１の値を有する、請求項２３に記載の装置。
【請求項３２】
前記含まれる例の前記ラベルは第１の数値にマッピングされ、前記除外される例の前記ラベルは第２の数値にマッピングされる、請求項２３に記載の装置。
【請求項３３】
コンピュータによって読み取り可能なプログラム格納媒体を備える製品であって、該媒体は、コンピュータによって実行可能な命令の１つ以上のプログラムを明白に具体化してデータ分類の方法を実行し、該方法は、
ラベル付きデータ点の各々が、該データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されたデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを有する該ラベル付きデータ点を受信するステップと、
ラベルなしデータ点を受信するステップと、
該ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定のコスト要因を受信するステップと、
該少なくとも１つの格納されたコスト要因ならびに格納されたラベル付きデータ点および格納されたラベルなしデータ点を訓練例として用いて、繰り返し最大エントロピー識別（ＭＥＤ）計算によってトランスダクティブ分類器を訓練するステップであって、該ＭＥＤ計算の各繰り返しにおいて、該ラベルなしデータ点のコスト要因が期待ラベル値の関数として調整され、データ点の事前確率がデータ点のクラス帰属確率の推定値に従って調整される、ステップと、
該ラベルなしデータ点、該ラベル付きデータ点、および入力データ点のうちの少なくとも１つを分類するために、該訓練された分類器を適用するステップと、
該分類されたデータ点の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、
製品。
【請求項３４】
前記関数は、データ点の前記期待ラベルの絶対値である、請求項３３に記載の製品。
【請求項３５】
前記方法は、ラベル付きとラベルなしデータ点の事前確率情報をコンピュータのメモリ内に格納するステップをさらに包含する、請求項３３に記載の製品。
【請求項３６】
前記ＭＥＤ計算の各繰り返しにおいて、前記事前確率情報がデータ点のクラス帰属確率の推定値に従って調整される、請求項３５に記載の製品。
【請求項３７】
前記方法は、前記ラベル付きとラベルなしデータをそれらの期待ラベルに従って学習例として用いて、前記含まれる訓練例および除外される訓練例を与えられた決定関数パラメータの事前分布に対して、最小のＫＬダイバージェンスを有する該決定関数を決定する、さらなるステップを包含する、請求項３３に記載の製品。
【請求項３８】
トランスダクティブ分類器を訓練する前記繰り返しステップは、データ値の収束に到達するまで反復される、請求項３３に記載の製品。
【請求項３９】
前記トランスダクティブ分類の決定関数の変化が所定の閾値を下回ったときに、収束に到達する、請求項３８に記載の製品。
【請求項４０】
決定された期待ラベル値の変化が所定の閾値を下回ったときに、収束に到達する、請求項３８に記載の製品。
【請求項４１】
前記含まれる訓練例の前記ラベルは＋１の値を有し、前記除外される訓練例の前記ラベルは−１の値を有する、請求項３３に記載の製品。
【請求項４２】
前記含まれる例の前記ラベルは第１の数値にマッピングされ、前記除外される例の前記ラベルは第２の数値にマッピングされる、請求項３３に記載の製品。
【請求項４３】
コンピュータベースのシステムにおける、ラベルなしデータの分類の方法であって、
ラベル付きデータ点を受信するステップであって、該データ点が指定されたカテゴリに含まれるべきデータ点に対する訓練例であるのか、あるいは指定されたカテゴリから除外されるデータ点に対する訓練例であるのかを示す、少なくとも１つのラベルを、該ラベル付きデータ点の各々が有する、ステップと、
ラベル付きとラベルなしデータ点を受信するステップと、
ラベル付きデータ点およびラベルなしデータ点の事前ラベル確率情報を受信するステップと、
該ラベル付きデータ点およびラベルなしデータ点の少なくとも１つの所定コスト要因を受信するステップと、
該データ点の該ラベルの事前確率に従って、各ラベル付きとラベルなしデータ点に対する期待ラベルを決定するステップと、
データ値が実質的に収束するまで、以下の下位ステップ、すなわち
・該データ点の期待ラベルの絶対値に比例して各ラベルなしデータ点に対するスケーリングされたコスト値を生成するステップと、
・該ラベル付きとラベルなしデータをそれらの期待ラベルに従って訓練例として用いて、該含まれる訓練例および除外される訓練例を与えられた決定関数パラメータの事前確率分布に対してＫＬダイバージェンスを最小化する該決定関数を算出することによって、分類器を訓練するステップと、
・該訓練された分類器を用いて、該ラベル付きとラベルなしデータ点の分類スコアを決定するステップと、
・該訓練された分類器の出力をクラス帰属確率に対して較正するステップと、
・決定された該クラス帰属確率に従って該ラベルなしデータ点の該ラベルの事前確率を更新するステップと、
・該更新されたラベルの事前確率および先に決定された分類スコアを用いて、最大エントロピー識別（ＭＥＤ）を用いて該ラベルおよびマージンの確率分布を決定するステップと、
・該先に決定されたラベルの確率分布を用いて、新たな期待ラベルを計算するステップと、
・前回の繰り返しによる該期待ラベルで該新たな期待ラベルを補間することによって、各データ点に対する期待ラベルを更新するステップと、
を繰り返すステップと、
該入力データ点の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、方法。
【請求項４４】
前記決定関数の変化が所定の閾値を下回ったときに、収束に到達する、請求項４３に記載の方法。
【請求項４５】
決定された期待ラベル値の変化が所定の閾値を下回ったときに、収束に到達する、請求項４３に記載の方法。
【請求項４６】
前記含まれる訓練例の前記ラベルは＋１の値を有し、前記除外される訓練例の前記ラベルは−１の値を有する、請求項４３に記載の方法。
【請求項４７】
ラベル割り当てに関する既知の信頼水準を有する、少なくとも１つのラベル付きシード文書を受信するステップと、
ラベルなし文書を受信するステップと、
少なくとも１つの所定コスト要因を受信するステップと、
該少なくとも１つの所定コスト要因、該少なくとも１つのシード文書、および該ラベルなし文書を用いて、繰り返し計算によってトランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、
少なくとも一部の該繰り返しの後に、該ラベルなし文書に対する信頼スコアを格納するステップと、
最も高い信頼スコアを有する該ラベルなし文書の識別子を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、文書を分類する方法。
【請求項４８】
前記少なくとも１つのシード文書は、キーワードのリストを有する、請求項４７に記載の方法。
【請求項４９】
信頼スコアが、前記各繰り返しの後に格納され、各繰り返しの後に、前記最も高い信頼スコアを有する前記ラベルなし文書の識別子が出力される、請求項４７に記載の方法。
【請求項５０】
前記ラベル付きとラベルなし文書に対するデータ点のラベルの事前確率を受信するステップ、をさらに包含する、請求項４７に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項５１】
法的事項と関連する文書を受信するステップと、
該文書に関して文書分類手法を実行するステップと、
該文書の分類に基づいて、該文書の少なくとも一部の識別子を出力するステップと、
を包含する、法的開示手続と関連する文書を分析する方法。
【請求項５２】
前記文書分類手法は、トランスダクティブ処理を含む、請求項５１に記載の方法。
【請求項５３】
少なくとも１つの所定コスト要因、少なくとも１つのシード文書、および法的事項と関連する文書を用いて、繰り返し計算によってトランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップをさらに包含する、請求項５２に記載の方法。
【請求項５４】
前記ラベル付きとラベルなし文書に対するデータ点のラベルの事前確率を受信するステップをさらに包含する、請求項５３に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に応じて調整される、方法。
【請求項５５】
前記文書分類手法は、サポートベクタマシン処理を含む、請求項５１に記載の方法。
【請求項５６】
前記文書分類手法は、最大エントロピー識別処理を含む、請求項５１に記載の方法。
【請求項５７】
前記文書間のリンクを表すものを出力するステップをさらに包含する、請求項５１に記載の方法。
【請求項５８】
複数のラベル付きデータ項目を受信するステップと、
複数のカテゴリの各々に対する該データ項目のサブセットを選択するステップと、
各サブセット内の該データ項目に対する不確実性を、ほぼゼロに設定するステップと、
該サブセット内に存在しない該データ項目に対する不確実性を、ほぼゼロではない所定値に設定するステップと、
該不確実性、該サブセット内のデータ項目、および該サブセット内に存在しない該データ項目を訓練例として用いて、繰り返し計算によってトランスダクティブ分類器を訓練するステップと、
該データ項目の各々を分類するために、該訓練された分類器を該ラベル付きデータ項目の各々に適用するステップと、
該入力データ項目の分類、またはその派生物を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、データを整理する方法。
【請求項５９】
前記サブセットは、無作為に選択される、請求項５８に記載の方法。
【請求項６０】
前記サブセットは、ユーザによって選択および検証される、請求項５８に記載の方法。
【請求項６１】
前記分類に基づいて、少なくとも一部の前記データ項目の前記ラベルを変更するステップ、をさらに包含する、請求項５８に記載の方法。
【請求項６２】
データ項目の分類後に、所定の閾値を下回る信頼水準を有するデータ項目の識別子がユーザに出力される、請求項５８に記載の方法。
【請求項６３】
第１の実体と関連するインボイスの形式に基づいて分類器を訓練するステップと、
該第１の実体および他の実体のうちの少なくとも１つと関連する旨のラベルが付けられた複数のインボイスにアクセスするステップと、
該分類器を用いて、該インボイスに関して文書分類手法を実行するステップと、
該第１の実体と関連していない高い確率を有する該インボイスのうちの少なくとも１つの識別子を出力するステップと、
を包含する、インボイスと実体との関連性を検証する方法。
【請求項６４】
前記文書分類手法は、トランスダクティブ処理を含む、請求項６３に記載の方法。
【請求項６５】
前記分類器はトランスダクティブ分類器である、請求項６４に記載の方法であって、該方法は、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、および前記インボイスを用いて、繰り返し計算によって該トランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、該訓練された分類器を用いて該インボイスを分類するステップと、を包含する、方法。
【請求項６６】
前記シード文書およびインボイスに対するデータ点のラベルの事前確率を受信するステップをさらに包含する、請求項６５に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項６７】
前記文書分類手法は、サポートベクタマシン処理を含む、請求項６３に記載の方法。
【請求項６８】
前記文書分類手法は、最大エントロピー識別処理を含む、請求項６３に記載の方法。
【請求項６９】
医学的診断に基づいて分類器を訓練するステップと、
複数の医療記録にアクセスするステップと、
該分類器を用いて、該医療記録に関して文書分類手法を実行するステップと、
該医学的診断と関連する低い確率を有する該医療記録のうちの少なくとも１つの識別子を出力するステップと、
を包含する、医療記録を管理する方法。
【請求項７０】
前記文書分類手法は、トランスダクティブ処理を含む、請求項６９に記載の方法。
【請求項７１】
前記分類器はトランスダクティブ分類器である、請求項７０に記載の方法であって、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、および前記医療記録を用いて、繰り返し計算によって該トランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、該医療記録を分類するために該訓練された分類器を使用するステップと、をさらに包含する、方法。
【請求項７２】
前記シード文書および医療記録に対するデータ点のラベルの事前確率を受信するステップをさらに包含する、請求項７１に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項７３】
前記文書分類手法は、サポートベクタマシン処理を含む、請求項６９に記載の方法。
【請求項７４】
前記文書分類手法は、最大エントロピー識別処理を含む、請求項６９に記載の方法。
【請求項７５】
既知の信頼水準を有する、少なくとも１つの顔のラベル付きシード画像を受信するステップと、
ラベルなし画像を受信するステップと、
少なくとも１つの所定コスト要因を受信するステップと、
該少なくとも１つの所定コスト要因、該少なくとも１つのシード画像、および該ラベルなし画像を用いて、繰り返し計算によってトランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、
少なくとも一部の該繰り返しの後に、ラベルなしシード画像に対する信頼スコアを格納するステップと、
最も高い信頼スコアを有する該ラベルなし画像の識別子を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、顔認識方法。
【請求項７６】
前記少なくとも１つのシード画像は、該画像が指定されたカテゴリに含まれているか否かを示すラベルを有する、請求項７５に記載の方法。
【請求項７７】
信頼スコアが、各前記繰り返しの後に格納され、各繰り返しの後に前記最も高い信頼スコアを有する前記ラベルなし画像の識別子が出力される、請求項７５に記載の方法。
【請求項７８】
前記ラベル付きとラベルなし画像に対するデータ点のラベルの事前確率を受信するステップ、をさらに包含する、請求項７５に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項７９】
顔の第３のラベルなし画像を受信するステップと、該第３のラベルなし画像を前記最も高い信頼スコアを有する前記画像の少なくとも一部と比較するステップと、該第３のラベルなし画像の顔の信頼度が前記シード画像の前記顔と同一である場合には、該第３のラベルなし画像の識別子を出力するステップと、をさらに包含する、請求項７５に記載の方法。
【請求項８０】
検索クエリに基づいて分類器を訓練するステップと、
複数の従来技術文書にアクセスするステップと、
該分類器を用いて、該従来技術文書に関して文書分類手法を実行するステップと、
該従来技術文書の分類に基づいて、該従来技術文書の少なくとも一部の識別子を出力するステップと、
を包含する、従来技術文書を分析する方法。
【請求項８１】
前記文書分類手法は、トランスダクティブ処理を含む、請求項８０に記載の方法。
【請求項８２】
前記分類器はトランスダクティブ分類器である、請求項８１に記載の方法であって、少なくとも１つの所定コスト要因、少なくとも１つのシード文書、および前記従来技術文書を用いて、繰り返し計算によって該トランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、該従来技術文書を分類するために該訓練された分類器を用いるステップと、を包含する、方法。
【請求項８３】
前記シード文書および従来技術文書に対するデータ点のラベルの事前確率を受信するステップをさらに包含する、請求項８２に記載の方法であって、前記計算の各繰り返しに対して、データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項８４】
前記検索クエリは、特許開示情報の少なくとも一部を含む、請求項８０に記載の方法。
【請求項８５】
前記検索クエリは、特許文書または特許出願書類から取り出された請求項の少なくとも一部を含む、請求項８０に記載の方法。
【請求項８６】
前記検索クエリは、特許文書または特許出願書類の要約書の少なくとも一部を含む、請求項８０に記載の方法。
【請求項８７】
前記検索クエリは、特許文書または特許出願書類から取り出された概要の少なくとも一部を含む、請求項８０に記載の方法。
【請求項８８】
前記文書分類手法は、サポートベクタマシン処理を含む、請求項８０に記載の方法。
【請求項８９】
前記文書分類手法は、最大エントロピー識別処理を含む、請求項８０に記載の方法。
【請求項９０】
前記従来技術文書は、特許庁の公開文書である、請求項８０に記載の方法。
【請求項９１】
前記文書間のリンクを表すものを出力するステップ、をさらに包含する、請求項８０に記載の方法。
【請求項９２】
前記従来技術文書の分類に基づいて、該従来技術文書の少なくとも一部の関連性スコアを出力するステップをさらに包含する、請求項８０に記載の方法。
【請求項９３】
少なくとも１つのラベル付きシード文書を受信するステップと、
ラベルなし文書を受信するステップと、
該少なくとも１つのシード文書および該ラベルなし文書を用いてトランスダクティブ分類器を訓練するステップと、
該分類器を用いて、所定の閾値を上回る信頼水準を有する該ラベルなし文書を複数の既存のカテゴリに分類するステップと、
該分類器を用いて、所定の閾値を下回る信頼水準を有する該ラベルなし文書を少なくとも１つの新たなカテゴリに分類するステップと、
該分類器を用いて、該カテゴライズされた文書の少なくとも一部を、該既存のカテゴリおよび該少なくとも１つの新たなカテゴリに再分類するステップと、
該カテゴライズされた文書の識別子を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、文書内容のシフトに特許分類を順応させる方法。
【請求項９４】
前記分類器はトランスダクティブ分類器である、請求項９３に記載の方法であって、少なくとも１つの所定コスト要因、検索クエリ、および前記文書を用いて、繰り返し計算によって該トランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、該文書を分類するために該訓練された分類器を用いるステップと、をさらに包含する、方法。
【請求項９５】
前記検索クエリおよび文書に対するデータ点のラベルの事前確率を受信するステップをさらに包含する、請求項９４に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項９６】
前記文書分類手法は、サポートベクタマシン処理を含む、請求項９３に記載の方法。
【請求項９７】
前記文書分類手法は、最大エントロピー識別処理を含む、請求項９３に記載の方法。
【請求項９８】
前記ラベルなし文書は特許出願書類である、請求項９３に記載の方法。
【請求項９９】
前記少なくとも１つのシード文書は、特許文書および特許出願書類からなる群から選択される、請求項９３に記載の方法。
【請求項１００】
特許文書または特許出願書類の少なくとも１つの請求項に基づいて分類器を訓練するステップと、
複数の文書にアクセスするステップと、
該分類器を用いて、該文書の少なくとも一部に関して文書分類手法を実行するステップと、
該文書の分類に基づいて、該文書の少なくとも一部の識別子を出力するステップと、
を包含する、文書を請求項にマッチングする方法。
【請求項１０１】
前記文書の前記分類に基づいて、該文書の少なくとも一部の関連性スコアを出力するステップ、をさらに包含する、請求項１００に記載の方法。
【請求項１０２】
前記文書は従来技術文書である、請求項１００に記載の方法。
【請求項１０３】
前記文書は製品について記載する、請求項１００に記載の方法。
【請求項１０４】
特定の特許分類に存在することが知られている複数の文書に基づいて、分類器を訓練するステップと、
特許文書または特許出願書類の少なくとも一部を受信するステップと、
該分類器を用いて、該特許文書または特許出願書類の該少なくとも一部に関して、文書分類手法を実行するステップと、
該特許文書または特許出願書類の分類を出力するステップと、
を包含する、特許文書または特許出願書類を分類する方法であって、
該文書分類手法は、はい／いいえ式分類手法である、方法。
【請求項１０５】
前記文書は、特許文書および特許出願書類からなる群から選択される、請求項１０４に記載の方法。
【請求項１０６】
前記特許文書または特許出願書類の前記少なくとも一部は、特許文書または特許出願書類から取り出された請求項の少なくとも一部を含む、請求項１０５に記載の方法。
【請求項１０７】
前記特許文書または特許出願書類の前記少なくとも一部は、特許文書または特許出願書類の要約書の少なくとも一部を含む、請求項１０５に記載の方法。
【請求項１０８】
前記特許文書または特許出願書類の前記少なくとも一部は、特許文書または特許出願書類から取り出された概要の少なくとも一部を含む、請求項１０５に記載の方法。
【請求項１０９】
特定の特許分類と関連する少なくとも１つの文書に基づいて訓練された分類器を用いて、特許文書または特許出願書類の少なくとも部分に関して文書分類手法を実行するステップであって、該文書分類手法は、はい／いいえ式分類手法である、ステップと、
該特許文書または特許出願書類の分類を出力するステップと、
を包含する、特許文書または特許出願書類を分類する方法。
【請求項１１０】
第２の特許分類に存在することが知られている複数の文書に基づいて訓練された異なる分類器を用いて、前記方法を反復するステップをさらに包含する、請求項１０９に記載の方法。
【請求項１１１】
前記特許文書または特許出願書類の前記少なくとも一部は、特許文書または特許出願書類から取り出された請求項の少なくとも一部を含む、請求項１０９に記載の方法。
【請求項１１２】
前記特許文書または特許出願書類の前記少なくとも一部は、特許文書または特許出願書類の要約書の少なくとも一部を含む、請求項１０９に記載の方法。
【請求項１１３】
前記特許文書または特許出願書類の前記少なくとも一部は、特許文書または特許出願書類から取り出された概要の少なくとも一部を含む、請求項１０９に記載の方法。
【請求項１１４】
少なくとも１つのラベル付きシード文書を受信するステップと、
ラベルなし文書を受信するステップと、
少なくとも１つの所定コスト要因を受信するステップと、
該少なくとも１つの所定コスト要因、該少なくとも１つのシード文書、および該ラベルなし文書を用いて、トランスダクティブ分類器を訓練するステップと、
該分類器を用いて、所定の閾値を上回る信頼水準を有する該ラベルなし文書を複数のカテゴリに分類するステップと、
該カテゴライズされた文書の識別子を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
を包含する、文書内容のシフトに順応する方法。
【請求項１１５】
前記所定の閾値を下回る信頼水準を有するラベルなし文書を、１つ以上の新たなカテゴリに移すステップ、をさらに包含する、請求項１１４に記載の方法。
【請求項１１６】
少なくとも１つの所定コスト要因、前記少なくとも１つのシード文書、および前記ラベルなし文書を用いて、繰り返し計算によって前記トランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、該ラベルなし文書を分類するために該訓練された分類器を用いるステップと、をさらに包含する、請求項１１４に記載の方法。
【請求項１１７】
前記シード文書およびラベルなし文書に対するデータ点のラベルの事前確率を受信するステップ、をさらに包含する、請求項１１６に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項１１８】
前記ラベルなし文書は顧客の苦情である、請求項１１４に記載の方法であって、製品の変更を顧客の苦情とリンクするステップをさらに包含する、方法。
【請求項１１９】
前記ラベルなし文書はインボイスである、請求項１１４に記載の方法。
【請求項１２０】
ラベル付きデータを受信するステップと、
ラベルなし文書の連なりを受信するステップと、
該ラベル付きデータおよび該ラベルなし文書に基づいて、トランスダクションを用いて確率的分類規則を順応させるステップと、
該確率的分類規則に従って、文書分離に用いられる重みを更新するステップと、
該文書の連なりにおける分離位置を決定するステップと、
該連なりにおける該決定された該分離位置の標識を、ユーザ、別のシステム、および別のプロセスの少なくとも１つに出力するステップと、
該標識と相関するコードのフラグを、該文書に立てるステップと、
を包含する、文書を分離する方法。
【請求項１２１】
検索クエリを受信するステップと、
該検索クエリに基づいて文書を取り出すステップと、
該文書を出力するステップと、
該文書の少なくとも一部に対するユーザ入力ラベルを受信するステップであって、該ラベルは、該文書の該検索クエリとの関連性を示す、ステップと、
該検索クエリおよび該ユーザ入力ラベルに基づいて、分類器を訓練するステップと、
該文書を再分類するために、該分類器を用いて該文書に関して文書分類手法を実行するステップと、
該文書の該分類に基づいて、該文書の少なくとも一部の識別子を出力するステップと、
を包含する、文書検索の方法。
【請求項１２２】
前記文書分類手法は、トランスダクティブ処理を含む、請求項１２１に記載の方法。
【請求項１２３】
前記分類器はトランスダクティブ分類器である、請求項１２２に記載の方法であって、少なくとも１つの所定コスト要因、前記検索クエリ、および前記文書を用いて、繰り返し計算によって該トランスダクティブ分類器を訓練するステップであって、該計算の各繰り返しに対して、該コスト要因が期待ラベル値の関数として調整される、ステップと、該文書を分類するために該訓練された分類器を用いるステップと、をさらに包含する、方法。
【請求項１２４】
前記検索クエリおよび文書に対するデータ点ラベルの事前確率を受信するステップ、をさらに包含する、請求項１２３に記載の方法であって、前記計算の各繰り返しに対して、該データ点のラベルの事前確率がデータ点のクラス帰属確率の推定値に従って調整される、方法。
【請求項１２５】
前記文書分類手法は、サポートベクタマシン処理を含む、請求項１２１に記載の方法。
【請求項１２６】
前記文書分類手法は、最大エントロピー識別処理を含む、請求項１２１に記載の方法。
【請求項１２７】
前記再分類された文書は出力され、最も高い信頼度を有する文書が最初に出力される、請求項１２１に記載の方法。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【図２２】

【図２３】

【図２４】

【図２５】

【図２６】

【図２７】

【図２８】

【図２９】

【公表番号】特表２００９−５４３２５４（Ｐ２００９−５４３２５４Ａ）
【公表日】平成２１年１２月３日（２００９．１２．３）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 特定の計算モデルに基づくコンピュータ・システム (1,616)
    - 生物学的モデルに基づくコンピュータ・システム (1,008)
      - ニューラル・ネットワーク・モデルを用いるもの (314)
        
        学習方法 (142)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
    - 特定の用途に特に適合したデジタル計算またはデータ処理の装置また... (2,326)

【出願番号】特願２００９−５１９４３９（Ｐ２００９−５１９４３９）
【出願日】平成１９年６月７日（２００７．６．７）
【国際出願番号】ＰＣＴ／ＵＳ２００７／０１３４８４
【国際公開番号】ＷＯ２００８／００８１４２
【国際公開日】平成２０年１月１７日（２００８．１．１７）
【出願人】（５０１４７７８８６）コファックス　インコーポレイテッド (2)
【氏名又は名称原語表記】Ｋｏｆａｘ，　Ｉｎｃ．
【Ｆターム（参考）】

検索装置 (67,127)

[ Back to top ]

トランスダクティブデータ分類のための方法およびシステム、ならびに機械学習手法を用いたデータ分類方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

トランスダクティブデータ分類のための方法およびシステム、ならびに機械学習手法を用いたデータ分類方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク