コンピュータ実施方法
【課題】トピック識別を提供する。
【解決手段】粗粒度トピックモデル生成60で、アーティクルのセットはコーパスから任意に選択され(61)、特徴的単語のベースラインがアーティクルの任意のセットから抽出され、ベースラインに基づいて各特徴的単語の発生頻度が求められ(62)、アーティクルはポジティブ訓練例のセットであるコーパスから選択され(63)、特徴的単語の発生頻度が求められ(64)、測度又は得点がTF−IDFの重み付け法を用いて各特徴的単語に割り当てられ(65)、各特徴的単語の得点を調整し(66)、特徴的単語とそれらの得点の表が作成される(67)。
【解決手段】粗粒度トピックモデル生成60で、アーティクルのセットはコーパスから任意に選択され(61)、特徴的単語のベースラインがアーティクルの任意のセットから抽出され、ベースラインに基づいて各特徴的単語の発生頻度が求められ(62)、アーティクルはポジティブ訓練例のセットであるコーパスから選択され(63)、特徴的単語の発生頻度が求められ(64)、測度又は得点がTF−IDFの重み付け法を用いて各特徴的単語に割り当てられ(65)、各特徴的単語の得点を調整し(66)、特徴的単語とそれらの得点の表が作成される(67)。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ディジタル情報編成に係り、より詳細には、ソーシャルインデックスにおいてトピック識別を提供するためのコンピュータ実施方法に関する。
【背景技術】
【0002】
ウェブなどのオープンエンド(無制限)な情報ソースをトピック(題目)によって編成によって、情報の入手や検索が容易になることは、例えば、2008年8月12日に出願された係属中の同一出願人による
【特許文献1】に記載されており、本明細書中にその全体が参照することによって組み込まれている。書籍は、長い間、トピックインデックス(索引)によって編成されてきた。しかしながら、規格(コーデックス)形式の制約があるため、書籍のサイズやページ数が制限され、従って、インデックスの大きさも制限されていた。一方、ウェブ(Web)材料は、物理的なバウンド(境界)が不足しており、網羅されている主題の全幅を収容するために、もっと広範囲のトピック編成を必要としている。
【0003】
トピック編成が欠けていることによって、ウェブなどのオープンエンドな情報のリポジトリ(保存場所)の効果的な検索が困難になる。ユーザが、検索されている主題に対して認識不足であったり、或いは、入手できる情報のエクステント(範囲)を把握していなかったりする場合もある。いくら知識が豊かでも、ユーザが、所望の情報を正しく記述できなかったり、専門用語又は語彙の紛らわしい語尾変化などに辟易したりする場合もある。更に、検索結果だけでは、たとえ、トピック編成されていても、切望していたトピックの掲示板(サインポスト)がまだ十分ではなく、所与のサブジェクトに密接に関連するトピックが、全てのウェブトピックのインデックス全体のほんの一部に過ぎない場合もある。
【0004】
トピックインデックスを提供するための一つの手法として、
【特許文献1】に記載されているように、ソーシャルインデックスを介して構成されるエバーグリーン(常に新しい)インデックスを形成するために、有限状態パターンを使用することが挙げられる。ソーシャルインデックスは、エバーグリーンインデックス内のトピック毎に細粒度トピックモデルを生成するために、ブートストラップ式訓練材料へ教師有りマシン学習を付与する。一旦訓練されると、エバーグリーンインデックスは、予め選択されているサブジェクトエリアのトピックへ新しい情報を自動的に分類するために、インデックス外挿のために使用される。
【0005】
細粒度ソーシャルインデックスシステムは、アーティクルが「オントピック(ontopic:トピックに関連している)」であることを正確に記述している高解像度のトピックモデルを使用する。しかしながら、このようなモデルを「細粒化」する同様の技術は、モデルを、広告、サイドリンク、注釈、又は、大部分は事後に追加され中核となる記事(アーティクル)から除外されている他のコンテンツとして、ウェブページ上に出現する非応答ノイズ単語に感応させる。さらに、トピックの定義を拡張させるための優良候補であるアーティクルの認識は、細粒度トピックモデルだけを使っても不十分である。細粒度トピックモデルの訓練範囲があまりにも狭義に訓練されたため、細粒度トピックに類似しているが、全く一致していないアーティクルの発見が不可能なときに、問題が発生する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許出願第12/190552号
【特許文献2】米国特許出願第12/354681号
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記の問題を克服するために、本発明は、ソーシャルインデックスにおいてトピックの識別を提供するためのコンピュータ実施方法を提供する。
【課題を解決するための手段】
【0008】
本発明の一実施態様によれば、電子的に記憶されたアーティクルと一つ以上のインデックスが保持されている。各インデックスは、それぞれがアーティクルの一つ以上に関連するトピックを含む。アーティクルの任意抽出と選択抽出が共に選択される。トピック毎に、任意抽出と選択抽出の各々においてアーティクル内に含まれる特徴的な単語が識別される。任意抽出と選択抽出の各々における特徴的な単語の発生頻度が求められる。任意抽出と選択抽出に含まれる特徴的単語に対する発生頻度の比率が識別される。最後に、トピックに関連するアーティクルに含まれる特徴的単語とこれらの特徴的単語に割り当てられる得点を含む粗粒度トピックモデルが、トピックご毎に、構築される。
【0009】
本発明を実施するために創出された最良の方法が説明されている、以下の詳細な説明から、本発明が他の実施の形態を容易に適用可能であることを当業者は理解するであろう。お気付きのように、本発明の精神とその範囲を逸脱しない限り、本発明には他のさまざまな実施の形態が適用可能であり、明らかに部分的な変更又は変形が可能である。従って、添付図面及び詳細な説明は、本来、例示することのみを意図しており、本発明を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0010】
【図1】ディジタル情報の意味形成のための環境の一例を示すブロック図である。
【図2】図1の環境に使用される基本的な構成要素を示す機能ブロック図である。
【図3】図1のソーシャルインデックスシステムによって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。
【図4】細粒度トピックモデル生成を示すデータフローチャートである。
【図5】図1のソーシャルインデックスシステムによって生成された特徴的単語モデルを例示する図である。
【図6】粗粒度トピックモデル生成を示すデータフローチャートである。
【図7】細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。
【図8】二つの仮想ウェブモデルのインタラクションを例示する図である。
【図9】候補「ニアミス」アーティクルを識別するためのトピックとの距離得点を提示するユーザインターフェースの画面例を示す図である。
【図10】候補「ニアミス」アーティクルであるアーティクルの画面例を示す図である。
【図11】図9のユーザインターフェースを再訓練した時の画面例を示す図である。
【図12】更に再訓練された図11のデータに対する相補的デバッギングディスプレイを例示する図である。
【図13】更に再訓練して得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図である。
【発明を実施するための形態】
【0011】
用語集
【0012】
以下の用語は、明細書全体にわたって使用され、特に注釈がなければ、以下に記載の意味をもっている。
【0013】
コーパス: アーティクル(記事、項目など)、ドキュメント、ウェブページ、電子ブック、又は印刷材料として入手できる他のディジタル情報(など大量の言語データ)の集まり又はセット。
【0014】
ドキュメント(文書): コーパス内の個々のアーティクル。ドキュメントは、書籍の章又は節、又は大きな作品の細目を指す。ドキュメントは、異なるトピック上のいくつかの引用ページを含むことがある。
【0015】
引用ページ: ページ番号などのイデックス(索引)が引用するドキュメント内の位置。引用ページは、単ページ又はページセットであってよい。引用ページにおいて、サブトピックは、索引付けするための細粒度トピックモデルによって拡張され、ページセットは、細粒度トピックモデルに照合する全てのページを含む。各引用ページは、例えば、細粒度トピックモデルによって照合され得る段落などであり、ページ全体よりはるかに小さい。
【0016】
サブジェクトエリア(主題領域): ソーシャルインデックスにおけるトピックとサブトピックのセットであり、エバーグリーンインデックスとこれと等価のインデックスを含む。
【0017】
トピック: ソーシャルインデックス内の単一エントリ。エバーグリーンインデックスにおいて、トピックは、コーパス内のドキュメントに照合するように用いられる細粒度トピックモデル、例えば、パターンを伴う。また、トピックは粗粒度トピックモデルを伴う。
【0018】
サブトピック: ソーシャルインデックス内のトピック下に階層的に例挙される単一エントリ。エバーグリーンインデックスにおいて、サブトピックは細粒度トピックモデルを伴う。
【0019】
細粒度トピックモデル: 細粒度トピックモデルは、有限状態計算に基づいており、アーティクルが特定のトピックの範囲内に入っているかを判断するために使用される。各保存された細粒度トピックモデルは、有限状態パターンであり、クエリ(照会)に類似している。細粒度トピックモデルは、ポジティブ訓練例及びネガティブ訓練例に照らして、有限状態マシンを訓練することによって作成される。
【0020】
粗粒度トピックモデル: 粗粒度トピックモデルは、特徴的単語に基づいており、どのトピックが照会に整合するかを判断する時に使用される。各保存された粗粒度トピックモデルは、トピックに対して重要な特徴的単語のセットであり、各特徴的単語の重要度を示すスコア(得点)である。この粗粒度トピックモデルは、ポジティブ訓練例、及びインデックス内の全てのトピックに関連しているアーティクルのベースラインのサンプルから生成される。ベースラインのサンプルは、ベースラインの単語の発生頻度、よって、開始点を確立する。ポジティブ訓練例の単語の発生頻度とベースラインのサンプルの単語の発生頻度が比較される。トピックのサブインデックス生成に使用される以外に、粗粒度トピックモデルは、広告指標化、ノイジーアーティクルの検出、ニアミス(極めて類似しているアーティクル)の検出、及び他の目的に使用され得る。
【0021】
コミュニティ: オンラインの特定のサブジェクトエリアで、関心ある主要トピックを共有し、そのインタラクション(対話)の少なくとも一部に対して、コンピュータネットワークが介在している。サブジェクトエリアの定義付けは広範囲にわたっており、ヨットレース、有機園芸などの趣味的分野から、歯科医又は内科医などの職業的関心、又は、後発性糖尿病のケアなどの医学的関心に及ぶ。
【0022】
拡張(オーグメント)コミュニティ: サブジェクトエリア上にソーシャルインデックスを有するコミュニティ。拡張コミュニティは、ソーシャルインデックスによって既に引用されているサブジェクトエリア内でドキュメントを読出し又は投票に参加する。
【0023】
エバーグリーンインデックス: エバーグリーンインデックスは、コーパスに対して「常に現在状態を維持する」ソーシャルインデックスの特定の形態である。実施例としては、ソーシャルインデックスシステムは、コーパスの新しいドキュメントを識別するために、RSS(アールエスエス:RDF(リソース記述枠組みの略)サイトサマリー)形式のフィード又はクロールウェブサイトをポーリング(調査)する。
【0024】
ソーシャルインデックスシステム: ソーシャルインデックスを用いたオンライン情報交換。このシステムは、拡張コミュニティ間の情報交換を容易にし、状態インジケータを提供し、関心ドキュメントを一つの拡張コミュニティから他の拡張コミュニティへ渡すことを可能にする。拡張コミュニティの相互接続されたセットは、コミュニティのソーシャルネットワークを形成する。
【0025】
情報ダイエット(節約): 情報ダイエットは、ユーザが「消費する」即ち「関心サブジェクトを読み出す」情報を特徴付ける。ユーザの情報消費動作において、例えば、ユーザは、選挙関連ニュースに25%、ローカルニュースに15%、芸能関連トピックに10%、健康増進関連トピックの新しい情報に10%、特定の職業関連に20%、経済発展に10%、エコロジーや新しいエネルギ資源の開発に10%、その時間を費やしている。ソーシャルインデックスシステムが付与されれば、ユーザは、情報ダイエットの主な関心に応じた個別の拡張コミュニティへの参加やモニタリングを行うことができる。
【0026】
ディジタル情報の意味形成(センスメイキング)と検索は関連しているが、独自に動作する。前者は、ディジタル情報インフラストラクチャによって仲介される意味形成に関し、ディジタル情報インフラストラクチャは、パブリックデータネットワーク、例えば、インターネット、独立型コンピュータシステム、及びディジタル情報のオープンエンド(無制限)リポジトリを含む。後者は、ディジタル情報インフラストラクチャからの情報の検索又は探求に関し、ディジタル情報インフラストラクチャは、ソーシャルインデックスを介して、又は他のインデックスソースによって、トピック編成され得る。図1は、ディジタル情報の意味形成及び情報検索に対する例示的な環境10を示すブロック図である。ソーシャルインデックスシステム11とトピック検索システムは、協働して、それぞれ、意味形成と検索を支援し、これらの作業は、同時に、ウェブブラウザで実行されるウィジェットを介して、エンドユーザであるブロガー(ブログを立てる人)や情報希望者などの情報作成者によって、使用され得る。
【0027】
一般に、ディジタル情報は、ディジタル形式で使用可能な情報のコーパスである。情報のエクステント(成長)はオープンエンド(無制限)であり、これは、コーパスとそのトピックの範囲が、連続的に、そして、大きさやサブジェクトが固定的制限を受けることなく、成長を続けることを示唆している。インターネットなどのディジタルデータ通信ネットワーク16は、ディジタル情報の供給(配信)、交換、及び消費のためのインフラストラクチャを提供する。また、例えば、ノンパブリックな法人企業ネットワークなどの他のネットワークインフラストラクチャも利用可能である。ネットワーク16は、多様に分散した情報源や消費者へ相互接続性を提供する。例えば、上述したように、それぞれが、アーティクルや他のコンテンツを含むコーパスに投票し、及び/又は、コーパスへアクセスする利害関係のある4つの集団や組織間において相互接続性を提供する。ブロガー、作者、編集者、共同制作者、及び外部後援者などが連続してブログエントリ、アーティクル、ウェブページなどをネットワーク16に公開(post)し、これらが、ウェブサーバ14a、ニュースアグリゲータ(集積)サーバ14b、投票によるニュースサーバ14c、及び他の情報ソースを介して、分散データコーパスとして維持される。これらのソースは、それぞれ、ユーザへ、ウェブコンテンツ15a、ニュースコンテンツ15b、コミュニティ投票による又は「吟味された(vetted)」コンテンツ15cを供給する。ユーザは、パソコン等のユーザデバイス13a〜cを介して、ネットワーク16のみならず、他のサーバにアクセスする。明確にするために、ここでは、ユーザデバイスのみを取り上げているが、サーバ及び他の非利用者(ノンユーザ)デバイス情報消費者も、同様に、コーパスに集成された情報を探索、検索、及び利用することができる。
【0028】
一般に、各ユーザデバイス13a〜cは、サーバ14a〜cに対しての、インターフェース、情報交換、及び情報検索を支援するウェブブラウザ又は同等のアプリケーションを実行する、ウェブ(Web)イネーブルドデバイスである。ユーザデバイス13a〜cとサーバ14a〜cは共に、中央処理装置、メモリ、入力/出力ポート、ネットワークインターフェース、非揮発性記憶装置などの汎用のプログラマブル計算装置において従来の技術において公知の構成要素を含む。他の構成要素を使用してもよい。更に、サーバ14a〜cに代えて又はこれに加えて、他の情報ソースが利用可能であり、ユーザデバイス13a〜cに代えて又はこれに加えて、他の情報消費者も利用可能である。
【0029】
ディジタル意味形成は、ソーシャルインデックスシステム11によって容易に行われる。ソーシャルインデックスシステム11は、ネットワーク16を介して、情報ソースと情報消費者に相互接続されている。ソーシャルインデックスシステム11は、拡張コミュニティの主要エリア内における、ディジタル情報の自動発見及びトピックへの自動分類を容易にする。
【0030】
ユーザの観点からすると、ディジタル情報検索のための環境10は、単一情報ポータル(入り口)として現れるが、実際には、分離しながらも統合されているサービスのセットである。図2は、図1の環境10に使用される基本的な構成要素20を示す機能ブロック図である。構成要素は、ディジタル情報の分類及び編成に集中的に用いられる。発見、予測、方向付け等の他の関連ディジタル情報動作を提供するために更なる構成要素が必要とされ得る。
【0031】
構成要素20は、情報収集部21、ソーシャルインデックス22、及びユーザサービス28aの三つの基本機能モジュールへ大きく分類され得る。他の機能モジュールも使用可能である。更に、機能モジュールは、一体化した又は個別の計算プラットフォームにおいて実施され得る。情報収集部21は、電子的に記憶された情報の分散型コーパスを集成するオープンエンド(無制限な)情報ソースから「着信」コンテンツ27を得る。着信コンテンツ27は、コーパスから新しいディジタル情報を収穫するために記憶媒体収集装置によって収集される。一般に、着信コンテンツ27は、リポジトリに記憶され、又は、実際の写しを維持する代わりに、着信コンテンツのハイパーリンク又は引用を保存することによって、間接的に記憶される。
【0032】
着信コンテンツ27は、収集予定に基づいて新しいディジタル情報として収集される。新しいディジタル情報は、必要に応じて、又は、いくらかの他の収集基準に基づいて、収集されてもよい。着信コンテンツ27は、リポジトリ又はデータベース(図示しない)に記憶されてもよいし、又は、実際の写しの代わりに、着信コンテンツ27のハイパーリンク又は引用を保存することによって、間接的に記憶されてもよい。更に、着信コンテンツ27は、ディジタル情報が記憶されていた元の表現形式とは異なっている、複数の表現を含むことができる。異なる表現形式は、タイトルの表示、アーティクル要旨の提示、トピック分類の追跡、及び、
【特許文献1】に開示されている「細粒度トピックモデル、又は、例えば、本明細書中にその全体が参照することによって組み込まれている、2009年1月15日に出願された係属中の同一出願人による
【特許文献2】に開示されている粗粒度トピックモデルの推論及び使用を容易にするために使用され得る。アーティクルにおける単語は、ステムされ(単語から変化する語尾を除いて語形変化の基礎になる部分だけ残して語幹化され)、トークン形式、マイナス句読点使用、大文字使用などによって保存され得る。ソーシャルインデックスシステム11によって作成される細粒度トピックモデルは、着信コンテンツ27のきわめて抽象的なバージョンを表しており、このバージョンでは、単語の大部分が廃棄され、単語の発生頻度を中心に保持されている。
【0033】
好ましくは、着信コンテンツ27は、コーパス内の情報の全て又は殆どを網羅する分散型トピックインデックス28の大きなセットの一部として、少なくとも一つのトピック又は「エバーグリーン(いつでも新しい)」ソーシャルインデックスの元、ソーシャルインデックスを介して編成される。一つの実施の形態において、各エバーグリーンインデックスは、
【特許文献1】に開示されているような、ソーシャルインデックスシステム22の中核を形成する有限状態モデラー23を介して構築される。エバーグリーンインデックスは、新しい着信コンテンツ27がインデックストピックスの一つ以上に含まれるか否かを判断するために使用され、有限状態パターンなどの細粒度トピックモデル25を含む。各エバーグリーンインデックスは、オントピック(トピックに関連している)、そして、関心が類似しているユーザの拡張ソーシャルコミュニティに属している。ソーシャルインデックスシステムは、各トピック及びサブトピックに対して細粒度トピックモデルを作成するために、ブートストラップ訓練材料に教師有りマシン学習を適用する。一旦訓練されると、インデックス外挿のためにエバーグリーンインデックスが使用されて、予め選択されているサブジェクトエリアのトピック下に、新しい情報を自動的に分類する。これにより、コーパス用のインデックスが常に最新とされる。
【0034】
細粒度トピックモデル25は、特徴的単語のトピックモデル(それぞれがトピックインデックスのトピック毎にソーシャルインデックスシステム22の特徴的単語のモデラー24によって作成され得る)としても知られている粗粒度トピックモデル26によって相補される。粗粒度トピックモデル26は、最初に、図3を参照しながら、以下に説明されるように、トピックの中心からのアーティクルに対するトピック距離の推定値を出すために使用される。
【0035】
最後に、ユーザサービス28aは、分散インデックス28と着信コンテンツ27にアクセスするために、ユーザ30a〜bへフロントエンドを提供する。更に他の実施の形態において、各トピックインデックスは、主要サブジェクトエリアにおいて継続的に関心をもつ「拡張(オーグメント)」コミュニティとして知られているユーザのコミュニティにつながっている。コミュニティは、情報が割り当てられるトピックにおいて、「投票すること」(29)によって、引用された情報を「吟味」する。
【0036】
ソーシャルインデックスとの関連においてトピックモデルは、トピックを特徴付ける計算モデルである。トピックの識別は、細粒度トピックモデルと粗粒度トピックモデルを組み合わせることによって、弾力性とロバスト性(信頼性)が強化される。
【0037】
細粒度トピックモデル25は、有限状態パターンとして表現され、
【特許文献2】に記載されているような、例えば、検索クエリ(照会)において使用され得る。しばしば、これらのパターンは、数個の単語しか含まないが、特定の潜在的に複雑な関係を表している。例えば、パタ−ン “[(mortgage housing)crisis{improper loans}]”(住宅ローン危機(不正貸付))は、トピックモデル表現であり、単語「“crisis”」、単語「“mortgage”」又は単語「“housing”」のいずれか、及び、2単語セット nグラム、即ち、隣接単語「“improper loans”」を含むアーティクルを識別するために使用され得る。
【0038】
有限状態トピックモデルは、細粒トピックを示すために使用される。有限状態モデルは、ブール(Boolen)照合演算によって使用され、この演算において、テキストは、指定されるパターンと照合されたり、照合されなかったりする。図3は、図1のソーシャルインデックスシステム11によって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。ソーシャルインデックスは、「“Presidential Election”(大統領選)」と呼ばれる。この例のトピックは、「”policy issues/economy/housing crisis”(政治問題/経済/住宅危機)」である。例をベースにした訓練プログラムを用いて何千ものパターン又はトピックモデルが生成されている。単語は、 語幹(ステム単語) “hous”が、“house”、“houses”、及び“housing”と照合するように、語幹化される。同様に、語幹“mortgag”は、“mortgage”、“mortgages”、及び“mortgaging”の照合を得る。トップパターンは、 “(mortgage{hous crisis})”であり、用語“mortgage”又は、nグラムの“hous crisis”のいずれかを含むアーティクルに整合するトピックモデルである。このような有限トピックモデルのセットがエバーグリーンインデックス内のトピックに対応付けられてよい。
【0039】
トピックモデルは、教師有りマシン学習を介して生成され、エバーグリーンインデックスを外挿するために適用され得る。図4は、細粒度トピックモデル生成40を示すデータフローチャートである。要するに、エバーグリーンインデックス48は、トピック又はサブトピック49を有限状態トピックモデルの形態の細粒度トピックモデル50と組み合わせることによって、形成される。エバーグリーンインデックス48は、訓練インデックス41から訓練がスタートされる。訓練インデックス41は、書籍用の従来の索引又はウェブページのハイパーリンク、又は既存のエバーグリーンインデックスインデックスであってよい。訓練インデックスに他のソースを使用してもよい。
【0040】
イデックスエントリ42毎に、訓練インデックス41のトピック及びサブトピックのセットから種語(シードワード)44が選択される(動作43)。種語44から、候補細粒度トピックモデル46のパターンが生成される(動作45)。細粒度トピックモデルは、パターン、用語ベクトル、又はテスト可能な表現の任意の他の形態として識別され得る。細粒度トピックモデルは、従来のインデックスに見られるような直接的なページ引用を、着信コンテンツ27として受信されたテキストがオントピック(トピックに関連してる)かどうかをテストするために使用され得る表現に、変換する。
【0041】
最後に、候補細粒度トピックモデル46が、ポジティブ訓練セット51及びネガティブ訓練セット52に対して評価される(動作47)。一般に、候補細粒度トピックモデル46は、複雑度が高くて確率の低い順に発生するので、通常は、最良候補の細粒度トピックモデル46は最初に生成される。構造的複雑性を考慮に入れることは、訓練データが疎である時は特に、マシン学習における不要な適合を回避するために有用である。
【0042】
エバーグリーンインデックスを使った着信コンテンツ27の自動分類は、連続的なプロセスである。これは、インデックスが常に最新であり、いつでも「新鮮」である所以である。エバーグリーンインデックス48におけるトピックモデル50は、最新の関連のあるコンテンツを、インデックス外挿を介してトピック49別に自動分類されることを可能にする。更に、従来のインデックスとは異なり、エバーグリーンインデックス48は、引用の代わりに、細粒度トピックモデル50を含み、これにより、エバーグリーンインデックス48は、特定のコンテンツとは非結合も任意のコンテンツに対して常に適用可能なダイナミック構造として機能することが可能になる。ドキュメント又はディジタル情報の新しいページ、アーティクル、その他の形式は、ウェブクローラー(ウェブページ巡回プログラム)等を介して自動的に、又は、拡張コミュニティその他によって手動的に、識別される。着信ドキュメントのページは、エバーグリーンインデックス48の細粒度トピックモデル50に照合され、これらのページに含まれている最適トピック又はサブトピック49を決定する。しかしながら、細粒度トピックモデル50にも限界がある。ドキュメントが必ずしも正確に細粒度トピックモデル50に照合されるわけではない。また、ドキュメント内の情報は誤って照合される情報もあれば、全く照合されない情報もあるが、それでも、新しいトピック又はサブトピック49として、エバーグリーンインデックス48に追加する価値がある。
【0043】
粗粒度又は特徴的単語のトピックモデル26は、単語と重みの配列として表示される統計的単語母集団プロファイルである。配列に代えて、他のデータストラクチャが使用されてもよい。ソーシャルインデックスにおいて、各単語に一般的に割り当てられる重みは、発生頻度の比率であり、例えば、数値的に高いか又はなんらかの理由であまり重視されなかった単語の(発生頻度)-(逆発生頻度)(TF−IDF)の重み付けの比率である。図5は、図1のソーシャルインデックスシステム11によって作成された特徴的単語モデルを例示している。単語“dodd”は、500で重み付けされ、上記に記載したように語尾が除外されて語幹化された単語“mortgage”は、405で重み付けされ、“hous”、“buyer”、“crisi”、“price”、“loan ”、“rescue”、“inflat”、“estat”、“market”及び“rescue”を含む他の単語についても同様に重み付けされている。関連するトピックは特徴的単語関連のセットを有している。例えば、トピック “bankruptchy”に対する特徴的単語は、トピック“housing crisis”に対して識別された特徴的単語に強力にオーバーラップする。
【0044】
各粗粒度トピックモデルは、特徴的単語と、各特徴的単語の相対的な重要度を示す得点を含む。特徴的単語モデルは何百あるいは何千もの単語に関連するウェイト(重み付け)を含むことができる。図6は、粗粒度トピックモデル生成60を示すデータフローチャートである。特徴的単語は、細粒度トピックモデルがページ上のノイズコンテンツと照合する「偽ポジティブ」照合、又は、細粒度トピックモデルがページと照合しない「偽ネガティブ」照合を生成することなく、トピックについてのテキストを識別するときに有用である。一般に、特徴的単語は、コーパス内のアーティクルから選択される単語であり、コーパスは、ウェブページ、電子ブック、又は、印刷材料として使用可能な他のディジタル情報を含む。
【0045】
最初に、アーティクルのセットは、コーパスから任意に選択される(ステップ61)。特徴的単語のベースラインは、アーティクルの任意のセットから抽出され、ベースラインに基づいて各特徴的単語の発生頻度が求められる(ステップ62)。待ち時間を短縮するために、ベースラインにおける各特徴的単語の発生頻度を予め計算することができる。一つの実施の形態において、インデックス内のトピック下に出現するアーティクルの数は、例えば、一時間置きにモニタすることもできる。周期的に、アーティクルの数が、所定量、例えば、10%、変化した場合、発生頻度はもう一度計算される。アーティクルの選択抽出は、一般にポジティブ訓練例のセットであるコーパスから選択されて行われる(ステップ63)。なお、アーティクルの選択抽出は、ポジティブ又はネガティブ訓練例の特定の範疇(カテゴリ)に含まれているという点において、任意抽出とは異なる。一つの実施の形態において、ポジティブ訓練例は、上述したように、細粒度トピックモデルを構築する時の教師有り学習中に使用される同一のアーティクルのセットである。更なる実施の形態において、細粒度トピックモデルに整合するアーティクルの抽出を、ポジティブ訓練例の代わりに使用することもできる。特徴的単語は、アーティクルの選択抽出から抜粋され、アーティクルの選択抽出における各特徴的単語の発生頻度が求められる(ステップ64)。測度又は得点は、アーティクルの選択抽出における各特徴的単語の発生頻度とベースラインにおける各特徴的単語の発生頻度の比率を識別する、例えば、(用語の発生頻度)-(逆発生頻度)(TF−IDF)重み付け法を用いて、各特徴的単語に割り当てられる(ステップ65)。各特徴的単語の得点は、トピックに対する特徴的単語の重要度を改良、即ち、増大させるために、又は、重要度を低下させるように、即ち、重要視しないように、調整され得る(ステップ66)。最後に、特徴的単語とそれらの得点の表が、照会(クエリ)プロセス段階において使用するために作成される(ステップ67)。また、表は、特徴的単語とそれらの得点が分類され、又はハッシュ(混合)されたリストであってよい。他のタイプの表も使用可能である。
【0046】
各特徴的単語の得点は、発生頻度の実際比率を示しており、各特徴的単語の得点は、その単語の影響を上げたり下げたり状況に応じて、いくつかの方法において、発見的(ヒューリスティック)に調整され得る。例えば、シングルトン(単独)単語、即ち、コーパス又は引用材料のセットにおいて一回だけしか出現しなかった単語の得点は、特徴付け影響度を割り引くために、例えば、25%、抑制又は削減される。同様に、文字長が4文字以下の単語の得点も、短単語はトピックとしての重要度がやや低い傾向があるので、25%、抑制又は削減される。他の百分位数の削減を使用してもよい。反対に、ラベル又はタイトルに出現する単語は、トピック性が非常に高いので、ラベル又はタイトルの単語は全て特徴的単語として含まれる。ラベル又はタイトルに使われる単語の得点は、これらの単語がコーパスやサンプル材料に出現する回数によって、高くなり、増えていく。最後に、ラベル又はタイトルの単語に隣接して又は近傍に出現する単語、そして、スライディング「ウィンドウ」を画定する固定した単語数内でラベル又はタイトル単語の周辺に出現する「近位」単語の得点も上昇する。近傍及び近位単語を選択している間に正規化された閾値が用いられる。8〜15個の単語のデフォルト閾値が、それぞれ、8個の単語と設定されたウィンドウの大きさに応じて近傍及び近位単語に適用される。他の代表的な閾値及びウィンドウの大きさを使用してもよい。最後に、特徴的単語の得点が正規化される。最高得点を有する特徴的単語は最も特殊な単語であり、この単語の得点は100%に設定される。例えば、図5に示されている例において、得点は値500に正規化されている。他の特徴的単語の得点はこの最高得点に基づいて基準化される。従って、特徴的単語選択が終了すると、インデックスにおける各トピックは、粗粒度トピックモデルを有し、この粗粒度トピックモデルは、それぞれがコーパスから抽出された材料に対して正規化された対応得点を有する特徴的単語に関して表されている。
【0047】
情報をウェブページにまとめて載せるには多数の方法がある。HTML(ハイパーテキストマークアップ言語)などのページ表示言語は、ウェブページ上のレイアウトのみを記述するが、単語のグループ間の論理的な関係については記述しない。しかも、特定のトピックに関連するアーティクルのウェブページは、アーティクル自体から落とされる相当な量の他の無関係な情報を含むことが多い。例えば、ニュース記事(アーティクル)を有するウェブページは、オフトピック(トピックに無関係)で無関係な、広告、他の話題のハイパーリンク、又は読者コメントを含むこともある。
【0048】
このような無関係なコンテンツは、情報の「ノイズ」を構築する。図7は、細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。ウェブページは、トピックの「“housing crisis”(住宅危機)」に対して生成された様々な細粒度トピックモデルに照合されたコンテンツからのノイズ単語を含む。例えば、ウェブページの左側の「オンザレーダ(On the Radar)」コラムは、「“McCain to Letterman:‘I Screwed Up.’” (マケインからレターマンへ「私はしくじった」)」というタイトルのアーティクルを含む。更に、いくつかの読者コメント(図示しない)が、アーティクルの本論の下に出現し、更に、 “loan”と “mortgage”言葉を含む。例えば、一人の読者コメントは、「”All for only less than 5% of the morgages in this country that have went bad[sic].Sad that they won’t tell America the truth. 95% of American’s are paying their home loans on time,yet,we are about to go into major debt for only 5% of bad loans made to investors who let their loans go,spectators who wanted a quickback,the greedy who wanted more than they could afford and the few who should have never bought in the first place.”(この国では、住宅ローンが返済できなかったのは負債者全体の5%未満のみだったのに、彼らがアメリカに真実を伝えなかったことは悲しい。95%のアメリカ人は、住宅ローンをきちんと期日まで返済している。なのに、ローン返済を放り出した投資家、早急に利益を求めた傍観者、支払能力以上のものをほしがった欲張りな人、又は最初の段階では絶対買わなかった少数の人たちの不良貸付ローンの5%のために、膨大なつけを払うはめになった)」とコメントしている。
【0049】
この例において、粗粒度トピックモデルは、ソーシャルインデックスシステムに対するトピック訓練インターフェースにおいて「ポジティブ訓練例」又は「これに類似するアーティクル」に対して格付けされた。正規化されたトピック距離得点は、オントピック(トピックに関連している)アーティクルを表す100%から、オフトピック(トピックに無関係な)アーティクルを表す0%までのアーティクルに対して計算された。一般に、10%〜15%未満の得点を有するページは、ノイズページに一致していた。この解析によって、図7で説明されているアーティクルに対する正規化されたトピック距離得点は、5%未満であり、オフトピックであった。
【0050】
ソーシャルインデックスのための訓練を実行するために例ベースのアプローチを用いた場合において、インデックス管理者は、システムがアーティクルの分類を案内するために使用することができる(この例にもっと類似している)ポジティブ訓練例と(この例に類似していない)ネガティブ訓練例を提供することができる。細粒度トピックモデルは、ポジティブ訓練例とネガティブ訓練例の両方を使って作成される。細粒度トピックモデル毎に、ソーシャルインデックスシステムは、ポジティブ訓練例に照合するパターン及びネガティブ訓練例に照合しないパターンを生成する。反対に、粗粒度トピックモデルは、ポジティブ訓練例だけを用いて作成され得る。粗粒度トピックモデル毎に、ソーシャルインデックスシステムは、訓練の例において発見された特徴的単語の母集団を特徴付ける用語ベクトルを作成する。ネガティブ訓練例を利用する粗粒度トピックモデルが作成されてもよい。例えば、トピック「“Mustang”(ムスタング)」に対するモデルにおいて、ポジティブ訓練例は馬についてのアーティクルを記載し、ネガティブ訓練例は、フォードモーターカンパニーによって販売されている車の型式についてのアーティクルを記載している。
【0051】
粗粒度トピックモデルが、ネガティブ訓練例からの情報を使用しないこともあって、粗粒度トピックモデルは、細粒度トピックモデルほどは、詳細な細粒度トピックの識別を実行することができない。更に、用語のベクトル表示は、テキストに出現する単語の間で特定な関係を符号化しない。しかし、実践上は、互いにトピックが類似しているトピックは、単語と重み付けの類似したリストを有し得る。図8は、二つの仮想ウェブモデルのインタラクションを例示している。内側の円は、細粒度トピックフィルタに整合するアーティクルを含む。外側の円のアーティクルは、粗粒度トピックモデル下で特徴付けられたポジティブ得点を有している。しかしながら、10%未満の得点は、通常、あるアーティクルが「ノイズ」のオフトピックアーティクルであることを示す。内側の円の外側にある高得点を有するアーティクルは、「ニアミス」として良好な候補であり、これらは、トピックを拡大するためにポジティブ訓練例のセットに追加される良好な候補となり得るアーティクルである。
【0052】
粗粒度トピックモデルに対する得点は、いくつかの方法で計算され得る。図6を参照して、上述されているように、例えば、増減されるTF−IDFの重み付け法を用いて、各特徴的単語に割り当てられる測度及び得点を割り当てる方法が示されている。他の手法は、トピックモデル内にあるアーティクル内の単語のセットを識別することによって、開始される。素点(実際の得点)は、これらの単語に対するトピックモデルにおける重み付けの合計として定義付けられる。測定されるアーティクルの全てに対して高得点を有するアーティクルが発見される。この高得点は100%に対応するように設定され、その他のアーティクルに対する得点は、この高得点に応じて、正規化される。他の手法を用いることも可能である。
【0053】
経験的に、粗粒度及び細粒度トピックモデルを組み合わせて用いることによって、片方のモデルだけを用いた場合よりも良好な結果が得られる。細粒度トピックモデルそれだけでは、ノイズ単語に対して過剰反応するため、誤解を与えるノイズによってオフトピックコンテンツを選択しやすい傾向がある。粗粒度トピックモデルは、全体的に、各アーティクルの単語の全セットを考慮に入れるので、ノイズが単語のほんの一部を表している場合でも、基本的にはノイズにあまり反応しない。実践上、正確にオントピックであると見られるアーティクルに対する候補としてのアーティクルを識別するために細粒度トピックモデルを使用すること、ノイズによって誤って分類されるアーティクルを取り除くために粗粒度トピックモデルを使用することが、良好な方法とされる。
【0054】
これに対して、粗粒度トピックモデルは、それ自体では、鈍いインストルメントである。トピックが互いに近似している時に、細粒度トピックモデル50は、オントピックのアーティクルとオフトピックのアーティクルを適確に識別する。一方、粗粒度トピックモデルの得点は、トピック間で確実に緻密な識別ができる程正確ではなく、オントピックであるアーティクルは、オフトピックであるアーティクルより低い得点を生成し、粗粒度トピックモデルを惑わす。図5を参照して上述したように、同じトピックインデックスは、「“gasoline prices”(ガソリン価格)」の消費者への影響について記載したアーティクル上で訓練された。粗粒度測定法のみを用いて、「郊外における住宅価格の落込み」に関するアーティクルが80%を得点した。「海底油田掘削の問題とガソリン価格との潜在的な関係」に関するアーティクルが約50%得点した。アーティクルの「石油掘削と環境的配慮」に関するアーティクルの得点は25%の範囲だった。細粒度トピックフィルタは、全体的な単語用法のパターンがあまり識別しやすいわけではなかったにもかかわらず、オフトピックだったアーティクルを隠蔽排除する傾向があったネガティブな例によって訓練されてしまった。
【0055】
細粒度トピックモデルを訓練するチャレンジの一つとして、良好な訓練例を見つけるやり方がある。ソーシャルインデックスがサブジェクトエリアにおいて1ダースのニュースを使用する場合、2週間にわたって数千個のアーティクルが収集され得る。一つの例示的な実施において、システムは全てのインデックスを介して一日に約18000個のアーティクルを引き寄せる。更に、いくつかのブロードインデックスは、現在、一日に何百何千ものアーティクルを引き寄せる。一般に、訓練プロセスは、ユーザがいくつかアーティクルを調べてポジティブ訓練例として使用するためにアーティクルからいくつかを選択したときから開始される。次に、ソーシャルインデックスシステムは、これらのアーティクルに照合するパターンなどの有限状態トピックモデルを捜索する。ネガティブ訓練例によって制約されずに、ソーシャルインデックスは、ポジティブ訓練例におけるアーティクルの全てに照合できる十分に単純なパターンを捜索する。この手法によって表示されるトピックは、範囲が広すぎるという問題があった。
【0056】
オフトピックであるソーシャルインデックスによって照合されるアーティクルを読んだ後、ユーザはいくつかのネガティブ訓練例を追加する。再び、ソーシャルインデックスシステムは、パターンを生成するが、この場合、パターンがポジティブ例(「この例に類似している」)に照合していて、ネガティブ例(「この例に類似していない」)を照合しないという必要条件を有するパターンを生成する。結果的に、ソーシャルインデックスシステムは殆ど照合をリターンしない。ネガティブ例を用いた更なる訓練にかかわらず、十分又は過剰なアーティクルがソーシャルインデックスによって廃棄された時にはユーザは不明瞭なままである。
【0057】
また、訓練プロセスは、殆どが極めてオフトピックな数千個のアーティクルが提供された場合、すぐにうんざりするほど退屈になってしまう。「ニアミス」、即ち、トピックに極めて類似しており、トピックの定義を拡張するために良好な候補を作成するアーティクルの識別は、特に助言がなければ、アーティクルの過剰廃棄という点から難しくなる。図9は、候補ニアミスアーティクルを識別するためのトピック距離得点を提示するユーザインターフェースの画面例を示す図である。ユーザインターフェースは、左上欄及び右上欄のそれぞれにおいてポジティブ訓練例及びネガティブ訓練例のセットを提供する。左下欄は、細粒度トピックモデルと照合したアーティクルを提供する。右下欄は、候補「ニアミス」であるアーティクルのリストを示す。これらのアーティクルは、現在の細粒度トピックモデルに照合しないが、にもかかわらず、粗粒度トピックモデルから高いトピック距離得点を得ている。候補「ニアミス」アーティクルは、分類され、最高得点を有するアーティクルがリストのトップに表示される。但し、他のアーティクル編成方法も利用可能である。
【0058】
候補「ニアミス」アーティクルのリストは、訓練管理者の注目をトピックの幅に集中させる。何千ものアーティクルを手動で検索する必要があるというより寧ろ、訓練管理者は、リストのトップにおけるアーティクルを検査することができる。この例において、図10に示されている「“McCain sees no need for Fannie, Freddie bailout now,(マケインにとってファニィ、フレディへの財政援助は不要)”」のタイトルの記事は、54%の高得点を有している。訓練管理者は、このアーティクルがトピックに含まれるべきであると考えた場合、左上欄のポジティブ訓練例のセットにアーティクルを追加して、細粒度トピックモデルを保持することができる。図11は、再訓練されている図9のユーザインターフェースの画面例を示している。訓練管理者は、新しい細粒度トピックモデルパターンを実際に見ないが、ソーシャルインデックスシステムは、ポジティブ訓練例の全てに照合するが、ネガティブ訓練例のいずれにも照合しない「(freddi{lend practice})」を表現するために基本パターンの一つを改良した。
【0059】
最良の結果を得るために、訓練管理者は、訓練例として良好な代表的アーティクルを選択する必要がある。訓練管理者がポジティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックの誤った特徴付けを受信し、生成される粗粒度トピックモデルは、特徴的単語の紛らわしい分散を具体化する。逆に、訓練管理者が、ネガティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックのためのアーティクルと照合しない細粒度トピックモデルを生成する。この選択は、ソーシャルインデックスがパターンを生成する時、細粒度トピックモデルの下等訓練に、ネガティブ訓練例におけるノイズと偶然に照合する既存の潜在的に受容可能なパターン周辺で作業させて、これにより、ソーシャルインデックスシステムは他の良好なアーティクルを排除する。
【0060】
図11に記載されている例において、訓練管理者は、ソーシャルインデックスシステムによって警告もされている悪い実践例であるネガティブ訓練例として低得点アーティクルを使用した。その後、訓練管理者は、低得点ネガティブ訓練例を削除し、その代わりに、ポジティブ訓練例を追加することができる。図12は、更に再訓練された図11のデータに対する相補的デバッギング(誤り除去)ディスプレイを例示しており、低得点のネガティブ訓練例を削除する。図12に示されているディスプレイは、再訓練されている細粒度トピックモデルに対する候補パターンを示している。再訓練の時、ソーシャルインデックスシステムは全てのポジティブ訓練例の全てと照合し、単一パターンの“mortgage”を生成した。次に、訓練管理者は、この一般化されたパターンが、オフトピックのアーティクルも検索したか否かを見るためにポジティブ照合を検査することができる。
【0061】
訓練後、ソーシャルインデックスは、新しいアーティクルを分類するエバーグリーンプロセスを支持することができる。アーティクルは、ウェブクローラー又はRSS(アールエスエス:RDFサイトサマリー)形式のフィードを用いることによってウェブから収集され得る。細粒度トピックモデルは、正確にオントピックであるアーティクルを識別するために使用され、粗粒度トピックモデルは、ノイズによって誤って分類されたアーティクルを除去するために使用される。図13は、更なる再訓練によって得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図であり、トピック「“ housing crisis”」に対して自動的に分類された不良なネガティブ訓練例を除去する。
【0062】
偽ポジティブ訓練例は、トピックに属しているとして不正確に分類されたアーティクルである。これらのアーティクルがアーティクル中のノイズによって照合されている場合、図9を参照して上述したように、ノイズ検出技術がノイズアーティクルを識別するときに効果的である。表1には、訓練動作の概要が示され、これらの動作は、様々な特徴に応じて識別される訓練ケースに応答して、実行される。アーティクルが不正確に分類された場合でも、トピックに類似している場合がある。候補ネガティブ訓練例の場合、ソーシャルインデックスシステムは、トピック幅の過剰な一般概念を具体化し、訓練管理者は、よりネガティブな訓練例を提供することによって、トピックの定義を敢えて狭くする必要がある。この状況は、実質的には、訓練管理者の動作がトピックの作用域を拡大する二重の「ニアミス」になる。いずれに場合でも、訓練管理者は、トピックの作用域をインタラクティブに調整する必要がある。
【0063】
【表1】
以上の技術は、訓練用にマシン学習を用いない手法において使用され得る。例えば、訓練例のソーシャルインデックスに対する異なる手法としては、ユーザに、手動で、トピックの木のトピック毎に照会パターンを指定させることである。この変形例においても、ソーシャルインデックスシステムは、粗粒度トピックモデルを計算することができる。しかしながら、アーティクルのサンプルセットを定義付けるためにポジティブ訓練例に依存する代わりに、ソーシャルインデックスシステムは、トピックに照合するアーティクルのセットを、直接、使用することができる。サンプルは未完成であり、ノイズ単語に照合するアーティクルを含むこともある。パターンがどの程度ユーザの意図に照合するか次第では、パターンは、意図されるトピックからわずかに外れているアーティクルを含むこともあれば、意図されているいくつかのアーティクルを見落とすこともある。サンプルの大部分がうまく照合した場合、パターンは正確なサンプルの近似値として使用され得る。単語分散値が計算され、再訓練のために同一信号が生成され得る。ここで、ユーザは、ポジティブ及びネガティブ訓練例を調整するというより、寧ろ、照会内容を変更し、再び照合を試みる。さらに他の訓練の変形も使用可能である。
【0064】
粗粒度トピックモデルは、トピックの中心からアーティクルに対する距離の推定値を提供するために使用される。即ち、
【0065】
(1)ノイズページを識別する
【0066】
ノイズページは偽ポジティブ照合の種類であり、細粒度トピックモデルはページ上のノイズコンテンツを照合するが、粗粒度トピックモデルは、そのページが殆どオントピックではないとして識別する。従って、細粒度トピックモデルがこのページをオントピックであるとして識別した場合、粗粒度トピックモデルは、このページを、トピックの中核から遠くに離れていること、そして「ノイジー」であると識別する。
【0067】
(2)ニアミスに対して候補アーティクルを提案する
【0068】
ニアミスは、偽ネガティブ照合の種類であって、細粒度トピックモデルはページに照合しないが、粗粒度トピックモデルは、アーティクルがトピックに類似していることを提案する。ポジティブ訓練例のセットに候補ニアミスを追加することは、トピックの作用域が拡大すべきであることを示唆している。
【0069】
(3)候補ネガティブ訓練例を提案
【0070】
ネガティブ訓練例は、トピックの意図される境界の外側に箇所を輪郭付けるための補助をするアーティクルである。候補ネガティブ訓練例は、細粒度トピックモデルによって照合されたアーティクルとして粗粒度トピックモデルによって得点され、トピック中心距離に近接又はその中間に位置している。ノイズページとは異なり、候補ネガティブ訓練例は、距離においてトピック中心に近接している。候補ネガティブ訓練例をネガティブ訓練例に追加することは、トピックの作用域が縮小すべきであることを示唆している。
【0071】
本発明は、実施の形態を参照することによって、図示され、具体的に説明されてきたが、本発明の精神及び範囲を逸脱しない限りにおいて、様々な変形又は変更がなされてよいことは、当業者によって容易に理解されよう。
【符号の説明】
【0072】
41: 訓練材料
42: インデックスエントリi P1, P2, P3
43: 種語選択
44: 種語
45: 細粒度トピックモデル生成
46: 候補細粒度トピックモデル
47: 細粒度トピックモデル評価
48: エバーグリーンインデックス
49: トピックk
50: 細粒度トピックモデルk
【技術分野】
【0001】
本発明は、ディジタル情報編成に係り、より詳細には、ソーシャルインデックスにおいてトピック識別を提供するためのコンピュータ実施方法に関する。
【背景技術】
【0002】
ウェブなどのオープンエンド(無制限)な情報ソースをトピック(題目)によって編成によって、情報の入手や検索が容易になることは、例えば、2008年8月12日に出願された係属中の同一出願人による
【特許文献1】に記載されており、本明細書中にその全体が参照することによって組み込まれている。書籍は、長い間、トピックインデックス(索引)によって編成されてきた。しかしながら、規格(コーデックス)形式の制約があるため、書籍のサイズやページ数が制限され、従って、インデックスの大きさも制限されていた。一方、ウェブ(Web)材料は、物理的なバウンド(境界)が不足しており、網羅されている主題の全幅を収容するために、もっと広範囲のトピック編成を必要としている。
【0003】
トピック編成が欠けていることによって、ウェブなどのオープンエンドな情報のリポジトリ(保存場所)の効果的な検索が困難になる。ユーザが、検索されている主題に対して認識不足であったり、或いは、入手できる情報のエクステント(範囲)を把握していなかったりする場合もある。いくら知識が豊かでも、ユーザが、所望の情報を正しく記述できなかったり、専門用語又は語彙の紛らわしい語尾変化などに辟易したりする場合もある。更に、検索結果だけでは、たとえ、トピック編成されていても、切望していたトピックの掲示板(サインポスト)がまだ十分ではなく、所与のサブジェクトに密接に関連するトピックが、全てのウェブトピックのインデックス全体のほんの一部に過ぎない場合もある。
【0004】
トピックインデックスを提供するための一つの手法として、
【特許文献1】に記載されているように、ソーシャルインデックスを介して構成されるエバーグリーン(常に新しい)インデックスを形成するために、有限状態パターンを使用することが挙げられる。ソーシャルインデックスは、エバーグリーンインデックス内のトピック毎に細粒度トピックモデルを生成するために、ブートストラップ式訓練材料へ教師有りマシン学習を付与する。一旦訓練されると、エバーグリーンインデックスは、予め選択されているサブジェクトエリアのトピックへ新しい情報を自動的に分類するために、インデックス外挿のために使用される。
【0005】
細粒度ソーシャルインデックスシステムは、アーティクルが「オントピック(ontopic:トピックに関連している)」であることを正確に記述している高解像度のトピックモデルを使用する。しかしながら、このようなモデルを「細粒化」する同様の技術は、モデルを、広告、サイドリンク、注釈、又は、大部分は事後に追加され中核となる記事(アーティクル)から除外されている他のコンテンツとして、ウェブページ上に出現する非応答ノイズ単語に感応させる。さらに、トピックの定義を拡張させるための優良候補であるアーティクルの認識は、細粒度トピックモデルだけを使っても不十分である。細粒度トピックモデルの訓練範囲があまりにも狭義に訓練されたため、細粒度トピックに類似しているが、全く一致していないアーティクルの発見が不可能なときに、問題が発生する。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】米国特許出願第12/190552号
【特許文献2】米国特許出願第12/354681号
【発明の概要】
【発明が解決しようとする課題】
【0007】
上記の問題を克服するために、本発明は、ソーシャルインデックスにおいてトピックの識別を提供するためのコンピュータ実施方法を提供する。
【課題を解決するための手段】
【0008】
本発明の一実施態様によれば、電子的に記憶されたアーティクルと一つ以上のインデックスが保持されている。各インデックスは、それぞれがアーティクルの一つ以上に関連するトピックを含む。アーティクルの任意抽出と選択抽出が共に選択される。トピック毎に、任意抽出と選択抽出の各々においてアーティクル内に含まれる特徴的な単語が識別される。任意抽出と選択抽出の各々における特徴的な単語の発生頻度が求められる。任意抽出と選択抽出に含まれる特徴的単語に対する発生頻度の比率が識別される。最後に、トピックに関連するアーティクルに含まれる特徴的単語とこれらの特徴的単語に割り当てられる得点を含む粗粒度トピックモデルが、トピックご毎に、構築される。
【0009】
本発明を実施するために創出された最良の方法が説明されている、以下の詳細な説明から、本発明が他の実施の形態を容易に適用可能であることを当業者は理解するであろう。お気付きのように、本発明の精神とその範囲を逸脱しない限り、本発明には他のさまざまな実施の形態が適用可能であり、明らかに部分的な変更又は変形が可能である。従って、添付図面及び詳細な説明は、本来、例示することのみを意図しており、本発明を限定するものではないことを理解されたい。
【図面の簡単な説明】
【0010】
【図1】ディジタル情報の意味形成のための環境の一例を示すブロック図である。
【図2】図1の環境に使用される基本的な構成要素を示す機能ブロック図である。
【図3】図1のソーシャルインデックスシステムによって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。
【図4】細粒度トピックモデル生成を示すデータフローチャートである。
【図5】図1のソーシャルインデックスシステムによって生成された特徴的単語モデルを例示する図である。
【図6】粗粒度トピックモデル生成を示すデータフローチャートである。
【図7】細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。
【図8】二つの仮想ウェブモデルのインタラクションを例示する図である。
【図9】候補「ニアミス」アーティクルを識別するためのトピックとの距離得点を提示するユーザインターフェースの画面例を示す図である。
【図10】候補「ニアミス」アーティクルであるアーティクルの画面例を示す図である。
【図11】図9のユーザインターフェースを再訓練した時の画面例を示す図である。
【図12】更に再訓練された図11のデータに対する相補的デバッギングディスプレイを例示する図である。
【図13】更に再訓練して得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図である。
【発明を実施するための形態】
【0011】
用語集
【0012】
以下の用語は、明細書全体にわたって使用され、特に注釈がなければ、以下に記載の意味をもっている。
【0013】
コーパス: アーティクル(記事、項目など)、ドキュメント、ウェブページ、電子ブック、又は印刷材料として入手できる他のディジタル情報(など大量の言語データ)の集まり又はセット。
【0014】
ドキュメント(文書): コーパス内の個々のアーティクル。ドキュメントは、書籍の章又は節、又は大きな作品の細目を指す。ドキュメントは、異なるトピック上のいくつかの引用ページを含むことがある。
【0015】
引用ページ: ページ番号などのイデックス(索引)が引用するドキュメント内の位置。引用ページは、単ページ又はページセットであってよい。引用ページにおいて、サブトピックは、索引付けするための細粒度トピックモデルによって拡張され、ページセットは、細粒度トピックモデルに照合する全てのページを含む。各引用ページは、例えば、細粒度トピックモデルによって照合され得る段落などであり、ページ全体よりはるかに小さい。
【0016】
サブジェクトエリア(主題領域): ソーシャルインデックスにおけるトピックとサブトピックのセットであり、エバーグリーンインデックスとこれと等価のインデックスを含む。
【0017】
トピック: ソーシャルインデックス内の単一エントリ。エバーグリーンインデックスにおいて、トピックは、コーパス内のドキュメントに照合するように用いられる細粒度トピックモデル、例えば、パターンを伴う。また、トピックは粗粒度トピックモデルを伴う。
【0018】
サブトピック: ソーシャルインデックス内のトピック下に階層的に例挙される単一エントリ。エバーグリーンインデックスにおいて、サブトピックは細粒度トピックモデルを伴う。
【0019】
細粒度トピックモデル: 細粒度トピックモデルは、有限状態計算に基づいており、アーティクルが特定のトピックの範囲内に入っているかを判断するために使用される。各保存された細粒度トピックモデルは、有限状態パターンであり、クエリ(照会)に類似している。細粒度トピックモデルは、ポジティブ訓練例及びネガティブ訓練例に照らして、有限状態マシンを訓練することによって作成される。
【0020】
粗粒度トピックモデル: 粗粒度トピックモデルは、特徴的単語に基づいており、どのトピックが照会に整合するかを判断する時に使用される。各保存された粗粒度トピックモデルは、トピックに対して重要な特徴的単語のセットであり、各特徴的単語の重要度を示すスコア(得点)である。この粗粒度トピックモデルは、ポジティブ訓練例、及びインデックス内の全てのトピックに関連しているアーティクルのベースラインのサンプルから生成される。ベースラインのサンプルは、ベースラインの単語の発生頻度、よって、開始点を確立する。ポジティブ訓練例の単語の発生頻度とベースラインのサンプルの単語の発生頻度が比較される。トピックのサブインデックス生成に使用される以外に、粗粒度トピックモデルは、広告指標化、ノイジーアーティクルの検出、ニアミス(極めて類似しているアーティクル)の検出、及び他の目的に使用され得る。
【0021】
コミュニティ: オンラインの特定のサブジェクトエリアで、関心ある主要トピックを共有し、そのインタラクション(対話)の少なくとも一部に対して、コンピュータネットワークが介在している。サブジェクトエリアの定義付けは広範囲にわたっており、ヨットレース、有機園芸などの趣味的分野から、歯科医又は内科医などの職業的関心、又は、後発性糖尿病のケアなどの医学的関心に及ぶ。
【0022】
拡張(オーグメント)コミュニティ: サブジェクトエリア上にソーシャルインデックスを有するコミュニティ。拡張コミュニティは、ソーシャルインデックスによって既に引用されているサブジェクトエリア内でドキュメントを読出し又は投票に参加する。
【0023】
エバーグリーンインデックス: エバーグリーンインデックスは、コーパスに対して「常に現在状態を維持する」ソーシャルインデックスの特定の形態である。実施例としては、ソーシャルインデックスシステムは、コーパスの新しいドキュメントを識別するために、RSS(アールエスエス:RDF(リソース記述枠組みの略)サイトサマリー)形式のフィード又はクロールウェブサイトをポーリング(調査)する。
【0024】
ソーシャルインデックスシステム: ソーシャルインデックスを用いたオンライン情報交換。このシステムは、拡張コミュニティ間の情報交換を容易にし、状態インジケータを提供し、関心ドキュメントを一つの拡張コミュニティから他の拡張コミュニティへ渡すことを可能にする。拡張コミュニティの相互接続されたセットは、コミュニティのソーシャルネットワークを形成する。
【0025】
情報ダイエット(節約): 情報ダイエットは、ユーザが「消費する」即ち「関心サブジェクトを読み出す」情報を特徴付ける。ユーザの情報消費動作において、例えば、ユーザは、選挙関連ニュースに25%、ローカルニュースに15%、芸能関連トピックに10%、健康増進関連トピックの新しい情報に10%、特定の職業関連に20%、経済発展に10%、エコロジーや新しいエネルギ資源の開発に10%、その時間を費やしている。ソーシャルインデックスシステムが付与されれば、ユーザは、情報ダイエットの主な関心に応じた個別の拡張コミュニティへの参加やモニタリングを行うことができる。
【0026】
ディジタル情報の意味形成(センスメイキング)と検索は関連しているが、独自に動作する。前者は、ディジタル情報インフラストラクチャによって仲介される意味形成に関し、ディジタル情報インフラストラクチャは、パブリックデータネットワーク、例えば、インターネット、独立型コンピュータシステム、及びディジタル情報のオープンエンド(無制限)リポジトリを含む。後者は、ディジタル情報インフラストラクチャからの情報の検索又は探求に関し、ディジタル情報インフラストラクチャは、ソーシャルインデックスを介して、又は他のインデックスソースによって、トピック編成され得る。図1は、ディジタル情報の意味形成及び情報検索に対する例示的な環境10を示すブロック図である。ソーシャルインデックスシステム11とトピック検索システムは、協働して、それぞれ、意味形成と検索を支援し、これらの作業は、同時に、ウェブブラウザで実行されるウィジェットを介して、エンドユーザであるブロガー(ブログを立てる人)や情報希望者などの情報作成者によって、使用され得る。
【0027】
一般に、ディジタル情報は、ディジタル形式で使用可能な情報のコーパスである。情報のエクステント(成長)はオープンエンド(無制限)であり、これは、コーパスとそのトピックの範囲が、連続的に、そして、大きさやサブジェクトが固定的制限を受けることなく、成長を続けることを示唆している。インターネットなどのディジタルデータ通信ネットワーク16は、ディジタル情報の供給(配信)、交換、及び消費のためのインフラストラクチャを提供する。また、例えば、ノンパブリックな法人企業ネットワークなどの他のネットワークインフラストラクチャも利用可能である。ネットワーク16は、多様に分散した情報源や消費者へ相互接続性を提供する。例えば、上述したように、それぞれが、アーティクルや他のコンテンツを含むコーパスに投票し、及び/又は、コーパスへアクセスする利害関係のある4つの集団や組織間において相互接続性を提供する。ブロガー、作者、編集者、共同制作者、及び外部後援者などが連続してブログエントリ、アーティクル、ウェブページなどをネットワーク16に公開(post)し、これらが、ウェブサーバ14a、ニュースアグリゲータ(集積)サーバ14b、投票によるニュースサーバ14c、及び他の情報ソースを介して、分散データコーパスとして維持される。これらのソースは、それぞれ、ユーザへ、ウェブコンテンツ15a、ニュースコンテンツ15b、コミュニティ投票による又は「吟味された(vetted)」コンテンツ15cを供給する。ユーザは、パソコン等のユーザデバイス13a〜cを介して、ネットワーク16のみならず、他のサーバにアクセスする。明確にするために、ここでは、ユーザデバイスのみを取り上げているが、サーバ及び他の非利用者(ノンユーザ)デバイス情報消費者も、同様に、コーパスに集成された情報を探索、検索、及び利用することができる。
【0028】
一般に、各ユーザデバイス13a〜cは、サーバ14a〜cに対しての、インターフェース、情報交換、及び情報検索を支援するウェブブラウザ又は同等のアプリケーションを実行する、ウェブ(Web)イネーブルドデバイスである。ユーザデバイス13a〜cとサーバ14a〜cは共に、中央処理装置、メモリ、入力/出力ポート、ネットワークインターフェース、非揮発性記憶装置などの汎用のプログラマブル計算装置において従来の技術において公知の構成要素を含む。他の構成要素を使用してもよい。更に、サーバ14a〜cに代えて又はこれに加えて、他の情報ソースが利用可能であり、ユーザデバイス13a〜cに代えて又はこれに加えて、他の情報消費者も利用可能である。
【0029】
ディジタル意味形成は、ソーシャルインデックスシステム11によって容易に行われる。ソーシャルインデックスシステム11は、ネットワーク16を介して、情報ソースと情報消費者に相互接続されている。ソーシャルインデックスシステム11は、拡張コミュニティの主要エリア内における、ディジタル情報の自動発見及びトピックへの自動分類を容易にする。
【0030】
ユーザの観点からすると、ディジタル情報検索のための環境10は、単一情報ポータル(入り口)として現れるが、実際には、分離しながらも統合されているサービスのセットである。図2は、図1の環境10に使用される基本的な構成要素20を示す機能ブロック図である。構成要素は、ディジタル情報の分類及び編成に集中的に用いられる。発見、予測、方向付け等の他の関連ディジタル情報動作を提供するために更なる構成要素が必要とされ得る。
【0031】
構成要素20は、情報収集部21、ソーシャルインデックス22、及びユーザサービス28aの三つの基本機能モジュールへ大きく分類され得る。他の機能モジュールも使用可能である。更に、機能モジュールは、一体化した又は個別の計算プラットフォームにおいて実施され得る。情報収集部21は、電子的に記憶された情報の分散型コーパスを集成するオープンエンド(無制限な)情報ソースから「着信」コンテンツ27を得る。着信コンテンツ27は、コーパスから新しいディジタル情報を収穫するために記憶媒体収集装置によって収集される。一般に、着信コンテンツ27は、リポジトリに記憶され、又は、実際の写しを維持する代わりに、着信コンテンツのハイパーリンク又は引用を保存することによって、間接的に記憶される。
【0032】
着信コンテンツ27は、収集予定に基づいて新しいディジタル情報として収集される。新しいディジタル情報は、必要に応じて、又は、いくらかの他の収集基準に基づいて、収集されてもよい。着信コンテンツ27は、リポジトリ又はデータベース(図示しない)に記憶されてもよいし、又は、実際の写しの代わりに、着信コンテンツ27のハイパーリンク又は引用を保存することによって、間接的に記憶されてもよい。更に、着信コンテンツ27は、ディジタル情報が記憶されていた元の表現形式とは異なっている、複数の表現を含むことができる。異なる表現形式は、タイトルの表示、アーティクル要旨の提示、トピック分類の追跡、及び、
【特許文献1】に開示されている「細粒度トピックモデル、又は、例えば、本明細書中にその全体が参照することによって組み込まれている、2009年1月15日に出願された係属中の同一出願人による
【特許文献2】に開示されている粗粒度トピックモデルの推論及び使用を容易にするために使用され得る。アーティクルにおける単語は、ステムされ(単語から変化する語尾を除いて語形変化の基礎になる部分だけ残して語幹化され)、トークン形式、マイナス句読点使用、大文字使用などによって保存され得る。ソーシャルインデックスシステム11によって作成される細粒度トピックモデルは、着信コンテンツ27のきわめて抽象的なバージョンを表しており、このバージョンでは、単語の大部分が廃棄され、単語の発生頻度を中心に保持されている。
【0033】
好ましくは、着信コンテンツ27は、コーパス内の情報の全て又は殆どを網羅する分散型トピックインデックス28の大きなセットの一部として、少なくとも一つのトピック又は「エバーグリーン(いつでも新しい)」ソーシャルインデックスの元、ソーシャルインデックスを介して編成される。一つの実施の形態において、各エバーグリーンインデックスは、
【特許文献1】に開示されているような、ソーシャルインデックスシステム22の中核を形成する有限状態モデラー23を介して構築される。エバーグリーンインデックスは、新しい着信コンテンツ27がインデックストピックスの一つ以上に含まれるか否かを判断するために使用され、有限状態パターンなどの細粒度トピックモデル25を含む。各エバーグリーンインデックスは、オントピック(トピックに関連している)、そして、関心が類似しているユーザの拡張ソーシャルコミュニティに属している。ソーシャルインデックスシステムは、各トピック及びサブトピックに対して細粒度トピックモデルを作成するために、ブートストラップ訓練材料に教師有りマシン学習を適用する。一旦訓練されると、インデックス外挿のためにエバーグリーンインデックスが使用されて、予め選択されているサブジェクトエリアのトピック下に、新しい情報を自動的に分類する。これにより、コーパス用のインデックスが常に最新とされる。
【0034】
細粒度トピックモデル25は、特徴的単語のトピックモデル(それぞれがトピックインデックスのトピック毎にソーシャルインデックスシステム22の特徴的単語のモデラー24によって作成され得る)としても知られている粗粒度トピックモデル26によって相補される。粗粒度トピックモデル26は、最初に、図3を参照しながら、以下に説明されるように、トピックの中心からのアーティクルに対するトピック距離の推定値を出すために使用される。
【0035】
最後に、ユーザサービス28aは、分散インデックス28と着信コンテンツ27にアクセスするために、ユーザ30a〜bへフロントエンドを提供する。更に他の実施の形態において、各トピックインデックスは、主要サブジェクトエリアにおいて継続的に関心をもつ「拡張(オーグメント)」コミュニティとして知られているユーザのコミュニティにつながっている。コミュニティは、情報が割り当てられるトピックにおいて、「投票すること」(29)によって、引用された情報を「吟味」する。
【0036】
ソーシャルインデックスとの関連においてトピックモデルは、トピックを特徴付ける計算モデルである。トピックの識別は、細粒度トピックモデルと粗粒度トピックモデルを組み合わせることによって、弾力性とロバスト性(信頼性)が強化される。
【0037】
細粒度トピックモデル25は、有限状態パターンとして表現され、
【特許文献2】に記載されているような、例えば、検索クエリ(照会)において使用され得る。しばしば、これらのパターンは、数個の単語しか含まないが、特定の潜在的に複雑な関係を表している。例えば、パタ−ン “[(mortgage housing)crisis{improper loans}]”(住宅ローン危機(不正貸付))は、トピックモデル表現であり、単語「“crisis”」、単語「“mortgage”」又は単語「“housing”」のいずれか、及び、2単語セット nグラム、即ち、隣接単語「“improper loans”」を含むアーティクルを識別するために使用され得る。
【0038】
有限状態トピックモデルは、細粒トピックを示すために使用される。有限状態モデルは、ブール(Boolen)照合演算によって使用され、この演算において、テキストは、指定されるパターンと照合されたり、照合されなかったりする。図3は、図1のソーシャルインデックスシステム11によって作成されたソーシャルインデックスにおいて、生成される有限状態パターンのセットを例示する図である。ソーシャルインデックスは、「“Presidential Election”(大統領選)」と呼ばれる。この例のトピックは、「”policy issues/economy/housing crisis”(政治問題/経済/住宅危機)」である。例をベースにした訓練プログラムを用いて何千ものパターン又はトピックモデルが生成されている。単語は、 語幹(ステム単語) “hous”が、“house”、“houses”、及び“housing”と照合するように、語幹化される。同様に、語幹“mortgag”は、“mortgage”、“mortgages”、及び“mortgaging”の照合を得る。トップパターンは、 “(mortgage{hous crisis})”であり、用語“mortgage”又は、nグラムの“hous crisis”のいずれかを含むアーティクルに整合するトピックモデルである。このような有限トピックモデルのセットがエバーグリーンインデックス内のトピックに対応付けられてよい。
【0039】
トピックモデルは、教師有りマシン学習を介して生成され、エバーグリーンインデックスを外挿するために適用され得る。図4は、細粒度トピックモデル生成40を示すデータフローチャートである。要するに、エバーグリーンインデックス48は、トピック又はサブトピック49を有限状態トピックモデルの形態の細粒度トピックモデル50と組み合わせることによって、形成される。エバーグリーンインデックス48は、訓練インデックス41から訓練がスタートされる。訓練インデックス41は、書籍用の従来の索引又はウェブページのハイパーリンク、又は既存のエバーグリーンインデックスインデックスであってよい。訓練インデックスに他のソースを使用してもよい。
【0040】
イデックスエントリ42毎に、訓練インデックス41のトピック及びサブトピックのセットから種語(シードワード)44が選択される(動作43)。種語44から、候補細粒度トピックモデル46のパターンが生成される(動作45)。細粒度トピックモデルは、パターン、用語ベクトル、又はテスト可能な表現の任意の他の形態として識別され得る。細粒度トピックモデルは、従来のインデックスに見られるような直接的なページ引用を、着信コンテンツ27として受信されたテキストがオントピック(トピックに関連してる)かどうかをテストするために使用され得る表現に、変換する。
【0041】
最後に、候補細粒度トピックモデル46が、ポジティブ訓練セット51及びネガティブ訓練セット52に対して評価される(動作47)。一般に、候補細粒度トピックモデル46は、複雑度が高くて確率の低い順に発生するので、通常は、最良候補の細粒度トピックモデル46は最初に生成される。構造的複雑性を考慮に入れることは、訓練データが疎である時は特に、マシン学習における不要な適合を回避するために有用である。
【0042】
エバーグリーンインデックスを使った着信コンテンツ27の自動分類は、連続的なプロセスである。これは、インデックスが常に最新であり、いつでも「新鮮」である所以である。エバーグリーンインデックス48におけるトピックモデル50は、最新の関連のあるコンテンツを、インデックス外挿を介してトピック49別に自動分類されることを可能にする。更に、従来のインデックスとは異なり、エバーグリーンインデックス48は、引用の代わりに、細粒度トピックモデル50を含み、これにより、エバーグリーンインデックス48は、特定のコンテンツとは非結合も任意のコンテンツに対して常に適用可能なダイナミック構造として機能することが可能になる。ドキュメント又はディジタル情報の新しいページ、アーティクル、その他の形式は、ウェブクローラー(ウェブページ巡回プログラム)等を介して自動的に、又は、拡張コミュニティその他によって手動的に、識別される。着信ドキュメントのページは、エバーグリーンインデックス48の細粒度トピックモデル50に照合され、これらのページに含まれている最適トピック又はサブトピック49を決定する。しかしながら、細粒度トピックモデル50にも限界がある。ドキュメントが必ずしも正確に細粒度トピックモデル50に照合されるわけではない。また、ドキュメント内の情報は誤って照合される情報もあれば、全く照合されない情報もあるが、それでも、新しいトピック又はサブトピック49として、エバーグリーンインデックス48に追加する価値がある。
【0043】
粗粒度又は特徴的単語のトピックモデル26は、単語と重みの配列として表示される統計的単語母集団プロファイルである。配列に代えて、他のデータストラクチャが使用されてもよい。ソーシャルインデックスにおいて、各単語に一般的に割り当てられる重みは、発生頻度の比率であり、例えば、数値的に高いか又はなんらかの理由であまり重視されなかった単語の(発生頻度)-(逆発生頻度)(TF−IDF)の重み付けの比率である。図5は、図1のソーシャルインデックスシステム11によって作成された特徴的単語モデルを例示している。単語“dodd”は、500で重み付けされ、上記に記載したように語尾が除外されて語幹化された単語“mortgage”は、405で重み付けされ、“hous”、“buyer”、“crisi”、“price”、“loan ”、“rescue”、“inflat”、“estat”、“market”及び“rescue”を含む他の単語についても同様に重み付けされている。関連するトピックは特徴的単語関連のセットを有している。例えば、トピック “bankruptchy”に対する特徴的単語は、トピック“housing crisis”に対して識別された特徴的単語に強力にオーバーラップする。
【0044】
各粗粒度トピックモデルは、特徴的単語と、各特徴的単語の相対的な重要度を示す得点を含む。特徴的単語モデルは何百あるいは何千もの単語に関連するウェイト(重み付け)を含むことができる。図6は、粗粒度トピックモデル生成60を示すデータフローチャートである。特徴的単語は、細粒度トピックモデルがページ上のノイズコンテンツと照合する「偽ポジティブ」照合、又は、細粒度トピックモデルがページと照合しない「偽ネガティブ」照合を生成することなく、トピックについてのテキストを識別するときに有用である。一般に、特徴的単語は、コーパス内のアーティクルから選択される単語であり、コーパスは、ウェブページ、電子ブック、又は、印刷材料として使用可能な他のディジタル情報を含む。
【0045】
最初に、アーティクルのセットは、コーパスから任意に選択される(ステップ61)。特徴的単語のベースラインは、アーティクルの任意のセットから抽出され、ベースラインに基づいて各特徴的単語の発生頻度が求められる(ステップ62)。待ち時間を短縮するために、ベースラインにおける各特徴的単語の発生頻度を予め計算することができる。一つの実施の形態において、インデックス内のトピック下に出現するアーティクルの数は、例えば、一時間置きにモニタすることもできる。周期的に、アーティクルの数が、所定量、例えば、10%、変化した場合、発生頻度はもう一度計算される。アーティクルの選択抽出は、一般にポジティブ訓練例のセットであるコーパスから選択されて行われる(ステップ63)。なお、アーティクルの選択抽出は、ポジティブ又はネガティブ訓練例の特定の範疇(カテゴリ)に含まれているという点において、任意抽出とは異なる。一つの実施の形態において、ポジティブ訓練例は、上述したように、細粒度トピックモデルを構築する時の教師有り学習中に使用される同一のアーティクルのセットである。更なる実施の形態において、細粒度トピックモデルに整合するアーティクルの抽出を、ポジティブ訓練例の代わりに使用することもできる。特徴的単語は、アーティクルの選択抽出から抜粋され、アーティクルの選択抽出における各特徴的単語の発生頻度が求められる(ステップ64)。測度又は得点は、アーティクルの選択抽出における各特徴的単語の発生頻度とベースラインにおける各特徴的単語の発生頻度の比率を識別する、例えば、(用語の発生頻度)-(逆発生頻度)(TF−IDF)重み付け法を用いて、各特徴的単語に割り当てられる(ステップ65)。各特徴的単語の得点は、トピックに対する特徴的単語の重要度を改良、即ち、増大させるために、又は、重要度を低下させるように、即ち、重要視しないように、調整され得る(ステップ66)。最後に、特徴的単語とそれらの得点の表が、照会(クエリ)プロセス段階において使用するために作成される(ステップ67)。また、表は、特徴的単語とそれらの得点が分類され、又はハッシュ(混合)されたリストであってよい。他のタイプの表も使用可能である。
【0046】
各特徴的単語の得点は、発生頻度の実際比率を示しており、各特徴的単語の得点は、その単語の影響を上げたり下げたり状況に応じて、いくつかの方法において、発見的(ヒューリスティック)に調整され得る。例えば、シングルトン(単独)単語、即ち、コーパス又は引用材料のセットにおいて一回だけしか出現しなかった単語の得点は、特徴付け影響度を割り引くために、例えば、25%、抑制又は削減される。同様に、文字長が4文字以下の単語の得点も、短単語はトピックとしての重要度がやや低い傾向があるので、25%、抑制又は削減される。他の百分位数の削減を使用してもよい。反対に、ラベル又はタイトルに出現する単語は、トピック性が非常に高いので、ラベル又はタイトルの単語は全て特徴的単語として含まれる。ラベル又はタイトルに使われる単語の得点は、これらの単語がコーパスやサンプル材料に出現する回数によって、高くなり、増えていく。最後に、ラベル又はタイトルの単語に隣接して又は近傍に出現する単語、そして、スライディング「ウィンドウ」を画定する固定した単語数内でラベル又はタイトル単語の周辺に出現する「近位」単語の得点も上昇する。近傍及び近位単語を選択している間に正規化された閾値が用いられる。8〜15個の単語のデフォルト閾値が、それぞれ、8個の単語と設定されたウィンドウの大きさに応じて近傍及び近位単語に適用される。他の代表的な閾値及びウィンドウの大きさを使用してもよい。最後に、特徴的単語の得点が正規化される。最高得点を有する特徴的単語は最も特殊な単語であり、この単語の得点は100%に設定される。例えば、図5に示されている例において、得点は値500に正規化されている。他の特徴的単語の得点はこの最高得点に基づいて基準化される。従って、特徴的単語選択が終了すると、インデックスにおける各トピックは、粗粒度トピックモデルを有し、この粗粒度トピックモデルは、それぞれがコーパスから抽出された材料に対して正規化された対応得点を有する特徴的単語に関して表されている。
【0047】
情報をウェブページにまとめて載せるには多数の方法がある。HTML(ハイパーテキストマークアップ言語)などのページ表示言語は、ウェブページ上のレイアウトのみを記述するが、単語のグループ間の論理的な関係については記述しない。しかも、特定のトピックに関連するアーティクルのウェブページは、アーティクル自体から落とされる相当な量の他の無関係な情報を含むことが多い。例えば、ニュース記事(アーティクル)を有するウェブページは、オフトピック(トピックに無関係)で無関係な、広告、他の話題のハイパーリンク、又は読者コメントを含むこともある。
【0048】
このような無関係なコンテンツは、情報の「ノイズ」を構築する。図7は、細粒度トピックモデルが誤ってノイズと照合した時のウェブページの画面例を示す図である。ウェブページは、トピックの「“housing crisis”(住宅危機)」に対して生成された様々な細粒度トピックモデルに照合されたコンテンツからのノイズ単語を含む。例えば、ウェブページの左側の「オンザレーダ(On the Radar)」コラムは、「“McCain to Letterman:‘I Screwed Up.’” (マケインからレターマンへ「私はしくじった」)」というタイトルのアーティクルを含む。更に、いくつかの読者コメント(図示しない)が、アーティクルの本論の下に出現し、更に、 “loan”と “mortgage”言葉を含む。例えば、一人の読者コメントは、「”All for only less than 5% of the morgages in this country that have went bad[sic].Sad that they won’t tell America the truth. 95% of American’s are paying their home loans on time,yet,we are about to go into major debt for only 5% of bad loans made to investors who let their loans go,spectators who wanted a quickback,the greedy who wanted more than they could afford and the few who should have never bought in the first place.”(この国では、住宅ローンが返済できなかったのは負債者全体の5%未満のみだったのに、彼らがアメリカに真実を伝えなかったことは悲しい。95%のアメリカ人は、住宅ローンをきちんと期日まで返済している。なのに、ローン返済を放り出した投資家、早急に利益を求めた傍観者、支払能力以上のものをほしがった欲張りな人、又は最初の段階では絶対買わなかった少数の人たちの不良貸付ローンの5%のために、膨大なつけを払うはめになった)」とコメントしている。
【0049】
この例において、粗粒度トピックモデルは、ソーシャルインデックスシステムに対するトピック訓練インターフェースにおいて「ポジティブ訓練例」又は「これに類似するアーティクル」に対して格付けされた。正規化されたトピック距離得点は、オントピック(トピックに関連している)アーティクルを表す100%から、オフトピック(トピックに無関係な)アーティクルを表す0%までのアーティクルに対して計算された。一般に、10%〜15%未満の得点を有するページは、ノイズページに一致していた。この解析によって、図7で説明されているアーティクルに対する正規化されたトピック距離得点は、5%未満であり、オフトピックであった。
【0050】
ソーシャルインデックスのための訓練を実行するために例ベースのアプローチを用いた場合において、インデックス管理者は、システムがアーティクルの分類を案内するために使用することができる(この例にもっと類似している)ポジティブ訓練例と(この例に類似していない)ネガティブ訓練例を提供することができる。細粒度トピックモデルは、ポジティブ訓練例とネガティブ訓練例の両方を使って作成される。細粒度トピックモデル毎に、ソーシャルインデックスシステムは、ポジティブ訓練例に照合するパターン及びネガティブ訓練例に照合しないパターンを生成する。反対に、粗粒度トピックモデルは、ポジティブ訓練例だけを用いて作成され得る。粗粒度トピックモデル毎に、ソーシャルインデックスシステムは、訓練の例において発見された特徴的単語の母集団を特徴付ける用語ベクトルを作成する。ネガティブ訓練例を利用する粗粒度トピックモデルが作成されてもよい。例えば、トピック「“Mustang”(ムスタング)」に対するモデルにおいて、ポジティブ訓練例は馬についてのアーティクルを記載し、ネガティブ訓練例は、フォードモーターカンパニーによって販売されている車の型式についてのアーティクルを記載している。
【0051】
粗粒度トピックモデルが、ネガティブ訓練例からの情報を使用しないこともあって、粗粒度トピックモデルは、細粒度トピックモデルほどは、詳細な細粒度トピックの識別を実行することができない。更に、用語のベクトル表示は、テキストに出現する単語の間で特定な関係を符号化しない。しかし、実践上は、互いにトピックが類似しているトピックは、単語と重み付けの類似したリストを有し得る。図8は、二つの仮想ウェブモデルのインタラクションを例示している。内側の円は、細粒度トピックフィルタに整合するアーティクルを含む。外側の円のアーティクルは、粗粒度トピックモデル下で特徴付けられたポジティブ得点を有している。しかしながら、10%未満の得点は、通常、あるアーティクルが「ノイズ」のオフトピックアーティクルであることを示す。内側の円の外側にある高得点を有するアーティクルは、「ニアミス」として良好な候補であり、これらは、トピックを拡大するためにポジティブ訓練例のセットに追加される良好な候補となり得るアーティクルである。
【0052】
粗粒度トピックモデルに対する得点は、いくつかの方法で計算され得る。図6を参照して、上述されているように、例えば、増減されるTF−IDFの重み付け法を用いて、各特徴的単語に割り当てられる測度及び得点を割り当てる方法が示されている。他の手法は、トピックモデル内にあるアーティクル内の単語のセットを識別することによって、開始される。素点(実際の得点)は、これらの単語に対するトピックモデルにおける重み付けの合計として定義付けられる。測定されるアーティクルの全てに対して高得点を有するアーティクルが発見される。この高得点は100%に対応するように設定され、その他のアーティクルに対する得点は、この高得点に応じて、正規化される。他の手法を用いることも可能である。
【0053】
経験的に、粗粒度及び細粒度トピックモデルを組み合わせて用いることによって、片方のモデルだけを用いた場合よりも良好な結果が得られる。細粒度トピックモデルそれだけでは、ノイズ単語に対して過剰反応するため、誤解を与えるノイズによってオフトピックコンテンツを選択しやすい傾向がある。粗粒度トピックモデルは、全体的に、各アーティクルの単語の全セットを考慮に入れるので、ノイズが単語のほんの一部を表している場合でも、基本的にはノイズにあまり反応しない。実践上、正確にオントピックであると見られるアーティクルに対する候補としてのアーティクルを識別するために細粒度トピックモデルを使用すること、ノイズによって誤って分類されるアーティクルを取り除くために粗粒度トピックモデルを使用することが、良好な方法とされる。
【0054】
これに対して、粗粒度トピックモデルは、それ自体では、鈍いインストルメントである。トピックが互いに近似している時に、細粒度トピックモデル50は、オントピックのアーティクルとオフトピックのアーティクルを適確に識別する。一方、粗粒度トピックモデルの得点は、トピック間で確実に緻密な識別ができる程正確ではなく、オントピックであるアーティクルは、オフトピックであるアーティクルより低い得点を生成し、粗粒度トピックモデルを惑わす。図5を参照して上述したように、同じトピックインデックスは、「“gasoline prices”(ガソリン価格)」の消費者への影響について記載したアーティクル上で訓練された。粗粒度測定法のみを用いて、「郊外における住宅価格の落込み」に関するアーティクルが80%を得点した。「海底油田掘削の問題とガソリン価格との潜在的な関係」に関するアーティクルが約50%得点した。アーティクルの「石油掘削と環境的配慮」に関するアーティクルの得点は25%の範囲だった。細粒度トピックフィルタは、全体的な単語用法のパターンがあまり識別しやすいわけではなかったにもかかわらず、オフトピックだったアーティクルを隠蔽排除する傾向があったネガティブな例によって訓練されてしまった。
【0055】
細粒度トピックモデルを訓練するチャレンジの一つとして、良好な訓練例を見つけるやり方がある。ソーシャルインデックスがサブジェクトエリアにおいて1ダースのニュースを使用する場合、2週間にわたって数千個のアーティクルが収集され得る。一つの例示的な実施において、システムは全てのインデックスを介して一日に約18000個のアーティクルを引き寄せる。更に、いくつかのブロードインデックスは、現在、一日に何百何千ものアーティクルを引き寄せる。一般に、訓練プロセスは、ユーザがいくつかアーティクルを調べてポジティブ訓練例として使用するためにアーティクルからいくつかを選択したときから開始される。次に、ソーシャルインデックスシステムは、これらのアーティクルに照合するパターンなどの有限状態トピックモデルを捜索する。ネガティブ訓練例によって制約されずに、ソーシャルインデックスは、ポジティブ訓練例におけるアーティクルの全てに照合できる十分に単純なパターンを捜索する。この手法によって表示されるトピックは、範囲が広すぎるという問題があった。
【0056】
オフトピックであるソーシャルインデックスによって照合されるアーティクルを読んだ後、ユーザはいくつかのネガティブ訓練例を追加する。再び、ソーシャルインデックスシステムは、パターンを生成するが、この場合、パターンがポジティブ例(「この例に類似している」)に照合していて、ネガティブ例(「この例に類似していない」)を照合しないという必要条件を有するパターンを生成する。結果的に、ソーシャルインデックスシステムは殆ど照合をリターンしない。ネガティブ例を用いた更なる訓練にかかわらず、十分又は過剰なアーティクルがソーシャルインデックスによって廃棄された時にはユーザは不明瞭なままである。
【0057】
また、訓練プロセスは、殆どが極めてオフトピックな数千個のアーティクルが提供された場合、すぐにうんざりするほど退屈になってしまう。「ニアミス」、即ち、トピックに極めて類似しており、トピックの定義を拡張するために良好な候補を作成するアーティクルの識別は、特に助言がなければ、アーティクルの過剰廃棄という点から難しくなる。図9は、候補ニアミスアーティクルを識別するためのトピック距離得点を提示するユーザインターフェースの画面例を示す図である。ユーザインターフェースは、左上欄及び右上欄のそれぞれにおいてポジティブ訓練例及びネガティブ訓練例のセットを提供する。左下欄は、細粒度トピックモデルと照合したアーティクルを提供する。右下欄は、候補「ニアミス」であるアーティクルのリストを示す。これらのアーティクルは、現在の細粒度トピックモデルに照合しないが、にもかかわらず、粗粒度トピックモデルから高いトピック距離得点を得ている。候補「ニアミス」アーティクルは、分類され、最高得点を有するアーティクルがリストのトップに表示される。但し、他のアーティクル編成方法も利用可能である。
【0058】
候補「ニアミス」アーティクルのリストは、訓練管理者の注目をトピックの幅に集中させる。何千ものアーティクルを手動で検索する必要があるというより寧ろ、訓練管理者は、リストのトップにおけるアーティクルを検査することができる。この例において、図10に示されている「“McCain sees no need for Fannie, Freddie bailout now,(マケインにとってファニィ、フレディへの財政援助は不要)”」のタイトルの記事は、54%の高得点を有している。訓練管理者は、このアーティクルがトピックに含まれるべきであると考えた場合、左上欄のポジティブ訓練例のセットにアーティクルを追加して、細粒度トピックモデルを保持することができる。図11は、再訓練されている図9のユーザインターフェースの画面例を示している。訓練管理者は、新しい細粒度トピックモデルパターンを実際に見ないが、ソーシャルインデックスシステムは、ポジティブ訓練例の全てに照合するが、ネガティブ訓練例のいずれにも照合しない「(freddi{lend practice})」を表現するために基本パターンの一つを改良した。
【0059】
最良の結果を得るために、訓練管理者は、訓練例として良好な代表的アーティクルを選択する必要がある。訓練管理者がポジティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックの誤った特徴付けを受信し、生成される粗粒度トピックモデルは、特徴的単語の紛らわしい分散を具体化する。逆に、訓練管理者が、ネガティブ訓練例としてノイズアーティクルを選択した場合、ソーシャルインデックスシステムは、トピックのためのアーティクルと照合しない細粒度トピックモデルを生成する。この選択は、ソーシャルインデックスがパターンを生成する時、細粒度トピックモデルの下等訓練に、ネガティブ訓練例におけるノイズと偶然に照合する既存の潜在的に受容可能なパターン周辺で作業させて、これにより、ソーシャルインデックスシステムは他の良好なアーティクルを排除する。
【0060】
図11に記載されている例において、訓練管理者は、ソーシャルインデックスシステムによって警告もされている悪い実践例であるネガティブ訓練例として低得点アーティクルを使用した。その後、訓練管理者は、低得点ネガティブ訓練例を削除し、その代わりに、ポジティブ訓練例を追加することができる。図12は、更に再訓練された図11のデータに対する相補的デバッギング(誤り除去)ディスプレイを例示しており、低得点のネガティブ訓練例を削除する。図12に示されているディスプレイは、再訓練されている細粒度トピックモデルに対する候補パターンを示している。再訓練の時、ソーシャルインデックスシステムは全てのポジティブ訓練例の全てと照合し、単一パターンの“mortgage”を生成した。次に、訓練管理者は、この一般化されたパターンが、オフトピックのアーティクルも検索したか否かを見るためにポジティブ照合を検査することができる。
【0061】
訓練後、ソーシャルインデックスは、新しいアーティクルを分類するエバーグリーンプロセスを支持することができる。アーティクルは、ウェブクローラー又はRSS(アールエスエス:RDFサイトサマリー)形式のフィードを用いることによってウェブから収集され得る。細粒度トピックモデルは、正確にオントピックであるアーティクルを識別するために使用され、粗粒度トピックモデルは、ノイズによって誤って分類されたアーティクルを除去するために使用される。図13は、更なる再訓練によって得られたソーシャルインデックスにおいて、生成された有限状態パターンのセットを例示する図であり、トピック「“ housing crisis”」に対して自動的に分類された不良なネガティブ訓練例を除去する。
【0062】
偽ポジティブ訓練例は、トピックに属しているとして不正確に分類されたアーティクルである。これらのアーティクルがアーティクル中のノイズによって照合されている場合、図9を参照して上述したように、ノイズ検出技術がノイズアーティクルを識別するときに効果的である。表1には、訓練動作の概要が示され、これらの動作は、様々な特徴に応じて識別される訓練ケースに応答して、実行される。アーティクルが不正確に分類された場合でも、トピックに類似している場合がある。候補ネガティブ訓練例の場合、ソーシャルインデックスシステムは、トピック幅の過剰な一般概念を具体化し、訓練管理者は、よりネガティブな訓練例を提供することによって、トピックの定義を敢えて狭くする必要がある。この状況は、実質的には、訓練管理者の動作がトピックの作用域を拡大する二重の「ニアミス」になる。いずれに場合でも、訓練管理者は、トピックの作用域をインタラクティブに調整する必要がある。
【0063】
【表1】
以上の技術は、訓練用にマシン学習を用いない手法において使用され得る。例えば、訓練例のソーシャルインデックスに対する異なる手法としては、ユーザに、手動で、トピックの木のトピック毎に照会パターンを指定させることである。この変形例においても、ソーシャルインデックスシステムは、粗粒度トピックモデルを計算することができる。しかしながら、アーティクルのサンプルセットを定義付けるためにポジティブ訓練例に依存する代わりに、ソーシャルインデックスシステムは、トピックに照合するアーティクルのセットを、直接、使用することができる。サンプルは未完成であり、ノイズ単語に照合するアーティクルを含むこともある。パターンがどの程度ユーザの意図に照合するか次第では、パターンは、意図されるトピックからわずかに外れているアーティクルを含むこともあれば、意図されているいくつかのアーティクルを見落とすこともある。サンプルの大部分がうまく照合した場合、パターンは正確なサンプルの近似値として使用され得る。単語分散値が計算され、再訓練のために同一信号が生成され得る。ここで、ユーザは、ポジティブ及びネガティブ訓練例を調整するというより、寧ろ、照会内容を変更し、再び照合を試みる。さらに他の訓練の変形も使用可能である。
【0064】
粗粒度トピックモデルは、トピックの中心からアーティクルに対する距離の推定値を提供するために使用される。即ち、
【0065】
(1)ノイズページを識別する
【0066】
ノイズページは偽ポジティブ照合の種類であり、細粒度トピックモデルはページ上のノイズコンテンツを照合するが、粗粒度トピックモデルは、そのページが殆どオントピックではないとして識別する。従って、細粒度トピックモデルがこのページをオントピックであるとして識別した場合、粗粒度トピックモデルは、このページを、トピックの中核から遠くに離れていること、そして「ノイジー」であると識別する。
【0067】
(2)ニアミスに対して候補アーティクルを提案する
【0068】
ニアミスは、偽ネガティブ照合の種類であって、細粒度トピックモデルはページに照合しないが、粗粒度トピックモデルは、アーティクルがトピックに類似していることを提案する。ポジティブ訓練例のセットに候補ニアミスを追加することは、トピックの作用域が拡大すべきであることを示唆している。
【0069】
(3)候補ネガティブ訓練例を提案
【0070】
ネガティブ訓練例は、トピックの意図される境界の外側に箇所を輪郭付けるための補助をするアーティクルである。候補ネガティブ訓練例は、細粒度トピックモデルによって照合されたアーティクルとして粗粒度トピックモデルによって得点され、トピック中心距離に近接又はその中間に位置している。ノイズページとは異なり、候補ネガティブ訓練例は、距離においてトピック中心に近接している。候補ネガティブ訓練例をネガティブ訓練例に追加することは、トピックの作用域が縮小すべきであることを示唆している。
【0071】
本発明は、実施の形態を参照することによって、図示され、具体的に説明されてきたが、本発明の精神及び範囲を逸脱しない限りにおいて、様々な変形又は変更がなされてよいことは、当業者によって容易に理解されよう。
【符号の説明】
【0072】
41: 訓練材料
42: インデックスエントリi P1, P2, P3
43: 種語選択
44: 種語
45: 細粒度トピックモデル生成
46: 候補細粒度トピックモデル
47: 細粒度トピックモデル評価
48: エバーグリーンインデックス
49: トピックk
50: 細粒度トピックモデルk
【特許請求の範囲】
【請求項1】
トピック識別を提供するためのコンピュータ実施方法であって、
電子的に記憶されたアーティクルと、それぞれが前記アーティクルの一つ以上に関連しているトピックを含む一つ以上のインデックスと、を保持する保持ステップと、
前記アーティクルを任意抽出することと選択抽出することとを選択する選択ステップと、
前記任意抽出と前記選択抽出の各々で得られた前記アーティクルに含まれる複数の特徴的単語を、トピック毎に、識別する識別ステップと、
前記任意抽出と前記選択抽出の各々で得られた前記複数の特徴的単語の発生頻度を求める発生頻度ステップと、
前記任意抽出と前記選択抽出とにより得られた前記複数の特徴的単語の発生頻度の比率を求める比率ステップと、
前記トピックに関連する前記アーティクル内に含まれる前記特徴的単語と、前記特徴的単語に割り当てられた得点と、を含む粗粒度トピックモデルを、トピック毎に、構築する構築ステップと、
を含むコンピュータ実施方法。
【請求項2】
前記粗粒度トピックモデルにおける前記特徴単語に割り当てられた得点に基づいて、当該特徴的単語に対応するトピックを識別する識別ステップを更に有することを特徴とする請求項1記載のコンピュータ実施方法。
【請求項3】
前記アーティクルは、複数の単語を有し、
前記アーティクルの選択抽出は、前記入力された単語に基づいて、特定のカテゴリ内においてサンプリングすることであり、
前記アーティクルの任意抽出は、入力手段により入力された単語に基づいて特定のカテゴリ内に限定しないでサンプリングすることであり、
前記得点は、前記特徴的単語の前記発生頻度の比率に基づいて定められ、
前記保持ステップでは、保持手段が、記憶手段に、前記アーティクルと、前記インデックスと、を保持し、
前記選択ステップでは、選択手段が、前記記憶手段を対象として、前記入力された単語に基づいて、前記アーティクルを任意抽出することと選択抽出することとを選択し、
前記識別ステップでは、識別手段が、前記任意抽出と前記選択抽出の各々で得られた前記アーティクルが有する複数の単語の中から、特徴的単語を、トピック毎に、識別し、
前記発生頻度ステップでは、発生頻度計算手段が、前記任意抽出と前記選択抽出の各々で得られた前記複数の特徴的単語の発生頻度を求め、
前記比率ステップでは、比率計算手段が、前記任意抽出と前記選択抽出とにより得られた前記複数の特徴的単語の発生頻度の比率を求め、
前記構築ステップでは、構築手段が、前記トピックに関連する前記アーティクル内に含まれる前記特徴的単語と、前記特徴的単語に割り当てられた得点と、を含む粗粒度トピックモデルを、トピック毎に、構築し、
前記識別ステップでは、トピック識別手段が、前記粗粒度トピックモデルにおける前記特徴単語に割り当てられた得点に基づいて、当該特徴的単語に対応するトピックを識別する、
ことを特徴とする請求項2記載のコンピュータ実施方法。
【請求項1】
トピック識別を提供するためのコンピュータ実施方法であって、
電子的に記憶されたアーティクルと、それぞれが前記アーティクルの一つ以上に関連しているトピックを含む一つ以上のインデックスと、を保持する保持ステップと、
前記アーティクルを任意抽出することと選択抽出することとを選択する選択ステップと、
前記任意抽出と前記選択抽出の各々で得られた前記アーティクルに含まれる複数の特徴的単語を、トピック毎に、識別する識別ステップと、
前記任意抽出と前記選択抽出の各々で得られた前記複数の特徴的単語の発生頻度を求める発生頻度ステップと、
前記任意抽出と前記選択抽出とにより得られた前記複数の特徴的単語の発生頻度の比率を求める比率ステップと、
前記トピックに関連する前記アーティクル内に含まれる前記特徴的単語と、前記特徴的単語に割り当てられた得点と、を含む粗粒度トピックモデルを、トピック毎に、構築する構築ステップと、
を含むコンピュータ実施方法。
【請求項2】
前記粗粒度トピックモデルにおける前記特徴単語に割り当てられた得点に基づいて、当該特徴的単語に対応するトピックを識別する識別ステップを更に有することを特徴とする請求項1記載のコンピュータ実施方法。
【請求項3】
前記アーティクルは、複数の単語を有し、
前記アーティクルの選択抽出は、前記入力された単語に基づいて、特定のカテゴリ内においてサンプリングすることであり、
前記アーティクルの任意抽出は、入力手段により入力された単語に基づいて特定のカテゴリ内に限定しないでサンプリングすることであり、
前記得点は、前記特徴的単語の前記発生頻度の比率に基づいて定められ、
前記保持ステップでは、保持手段が、記憶手段に、前記アーティクルと、前記インデックスと、を保持し、
前記選択ステップでは、選択手段が、前記記憶手段を対象として、前記入力された単語に基づいて、前記アーティクルを任意抽出することと選択抽出することとを選択し、
前記識別ステップでは、識別手段が、前記任意抽出と前記選択抽出の各々で得られた前記アーティクルが有する複数の単語の中から、特徴的単語を、トピック毎に、識別し、
前記発生頻度ステップでは、発生頻度計算手段が、前記任意抽出と前記選択抽出の各々で得られた前記複数の特徴的単語の発生頻度を求め、
前記比率ステップでは、比率計算手段が、前記任意抽出と前記選択抽出とにより得られた前記複数の特徴的単語の発生頻度の比率を求め、
前記構築ステップでは、構築手段が、前記トピックに関連する前記アーティクル内に含まれる前記特徴的単語と、前記特徴的単語に割り当てられた得点と、を含む粗粒度トピックモデルを、トピック毎に、構築し、
前記識別ステップでは、トピック識別手段が、前記粗粒度トピックモデルにおける前記特徴単語に割り当てられた得点に基づいて、当該特徴的単語に対応するトピックを識別する、
ことを特徴とする請求項2記載のコンピュータ実施方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2010−118064(P2010−118064A)
【公開日】平成22年5月27日(2010.5.27)
【国際特許分類】
【出願番号】特願2009−260896(P2009−260896)
【出願日】平成21年11月16日(2009.11.16)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】
【公開日】平成22年5月27日(2010.5.27)
【国際特許分類】
【出願日】平成21年11月16日(2009.11.16)
【出願人】(502096543)パロ・アルト・リサーチ・センター・インコーポレーテッド (393)
【氏名又は名称原語表記】Palo Alto Research Center Incorporated
【Fターム(参考)】
[ Back to top ]