電子文書の意味検索および取り込みのための方法およびシステム

クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムである。かかるシステムは、ある文書レベルにおいてタグ付けられ、単語用法パターンを識別するためタグに基づいて分析された、複数の電子文書を含む言語資料を含んでいる。また、単語用法パターンならびに前記分野のタグに基づき、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスが提供される。本システムは、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析するクエリ前処理モジュールも含んでいる。さらに、本システムは、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する電子文書を、候補電子文書として識別するため、前記インデックスを用い、前記候補電子文書を取り込むプロセッサも含んでいる。

【発明の詳細な説明】
【関連出願のデータ】
【０００１】
本出願は、その全体が参照のため本出願に取り込まれる、２００５年１月３１日出願の米国仮特許出願番号６０／６４７、７６６の優先権を主張する。
【技術分野】
【０００２】
本発明は、電子文書の意味検索および取り込みのためのシステムおよび方法に関するものである。
【０００３】
巨大な言語資料を横断する電子的な検索は、インターネット上、および、通常、ソフトウエア業界で最も広く用いられるアプリケーションの一つである。検索されるソースが独自あるいはオープンソースデータベース、ドキュメントインデックス、あるいは、ハイパーテキストコレクションのいずれに拘わらず、また、検索プラットフォームが、インターネット、イントラネット、エクストラネット、クライアント−サーバ環境、あるいは、単一コンピュータのいずれに拘わらず、候補となる無数のテキストの中から２〜３の一致するテキストを検索することは、ほとんどのアプリケーションで頻繁に要求され、継続的に行われていることである。
【０００４】
基本的な検索テクニックの一つに、適切なターゲットアイテムからキーワードのインデックスを中心に展開する、キーワードインデックス検索がある。この方法においては、ユーザが入力したクエリが、独立した単語に構文解析（選択的に、少し屈折した結末を取り除いてもよい）されると、すぐに、これらの単語によりインデックスされた文書又はアイテムを順番に指摘するインデックスにおいて前記単語が調べられる。どのような形にせよ、この種の検索サービスには、数百万のコンピュータおよびインターネットユーザにより毎日無数のアクセスが集まる。例えば、これは、オラクル（登録商標）およびＩＢＭ（登録商標）等の会社によりオファーされ、フォーチュン（登録商標）１０００社の多くが内部のデータ管理用に採用しているデータベースキット内に構築され、今日、ほとんどのパーソナルコンピュータに用いられているウインドウズ（登録商標）オペレーテイングシステム上の標準的なヘルプファイルユーティリティ内に構築され、毎日数千万人のインターネットユーザに用いられているライコス（登録商標）、ヤフー（登録商標）ならびにグーグル（登録商標）により提供されるインターネット検索サービスの基となっている。
【０００５】
キーワード検索が有する２つの主な問題点は、（１）関連する文書が行方不明になること、および、（２）関係のない文書を取り込んでしまうことである。ほとんどのキーワード検索は、その両方を行ってしまう。具体的に言うと、意味的に見た場合、多くの例において関連する情報の少なくとも８０％が、元のクエリに入力されるのと全く異なる単語でインデックス付けされているので、多くの場合、キーワード検索は、適切な文書の約８０％を読み飛ばしてしまう、というのが最初の問題に関するキーワード検索の主な制限である。非常に人気のある単語を用いた簡単な検索を行うことができ、関連する情報が沢山ある場合、このことはほとんど問題にならない。しかし、クエリが長く、関連する語句について予想することが困難である検索については、検索結果に失望することがある。
【０００６】
この状況において生じる疑問のいくつかは：
クエリに対する同義語がどこに存在するのか、を検索エンジンがどのように識別するのか、例えば、”母子お揃いのパジャマ”(mother-daughter matching sleeping gowns.）が”親子お揃いのパジャマ”(adult-child matching sleeping gowns.）と一致するか、
”ベイエリアのスカイライン(Bay Area skyline)”という語句が、”ゴールデンゲートブリッジ(Golden Gate Bridge)”と同義語でないにも拘わらず、”ゴールデンゲートブリッジが見える部屋”(hotel room with a view of the Golden Gate Bridge)”が”ベイエリアのスカイライン全体を見渡せるスイート”(suite that provides a panorama of the entire Bay Area skyline)”と非常に関連が深いことを検索エンジンがどのように識別するのかである。
【０００７】
キーワード検索における２つ目の主な問題は、単語が異なる意味でも使用することができるという事実を主な原因として、キーワード検索が、関連して一致するテキストを見落とすだけでなく、関連がない多数のテキストと一致すると判断してしまう、ことである。
【０００８】
この状況で生じる質問の例は：
クエリ中の一連の単語が深い関連性を有しているにも拘わらず、”激しい風の中で飛行機が傾く(bank an aircraft in high wind)”が、”彼の投資銀行は、好調な売り上げにより素晴らしい利益を得ている航空会社を見つけた。（His investment bank funded an aircraft company whose high sales brought in a windfall profit)"と一致しないことを、検索エンジンがどのように識別するのか。
【０００９】
”アップルは、最新型マッキントッシュの値下げを行った。(Apple slashes Price of Newest Macintosh)”が、パーソナルコンピュータについての文書と一致し、農業業界には関連がないということを、検索エンジンがどのように識別するのかである。
【００１０】
かかる問題に対する一般的な試みは、例えば、グーグル（登録商標）では、ウエッブ全体で被リンクが最も多いコンテント、および／又は、他の検索エンジンでは、検索数が最も多いコンテント又は検索結果ページで最もクリックされたコンテント等の様々な種類の人気ランキングを中心に展開する。しかし、人気というのは推測であり、人気が特定ユーザの意思を表さない場合が多く存在する。したがって、この方法は、それがかなり数の例（最も人気のあるもの）においてうまく機能すると保証されるが、最も人気がある場合以外のすべての例では機能しないということが保証される。
【００１１】
上述の見逃された関連する文書についての問題に対処するため、対策が講じられてきた。おそらく、最も素直なアプローチは、クエリに対し自動的に同義語を追加するアプローチである。このことは、マシン可読の類語辞典又は”ワードネット(Wordnet)”を少し参照することにより簡単に実行される。最も一般的な同義語が自動的に追加され、同義語とともにクエリ単語に対する検索が実行される。残念なことに、このアプローチは、以下の点でいくつかの非常に大きな問題に直面している：
１．単語は、多くの異なる意味を有していること；
２．単語は、各意味において多くの同義語を有すること；
３．ほとんどの同義語自体が、元の単語の同義語と異なる他の意味を有すること；である。
例えば、”バンク(bank)”という単語は、金融機関、川の端部、飛行機の旋回、何かを信じていたい意欲（”ユーキャンバンクオンイット！(you can bank on it!)”）、等を意味することが可能である。これらの意味の二番目を取ると、”バンク(bank)”の有効な同義語である”ターン(turn)”という単語は、”バンク(bank)”の意味では、解釈できない別の意味”あなたの番です(it's your turn)”あるいは”世紀の始まり(the turn of the century)”を持つことになる。このことは、各クエリに対して自動的に同義語を追加することは、通常、関連のないヒットを増やすことはあっても、少なくすることはない、ことを意味する。同義語は、検索エンジンが、より関連する情報を見つけることを可能にするという利点を与えるが、かかる効果は、さらにヒットした沢山の無関係な検索結果によって見劣りするものとなってしまう。したがって、同義語を追加することは、問題を解決するのではなく、事態を悪化させることになってしまう。
【００１２】
無関係な検索結果により生じる問題は、関連する文書を見逃してしまう代わりに、検索エンジンが実際に関連していない検索結果を含んでしまうという点で、間違った候補の問題と、実質的に反対、あるいは、”逆”の問題である。キーワードと一致する率と言う観点から見た場合、文書はクエリを完璧に満たすことができるが、ターゲットとする文書内の単語はクエリの単語とは違う意味に使われており、ここでも単語は様々な意味で用いられるので、文書とは無関係であると言う意味において、このことはよく生じることである。この状態は、”反対(opposite)”の問題であるように見えるが、実際のところ、単語の意味を認識するキーワード検索エンジンが無能である、という同じ基本的な問題に由来する。
【００１３】
キーワード検索エンジンは、語意を決定できるほどの能力とはほど遠いので、様々な検索エンジンの設計者は、多くの関連のないヒットを削除するために他の”トリック(trick)”あるいは間接的な方法を考え出してきた。これらの方法のほとんどは、ユーザの挙動パターンをある程度監視し、それを検索エンジンにフィードバックし、あるいは、キーワード後処理のためのアルゴリズムに人気度データを含むようにしなければならない。これらの方法の２つの主なバリエーションは：
１．検索後、ユーザによりどの検索結果がクリックされた（および、どれがクリックされなかった）かを観察し、この情報を保存する。同じ又は別のユーザによって後に全く同じ（又は近い）クエリが提出された場合、前記情報を呼び出し、クリック（クリックされなかった）回数（あるいは、何らかのリニア又は非リニア機能）に比例させ、クリックされたアイテムのランク付けに用いる。
【００１４】
２．ページが何回リンク（又は訪問）されているか、サイトが何個のページを設けて（又は訪問されて）いるか、一般のユーザ（または、特に”第一層(first tier)”あるいは”より重要な(more important)”とされるユーザ）が、かかるページ（又はサイト）のランクを宣伝また告知するため、検索においてこれらの数を用いるか、より人気がある（訪問数が多い、より紹介されている、被リンクが多い）と言う理由で、人気がないサイト（訪問数が少ない、ほとんど紹介されていない、被リンクが少ない）よりも、関連の深い情報を有しているか、について観察する。
【００１５】
これらいずれの方法にも特に問題はないが、これらは本質的に、実際の語意の明確化の代わりに過ぎない。それ自体のコンテントに基づきテキスト自体が関連するか否かが判っていた場合、ランク付けおよびスコア付けにおいて、ユーザの行動および人気度を検索結果を決定するための基礎としてではなく、補完的に（すなわち、”微調整(fine tuning)”又は”突破口(tie breaker)”として）用いられる。また、実際、これらの方法は、様々な状況下でうまく機能しなくなることがある。まず、一般的に知られたソースについての概念は、真の関連性を覆い隠してしまう。例えば、”HomeDepot.com”が、ホームセンターで最もよく知られたブランドの一つであり、このトピックにおいて最もよく知られた有名サイトの一つであるが、このサイトには、漏れが生じる食器洗い機の修理についてのコンテントが掲載されておらず、このトピックについて”Elmer's Plumbing Tips"と言う小規模で有名でないウエッブサイトが、非常に詳細かつ正確で、しかもアクセス可能な情報を掲載していたと仮定する。この場合、多くのユーザには、”Elmer's Plumbing Tips"ではなく、疑いなくブランドであるHomeDepot（登録商標）がよく知られ、HomeDepot（登録商標）のウエッブサイトがクリックされ、Elmer'sをクリックする機会は全くない。検索エンジンが、このパターンを収集すると、HomeDepot（登録商標）（関連コンテントが少ない）が高くランク付けされ、Elmer's （関連コンテントが多い）がずっと低くランクされている。このことは、前述の両方の方法によって生じ得る。
【００１６】
また、人気度のアルゴリズムは、最も人気のあるトレンドと、より安定した関心とを競争させ、ユーザグループが大きなものと、小さいものとを競合させる。”タートルワックス(turtle wax)”というクエリが、このクエリを入力した９９.９％の人の目には、自動車の洗浄およびワックス掛けに関連し、ロックおよびロックンロール・ミュージックあるいは水着モデルに関連するものではないと判断されると仮定する。ここで、ロックンロール・ミュージックのグループが、アルバムの表紙に何人かの水着モデルの画像を表示した”タートルワックス(turtle wax)”というタイトルのアルバムを出したと仮定する。さらに、自動車のお手入れ用品ではなく、問題になっているロックアルバムを探している多くの人が、インターネット上で特定の月にこのクエリを入力したと仮定する。
【００１７】
これまでロックンロール・ミュージックを聴いたことがないが、自身のトラックの塗装中に生じた傷を隠すためのワックスが欲しいジョン・スミスという中年男性が、インターネット検索エンジンに、”タートルワックス”を入力し、一つや二つでなく、検索結果の１ページ目のトップ１０個全てが、ロックンロールファンのサイト、コンサートチケットブローカー、ポスターおよびグッズ業者等であることを発見すると驚いてしまう。この場合、人気度データは、その大部分が何百万人ものロックンロールファンという、彼らの所望する対象に届けられ、文章中でマーケティングしているアイテムについて対価を得るという検索エンジン会社の関心にも役立つ。しかし、このことは、自身がカーワックスを所望している場合のジョン・スミス氏のニーズの役に立ってはいない。
【００１８】
また、非常に沢山のユーザは、無関係ではあるが、興味を引くコンテントに気が散り、それらに圧倒されてしまう。前の例において、彼の検索に応じて提供されたロックンロールについての広告に悩まされた後、ジョン・スミス氏は、音楽グループのアルバムの表紙中の水着モデルのサムネイル画像によって気が散ってしまうと仮定する。たとえそれが彼の最初の質問とは無関係だったとしても、彼は、少しでも大きい画像を見たいと考える。彼は、しばらくの間、画像をクリックし、自身の好奇心を満足させ、その後、ブラウザの戻るボタンを押して、よりよいカーワックスを探すための検索を再開する。残念なことに、現在、検索エンジンは、ジョン・スミス氏が意図してロックンロールのアルバムの表紙を探したと推定するので、自動車ワックスを探す次の人に大きな迷惑をかけてしまうことになる。もちろん、ジョン・スミス氏は、そうでなく、無関係の検索結果に気が散ってしまっただけであった。彼の注意力が他の対象に散逸したことで、彼の本当の興味に”反対票を投じる(voted against)”という実質的な影響を及ぼしてしまう。
【００１９】
その目標が、注意を散逸させ、又は、興味をそそる品質を有する場合、上記の例は、人気度のデータが自己達成的な予言(self-fulfilling prophecy)であってもよいことを示す。すなわち、特定のコンテントに人気があり、検索エンジンによって上位にランクされると判断されると、実質的にそのコンテントの露出がさらに増える。このように露出が増加すると、検索エンジンにおける露出等がさらに増加することにより人気が伝播し、これが繰り返される。したがって、進行中の問題に取り組むのではなく、無関係な結果の周囲で作用する従来の方法には、多くの落とし穴が存在する。
【００２０】
検索についての２つの主要な問題（候補を見逃すとともに無関係な結果を提供すること）は、以下の共通の重要な事項を共有する。すなわち、語意の解釈を誤り、その両方が、未解決の課題ゆえに、いくつかの点でユーザのためにより良い状況よりも、むしろより悪い状況を作りだすことしかできなかったことが、両方の問題の原因となったのである。したがって、この点において、従来の試みよりも、より直接的に語意の明確化の問題に対処することが可能であるがいまだ達成されていないシステムに対するニーズが存在する。
【００２１】
どのようにして広く知れ渡っているか、ならびに、言葉の多義性（複数の意味）の問題でどれくらい驚かせた(how consternating)のかを理解するため、”大気圏外”（"outer space"）(名詞）；不動産の”空地”(real estate "vacant space")(名詞）；たとえば署名のための紙面の空欄(blank space on a paper such as for signature)（名詞）；センテンスの文字間の空白(blank space between letters in a sentense)（名詞）；”フェンスの支柱の間隔をもう少し広くしてくれ”(space the fence posts farther apart, please)(動詞）；”、私の約束に余裕を持たせて欲しい(Space my appointments farther apart, please) (時間についての依頼）；トランス状態になるって”彼は行ってしまった”(to go into a trance "he spaced out)" （ほとんどの表現集にはない）；”我々の分野における”産業的なニッチ(Industry niche "competitors in our space")（ほとんどの表現集にはない）に含まれた”スペース(space)”と言う単語の語意を考慮する。一般に、非常に多義な単語の他の例としては、バンク(bank)、ブレーク(break)、コール(call)、ダーク(dark)、デート(date)、インタレスト(interest)、ラブ(love)、ミーン(mean)、プレーン(plane)、プレイ(play)、ステージ(stage)、タイム(time)、トライ(try)、ビュー(view)、ウインドウ(window)ならびに他の数千の単語がある。
【００２２】
本技術で提案された語意の明確化についての従来の方法は、一般に、以下の線に沿って進められる：
１．テキストの言語資料の意味にタグを付ける（それ自体の標準的な意味に関し各単語にマークを付ける）。”その少数部分が”テスティングデータ(testing data)”として保存されるとともに、トレーニングデータ(training data)”として、ほとんどがこのデータを用いる。
【００２３】
２．各単語の各意味について、文脈上の特徴を抽出するためトレーニングデータを用いる（例えば、どの単語が、次に頻繁に出てくるか、同じ文章中に出てくるか、あるいは、ターゲットとする単語からn個空けて出てくるか、が判ったのについて記録する）。
【００２４】
３．いくつかの単語の語意間の分類を可能にし、テスティングデータについて分類器を有効にするため、文脈上の特徴中の一般的なパターンを判断（例えば、ニューラルネット(neural nets)、又は、ケースに基づく理由付けあるいは、一般的な分類その他等の標準的なマシンが習得するいずれのアルゴリズムを適用することにより）する。
【００２５】
a. テストデータに対して、分類器がうまく動作すると、プロジェクトは完了する。
【００２６】
b. テストデータに対して、分類器がうまく動作しない場合、テストデータに対してうまく動作するようになるまで分類器を調整する。かかるチューニングは、ステップ２、および／又は、相互に対する様々な特徴の値（重み）を調節するステップから異なる特徴を選択することを意味する。
【００２７】
既述のプロジェクトが完了した後、次に、決定された分析器のパターン（あるいは、特徴値の設定又はこれらを考慮して派生したルール）に基づき、新しい単語の発生（周囲の前後関係(surrounding context)、すなわち、単語の前および／又はテキストの後と仮定する）は、特定の単語に関する推測あるいは可能性により割り当てられ、すなわち、それらの標準的な意味に基づいて分類される。このプロセスのステップ2と3について、かなりの量の研究と議論が実行されており、これらの語句を調査し最適化することは間違いなく有益なことである。しかし、提案された従来の語意明確化方法は、ステップ１と合致している。手作業によりタグ付けされたトレーニングデータの大きなセットは、語意の明確化において実行された圧倒的多数の方法により推定される。
【００２８】
【特許文献１】なし
【発明の概要】
【００２９】
上述の方法ならびに要求される手作業によるトレーニングデータのタグ付け自体が、検索アプリケーションについて最も大きい制限を課すことになる。具体的に言うと、様々な文脈中の各単語に関する多数の例文を含む言語資料を手作業でタグ付けする必要性は、オープンエンド検索アプリケーションの設計者に一つではなくいくつかの問題を生じさせる：
１．長時間にわたる手作業による労働コストは、信じられないくらいの額になる。そのアルゴリズムに基づき、英語のある単語を明確化するためのトレーニングデータとして必要とされる数千の例文をタグ付けるためには、大学院の学生によって全学期という長い時間を必要とする。通常用いられる英語全体（２００、０００ワード）から推定するためのかかる努力は想像を絶するものである。
【００３０】
２．かかる労働は、単なる労働力ではなく、言語学的に訓練された労働である。前記タグ付けは、文法、話し言葉の各部分ならびに標準的な語意を理解し、教養のある者によって実行されなければならない。このスキルは、一般のワードプロセッシングを実行するために雇われている労働者よりずっと優れていなくてはできない。この事実は、言語資料を手作業でタグ付けするため予想されるコストをさらに悪化させる。
【００３１】
３．データが全てタグ付けされていたとしても、次の明確化のために適切なベースラインを提供するため、多くの語意は、言語資料中に充分な例を有していないだけである。
【００３２】
４．いくつかの単語は、標準的な意味リストに載っていない意味を有している。
【００３３】
５．いくつかの単語は新しく、標準的な用語集中に主要語として載っていない。
【００３４】
したがって、電子文書を検索し取り込むための従来技術によるシステムおよび方法に関する制限ならびに欠点を最小化するシステムおよび方法に関し、充足されていないニーズが存在する。具体的に言うと、検索を実行する際に見逃されてしまう、関連電子文書の数を増加させるシステムおよび方法に関し充足されていないニーズが存在する。また、検索結果中への無関係な電子文書の包含数を減少させる、かかるシステムおよび方法についてのニーズが存在する。さらに、クエリに応じ、単なるキーワード検索に比べてより関連性の深い電子文書を提供する、システムおよび方法に関し、充足されていないニーズが存在する。
【００３５】
上記の事情を考慮すると、本発明の効果は、検索を実行する際に見逃されていた関連電子文書の数を減少させるシステムおよび方法を提供することである。
【００３６】
本発明の他の効果は、検索結果中への無関係な電子文書の包含を減少させるシステムおよび方法を提供することである。
【００３７】
本発明のさらに別の効果は、クエリに応じ、単なるキーワード検索と比較してより関連性の深い電子文書を提供する、経済的なシステムおよび方法を提供することである。
【００３８】
本発明のある側面によると、クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムが提供される。ある実施形態において、前記システムは、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを識別するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料を備えている。また、かかるシステムは、前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料中の前記複数の文書にインデックスを付ける単語用法パターンのインデックス、および、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析するクエリ前処理モジュールを含んでいる。かかるシステムは、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書として識別するため、前記インデックスを用い、前記候補電子文書を取り込むプロセッサを備えている。
【００３９】
他の実施形態において、かかるシステムは、さらに、前記クエリの前記推定単語用法パターンと前記候補となる電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込まれた候補電子文書を分析する後処理モジュールを含んでいる。また、前記プロセッサは、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別するとともに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供する。
【００４０】
他の実施形態において、前記インデックスの前記単語用法パターンは、前記パターン間の近似性に基づいてクラスタ化される。前記システムにおいて、前記クエリ前処理モジュールは、さらに、前記クエリ中の語意の明確化のため適用される。これにより、前記クエリ前処理モジュールは、さらに、ユーザから文脈情報を引き出し、ユーザから単語用法パターンを選択し、および／又は、類義語のセットを受け取り、ランク付けされた候補単語用法パターンを選択する。
【００４１】
他の実施形態において、前記後処理モジュールは、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断し、前記クエリの前記単語は、当該電子文書を検索結果として提供するため、当該電子文書中において互いに所定の近似性の範囲内になければならない。また、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられる。
【００４２】
前記後処理モジュールは、一致の正確性を判断する際、前記候補電子文書中の前記クエリの単語について語順を判断し、前記判断された語順の一致に基づいて、単語配置スコアを割り当てる。かかる前記後処理モジュールは、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させる。
【００４３】
他の実施形態において、前記クエリ前処理モジュール、および／又は、前記後処理モジュールは、前記クエリの分野内のトピックならびにサブトピックを選択し；前記クエリの存在論的なエレメントを識別し；前記クエリ中の少なくとも１の単語についての類義語あるいは類義語のセットを選択し；前記クエリの疑問型を判断し；前記クエリ中のマルチワード表現（例えば、”オペレーティングシステム(operating system)又は”ロックンロール(rock and roll)”を識別し；前記クエリ中の固有名詞を識別し；前記クエリ中のマルチワードパターンの綴りならびに文法を訂正し；および／又は、前記クエリ中の共通の動詞ならびに形容詞の意味の分析を実行する。前記システムは、さらに、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ分析され、前記検索結果とともに有料検索コンテントを提供するよう動作可能である。
【００４４】
他の実施形態において、前記クエリ前処理モジュールは、前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語を受ける第二入力領域を含み；前記クエリが属するどの分野を、前記システムが解釈しているかについてユーザへのリアルタイムの合図を提供し；前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更し；および／又は、その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促する。
【００４５】
本発明のさらに別の実施形態において、電子文書について意味を検索し、検索結果を提供するためのシステムは、複数の電子文書の言語資料と、各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするタグ付けモジュールと、少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する単語用法モジュールと、ならびに、少なくとも、単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付けるインデックスモジュールと、を備えている。
【００４６】
本発明の他の側面においては、クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法が提供される。ある実施形態において、かかる方法は、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを判断するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料を提供するステップを含む。また、かかる方法は、単語用法パターンならびに前記複数の電子文書の前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを提供するステップ、ユーザからクエリを受け取るステップ、ならびに、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析するステップを備えている。さらに、かかる方法は、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、前記電子文書の少なくとも一つを候補電子文書として識別するため前記インデックスを用いるステップ、および前記候補電子文書を取り込むステップを備える。
【００４７】
さらに別の実施形態において、コンピュータで実行可能な方法は、複数の電子文書を含む言語資料を提供するステップ、各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするステップ、少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断するステップ、前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成するステップを含んでいる。
【００４８】
本発明の他の側面によると、上述のシステムならびに方法を実行可能な命令を有するコンピュータ可読媒体が提供される。ある実施形態において、コンピュータ可読媒体は、ユーザからクエリを受け取る命令、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析する命令、および、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けされた前記複数の電子文書中の単語用法パターンに基づいて、複数の電子文書にインデックスを付ける単語用法パターンのインデックスにアクセスするための命令を含む。また、前記媒体は、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補電子文書として識別する命令、ならびに、前記候補電子文書を取り込む命令を備えている。
【００４９】
他の実施形態において、前記コンピュータ可読媒体は、複数の電子文書の言語資料にアクセスするための命令、各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けする命令、少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する命令、ならびに、前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成する命令を含んでいる。
【００５０】
本発明の、これらの、ならびに、他の特徴は、添付の図面を参照すると、本発明の好ましい実施形態についての以下の詳細な説明から、より明らかとなる。
【好ましい実施形態の詳細な説明】
【００５１】
図１は、クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための、本発明の一実施形態にかかる意味検索システム１０の概略図を示している。上述の効果は、語意に関する言語分析に別の次元を提供する単語用法パターンの分析を含む新しい方法を用いる本発明の意味検索システム１０によって達成することができる。
【００５２】
図１の意味検索システム１０は、どのようなタイプのハードウエア及び／又はソフトウエア、およびプログラム済みの汎用演算装置を用いて実施してもよいことを、まず最初に理解すべきである。例えば、意味検索システム１０は、サーバ、パーソナルコンピュータ、ポータブルコンピュータ、シン・クライアント、あるいは、いずれの適切な装置又は複数の装置を用いて実現してもよい。意味検索システム１０及び／又はそのコンポーネントは、１箇所に設けられた単一の装置又は１箇所あるいは複数箇所に設けられた複数の装置であってもよく、かかる箇所に、電線、光ファイバー、無線等のいずれかの通信媒体を介し、適切な通信プロトコルを用いて接続される。
【００５３】
ここで示され、述べられている本発明にかかる意味検索システム１０は、特定の機能を実行する複数のモジュールを有すると考えられることに注意すべきである。これらのモジュールは、明確化の目的のため、それらの機能に基づいて概略的に示されているにすぎず、特定のハードウエア又はソフトウエアを示しているものでないことを理解すべきである。このことから、これらのモジュールは、述べられた特定の機能を実質的に実行するハードウエアおよび／又はソフトウエアであってもよい。また、かかるモジュールを、意味検索システム１０内に組み入れるようにしても、あるいは、所望される機能に基づき別モジュールに分割するようにしてもよい。したがって、図１に概略的に示されている本発明は、本発明の意味検索システム１０を制限するものと解釈されるべきでなく、単に、例示的な実施形態の一つを示すものであると理解すべきである。
【００５４】
図１に示された実施形態を再度参照すると、意味検索システム１０は、複数の電子文書２４を有する言語資料２２に接続されているプロセッサ２０を含んでいる。言語資料２２が離れた場所に位置し、インターネット２等のネットワークを介して意味検索システム１０と接続されていることを明らかにすべきである。もちろん、他の実施形態においては、言語資料２２を意味検索システム１０自体の内部にそのコンポーネントとして設けるようにしてもよい。
【００５５】
意味検索システム１０は、各電子文書２４の一般的な分野、一般的なコンテント又は電子文書の対象を示したタグ／分野を識別するため、ある文書レベルにおいて、言語資料２２中の複数の電子文書２４をタグ付けするタグ付けモジュール２８も含んでいる。ここで用いられている”電子文書”と言う用語は、フォーマット及び／又は長さに拘わらずコンピュータ可読のいずれのファイルを表していることを理解するべきである。例えば、ウエッブサイトのウエッブページ、ワープロ文書（word processing documents）、プレゼンテーション文書、表計算文書（spreadsheet documents)、ＰＤＦ文書等は、全てここで述べられる電子文書の例である。
【００５６】
さらに、ここで用いられている”分野”と言う用語は、他の事項の一般的な問題の分野から区別される、関連事項の一般的な問題の分野を表している。通常、ある分野は、他の関連する分野のファン(enthusiasts)および専門家から区別される、ファンと専門家の両方を持っている。ある分野は、その中のサブ分野が、他の分野において、通常、エンティティー(entities)、プロセス(processes)ならびに実体がない、又は、はるかに重要性が低いイベント、の最も重要なタイプの多数を有する、という事実によっても特徴付けられる。すなわち、前述のファンおよび専門家と同様に、分野のサブ分野は、重複しているにも拘わらず最も重要なタイプのエンティティーおよびイベントを有する、その分野中で非常に特定されたカテゴリーである。
【００５７】
例えば、スポーツの分野についてを考えてみる。一つのスポーツにおける多くのファンおよび専門家は、他のスポーツにおいてもファンおよび専門家である。例えば、多くの大学のコーチは、一以上のスポーツを指導することができ、多くのアスリートは一以上のスポーツを上手にこなすことができる。特定のスポーツにおいて最も重要なタイプのエンティティーおよびイベントは、”選手”、”エージェント”、”コーチ”、”チーム”、”ゲーム”、”大学のドラフト制（college draft)”であることが多いが、それにもかかわらず、我々は自身の注意を別のスポーツ（例えばフットボールからバスケットボールに）に移す、ただし、これらの重要な実体が、それでもスポーツ分野の中の最も重要なエンティティーおよびイベントであるという事実は残る。同時に、他のドメイン、例えば、金融において、上述のスポーツに関連したエンティティーおよびイベントは、全く（又は、まれにしか）存在せず、フットボールについての専門知識（それに対する意欲）は、通常、金融の専門家またはファンであるその人には決して移入されない。このことは、通常、様々な特定のスポーツを含むスポーツ全体が、金融とは全く別の分野である一つの分野を構成することを教示する。
【００５８】
図示された意味検索システム１０についての実施形態によると、前記言語資料２２おける前記複数の電子文書２４中に存する単語用法パターンを判断する単語用法モジュール３０が設けられる。この単語用法パターンの判断は、少なくとも、明確化のため、単語がどのように使用されているのか、についての糸口又はガイダンスを提供する上述の電子文書のタグの一部に基づいて行われることが好ましい。単語用法モジュール３０は、パターン間の近似性に基づいて、単語用法パターンをグループ化するために適用されることが好ましい。
【００５９】
ここで用いられている”単語用法パターン”と言う用語は、単語が使用された場合、あるいは、近似するパターンをグループ（クラスタ）化する場合に存する文脈情報のパターン又は構成を表している。一般に、特定の単語の使用に関連付けられた、頻繁に生じる全ての文脈情報の中又はその間には、通常、一緒により頻繁に見つけることができる特定の項目が存在する。文脈情報は、言語使用、および、そこで特定の単語が用いられた状況、例えば、文法、意味、（語意、同義語、上位語、下位語、反意語、全体語、部分語等を含む）、会話の履歴（前に何が述べられたか）、どこで単語が見つかったかという議論の分野、講演者（作家）および聴衆の双方のアイデンティティーおよびバックグラウンド、位置、ライティング又は講演の設定ならびに環境、発言の時期と千年紀(millenia)中のその相対的な配置、世紀、年、月、週および／又は日等、の合計を表す。
【００６０】
例えば、１９６０年以前には、文書中で、”気ままな(carefree)”および”陽気な(light-hearted)”等の概念または単語と頻繁に関係していたが、１９８０年以降の文書中には、そのような関連がほとんど見られなくなり、その代わりに、”ホモセクシャル”および”レスビアン”と関連するようになり、１９６０年から１９８０年の間、これら２つの異なるパターンの関連が混在している、用語”ゲイ”について考えてみる。また、他の例として、米国発の文書においては、”ＮＦＬ"と頻繁に結びつけられる用語”フットボール(football)”があるが、その他の地域発の文書では、この結びつきは、まれにしか使用されない。また別の例として、語句”テークアブレーク(take a break)の一部として用いられる単語”テーク(take)”は、”ワーキング”（およびワーキングの同義語）ならびに”タイアード(tired)”（およびその同義語）の文脈において頻繁に用いられる。さらに別の例としては、”コラテラルダメージ(collateral damage)”と言う語句が政府関係者により認められた文書において最も頻繁に用いられたが、ジャーナリストが書いたニュース記事では”シビリアンカジュアリティーズ(civilian casualties)”がより頻繁に見られる。
【００６１】
したがって、特定の単語が用いられると、パターンとして、あるいは、構成により文脈情報が提供される。もちろん、それ自身によって提供される単語発生におけるパターンのこれらの例のいずれもが、特定の単語についての完全な/全ての単語用法パターンではない。しかし、特定の単語について多数の異なる単語発生に関する情報が得られると、かかる情報の全てを、特定の単語と関連付けられる様々な用法パターンが定義された関連グループに体系化することができる。
【００６２】
上述の件について、図２は、電子文書例から導かれる単語用法パターンの例を伴うテーブル３２を示している。各列は、本発明にかかる単語用法モジュール３０により決定された単語用法パターンを表しており、様々な列が、特定の用法パターンの様々な情報又アスペクトを示している。したがって、パターンＩＤ７０００１１３は、政治の分野に関連する文書中の”ブリーディングハーティッドリベラル(bleeding hearted liberal)”と言う語句に用いられている”ブリーディング(bleeding)”と言う単語についての用法パターンを示している。これに対応して、用法パターンＩＤ７０００１１３は、”ハーティッド(hearted)”又は”ヘディッド(headed)”と言う単語が、”ブリーディング(bleeding)”と言う単語の後にくるかもしれないことに注意を要する。また、この単語の用法パターンは、”デモクラット(democrat)”、”モデレート(moderate)”および”プログレッシブ(progressive)”等の代わりの語句、ならびに、”リベラル(liberal)”および”ザレフト(the left)”等の共起語句(co-occurring phrases)が存在することに注意を要する。また、用法パターンＩＤ７０００１１３の分野は、タグ付けモジュール２８により前記分野の上述のタグから得られる。図のように、特定の単語用法パターンの他の様々な側面が、パターンＩＤ７０００１１３に対応する列に表されている。
【００６３】
さらに、図に示すように、テーブル３２の残りの列には、”ブリーディング(bleeding)”と言う単語についての他の様々な用法パターンが示されている。もちろん、これら３つの例が、”ブリーディング(bleeding)”と言う単語についての用法パターンの完全なセットを示しているわけではなく、分析された電子文書から、単語用法モジュール３０が、どのようにして単語用法パターンを生成するかについての例を提供しているに過ぎない。言語資料２２の別の電子文書２４は、単語用法モジュール３０によって分析され、電子文書の他の単語と同様に、同じ単語について別の単語用法パターンを生成することができる。
【００６４】
上述のように、これらの単語用法パターンは、特定の単語に関する様々な用法パターンを表わす、関連グループ又はクラスタに整理することができる。これについて、図３のテーブル３３は、”ブリーディング(bleeding)”と言う単語についての単語用法パターンの前記グループ化又はクラスタ化を示している。図示したように、クラスタＩＤ１０００１０１は、単語用法モジュール３０による複数の電子文書の分析から決定された単語用法パターンを表す。したがって、上述のように、ここで用いられている語句、単語用法パターンは、単語用法パターンの前記グループ化又はクラスタ化をも包含すると理解されるべきである。
【００６５】
また、単語用法モジュール３０が、単語用法パターンを集中させるよう動作してもよいことにも注意すべきである。例えば、様々な電子文書の分析を完了すると、単語用法モジュール３０は、”ピッグスキン(pigskin)”と言う単語の用法パターンが、”フットボール(football)”と言う単語についての一以上の用法パターンとかなり重複していることが判る。かかる単語用法モジュール３０は、そのような例において２つの単語をともにリンクするため動作してもよい。すなわち、アメリカンフットボールで用いられるボール自体を表すために”フットボール”が用いられる特定の場合に、前記の単語は、動詞”蹴る(kick)”および形容詞”滑りやすい(slippery)”等とともに用いられることが多いという特定の用法パターンを有する。同じ種類の文書および同じ分野ならびに一部が同じ著者によるもの等において、”ピッグスキン(pigskin)”は、”蹴る(kick)”および”滑りやすい(slippery)”等とほぼ同じ付属語(attachments)を取るので、単語用法モジュール３０は、用法パターンが互いに関連し、一致する単語用法パターンが集中すると結論づける。
【００６６】
もちろん、”ピッグスキン”と言う単語と全く関連しない”フットボール”と言う単語には、ヨーロッパのフットボールあるいは”サッカー”に関する文書から導かれる等の他の用法パターンも存在する。したがって、上述のことから、本発明の単語用法モジュール３０により決定された単語用法パターンは、単語のある用法が他の単語の語意と一致することを裏付けるために単語の様々な用法を識別するため有益であるだけなく、その周囲の前後関係を考慮して、どのような場合に、ある単語が他の単語とほぼ同義語になるかを特定することについても用法パターンが有益である、ことが明らかである。
【００６７】
単語が様々な用法パターンを持つという一般的な観察は、人工知能の分野で広く受け入れられており、単語用法パターンの抽出、検出および比較について様々な代替方法があることも理解されるべきである。上述の単語用法パターンを決定するための特定の方法は、本発明の意味検索システム１０を動作させるために採用可能な唯一の方法ではない。これに代え、他の実施形態においては、他の単語用法パターン決定方法を直ちに採用することができる。
【００６８】
図１を再度参照すると、意味検索システム１０には、単語用法モジュール３０により決定された単語用法パターンに基づいて、言語資料２２における複数の電子文書２４にインデックスを付けるインデックスモジュール３４も設けられている。これに対応して、かかるインデックスモジュール３４は、図３のテーブル３３に示す、複数の単語用法パターン、あるいは、かかるパターンのクラスタのインデックス付きの入力を有する単語用法パターンインデックス３６を生成する。生成された単語用法パターンインデックス３０、あるいは、その入力は、様々な文書ＩＤと照合される。かかる単語用法パターンインデックス３６と文書ＩＤとの照合は、いずれの適切な照合方法およびシステムを用いて実行してもよい。その詳細については、既知の技術なのでここでは説明を省略する。
【００６９】
図１に示すように、意味検索システム１０には、さらに、ユーザから検索の元となるクエリを受け取り、前記クエリと関連する言語資料２２から電子文書を取り込むクエリ前処理モジュール４０が設けられる。クエリ単語に関してキーワード検索が行われる従来の検索システムとは対照的に、本発明のクエリ前処理モジュール４０は、以下でその詳細が説明される、クエリ中の推定される単語用法パターンを決定するため受け取ったクエリを分析する。また、図示されたクエリ前処理モジュール４０の好ましい実施形態は、関連する電子文書の識別ならびに取り込みを確保できるよう、クエリの分野を判断するよう機能する。この件については、以下でその詳細をさらに説明するように、推定される単語用法パターン、クエリの分野および／又は意図する語意を判断することを促進するためデータベース７４内に様々な特徴を提供してもよい。
【００７０】
意味検索システム１０のプロセッサ２０は、クエリの推定単語用法パターンを見つけるため図２に示された、単語用法パターンインデックス３６を表している。次に、プロセッサ２０は、一致した単語用法パターンの下で、インデックス付きの電子文書を候補となる電子文書として認識するため、単語用法パターンインデックス３６を用いる。このことは、それらの単語用法パターンのインデックスではなく、電子文書のキーワードを基にしたインデックスの使用を提案する従来のシステムならびに方法と大きく異なっている。したがって、インデックスモジュール３４によってインデックスが付けられ、クエリの推定単語用法パターンと一致する単語用法パターンを有する、これらの電子文書は、候補電子文書として認識される。これらの候補電子文書は、以下でその詳細をさらに説明するように、意味検索システム１０によってさらなる分析のために取り込まれる。
【００７１】
図１を再度参照すると、意味検索システム１０には、クエリ前処理モジュール４０により決定されたクエリの推定単語用法パターンと、プロセッサ２０により認識され取り込まれた候補電子文書の単語用法パターン間の一致の正確性を判断するため、取り込まれた候補電子文書を分析する、後処理モジュール４６も含まれている。このとき、かかる後処理装置は、それが、どの単語用法パターンを見つけたかに基づいて、後処理モジュール４６に提供される候補の結果が既にインデックスされている点で、キーワード検索エンジンで動作するよう設計された、従来の意味の後処理を行う装置を大きく超える効果を有する。このことは、電子文書の単語と元のクエリの単語との間で文脈上の意味の一致を確認する際に、大きな利益を得るとともに優位な立場に立つことととなる。図示された実施形態の後処理モジュール４６は、以下で詳細が述べられる一致の正確性に基づいて、取り込んだ候補電子文書のランク付けをし、最も高いランクを有する候補電子文書を検索結果として提供する。
【００７２】
さらに、図１に図示された実施形態において、プロセッサ２０は、クエリ結果と一緒にデータベース５０から有料検索コンテントを提供するためにも適用される。有料検索コンテントを取り入れるために様々な方法を用いてもよい。しかし、本発明の意味検索システム１０は、検索クエリと関連を有する場合にのみ、有料検索コンテントが生成されることを可能にする。分野、検索クエリの語意又は単語用法パターン、言語資料及び／又は広告自体の精度が、有料のシステムならびに方法よりも高いとして知られるので、このことが可能となる。例えば、”タングステン”と言う単語については、冶金家(metallurgist)およびＰＤＡ装置メーカーの両方が、最も高いランクの広告枠(advertisement slot)を得ることができるが、かかる単語が、原料対人気のＰａｌｍ（商標）携帯装置の名前という意味において使われる場合には、対応する彼らの広告が正しく表示される。このことは、文脈に拘わらず、これら二人の広告主に対し、どちらの広告を最も上の広告枠に表示するかを決定するため、入札を要求する従来の有料検索システムを超える大幅な進歩である。
【００７３】
図１から図３に示された意味検索システム１０についての上記説明は、様々なモジュールの一般的概略ならびに本発明の機能を提供する。以下の説明は、本発明の実施形態にかかる様々なモジュールの別の特徴に関する追加の詳細について述べ、および／又は、従来の検索システムおよび方法との相違についてさらに説明している。
【００７４】
タグ付けモジュール
図１に示された好ましい実施形態において、タグ付けモジュール２８は、基本的に、ある文書レベルにおいてのみ、言語資料２２中の複数の電子文書２４をタグ付けする。これにより、従来の検索システムおよび方法で提案された語意レベルではなく、ある文書レベルにおいてのみタグ付けされるので、従来の検索システムおよび方法を超える特定の効果を奏するとともに、労力を大きく節減することができる。こうして認識される節減は、時間とコストが現実的に制限された範囲内で行われるプロジェクトが実行できるかできないか、という違いを生じさせるほど非常に大きいものである。
【００７５】
本発明の意味検索システム１０は、文書レベルでのタグ付けおよび各電子文書のトピックの分野を、後処理モジュールによる分析中、電子文書中の単語用法パターンを判断するための糸口として用いることが好ましい。Yahoo（商標）、Google（商標）及びその他を含むワールドワイドウエッブ上では、既に多くの文書がインデックスされているので、利用可能な電子文書に関し、そのトピックの分野についてかなりの情報が既に存在している。また、ニューヨークタイムズ（商標）、About.com等の主要な情報発信元は、電子文書についての典型的な分野情報を提供するために用いることができる、ある種の分類法(taxonomy)を提供している。もちろん、全部の情報発信元が同じ分類法を使っているわけではない。それにも拘わらず、これらのトピックのラベルは、文書を正しくタグ付けするため、時間を節約するために役立っている。
【００７６】
これに代え、他の実施形態においては、例えば、手作業により充分な例が分類されると、文書を自動的に単一トピックの分類に区別するため、多数の商業的に利用可能な文書分類器を用いることができる。これらの分類器は、上述した従来のタグ付け、特徴抽出、前に説明した調整後のテスト(train-and-test)を用いるが、さらに巨視的観点（微視的観点ではなく）から文書を見るので、これにより、要求される手間に関して、かかる手順の実行をいっそう容易にすることができる。すなわち、従来の技術で行われてる語意分析器用に同じことを実行する場合と比較すると、文書分類器用の調整データを設定するのはあまり困難なことではない。
【００７７】
もちろん、他の実施形態において、タグ付けモジュール２８は、従来の検索システムおよび方法で提案されているように独立した単語の語意にタグ付けする等、他のタグ付け機能を実行するため選択的に用いることもできる。しかし、文書中の独立した単語の全てにタグ付けすることは、上述の様々な不利益を生じさせることになるので、好ましくない。
【００７８】
インデックスモジュール
従来技術のキーワード検索エンジンは、単語のインデックスを中心に展開するが、本発明にかかる意味検索システム１０の好ましい実施形態は、そうではない。それに代え、本発明の意味検索システム１０は、文書ＩＤに関連づけられた単語用法パターンのＩＤからなる、生成された単語用法パターンインデックス３６を用いて検索を実行する。これにより、後になって行うのではなく、検索自体とほぼ同時に単語の意味変化へのアクセスが実行されるので、驚異的な速度の節約（speed savings）を提供することになる。
【００７９】
もちろん、インデックスモジュール３４は、検索結果として与えられる電子文書の関連性を改良するよう利用可能な検索基準をさらに向上させるため、標準的な意味の数(canonical sense numbers)に基づき、言語資料２２中の複数の電子文書２４を索引付けするために動作してもよい。ただし、語意に基づく前記インデックスは、上述した様々な欠点を有している。
【００８０】
クエリ前処理モジュール
上述のように、クエリ前処理モジュール４０は、ユーザのクエリを受け取り、クエリ中の推定される用法パターンを決定するため、かかるクエリを分析する。前記ユーザのクエリは、単語の使い方を導き出すため、ある意味概念において、個別的又は確率的のいずれかを意味するよう位置づけられる。前記クエリの推定単語使用パタンーンが決定されると、本発明の意味検索システム１０は、既に述べたように、単語用法パターンインデックス３６を参照することにより、クエリを満足させる言語資料２２から電子文書を検索し、取り込む。
前記クエリから、常に正確な単語用法パターン情報が抽出される訳ではないことが理解されるべきである。クエリ前処理モジュール４０による上記分析は、役に立ちそうであるが、クエリは文書全体（あるいはその大部分）よりも短いという簡単な理由から、その一部のみが役に立つだけである。最小の文脈情報が提供されるだけであるので、かかる短い文章では単語用法パターンは不明確である。また、通常、電子文書は、かかる情報に基づき単語用法パターンの分析機能を強化するよう、文書の主題およびコンテントについて、いくつかの糸口を提供するそれ自体に関する分野情報を有しているが、ユーザのクエリには、それに関するかかる分野情報が欠落している場合が多い。かかる場合においては、関連する電子文書を識別し、検索結果として取り入れることができるよう、少なくともクエリの分野を決定するために、追加の情報を得ることが好ましい。単語用法パターンと一致するクエリ自体の中に文脈上の単語が存在する場合であっても、クエリを分析し、クエリ中の推定単語用法パターンを決定するため、前処理モジュールにより予測情報を抽出することができる。
【００８１】
上述の制限を考慮すると、意味検索システム１０のクエリ前処理モジュール４４は、クエリの一般的分野を識別するようクエリを明確化するために動作することが好ましい。分野を明確化することは、関連するクエリ結果を識別し提供するため有益であり、クエリの語意を決定し、語意に基づいてクエリの分野を決定するのと比べると簡単なタスクである。人間は、通常、同じ主題の同じトピックの同じ単語の意味について言葉を濁すことはない。このことは、他の方法で意思疎通することが困難であることから、理にかなっている。したがって、もし可能であれば、分野の識別を実行することは、実際に実現することが困難な語意を判断する分析を開始することなく、クエリ中のどの語意を意図しているのかについて最も強い糸口を提供することになる。
【００８２】
具体的に言うと、分野の明確化は、クエリ中の各単語の語意の”分析(dissecting)"よりも広範囲であり、かつ一般的であるので、このことは本質的に簡単なタスクであると結論づけるには理由があり、したがって、分析を開始するのに賢明な場所(prudent place)である。この事実は、従来の用語集(lexicons)中の異なる標準的な語意における分野の分類を検査することにより、ついでに(anecdotally)示されており、通常、いずれの分野にも全く割り当てられないいくつもの語意が存在することはない。これは、クエリの全体を通じて語意を決定する際には、いくつかの判断が行われることを意味する。
【００８３】
これとは対照的に、通常、クエリの分野を決定する際には、１回の判断を行うだけでよい。分野の明確化は、より少ない判断しか必要としない（すなわち、数回ではなく、１回）ので、これらの事実だけでも、クエリの単語の分野の認識は、クエリの各単語の語意を直接明確化する試みよりも簡単でなければならないことが判る。さらに、特定の単語について、通常、一つの分野は、一つの意味を用いるが、一つの単語は、通常、いくつかの候補となる分野を表す点で、分野から単語への照合の際に非対称である。これに対応して、必要であれば、単語の分野を決定するために、まず語意の明確化に進むのではなく、単語の分野を既に決定した後に語意の明確化に取り組むのがより有益である。
【００８４】
上述の件について、クエリ前処理モジュール４０が、単語用法パターン及び／又はドメインについてクエリの単語を分析する可能性を増大させるため、意味検索システム１０のデータベース７４内に様々な追加のツールあるいは特徴を提供してもよい。例えば、クエリの分野内のトピックおよびサブトピックを選択し、クエリの存在論的なエレメントを識別し、一以上のクエリの単語に関する同義語あるいは一連の同義の語を選択し、クエリの疑問の型（どこ−型疑問、誰−型疑問、どのように−型疑問等）を決定し、及び／又は、クエリ中のマルチワードタームを認識するようにデータベース７４のツールを用いるため、クエリ前処理モジュール４０を動作させるようにしてもよい。クエリ中の固有名詞、正しい綴りならびにクエリ中のマルチ単語パターンの文法を認識し、および／又は、クエリ中の共通の動詞ならびに形容詞の意味の分析を実行するようにデータベース７４のツールを用いるよう、クエリ前処理モジュール４０を動作させるようにしてもよい。
【００８５】
かかるツールは、業界で利用可能なＨＴＭＬ構文解析ツール(HTML parser)、単語頻度分析器(word frequency analyzer)、固有名詞識別器(proper name identifier)、単語使用プロファイラ(word usage profiler)、意味類似値(semantic resemblance measures)等である。例えば、業界で利用可能な固有名詞識別モジュールが数多く存在し、どれを使っても大差がない。ＨＴＭＬ構文解析ツールならびに他の低いレベルのモジュール／ツール（lower-level modules/tools)についても同様のことが言える。クエリ前処理モジュール４０は存在論的な識別(ontological distinctions)についての認知をテキスト中に提供するツールデータベース７４から、かかるツール／特徴を呼び出すよう動作することが好ましい。これらの識別は、クエリ中に、人物(Person)、場所(Place)、物事(Thing)、アイデア(Idea)、イベント(Event)、行動(Action)、プロセス(Process)、マナー(Manner)、品質(Quality)、数量(Quantity)、関係(Relation)、スペース(Space)、時間(Time)、原因(Cause)、理由(Reason)、事柄(Matter)、形式(Form)の概念が存するかどうかついての糸口を提供するため順番に用いることができる。したがって、これらの特徴／ツールは、クエリの分析精度を向上させるため、クエリ前処理モジュール４０により用いることができる。例えば、意味検索システム１０は：
・”ゴルフクラブを構成する異なる材料は何であるか？”は物事についてのクエリであるか；
・”１９７１年当時の国務省長官はだれであったか”は人物についての質問であるか；
・”次の日食はいつ起こるのか”は時期についての質問であるか等、を判断するため動作してもよい。
【００８６】
異なるクエリ単語の意味の特定の組み合わせが検索スペース内に一緒に表示されないので、関連する電子文書の検索が終了すると、常に、クエリ内に残された曖昧さを取るに足りないこととすることが可能である。例えば、”バンク・オブ・ウイリアムス(Bank of Williams)”について考えると、本発明にかかる意味検索システム１０は、意味３（飛行機が旋回する(turning an aircraft)）ならびに意味４（発射体が跳飛する(ricocheting projectile)）を排除するが、意味１および２（金融機関ならびに川の端(financial institution and edge of river)）をそのまま残す。いま、この世界（および検索の範囲）で、”ウイリアムス”と呼ばれる川があり、”ウイリアムス”と名づけられた金融機関は存在しない、あるいは、逆に、”ウイリアムス・セービングス・アンドローン”は存在するが、”ウイリアムス”と呼ばれる川は存在しないと仮定する。これらのいずれの場合においても、あいまいさがあったとしても、本発明のシステムにより固有名詞が発見され、検索結果の最上位に提示される。しかし、”ウイリアムス”と呼ばれる川および金融機関の両方が存在する場合、人間にとってはクエリ中に十分な情報がないので、言うまでもなく自動検索アプリケーションに単語の正しい意味を判断させる。このような場合、前記システムは、クエリの単語の語意を決定するための追加情報を用いて、混合した意味（すなわち、検索結果中の電子文書の両種類を混合しなければならない）に基づいて検索結果を提示し、あるいは、決定についてユーザに催促しなければならない。
【００８７】
ユーザによる決定が必要とされる、かかる例を考慮するにあたり、クエリ前処理モジュール４０は、クエリ前処理モジュール４４によるクエリの正確な分析の可能性を増大させるとともに、ユーザによりクエリを入力し易くするため適用されたユーザインターフェースとともに動作することが好ましい。さまざまな実施形態において、ユーザインターフェースは、異なる動作を実行してもよく、以下に開示する実施形態は、かかる例について効率的なインターフェースを提供する。
【００８８】
ある実施形態において、ユーザインターフェースは、クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語を受ける第二入力領域を有して動作してもよい。前記文脈の糸口となる単語は、クエリの単語と同様に単語用法パターンについて直接分析されないことが好ましいが、その代わり、クエリの単語中の不明確さを明確にするため用いられ、例えば、クエリの単語用法パターンの分析後に、可能性のある２つの分野が存在していた場合であっても適切な分野を決定することを可能にする。
【００８９】
他の実施形態において、ユーザがクエリを入力すると、クエリが属するどの分野をシステムが解釈しているかについてリアルタイムの合図をユーザに対して提供するよう、ユーザインターフェースを適用するようにしてもよい。例えば、分野についてのジャバスクリプトによる時系列的な表示とともに先進的結果を示し、検索を抑制する用法パターンのクラスタを任意に表示するため、ユーザインターフェースを動作させてもよい。例えば、ユーザが、クエリを提出すると、”「クラスタ番号」についての・・・「分野の名前」を検索”と述べる確認表示を表示するようにしてもよい。このタイプの確認を用いることにより、ユーザがどの程度クエリ提出プロセスに進むことができるのか、ならびに、進まなければならないのかについて、目立たない方法で少しずつユーザを教育するのに役立つ。かかるユーザインターフェースは、ユーザに、どこ、および、どのコンテントについて意味検索システム１０が検索を行っているかについて効率的に表示し、これにより、検索結果をより辛抱強く待つことができるようにする。
【００９０】
さらに他の実施形態において、クエリ前処理モジュール４０のユーザインターフェースは、第一の色でクエリの単語を表示し、クエリの各単語が明確化された場合に前記第一の色を第二の色に変更するよう動作するようにしてもよい。例えば、単語があいまいな場合には赤色で表示し、単語が少しあいまいな場合には黄色で表示し、明確化された単語を緑色で表示するようにしてもよい。したがって、ユーザがより多くの単語をクエリに入力すると、それにより追加された文脈情報は、明確化がなされると、より多くの単語を黄色から緑色に変化させる効果を有する。
【００９１】
クエリ単語の基本的な分析が、まだ曖昧さを残していることを示している場合クエリ前処理モジュール４０のユーザインターフェースは、判断および／又は明確化のため、文脈情報をシステムのユーザから直接導き出すよう動作してもよい。例えば、上述の実施形態において、クエリの入力完了後、前記単語が全て緑色あるいは黄色になり、赤色が無くなるまで、ユーザに”入力を続けてください”と催促するようにしてもよい。もちろん、ユーザに対し、その明確化を促進するため、クエリに関連する追加の単語の入力を原文通りに続けるよう催促することにより、同様の効果を達成することができる。また、他の実施形態において、クエリ前処理モジュール４０は、単語用法パターン又は同義語のセットをユーザに表示し、表示されたものに最も関連の深い単語用法パターンあるいは同義語をユーザに選ぶことを要求するよう動作してもよい。さらに、他の実施形態においては、ユーザに単語用法パターンを提供し、蓋然性又は人気度の順番でランク付けし、ユーザに適切な単語用法パターンを選ぶよう要求するようにしてもよい。
【００９２】
本発明のかかる意味検索システムの大きな効果の一つは、キーワード又は認められた語意に代えて、基本的に単語用法パターンに基づいて検索を実行することが好ましいので、本発明は、単語の非標準的な意味も明確化する。具体的には、単語の用法パターンを決定し用いることにより、本発明は、独自の単語用法パターンを有するこれらの意味のおかげにより、標準的なソースにまだ含まれていない単語の特徴的な意味を含めることを可能にする。上述の説明例の語句”ブリーディングハーティッドリベラル(bleeding hearted liberal)”と言う語句において用いられている単語”ブリーディング(bleeding)”を再び参照する。”ブリーディングハーティッドリベラル(bleeding hearted liberal)”が標準的なソース中の見出し語として利用可能でなく、分野ベース、文書レベルのタグ付けが実行され、例えば、各文書に、金融、スポーツ、芸能等の分野に存するか否かについて記号を付けると仮定する。これらのエレメントを一緒にすることにより、意味検索システム１０は、”政治”と言う分野に分類された文書中の頻度、”ハートリベラル(heart liberal)”と言う語句の左側に頻出し、特定の軽蔑語(pejorative)として存在し、ならびに特定の論争的な言語に存在する”ブリーディング(bleeding)”と言う単語を見つけるよう機能する。これは、特徴的な語用法パターンを構成し、それ自体、この意味に関して英語の辞書中に標準的に制定された”ブリーディング(bleeding)”と言う単語の”意味(sense)”が技術的に無いにもかかわらず、インデックス付きの入力として作成される。
【００９３】
後処理モジュール
前に述べたように、意味検索システム１０の後処理モジュール４６は、クエリの推定される単語用法パターンと候補電子文書の単語用法パターン間の一致の正確性を判断するため、プロセッサ２０により確認され取り込まれた候補電子文書を分析する。この件について、一致の正確性を判断するため、取り込まれた候補文書又はその一部についてのクエリモジュールについて上述の分析は、後処理モジュール４６によって実行することもできる。
【００９４】
また、かかる後処理モジュール４６は、一致の正確性を判断するために候補電子文書として取り込まれた複数の文書の分析を強化するため、データベース７４からの上述の様々なツールおよび特徴を同様の方法で用いるよう動作することが好ましい。具体的に言うと、後処理モジュール４６は、存在論的なエレメントを識別し、候補電子文書中の同義語又は同義語のセットを選択し、候補電子文書中の固有名詞を認識し、候補電子文書中の複数の単語パターンの綴りおよび文法を訂正し、および／又は、候補電子文書中の共通の動詞ならびに形容詞の意味分析を実行するよう動作してもよい。
【００９５】
図示された実施形態において、意味検索システム１０の後処理モジュール４６は、一致の正確性を判断するため、候補電子文書中のクエリの単語相互の近似性を判断するよう動作することも好ましい。候補電子文書とクエリとの関連性が薄く検索結果として提供してはいけないことを表す、互いに離れて除去されるようなものではなく、候補電子文書中で互いに密接な関係であると判ったクエリ単語を有することがより好ましい。したがって、後処理モジュール４６は、意味検索システム１０により電子文書を検索結果として提供するため、クエリの単語が、電子文書中において互いに所定の近似範囲内にあることを要求するよう、図示された実施形態においてさらに動作する。
【００９６】
単語の近似性の分析において、後処理モジュール４６は、形式が異なる単語について２又は３の異なるサイズの近似性の区間を採用するよう動作することが好ましい。例えば、要求された近似性の範囲内にあるものとしてカウントするため、その目的語に対し、より近似性が高いもの、あるいは、特別のパターンを見つけるため前置詞句が求められる。しかし、演技の時間、マナー、ならびに場所を勘案すると、それらの間で多くの適切な語句が存在する場合、俳優が語る言葉(actor words)は、どちらかと言うと彼らの演技および目的から離れていてもよい。したがって、既述された方法においては、後処理モジュール４６により、異なる近似性の範囲に異なる形式のクエリ単語が割り当てられる。
【００９７】
また、図示された実施形態によると、一致の正確性を判断する際、後処理モジュール４６によって候補電子文書中の語順が用いられる。上述の件について、後処理モジュール４６は、決定された語順の一致又はその不足に対応する単語配置スコアを割り当てる。語順を利用する特に強力な方法の一つは、ファジー列照合と同じであるが、各文字が単語を表しているファジー結合チェック(fuzzy conjugation check)を実行することである。例えば、”ジェームスソルドアチェアアットザオークション(James sold a chair at the auction)”と言う文は、”ジェームスハッドアチェアザットワズソルドアットザオークション(James had a chair that was sold at the auction)”と非常に強いファジー語順一致を有していることが判る。これにより、従来の大部分の検索エンジンの場合のように、それらを廃棄するのではなく、特定の文脈において重要性を持たせつつ、意味検索システム１０が、機能語（例えば、"a", "the"等）をカウントすることを可能にする。
【００９８】
文章中の一部の正しい語順で配された単語間に生じた間隔が存在し又は単語が介在することについて、認識し、対応しなければならない。例えば、クエリが”一番下までボタンのナイトガウン(nightgown that buttons all the way down)”であり、意味検索システム１０が、”ナイトガウン(nightgown)”、３０の介在語(30 intervening words)、さらに、”一番下までボタンの(buttons all the way down)”を見つけた場合、かかるシステムは、かなり高いファジー単語配置スコアをカウントする必要がある。これは、全ての重要なクエリ単語を有する段落中の始点と終点のセット(set of begin-and-end points) を特定し、クエリに対する比較のためにファジー結合を用いて、この一連の単語を分析することによって説明される。これに対応して、後処理モジュール４６は、本実施形態において介在する単語の数が増加すると、単語配置スコアを減少させるようさらに動作する。単語配置スコアが減少する量は、例えば、分解係数(decay factor)を用いて、できれば次第に減少させることが好ましい。
【００９９】
有料検索コンテント
図１に示した実施形態においては、検索結果とともに有料検索コンテントを提供するためプロセッサ２０をさらに適用してもよい。本発明の意味検索システム１０による検索エンジンのマーケティングは、（１）ある概念について入力されたクエリを分析するレベル；（２）言語資料を分析するレベル；および／又は（３）広告主の広告文書を分析するレベル、の少なくとも３つのレベルで実行することができる。実際の語意又は用法を推測する能力は、単語に基づいて広告料を支払う代わりに、それがどう言った意味で使われるかに関係なく検索クエリに関連する場合にのみ広告主が支払うことができ、彼らの広告を表示する点で、３つ全てのレベルで明らかに有益である。この件について、好ましい実施形態においては、有料検索コンテントを分析し、有料コンテントが、クエリの単語用法パターンと一致する単語用法パターンを有すると判断された場合にのみ、検索結果とともに提供するようにしてもよい。
【０１００】
したがって、上で詳述したように、本発明の意味検索システム１０は、単語の標準的な意味に基づく技術において提案された従来のシステムおよび方法において要求される手作業によるタグ付けをする必要がなく、単語の異なる用法に関連する系列的なパターンを動的に生成することができる。好ましい実施形態において、意味検索システム１０９は、各単語あるいは語句について単語用法パターンの動的なグループを生成する。本発明の意味検索システム１０および方法は、従来技術で提案されているように、基本的に、意味から始め、これらの意味を考慮してテキストコーパス(text corpus)を分析するのではなく、言語資料から開始し、言語資料中の言語学上の特徴分布に基づいて用法のグループを工夫する(devises)という点で、提案された従来のシステムおよび方法と異なる。
【０１０１】
単語用法パターンに基づいており、意味検索システム１０は、存在する単語の用法を含む関連する検索結果を提供可能であるとともに、標準的意味に拘束されないという点で、本発明は、提案された従来の検索システムならびに方法を超えて有利である。したがって、本発明のシステムは、全く新しい検索パラダイムを形成するために用いることができる。具体的に言うと、本発明の意味検索システム１０ならびに方法は、語意を明確化することを基本にした技術において提案されているほとんどのシステムならびに方法のように、標準的な意味に拘束されることがない。このことは、語意の標準的なリストが、単語の日常の用法について、不完全きわまりないと言う点で、重要な効果である。本発明のシステムは、標準的なものに限定する代わりに、潜在的に識別可能ないずれの語意をも見つけ、認識することができる。
【０１０２】
また、かかるシステムは、言語学上の成果、ある場合には、個人が一時的使用する用法(idiolectical usages)（すなわち、誰かの固有の言い回し、例えば、ある個人のウエッブサイトだけで見つかる新しい、あるいは、即興的に作られた単語または用法）を、それらが標準となる前に迅速に認識することができる。例えば、誰かが、”インフォテイメント(infotainment)”と言う単語を最初に使った場合を考えてみる。これに対応して、本発明の意味検索システム１０は、標準的な意味に限定されるいずれの方法で要求されるように、テキストコーパスの重要な部分を意味的に照合しないまま残すことを要求されない。これに代え、本発明のシステムは、充分な例が与えられている言語資料中の各単語又は語句を意味的に照合することができる。
【０１０３】
もちろん、意味検索システム１０についての上述の好ましい実施形態を変更しても、あるいは、他の実施形態において異なった動作をさせてもよい。この件について、本発明では、ユーザ側に対し簡単な入力を要求することにより、高速な検索をするよう動作させてもよい。具体的に言うと、本発明のシステムならびに方法は、クエリに応じ、まずキーワード検索を実施するよう動作させてもよい。クエリの特定の単語について深い一致が見つからなかった場合、かかる単語について述べたように、同義語のセット又は単語用法パターンを用いてクエリを分析するようシステムを動作させてもよい。もちろん、このことは、上述の用法パターンインデックスと並列である別のキーワードインデックスを必要とする。これにより、多数の検索を通じて平均応答時間が早くなる。
【０１０４】
リアルタイム速度での検索を行うための他の代替的な動作においは、従来のキーワード型検索に基づいて識別され取り込まれた電子文書の後処理についてのみ、本発明に基づく用法パターン分析を用いる。これにより、キーワード検索自体よりも正確かつ高精度ではあるが、正確さならびに精度を犠牲にして、処理速度をさらに高速にすることが可能となる。
【０１０５】
また、本発明の上記実施形態は、用法パターンインデックスに由来するとして記載されていたが、他の実施形態においては、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書中の単語用法パターンを判断するため、少なくともタグの一部に基づき分析された複数の電子文書を既に含む言語資料を提供してもよい、ということも理解されるべきである。さらに、単語用法パターンに基づき、言語資料中の前記複数の文書にインデックスを付ける単語用法パターンのインデックスを、前もって提供してもよい。したがって、かかる実施形態による意味検索システムは、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを判断するためクエリを分析するクエリ前処理モジュール、ならびに、前記クエリ中の推定される単語用法パターンと一致する単語用法パターンを有する、前記電子文書の少なくとも一つを候補となる電子文書として識別し、取り込むため、前記インデックスを用いるプロセッサを含んでいる。
【０１０６】
前記のように、本発明の他の側面は、コンピュータ可読媒体に記憶された電子文書についての意味検索用の、コンピュータによる実行方法を提供し、クエリに応じて検索結果を提供することである。図４は、ある実施形態に基づく方法を示す概略的なフロー図１００を示している。図示したように、かかる方法は、ステップ１０２において、複数の電子文書の言語資料を提供するステップ、ステップ１０４において、各電子文書の一般分野を識別するため、ある文書レベルにおいて言語資料中の複数の電子文書にタグ付けするステップ、を含んでいる。また、図示された方法は、ステップ１０６において、複数の電子文書のタグの少なくとも一部に基づき、言語資料における複数の電子文書中の単語用法パターンを判断するステップ、ならびに、ステップ１０８において、単語用法パターンに基づき、言語資料中の複数の文書にインデックスを付ける単語用法パターンのインデックスを生成するステップ、も含んでいる。
ステップ１１０においては、ユーザからクエリが受け取られ、クエリ中の候補となる単語用法パターンを導き出すため、分析される。ステップ１１２において、生成されたインデックスは、クエリ中の推定単語用法パターンと一致する単語用法パターンを有する電子文書を識別し、候補電子文書として取り込むために用いられる。ステップ１１４において、受け取られた候補電子文書は、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため分析される。
【０１０７】
さらに別の実施形態において、前記方法は、各電子文書の一般分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書中の単語用法パターンを判断するため、少なくともタグの一部に基づき分析される複数の電子文書を含む言語資料を提供するステップを含む。また、単語用法パターンに基づいて言語資料中の前記複数の文書にインデックスを付けるインデックス単語用法パターンのインデックスも提供される。本発明によると、かかる方法は、ユーザからクエリを受け取るステップ、クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するステップ、クエリ中の推定単語用法パターンと一致する単語用法パターンを有する電子文書を、候補電子文書として認識するためインデックスを用いるステップ、ならびに、候補電子文書を取り込むステップとを含む。
【０１０８】
また、さらに別の側面によると、本発明は、コンピュータソフトウエアプログラムとして実施される。この関連で、上記システム又は方法を実施するため、実行可能な命令を有するコンピュータ可読媒体が提供される。
【０１０９】
本発明による様々な実施形態が示され、説明されているが、かかる発明はこれに限定されないということが理解される。本発明は、当業者により、変更され、修正され、さらに適用されるようにしてもよい。したがって、本発明は、前に示され、説明された詳細に限定されず、かかる変更および修正をも含む。
【図面の簡単な説明】
【０１１０】
【図１】図１は、本発明の一実施形態にかかる意味検索システムの概略図を示す。
【図２】図２は、サンプルの電子文書から図１の意味検索システムを用いて得られた単語用法パターンの例を示す。
【図３】図３は、単語用法パターンインデックスの部分例である。
【図４】図４は、本発明の一実施形態にかかる方法の概略フローチャートである。

【特許請求の範囲】
【請求項１】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムであって、
各電子文書の一般的な分野(general domain)を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを識別するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料(corpus)と、
前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける(indexes)単語用法パターンのインデックスと、
ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するクエリ前処理モジュールと、ならびに、
前記クエリ中の前記推定される単語用法パターン(probable word usage patterns)と一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書(candidate electronic document)として識別するため、前記インデックスを用い、前記候補電子文書を取り込むプロセッサと、
を備えたこと、
を特徴とするシステム。
【請求項２】
請求項１のシステムであって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込まれた候補電子文書を分析する後処理モジュールを含むこと、
を特徴とするシステム。
【請求項３】
請求項２のシステムにおいて、前記プロセッサは、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別すること、
を特徴とするシステム。
【請求項４】
請求項３のシステムにおいて、前記プロセッサは、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供すること、
を特徴とするシステム。
【請求項５】
請求項１のシステムにおいて、前記インデックスの前記単語用法パターンは、前記パターン間の近似性に基づいてクラスタ化されること、
を特徴とするシステム。
【請求項６】
請求項１のシステムにおいて、前記クエリ前処理モジュールは、さらに、前記クエリ中の語意の明確化（disambiguate word sense)のため適用されること、
を特徴とするシステム。
【請求項７】
請求項６のシステムにおいて、前記クエリ前処理モジュールは、さらに、ユーザから文脈情報を引き出し、ユーザから単語用法パターンを選択し、あるいは、類義語のセットを受け取り、ランク付けされた候補単語用法パターンを選択すること、の少なくとも一つを実行すること、
を特徴とするシステム。
【請求項８】
請求項６のシステムにおいて、前記クエリ前処理モジュールは、さらに、
前記クエリの分野内のトピックならびにサブトピックの選択、
前記クエリの存在論的なエレメント(ontological element)の認識、
前記クエリ中の少なくとも１の単語についての類義語あるいは類義語のセットの選択、
前記クエリの疑問型の判断、
前記クエリ中のマルチワード表現(multiword term)の識別、
前記クエリ中の固有名詞(proper name)の識別、
前記クエリ中のマルチワードパターンの綴りならびに文法の訂正、および
前記クエリ中の共通の動詞ならびに形容詞の意味の分析の実行、の少なくとも一つを実行すること、
を特徴とするシステム。
【請求項９】
請求項２のシステムにおいて、前記後処理モジュールは、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断すること、
を特徴とするシステム。
【請求項１０】
請求項９のシステムにおいて、前記クエリの前記単語は、当該電子文書を検索結果として提供するため、当該電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とするシステム。
【請求項１１】
請求項１０のシステムにおいて、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とするシステム。
【請求項１２】
請求項２のシステムにおいて、前記後処理モジュールは、一致の正確性を判断する際、前記候補電子文書中の前記クエリの単語について語順を判断すること、
を特徴とするシステム。
【請求項１３】
請求項１２のシステムにおいて、前記後処理モジュールは、前記判断された語順の一致に基づいて、単語配置スコア(word placement score)を割り当てること、
を特徴とするシステム。
【請求項１４】
請求項１３のシステムにおいて、前記後処理モジュールは、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させること、
を特徴とするシステム。
【請求項１５】
請求項２のシステムにおいて、前記後処理モジュールは、さらに、
前記候補電子文書中の存在論的なエレメントの認識、
前記候補電子文書中の類義語あるいは類義語のセットの選択、
前記候補電子文書中のマルチワード表現の識別、
前記候補電子文書中の固有名詞の識別、
前記候補電子文書中のマルチワードパターンの綴りおよび文法の訂正、ならびに
前記候補電子文書中の共通の動詞ならびに形容詞の意味の分析の実行、の少なくとも一つを実行すること、
を特徴とするシステム。
【請求項１６】
請求項１のシステムにおいて、前記プロセッサは、さらに、検索結果とともに有料検索コンテントを提供するため適用されること、
を特徴とするシステム。
【請求項１７】
請求項１６のシステムにおいて、前記有料検索コンテントは、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ、分析され、前記検索結果とともに提供されること、
を特徴とするシステム。
【請求項１８】
請求項１のシステムにおいて、前記クエリ前処理モジュールは、
前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語(context clue words)を受ける第二入力領域の提供、
前記クエリが属するどの分野を前記システムが解釈しているかについてユーザへのリアルタイムの合図の提供、
前記クエリを第一の色で表示し、前記クエリが明確化された場合における、前記第一の色の第二の色への変更、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けてもらうための前記ユーザへの催促、の少なくとも一つに適用されるユーザインターフェースを含むこと、
を特徴とするシステム。
【請求項１９】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法であって、
各電子文書の一般的な分野(general domain)を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを判断するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料を提供するステップと、
前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける(indexes)単語用法パターンのインデックスを提供するステップと、
ユーザからクエリを受け取るステップと、
当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するステップと、
前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記インデックスを用いるステップと、ならびに、
前記候補電子文書を取り込むステップと、を備えたこと、
を特徴とする方法。
【請求項２０】
請求項１９の方法であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析するステップ、を備えたこと、
を特徴とする方法。
【請求項２１】
請求項２０の方法であって、さらに、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別するステップを含むこと、
を特徴とする方法。
【請求項２２】
請求項２１の方法であって、さらに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供するステップを含むこと、
を特徴とする方法。
【請求項２３】
請求項１９の方法において、前記言語資料の前記複数の電子文書は、ある文書レベルにおいて基本的にタグ付けされること、
を特徴とする方法。
【請求項２４】
請求項１９の方法であって、さらに、前記パターン間の近似性に基づいて、前記インデックスの前記単語用法パターンをクラスタ化するステップを含むこと、
を特徴とする方法。
【請求項２５】
請求項２０の方法であって、さらに、前記クエリ中の語意を明確化するステップを含むこと、
を特徴とする方法。
【請求項２６】
請求項２５の方法において、前記クエリを分析するステップは、ユーザから文脈情報を導き出すステップ、ユーザから単語用法パターンの選択、あるいは、類義語のセットを受け取るステップ、ランク付けされた候補単語用法パターンを選択するステップ、の少なくとも一つを含むこと、
を特徴とする方法。
【請求項２７】
請求項２５の方法において、前記クエリを分析するステップならびに前記候補電子文書を分析するステップは、
分野内のトピックならびにサブトピックを選択するステップ、
存在論的なエレメントを識別するステップ、
類義語あるいは類義語のセットを選択するステップ、
疑問型を判断するステップ、
マルチワード表現を識別するステップ、
固有名詞を識別するステップ、
前記クエリ中のマルチワードパターンの綴りならびに文法を訂正するステップ、および
前記クエリ中の共通の動詞ならびに形容詞の意味の分析を実行するステップ、の少なくとも一つを含むこと、
を特徴とする方法。
【請求項２８】
請求項２５の方法において、前記候補電子文書の一致の正確性を判断する前記ステップは、前記候補電子文書中の前記クエリの単語相互の近似性を判断するステップを含むこと、
を特徴とする方法。
【請求項２９】
請求項２８の方法において、前記クエリの前記単語は、検索結果として提供するため、前記電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とする方法。
【請求項３０】
請求項２９の方法において、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とする方法。
【請求項３１】
請求項２０の方法において、前記候補電子文書の一致の正確性を判断する前記ステップは、語順の一致を判断するステップを含むこと、
を特徴とする方法。
【請求項３２】
請求項３１の方法において、語順の一致を判断するステップは、前記判断された語順の一致に基づいた単語配置スコアの割り当てを含むこと、
を特徴とする方法。
【請求項３３】
請求項３２の方法において、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させること、
を特徴とする方法。
【請求項３４】
請求項１９の方法であって、さらに、前記検索結果とともに有料検索コンテントを提供するステップを含むこと、
を特徴とする方法。
【請求項３５】
請求項３４の方法において、前記有料検索コンテントは、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ分析され、前記検索結果とともに提供されること、
を特徴とする方法。
【請求項３６】
請求項１９の方法であって、さらに、
前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語を受ける第二入力領域を生成するステップ、
前記クエリが、どの分野を検索しているかについてリアルタイムの合図を提供するステップ、
前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更するステップ、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促するステップ、の少なくとも一つを含むこと、
を特徴とするシステム。
【請求項３７】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムであって、
複数の電子文書の言語資料と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするタグ付けモジュールと、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する単語用法モジュールと、ならびに
少なくとも、単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付けるインデックスモジュールと、を備えたこと、
を特徴とするシステム。
【請求項３８】
請求項３７のシステムであって、さらに、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するクエリ前処理モジュールを含むこと、
を特徴とするシステム。
【請求項３９】
請求項３８のシステムであって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、少なくとも一のインデックス付き電子文書を、候補となる電子文書として識別し、当該候補電子文書を取り込むプロセッサ、を含むこと、
を特徴とするシステム。
【請求項４０】
請求項３９のシステムであって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析する後処理モジュールを含むこと、
を特徴とするシステム。
【請求項４１】
請求項３８のシステムにおいて、前記クエリ前処理モジュールは、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化すること、
を特徴とするシステム。
【請求項４２】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法であって、
複数の電子文書を含む言語資料を提供するステップと、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするステップと、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断するステップと、ならびに
前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成するステップと、を備えたこと、
を特徴とする方法。
【請求項４３】
請求項４２の方法であって、さらに、ユーザからクエリを受け取り、前記クエリにおいて推定される単語用法パターンを導き出すために前記クエリを分析するステップを含むこと、
を特徴とする方法。
【請求項４４】
請求項４３の方法であって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記生成されたインデックスを用いるステップ、ならびに、前記候補電子文書を取り込むステップを含むこと、
を特徴とする方法。
【請求項４５】
請求項４４の方法であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析するステップを含むこと、
を特徴とする方法。
【請求項４６】
請求項４３の方法であって、さらに、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化するステップを含むこと、
を特徴とする方法。
【請求項４７】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための実行命令を有するコンピュータ可読媒体であって、
ユーザからクエリを受け取る命令と、
当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析する命令と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けされた前記複数の電子文書中の単語用法パターンに基づいて、複数の電子文書にインデックスを付ける単語用法パターンのインデックスにアクセスするための命令と、
前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書として識別する命令と、ならびに
前記候補電子文書を取り込む命令と、を備えたこと、
を特徴とする媒体。
【請求項４８】
請求項４７のコンピュータ可読媒体であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析する命令、を含むこと、
を特徴とする媒体。
【請求項４９】
請求項４８のコンピュータ可読媒体であって、さらに、一致する単語用法パターンを有する複数の候補電子文書を識別する命令、を含むこと、
を特徴とする媒体。
【請求項５０】
請求項４９のコンピュータ可読媒体であって、さらに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供する命令、を含むこと、
を特徴とする媒体。
【請求項５１】
請求項４７のコンピュータ可読媒体であって、さらに、前記パターン間の近似性に基づいて、前記単語用法パターンをクラスタ化する命令、を含むこと、
を特徴とする媒体。
【請求項５２】
請求項４７のコンピュータ可読媒体であって、さらに、前記クエリ中の語意を明確化する命令、を含むこと、
を特徴とする媒体。
【請求項５３】
請求項５２のコンピュータ可読媒体において、前記クエリを分析する命令は、ユーザから文脈情報を導き出し、ユーザから単語用法パターンを選択し、あるいは、類義語のセットを受け取り、ランク付けされた確率的な単語用法パターン(ranked, probabilistic word usage pattern)を選択すること、の少なくとも一つの命令を含むこと、
を特徴とする媒体。
【請求項５４】
請求項５２のコンピュータ可読媒体において、前記クエリを分析する命令および前記候補電子文書を分析する命令は、
分野内のトピックならびにサブトピックを選択する命令、
存在論的なエレメントを識別する命令、
類義語あるいは類義語のセットを選択する命令、
疑問型を判断する命令、
マルチワード表現を識別する命令、
固有名詞を識別する命令、
マルチワードパターンの綴りならびに文法を訂正する命令、および
共通の動詞ならびに形容詞の意味の分析を実行する命令、の少なくとも一つを含むこと、
を特徴とする媒体。
【請求項５５】
請求項４８のコンピュータ可読媒体において、前記候補電子文書を処理する前記命令は、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断する命令を含むこと、
を特徴とする媒体。
【請求項５６】
請求項５５のコンピュータ可読媒体において、検索結果として提供するため、前記クエリの前記単語は、前記電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とする媒体。
【請求項５７】
請求項５６のコンピュータ可読媒体において、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とする媒体。
【請求項５８】
請求項５５のコンピュータ可読媒体において、前記候補電子文書を処理するための前記命令は、一致の正確性を判断するため、語順の一致を判断する命令を含むこと、
を特徴とする媒体。
【請求項５９】
請求項５８のコンピュータ可読媒体において、語順の一致を判断する命令は、前記判断された語順の一致に基づいて、単語配置スコアを割り当てる命令を含むこと、
を特徴とする媒体。
【請求項６０】
請求項５９のコンピュータ可読媒体において、前記単語配置スコアを決定する命令は、介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させる命令を含むこと、
を特徴とする媒体。
【請求項６１】
請求項４７のコンピュータ可読媒体であって、さらに、検索結果とともに有料検索コンテントを提供する命令を含むこと、
を特徴とする媒体。
【請求項６２】
請求項６１のコンピュータ可読媒体であって、さらに、前記有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有している場合にのみ、検索結果とともに有料検索コンテントを提供する命令を含むこと、
を特徴とする媒体。
【請求項６３】
請求項４７のコンピュータ可読媒体であって、さらに、
前記クエリ入力を受ける第一入力領域を生成し、文脈の糸口となる単語を受ける第二入力領域を生成する命令、
前記クエリが、どの分野を検索しているかについてリアルタイムの合図を提供する命令、
前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更する命令、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促する命令、の少なくとも一つの命令を含むこと、
を特徴とする媒体。
【請求項６４】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための実行命令を有するコンピュータ可読媒体であって、
複数の電子文書の言語資料にアクセスするための命令と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けする命令と、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する命令と、ならびに
前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成する命令と、を備えたこと、
を特徴とする媒体。
【請求項６５】
請求項６４のコンピュータ可読媒体であって、さらに、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析する命令を含むこと、
を特徴とする媒体。
【請求項６６】
請求項６５のコンピュータ可読媒体であって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記生成されたインデックスを用い、ならびに、前記候補電子文書を取り込む命令を含むこと、
を特徴とする媒体。
【請求項６７】
請求項６６のコンピュータ可読媒体であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込んだ候補電子文書を分析する命令を含むこと、
を特徴とする媒体。
【請求項６８】
請求項６５のコンピュータ可読媒体であって、さらに、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化する命令を含むこと、
を特徴とする媒体。

【図１】

【図２】

【図３】

【図４】

【公表番号】特表２００８−５２９１７３（Ｐ２００８−５２９１７３Ａ）
【公表日】平成２０年７月３１日（２００８．７．３１）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)

【出願番号】特願２００７−５５３３４２（Ｐ２００７−５５３３４２）
【出願日】平成１８年１月３１日（２００６．１．３１）
【国際出願番号】ＰＣＴ／ＵＳ２００６／００３３１２
【国際公開番号】ＷＯ２００６／０８６１７９
【国際公開日】平成１８年８月１７日（２００６．８．１７）
【出願人】（５０７２５５７６５）テキストディガー，インコーポレイテッド (2)
【氏名又は名称原語表記】ＴｅｘｔＤｉｇｇｅｒ，　Ｉｎｃ．
【住所又は居所原語表記】３０５　Ｖｉｎｅｙａｒｄ　Ｔｏｗｎ　Ｃｅｎｔｅｒ　＃３７５，　Ｍｏｒｇａｎ　Ｈｉｌｌ，　Ｃａｌｉｆｏｒｎｉａ　９５０３７，　Ｕｎｉｔｅｄ　Ｓｔａｔｅｓ　ｏｆ　Ａｍｅｒｉｃａ
【Ｆターム（参考）】

[ Back to top ]

電子文書の意味検索および取り込みのための方法およびシステム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

電子文書の意味検索および取り込みのための方法およびシステム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク