説明

電子文書の意味検索および取り込みのための方法およびシステム

クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムである。かかるシステムは、ある文書レベルにおいてタグ付けられ、単語用法パターンを識別するためタグに基づいて分析された、複数の電子文書を含む言語資料を含んでいる。また、単語用法パターンならびに前記分野のタグに基づき、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスが提供される。本システムは、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析するクエリ前処理モジュールも含んでいる。さらに、本システムは、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する電子文書を、候補電子文書として識別するため、前記インデックスを用い、前記候補電子文書を取り込むプロセッサも含んでいる。

【発明の詳細な説明】
【関連出願のデータ】
【0001】
本出願は、その全体が参照のため本出願に取り込まれる、2005年1月31日出願の米国仮特許出願番号60/647、766の優先権を主張する。
【技術分野】
【0002】
本発明は、電子文書の意味検索および取り込みのためのシステムおよび方法に関するものである。
【0003】
巨大な言語資料を横断する電子的な検索は、インターネット上、および、通常、ソフトウエア業界で最も広く用いられるアプリケーションの一つである。検索されるソースが独自あるいはオープンソースデータベース、ドキュメントインデックス、あるいは、ハイパーテキストコレクションのいずれに拘わらず、また、検索プラットフォームが、インターネット、イントラネット、エクストラネット、クライアント−サーバ環境、あるいは、単一コンピュータのいずれに拘わらず、候補となる無数のテキストの中から2〜3の一致するテキストを検索することは、ほとんどのアプリケーションで頻繁に要求され、継続的に行われていることである。
【0004】
基本的な検索テクニックの一つに、適切なターゲットアイテムからキーワードのインデックスを中心に展開する、キーワードインデックス検索がある。この方法においては、ユーザが入力したクエリが、独立した単語に構文解析(選択的に、少し屈折した結末を取り除いてもよい)されると、すぐに、これらの単語によりインデックスされた文書又はアイテムを順番に指摘するインデックスにおいて前記単語が調べられる。どのような形にせよ、この種の検索サービスには、数百万のコンピュータおよびインターネットユーザにより毎日無数のアクセスが集まる。例えば、これは、オラクル(登録商標)およびIBM(登録商標)等の会社によりオファーされ、フォーチュン(登録商標)1000社の多くが内部のデータ管理用に採用しているデータベースキット内に構築され、今日、ほとんどのパーソナルコンピュータに用いられているウインドウズ(登録商標)オペレーテイングシステム上の標準的なヘルプファイルユーティリティ内に構築され、毎日数千万人のインターネットユーザに用いられているライコス(登録商標)、ヤフー(登録商標)ならびにグーグル(登録商標)により提供されるインターネット検索サービスの基となっている。
【0005】
キーワード検索が有する2つの主な問題点は、(1)関連する文書が行方不明になること、および、(2)関係のない文書を取り込んでしまうことである。ほとんどのキーワード検索は、その両方を行ってしまう。具体的に言うと、意味的に見た場合、多くの例において関連する情報の少なくとも80%が、元のクエリに入力されるのと全く異なる単語でインデックス付けされているので、多くの場合、キーワード検索は、適切な文書の約80%を読み飛ばしてしまう、というのが最初の問題に関するキーワード検索の主な制限である。非常に人気のある単語を用いた簡単な検索を行うことができ、関連する情報が沢山ある場合、このことはほとんど問題にならない。しかし、クエリが長く、関連する語句について予想することが困難である検索については、検索結果に失望することがある。
【0006】
この状況において生じる疑問のいくつかは:
クエリに対する同義語がどこに存在するのか、を検索エンジンがどのように識別するのか、例えば、”母子お揃いのパジャマ”(mother-daughter matching sleeping gowns.)が”親子お揃いのパジャマ”(adult-child matching sleeping gowns.)と一致するか、
”ベイエリアのスカイライン(Bay Area skyline)”という語句が、”ゴールデンゲートブリッジ(Golden Gate Bridge)”と同義語でないにも拘わらず、”ゴールデンゲートブリッジが見える部屋”(hotel room with a view of the Golden Gate Bridge)”が”ベイエリアのスカイライン全体を見渡せるスイート”(suite that provides a panorama of the entire Bay Area skyline)”と非常に関連が深いことを検索エンジンがどのように識別するのかである。
【0007】
キーワード検索における2つ目の主な問題は、単語が異なる意味でも使用することができるという事実を主な原因として、キーワード検索が、関連して一致するテキストを見落とすだけでなく、関連がない多数のテキストと一致すると判断してしまう、ことである。
【0008】
この状況で生じる質問の例は:
クエリ中の一連の単語が深い関連性を有しているにも拘わらず、”激しい風の中で飛行機が傾く(bank an aircraft in high wind)”が、”彼の投資銀行は、好調な売り上げにより素晴らしい利益を得ている航空会社を見つけた。(His investment bank funded an aircraft company whose high sales brought in a windfall profit)"と一致しないことを、検索エンジンがどのように識別するのか。
【0009】
”アップルは、最新型マッキントッシュの値下げを行った。(Apple slashes Price of Newest Macintosh)”が、パーソナルコンピュータについての文書と一致し、農業業界には関連がないということを、検索エンジンがどのように識別するのかである。
【0010】
かかる問題に対する一般的な試みは、例えば、グーグル(登録商標)では、ウエッブ全体で被リンクが最も多いコンテント、および/又は、他の検索エンジンでは、検索数が最も多いコンテント又は検索結果ページで最もクリックされたコンテント等の様々な種類の人気ランキングを中心に展開する。しかし、人気というのは推測であり、人気が特定ユーザの意思を表さない場合が多く存在する。したがって、この方法は、それがかなり数の例(最も人気のあるもの)においてうまく機能すると保証されるが、最も人気がある場合以外のすべての例では機能しないということが保証される。
【0011】
上述の見逃された関連する文書についての問題に対処するため、対策が講じられてきた。おそらく、最も素直なアプローチは、クエリに対し自動的に同義語を追加するアプローチである。このことは、マシン可読の類語辞典又は”ワードネット(Wordnet)”を少し参照することにより簡単に実行される。最も一般的な同義語が自動的に追加され、同義語とともにクエリ単語に対する検索が実行される。残念なことに、このアプローチは、以下の点でいくつかの非常に大きな問題に直面している:
1.単語は、多くの異なる意味を有していること;
2.単語は、各意味において多くの同義語を有すること;
3.ほとんどの同義語自体が、元の単語の同義語と異なる他の意味を有すること;である。
例えば、”バンク(bank)”という単語は、金融機関、川の端部、飛行機の旋回、何かを信じていたい意欲(”ユー キャン バンク オン イット!(you can bank on it!)”)、等を意味することが可能である。これらの意味の二番目を取ると、”バンク(bank)”の有効な同義語である”ターン(turn)”という単語は、”バンク(bank)”の意味では、解釈できない別の意味”あなたの番です(it's your turn)”あるいは”世紀の始まり(the turn of the century)”を持つことになる。このことは、各クエリに対して自動的に同義語を追加することは、通常、関連のないヒットを増やすことはあっても、少なくすることはない、ことを意味する。同義語は、検索エンジンが、より関連する情報を見つけることを可能にするという利点を与えるが、かかる効果は、さらにヒットした沢山の無関係な検索結果によって見劣りするものとなってしまう。したがって、同義語を追加することは、問題を解決するのではなく、事態を悪化させることになってしまう。
【0012】
無関係な検索結果により生じる問題は、関連する文書を見逃してしまう代わりに、検索エンジンが実際に関連していない検索結果を含んでしまうという点で、間違った候補の問題と、実質的に反対、あるいは、”逆”の問題である。キーワードと一致する率と言う観点から見た場合、文書はクエリを完璧に満たすことができるが、ターゲットとする文書内の単語はクエリの単語とは違う意味に使われており、ここでも単語は様々な意味で用いられるので、文書とは無関係であると言う意味において、このことはよく生じることである。この状態は、”反対(opposite)”の問題であるように見えるが、実際のところ、単語の意味を認識するキーワード検索エンジンが無能である、という同じ基本的な問題に由来する。
【0013】
キーワード検索エンジンは、語意を決定できるほどの能力とはほど遠いので、様々な検索エンジンの設計者は、多くの関連のないヒットを削除するために他の”トリック(trick)”あるいは間接的な方法を考え出してきた。これらの方法のほとんどは、ユーザの挙動パターンをある程度監視し、それを検索エンジンにフィードバックし、あるいは、キーワード後処理のためのアルゴリズムに人気度データを含むようにしなければならない。これらの方法の2つの主なバリエーションは:
1.検索後、ユーザによりどの検索結果がクリックされた(および、どれがクリックされなかった)かを観察し、この情報を保存する。同じ又は別のユーザによって後に全く同じ(又は近い)クエリが提出された場合、前記情報を呼び出し、クリック(クリックされなかった)回数(あるいは、何らかのリニア又は非リニア機能)に比例させ、クリックされたアイテムのランク付けに用いる。
【0014】
2.ページが何回リンク(又は訪問)されているか、サイトが何個のページを設けて(又は訪問されて)いるか、一般のユーザ(または、特に”第一層(first tier)”あるいは”より重要な(more important)”とされるユーザ)が、かかるページ(又はサイト)のランクを宣伝また告知するため、検索においてこれらの数を用いるか、より人気がある(訪問数が多い、より紹介されている、被リンクが多い)と言う理由で、人気がないサイト(訪問数が少ない、ほとんど紹介されていない、被リンクが少ない)よりも、関連の深い情報を有しているか、について観察する。
【0015】
これらいずれの方法にも特に問題はないが、これらは本質的に、実際の語意の明確化の代わりに過ぎない。それ自体のコンテントに基づきテキスト自体が関連するか否かが判っていた場合、ランク付けおよびスコア付けにおいて、ユーザの行動および人気度を検索結果を決定するための基礎としてではなく、補完的に(すなわち、”微調整(fine tuning)”又は”突破口(tie breaker)”として)用いられる。また、実際、これらの方法は、様々な状況下でうまく機能しなくなることがある。まず、一般的に知られたソースについての概念は、真の関連性を覆い隠してしまう。例えば、”HomeDepot.com”が、ホームセンターで最もよく知られたブランドの一つであり、このトピックにおいて最もよく知られた有名サイトの一つであるが、このサイトには、漏れが生じる食器洗い機の修理についてのコンテントが掲載されておらず、このトピックについて”Elmer's Plumbing Tips"と言う小規模で有名でないウエッブサイトが、非常に詳細かつ正確で、しかもアクセス可能な情報を掲載していたと仮定する。この場合、多くのユーザには、”Elmer's Plumbing Tips"ではなく、疑いなくブランドであるHomeDepot(登録商標)がよく知られ、HomeDepot(登録商標)のウエッブサイトがクリックされ、Elmer'sをクリックする機会は全くない。検索エンジンが、このパターンを収集すると、HomeDepot(登録商標)(関連コンテントが少ない)が高くランク付けされ、Elmer's (関連コンテントが多い)がずっと低くランクされている。このことは、前述の両方の方法によって生じ得る。
【0016】
また、人気度のアルゴリズムは、最も人気のあるトレンドと、より安定した関心とを競争させ、ユーザグループが大きなものと、小さいものとを競合させる。”タートルワックス(turtle wax)”というクエリが、このクエリを入力した99.9%の人の目には、自動車の洗浄およびワックス掛けに関連し、ロックおよびロックンロール・ミュージックあるいは水着モデルに関連するものではないと判断されると仮定する。ここで、ロックンロール・ミュージックのグループが、アルバムの表紙に何人かの水着モデルの画像を表示した”タートルワックス(turtle wax)”というタイトルのアルバムを出したと仮定する。さらに、自動車のお手入れ用品ではなく、問題になっているロックアルバムを探している多くの人が、インターネット上で特定の月にこのクエリを入力したと仮定する。
【0017】
これまでロックンロール・ミュージックを聴いたことがないが、自身のトラックの塗装中に生じた傷を隠すためのワックスが欲しいジョン・スミスという中年男性が、インターネット検索エンジンに、”タートルワックス”を入力し、一つや二つでなく、検索結果の1ページ目のトップ10個全てが、ロックンロールファンのサイト、コンサートチケットブローカー、ポスターおよびグッズ業者等であることを発見すると驚いてしまう。この場合、人気度データは、その大部分が何百万人ものロックンロールファンという、彼らの所望する対象に届けられ、文章中でマーケティングしているアイテムについて対価を得るという検索エンジン会社の関心にも役立つ。しかし、このことは、自身がカーワックスを所望している場合のジョン・スミス氏のニーズの役に立ってはいない。
【0018】
また、非常に沢山のユーザは、無関係ではあるが、興味を引くコンテントに気が散り、それらに圧倒されてしまう。前の例において、彼の検索に応じて提供されたロックンロールについての広告に悩まされた後、ジョン・スミス氏は、音楽グループのアルバムの表紙中の水着モデルのサムネイル画像によって気が散ってしまうと仮定する。たとえそれが彼の最初の質問とは無関係だったとしても、彼は、少しでも大きい画像を見たいと考える。彼は、しばらくの間、画像をクリックし、自身の好奇心を満足させ、その後、ブラウザの戻るボタンを押して、よりよいカーワックスを探すための検索を再開する。残念なことに、現在、検索エンジンは、ジョン・スミス氏が意図してロックンロールのアルバムの表紙を探したと推定するので、自動車ワックスを探す次の人に大きな迷惑をかけてしまうことになる。もちろん、ジョン・スミス氏は、そうでなく、無関係の検索結果に気が散ってしまっただけであった。彼の注意力が他の対象に散逸したことで、彼の本当の興味に”反対票を投じる(voted against)”という実質的な影響を及ぼしてしまう。
【0019】
その目標が、注意を散逸させ、又は、興味をそそる品質を有する場合、上記の例は、人気度のデータが自己達成的な予言(self-fulfilling prophecy)であってもよいことを示す。すなわち、特定のコンテントに人気があり、検索エンジンによって上位にランクされると判断されると、実質的にそのコンテントの露出がさらに増える。このように露出が増加すると、検索エンジンにおける露出等がさらに増加することにより人気が伝播し、これが繰り返される。したがって、進行中の問題に取り組むのではなく、無関係な結果の周囲で作用する従来の方法には、多くの落とし穴が存在する。
【0020】
検索についての2つの主要な問題(候補を見逃すとともに無関係な結果を提供すること)は、以下の共通の重要な事項を共有する。すなわち、語意の解釈を誤り、その両方が、未解決の課題ゆえに、いくつかの点でユーザのためにより良い状況よりも、むしろより悪い状況を作りだすことしかできなかったことが、両方の問題の原因となったのである。したがって、この点において、従来の試みよりも、より直接的に語意の明確化の問題に対処することが可能であるがいまだ達成されていないシステムに対するニーズが存在する。
【0021】
どのようにして広く知れ渡っているか、ならびに、言葉の多義性(複数の意味)の問題でどれくらい驚かせた(how consternating)のかを理解するため、”大気圏外”("outer space")(名詞);不動産の”空地”(real estate "vacant space")(名詞);たとえば署名のための紙面の空欄(blank space on a paper such as for signature)(名詞);センテンスの文字間の空白(blank space between letters in a sentense)(名詞);”フェンスの支柱の間隔をもう少し広くしてくれ”(space the fence posts farther apart, please)(動詞);”、私の約束に余裕を持たせて欲しい(Space my appointments farther apart, please) (時間についての依頼);トランス状態になるって”彼は行ってしまった”(to go into a trance "he spaced out)" (ほとんどの表現集にはない);”我々の分野における”産業的なニッチ(Industry niche "competitors in our space")(ほとんどの表現集にはない)に含まれた”スペース(space)”と言う単語の語意を考慮する。一般に、非常に多義な単語の他の例としては、バンク(bank)、ブレーク(break)、コール(call)、ダーク(dark)、デート(date)、インタレスト(interest)、ラブ(love)、ミーン(mean)、プレーン(plane)、プレイ(play)、ステージ(stage)、タイム(time)、トライ(try)、ビュー(view)、ウインドウ(window)ならびに他の数千の単語がある。
【0022】
本技術で提案された語意の明確化についての従来の方法は、一般に、以下の線に沿って進められる:
1.テキストの言語資料の意味にタグを付ける(それ自体の標準的な意味に関し各単語にマークを付ける)。”その少数部分が”テスティングデータ(testing data)”として保存されるとともに、トレーニングデータ(training data)”として、ほとんどがこのデータを用いる。
【0023】
2.各単語の各意味について、文脈上の特徴を抽出するためトレーニングデータを用いる(例えば、どの単語が、次に頻繁に出てくるか、同じ文章中に出てくるか、あるいは、ターゲットとする単語からn個空けて出てくるか、が判ったのについて記録する)。
【0024】
3. いくつかの単語の語意間の分類を可能にし、テスティングデータについて分類器を有効にするため、文脈上の特徴中の一般的なパターンを判断(例えば、ニューラルネット(neural nets)、又は、ケースに基づく理由付けあるいは、一般的な分類その他等の標準的なマシンが習得するいずれのアルゴリズムを適用することにより)する。
【0025】
a. テストデータに対して、分類器がうまく動作すると、プロジェクトは完了する。
【0026】
b. テストデータに対して、分類器がうまく動作しない場合、テストデータに対してうまく動作するようになるまで分類器を調整する。かかるチューニングは、ステップ2、および/又は、相互に対する様々な特徴の値(重み)を調節するステップから異なる特徴を選択することを意味する。
【0027】
既述のプロジェクトが完了した後、次に、決定された分析器のパターン(あるいは、特徴値の設定又はこれらを考慮して派生したルール)に基づき、新しい単語の発生(周囲の前後関係(surrounding context)、すなわち、単語の前および/又はテキストの後と仮定する)は、特定の単語に関する推測あるいは可能性により割り当てられ、すなわち、それらの標準的な意味に基づいて分類される。このプロセスのステップ2と3について、かなりの量の研究と議論が実行されており、これらの語句を調査し最適化することは間違いなく有益なことである。しかし、提案された従来の語意明確化方法は、ステップ1と合致している。手作業によりタグ付けされたトレーニングデータの大きなセットは、語意の明確化において実行された圧倒的多数の方法により推定される。
【0028】
【特許文献1】なし
【発明の概要】
【0029】
上述の方法ならびに要求される手作業によるトレーニングデータのタグ付け自体が、検索アプリケーションについて最も大きい制限を課すことになる。具体的に言うと、様々な文脈中の各単語に関する多数の例文を含む言語資料を手作業でタグ付けする必要性は、オープンエンド検索アプリケーションの設計者に一つではなくいくつかの問題を生じさせる:
1. 長時間にわたる手作業による労働コストは、信じられないくらいの額になる。そのアルゴリズムに基づき、英語のある単語を明確化するためのトレーニングデータとして必要とされる数千の例文をタグ付けるためには、大学院の学生によって全学期という長い時間を必要とする。通常用いられる英語全体(200、000ワード)から推定するためのかかる努力は想像を絶するものである。
【0030】
2.かかる労働は、単なる労働力ではなく、言語学的に訓練された労働である。前記タグ付けは、文法、話し言葉の各部分ならびに標準的な語意を理解し、教養のある者によって実行されなければならない。このスキルは、一般のワードプロセッシングを実行するために雇われている労働者よりずっと優れていなくてはできない。この事実は、言語資料を手作業でタグ付けするため予想されるコストをさらに悪化させる。
【0031】
3.データが全てタグ付けされていたとしても、次の明確化のために適切なベースラインを提供するため、多くの語意は、言語資料中に充分な例を有していないだけである。
【0032】
4.いくつかの単語は、標準的な意味リストに載っていない意味を有している。
【0033】
5.いくつかの単語は新しく、標準的な用語集中に主要語として載っていない。
【0034】
したがって、電子文書を検索し取り込むための従来技術によるシステムおよび方法に関する制限ならびに欠点を最小化するシステムおよび方法に関し、充足されていないニーズが存在する。具体的に言うと、検索を実行する際に見逃されてしまう、関連電子文書の数を増加させるシステムおよび方法に関し充足されていないニーズが存在する。また、検索結果中への無関係な電子文書の包含数を減少させる、かかるシステムおよび方法についてのニーズが存在する。さらに、クエリに応じ、単なるキーワード検索に比べてより関連性の深い電子文書を提供する、システムおよび方法に関し、充足されていないニーズが存在する。
【0035】
上記の事情を考慮すると、本発明の効果は、検索を実行する際に見逃されていた関連電子文書の数を減少させるシステムおよび方法を提供することである。
【0036】
本発明の他の効果は、検索結果中への無関係な電子文書の包含を減少させるシステムおよび方法を提供することである。
【0037】
本発明のさらに別の効果は、クエリに応じ、単なるキーワード検索と比較してより関連性の深い電子文書を提供する、経済的なシステムおよび方法を提供することである。
【0038】
本発明のある側面によると、クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムが提供される。ある実施形態において、前記システムは、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを識別するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料を備えている。また、かかるシステムは、前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料中の前記複数の文書にインデックスを付ける単語用法パターンのインデックス、および、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析するクエリ前処理モジュールを含んでいる。かかるシステムは、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書として識別するため、前記インデックスを用い、前記候補電子文書を取り込むプロセッサを備えている。
【0039】
他の実施形態において、かかるシステムは、さらに、前記クエリの前記推定単語用法パターンと前記候補となる電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込まれた候補電子文書を分析する後処理モジュールを含んでいる。また、前記プロセッサは、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別するとともに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供する。
【0040】
他の実施形態において、前記インデックスの前記単語用法パターンは、前記パターン間の近似性に基づいてクラスタ化される。前記システムにおいて、前記クエリ前処理モジュールは、さらに、前記クエリ中の語意の明確化のため適用される。これにより、前記クエリ前処理モジュールは、さらに、ユーザから文脈情報を引き出し、ユーザから単語用法パターンを選択し、および/又は、類義語のセットを受け取り、ランク付けされた候補単語用法パターンを選択する。
【0041】
他の実施形態において、前記後処理モジュールは、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断し、前記クエリの前記単語は、当該電子文書を検索結果として提供するため、当該電子文書中において互いに所定の近似性の範囲内になければならない。また、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられる。
【0042】
前記後処理モジュールは、一致の正確性を判断する際、前記候補電子文書中の前記クエリの単語について語順を判断し、前記判断された語順の一致に基づいて、単語配置スコアを割り当てる。かかる前記後処理モジュールは、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させる。
【0043】
他の実施形態において、前記クエリ前処理モジュール、および/又は、前記後処理モジュールは、前記クエリの分野内のトピックならびにサブトピックを選択し;前記クエリの存在論的なエレメントを識別し;前記クエリ中の少なくとも1の単語についての類義語あるいは類義語のセットを選択し;前記クエリの疑問型を判断し;前記クエリ中のマルチワード表現(例えば、”オペレーティングシステム(operating system)又は”ロックンロール(rock and roll)”を識別し;前記クエリ中の固有名詞を識別し;前記クエリ中のマルチワードパターンの綴りならびに文法を訂正し;および/又は、前記クエリ中の共通の動詞ならびに形容詞の意味の分析を実行する。前記システムは、さらに、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ分析され、前記検索結果とともに有料検索コンテントを提供するよう動作可能である。
【0044】
他の実施形態において、前記クエリ前処理モジュールは、前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語を受ける第二入力領域を含み;前記クエリが属するどの分野を、前記システムが解釈しているかについてユーザへのリアルタイムの合図を提供し;前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更し;および/又は、その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促する。
【0045】
本発明のさらに別の実施形態において、電子文書について意味を検索し、検索結果を提供するためのシステムは、複数の電子文書の言語資料と、各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするタグ付けモジュールと、少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する単語用法モジュールと、ならびに、少なくとも、単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付けるインデックスモジュールと、を備えている。
【0046】
本発明の他の側面においては、クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法が提供される。ある実施形態において、かかる方法は、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを判断するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料を提供するステップを含む。また、かかる方法は、単語用法パターンならびに前記複数の電子文書の前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを提供するステップ、ユーザからクエリを受け取るステップ、ならびに、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析するステップを備えている。さらに、かかる方法は、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、前記電子文書の少なくとも一つを候補電子文書として識別するため前記インデックスを用いるステップ、および前記候補電子文書を取り込むステップを備える。
【0047】
さらに別の実施形態において、コンピュータで実行可能な方法は、複数の電子文書を含む言語資料を提供するステップ、各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするステップ、少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断するステップ、前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成するステップを含んでいる。
【0048】
本発明の他の側面によると、上述のシステムならびに方法を実行可能な命令を有するコンピュータ可読媒体が提供される。ある実施形態において、コンピュータ可読媒体は、ユーザからクエリを受け取る命令、当該クエリ中の推定される単語用法パターンを判断するため当該クエリを分析する命令、および、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けされた前記複数の電子文書中の単語用法パターンに基づいて、複数の電子文書にインデックスを付ける単語用法パターンのインデックスにアクセスするための命令を含む。また、前記媒体は、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補電子文書として識別する命令、ならびに、前記候補電子文書を取り込む命令を備えている。
【0049】
他の実施形態において、前記コンピュータ可読媒体は、複数の電子文書の言語資料にアクセスするための命令、各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けする命令、少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する命令、ならびに、前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成する命令を含んでいる。
【0050】
本発明の、これらの、ならびに、他の特徴は、添付の図面を参照すると、本発明の好ましい実施形態についての以下の詳細な説明から、より明らかとなる。
【好ましい実施形態の詳細な説明】
【0051】
図1は、クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための、本発明の一実施形態にかかる意味検索システム10の概略図を示している。上述の効果は、語意に関する言語分析に別の次元を提供する単語用法パターンの分析を含む新しい方法を用いる本発明の意味検索システム10によって達成することができる。
【0052】
図1の意味検索システム10は、どのようなタイプのハードウエア及び/又はソフトウエア、およびプログラム済みの汎用演算装置を用いて実施してもよいことを、まず最初に理解すべきである。例えば、意味検索システム10は、サーバ、パーソナルコンピュータ、ポータブルコンピュータ、シン・クライアント、あるいは、いずれの適切な装置又は複数の装置を用いて実現してもよい。意味検索システム10及び/又はそのコンポーネントは、1箇所に設けられた単一の装置又は1箇所あるいは複数箇所に設けられた複数の装置であってもよく、かかる箇所に、電線、光ファイバー、無線等のいずれかの通信媒体を介し、適切な通信プロトコルを用いて接続される。
【0053】
ここで示され、述べられている本発明にかかる意味検索システム10は、特定の機能を実行する複数のモジュールを有すると考えられることに注意すべきである。これらのモジュールは、明確化の目的のため、それらの機能に基づいて概略的に示されているにすぎず、特定のハードウエア又はソフトウエアを示しているものでないことを理解すべきである。このことから、これらのモジュールは、述べられた特定の機能を実質的に実行するハードウエアおよび/又はソフトウエアであってもよい。また、かかるモジュールを、意味検索システム10内に組み入れるようにしても、あるいは、所望される機能に基づき別モジュールに分割するようにしてもよい。したがって、図1に概略的に示されている本発明は、本発明の意味検索システム10を制限するものと解釈されるべきでなく、単に、例示的な実施形態の一つを示すものであると理解すべきである。
【0054】
図1に示された実施形態を再度参照すると、意味検索システム10は、複数の電子文書24を有する言語資料22に接続されているプロセッサ20を含んでいる。言語資料22が離れた場所に位置し、インターネット2等のネットワークを介して意味検索システム10と接続されていることを明らかにすべきである。もちろん、他の実施形態においては、言語資料22を意味検索システム10自体の内部にそのコンポーネントとして設けるようにしてもよい。
【0055】
意味検索システム10は、各電子文書24の一般的な分野、一般的なコンテント又は電子文書の対象を示したタグ/分野を識別するため、ある文書レベルにおいて、言語資料22中の複数の電子文書24をタグ付けするタグ付けモジュール28も含んでいる。ここで用いられている”電子文書”と言う用語は、フォーマット及び/又は長さに拘わらずコンピュータ可読のいずれのファイルを表していることを理解するべきである。例えば、ウエッブサイトのウエッブページ、ワープロ文書(word processing documents)、プレゼンテーション文書、表計算文書(spreadsheet documents)、PDF文書等は、全てここで述べられる電子文書の例である。
【0056】
さらに、ここで用いられている”分野”と言う用語は、他の事項の一般的な問題の分野から区別される、関連事項の一般的な問題の分野を表している。通常、ある分野は、他の関連する分野のファン(enthusiasts)および専門家から区別される、ファンと専門家の両方を持っている。ある分野は、その中のサブ分野が、他の分野において、通常、エンティティー(entities)、プロセス(processes)ならびに実体がない、又は、はるかに重要性が低いイベント、の最も重要なタイプの多数を有する、という事実によっても特徴付けられる。すなわち、前述のファンおよび専門家と同様に、分野のサブ分野は、重複しているにも拘わらず最も重要なタイプのエンティティーおよびイベントを有する、その分野中で非常に特定されたカテゴリーである。
【0057】
例えば、スポーツの分野についてを考えてみる。一つのスポーツにおける多くのファンおよび専門家は、他のスポーツにおいてもファンおよび専門家である。例えば、多くの大学のコーチは、一以上のスポーツを指導することができ、多くのアスリートは一以上のスポーツを上手にこなすことができる。特定のスポーツにおいて最も重要なタイプのエンティティーおよびイベントは、”選手”、”エージェント”、”コーチ”、”チーム”、”ゲーム”、”大学のドラフト制(college draft)”であることが多いが、それにもかかわらず、我々は自身の注意を別のスポーツ(例えばフットボールからバスケットボールに)に移す、ただし、これらの重要な実体が、それでもスポーツ分野の中の最も重要なエンティティーおよびイベントであるという事実は残る。同時に、他のドメイン、例えば、金融において、上述のスポーツに関連したエンティティーおよびイベントは、全く(又は、まれにしか)存在せず、フットボールについての専門知識(それに対する意欲)は、通常、金融の専門家またはファンであるその人には決して移入されない。このことは、通常、様々な特定のスポーツを含むスポーツ全体が、金融とは全く別の分野である一つの分野を構成することを教示する。
【0058】
図示された意味検索システム10についての実施形態によると、前記言語資料22おける前記複数の電子文書24中に存する単語用法パターンを判断する単語用法モジュール30が設けられる。この単語用法パターンの判断は、少なくとも、明確化のため、単語がどのように使用されているのか、についての糸口又はガイダンスを提供する上述の電子文書のタグの一部に基づいて行われることが好ましい。単語用法モジュール30は、パターン間の近似性に基づいて、単語用法パターンをグループ化するために適用されることが好ましい。
【0059】
ここで用いられている”単語用法パターン”と言う用語は、単語が使用された場合、あるいは、近似するパターンをグループ(クラスタ)化する場合に存する文脈情報のパターン又は構成を表している。一般に、特定の単語の使用に関連付けられた、頻繁に生じる全ての文脈情報の中又はその間には、通常、一緒により頻繁に見つけることができる特定の項目が存在する。文脈情報は、言語使用、および、そこで特定の単語が用いられた状況、例えば、文法、意味、(語意、同義語、上位語、下位語、反意語、全体語、部分語等を含む)、会話の履歴(前に何が述べられたか)、どこで単語が見つかったかという議論の分野、講演者(作家)および聴衆の双方のアイデンティティーおよびバックグラウンド、位置、ライティング又は講演の設定ならびに環境、発言の時期と千年紀(millenia)中のその相対的な配置、世紀、年、月、週および/又は日等、の合計を表す。
【0060】
例えば、1960年以前には、文書中で、”気ままな(carefree)”および”陽気な(light-hearted)”等の概念または単語と頻繁に関係していたが、1980年以降の文書中には、そのような関連がほとんど見られなくなり、その代わりに、”ホモセクシャル”および”レスビアン”と関連するようになり、1960年から1980年の間、これら2つの異なるパターンの関連が混在している、用語”ゲイ”について考えてみる。また、他の例として、米国発の文書においては、”NFL"と頻繁に結びつけられる用語”フットボール(football)”があるが、その他の地域発の文書では、この結びつきは、まれにしか使用されない。また別の例として、語句”テーク ア ブレーク(take a break)の一部として用いられる単語”テーク(take)”は、”ワーキング”(およびワーキングの同義語)ならびに”タイアード(tired)”(およびその同義語)の文脈において頻繁に用いられる。さらに別の例としては、”コラテラル ダメージ(collateral damage)”と言う語句が政府関係者により認められた文書において最も頻繁に用いられたが、ジャーナリストが書いたニュース記事では”シビリアン カジュアリティーズ(civilian casualties)”がより頻繁に見られる。
【0061】
したがって、特定の単語が用いられると、パターンとして、あるいは、構成により文脈情報が提供される。もちろん、それ自身によって提供される単語発生におけるパターンのこれらの例のいずれもが、特定の単語についての完全な/全ての単語用法パターンではない。しかし、特定の単語について多数の異なる単語発生に関する情報が得られると、かかる情報の全てを、特定の単語と関連付けられる様々な用法パターンが定義された関連グループに体系化することができる。
【0062】
上述の件について、図2は、電子文書例から導かれる単語用法パターンの例を伴うテーブル32を示している。各列は、本発明にかかる単語用法モジュール30により決定された単語用法パターンを表しており、様々な列が、特定の用法パターンの様々な情報又アスペクトを示している。したがって、パターンID7000113は、政治の分野に関連する文書中の”ブリーディング ハーティッド リベラル(bleeding hearted liberal)”と言う語句に用いられている”ブリーディング(bleeding)”と言う単語についての用法パターンを示している。これに対応して、用法パターンID7000113は、”ハーティッド(hearted)”又は”ヘディッド(headed)”と言う単語が、”ブリーディング(bleeding)”と言う単語の後にくるかもしれないことに注意を要する。また、この単語の用法パターンは、”デモクラット(democrat)”、”モデレート(moderate)”および”プログレッシブ(progressive)”等の代わりの語句、ならびに、”リベラル(liberal)”および”ザ レフト(the left)”等の共起語句(co-occurring phrases)が存在することに注意を要する。また、用法パターンID7000113の分野は、タグ付けモジュール28により前記分野の上述のタグから得られる。図のように、特定の単語用法パターンの他の様々な側面が、パターンID7000113に対応する列に表されている。
【0063】
さらに、図に示すように、テーブル32の残りの列には、”ブリーディング(bleeding)”と言う単語についての他の様々な用法パターンが示されている。もちろん、これら3つの例が、”ブリーディング(bleeding)”と言う単語についての用法パターンの完全なセットを示しているわけではなく、分析された電子文書から、単語用法モジュール30が、どのようにして単語用法パターンを生成するかについての例を提供しているに過ぎない。言語資料22の別の電子文書24は、単語用法モジュール30によって分析され、電子文書の他の単語と同様に、同じ単語について別の単語用法パターンを生成することができる。
【0064】
上述のように、これらの単語用法パターンは、特定の単語に関する様々な用法パターンを表わす、関連グループ又はクラスタに整理することができる。これについて、図3のテーブル33は、”ブリーディング(bleeding)”と言う単語についての単語用法パターンの前記グループ化又はクラスタ化を示している。図示したように、クラスタID1000101は、単語用法モジュール30による複数の電子文書の分析から決定された単語用法パターンを表す。したがって、上述のように、ここで用いられている語句、単語用法パターンは、単語用法パターンの前記グループ化又はクラスタ化をも包含すると理解されるべきである。
【0065】
また、単語用法モジュール30が、単語用法パターンを集中させるよう動作してもよいことにも注意すべきである。例えば、様々な電子文書の分析を完了すると、単語用法モジュール30は、”ピッグスキン(pigskin)”と言う単語の用法パターンが、”フットボール(football)”と言う単語についての一以上の用法パターンとかなり重複していることが判る。かかる単語用法モジュール30は、そのような例において2つの単語をともにリンクするため動作してもよい。すなわち、アメリカンフットボールで用いられるボール自体を表すために”フットボール”が用いられる特定の場合に、前記の単語は、動詞”蹴る(kick)”および形容詞”滑りやすい(slippery)”等とともに用いられることが多いという特定の用法パターンを有する。同じ種類の文書および同じ分野ならびに一部が同じ著者によるもの等において、”ピッグスキン(pigskin)”は、”蹴る(kick)”および”滑りやすい(slippery)”等とほぼ同じ付属語(attachments)を取るので、単語用法モジュール30は、用法パターンが互いに関連し、一致する単語用法パターンが集中すると結論づける。
【0066】
もちろん、”ピッグスキン”と言う単語と全く関連しない”フットボール”と言う単語には、ヨーロッパのフットボールあるいは”サッカー”に関する文書から導かれる等の他の用法パターンも存在する。したがって、上述のことから、本発明の単語用法モジュール30により決定された単語用法パターンは、単語のある用法が他の単語の語意と一致することを裏付けるために単語の様々な用法を識別するため有益であるだけなく、その周囲の前後関係を考慮して、どのような場合に、ある単語が他の単語とほぼ同義語になるかを特定することについても用法パターンが有益である、ことが明らかである。
【0067】
単語が様々な用法パターンを持つという一般的な観察は、人工知能の分野で広く受け入れられており、単語用法パターンの抽出、検出および比較について様々な代替方法があることも理解されるべきである。上述の単語用法パターンを決定するための特定の方法は、本発明の意味検索システム10を動作させるために採用可能な唯一の方法ではない。これに代え、他の実施形態においては、他の単語用法パターン決定方法を直ちに採用することができる。
【0068】
図1を再度参照すると、意味検索システム10には、単語用法モジュール30により決定された単語用法パターンに基づいて、言語資料22における複数の電子文書24にインデックスを付けるインデックスモジュール34も設けられている。これに対応して、かかるインデックスモジュール34は、図3のテーブル33に示す、複数の単語用法パターン、あるいは、かかるパターンのクラスタのインデックス付きの入力を有する単語用法パターンインデックス36を生成する。生成された単語用法パターンインデックス30、あるいは、その入力は、様々な文書IDと照合される。かかる単語用法パターンインデックス36と文書IDとの照合は、いずれの適切な照合方法およびシステムを用いて実行してもよい。その詳細については、既知の技術なのでここでは説明を省略する。
【0069】
図1に示すように、意味検索システム10には、さらに、 ユーザから検索の元となるクエリを受け取り、前記クエリと関連する言語資料22から電子文書を取り込むクエリ前処理モジュール40が設けられる。クエリ単語に関してキーワード検索が行われる従来の検索システムとは対照的に、本発明のクエリ前処理モジュール40は、以下でその詳細が説明される、クエリ中の推定される単語用法パターンを決定するため受け取ったクエリを分析する。また、図示されたクエリ前処理モジュール40の好ましい実施形態は、関連する電子文書の識別ならびに取り込みを確保できるよう、クエリの分野を判断するよう機能する。この件については、以下でその詳細をさらに説明するように、推定される単語用法パターン、クエリの分野および/又は意図する語意を判断することを促進するためデータベース74内に様々な特徴を提供してもよい。
【0070】
意味検索システム10のプロセッサ20は、クエリの推定単語用法パターンを見つけるため図2に示された、単語用法パターンインデックス36を表している。次に、プロセッサ20は、一致した単語用法パターンの下で、インデックス付きの電子文書を候補となる電子文書として認識するため、単語用法パターンインデックス36を用いる。このことは、それらの単語用法パターンのインデックスではなく、電子文書のキーワードを基にしたインデックスの使用を提案する従来のシステムならびに方法と大きく異なっている。したがって、インデックスモジュール34によってインデックスが付けられ、クエリの推定単語用法パターンと一致する単語用法パターンを有する、これらの電子文書は、候補電子文書として認識される。これらの候補電子文書は、以下でその詳細をさらに説明するように、意味検索システム10によってさらなる分析のために取り込まれる。
【0071】
図1を再度参照すると、意味検索システム10には、クエリ前処理モジュール40により決定されたクエリの推定単語用法パターンと、プロセッサ20により認識され取り込まれた候補電子文書の単語用法パターン間の一致の正確性を判断するため、取り込まれた候補電子文書を分析する、後処理モジュール46も含まれている。このとき、かかる後処理装置は、それが、どの単語用法パターンを見つけたかに基づいて、後処理モジュール46に提供される候補の結果が既にインデックスされている点で、キーワード検索エンジンで動作するよう設計された、従来の意味の後処理を行う装置を大きく超える効果を有する。このことは、電子文書の単語と元のクエリの単語との間で文脈上の意味の一致を確認する際に、大きな利益を得るとともに優位な立場に立つことととなる。図示された実施形態の後処理モジュール46は、以下で詳細が述べられる一致の正確性に基づいて、取り込んだ候補電子文書のランク付けをし、最も高いランクを有する候補電子文書を検索結果として提供する。
【0072】
さらに、図1に図示された実施形態において、プロセッサ20は、クエリ結果と一緒にデータベース50から有料検索コンテントを提供するためにも適用される。有料検索コンテントを取り入れるために様々な方法を用いてもよい。しかし、本発明の意味検索システム10は、検索クエリと関連を有する場合にのみ、有料検索コンテントが生成されることを可能にする。分野、検索クエリの語意又は単語用法パターン、言語資料及び/又は広告自体の精度が、有料のシステムならびに方法よりも高いとして知られるので、このことが可能となる。例えば、”タングステン”と言う単語については、冶金家(metallurgist)およびPDA装置メーカーの両方が、最も高いランクの広告枠(advertisement slot)を得ることができるが、かかる単語が、原料対人気のPalm(商標)携帯装置の名前という意味において使われる場合には、対応する彼らの広告が正しく表示される。このことは、文脈に拘わらず、これら二人の広告主に対し、どちらの広告を最も上の広告枠に表示するかを決定するため、入札を要求する従来の有料検索システムを超える大幅な進歩である。
【0073】
図1から図3に示された意味検索システム10についての上記説明は、様々なモジュールの一般的概略ならびに本発明の機能を提供する。以下の説明は、本発明の実施形態にかかる様々なモジュールの別の特徴に関する追加の詳細について述べ、および/又は、従来の検索システムおよび方法との相違についてさらに説明している。
【0074】
タグ付けモジュール
図1に示された好ましい実施形態において、タグ付けモジュール28は、基本的に、ある文書レベルにおいてのみ、言語資料22中の複数の電子文書24をタグ付けする。これにより、従来の検索システムおよび方法で提案された語意レベルではなく、ある文書レベルにおいてのみタグ付けされるので、従来の検索システムおよび方法を超える特定の効果を奏するとともに、労力を大きく節減することができる。こうして認識される節減は、時間とコストが現実的に制限された範囲内で行われるプロジェクトが実行できるかできないか、という違いを生じさせるほど非常に大きいものである。
【0075】
本発明の意味検索システム10は、文書レベルでのタグ付けおよび各電子文書のトピックの分野を、後処理モジュールによる分析中、電子文書中の単語用法パターンを判断するための糸口として用いることが好ましい。Yahoo(商標)、Google(商標)及びその他を含むワールドワイドウエッブ上では、既に多くの文書がインデックスされているので、利用可能な電子文書に関し、そのトピックの分野についてかなりの情報が既に存在している。また、ニューヨークタイムズ(商標)、About.com等の主要な情報発信元は、電子文書についての典型的な分野情報を提供するために用いることができる、ある種の分類法(taxonomy)を提供している。もちろん、全部の情報発信元が同じ分類法を使っているわけではない。それにも拘わらず、これらのトピックのラベルは、文書を正しくタグ付けするため、時間を節約するために役立っている。
【0076】
これに代え、他の実施形態においては、例えば、手作業により充分な例が分類されると、文書を自動的に単一トピックの分類に区別するため、多数の商業的に利用可能な文書分類器を用いることができる。これらの分類器は、上述した従来のタグ付け、特徴抽出、前に説明した調整後のテスト(train-and-test)を用いるが、さらに巨視的観点(微視的観点ではなく)から文書を見るので、これにより、要求される手間に関して、かかる手順の実行をいっそう容易にすることができる。すなわち、従来の技術で行われてる語意分析器用に同じことを実行する場合と比較すると、文書分類器用の調整データを設定するのはあまり困難なことではない。
【0077】
もちろん、他の実施形態において、タグ付けモジュール28は、従来の検索システムおよび方法で提案されているように独立した単語の語意にタグ付けする等、他のタグ付け機能を実行するため選択的に用いることもできる。しかし、文書中の独立した単語の全てにタグ付けすることは、上述の様々な不利益を生じさせることになるので、好ましくない。
【0078】
インデックスモジュール
従来技術のキーワード検索エンジンは、単語のインデックスを中心に展開するが、本発明にかかる意味検索システム10の好ましい実施形態は、そうではない。それに代え、本発明の意味検索システム10は、文書IDに関連づけられた単語用法パターンのIDからなる、生成された単語用法パターンインデックス36を用いて検索を実行する。これにより、後になって行うのではなく、検索自体とほぼ同時に単語の意味変化へのアクセスが実行されるので、驚異的な速度の節約(speed savings)を提供することになる。
【0079】
もちろん、インデックスモジュール34は、検索結果として与えられる電子文書の関連性を改良するよう利用可能な検索基準をさらに向上させるため、標準的な意味の数(canonical sense numbers)に基づき、言語資料22中の複数の電子文書24を索引付けするために動作してもよい。ただし、語意に基づく前記インデックスは、上述した様々な欠点を有している。
【0080】
クエリ前処理モジュール
上述のように、クエリ前処理モジュール40は、ユーザのクエリを受け取り、クエリ中の推定される用法パターンを決定するため、かかるクエリを分析する。前記ユーザのクエリは、単語の使い方を導き出すため、ある意味概念において、個別的又は確率的のいずれかを意味するよう位置づけられる。前記クエリの推定単語使用パタンーンが決定されると、本発明の意味検索システム10は、既に述べたように、単語用法パターンインデックス36を参照することにより、クエリを満足させる言語資料22から電子文書を検索し、取り込む。
前記クエリから、常に正確な単語用法パターン情報が抽出される訳ではないことが理解されるべきである。クエリ前処理モジュール40による上記分析は、役に立ちそうであるが、クエリは文書全体(あるいはその大部分)よりも短いという簡単な理由から、その一部のみが役に立つだけである。最小の文脈情報が提供されるだけであるので、かかる短い文章では単語用法パターンは不明確である。また、通常、電子文書は、かかる情報に基づき単語用法パターンの分析機能を強化するよう、文書の主題およびコンテントについて、いくつかの糸口を提供するそれ自体に関する分野情報を有しているが、ユーザのクエリには、それに関するかかる分野情報が欠落している場合が多い。かかる場合においては、関連する電子文書を識別し、検索結果として取り入れることができるよう、少なくともクエリの分野を決定するために、追加の情報を得ることが好ましい。単語用法パターンと一致するクエリ自体の中に文脈上の単語が存在する場合であっても、クエリを分析し、クエリ中の推定単語用法パターンを決定するため、前処理モジュールにより予測情報を抽出することができる。
【0081】
上述の制限を考慮すると、意味検索システム10のクエリ前処理モジュール44は、クエリの一般的分野を識別するようクエリを明確化するために動作することが好ましい。分野を明確化することは、関連するクエリ結果を識別し提供するため有益であり、クエリの語意を決定し、語意に基づいてクエリの分野を決定するのと比べると簡単なタスクである。人間は、通常、同じ主題の同じトピックの同じ単語の意味について言葉を濁すことはない。このことは、他の方法で意思疎通することが困難であることから、理にかなっている。したがって、もし可能であれば、分野の識別を実行することは、実際に実現することが困難な語意を判断する分析を開始することなく、クエリ中のどの語意を意図しているのかについて最も強い糸口を提供することになる。
【0082】
具体的に言うと、分野の明確化は、クエリ中の各単語の語意の”分析(dissecting)"よりも広範囲であり、かつ一般的であるので、このことは本質的に簡単なタスクであると結論づけるには理由があり、したがって、分析を開始するのに賢明な場所(prudent place)である。この事実は、従来の用語集(lexicons)中の異なる標準的な語意における分野の分類を検査することにより、ついでに(anecdotally)示されており、通常、いずれの分野にも全く割り当てられないいくつもの語意が存在することはない。これは、クエリの全体を通じて語意を決定する際には、いくつかの判断が行われることを意味する。
【0083】
これとは対照的に、通常、クエリの分野を決定する際には、1回の判断を行うだけでよい。分野の明確化は、より少ない判断しか必要としない(すなわち、数回ではなく、1回)ので、これらの事実だけでも、クエリの単語の分野の認識は、クエリの各単語の語意を直接明確化する試みよりも簡単でなければならないことが判る。さらに、特定の単語について、通常、一つの分野は、一つの意味を用いるが、一つの単語は、通常、いくつかの候補となる分野を表す点で、分野から単語への照合の際に非対称である。これに対応して、必要であれば、単語の分野を決定するために、まず語意の明確化に進むのではなく、単語の分野を既に決定した後に語意の明確化に取り組むのがより有益である。
【0084】
上述の件について、クエリ前処理モジュール40が、単語用法パターン及び/又はドメインについてクエリの単語を分析する可能性を増大させるため、意味検索システム10のデータベース74内に様々な追加のツールあるいは特徴を提供してもよい。例えば、クエリの分野内のトピックおよびサブトピックを選択し、クエリの存在論的なエレメントを識別し、一以上のクエリの単語に関する同義語あるいは一連の同義の語を選択し、クエリの疑問の型(どこ−型疑問、誰−型疑問、どのように−型疑問等)を決定し、及び/又は、クエリ中のマルチワードタームを認識するようにデータベース74のツールを用いるため、クエリ前処理モジュール40を動作させるようにしてもよい。クエリ中の固有名詞、正しい綴りならびにクエリ中のマルチ単語パターンの文法を認識し、および/又は、クエリ中の共通の動詞ならびに形容詞の意味の分析を実行するようにデータベース74のツールを用いるよう、クエリ前処理モジュール40を動作させるようにしてもよい。
【0085】
かかるツールは、業界で利用可能なHTML構文解析ツール(HTML parser)、単語頻度分析器(word frequency analyzer)、固有名詞識別器(proper name identifier)、単語使用プロファイラ(word usage profiler)、意味類似値(semantic resemblance measures)等である。例えば、業界で利用可能な固有名詞識別モジュールが数多く存在し、どれを使っても大差がない。HTML構文解析ツールならびに他の低いレベルのモジュール/ツール(lower-level modules/tools)についても同様のことが言える。クエリ前処理モジュール40は存在論的な識別(ontological distinctions)についての認知をテキスト中に提供するツールデータベース74から、かかるツール/特徴を呼び出すよう動作することが好ましい。これらの識別は、クエリ中に、人物(Person)、場所(Place)、物事(Thing)、アイデア(Idea)、イベント(Event)、行動(Action)、プロセス(Process)、マナー(Manner)、品質(Quality)、数量(Quantity)、関係(Relation)、スペース(Space)、時間(Time)、原因(Cause)、理由(Reason)、事柄(Matter)、形式(Form)の概念が存するかどうかついての糸口を提供するため順番に用いることができる。したがって、これらの特徴/ツールは、クエリの分析精度を向上させるため、クエリ前処理モジュール40により用いることができる。例えば、意味検索システム10は:
・”ゴルフクラブを構成する異なる材料は何であるか?”は物事についてのクエリであるか;
・”1971年当時の国務省長官はだれであったか”は人物についての質問であるか;
・”次の日食はいつ起こるのか”は時期についての質問であるか等、を判断するため動作してもよい。
【0086】
異なるクエリ単語の意味の特定の組み合わせが検索スペース内に一緒に表示されないので、関連する電子文書の検索が終了すると、常に、クエリ内に残された曖昧さを取るに足りないこととすることが可能である。例えば、”バンク・オブ・ウイリアムス(Bank of Williams)”について考えると、本発明にかかる意味検索システム10は、意味3(飛行機が旋回する(turning an aircraft))ならびに意味4(発射体が跳飛する(ricocheting projectile))を排除するが、意味1および2(金融機関ならびに川の端(financial institution and edge of river))をそのまま残す。いま、この世界(および検索の範囲)で、”ウイリアムス”と呼ばれる川があり、”ウイリアムス”と名づけられた金融機関は存在しない、あるいは、逆に、”ウイリアムス・セービングス・アンドローン”は存在するが、”ウイリアムス”と呼ばれる川は存在しないと仮定する。これらのいずれの場合においても、あいまいさがあったとしても、本発明のシステムにより固有名詞が発見され、検索結果の最上位に提示される。しかし、”ウイリアムス”と呼ばれる川および金融機関の両方が存在する場合、人間にとってはクエリ中に十分な情報がないので、言うまでもなく自動検索アプリケーションに単語の正しい意味を判断させる。このような場合、前記システムは、クエリの単語の語意を決定するための追加情報を用いて、混合した意味(すなわち、検索結果中の電子文書の両種類を混合しなければならない)に基づいて検索結果を提示し、あるいは、決定についてユーザに催促しなければならない。
【0087】
ユーザによる決定が必要とされる、かかる例を考慮するにあたり、クエリ前処理モジュール40は、クエリ前処理モジュール44によるクエリの正確な分析の可能性を増大させるとともに、ユーザによりクエリを入力し易くするため適用されたユーザインターフェースとともに動作することが好ましい。さまざまな実施形態において、ユーザインターフェースは、異なる動作を実行してもよく、以下に開示する実施形態は、かかる例について効率的なインターフェースを提供する。
【0088】
ある実施形態において、ユーザインターフェースは、クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語を受ける第二入力領域を有して動作してもよい。前記文脈の糸口となる単語は、クエリの単語と同様に単語用法パターンについて直接分析されないことが好ましいが、その代わり、クエリの単語中の不明確さを明確にするため用いられ、例えば、クエリの単語用法パターンの分析後に、可能性のある2つの分野が存在していた場合であっても適切な分野を決定することを可能にする。
【0089】
他の実施形態において、ユーザがクエリを入力すると、クエリが属するどの分野をシステムが解釈しているかについてリアルタイムの合図をユーザに対して提供するよう、ユーザインターフェースを適用するようにしてもよい。例えば、分野についてのジャバスクリプトによる時系列的な表示とともに先進的結果を示し、検索を抑制する用法パターンのクラスタを任意に表示するため、ユーザインターフェースを動作させてもよい。例えば、ユーザが、クエリを提出すると、”「クラスタ番号」についての・・・「分野の名前」を検索”と述べる確認表示を表示するようにしてもよい。このタイプの確認を用いることにより、ユーザがどの程度クエリ提出プロセスに進むことができるのか、ならびに、進まなければならないのかについて、目立たない方法で少しずつユーザを教育するのに役立つ。かかるユーザインターフェースは、ユーザに、どこ、および、どのコンテントについて意味検索システム10が検索を行っているかについて効率的に表示し、これにより、検索結果をより辛抱強く待つことができるようにする。
【0090】
さらに他の実施形態において、クエリ前処理モジュール40のユーザインターフェースは、第一の色でクエリの単語を表示し、クエリの各単語が明確化された場合に前記第一の色を第二の色に変更するよう動作するようにしてもよい。例えば、単語があいまいな場合には赤色で表示し、単語が少しあいまいな場合には黄色で表示し、明確化された単語を緑色で表示するようにしてもよい。したがって、ユーザがより多くの単語をクエリに入力すると、それにより追加された文脈情報は、明確化がなされると、より多くの単語を黄色から緑色に変化させる効果を有する。
【0091】
クエリ単語の基本的な分析が、まだ曖昧さを残していることを示している場合 クエリ前処理モジュール40のユーザインターフェースは、判断および/又は明確化のため、文脈情報をシステムのユーザから直接導き出すよう動作してもよい。例えば、上述の実施形態において、クエリの入力完了後、前記単語が全て緑色あるいは黄色になり、赤色が無くなるまで、ユーザに”入力を続けてください”と催促するようにしてもよい。もちろん、ユーザに対し、その明確化を促進するため、クエリに関連する追加の単語の入力を原文通りに続けるよう催促することにより、同様の効果を達成することができる。また、他の実施形態において、クエリ前処理モジュール40は、単語用法パターン又は同義語のセットをユーザに表示し、表示されたものに最も関連の深い単語用法パターンあるいは同義語をユーザに選ぶことを要求するよう動作してもよい。さらに、他の実施形態においては、ユーザに単語用法パターンを提供し、蓋然性又は人気度の順番でランク付けし、ユーザに適切な単語用法パターンを選ぶよう要求するようにしてもよい。
【0092】
本発明のかかる意味検索システムの大きな効果の一つは、キーワード又は認められた語意に代えて、基本的に単語用法パターンに基づいて検索を実行することが好ましいので、本発明は、単語の非標準的な意味も明確化する。具体的には、単語の用法パターンを決定し用いることにより、本発明は、独自の単語用法パターンを有するこれらの意味のおかげにより、標準的なソースにまだ含まれていない単語の特徴的な意味を含めることを可能にする。上述の説明例の語句”ブリーディング ハーティッド リベラル(bleeding hearted liberal)”と言う語句において用いられている単語”ブリーディング(bleeding)”を再び参照する。”ブリーディング ハーティッド リベラル(bleeding hearted liberal)”が標準的なソース中の見出し語として利用可能でなく、分野ベース、文書レベルのタグ付けが実行され、例えば、各文書に、金融、スポーツ、芸能等の分野に存するか否かについて記号を付けると仮定する。これらのエレメントを一緒にすることにより、意味検索システム10は、”政治”と言う分野に分類された文書中の頻度、”ハート リベラル(heart liberal)”と言う語句の左側に頻出し、特定の軽蔑語(pejorative)として存在し、ならびに特定の論争的な言語に存在する”ブリーディング(bleeding)”と言う単語を見つけるよう機能する。これは、特徴的な語用法パターンを構成し、それ自体、この意味に関して英語の辞書中に標準的に制定された”ブリーディング(bleeding)”と言う単語の”意味(sense)”が技術的に無いにもかかわらず、インデックス付きの入力として作成される。
【0093】
後処理モジュール
前に述べたように、意味検索システム10の後処理モジュール46は、クエリの推定される単語用法パターンと候補電子文書の単語用法パターン間の一致の正確性を判断するため、プロセッサ20により確認され取り込まれた候補電子文書を分析する。この件について、一致の正確性を判断するため、取り込まれた候補文書又はその一部についてのクエリモジュールについて上述の分析は、後処理モジュール46によって実行することもできる。
【0094】
また、かかる後処理モジュール46は、一致の正確性を判断するために候補電子文書として取り込まれた複数の文書の分析を強化するため、データベース74からの上述の様々なツールおよび特徴を同様の方法で用いるよう動作することが好ましい。具体的に言うと、後処理モジュール46は、存在論的なエレメントを識別し、候補電子文書中の同義語又は同義語のセットを選択し、候補電子文書中の固有名詞を認識し、候補電子文書中の複数の単語パターンの綴りおよび文法を訂正し、および/又は、候補電子文書中の共通の動詞ならびに形容詞の意味分析を実行するよう動作してもよい。
【0095】
図示された実施形態において、意味検索システム10の後処理モジュール46は、一致の正確性を判断するため、候補電子文書中のクエリの単語相互の近似性を判断するよう動作することも好ましい。候補電子文書とクエリとの関連性が薄く検索結果として提供してはいけないことを表す、互いに離れて除去されるようなものではなく、候補電子文書中で互いに密接な関係であると判ったクエリ単語を有することがより好ましい。したがって、後処理モジュール46は、意味検索システム10により電子文書を検索結果として提供するため、クエリの単語が、電子文書中において互いに所定の近似範囲内にあることを要求するよう、図示された実施形態においてさらに動作する。
【0096】
単語の近似性の分析において、後処理モジュール46は、形式が異なる単語について2又は3の異なるサイズの近似性の区間を採用するよう動作することが好ましい。例えば、要求された近似性の範囲内にあるものとしてカウントするため、その目的語に対し、より近似性が高いもの、あるいは、特別のパターンを見つけるため前置詞句が求められる。しかし、演技の時間、マナー、ならびに場所を勘案すると、それらの間で多くの適切な語句が存在する場合、俳優が語る言葉(actor words)は、どちらかと言うと彼らの演技および目的から離れていてもよい。したがって、既述された方法においては、後処理モジュール46により、異なる近似性の範囲に異なる形式のクエリ単語が割り当てられる。
【0097】
また、図示された実施形態によると、一致の正確性を判断する際、後処理モジュール46によって候補電子文書中の語順が用いられる。上述の件について、後処理モジュール46は、決定された語順の一致又はその不足に対応する単語配置スコアを割り当てる。語順を利用する特に強力な方法の一つは、ファジー列照合と同じであるが、各文字が単語を表しているファジー結合チェック(fuzzy conjugation check)を実行することである。例えば、”ジェームス ソルド ア チェア アット ザ オークション(James sold a chair at the auction)”と言う文は、”ジェームス ハッド ア チェア ザット ワズ ソルド アット ザ オークション(James had a chair that was sold at the auction)”と非常に強いファジー語順一致を有していることが判る。これにより、従来の大部分の検索エンジンの場合のように、それらを廃棄するのではなく、特定の文脈において重要性を持たせつつ、意味検索システム10が、機能語(例えば、"a", "the"等)をカウントすることを可能にする。
【0098】
文章中の一部の正しい語順で配された単語間に生じた間隔が存在し又は単語が介在することについて、認識し、対応しなければならない。例えば、クエリが”一番下までボタンのナイトガウン(nightgown that buttons all the way down)”であり、意味検索システム10が、”ナイトガウン(nightgown)”、30の介在語(30 intervening words)、さらに、”一番下までボタンの(buttons all the way down)”を見つけた場合、かかるシステムは、かなり高いファジー単語配置スコアをカウントする必要がある。これは、全ての重要なクエリ単語を有する段落中の始点と終点のセット(set of begin-and-end points) を特定し、クエリに対する比較のためにファジー結合を用いて、この一連の単語を分析することによって説明される。これに対応して、後処理モジュール46は、本実施形態において介在する単語の数が増加すると、単語配置スコアを減少させるようさらに動作する。単語配置スコアが減少する量は、例えば、分解係数(decay factor)を用いて、できれば次第に減少させることが好ましい。
【0099】
有料検索コンテント
図1に示した実施形態においては、検索結果とともに有料検索コンテントを提供するためプロセッサ20をさらに適用してもよい。本発明の意味検索システム10による検索エンジンのマーケティングは、(1)ある概念について入力されたクエリを分析するレベル;(2)言語資料を分析するレベル;および/又は(3)広告主の広告文書を分析するレベル、の少なくとも3つのレベルで実行することができる。実際の語意又は用法を推測する能力は、単語に基づいて広告料を支払う代わりに、それがどう言った意味で使われるかに関係なく検索クエリに関連する場合にのみ広告主が支払うことができ、彼らの広告を表示する点で、3つ全てのレベルで明らかに有益である。この件について、好ましい実施形態においては、有料検索コンテントを分析し、有料コンテントが、クエリの単語用法パターンと一致する単語用法パターンを有すると判断された場合にのみ、検索結果とともに提供するようにしてもよい。
【0100】
したがって、上で詳述したように、本発明の意味検索システム10は、単語の標準的な意味に基づく技術において提案された従来のシステムおよび方法において要求される手作業によるタグ付けをする必要がなく、単語の異なる用法に関連する系列的なパターンを動的に生成することができる。好ましい実施形態において、意味検索システム109は、各単語あるいは語句について単語用法パターンの動的なグループを生成する。本発明の意味検索システム10および方法は、従来技術で提案されているように、基本的に、意味から始め、これらの意味を考慮してテキストコーパス(text corpus)を分析するのではなく、言語資料から開始し、言語資料中の言語学上の特徴分布に基づいて用法のグループを工夫する(devises)という点で、提案された従来のシステムおよび方法と異なる。
【0101】
単語用法パターンに基づいており、意味検索システム10は、存在する単語の用法を含む関連する検索結果を提供可能であるとともに、標準的意味に拘束されないという点で、本発明は、提案された従来の検索システムならびに方法を超えて有利である。したがって、本発明のシステムは、全く新しい検索パラダイムを形成するために用いることができる。具体的に言うと、本発明の意味検索システム10ならびに方法は、語意を明確化することを基本にした技術において提案されているほとんどのシステムならびに方法のように、標準的な意味に拘束されることがない。このことは、語意の標準的なリストが、単語の日常の用法について、不完全きわまりないと言う点で、重要な効果である。本発明のシステムは、標準的なものに限定する代わりに、潜在的に識別可能ないずれの語意をも見つけ、認識することができる。
【0102】
また、かかるシステムは、言語学上の成果、ある場合には、個人が一時的使用する用法(idiolectical usages)(すなわち、誰かの固有の言い回し、例えば、ある個人のウエッブサイトだけで見つかる新しい、あるいは、即興的に作られた単語または用法)を、それらが標準となる前に迅速に認識することができる。例えば、誰かが、”インフォテイメント(infotainment)”と言う単語を最初に使った場合を考えてみる。これに対応して、本発明の意味検索システム10は、標準的な意味に限定されるいずれの方法で要求されるように、テキストコーパスの重要な部分を意味的に照合しないまま残すことを要求されない。これに代え、本発明のシステムは、充分な例が与えられている言語資料中の各単語又は語句を意味的に照合することができる。
【0103】
もちろん、意味検索システム10についての上述の好ましい実施形態を変更しても、あるいは、他の実施形態において異なった動作をさせてもよい。この件について、本発明では、ユーザ側に対し簡単な入力を要求することにより、高速な検索をするよう動作させてもよい。具体的に言うと、本発明のシステムならびに方法は、クエリに応じ、まずキーワード検索を実施するよう動作させてもよい。クエリの特定の単語について深い一致が見つからなかった場合、かかる単語について述べたように、同義語のセット又は単語用法パターンを用いてクエリを分析するようシステムを動作させてもよい。もちろん、このことは、上述の用法パターンインデックスと並列である別のキーワードインデックスを必要とする。これにより、多数の検索を通じて平均応答時間が早くなる。
【0104】
リアルタイム速度での検索を行うための他の代替的な動作においは、従来のキーワード型検索に基づいて識別され取り込まれた電子文書の後処理についてのみ、本発明に基づく用法パターン分析を用いる。これにより、キーワード検索自体よりも正確かつ高精度ではあるが、正確さならびに精度を犠牲にして、処理速度をさらに高速にすることが可能となる。
【0105】
また、本発明の上記実施形態は、用法パターンインデックスに由来するとして記載されていたが、他の実施形態においては、各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書中の単語用法パターンを判断するため、少なくともタグの一部に基づき分析された複数の電子文書を既に含む言語資料を提供してもよい、ということも理解されるべきである。さらに、単語用法パターンに基づき、言語資料中の前記複数の文書にインデックスを付ける単語用法パターンのインデックスを、前もって提供してもよい。したがって、かかる実施形態による意味検索システムは、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを判断するためクエリを分析するクエリ前処理モジュール、ならびに、前記クエリ中の推定される単語用法パターンと一致する単語用法パターンを有する、前記電子文書の少なくとも一つを候補となる電子文書として識別し、取り込むため、前記インデックスを用いるプロセッサを含んでいる。
【0106】
前記のように、本発明の他の側面は、コンピュータ可読媒体に記憶された電子文書についての意味検索用の、コンピュータによる実行方法を提供し、クエリに応じて検索結果を提供することである。図4は、ある実施形態に基づく方法を示す概略的なフロー図100を示している。図示したように、かかる方法は、ステップ102において、複数の電子文書の言語資料を提供するステップ、ステップ104において、各電子文書の一般分野を識別するため、ある文書レベルにおいて言語資料中の複数の電子文書にタグ付けするステップ、を含んでいる。また、図示された方法は、ステップ106において、複数の電子文書のタグの少なくとも一部に基づき、言語資料における複数の電子文書中の単語用法パターンを判断するステップ、ならびに、ステップ108において、単語用法パターンに基づき、言語資料中の複数の文書にインデックスを付ける単語用法パターンのインデックスを生成するステップ、も含んでいる。
ステップ110においては、ユーザからクエリが受け取られ、クエリ中の候補となる単語用法パターンを導き出すため、分析される。ステップ112において、生成されたインデックスは、クエリ中の推定単語用法パターンと一致する単語用法パターンを有する電子文書を識別し、候補電子文書として取り込むために用いられる。ステップ114において、受け取られた候補電子文書は、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため分析される。
【0107】
さらに別の実施形態において、前記方法は、各電子文書の一般分野を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書中の単語用法パターンを判断するため、少なくともタグの一部に基づき分析される複数の電子文書を含む言語資料を提供するステップを含む。また、単語用法パターンに基づいて言語資料中の前記複数の文書にインデックスを付けるインデックス単語用法パターンのインデックスも提供される。本発明によると、かかる方法は、ユーザからクエリを受け取るステップ、クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するステップ、クエリ中の推定単語用法パターンと一致する単語用法パターンを有する電子文書を、候補電子文書として認識するためインデックスを用いるステップ、ならびに、候補電子文書を取り込むステップとを含む。
【0108】
また、さらに別の側面によると、本発明は、コンピュータソフトウエアプログラムとして実施される。この関連で、上記システム又は方法を実施するため、実行可能な命令を有するコンピュータ可読媒体が提供される。
【0109】
本発明による様々な実施形態が示され、説明されているが、かかる発明はこれに限定されないということが理解される。本発明は、当業者により、変更され、修正され、さらに適用されるようにしてもよい。したがって、本発明は、前に示され、説明された詳細に限定されず、かかる変更および修正をも含む。
【図面の簡単な説明】
【0110】
【図1】図1は、本発明の一実施形態にかかる意味検索システムの概略図を示す。
【図2】図2は、サンプルの電子文書から図1の意味検索システムを用いて得られた単語用法パターンの例を示す。
【図3】図3は、単語用法パターンインデックスの部分例である。
【図4】図4は、本発明の一実施形態にかかる方法の概略フローチャートである。

【特許請求の範囲】
【請求項1】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムであって、
各電子文書の一般的な分野(general domain)を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを識別するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料(corpus)と、
前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける(indexes)単語用法パターンのインデックスと、
ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するクエリ前処理モジュールと、ならびに、
前記クエリ中の前記推定される単語用法パターン(probable word usage patterns)と一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書(candidate electronic document)として識別するため、前記インデックスを用い、前記候補電子文書を取り込むプロセッサと、
を備えたこと、
を特徴とするシステム。
【請求項2】
請求項1のシステムであって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込まれた候補電子文書を分析する後処理モジュールを含むこと、
を特徴とするシステム。
【請求項3】
請求項2のシステムにおいて、前記プロセッサは、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別すること、
を特徴とするシステム。
【請求項4】
請求項3のシステムにおいて、前記プロセッサは、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供すること、
を特徴とするシステム。
【請求項5】
請求項1のシステムにおいて、前記インデックスの前記単語用法パターンは、前記パターン間の近似性に基づいてクラスタ化されること、
を特徴とするシステム。
【請求項6】
請求項1のシステムにおいて、前記クエリ前処理モジュールは、さらに、前記クエリ中の語意の明確化(disambiguate word sense)のため適用されること、
を特徴とするシステム。
【請求項7】
請求項6のシステムにおいて、前記クエリ前処理モジュールは、さらに、ユーザから文脈情報を引き出し、ユーザから単語用法パターンを選択し、あるいは、類義語のセットを受け取り、ランク付けされた候補単語用法パターンを選択すること、の少なくとも一つを実行すること、
を特徴とするシステム。
【請求項8】
請求項6のシステムにおいて、前記クエリ前処理モジュールは、さらに、
前記クエリの分野内のトピックならびにサブトピックの選択、
前記クエリの存在論的なエレメント(ontological element)の認識、
前記クエリ中の少なくとも1の単語についての類義語あるいは類義語のセットの選択、
前記クエリの疑問型の判断、
前記クエリ中のマルチワード表現(multiword term)の識別、
前記クエリ中の固有名詞(proper name)の識別、
前記クエリ中のマルチワードパターンの綴りならびに文法の訂正、および
前記クエリ中の共通の動詞ならびに形容詞の意味の分析の実行、の少なくとも一つを実行すること、
を特徴とするシステム。
【請求項9】
請求項2のシステムにおいて、前記後処理モジュールは、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断すること、
を特徴とするシステム。
【請求項10】
請求項9のシステムにおいて、前記クエリの前記単語は、当該電子文書を検索結果として提供するため、当該電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とするシステム。
【請求項11】
請求項10のシステムにおいて、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とするシステム。
【請求項12】
請求項2のシステムにおいて、前記後処理モジュールは、一致の正確性を判断する際、前記候補電子文書中の前記クエリの単語について語順を判断すること、
を特徴とするシステム。
【請求項13】
請求項12のシステムにおいて、前記後処理モジュールは、前記判断された語順の一致に基づいて、単語配置スコア(word placement score)を割り当てること、
を特徴とするシステム。
【請求項14】
請求項13のシステムにおいて、前記後処理モジュールは、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させること、
を特徴とするシステム。
【請求項15】
請求項2のシステムにおいて、前記後処理モジュールは、さらに、
前記候補電子文書中の存在論的なエレメントの認識、
前記候補電子文書中の類義語あるいは類義語のセットの選択、
前記候補電子文書中のマルチワード表現の識別、
前記候補電子文書中の固有名詞の識別、
前記候補電子文書中のマルチワードパターンの綴りおよび文法の訂正、ならびに
前記候補電子文書中の共通の動詞ならびに形容詞の意味の分析の実行、の少なくとも一つを実行すること、
を特徴とするシステム。
【請求項16】
請求項1のシステムにおいて、前記プロセッサは、さらに、検索結果とともに有料検索コンテントを提供するため適用されること、
を特徴とするシステム。
【請求項17】
請求項16のシステムにおいて、前記有料検索コンテントは、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ、分析され、前記検索結果とともに提供されること、
を特徴とするシステム。
【請求項18】
請求項1のシステムにおいて、前記クエリ前処理モジュールは、
前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語(context clue words)を受ける第二入力領域の提供、
前記クエリが属するどの分野を前記システムが解釈しているかについてユーザへのリアルタイムの合図の提供、
前記クエリを第一の色で表示し、前記クエリが明確化された場合における、前記第一の色の第二の色への変更、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けてもらうための前記ユーザへの催促、の少なくとも一つに適用されるユーザインターフェースを含むこと、
を特徴とするシステム。
【請求項19】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法であって、
各電子文書の一般的な分野(general domain)を識別するため、ある文書レベルにおいてタグ付けられ、前記複数の電子文書における単語用法パターンを判断するため、少なくとも前記タグの一部に基づいて分析された複数の電子文書を含む言語資料を提供するステップと、
前記複数の電子文書の単語用法パターンならびに前記分野のタグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける(indexes)単語用法パターンのインデックスを提供するステップと、
ユーザからクエリを受け取るステップと、
当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するステップと、
前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記インデックスを用いるステップと、ならびに、
前記候補電子文書を取り込むステップと、を備えたこと、
を特徴とする方法。
【請求項20】
請求項19の方法であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析するステップ、を備えたこと、
を特徴とする方法。
【請求項21】
請求項20の方法であって、さらに、一致する単語用法パターンを有すると判断された複数の候補電子文書を識別するステップを含むこと、
を特徴とする方法。
【請求項22】
請求項21の方法であって、さらに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供するステップを含むこと、
を特徴とする方法。
【請求項23】
請求項19の方法において、前記言語資料の前記複数の電子文書は、ある文書レベルにおいて基本的にタグ付けされること、
を特徴とする方法。
【請求項24】
請求項19の方法であって、さらに、前記パターン間の近似性に基づいて、前記インデックスの前記単語用法パターンをクラスタ化するステップを含むこと、
を特徴とする方法。
【請求項25】
請求項20の方法であって、さらに、前記クエリ中の語意を明確化するステップを含むこと、
を特徴とする方法。
【請求項26】
請求項25の方法において、前記クエリを分析するステップは、ユーザから文脈情報を導き出すステップ、ユーザから単語用法パターンの選択、あるいは、類義語のセットを受け取るステップ、ランク付けされた候補単語用法パターンを選択するステップ、の少なくとも一つを含むこと、
を特徴とする方法。
【請求項27】
請求項25の方法において、前記クエリを分析するステップならびに前記候補電子文書を分析するステップは、
分野内のトピックならびにサブトピックを選択するステップ、
存在論的なエレメントを識別するステップ、
類義語あるいは類義語のセットを選択するステップ、
疑問型を判断するステップ、
マルチワード表現を識別するステップ、
固有名詞を識別するステップ、
前記クエリ中のマルチワードパターンの綴りならびに文法を訂正するステップ、および
前記クエリ中の共通の動詞ならびに形容詞の意味の分析を実行するステップ、の少なくとも一つを含むこと、
を特徴とする方法。
【請求項28】
請求項25の方法において、前記候補電子文書の一致の正確性を判断する前記ステップは、前記候補電子文書中の前記クエリの単語相互の近似性を判断するステップを含むこと、
を特徴とする方法。
【請求項29】
請求項28の方法において、前記クエリの前記単語は、検索結果として提供するため、前記電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とする方法。
【請求項30】
請求項29の方法において、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とする方法。
【請求項31】
請求項20の方法において、前記候補電子文書の一致の正確性を判断する前記ステップは、語順の一致を判断するステップを含むこと、
を特徴とする方法。
【請求項32】
請求項31の方法において、語順の一致を判断するステップは、前記判断された語順の一致に基づいた単語配置スコアの割り当てを含むこと、
を特徴とする方法。
【請求項33】
請求項32の方法において、前記候補文書中の前記クエリの単語と間に介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させること、
を特徴とする方法。
【請求項34】
請求項19の方法であって、さらに、前記検索結果とともに有料検索コンテントを提供するステップを含むこと、
を特徴とする方法。
【請求項35】
請求項34の方法において、前記有料検索コンテントは、当該有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有する場合にのみ分析され、前記検索結果とともに提供されること、
を特徴とする方法。
【請求項36】
請求項19の方法であって、さらに、
前記クエリ入力を受ける第一入力領域、ならびに、文脈の糸口となる単語を受ける第二入力領域を生成するステップ、
前記クエリが、どの分野を検索しているかについてリアルタイムの合図を提供するステップ、
前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更するステップ、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促するステップ、の少なくとも一つを含むこと、
を特徴とするシステム。
【請求項37】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのシステムであって、
複数の電子文書の言語資料と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするタグ付けモジュールと、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する単語用法モジュールと、ならびに
少なくとも、単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付けるインデックスモジュールと、を備えたこと、
を特徴とするシステム。
【請求項38】
請求項37のシステムであって、さらに、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析するクエリ前処理モジュールを含むこと、
を特徴とするシステム。
【請求項39】
請求項38のシステムであって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する、少なくとも一のインデックス付き電子文書を、候補となる電子文書として識別し、当該候補電子文書を取り込むプロセッサ、を含むこと、
を特徴とするシステム。
【請求項40】
請求項39のシステムであって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析する後処理モジュールを含むこと、
を特徴とするシステム。
【請求項41】
請求項38のシステムにおいて、前記クエリ前処理モジュールは、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化すること、
を特徴とするシステム。
【請求項42】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するためのコンピュータで実行可能な方法であって、
複数の電子文書を含む言語資料を提供するステップと、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けするステップと、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断するステップと、ならびに
前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成するステップと、を備えたこと、
を特徴とする方法。
【請求項43】
請求項42の方法であって、さらに、ユーザからクエリを受け取り、前記クエリにおいて推定される単語用法パターンを導き出すために前記クエリを分析するステップを含むこと、
を特徴とする方法。
【請求項44】
請求項43の方法であって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記生成されたインデックスを用いるステップ、ならびに、前記候補電子文書を取り込むステップを含むこと、
を特徴とする方法。
【請求項45】
請求項44の方法であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析するステップを含むこと、
を特徴とする方法。
【請求項46】
請求項43の方法であって、さらに、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化するステップを含むこと、
を特徴とする方法。
【請求項47】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための実行命令を有するコンピュータ可読媒体であって、
ユーザからクエリを受け取る命令と、
当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析する命令と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいてタグ付けされた前記複数の電子文書中の単語用法パターンに基づいて、複数の電子文書にインデックスを付ける単語用法パターンのインデックスにアクセスするための命令と、
前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを、候補となる電子文書として識別する命令と、ならびに
前記候補電子文書を取り込む命令と、を備えたこと、
を特徴とする媒体。
【請求項48】
請求項47のコンピュータ可読媒体であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記候補電子文書を分析する命令、を含むこと、
を特徴とする媒体。
【請求項49】
請求項48のコンピュータ可読媒体であって、さらに、一致する単語用法パターンを有する複数の候補電子文書を識別する命令、を含むこと、
を特徴とする媒体。
【請求項50】
請求項49のコンピュータ可読媒体であって、さらに、一致の正確性に基づき、前記取り込んだ候補電子文書をランク付けし、最も高いランクを有する候補電子文書を検索結果として提供する命令、を含むこと、
を特徴とする媒体。
【請求項51】
請求項47のコンピュータ可読媒体であって、さらに、前記パターン間の近似性に基づいて、前記単語用法パターンをクラスタ化する命令、を含むこと、
を特徴とする媒体。
【請求項52】
請求項47のコンピュータ可読媒体であって、さらに、前記クエリ中の語意を明確化する命令、を含むこと、
を特徴とする媒体。
【請求項53】
請求項52のコンピュータ可読媒体において、前記クエリを分析する命令は、ユーザから文脈情報を導き出し、ユーザから単語用法パターンを選択し、あるいは、類義語のセットを受け取り、ランク付けされた確率的な単語用法パターン(ranked, probabilistic word usage pattern)を選択すること、の少なくとも一つの命令を含むこと、
を特徴とする媒体。
【請求項54】
請求項52のコンピュータ可読媒体において、前記クエリを分析する命令および前記候補電子文書を分析する命令は、
分野内のトピックならびにサブトピックを選択する命令、
存在論的なエレメントを識別する命令、
類義語あるいは類義語のセットを選択する命令、
疑問型を判断する命令、
マルチワード表現を識別する命令、
固有名詞を識別する命令、
マルチワードパターンの綴りならびに文法を訂正する命令、および
共通の動詞ならびに形容詞の意味の分析を実行する命令、の少なくとも一つを含むこと、
を特徴とする媒体。
【請求項55】
請求項48のコンピュータ可読媒体において、前記候補電子文書を処理する前記命令は、一致の正確性を判断するため、前記候補電子文書中の前記クエリの単語相互の近似性を判断する命令を含むこと、
を特徴とする媒体。
【請求項56】
請求項55のコンピュータ可読媒体において、検索結果として提供するため、前記クエリの前記単語は、前記電子文書中において互いに所定の近似性の範囲内になければならないこと、
を特徴とする媒体。
【請求項57】
請求項56のコンピュータ可読媒体において、前記クエリの異なるタイプの単語には、異なる近似性の範囲が割り当てられること、
を特徴とする媒体。
【請求項58】
請求項55のコンピュータ可読媒体において、前記候補電子文書を処理するための前記命令は、一致の正確性を判断するため、語順の一致を判断する命令を含むこと、
を特徴とする媒体。
【請求項59】
請求項58のコンピュータ可読媒体において、語順の一致を判断する命令は、前記判断された語順の一致に基づいて、単語配置スコアを割り当てる命令を含むこと、
を特徴とする媒体。
【請求項60】
請求項59のコンピュータ可読媒体において、前記単語配置スコアを決定する命令は、介在する単語の数が増加すると、単語配置スコアをある減少値だけ減少させる命令を含むこと、
を特徴とする媒体。
【請求項61】
請求項47のコンピュータ可読媒体であって、さらに、検索結果とともに有料検索コンテントを提供する命令を含むこと、
を特徴とする媒体。
【請求項62】
請求項61のコンピュータ可読媒体であって、さらに、前記有料検索コンテントが、前記クエリの単語用法パターンと一致する単語用法パターンを有している場合にのみ、検索結果とともに有料検索コンテントを提供する命令を含むこと、
を特徴とする媒体。
【請求項63】
請求項47のコンピュータ可読媒体であって、さらに、
前記クエリ入力を受ける第一入力領域を生成し、文脈の糸口となる単語を受ける第二入力領域を生成する命令、
前記クエリが、どの分野を検索しているかについてリアルタイムの合図を提供する命令、
前記クエリを第一の色で表示し、前記クエリが明確化された場合に、前記第一の色を第二の色に変更する命令、および
その明確化を促進するため、前記クエリに関連する追加の単語の入力を続けるよう前記ユーザへ催促する命令、の少なくとも一つの命令を含むこと、
を特徴とする媒体。
【請求項64】
クエリに応じて、コンピュータ可読媒体に記憶された電子文書について意味を検索し、検索結果を提供するための実行命令を有するコンピュータ可読媒体であって、
複数の電子文書の言語資料にアクセスするための命令と、
各電子文書の一般的な分野を識別するため、ある文書レベルにおいて、前記言語資料中の前記複数の電子文書をタグ付けする命令と、
少なくとも前記複数の電子文書の前記タグの一部に基づいて、前記言語資料における前記複数の電子文書中の単語用法パターンを判断する命令と、ならびに
前記複数の電子文書の単語用法パターンならびに分野タグに基づいて、前記言語資料における前記複数の文書にインデックスを付ける単語用法パターンのインデックスを生成する命令と、を備えたこと、
を特徴とする媒体。
【請求項65】
請求項64のコンピュータ可読媒体であって、さらに、ユーザからクエリを受け取り、当該クエリ中の推定される単語用法パターンを導き出すため当該クエリを分析する命令を含むこと、
を特徴とする媒体。
【請求項66】
請求項65のコンピュータ可読媒体であって、さらに、前記クエリ中の前記推定単語用法パターンと一致する単語用法パターンを有する前記電子文書の少なくとも一つを候補となる電子文書として識別するため、前記生成されたインデックスを用い、ならびに、前記候補電子文書を取り込む命令を含むこと、
を特徴とする媒体。
【請求項67】
請求項66のコンピュータ可読媒体であって、さらに、前記クエリの前記推定単語用法パターンと前記候補電子文書の単語用法パターン間の一致の正確性を判断するため、前記取り込んだ候補電子文書を分析する命令を含むこと、
を特徴とする媒体。
【請求項68】
請求項65のコンピュータ可読媒体であって、さらに、前記クエリの一般的な分野を識別するため、前記クエリ中の語意を明確化する命令を含むこと、
を特徴とする媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公表番号】特表2008−529173(P2008−529173A)
【公表日】平成20年7月31日(2008.7.31)
【国際特許分類】
【出願番号】特願2007−553342(P2007−553342)
【出願日】平成18年1月31日(2006.1.31)
【国際出願番号】PCT/US2006/003312
【国際公開番号】WO2006/086179
【国際公開日】平成18年8月17日(2006.8.17)
【出願人】(507255765)テキストディガー,インコーポレイテッド (2)
【氏名又は名称原語表記】TextDigger, Inc.
【住所又は居所原語表記】305 Vineyard Town Center #375, Morgan Hill, California 95037, United States of America
【Fターム(参考)】