説明

日本語などの複雑言語のコンテンツを検索するシステム及び方法

【課題】日本語のような複雑言語の正字法のあいまい性除去と正字法間の検索のための方法とシステムを提供する。
【解決手段】検索機能は概念で整理された語彙知識ベースを用いても良い。例えば一般的の主要な表現形式、異表記、代替の文法表現形式、発音異表記、固有名詞の異表記、数字異表記、学名、文化のふさわしさなどに関する一つ以上の規則を適用してそれぞれの概念を少なくとも一つのキーワード(同義語と異表記を更に加えて)に対応付けても良い。その後、語彙知識ベースの内容は、検索クエリーを実行するために使われる。ユーザーは検索クエリーの分割やその他の動作を補助する様々なストップワードとともに検索クエリー、その中のキーワード(又はそのキーワードに関連する同義語)は認識可能である、を入力してもよい。検索クエリーの実行は、資産の一覧又は類似の指示が返され、それは検索クエリー内で識別された概念に関係する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は日本語などの複雑言語のコンテンツを検索するための技術に関する。
【背景技術】
【0002】
コンピュータに実装された検索は、多数の言語で実行でき、多数のアプリケーションを有する便利なツールである。例えば英語などの幾つかの言語は、構造化され系統立てられているので検索するのに適している。例えば日本語などの他の言語は、構造化され系統立てられているコンピュータに実装された検索機能には適していない。
【発明の概要】
【発明が解決しようとする課題】
【0003】
文語体の日本語は様々な理由から複雑で本質的にあいまいである。日本語を書いたりタイプしたりするには、一般的には漢字、片仮名、および平仮名の三つの正字法の書記法の組合せの使用を要する。例えば、一つの単語が二つの書記法の組み合わせを含むこともあれば、一つの句が三つの全ての書記法の組み合わせを含んでいることもある。日本語を書く者は更に、ローマ字と呼ばれる表現形式のラテン・アルファベットを用いても良く、更なるバリエーションを可能にする。加えて、数字を表すのには日本語数字とアラビア数字の両方が使用される結果、更にバリエーションが増す。従って、与えられた意味概念を複合的な正字法(文語体)の表現形式を利用して書くことができるために複雑性が生じる。その上に、与えられた正字法表現形式は、文語体表現形式の発音(もしくは文脈)に依存して複合的な意味を持つことができる。換言すれば、そのような正字法表現形式は本質的にあいまいであり、文語体表現形式がどのように読まれるか、またはどのように発音されるか、ということに基づいてのみ明確にすることができる。
【0004】
日本語に本来備わっているこの複雑性とあいまい性の結果、日本語(例えば、コンピュータに記憶された情報の関係)のためのテキスト・ベースの検索ツールを構築するのに開発者は苦労していた。Goo(登録商標)の検索エンジン(www.goo.ne.jp)を含むいくつかの既存の検索ツールには日本語での検索能力もあるが、これらのツールはせいぜい単純なテキストパターンの一致に基づいており、システムによる、与えられた表現の意味論やその正字法(例えば、与えられた文語表現をいくつもの様式で書くことができるという事実)についてのいかなる知性にも基づいていない。
詳細な説明
【課題を解決するための手段】
【0005】
本発明は、様々な実施形態について説明される。下記の説明は本発明の実施形態の完全な理解と説明のために明確な詳細を与える。しかし、本技術分野の当業者は、本発明はこれらの詳細がなくとも実施できることを理解するであろう。他の例では、本発明の実施形態の説明を不必要に解り難くすることを避けるために、よく知られた構造や機能などは表示されていないか、もしくは詳細には記載されていない。
【0006】
記載された説明に用いられる専門用語は、本発明の一定の明確な実施形態の詳細な説明に関連して用いられていても、妥当な範囲で最も広く解釈される。いくつかの用語は下記に強調されているが、制限された意味で解釈されるべき専門用語はこの詳細な説明の項に明白かつ明確に定義されている。
【0007】
1.概要
日本語のような複雑言語の正字法のあいまい性除去と正字法間の検索のための方法とシステムを提供する。本明細書内ではこれを「この複雑言語の検索機能」または「この機能」と称することがある。この機能は各検索クエリーの正字法のあいまい性除去を含んでも良い。幾つかの実施形態では、この機能は、漢字、平仮名、および/または片仮名、そしてある程度はローマ字、およびそれらの組み合わせで書かれているテキストベースの日本語検索クエリーのあいまい性を除去する。この機能は、分割時のストップワードとして識別されることもある、ブール演算子のAND、OR、およびNOTなどの一般的な検索演算子とともに動作して正字法のあいまい性除去を支援しても良い。この機能はいかなる演算子も無しに書かれている単語や句のあらゆる組み合わせのあいまい性除去も支援して良い。同様に、白い空欄のようないかなる単語の境界を含まない検索クエリーに対してもあいまい性除去は動作する。
【0008】
本発明によると、日本語に関する一つ以上の書記法または正字法表現形式を含んでいるテキストベースのクエリーを用いて要求されたコンテンツを検索するシステムであり、そのシステムは:一つ以上の書記法または正字法表現形式に対応付けられた語彙情報を記憶する階層的に構造化された語彙知識ベースと、その知識ベースは:識別子を意味概念に割り当てること;意味概念に対する主要な正字法表現形式を識別すること、その主要な正字法表現形式は、漢字書記法、片仮名書記法、平仮名書記法、または漢字書記法と片仮名書記法と平仮名書記法の任意の組み合わせに基づいており;少なくとも一つ以上の書記法または正字法表現形式に対して、少なくとも一つの同義的な正字法表現形式をその意味概念に対応付けること、その同義的な正字法表現形式は少なくとも部分的にはその主要な正字法表現形式とは異なっており、またその少なくとも一つの同義的な正字法表現形式は、漢字書記法、片仮名書記法、平仮名書記法、送り仮名異表記、ローマ字文語体表現形式、漢字書記法と片仮名書記法と平仮名書記法と送り仮名異表記とローマ字文語体表現形式の一つ以上に対応付けられた発音異表記、および/または、漢字書記法と片仮名書記法と平仮名書記法と送り仮名異表記とローマ字文語体表現形式の一つ以上に対応付けられた複合異表記を、一つ以上含んでおり;その識別子、その主要な正字法表現形式、および少なくとも一つの同義的な正字法表現形式をそのシステムに対応付けられたデータ記憶部に記憶すること;および付加的な意味概念に対して、前記割り当てること、前記識別すること、前記対応付けること、および前記記憶すること、を繰り返すこと、を有する方法によって生成されており;検索可能な資産に対応付けられた情報を記憶する資産保存部と;その検索可能な資産とその語彙情報の間での照合を補助するための、資産保存部内の検索可能な資産を分類する分類部と、その照合は、少なくとも部分的には、その語彙知識ベース内に含まれる意味概念に割り当てられた識別子に基づいており;および、その検索可能な資産に対してクエリーを受信および実行する検索エンジンを有する。
【0009】
好ましくはその検索エンジンは:少なくとも一つ以上の書記法または正字法表現形式による一つ以上の文字を用いて表されたテキスト表現を有する検索クエリーを受信すること;受信した検索クエリーを正規化すること、その正規化することは複数の表し方が可能な任意の文字を標準表現形式に変換することを含んでおり;正規化された検索クエリーをトークン化すること、そのトークン化することはテキスト表現を一つ以上のトークンに分離することを含んでおり;語彙知識ベースに基づいてトークン化された検索クエリーの各トークンに一致するものを確定すること;一致するものの確定が不成功であった各トークンに対して、そのトークンを分割すること、その分割することは、そのトークンの識別された分割部分に対して付加的な照合を行うことを含んでおり;確定された一致するものに対するトークンの組を用いて検索を実行すること;および実行された検索からの結果の組を表示すること;を含む方法を実行する。
【0010】
好ましくは、語彙知識ベースを生成する方法は更に、下記のいずれか一つ以上有する:一つの主要な一般的な表現形式をその意味概念に対応付けること;書記法に基づく一つ以上の表現形式をその意味概念に対応付けること;文法に基づく一つ以上の表現形式をその意味概念に対応付けること、一つ以上の発音異表記をその意味概念に対応付けること;固有名詞の一つ以上の同義的表現形式をその意味概念に対応つけること;任意のアラビア数字と片仮名の一つ以上の同義的表現形式をその意味概念に対応付けること;ラテン語の文字で書かれた学名をその意味概念に対応付けること;文化的に適切な一つ以上の同義的表現形式をその意味概念に対応付けること;文化的に適切でない同義的表現形式を除外すること;および文化的に妥当でない同義的表現形式を除外すること。
【0011】
本発明によると、少なくとも幾つかの意味概念の複合的な文語体異表記を有する言語のテキストと記号を使用して識別されたコンテンツを検索するコンピュータシステム内の方法において、その方法は:言語に関連する少なくとも一つの書記法または正字法表現形式における一つ以上の文字を使用して表されたテキスト表現を有する検索クエリーを受信すること;受信した検索クエリーを正規化すること、その正規化することは複数の表し方が可能な任意の文字を標準表現形式に変換することを含んでおり;正規化された検索クエリーをトークン化すること、そのトークン化することはテキスト表現を一つ以上のトークンに分離することを含んでおり;語彙知識ベースのコンテンツに基づいて、トークン化された検索クエリーの各トークンに対して一致するものを確定すること;一致するものの確定が不成功であった各トークンを分割すること、その分割はトークンの識別された分割部分に対して付加的な照合を行うことを含み;確定された一致するものに対するトークンの組を用いて検索を実行すること;および、実行された検索の結果の組を表示することを有する。
【0012】
好ましくは、当該方法において、その言語は日本語または日本語以外の言語である。
【0013】
好ましくは、当該方法において、その分割することは下記:平仮名が後ろに続く漢字のグループを含むトークンを識別し、語彙知識ベース内に一致するものがあるか確認すること;漢字だけ、平仮名だけ、または片仮名だけを含むトークンを識別し、語彙知識ベース内に一致するものがあるか確認すること;漢字以外の文字だけ、平仮名以外の文字だけ、または片仮名以外の文字だけを含むトークンを識別し、語彙知識ベース内に一致するものがあるか確認すること;一つ以上のストップワードが入っている平仮名の文字グループを含むトークンを識別すること;および、照合が不成功の場合の漢字だけの任意のグループを分割すること;の一つ以上を含む。
【0014】
本発明によると、複合的な文語体表現形式が関連付けられた複雑言語のテキストと記号を使用して識別されたコンテンツを検索するシステムにおいて、そのシステムは:複雑言語に関連した語彙情報を保存するための語彙知識ベース、その語彙知識ベースは繰り返し可能な方法により生成または更新され、その方法は:意味概念に識別子を割り当てること;その意味概念に対する主要な文語体表現形式を識別すること、その主要な文語体表現形式は複合的な文語体表現形式の少なくとも一つに基づいており;複雑言語に関連する複合的な文語体表現形式の少なくとも一つに対して、少なくとも一つの同義的文語体表現形式をその意味概念に対応付けること、その同義的文語体表現形式は少なくとも部分的には主要な文語体表現形式と異なっており;および、その識別子、その主要な文語体表現形式、および少なくとも一つの同義的文語体表現形式を、システムに関連するデータ保存部に保存すること、を有しており;検索可能な資産に対応付けられた情報を保存する資産保存部;および、検索可能な資産に対するクエリーを受信して実行する検索エンジン、その実行は少なくとも部分的には語彙知識ベース内のコンテンツに基づくものである;を有する。
【0015】
好ましくは、当該システムはさらに、検索可能な資産と語彙情報の間の照合を補助するために、資産保存部の中の検索可能な資産を分類する分類部を有する。
【0016】
好ましくは、当該システムの資産保存部は、画像に対応したデータ、文書に対応したデータを保存する。
【0017】
好ましくは、当該システムにおいて、このシステムの語彙知識ベースはメタデータ保存部の一構成部であり、そのメタデータ保存部は更に、語彙データベースの概念と資産保存部の資産との関係性に関する情報を保存する概念−資産保存部を有する。
【0018】
好ましくは、当該システムにおいて、語彙知識ベースは、階層の下層部に位置付けられている概念は、上層部に位置付けられている概念よりも特定性を与えるように階層的に構成されている。
【0019】
好ましくは、当該システムでは、識別された主要な文語体表現形式は検索のためのキーワードとして識別子が付けられる。
【0020】
好ましくは、当該システムでは、その言語は日本語であり、複合的な文語体表現形式は漢字表現形式体系、片仮名表現形式体系、平仮名表現形式体系、送り仮名異表記、およびローマ字の文語体表現形式を含む。
【0021】
本発明によると、コンテンツを取得するためにクエリーを実行する際に使用される語彙保存部を生成または更新する方法であり、そのクエリーは複合的な文語体表現形式が関連する複雑言語で与えられており、その方法は:複合的な文語体表現形式の少なくとも一つに基づく主要な表現形式を意味概念に対して識別すること;少なくともその主要な表現形式に関係付けられる識別子を意味概念に対して割り当てること;少なくとも一つの同義的な異表記をその意味概念に対応付けること、その少なくとも一つの同義的な文語体異表記は少なくとも部分的にその主要な表現形式と異なっており;および、複雑言語での検索クエリーが与えられたときに、資産を検索するように構成された検索エンジンがアクセス可能なデータ保存部に、その識別子、その主要な表現形式、およびその少なくとも一つの同義的な異表記を記憶すること;を有する。
【0022】
好ましくは、当該方法は更に、付加的な意味概念のために、前記識別すること、前記割り当てること、前記対応付けること、および前記記憶すること、を繰り返すことを有する。
【0023】
好ましくは、当該方法において、意味概念に対して主要な表現形式を識別すること、および少なくとも一つの同義的な異表記をその意味概念に対して関係付けることは:書記法に基づく表現形式の一つ以上をその意味概念に関係付けること;文法に基づく表現形式の一つ以上をその意味概念に関係付けること;発音表現形式の一つ以上をその意味概念に対応付けること;任意の固有名詞のための同義的な表現形式の一つ以上をその意味概念に対応付けること;任意のアラビア数字と片仮名のための同義的な表現形式の一つ以上をその意味概念に対応付けること;学名をラテン語の文字を用いてその意味概念に関係付けること;文化的に適切な同義的な表現形式の一つ以上を対応付けること;文化的に適切でない同義的な表現形式を除外すること;および文化的に妥当でない同義的な表現形式を除外すること;を有する。
【0024】
本発明によると、複雑言語で表現可能な意味概念に関連するデータ構造を含んでいるコンピュータで読み取り可能な媒体において、そのデータ構造は:その意味概念に対応付けられている識別子情報;その意味概念に対して、その複雑言語に関する第1書記法のタイプに基づいている主要なテキスト表現形式を識別する情報;および、その複雑言語に関する第2書記法のタイプに基づく少なくとも一つの同義的なテキスト表現形式をその意味概念に関係付ける情報;を含んでおり、前記第2書記法のタイプは、前記第1書記法のタイプとは少なくとも部分的に異なっており、前記データ構造はその複雑言語に基づく検索クエリーと資産の照合を補助するように構成されている。
【0025】
好ましくは、コンピュータで読み取りが可能な媒体は、そのコンテンツを受信するコンピュータネットワーク内の論理的接続点、またはコンピュータで読み取り可能なディスク、またはコンピュータシステムのメモリである。
【0026】
本発明によると、検索クエリーを実行する、コンピュータに実装された方法において、その方法は:テキスト表現を含む検索クエリーを受信すること、そのテキスト表現は、少なくとも場合によっては単語と自律した言語単位間の個別の境界がない言語で書かれており;そのテキスト表現が、複合的な正字法表現形式または書記法を有する言語に関する語彙情報を記憶している構造化語彙知識ベースに関係付けられているキーワードまたは同義語を含むか否かを確定すること;および、そのテキスト表現が構造化語彙知識ベースに関係付けられているキーワードまたは同義語を有していない場合は、そのテキスト表現に対して分割を行うこと、その分割は、そのテキスト表現を体系的に二つ以上の分割部分に分け、そのテキスト表現とその二つ以上の分割部分に基づいて語彙知識から少なくとも一つのキーワードを識別することを含んでいる;を有する
【0027】
好ましくは、その体系的な分割は、キーワードではない予め決められたストップワードを識別することを含み、その予め決められたストップワードの少なくとも幾つかは前置詞である。
【0028】
好ましくは当該方法において、その体系的な分割は、そのテキスト表現が意図する意味を失わないようにそのテキスト表現をできる限り長い分割部分に分割することを含む。
【0029】
好ましくは当該方法において、その体系的な分割は、言語の規則および考案された規則の両方の適用を含む。
【0030】
好ましくは当該方法において、その体系的な分割は、キーワードではない予め決められたストップワードを識別することを含み、その予め決められたストップワードの少なくとも幾つかは、検索クエリーを実行するために使用されるブール値を表す。
【0031】
好ましくは当該方法において、その言語は日本語であり、テキスト表現全体が構造化語彙知識ベースに関連するキーワードまたは同義語を有しているか否かを確定し、その構造化語彙知識ベースは、平仮名が後ろに続く漢字のグループの中で一致するものを確認することを含む。
【0032】
好ましくは当該方法において、その言語は日本語であり、テキスト表現全体が構造化語彙知識ベースに関連するキーワードまたは同義語を有しているか否かを確定し、その構造化語彙知識ベースは、漢字だけ、平仮名だけ、片仮名だけ、および漢字以外の文字、平仮名以外の文字、片仮名以外の文字だけの文字グループの中で一致するものを確認することを含む。
【0033】
好ましくは当該方法において、その体系的な分割はWXYZというテキスト表現をWXY、XYZ、WX、XY、YZ、W、X、Y、Zに分割することを含んでおり、W、X、Y、Zはその言語に関する文字または文字の自律的なグループを表す。
【0034】
好ましくは当該方法において、検索クエリーはネットワーク接続により受信される。
【0035】
本発明によると、コンピュータシステムで使用可能なコンピュータメモリに記憶されている構造化語彙は:複合的なデジタルメディア資産;および、複合的なキーワードを有しており、少なくとも幾つかのデジタルメディア資産はキーワードおよびそのキーワードの異表記の少なくとも一つに対応付けられるように、そのキーワードはその用語間に特有の関係性に従った構造化語彙の順に並べられており、各デジタルメディア資産は、識別子に対応付けられており、その識別子の一つに対応付けられたキーワードまたはそのキーワードの少なくとも一つの異表記と要求された用語を照合することによって識別されることができる。
【0036】
好ましくは、構造化語彙は移植可能であり、任意の特定のコンピュータアプリケーション内での使用に制限されない。
【0037】
本発明によると、構造化語彙のキーワード用語に従って分類された複数のメディアコンテンツ単位を有する第2のコンピュータシステムから、メディアコンテンツ単位を取得するための、第1のコンピュータシステム内の方法において:メディアコンテンツ単位に対する要求を送信すること、その要求は検索用語を特定するものであり;および、特定された検索用語に該当する少なくとも一つのメディアコンテンツ単位のしるしを受信することを有し、その検索用語は、構造化語彙内に置かれており、その検索用語に該当する少なくとも一つのメディアコンテンツ単位を確定するために使用され、その検索用語に該当する少なくとも一つのメディアコンテンツ単位を確定することを補助するためにその検索用語の正字法の変形が自動的に提供される。
【0038】
好ましくは当該方法において、構造化語彙のキーワード用語は、夫々の用語と夫々の他の用語の関係性が並び方において固有のものとなるような順序で並べられる。
【0039】
本発明によると、データベース内のデータを検索するためにコンピュータに実装された方法において、その方法は:検索クエリー用語を含む検索要求を受信すること;その検索クエリー用語の任意の正字法の変形を自動的に確定すること;および、その検索クエリー用語と、その検索クエリー用語の任意の正字法の変形に基づいて、そのデータベースの検索を行うことを有する。
【0040】
好ましくは当該方法において、その検索要求は日本語テキストの少なくとも一つの正字法表現形式を含む。
【0041】
好ましくは当該方法において、その検索要求は韓国語テキストの少なくとも一つの正字法表現形式を含む。
【0042】
好ましくは当該方法において、その検索要求は中国語テキストの少なくとも一つの正字法表現形式を含む。
【0043】
好ましくは当該方法において、その検索の実行は、画像保存部に目録されている画像を検索する状況で行われる。
【0044】
好ましくは当該方法において、その検索の実行は、電子商取引またはインターネットによる小売で商品を検索する状況で行われる。
【0045】
好ましくは請当該方法において、その検索の実行は、文書の中で単語や項目を検索する状況で行われる。
【0046】
好ましくは当該方法において、その検索の実行は、フリーテキスト検索エンジンの状況で行われる。
【0047】
好ましくは当該方法において、その検索の実行は、文書アーカイブから文書を取得する状況で行われる。
【0048】
幾つかの実施形態では、この複雑言語の検索機能は、認められたあらゆる表現形式で正字法的に書かれた与えられた意味概念に対して返される結果の組が、同じ検索結果を出すように作用する。この説明の一部は、日本語を検索する方法とそのシステムの実現の詳細な例を与えるが、他の複雑な正字法の言語(例えば、中国語、韓国語、ドイツ語など)での実現も、本発明の範囲から逸脱することなく可能であることを本技術分野の当業者は理解するであろう。
【0049】
下記に詳細に説明されている通り、複雑言語の検索機能は、少なくともある程度は電子的に保存および表示が可能な資産や他のタイプのコンテンツを検索するという状況での応用があるであろう。例えば、オンラインやオフラインの環境など、この機能はほぼどんな検索環境で適用されてよい。そのような環境の例は、画像データベース内の画像の検索、電子商取引の小売業務の商品の検索、文書ライブラリ内の文書の検索、文書内の項目や単語の検索、フリーテキスト検索エンジンの状況での検索、ワープロ文書内において同義語で置き換えるための用語の検索、書類アーカイブという状況での検索などを含む。この機能は更に移植可能でも良く、いかなる特定のコンピュータアプリケーション内での使用に制限されない。
【発明を実施するための最良の形態】
【0050】
2.システム構成と実現
図面上、同じ参照番号は同一または本質的に類似の要素または動作を示す。特定の要素または動作の議論を容易にするため、参照番号の最上位桁はその要素が最初に出てくる図の番号を示す(例えば、要素204は図2について最初に挙げられ論じられている)。
【0051】
図1とそれに続く議論は、この複雑言語の検索機能を実現するのに適している環境の、簡潔で一般的な説明を与える。必須ではないが、この機能の態様は、例えば汎用コンピュータ(例えば、サーバ・コンピュータ、ワイヤレス装置、またはパソコン/ノートパソコン)によって実行されるルーチンのようなコンピュータで実行可能な命令の一般的な内容で記載されている。更に、それらのルーチンの一つ以上に対して人間の介入があってもよい。本技術分野の当業者は、本発明がインターネット家電、携帯用機器(パーソナル・デジタル・アシスタント(PDA)を含む)、ウェアラブル・コンピュータ、全ての様式のセルラーまたは携帯電話、組込型コンピュータ(乗り物に結合されたものを含む)、マルチプロセッサ・システム、マイクロプロセッサを基礎とするまたはプログラム可能な家庭用電化製品、セットトップボックス、ネットワークパソコン、ミニコンピュータ、メインフレームコンピュータなどを含む、他の通信、データ処理、またはコンピュータシステム構成で実行されることが可能なことを認めるであろう。実際、「コンピュータ」、「ホスト」、および「ホスト・コンピュータ」といった用語は交換可能に使えて、上記のどの機器、システム、そしていかなるデータプロセッサにもあてはまる。
【0052】
この機能の態様は、本明細書で詳細に説明されているコンピュータで実行可能な一つ以上の命令を行うために特定にプラグラムされており、設定されており、構成されている特殊用途コンピュータまたはデータプロセッサの中で実施されることが可能である。この機能の態様はまた、通信ネットワークで接続されている遠隔処理機器によってタスクやモジュールが行われる分散型コンピューティング環境でも実施できる。分散型コンピューティング環境では、プログラムモジュールは、ローカルメモリストレージ機器とリモートメモリストレージ機器のどちらに配置されても良い。
【0053】
この機能の態様は、磁気的または光学的に読み取り可能なコンピュータディスク、半導体メモリやナノ技術メモリや有機又は光学メモリ上のマイクロコードとして、あるいは他の携行可能なデータ保存媒体などを含む、コンピュータで読み取り可能な媒体に保存または分散されても良い。実際、本発明の態様におけるコンピュータに実装された命令、データ構造、画面表示、および他のデータは、経時的な伝播媒体(例えば、電磁波や音波など)の伝播信号に基づく、またはアナログかデジタルネットワーク(パケット交換方式、回路交換方式、または他の仕組み)で与えられるであろう、インターネットや他のネットワーク(ワイヤレスネットワークを含む)上に分散されても良い。この機能の一部分はサーバ・コンピュータ上にあり、対応する部分は携行型機器のようなクライアントコンピュータ上にあるとこの技術分野の当業者は理解するであろう。
【0054】
図1はこの複雑言語の検索機能が実施できる環境100の例を示すブロック図である。この例では、環境100は構造化された語彙によって動作させられる分類及び検索システム101(例えば、画像または媒体の分類と検索のシステム)を含む。分類及び検索システム101は、一つ以上のコンピュータシステム(103a−d)が接続されているインターネット102などの通信媒体に接続されている。分類及び検索システム101は、資産(例えば、画像、文書、商品説明、または他のコンテンツ単位)の分類を可能にする分類処理部104を含む。分類及び検索システム101はまた、検索エンジン105と一つ以上のデータ保存部106を含んでも良い。例えば、データ保存部106は、資産保存部107と、語彙知識ベース109および概念−資産対応索引110を有するメタデータ保存部108を含んでも良い。特定の配置の中で保存部の特定の組が示されているが、一つ以上のデータ保存部106が他の組み合わせで存在することも可能である。
【0055】
検索エンジン105は、ユーザーの検索クエリーに応じて、語彙知識ベース109および概念−資産対応索引110に関係付けられている情報を用いて、資産保存部107からの一つ以上の資産を見つけ出し取り出すルーチンを有していても良い。検索エンジン105は、複雑言語(例えば日本語)の検索用語を検索クエリーが含んでいても、検索エンジン109が資産保存部107から資産を取り出すのを可能にする複雑言語取得システム111を含むように構成されている。
【0056】
資産保存部107は、個々の資産および/または資産の集まりの情報を保存し、その一方でメタデータ保存部108は、それぞれの資産を一つ以上の概念に関連付ける情報を保存する。例えば、浜辺で走っている女の子の写真は「女の子」、[犬」、および「ビーチ」という概念に関連付けられても良い。幾つかの実施形態では、分類処理部104は、それぞれの資産(および/または資産の集まり)を語彙知識ベース109からの概念に対応付けることによって、資産保存部107に保存されている資産を分類するルーチンを備える。このような分類ルーチンは、ユーザーとの対話によるか、もしくは全自動でも良い。このような方法で資産が一旦分類されると、語彙知識ベース109からのそれぞれの概念を一つ以上の資産と対応付ける概念−資産対応索引110が生成される。
【0057】
語彙知識ベース109は、ユーザー検索クエリーの検索用語に割り当てられることのできるキーワードの知識ベースを有しても良い。幾つかの言語(例えば日本語)では、可能性のある共通の意味を有するキーワードがグループ化され、共通の概念に対応付けられるように、語彙知識ベース109はキーワードの複数の集まりを含む。例えば、語彙知識ベース109は、それぞれに認識された概念に対して別々のデータ構造を含むことができ、それぞれの概念データ構造は一つ以上のキーワードに対応付けられた情報を含んでいる。更に、それぞれの概念(およびそれに対応付けられたキーワード)は固有のキーワードIDに対応付けられてもよい。
【0058】
幾つかの実施形態では、語彙知識ベース109内の概念は、階層の下層に位置づけられている概念が、上層に位置付けられている概念よりも特定性を与えるように階層的に構造化されても良い。例えば、米国特許第6735583号で詳細に記載されているように、語彙知識ベース109内の概念(上記参照の特許では"vocabulary units"または"terms"と称されている)は、下位の概念が上位の概念の論理的な一部となるようにツリー構造またはn-plex構造に配置されても良い。
【0059】
日本語の場合、語彙知識ベース109は、正字法のあいまい性除去と日本語での検索を可能とするために、文語体日本語の言語学的規則に従って日本語化された概念とキーワードの知識ベースを有しても良い。
図2A−2Eで例として示されているように、幾つかの実施形態では、日本語での検索用の語彙知識ベース109を実現するための言語規則集は下記の通りである:
・一般的な主要な表現形式: この規則の適用は、最も一般的に使われるつづり(語彙知識ベース109内のキーワード識別番号に対応付けられていることがある)に基づいて、それぞれの意味概念に対する主要な正字法表現形式を識別することを含む。日本語の場合、この主要な表現形式は恐らく漢字あるいは片仮名である。図2Aのブロック204が示すように、この表現形式がキーワードとなる。平仮名表現形式が漢字よりもより一般的であるという、稀な場合では、漢字表現形式や片仮名表現形式の代わりに平仮名表現形式がキーワードとして使われても良い。例えば図2Aでは、英単語の"freedom"200で表されている概念は、ブロック206に示されている漢字の正字法表現形式で書かれているのが最も一般的である。
・一般的な書記法の異表記−平仮名: 日本語のこの場合では、この規則の適用はそれぞれの意味概念に対して全ての平仮名異表記(既にキーワードとして識別されていないもの)を識別することを含む。これらの異表記は同義語として語彙知識ベース109に追加される。例えば、英単語"freedom"200に示されている概念は、ブロック208に示されている平仮名異表記を使って書くことができる。従ってブロック208の異表記は、"freedom"200の概念に対する認識された異表記として語彙知識ベース109に追加され、主要な表現形式(例えば漢字の異表記206)の同じキーワード識別番号204に関係付けられる。従って、検索クエリーを生成する際、システムのユーザーがブロック208の平仮名異表記やブロック206の漢字異表記を打ち込んだ場合には、この機能はこれらの検索クエリーのどちらも同じ概念200に関連すると認識し、どちらの場合も同じ検索結果(例えば、文書、画像など)を取得する。
・一般的な書記法の異表記−片仮名: この規則の適用は、それぞれの文語体の漢字表現形式に対して、全ての片仮名異表記(既にキーワードとして識別されていないもの)を同義語として語彙知識ベース109に追加することを含む。例えば、英単語"freedom"200によって示されている概念は、図2Aのブロック210に示されている片仮名異表記を使って書くことができる。従って、平仮名異表記208と同様に、この異表記も"freedom"の概念に対する認識された異表記として語彙知識ベース109に追加され、漢字異表記206と同じキーワード識別番号204に関連付けられる。従って、検索クエリーを生成する際、ユーザーがブロック208の平仮名異表記、ブロック210の片仮名異表記、もしくはブロック206の漢字異表記を打ち込んだ場合、この機能は全ての場合に同じ検索結果を取得する。
【0060】
図2Aの表202は、上記の三つの適用される規則を太字で強調しつつ、語彙知識ベース109を生成/更新するのに適用できる様々な規則を示す。ひとたび表202の規則が適用されると、自由の概念とキーワードIDの関係性212が、語彙知識ベース内に実現されても良い(例えば、キーワードIDは、その主要な表現形式と全ての同義語に関係する概念を表すためにデータベース内で第一のキーとして作用しても良い)。従って、関係性212は、同義語に関連付けられており、また資産にも関連付けられているキーワードに対応付けられている資産を取得する検索におけるツールとして使用されても良い。表202の規則に太字で示されていないものは、"freedom"を意味概念の例として使用するときには特に適切ではないものである。しかし、その規則は図2B−2Eでより詳細に示されており、下記の付加的な規則と例に従って記載されるように、他の意味概念に対して適用しても良い。
・文法的表現形式: この規則の適用は、それぞれの意味概念に対して、全ての送り仮名異表記(漢字+文法的な語尾の平仮名)を同義語として語彙知識ベース109に追加することを含んでも良い。(日本語では送り仮名異表記は特に動詞でよく使われ、動詞の時制を調整するための語尾の平仮名である)。例えば、英単語"drinking"(図2Bのブロック220)に対応付けられる概念はブロック222に示されている送り仮名異表記を使って書かれるのが最も一般的である。この表現形式は従って、主要な表現形式/キーワードとして設定される。描かれた例では、送り仮名異表記222の最初の文字は漢字で、最後の文字は平仮名である。"drinking"の例220では、全て平仮名の異表記がブロック224に示されていて、全て片仮名の異表記がブロック226に示されている。この両方の表現形式は同義語として設定される。
・他の異表記: この規則の適用は、それぞれの意味概念に対して、全ての書記法(ローマ字を含む)の全ての複合異表記の表現形式を同義語として語彙知識ベース109に追加することを含んでも良い。例えば、図2Cに示されているように、"Dallas Fort Worth Airport"(ブロック230)などの幾つかの概念は、上記の正字法の書記法のあらゆる組み合わせを使って表現されており、ブロック232内に、認識された異表記として示されている。
・発音異表記: この規則の適用は、それぞれの意味概念に対して、全ての発音代替(同じ概念が、複数の代替の発音つづりがあるもの)の表現形式をキーワードとして語彙知識ベース109に追加することを含んでも良い。例えば、図2Dで示されているように、"Robert Kennedy"(ブロック240)の意味概念は、ブロック242と244に示されている複数の代替となる片仮名の発音つづり(全て正しいもの)を使って書くことができる。
・固有名詞の異表記: この規則の適用は、人名や場所の名称である固有名詞のそれぞれの意味概念に対して、語彙知識ベース109に英語および/または本来のつづりの異表記をキーワードとして追加しても良い。例えば、"Robert Kennedy"は、片仮名で書かれたもの(ブロック242と244)と同じ検索結果を取得するかも知れない。
・数字異表記: この規則の適用は、数字を含む夫々の意味概念に対して、全てのアラビア数字と片仮名異表記の表現形式を語彙知識ベース109にキーワードとして追加することを含んでも良い。より詳細には、数字は様々な正字法表現形式(漢字、平仮名、片仮名)で書く事ができ、それらの異表記にはアラビア数字を含んでも良い。例えば、"two people"(図2Eのブロック250)の概念は、ブロック252と254で示されている異表記のどちらでも表現されても良い。
・学名: この規則の適用は、植物や動物のそれぞれの意味概念に対して、語彙知識ベース109に学名(ラテン書記法を用いて)を同義語として追加することを含んでも良い。
・文化に関連した同義語:規則の適用は、それぞれの意味概念に対して、与えられた日本語の概念にとって文化的に適切な同義語のみを、語彙知識109に追加することを含んでも良い。例えば、どの与えられた意味概念でも、一つの文化では適切な同義語であっても、別の文化では適切でないかも知れない。このことは検索中に文化に関連した意味概念のみが表示されることを確実にする。例えば、「自由」の意味概念は日本でも米国でも存在する。しかし、その概念が表す考え方または心像は異なる可能性がある。例えば、自由の女神の画像は米国のウェブサイトでは自由に対応付けられているかも知れない。しかし、この同じ画像は他の文化の「自由」の概念を上手く表さない可能性がある。
【0061】
ひとたび実現されると(例えば、上記の規則のあらゆる組み合わせと、可能性のある他の規則をも用いて)、図1の語彙知識ベース109は、この機能がユーザー検索クエリーの中に与えられている日本語の正字法の異表記を資産の組に一致させることを可能にする。上記の規則は日本語での検索を容易にさせるためには特有のものであるが、他の言語での検索を容易にさせるために類似の規則が適用されても良い。
【0062】
この複雑言語の検索機能が実現され、また使用できる代表的な環境に関する付加的な詳細は、米国特許第6735583号の"Method and System for Classifying and Locating Media Content"で詳細に記載されている。しかし、この検索する方法とシステムは、そのようなシステムでの使用に限らず、インターネット、商品または品目カタログ、そして情報保存部などを含む、コンテンツ検索を適用するほとんどいかなるシステムに適用されても良い。
【0063】
3.システムフロー
図3から図8は、図1のシステム内で起こる処理を示す代表的なフロー図である。これらのフロー図は、全ての機能とデータ交換は示さないが、代わりにこの機能の下でのコマンドやデータ交換の理解を与える。関連する技術分野の当業者は、幾つかの機能またはコマンドやデータの交換が繰り返されたり、変更されたり、省かれたり、または追加されたり、そして表示されていない他の態様も容易に実現可能であることを理解するであろう。例えば、詳細には説明されてはいないが、データを含むメッセージは、HTTP上などでメッセージキューを通して送信されても良い。
【0064】
図3に描かれているフローは、幾つかの実施形態で、この機能によって行われる様々な処理の結合した概観を示す高次のフローである。個別の処理や下位の処理の幾つかは、以下の図でより詳細に説明される。図1に関して記載された要素の前後関係の中で、ブロック301から304は、語彙知識ベース109とメタデータ保存部108と概念−資産対応索引110が、どのように生成され更新(例えば、新しい資産が追加される場合)されるかを説明する。
【0065】
ブロック301では、この機能は、階層に従って意味概念を分類する初期の構造化語彙を生成もしくは提供し、それぞれの意味概念(例えば、上記で説明した規則を用いて)に対するキーワードの結合を与え、そして語彙知識ベース109にこの情報を記憶する。同様に、それぞれの資産と概念の間で認識された関係性は識別され、それら関係性のしるしは概念−資産対応索引110に記憶される。同様に、メタデータの他の種類は資産と対応付けられ、メタデータ保存部108に記憶される。
【0066】
判断ブロック302では、この機能に追加される新しい資産がある場合には、ルーチン300はブロック303に進み、そうでなければルーチンはブロック305に進む。ブロック303では、この機能は新しい資産を特定の概念に対応付ける(ユーザーの介入が関わっていてもよい)。このことは語彙知識ベース109の更新を含んでも良い。図1に関して上記で説明されたように、メタデータ保存部は、言語の独立性を保つために概念そのものの代わりにキーワード識別子を使っても良い。この処理は、「概念」と「キーワード識別子」という単語を「用語」と「用語識別子」にそれぞれ置き換えて用いている米国特許第6735583号でより詳細に記載されている。
【0067】
ブロック304では、この機能は、検索エンジン105が概念−資産対応索引110に含まれているキーワード識別子を通して資産を見つけ出すことができるように概念−資産対応索引110を組み立てる。従って、概念−資産対応索引110は、それぞれの概念(もしくは該当するキーワード識別子)を一つ以上の資産に対応付けて分類される資産の「逆」目録としての役割を果たす。
【0068】
幾つかの実施形態では、この機能はブロック301−304(または類似の動作)を互いに独立して行っても良い。この機能は、構造化語彙や資産の集まりなどへの変更が望まれるときに、これらの処理を同時にそして繰り返し実行しても良い。例えば、資産から得られた概念が構造化語彙に追加されるときに、この機能は効率を上げるため、複雑言語の語彙を「微調整」するのにこれらの概念を使用しても良い。
【0069】
ブロック305では、この機能は望ましい資産への要求(例えば、ユーザーが与える検索クエリー)を受信する。ブロック306では、検索エンジン105は、検索エンジン105によって利用される標準表現形式にその文字を変換するために受信した検索クエリーを正規化し、データ保存部107、108、109および110内で一致するものを検索することによって検索クエリーに対する概念を識別し、識別された概念に対応するキーワード識別子によって参照されている資産を見つけ出す。階層的に構造化された語彙では、検索エンジン105はまた、語彙内での階層に従っている下位のキーワード識別子によって参照されている資産を見つけ出しても良い。見つけ出された資産は、場合によっては例えば一覧表や電子的表現として表示される。
【0070】
図3によって概略説明された幾つかの処理/ルーチンは、図4−8によって以下でより詳細に記述されており、特に日本語などの複雑言語に適用されても良い。例えば、図4を参照して、検索クエリーが(例えばユーザー402によって)入力された後、この機能は正規化部404を用いて正規化を行う。正規化において、この機能は検索クエリーテキストを標準表現形式に変換しても良い。例えば、この機能は同一と扱われるべき入力文字符号内で複数の表し方がある全ての文字を標準化しても良い。例えば、ISO8859−1(ラテン1)で符号化されたユーザー検索クエリーは、システムによって自動的に正規化されても良く、その後システムがそれぞれの表現をどのように解釈すれば良いのか理解するために例えばUSC−002(ユニコード)として符号化されても良い。幾つかの実施形態では、正規化は、検索トークン(例えば、一つ以上の文字を含む予め決められた文字グループ)を空白で区切っても良く、半角片仮名のクエリーを全角片仮名のクエリーに変換するなどでも良い。正規化はシステムがどの動作を実行すべきかを特定する規則に従っており、これらの規則はコンピュータアプリケーションに特有のものでも良い。
【0071】
次に、この機能はトークン化部406を用いるトークン化を行うことに移る。トークン化において、この機能はユーザー検索クエリーからの候補用語に対して語彙照合が行われるように、検索クエリーを分解しても良い。続いて構文解析部408が日本語語彙データベース内に一致するものがないかトークンを確認する。トークンに一致するものが見つからない場合は、この機能は分割部410によって行われる分割サブルーチンに移行する。分割処理は図5−8でより詳細に説明されている。
【0072】
分割の後、検索エンジン105は、資産保存部107の資産を概念に関係付ける語彙知識ベースの結果を調べることによって、構文解析と分割の最中に見つかったいずれのキーワードを用いても検索を実行してよい。例えば、一致した概念とともに分類された資産を取り出すために、この機能は、返されたキーワード識別子を資産保存部107に送信しても良い。その後、検索エンジン105は、ユーザー402に結果の組を返しても良い。検索エンジン105は続いて、前に引用した米国特許第6735583号に詳細に記載されているあいまい性除去の要求をユーザーに返しても良い。
【0073】
図4はまた、メタデータ保存部(本図には示されていない)の生成に関連している構成部の例を、図1の語彙知識ベース109と概念−資産対応索引110を含めて示している。例えば、一つ以上の翻訳部または分類部412は、語彙知識ベースを生成するために図2A−2Eで説明された上記の規則を適用することによって、複雑言語キーワード(例えば、日本語で表されたキーワード)の正字法処理部414を補助しても良い。同様に、図4は概念−資産対応索引110などの構成部を生成/更新するのに使われるデータの流れを示している。コンパイラ部416は、語彙知識ベースと概念−資産対応索引の両方の生成/更新に関わっても良い。
【0074】
図5を参照すると、最初のトークンの照合が不成功のときには、この機能は、特定のユーザー検索クエリーを更なる分割にかけることを可能にする分割ルーチン500を実行してもよい。分割は、言語の規則および考案された規則の両方を用いて、ひとつのトークン内のキーワードやストップワードを見つけ出す処理を含んでも良い。例えば、キーワードと同義語は、図1の階層的知識ベース109内の概念に結び付けられているあらゆる異表記を含む。ストップワードは、この機能が認識する予め決められた単語の組でキーワードではないものを含む。例えば、ストップワードは前置詞や他の用語(例えば、および、その、または、など)を含んでも良い。ストップワードに遭遇した場合、この機能は単に無視してそれらを検索クエリーから除外しても良い。一方、ブール値などの用語は特定の動作を引き起こすこともある。
【0075】
構文解析中にキーワードもしくはストップワードと識別されなかったトークンは、いずれも分割される候補になる。分割ルーチンは、単語や他の自律した言語単位の間に空白が必ずしも存在しない日本語やドイツ語のような言語では特に有用である。一般的に、分割ルーチンは、与えられたクエリー文字列を単一のトークンとして扱い、そのトークンが単一のキーワードを表すか否か確定するために検証し、もしそうでなければ、そのトークン内のキーワードやストップワードを識別することによってそのトークンをより小さなトークンに分解する。図5のルーチン500は、日本語の言語に特有のこの処理の例を与えている。しかし、他の複雑言語に類似の処理を行っても良い。
【0076】
ブロック501−505は単一のトークンに対する処理を説明する。ブロック501では、ルーチン500は平仮名を伴っている漢字グループの中で一致するものがないか確認する(例えば、語彙知識ベース内で照合を行う、および/または関連している書記法(例えば、漢字、平仮名、片仮名、その他)に隣接しているグループを見つけるためにユニコード・キャラクター・コード値を用いる)。ブロック502では、ルーチン500は漢字だけ、平仮名だけ、片仮名だけ、そして漢字以外だけ、平仮名以外だけ、片仮名以外だけ、の文字グループ内で一致するものがないか確認する。ブロック503では、ルーチン500は、その境界にストップワード(例えば"and"の概念に対する日本語の漢字、および検索中にキーワードとして使われない前置詞や冠詞などの他の一般的用語)を含んでもよい平仮名の文字グループ内で一致するものがないかを確認する。
【0077】
文字ブロック504では、ルーチン500は一致したものと判断されなかった全ての漢字だけの文字グループを分割しようと試みる。例えば、検索文字列WXYZは、WXY、XYZ、WX、XY、YZ、W、X、Y、Zとして分割されても良い。もしブロック504において部分文字列が一致したものと認識された場合、ルーチン500は全ての部分文字列が確認されるまで残りの部分文字列を確認し続ける。幾つかの実施形態では、ルーチン500はその後、もとのトークンを、ブロック501−504でキーワードとして識別されなかった文字が入ったトークンも含めて分割によって発見されたトークンの一覧(文字の入力順序を保ちつつ)と置き換える。全てのトークンが分割された後、ブロック505では、この機能は、キーワードと資産を関連付けている語彙データベースの結果を調べることによって構造解析と分割の最中で発見されたキーワードを用いての検索の準備ができる。
【0078】
大部分は自明である図6−8は、分割処理の具体例を示す。更に具体的に言うと、図6は漢字と片仮名の書記法の両方を含んでいる検索クエリーの分割の例を与える(例えば、「猫と犬」の概念)。図6の例では、この機能はキーワードやストップワードがあるかを確定するために隣接する表現形式体系のグループの組み合わせを(日本語の語彙を調べることによって)確認する。例えば、書記法グループG1234では、この機能は、G123、G234、G12、G23、G34、G1、G2、G3、G4を確認する。
【0079】
図7は平仮名のストップワード(例えば、「と」)を見つけ出す例を与える。図7の例では、この機能はストップワードのリストの照合を行うことによって、平仮名文字グループの終端にあるストップワードを確認する。ストップワードが見つかった場合には、この機能はその文字グループの残りの部分をキーワードであるか確認する。更に一般的には、平仮名文字H1234に対して、この機能は、H234、H34、H4、H123、H12、H1を確認する。そしてストップワードが見つかったら、この機能は残りの部分(例えば、H123に対してはH4が残りの部分である)がキーワードであるか確定する。
【0080】
図8は漢字の分割の例を与える。図8の例では、この機能は漢字の文字グループでキーワードを確認する。更に一般的には、漢字の文字列K1234に対してこの機能はK123、K234、K12、K23、K34、K1、K2、K3、K4を確認する。部分文字列がキーワードとして識別された場合には、この機能は残りの部分文字列の確認を続ける。
【0081】
4.結論
そうではないと文脈が明白に要求しない限り、本明細書と請求項に出てくる「有する」、「有している」などは、排他的または徹底的な意味ではなく、包含的な意味で解釈されるべきである。つまり、「〜を含むがこれに限定されるものではない」という意味である。更に、「この中の」、「上記の」、「下記の」や同類の単語も、本出願で使われるときは、本出願全体にあてはめるべきであり、本出願のどの特定の部分にあてはめるべきではない。請求項が二つ以上の項目のリストを引用するのに「または」、の単語を使うとき、その単語の解釈はリストの各項目、リストの全ての項目、そしてリストの項目の各組み合わせ全てを含む。
【0082】
本発明の実施形態の上記の詳細な記述は、余すところなく説明するつもりではなく、上記に開示された正確な表現形式に本発明を制限するつもりでもない。本発明の特定の実施形態および例示は、説明の目的で上記に記載されているが、本技術分野の当業者は、本発明の範囲で様々な同等の修正が可能であると理解するであろう。例えば、処理やブロックはある特定の順序で表されているが、別の実施形態では、ルーチンが異なった順序で工程を実行したり、ブロックのあるシステムを採用したりしても良く、幾つかの処理やブロックは削除、移動、追加、再分割、混合、および/そして変更されても良い。各処理や各ブロックは様々な方法で実施されて良い。
【0083】
更に、処理やブロックは時には順次に実行されているように示されているが、この処理やブロックは順次ではなく同時にでも同時にではなくても実行されて良い。文脈が合えば、上記の詳細な説明の中で単数または複数の数を使っている単語は、複数または単数の数を更にそれぞれ含んでも良い。
【0084】
本明細書で与えられる本発明の説明は、必ずしも本明細書に記載されたシステムだけではなく、他のシステムでも適用できる。上記に記述された様々な実施形態の要素と動作は、更なる実施形態を与えるために組み合わせることができる。
【0085】
上記の全ての特許と出願と他の引用文献は、添付の資料のリストに含まれているものをそれぞれ含み、参照として本明細書に組み入れてある。本発明の態様は、本発明の更なる実施形態を与えるため、必要な場合には、上記に引用されたものの様々なシステム、機能、および概念を採用して変更することができる。
【0086】
上記の詳細な説明の観点から見て、本発明に対して上記や他の変更をすることができる。上記の記載は本発明の特定の実施形態を詳述し、熟慮されたベストモードを説明するが、上記が文章でどれほどきめ細かく見えても、本発明は様々な方法で実行できる。コンテンツシェアリングシステム、およびスパムコントロールとプライバシー管理技術の実施の詳細は大幅に異なっても、本明細書に開示された本発明の範囲内から逸脱することはない。上述の通り、ある特徴や態様を説明するときに用いられる特定の専門用語は、その専門用語が関連する本発明のそれぞれの特定された特徴、特質、または態様に制限される様に本明細書では再定義されていると解釈されるべきではない。一般的には、上記の詳細な説明の部分が明白に用語を定義しない限り、下記の請求項に用いられる用語は、本明細書に開示された特定の実施形態に本発明を制限するように解釈されるべきではない。従って、本発明の実際の範囲は、開示された実施形態だけではなく、請求項の範囲で実施または実行する全ての等価的なものを含む。
【0087】
本発明の特定の態様は、下記の特定の請求項の表現形式で記載されているが、発明者は本発明の様々な態様を幾つもの数の請求項の表現形式で考慮する。例えば、コンピュータで読み取り可能な媒体に具現されると言及しているのは本発明の態様のただ一つだけだが、他の態様も同様に、コンピュータで読み取り可能な媒体に具現しても良い。従って、本発明の他の態様に対する付加的な請求項の表現形式を追及するために、本出願が出願された後でも発明者は請求項を追加する権利を留保する。
【0088】
本出願は、2004年6月12日出願の米国仮出願第60/579,130号、発明の名称"Content Search in Complex Language, Such as Japanese"と、2004年6月25日出願の米国仮出願第60/582,759号、発明の名称"Cross Orthographic Search and Disambiguation in Japanese - a Solution"と、2004年9月17日出願の米国仮出願第60/610,741号、発明の名称"Localizing Concepts for Search Retrieval"の優先権を主張する。上記引用した出願は参照により本明細書に援用される。
【図面の簡単な説明】
【0089】
【図1】複雑言語の検索機能が、幾つかの実施形態で実施しても良い代表的な環境を示すブロック図である。
【図2A】図1の語彙知識ベースを生成するために適用する規則の例を示すデータ図である。
【図2B】図1の語彙知識ベースを生成するために適用する規則の例を示すデータ図である。
【図2C】図1の語彙知識ベースを生成するために適用する規則の例を示すデータ図である。
【図2D】図1の語彙知識ベースを生成するために適用する規則の例を示すデータ図である。
【図2E】図1の語彙知識ベースを生成するために適用する規則の例を示すデータ図である。
【図3】幾つかの実施形態で、機能に実行される様々な処理の概要を示すフロー図である。
【図4】図1の代表的な環境などで、機能の様々な構成部に実行される処理を示すフロー図である。
【図5】一つの実施形態の分割ルーチンを示すフロー図である。
【図6】図5の分割ルーチンに関連する処理の具体例を与える。
【図7】図5の分割ルーチンに関連する処理の具体例を与える。
【図8】図5の分割ルーチンに関連する処理の具体例を与える。

【特許請求の範囲】
【請求項1】
日本語に関する一つ以上の書記法または正字法表現形式を含んでいるテキストベースのクエリーを用いて要求されたコンテンツを検索するシステムであり、そのシステムは:
一つ以上の書記法または正字法表現形式に対応付けられた語彙情報を記憶する階層的に構造化された語彙知識ベースと、その知識ベースは:
識別子を意味概念に割り当てること;
意味概念に対する主要な正字法表現形式を識別すること、その主要な正字法表現形式は、漢字書記法、片仮名書記法、平仮名書記法、または漢字書記法と片仮名書記法と平仮名書記法の任意の組み合わせに基づいており;
少なくとも一つ以上の書記法または正字法表現形式に対して、少なくとも一つの同義的な正字法表現形式をその意味概念に対応付けること、その同義的な正字法表現形式は少なくとも部分的にはその主要な正字法表現形式とは異なっており、またその少なくとも一つの同義的な正字法表現形式は、漢字書記法、片仮名書記法、平仮名書記法、送り仮名異表記、ローマ字文語体表現形式、漢字書記法と片仮名書記法と平仮名書記法と送り仮名異表記とローマ字文語体表現形式の一つ以上に対応付けられた発音異表記、および/または、漢字書記法と片仮名書記法と平仮名書記法と送り仮名異表記とローマ字文語体表現形式の一つ以上に対応付けられた複合異表記、を一つ以上含んでおり;
その識別子、その主要な正字法表現形式、および少なくとも一つの同義的な正字法表現形式をそのシステムに対応付けられたデータ記憶部に記憶すること;および
付加的な意味概念に対して、前記割り当てること、前記識別すること、前記対応付けること、および前記記憶すること、を繰り返すこと、
を有する方法によって生成されており;
検索可能な資産に対応付けられた情報を記憶する資産保存部と;
その検索可能な資産とその語彙情報の間での照合を補助するための、資産保存部内の検索可能な資産を分類する分類部と、その照合は、少なくとも部分的には、その語彙知識ベース内に含まれる意味概念に割り当てられた識別子に基づいており;および、
その検索可能な資産に対してクエリーを受信および実行する検索エンジンと、
を有する。
【請求項2】
請求項1のシステムにおいて、その検索エンジンは:
少なくとも一つ以上の書記法または正字法表現形式による一つ以上の文字を用いて表されたテキスト表現を有する検索クエリーを受信すること;
受信した検索クエリーを正規化すること、その正規化することは複数の表し方が可能な任意の文字を標準表現形式に変換することを含んでおり;
正規化された検索クエリーをトークン化すること、そのトークン化することはテキスト表現を一つ以上のトークンに分離することを含んでおり;
語彙知識ベースに基づいてトークン化された検索クエリーの各トークンに一致するものを確定すること;
一致するものの確定が不成功であった各トークンに対して、そのトークンを分割すること、その分割することは、そのトークンの識別された分割部分に対して付加的な照合を行うことを含んでおり;
確定された一致するものに対するトークンの組を用いて検索を実行すること;および
実行された検索からの結果の組を表示すること;
を含む方法を実行する。
【請求項3】
請求項1のシステムにおいて、語彙知識ベースを生成する方法は更に、下記のいずれか一つ以上を有する:
一つの主要な一般的な表現形式をその意味概念に対応付けること;
書記法に基づく一つ以上の表現形式をその意味概念に対応付けること;
文法に基づく一つ以上の表現形式をその意味概念に対応付けること;
一つ以上の発音異表記をその意味概念に対応付けること;
固有名詞の一つ以上の同義的表現形式をその意味概念に対応つけること;
任意のアラビア数字と片仮名の一つ以上の同義的表現形式をその意味概念に対応付けること;
ラテン語の文字で書かれた学名をその意味概念に対応付けること;
文化的に適切な一つ以上の同義的表現形式をその意味概念に対応付けること;
文化的に適切でない同義的表現形式を除外すること;および
文化的に妥当でない同義的表現形式を除外すること。
【請求項4】
少なくとも幾つかの意味概念の複合的な文語体異表記を有する言語のテキストと記号を使用して識別されたコンテンツを検索するコンピュータシステム内の方法において、その方法は:
言語に関連する少なくとも一つの書記法または正字法表現形式における一つ以上の文字を使用して表されたテキスト表現を有する検索クエリーを受信すること;
受信した検索クエリーを正規化すること、その正規化することは複数の表し方が可能な任意の文字を標準表現形式に変換することを含んでおり;
正規化された検索クエリーをトークン化すること、そのトークン化することはテキスト表現を一つ以上のトークンに分離することを含んでおり;
語彙知識ベースのコンテンツに基づいて、トークン化された検索クエリーの各トークンに対して一致するものを確定すること;
一致するものの確定が不成功であった各トークンを分割すること、その分割することはトークンの識別された分割部分に対して付加的な照合を行うことを含んでおり;
確定された一致するものに対するトークンの組を用いて検索を実行すること;および、
実行された検索の結果の組を表示すること;
を有する。
【請求項5】
請求項4の方法において、その言語は日本語である。
【請求項6】
請求項4の方法において、その言語は日本語以外の言語である。
【請求項7】
請求項4の方法において、その分割することは:
平仮名が後ろに続く漢字のグループを含むトークンを識別し、語彙知識ベース内に一致するものがあるか確認すること;
漢字だけ、平仮名だけ、または片仮名だけを含むトークンを識別し、語彙知識ベース内に一致するものがあるか確認すること;
漢字以外の文字だけ、平仮名以外の文字だけ、または片仮名以外の文字だけを含むトークンを識別し、語彙知識ベース内に一致するものがあるか確認すること;
一つ以上のストップワードが入っている平仮名の文字グループを含むトークンを識別すること;および、
照合が不成功の場合の漢字だけの任意のグループを分割すること;
の一つ以上を含む。
【請求項8】
複合的な文語体表現形式が関連付けられた複雑言語のテキストと記号を使用して識別されたコンテンツを検索するシステムにおいて、そのシステムは:
複雑言語に関連した語彙情報を保存するための語彙知識ベース、その語彙知識ベースは繰り返し可能な方法により生成または更新され、その方法は:
意味概念に識別子を割り当てること;
その意味概念に対する主要な文語体表現形式を識別すること、その主要な文語体表現形式は複合的な文語体表現形式の少なくとも一つに基づいており;
複雑言語に関連する複合的な文語体表現形式の少なくとも一つに対して、少なくとも一つの同義的文語体表現形式をその意味概念に対応付けること、その同義的文語体表現形式は少なくとも部分的には主要な文語体表現形式と異なっており;および、
その識別子、その主要な文語体表現形式、および少なくとも一つの同義的文語体表現形式を、システムに関連するデータ保存部に保存すること、を有しており;
検索可能な資産に対応付けられた情報を保存する資産保存部;および、
検索可能な資産に対するクエリーを受信して実行する検索エンジン、その実行は少なくとも部分的には語彙知識ベース内のコンテンツに基づくものである;
を有する。
【請求項9】
請求項8のシステムはさらに、検索可能な資産と語彙情報の間の照合を補助するために、資産保存部の中の検索可能な資産を分類する分類部を有する。
【請求項10】
請求項8のシステムにおいて、資産保存部は画像に対応したデータを保存する。
【請求項11】
請求項8のシステムにおいて、資産保存部は文書に対応したデータを保存する。
【請求項12】
請求項8のシステムにおいて、語彙知識ベースはメタデータ保存部の一構成部であり、そのメタデータ保存部は更に、語彙データベースの概念と資産保存部の資産との関係性に関する情報を保存する概念−資産保存部を有する。
【請求項13】
請求項8のシステムにおいて、語彙知識ベースは、階層の下層部に位置付けられている概念は上層部に位置付けられている概念よりも特定性を与えるように階層的に構成されている。
【請求項14】
請求項8のシステムにおいて、識別された主要な文語体表現形式は検索のためのキーワードとして識別子が付けられる。
【請求項15】
請求項8のシステムにおいて、その言語は日本語であり、複合的な文語体表現形式は漢字表現形式体系、片仮名表現形式体系、平仮名表現形式体系、送り仮名異表記、およびローマ字の文語体表現形式を含む。
【請求項16】
コンテンツを取得するためにクエリーを実行する際に使用される語彙保存部を生成または更新する方法であり、そのクエリーは複合的な文語体表現形式が関連する複雑言語で与えられており、その方法は:
複合的な文語体表現形式の少なくとも一つに基づく主要な表現形式を意味概念に対して識別すること;
少なくともその主要な表現形式に関係付けられる識別子を意味概念に対して割り当てること;
少なくとも一つの同義的な異表記をその意味概念に対応付けること、その少なくとも一つの同義的な文語体異表記は少なくとも部分的にその主要な表現形式と異なっており;および、
複雑言語での検索クエリーが与えられたときに、資産を検索するように構成された検索エンジンがアクセス可能なデータ保存部に、その識別子、その主要な表現形式、およびその少なくとも一つの同義的な異表記を記憶すること;
を有する。
【請求項17】
請求項16の方法はさらに、付加的な意味概念のために、前記識別すること、前記割り当てること、前記対応付けること、および前記記憶すること、を繰り返すことを有する。
【請求項18】
請求項16の方法において、意味概念に対して主要な表現形式を識別すること、および少なくとも一つの同義的な異表記をその意味概念に対して関係付けることは:
書記法に基づく表現形式の一つ以上をその意味概念に関係付けること;
文法に基づく表現形式の一つ以上をその意味概念に関係付けること;
発音表現形式の一つ以上をその意味概念に対応付けること;
任意の固有名詞のための同義的な表現形式の一つ以上をその意味概念に対応付けること;
任意のアラビア数字と片仮名のための同義的な表現形式の一つ以上をその意味概念に対応付けること;
学名をラテン語の文字を用いてその意味概念に関係付けること;
文化的に適切な同義的な表現形式の一つ以上を対応付けること;
文化的に適切でない同義的な表現形式を除外すること;および
文化的に妥当でない同義的な表現形式を除外すること;
を有する。
【請求項19】
複雑言語で表現可能な意味概念に関するデータ構造を含んでいるコンピュータで読み取り可能な媒体において、そのデータ構造は:
その意味概念に対応付けられている識別子情報;
その意味概念に対して主要なテキスト表現形式を識別する情報、その主要なテキスト表現形式はその複雑言語に関する第1書記法のタイプに基づいており;および
その複雑言語に関する第2書記法のタイプに基づく少なくとも一つの同義的なテキスト表現形式をその意味概念に関係付ける情報;を含んでおり、
前記第2書記法のタイプは、前記第1書記法のタイプとは少なくとも部分的に異なっており、
前記データ構造はその複雑言語に基づく検索クエリーと資産の照合を補助するように構成されている。
【請求項20】
請求項19のコンピュータで読み取りが可能な媒体は、そのコンテンツを受信するコンピュータネットワーク内の論理的接続点である。
【請求項21】
請求項19のコンピュータで読み取りが可能な媒体は、コンピュータで読み取り可能なディスクである。
【請求項22】
請求項19のコンピュータで読み取りが可能な媒体は、コンピュータシステムのメモリである。
【請求項23】
検索クエリーを実行するために、コンピュータに実装された方法において、その方法は:
テキスト表現を含む検索クエリーを受信すること、そのテキスト表現は、少なくとも場合によっては単語と自律した言語単位間の個別の境界がない言語で書かれており;
そのテキスト表現が、複合的な正字法表現形式または書記法を有する言語に関する語彙情報を記憶している構造化語彙知識ベースに関係付けられているキーワードまたは同義語を含むか否かを確定すること;および
そのテキスト表現が構造化語彙知識ベースに関係付けられているキーワードまたは同義語を有していない場合は、そのテキスト表現に対して分割を行うこと、その分割は、そのテキスト表現を体系的に二つ以上の分割部分に分け、そのテキスト表現とその二つ以上の分割部分に基づいて語彙知識から少なくとも一つのキーワードを識別することを含んでいる;
を有する。
【請求項24】
請求項23の方法において、その体系的な分割は、キーワードではない予め決められたストップワードを識別することを含み、その予め決められたストップワードの少なくとも幾つかは前置詞である。
【請求項25】
請求項23の方法において、その体系的な分割は、そのテキスト表現が意図する意味を失わないようにそのテキスト表現をできる限り長い分割部分に分割することを含む。
【請求項26】
請求項23の方法において、その体系的な分割は、言語の規則および考案された規則の両方の適用を含む。
【請求項27】
請求項23の方法において、その体系的な分割は、キーワードではない予め決められたストップワードを識別することを含み、その予め決められたストップワードの少なくとも幾つかは、検索クエリーを実行するために使用されるブール値を表す。
【請求項28】
請求項23の方法において、その言語は日本語であり、テキスト表現全体が構造化語彙知識ベースに関連するキーワードまたは同義語を有しているか否かを確定し、その構造化語彙知識ベースは、平仮名が後ろに続く漢字のグループの中で一致するものを確認することを含む。
【請求項29】
請求項23の方法において、その言語は日本語であり、テキスト表現全体が構造化語彙知識ベースに関連するキーワードまたは同義語を有しているか否かを確定し、その構造化語彙知識ベースは、漢字だけ、平仮名だけ、片仮名だけ、および漢字以外の文字、平仮名以外の文字、片仮名以外の文字だけの文字グループの中で一致するものを確認することを含む。
【請求項30】
請求項23の方法において、その体系的な分割はWXYZというテキスト表現をWXY、XYZ、WX、XY、YZ、W、X、Y、Zに分割することを含んでおり、W、X、Y、Zはその言語に関する文字または文字の自律的なグループを表す。
【請求項31】
請求項23の方法において、検索クエリーはネットワーク接続により受信される。
【請求項32】
コンピュータシステムで使用可能なコンピュータメモリに記憶されている構造化語彙であり:
複合的なデジタルメディア資産;および、
複合的なキーワードを有しており、
少なくとも幾つかのデジタルメディア資産はキーワードおよびそのキーワードの異表記の少なくとも一つに対応付けられるように、そのキーワードはその用語間に特有の関係性に従った構造化語彙の順に並べられており、
各デジタルメディア資産は、識別子に対応付けられており、その識別子の一つに対応付けられたキーワードまたはそのキーワードの少なくとも一つの異表記と要求された用語を照合することによって識別されることができる。
【請求項33】
請求項32の構造化語彙であって、その構造化語彙は移植可能であり、任意の特定のコンピュータアプリケーション内での使用に制限されない。
【請求項34】
構造化語彙のキーワード用語に従って分類された複数のメディアコンテンツ単位を有する第2のコンピュータシステムから、メディアコンテンツ単位を取得するための、第1のコンピュータシステム内の方法において:
メディアコンテンツ単位に対する要求を送信すること、その要求は検索用語を特定するものであり;および
特定された検索用語に該当する少なくとも一つのメディアコンテンツ単位のしるしを受信することを有し、
その検索用語は、構造化語彙内に置かれており、その検索用語に該当する少なくとも一つのメディアコンテンツ単位を確定するために使用され、
その検索用語に該当する少なくとも一つのメディアコンテンツ単位を確定することを補助するためにその検索用語の正字法の変形が自動的に提供される。
【請求項35】
請求項34の方法において、構造化語彙のキーワード用語は、夫々の用語と夫々の他の用語の関係性が並び方において固有のものとなるような順序で並べられる。
【請求項36】
データベース内のデータを検索するためにコンピュータに実装された方法において、その方法は:
検索クエリー用語を含む検索要求を受信すること;
その検索クエリー用語の任意の正字法の変形を自動的に確定すること;および
その検索クエリー用語と、その検索クエリー用語の任意の正字法の変形に基づいて、そのデータベースの検索を行うことを有する。
【請求項37】
請求項36の方法において、その検索要求は日本語テキストの少なくとも一つの正字法表現形式を含む。
【請求項38】
請求項36の方法において、その検索要求は韓国語テキストの少なくとも一つの正字法表現形式を含む。
【請求項39】
請求項36の方法において、その検索要求は中国語テキストの少なくとも一つの正字法表現形式を含む。
【請求項40】
請求項36の方法において、その検索の実行は、画像保存部に目録されている画像を検索する状況で行われる。
【請求項41】
請求項36の方法において、その検索の実行は、電子商取引またはインターネットによる小売で商品を検索する状況で行われる。
【請求項42】
請求項36の方法において、その検索の実行は、文書の中で単語や項目を検索する状況で行われる。
【請求項43】
請求項36の方法において、その検索の実行は、フリーテキスト検索エンジンの状況で行われる。
【請求項44】
請求項36の方法において、その検索の実行は、文書アーカイブから文書を取得する状況で行われる。

【図1】
image rotate

【図2A】
image rotate

【図2B】
image rotate

【図2C】
image rotate

【図2D】
image rotate

【図2E】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−248210(P2012−248210A)
【公開日】平成24年12月13日(2012.12.13)
【国際特許分類】
【外国語出願】
【出願番号】特願2012−179780(P2012−179780)
【出願日】平成24年8月14日(2012.8.14)
【分割の表示】特願2005−172147(P2005−172147)の分割
【原出願日】平成17年6月13日(2005.6.13)
【出願人】(505222727)ゲッティー イメージズ インコーポレイテッド (2)
【氏名又は名称原語表記】Getty Images, Inc.
【住所又は居所原語表記】601 North 34th Street, Seattle, WA 98103, U.S.A.