説明

文書をパージングするシステム及び方法

【課題】非常に高速であり、速度に対して精度を著しく犠牲にしないパーザシステムを提供する。
【解決手段】文書内のブレークキャラクタを使用して、文書を迅速にパーズし、そして文書を特徴付ける1つ以上のキーフレーズを文書から抽出する(44)ためのパージングシステム及び方法が提供される。文書内のブレークキャラクタは、句読点、ソフト終止ワード及びハード終止ワードのような明確なブレークキャラクタを含む(46)。文書内のどのフレーズが抽出されるかは、文書内のそのフレーズの後に現れるブレークキャラクタの形式によって左右される(52)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、文書を処理するためのシステム及び方法に係り、より詳細には、文書の文脈を指示する文書内の複数のフレーズを識別するためのシステム及び方法に係る。
【背景技術】
【0002】
コンピュータデータベースを使用したテキストデータ情報の広範囲な記憶及び検索には種々のファクタが作用している。コンピュータハードドライブのコストの低下に結び付いたハードドライブの記憶容量の急激な増加、及びコンピュータ通信の送信速度の増加がファクタとなっている。更に、コンピュータの処理速度の増加、及びブルテンボードやインターネットのようなコンピュータ通信ネットワークの拡張もファクタとなっている。それ故、人々は、これらデータベースに記憶された大量のテキストデータにアクセスすることができる。しかしながら、大量のテキストデータの記憶及び及びアクセスはテクノロジーによって容易になったが、現在入手できる大量のデータによって新たな問題が生じている。
【0003】
特に、大量のデータを有するコンピュータデータベースのテキストデータにアクセスしようとする人は、余計な情報を検索することなく希望の情報を迅速且つ効率的に検索するためにデータ分析システムを必要とする。更に、システムのユーザは、文書全体を実際に見ることなく文書を理解できるように、各大きな文書を、その文書を特徴付ける複数のフレーズ(1つ以上のワード)に凝縮するための効率的なシステムを必要とする。各文書を複数のキーフレーズに凝縮するためのシステムは、パージングシステム又はパーザとして知られている。
【0004】
1つの典型的なパーザでは、パーザが、文書内でしばしば繰り返されるフレーズを識別するよう試み、そして文書を特徴付けるフレーズをキーフレーズとして識別する。このようなシステムに伴う問題は、文書における各フレーズの繰り返しをカウントしなければならないので、非常に低速なことである。又、このシステムは、多量のメモリも必要とする。パーズされるべきデータの量が増加するにつれて、このパーザの低い速度が受け入れられないものとなる。別の典型的なパーザは、キーフレーズを識別するために3段階のプロセスを実行する。第1に、文書の各ワードに、そのワードのスピーチの部分(即ち、名詞、形容詞、副詞、動詞等)に基づいてタグが指定され、そしてスピーチのある部分、例えば、冠詞や形容詞は、その文書を特徴付けるフレーズのリストから除去される。次いで、ワードの1つ以上のシーケンス(テンプレート)を使用して、文書に何の理解も付加しないフレーズを識別しそして除去することができる。最終的に、スピーチの適当な部分であってテンプレートの1つに入らないフレーズは、文書を特徴付けるキーフレーズとして受け入れられる。しかし、この従来型のパーザも低速であり、パーズされるべきデータの量が増加するにつれて受け入れられない。
【0005】
これら従来の全てのパーザシステムにおいて、パーザは、文書内の特定ワードの特徴(繰り返しの頻度又はスピーチの部分)に基づいて、文書を小さな断片に分断するよう試みる。問題は、言語が一般に容易に分類されるものではないことであり、それ故、従来のパーザは、文書を正確にパーズせず、又は文書をパーズするのに長い時間を必要とする。更に、従来のパーザシステムは、どれも、文書からキーフレーズをパージングする方法として言語の複雑な特徴を利用しようと試みるために、非常に低速である。従来のパーザに伴うこれらの問題は、パーズされねばならない文書の数が増加するにつれて、よりシビアになる。今日、パーズされねばならない文書の数は、とりわけ、インターネットやワールドワイドウェブのために甚だしい割合で増加し続けている。それ故、これらの従来のパーザは、受け入れられない。従って、従来のパージングシステムに伴う上記問題及び制約を解消するパージングシステム及び方法を提供することが要望され、本発明は、この目的に向けられる。
【発明の開示】
【課題を解決するための手段】
【0006】
本発明によれば、センテンス又はパラグラフ内のブレークキャラクタを用いて文書を複数のキーフレーズにパーズするパーザシステム及び方法が提供される。
本発明によるパーザシステムは、非常に高速であり、速度に対して精度を著しく犠牲にしない。文書内のブレークキャラクタは、句読点、ある終止ワード、及び動詞及び冠詞のようなある形式のワードを含む。パーザシステムは、ブレークキャラクタを受け取る前に1つ以上のワードを受け取るバッファを備えている。このバッファがブレークキャラクタを受け取ると、パーザは、ブレークキャラクタの前のフレーズがセーブされるかどうかをブレークキャラクタの形式に基づいて決定する。特に、ブレークキャラクタが句読点である場合には、パーザは、ブレークキャラクタの前の1つ以上のワードをキーフレーズとして保持する。ブレークキャラクタが別の形式のキャラクタである場合には、ブレークキャラクタの前のフレーズがセーブされてもされなくてもよい。フレーズの使命が決定されると、バッファはフラッシュされ、1つ以上のワードの次のシーケンスがバッファに読み込まれ、それもパーズされる。このようにして、文書内の複数のフレーズが、文書のセンテンス及びパラグラフ内のブレークキャラクタに基づいて文書から迅速に抽出される。
【0007】
従って、本発明によれば、テキストの断片を、文書を特徴付ける1つ以上のフレーズにパージングするシステムが提供される。このシステムは、テキストの断片からの1つ以上のワードを読み込むためのバッファと、このバッファに含まれたフレーズを識別するためのパーザとを備え、上記フレーズは、ブレークキャラクタ間における2つ以上のワードのシーケンスである。パーザは、更に、識別されたフレーズに続くブレークキャラクタの形式を決定する手段と、ブレークキャラクタの決定された形式に基づいてバッファからキーフレーズをセーブする手段とを含む。キーフレーズは、データベースに記憶される。
【発明を実施するための最良の形態】
【0008】
本発明は、英語の文書をパージングするシステムに特に適用でき、本発明は、これについて説明する。しかしながら、本発明のシステム及び方法は、他の言語や、テキストデータの種々の異なる断片にも利用できることが明らかである。本発明をよく理解するために、テキスト処理システムについて以下に説明する。
図1は、テキスト処理システム10のブロック図である。このテキスト処理システム10は、パーザシステム12と、クラスタライザー14と、マップジェネレータ16と、データベース(DB)18とを備えている。このテキスト処理システムは、物語、新聞記事又は文書のようなテキストの1つ以上の断片を受け取り、そして文書内のキーフレーズ間の関係をグラフ的に示すマップを発生する。
テキストの各断片は、パーザシステム12によって受け取られ、該パーザシステムは、到来するテキストの各断片を処理し、そしてテキストの各断片に対しその断片を特徴付ける1つ以上のキーフレーズを発生する。これらキーフレーズは、データベース18に記憶される。パーザシステムに関する詳細は、図2ないし5を参照して説明する。テキストの各断片からキーフレーズが抽出されると、クラスタライザー14は、フレーズ間の関係に基づいてキーフレーズの1つ以上のクラスタを発生する。発生されたクラスタは、データベース18にも記憶される。
マップジェネレータ16は、発生されたクラスタをデータベース内のテキストの断片に対して使用して、データベースのテキストの種々の断片内のキーフレーズの互いに関係を示すグラフ的マップを発生し、システムのユーザがテキスト断片のキーフレーズを見ることによりデータベースを通して容易にサーチできるようにする。クラスタライザー及びマップジェネレータの詳細は、本発明の譲受人が所有する参考としてここに取り上げる米国特許出願第08/801,970号に開示されている。テキスト処理システムは、クライアントコンピュータがインターネットのような公衆コンピュータネットワークを経てサーバーにアクセスするようなクライアント/サーバー型コンピュータシステムを含む種々の形態で実施することができる。パーザ、クラスタライザー及びマップジェネレータは、テキスト処理システム10の中央処理ユニット(図示せず)により実行されるソフトウェアアプリケーションでよい。本発明によるパーザシステム12を以下に詳細に述べる。
【0009】
図2は、本発明によるパージングシステム12のブロック図である。パージングシステム12は、バッファ20と、パーザ22と、ルールデータベース(ルールDB)24とを備えている。バッファは、文書である到来するテキストの断片の1つ以上のワードを記憶し、これらワードは、ルールDB24に含まれたルールを使用してパーザ22により分析される。パーザシステム12の出力は、パーズされる文書を特徴付ける1つ以上のフレーズである(各フレーズは、1つ以上のワードを含む)。特に、パーザは、本発明により文書内のブレークキャラクタに基づいて文書内のフレーズを分離する。より詳細には、ブレークキャラクタが識別されるまで1つ以上のワードが文書からバッファに読み込まれる。従って、パーザシステム12は、ブレークキャラクタ間にあるフレーズを識別する。次いで、ブレークキャラクタの形式に基づいて、フレーズがキーフレーズとしてセーブされるか又は削除される。パーザシステム12は、例えば、サーバーコンピュータのマイクロプロセッサ(図示せず)によって実行されるソフトウェアの1つ以上の断片として実施されてもよく、サーバーコンピュータは、インターネット、ローカルエリアネットワーク又はワイドエリアネットワークのようなコンピュータネットワークを経て複数のクライアントコンピュータによりアクセスすることができる。パーザ22は、ブレークキャラクタを使用してテキストの断片からキーフレーズを迅速に抽出するのが効果的である。本発明によるブレークキャラクタについて以下に述べる。
【0010】
ブレークキャラクタは、句読点、数字、数字を含むワード及び終止ワードのような明確な中断を含む。終止ワードは、更に、ソフト終止ワード又はハード終止ワードとして分類される。これらの異なるブレークキャラクタを各々以下に説明する。明確なブレークキャラクタは、ピリオド、カンマ、セミコロン、コロン、感嘆符、右又は左のかっこ、左又は右の中かっこ、左又は右の大かっこ、リターンキャラクタ又はラインフィードキャラクタのような種々の句読記号を含む。終止キャラクタは、作成されたリストでもよいし、又はスラッシュ(/)及びアンパーサンド記号(@)を含んでもよい。数字、文字、外来文字、ブレークキャラクタ、アポストロフィー、ダッシュ及び他の終止キャラクタとして分離子が定義されてもよい。テキストの断片における種々のワードは、冠詞、接続詞、ハード及びソフト終止キャラクタ、語学上の指標、構文的分類、例えば、名詞、動詞、不規則動詞、形容詞及び副詞として分類されてもよい。
【0011】
テキスト断片におけるキャラクタをパージングするときには、常に、分離子がフレーズに追加される。ワードの始めにあるアポストロフィー又はダッシュは、ブレークキャラクタとして処理され(以下参照)、ワードの終りにあるアポストロフィー又はダッシュも、ブレークキャラクタとして処理され、そしてワードの中間にアポストロフィー又はダッシュをもつワードは、バッファ内のフレーズに追加される。全ての終止キャラクタ及びブレークキャラクタは、以下に述べるように終止キャラクタ及びブレークキャラクタとして処理される。ワードレベルのパージングにおいては、ワードの第1キャラクタが大文字かどうかテストすることにより適切な名詞が保持される。更に、大文字しかもたないワード及び数字のワードは、全て、バッファに保持される。任意であるが、数字のストリングは、終止キャラクタとして分類及び処理されてもよい。強制的なワードレベルパージングルールは、次の通りである。第1に、所有格「s」として続くワードは、削除される。例えば、センテンス「The cat's paw is wet.」が本発明によりパージングされるときには、「the」が削除され、そして「cat」がバッファに入れられ、次いで、ブレークキャラクタ(アポストロフィー)が検出されたときに削除される。アポストロフィーは、それが句読点であるために削除され、そして次にパーズされるべきキャラクタは、アポストロフィーの後の所有格「s」であり、これは、ワード「paw」と共に削除される。というのは、このワードは、所有格「s」に続くからである。フレーズの始めに現れる接続詞ワードも削除されるが、「The」が後に続く接続詞ワードは、バッファに保持される。ハード終止キャラクタの場合には、そのハード終止キャラクタに接続された最後のフレーズが削除され、そして残りのバッファが処理される。ソフト終止キャラクタは、ブレークキャラクタとして処理される。繰り返されるキャラクタは、終止キャラクタとして処理される。
【0012】
パージングに対して望ましくないワードを更に除去するために、ある任意のフレーズレベルのパージングルールを使用することができる。特に、6個のワードといった所定の長さより長いフレーズが削除されてもよいし、全て大文字のワードをもつフレーズが削除されてもよいし、そして全て数字のワードをもつフレーズが削除されてもよい。上記の全パージングルールは、図2に示すパージングルールデータベース24に記憶される。ここで、図3を参照して、パーザシステム12を詳細に説明する。
図3は、文書をパージングするための本発明の方法40を示すフローチャートである。この方法は、ステップ42において、文書の第1ワードが文書データベース又はサーバーのメモリからバッファにロードされたときに開始される。次いで、パーザは、ステップ44において、ワードがブレークキャラクタであるかどうか決定する。又、パーザは、パージングプロセスのこの段階において、あるキャラクタ又はワードを削除することもできる。ワードがブレークキャラクタでない場合には、ステップ42へ戻り、文書の次のワードがバッファに読み込まれる。ワードをバッファに読み込むこのプロセスは、ブレークキャラクタに遭遇するまで繰り返され、従って、バッファは、ワードのシーケンスの前にブレークキャラクタを有し且つワードのシーケンスの後にブレークキャラクタを有するワードのシーケンス(フレーズ)を含む。このようにして、文書は、ブレークキャラクタで互いに分離されたフレーズへとパーズされる。
【0013】
ブレークキャラクタに遭遇した場合には、パーザは、ステップ46において、そのブレークキャラクタが明確なブレークキャラクタであるかどうか決定し、そして明確なブレークキャラクタが存在する場合には、ステップ48においてそのブレークキャラクタを削除し、バッファに含まれたフレーズを抽出する。バッファから抽出されたフレーズは、将来の使用のためにデータベースに記憶される。
次いで、ステップ50において、バッファがフラッシュされてバッファからワードが除去され、そしてバッファは、ステップ42及び44において、別のブレークキャラクタが識別されるまで新たなワードをそこにロードし始める。ステップ46に戻ると、ブレークキャラクタが明確なブレークキャラクタでない場合に、パーザは、ステップ52において、ブレークキャラクタがソフト終止ワードであるかどうか決定する。ブレークキャラクタがソフト終止ワードである場合には、ステップ54において、ソフト終止ワードが削除されそしてバッファのフレーズがデータベースに記憶され、ステップ50においてバッファがフラッシュされ、そしてバッファには文書から新たなワードが補給される。ブレークキャラクタがソフト終止ワードでない(即ちブレークキャラクタがハード終止ワードである)場合には、そのハード終止ワード及びバッファのフレーズがステップ56において削除され、バッファはステップ50においてフラッシュされ、そしてステップ42及び44において文書から新たなワードが補給される。このように、文書からのフレーズは、本発明により、ブレークキャラクタ及びブレークキャラクタの形式を使用して抽出され、フレーズが互いに分離されると共に、どのフレーズをデータベースにセーブすべきか決定される。本発明によるパーザは、従来のシステムのように文書の各ワードを分析してキーフレーズを識別するように試みるものではなく、従来のパーザより非常に迅速に且つ従来のパーザと同程度の精度で文書からフレーズを抽出するものである。次に、図4及び図5A−5Lを参照して本発明によるパーザの動作例を説明する。
【0014】
図4は、本発明によるパージングシステムによりパーズされる文書60の一例であり、一方、図5A−5Lは、図4に示した文書60のパージング中におけるバッファの動作を示す。この例では、文書は、短い電子ニュースストーリーであるが、パーザは、他のテキスト断片からフレーズを抽出することもできる。実際に、本発明によるパーザは、1Mバイトデータ/秒までの速度で種々の形式の文書からフレーズを抽出することができる。図示された特定のストーリーは、NECにより開発された新規な「蛇状」ロボットについて述べている。図5A−Lは、上記ストーリーに対する本発明によるバッファの動作をテーブル68において示す。より詳細には、このテーブルの第1の欄70は、バッファに読み込まれた現在ワードを含み、第2の欄72は、本発明のパーザによるワードの形式の決定を含み、第3の欄74は、特定の時間におけるバッファの内容を含み、第4の欄76は、ワードインデックス(即ち文書から抽出されるフレーズ)を含み、そして第5の欄78は、パージングプロセスに関するコメントを含む。
【0015】
図5Aに示すように、バッファに読み込まれた第1ワードは、ストーリーの始めにある一連のアスタリスクであり、これは、パーザによりブレークワード(句読点)と分類され、バッファから削除される。次のワードは、「Computer」であり、これは、ブレークワードではないのでバッファに入力され、そして次のワード「Select」も、ブレークワードではないのでバッファに入力される。従って、バッファは、区分80に示すように、フレーズ「Computer Select」を含む。文書における次のワードは、カンマであり、パーザによりブレークキャラクタとして分類される。ブレークキャラクタは、句読点(明確な中断)であるから、ワードインデックス欄76に示すように、バッファのワードがデータベースにセーブされ、そしてバッファはフラッシュされる。ここで、新たなワードがバッファに読み込まれてパーズされる。バッファに読み込まれた次のワードは、「October」であり、これは、日付に関連したものであるからハード終止ワードであり、削除される。バッファにより受け取られる次のワードは「1995」であり、これは数字であるからブレークキャラクタであり、これも削除される。バッファにより受け取られる次のワードは「COPYRIGHT」であり、これは全て大文字であるから終止ワードとして識別され、削除される。次のワードは「Newsbytes」であり、これは、ブレークキャラクタではないので、バッファに記憶される。次のワード「Inc.」も、バッファに記憶される。次のワードは、ブレークキャラクタのピリオドであり、従って、バッファの内容「Newsbytes Inc.」が、ワードインデックス欄に示すようにデータベースにセーブされ、ブレークキャラクタが削除されそしてバッファがフラッシュされる。
【0016】
バッファによって受け取られる次の2つのワードは、「1995」と、一連のアスタリスクであり、これらは両方ともブレークワードであり削除される。バッファにより受け取られる次の2つのワードは、「Newsbytes」及び「Newsbytes」であり、これらは両方ともバッファに記憶される。次に受け取られるワードは、ハード終止ワードの「August」であり、従って、バッファの内容及びハード終止ワードは削除される。バッファにより受け取られる次の3つのワードは、全てブレークキャラクタ(即ち数字又は句読点)であり、削除される。次のワードは、区画82に数字を含むワードであり、これは、バッファに記憶されるが、次のキャラクタがブレークキャラクタであるときには削除される。というのは、バッファは単一のワードしか含まないからである。図5B−5Lから明らかなように、パージングプロセスは、文書全体にわたって続けられ、ワードインデックス欄76に示すように、キーフレーズのリストが文書から抽出されて、データベースにセーブされる。
【0017】
要約すれば、文書又はテキストの断片を特徴付けるフレーズが、本発明により文書から迅速に抽出される。本発明は、文書又はテキストの断片におけるブレークキャラクタを使用して、フレーズを互いに分離し、そして文書に対するキーフレーズを抽出する。上記の例では、抽出されたフレーズ、例えば、「Newsbytes Inc.」、「snake-like robot」、「NEC Corporation」、「robotically controlled electronic snake」、「disaster relief work」及び「world's first active universal joint」は、これらキーフレーズのみを見る人が、文書全体を見なくても文書の内容を理解できるようにする。本発明によるパージングシステムは、従来の他のパージングシステムよりも非常に迅速にキーフレーズの抽出を実行し、これは、パージングに用いられるテキストデータ及び文書の全量が、例えばインターネットユーザの急増により指数関数的な割合で増加したときに、重要となる。
以上、本発明の特定の実施形態を参照して詳細に説明したが、当業者であれば、本発明の精神及び範囲から逸脱せずに種々の変更がなされ得ることが明らかであろう。従って、本発明の範囲は、特許請求の範囲のみによって限定されるものとする。
【図面の簡単な説明】
【0018】
【図1】テキスト処理システムのブロック図である。
【図2】本発明によるパージングシステムのブロック図である。
【図3】文書をパージングするための本発明の方法を示すフローチャートである。
【図4】本発明のパージングシステムによりパーズされるべき文書の一例を示す図である。
【図5A】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5B】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5C】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5D】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5E】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5F】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5G】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5H】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5I】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5J】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5K】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図5L】図4に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【符号の説明】
【0019】
10 テキスト処理システム
12 パーザシステム
14 クラスタライザー
16 マップジェネレータ
18 データベース
20 バッファ
22 パーザ
24 ルールデータベース

【特許請求の範囲】
【請求項1】
テキストの断片を、文書を特徴付ける1つ以上のフレーズへとパージングするシステムにおいて、
ブレークキャラクタが識別されるまでテキストの断片からの1つ以上のワードを読み込むためのバッファを備え、
上記バッファに含まれたフレーズを識別するためのパーザを備え、上記フレーズは、ブレークキャラクタ間における2つ以上のワードのシーケンスであり、
上記パーザは、識別されたフレーズに続くブレークキャラクタの形式を決定する手段と、ブレークキャラクタの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズを処理する手段とを含み、上記ブレークキャラクタの形式は、ソフト終止ブレークキャラクタ、明確な終止ブレークキャラクタ及びハード終止ブレークキャラクタのうちの1つから成る、
ことを特徴とするシステム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5A】
image rotate

【図5B】
image rotate

【図5C】
image rotate

【図5D】
image rotate

【図5E】
image rotate

【図5F】
image rotate

【図5G】
image rotate

【図5H】
image rotate

【図5I】
image rotate

【図5J】
image rotate

【図5K】
image rotate

【図5L】
image rotate


【公開番号】特開2008−251003(P2008−251003A)
【公開日】平成20年10月16日(2008.10.16)
【国際特許分類】
【出願番号】特願2008−63725(P2008−63725)
【出願日】平成20年3月13日(2008.3.13)
【分割の表示】特願2000−611158(P2000−611158)の分割
【原出願日】平成12年4月6日(2000.4.6)
【出願人】(501393287)セミオ コーポレイション (1)
【Fターム(参考)】