文書をパージングするシステム及び方法

【課題】非常に高速であり、速度に対して精度を著しく犠牲にしないパーザシステムを提供する。
【解決手段】文書内のブレークキャラクタを使用して、文書を迅速にパーズし、そして文書を特徴付ける１つ以上のキーフレーズを文書から抽出する(44)ためのパージングシステム及び方法が提供される。文書内のブレークキャラクタは、句読点、ソフト終止ワード及びハード終止ワードのような明確なブレークキャラクタを含む(46)。文書内のどのフレーズが抽出されるかは、文書内のそのフレーズの後に現れるブレークキャラクタの形式によって左右される(52)。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、一般に、文書を処理するためのシステム及び方法に係り、より詳細には、文書の文脈を指示する文書内の複数のフレーズを識別するためのシステム及び方法に係る。
【背景技術】
【０００２】
コンピュータデータベースを使用したテキストデータ情報の広範囲な記憶及び検索には種々のファクタが作用している。コンピュータハードドライブのコストの低下に結び付いたハードドライブの記憶容量の急激な増加、及びコンピュータ通信の送信速度の増加がファクタとなっている。更に、コンピュータの処理速度の増加、及びブルテンボードやインターネットのようなコンピュータ通信ネットワークの拡張もファクタとなっている。それ故、人々は、これらデータベースに記憶された大量のテキストデータにアクセスすることができる。しかしながら、大量のテキストデータの記憶及び及びアクセスはテクノロジーによって容易になったが、現在入手できる大量のデータによって新たな問題が生じている。
【０００３】
特に、大量のデータを有するコンピュータデータベースのテキストデータにアクセスしようとする人は、余計な情報を検索することなく希望の情報を迅速且つ効率的に検索するためにデータ分析システムを必要とする。更に、システムのユーザは、文書全体を実際に見ることなく文書を理解できるように、各大きな文書を、その文書を特徴付ける複数のフレーズ（１つ以上のワード）に凝縮するための効率的なシステムを必要とする。各文書を複数のキーフレーズに凝縮するためのシステムは、パージングシステム又はパーザとして知られている。
【０００４】
１つの典型的なパーザでは、パーザが、文書内でしばしば繰り返されるフレーズを識別するよう試み、そして文書を特徴付けるフレーズをキーフレーズとして識別する。このようなシステムに伴う問題は、文書における各フレーズの繰り返しをカウントしなければならないので、非常に低速なことである。又、このシステムは、多量のメモリも必要とする。パーズされるべきデータの量が増加するにつれて、このパーザの低い速度が受け入れられないものとなる。別の典型的なパーザは、キーフレーズを識別するために３段階のプロセスを実行する。第１に、文書の各ワードに、そのワードのスピーチの部分（即ち、名詞、形容詞、副詞、動詞等）に基づいてタグが指定され、そしてスピーチのある部分、例えば、冠詞や形容詞は、その文書を特徴付けるフレーズのリストから除去される。次いで、ワードの１つ以上のシーケンス（テンプレート）を使用して、文書に何の理解も付加しないフレーズを識別しそして除去することができる。最終的に、スピーチの適当な部分であってテンプレートの１つに入らないフレーズは、文書を特徴付けるキーフレーズとして受け入れられる。しかし、この従来型のパーザも低速であり、パーズされるべきデータの量が増加するにつれて受け入れられない。
【０００５】
これら従来の全てのパーザシステムにおいて、パーザは、文書内の特定ワードの特徴（繰り返しの頻度又はスピーチの部分）に基づいて、文書を小さな断片に分断するよう試みる。問題は、言語が一般に容易に分類されるものではないことであり、それ故、従来のパーザは、文書を正確にパーズせず、又は文書をパーズするのに長い時間を必要とする。更に、従来のパーザシステムは、どれも、文書からキーフレーズをパージングする方法として言語の複雑な特徴を利用しようと試みるために、非常に低速である。従来のパーザに伴うこれらの問題は、パーズされねばならない文書の数が増加するにつれて、よりシビアになる。今日、パーズされねばならない文書の数は、とりわけ、インターネットやワールドワイドウェブのために甚だしい割合で増加し続けている。それ故、これらの従来のパーザは、受け入れられない。従って、従来のパージングシステムに伴う上記問題及び制約を解消するパージングシステム及び方法を提供することが要望され、本発明は、この目的に向けられる。
【発明の開示】
【課題を解決するための手段】
【０００６】
本発明によれば、センテンス又はパラグラフ内のブレークキャラクタを用いて文書を複数のキーフレーズにパーズするパーザシステム及び方法が提供される。
本発明によるパーザシステムは、非常に高速であり、速度に対して精度を著しく犠牲にしない。文書内のブレークキャラクタは、句読点、ある終止ワード、及び動詞及び冠詞のようなある形式のワードを含む。パーザシステムは、ブレークキャラクタを受け取る前に１つ以上のワードを受け取るバッファを備えている。このバッファがブレークキャラクタを受け取ると、パーザは、ブレークキャラクタの前のフレーズがセーブされるかどうかをブレークキャラクタの形式に基づいて決定する。特に、ブレークキャラクタが句読点である場合には、パーザは、ブレークキャラクタの前の１つ以上のワードをキーフレーズとして保持する。ブレークキャラクタが別の形式のキャラクタである場合には、ブレークキャラクタの前のフレーズがセーブされてもされなくてもよい。フレーズの使命が決定されると、バッファはフラッシュされ、１つ以上のワードの次のシーケンスがバッファに読み込まれ、それもパーズされる。このようにして、文書内の複数のフレーズが、文書のセンテンス及びパラグラフ内のブレークキャラクタに基づいて文書から迅速に抽出される。
【０００７】
従って、本発明によれば、テキストの断片を、文書を特徴付ける１つ以上のフレーズにパージングするシステムが提供される。このシステムは、テキストの断片からの１つ以上のワードを読み込むためのバッファと、このバッファに含まれたフレーズを識別するためのパーザとを備え、上記フレーズは、ブレークキャラクタ間における２つ以上のワードのシーケンスである。パーザは、更に、識別されたフレーズに続くブレークキャラクタの形式を決定する手段と、ブレークキャラクタの決定された形式に基づいてバッファからキーフレーズをセーブする手段とを含む。キーフレーズは、データベースに記憶される。
【発明を実施するための最良の形態】
【０００８】
本発明は、英語の文書をパージングするシステムに特に適用でき、本発明は、これについて説明する。しかしながら、本発明のシステム及び方法は、他の言語や、テキストデータの種々の異なる断片にも利用できることが明らかである。本発明をよく理解するために、テキスト処理システムについて以下に説明する。
図１は、テキスト処理システム１０のブロック図である。このテキスト処理システム１０は、パーザシステム１２と、クラスタライザー１４と、マップジェネレータ１６と、データベース（ＤＢ）１８とを備えている。このテキスト処理システムは、物語、新聞記事又は文書のようなテキストの１つ以上の断片を受け取り、そして文書内のキーフレーズ間の関係をグラフ的に示すマップを発生する。
テキストの各断片は、パーザシステム１２によって受け取られ、該パーザシステムは、到来するテキストの各断片を処理し、そしてテキストの各断片に対しその断片を特徴付ける１つ以上のキーフレーズを発生する。これらキーフレーズは、データベース１８に記憶される。パーザシステムに関する詳細は、図２ないし５を参照して説明する。テキストの各断片からキーフレーズが抽出されると、クラスタライザー１４は、フレーズ間の関係に基づいてキーフレーズの１つ以上のクラスタを発生する。発生されたクラスタは、データベース１８にも記憶される。
マップジェネレータ１６は、発生されたクラスタをデータベース内のテキストの断片に対して使用して、データベースのテキストの種々の断片内のキーフレーズの互いに関係を示すグラフ的マップを発生し、システムのユーザがテキスト断片のキーフレーズを見ることによりデータベースを通して容易にサーチできるようにする。クラスタライザー及びマップジェネレータの詳細は、本発明の譲受人が所有する参考としてここに取り上げる米国特許出願第０８／８０１，９７０号に開示されている。テキスト処理システムは、クライアントコンピュータがインターネットのような公衆コンピュータネットワークを経てサーバーにアクセスするようなクライアント／サーバー型コンピュータシステムを含む種々の形態で実施することができる。パーザ、クラスタライザー及びマップジェネレータは、テキスト処理システム１０の中央処理ユニット（図示せず）により実行されるソフトウェアアプリケーションでよい。本発明によるパーザシステム１２を以下に詳細に述べる。
【０００９】
図２は、本発明によるパージングシステム１２のブロック図である。パージングシステム１２は、バッファ２０と、パーザ２２と、ルールデータベース（ルールＤＢ）２４とを備えている。バッファは、文書である到来するテキストの断片の１つ以上のワードを記憶し、これらワードは、ルールＤＢ２４に含まれたルールを使用してパーザ２２により分析される。パーザシステム１２の出力は、パーズされる文書を特徴付ける１つ以上のフレーズである（各フレーズは、１つ以上のワードを含む）。特に、パーザは、本発明により文書内のブレークキャラクタに基づいて文書内のフレーズを分離する。より詳細には、ブレークキャラクタが識別されるまで１つ以上のワードが文書からバッファに読み込まれる。従って、パーザシステム１２は、ブレークキャラクタ間にあるフレーズを識別する。次いで、ブレークキャラクタの形式に基づいて、フレーズがキーフレーズとしてセーブされるか又は削除される。パーザシステム１２は、例えば、サーバーコンピュータのマイクロプロセッサ（図示せず）によって実行されるソフトウェアの１つ以上の断片として実施されてもよく、サーバーコンピュータは、インターネット、ローカルエリアネットワーク又はワイドエリアネットワークのようなコンピュータネットワークを経て複数のクライアントコンピュータによりアクセスすることができる。パーザ２２は、ブレークキャラクタを使用してテキストの断片からキーフレーズを迅速に抽出するのが効果的である。本発明によるブレークキャラクタについて以下に述べる。
【００１０】
ブレークキャラクタは、句読点、数字、数字を含むワード及び終止ワードのような明確な中断を含む。終止ワードは、更に、ソフト終止ワード又はハード終止ワードとして分類される。これらの異なるブレークキャラクタを各々以下に説明する。明確なブレークキャラクタは、ピリオド、カンマ、セミコロン、コロン、感嘆符、右又は左のかっこ、左又は右の中かっこ、左又は右の大かっこ、リターンキャラクタ又はラインフィードキャラクタのような種々の句読記号を含む。終止キャラクタは、作成されたリストでもよいし、又はスラッシュ（／）及びアンパーサンド記号（＠）を含んでもよい。数字、文字、外来文字、ブレークキャラクタ、アポストロフィー、ダッシュ及び他の終止キャラクタとして分離子が定義されてもよい。テキストの断片における種々のワードは、冠詞、接続詞、ハード及びソフト終止キャラクタ、語学上の指標、構文的分類、例えば、名詞、動詞、不規則動詞、形容詞及び副詞として分類されてもよい。
【００１１】
テキスト断片におけるキャラクタをパージングするときには、常に、分離子がフレーズに追加される。ワードの始めにあるアポストロフィー又はダッシュは、ブレークキャラクタとして処理され（以下参照）、ワードの終りにあるアポストロフィー又はダッシュも、ブレークキャラクタとして処理され、そしてワードの中間にアポストロフィー又はダッシュをもつワードは、バッファ内のフレーズに追加される。全ての終止キャラクタ及びブレークキャラクタは、以下に述べるように終止キャラクタ及びブレークキャラクタとして処理される。ワードレベルのパージングにおいては、ワードの第１キャラクタが大文字かどうかテストすることにより適切な名詞が保持される。更に、大文字しかもたないワード及び数字のワードは、全て、バッファに保持される。任意であるが、数字のストリングは、終止キャラクタとして分類及び処理されてもよい。強制的なワードレベルパージングルールは、次の通りである。第１に、所有格「ｓ」として続くワードは、削除される。例えば、センテンス「The cat's paw is wet.」が本発明によりパージングされるときには、「the」が削除され、そして「cat」がバッファに入れられ、次いで、ブレークキャラクタ（アポストロフィー）が検出されたときに削除される。アポストロフィーは、それが句読点であるために削除され、そして次にパーズされるべきキャラクタは、アポストロフィーの後の所有格「ｓ」であり、これは、ワード「paw」と共に削除される。というのは、このワードは、所有格「ｓ」に続くからである。フレーズの始めに現れる接続詞ワードも削除されるが、「The」が後に続く接続詞ワードは、バッファに保持される。ハード終止キャラクタの場合には、そのハード終止キャラクタに接続された最後のフレーズが削除され、そして残りのバッファが処理される。ソフト終止キャラクタは、ブレークキャラクタとして処理される。繰り返されるキャラクタは、終止キャラクタとして処理される。
【００１２】
パージングに対して望ましくないワードを更に除去するために、ある任意のフレーズレベルのパージングルールを使用することができる。特に、６個のワードといった所定の長さより長いフレーズが削除されてもよいし、全て大文字のワードをもつフレーズが削除されてもよいし、そして全て数字のワードをもつフレーズが削除されてもよい。上記の全パージングルールは、図２に示すパージングルールデータベース２４に記憶される。ここで、図３を参照して、パーザシステム１２を詳細に説明する。
図３は、文書をパージングするための本発明の方法４０を示すフローチャートである。この方法は、ステップ４２において、文書の第１ワードが文書データベース又はサーバーのメモリからバッファにロードされたときに開始される。次いで、パーザは、ステップ４４において、ワードがブレークキャラクタであるかどうか決定する。又、パーザは、パージングプロセスのこの段階において、あるキャラクタ又はワードを削除することもできる。ワードがブレークキャラクタでない場合には、ステップ４２へ戻り、文書の次のワードがバッファに読み込まれる。ワードをバッファに読み込むこのプロセスは、ブレークキャラクタに遭遇するまで繰り返され、従って、バッファは、ワードのシーケンスの前にブレークキャラクタを有し且つワードのシーケンスの後にブレークキャラクタを有するワードのシーケンス（フレーズ）を含む。このようにして、文書は、ブレークキャラクタで互いに分離されたフレーズへとパーズされる。
【００１３】
ブレークキャラクタに遭遇した場合には、パーザは、ステップ４６において、そのブレークキャラクタが明確なブレークキャラクタであるかどうか決定し、そして明確なブレークキャラクタが存在する場合には、ステップ４８においてそのブレークキャラクタを削除し、バッファに含まれたフレーズを抽出する。バッファから抽出されたフレーズは、将来の使用のためにデータベースに記憶される。
次いで、ステップ５０において、バッファがフラッシュされてバッファからワードが除去され、そしてバッファは、ステップ４２及び４４において、別のブレークキャラクタが識別されるまで新たなワードをそこにロードし始める。ステップ４６に戻ると、ブレークキャラクタが明確なブレークキャラクタでない場合に、パーザは、ステップ５２において、ブレークキャラクタがソフト終止ワードであるかどうか決定する。ブレークキャラクタがソフト終止ワードである場合には、ステップ５４において、ソフト終止ワードが削除されそしてバッファのフレーズがデータベースに記憶され、ステップ５０においてバッファがフラッシュされ、そしてバッファには文書から新たなワードが補給される。ブレークキャラクタがソフト終止ワードでない（即ちブレークキャラクタがハード終止ワードである）場合には、そのハード終止ワード及びバッファのフレーズがステップ５６において削除され、バッファはステップ５０においてフラッシュされ、そしてステップ４２及び４４において文書から新たなワードが補給される。このように、文書からのフレーズは、本発明により、ブレークキャラクタ及びブレークキャラクタの形式を使用して抽出され、フレーズが互いに分離されると共に、どのフレーズをデータベースにセーブすべきか決定される。本発明によるパーザは、従来のシステムのように文書の各ワードを分析してキーフレーズを識別するように試みるものではなく、従来のパーザより非常に迅速に且つ従来のパーザと同程度の精度で文書からフレーズを抽出するものである。次に、図４及び図５Ａ−５Ｌを参照して本発明によるパーザの動作例を説明する。
【００１４】
図４は、本発明によるパージングシステムによりパーズされる文書６０の一例であり、一方、図５Ａ−５Ｌは、図４に示した文書６０のパージング中におけるバッファの動作を示す。この例では、文書は、短い電子ニュースストーリーであるが、パーザは、他のテキスト断片からフレーズを抽出することもできる。実際に、本発明によるパーザは、１Ｍバイトデータ／秒までの速度で種々の形式の文書からフレーズを抽出することができる。図示された特定のストーリーは、ＮＥＣにより開発された新規な「蛇状」ロボットについて述べている。図５Ａ−Ｌは、上記ストーリーに対する本発明によるバッファの動作をテーブル６８において示す。より詳細には、このテーブルの第１の欄７０は、バッファに読み込まれた現在ワードを含み、第２の欄７２は、本発明のパーザによるワードの形式の決定を含み、第３の欄７４は、特定の時間におけるバッファの内容を含み、第４の欄７６は、ワードインデックス（即ち文書から抽出されるフレーズ）を含み、そして第５の欄７８は、パージングプロセスに関するコメントを含む。
【００１５】
図５Ａに示すように、バッファに読み込まれた第１ワードは、ストーリーの始めにある一連のアスタリスクであり、これは、パーザによりブレークワード（句読点）と分類され、バッファから削除される。次のワードは、「Computer」であり、これは、ブレークワードではないのでバッファに入力され、そして次のワード「Select」も、ブレークワードではないのでバッファに入力される。従って、バッファは、区分８０に示すように、フレーズ「Computer Select」を含む。文書における次のワードは、カンマであり、パーザによりブレークキャラクタとして分類される。ブレークキャラクタは、句読点（明確な中断）であるから、ワードインデックス欄７６に示すように、バッファのワードがデータベースにセーブされ、そしてバッファはフラッシュされる。ここで、新たなワードがバッファに読み込まれてパーズされる。バッファに読み込まれた次のワードは、「October」であり、これは、日付に関連したものであるからハード終止ワードであり、削除される。バッファにより受け取られる次のワードは「１９９５」であり、これは数字であるからブレークキャラクタであり、これも削除される。バッファにより受け取られる次のワードは「COPYRIGHT」であり、これは全て大文字であるから終止ワードとして識別され、削除される。次のワードは「Newsbytes」であり、これは、ブレークキャラクタではないので、バッファに記憶される。次のワード「Inc.」も、バッファに記憶される。次のワードは、ブレークキャラクタのピリオドであり、従って、バッファの内容「Newsbytes Inc.」が、ワードインデックス欄に示すようにデータベースにセーブされ、ブレークキャラクタが削除されそしてバッファがフラッシュされる。
【００１６】
バッファによって受け取られる次の２つのワードは、「１９９５」と、一連のアスタリスクであり、これらは両方ともブレークワードであり削除される。バッファにより受け取られる次の２つのワードは、「Newsbytes」及び「Newsbytes」であり、これらは両方ともバッファに記憶される。次に受け取られるワードは、ハード終止ワードの「August」であり、従って、バッファの内容及びハード終止ワードは削除される。バッファにより受け取られる次の３つのワードは、全てブレークキャラクタ（即ち数字又は句読点）であり、削除される。次のワードは、区画８２に数字を含むワードであり、これは、バッファに記憶されるが、次のキャラクタがブレークキャラクタであるときには削除される。というのは、バッファは単一のワードしか含まないからである。図５Ｂ−５Ｌから明らかなように、パージングプロセスは、文書全体にわたって続けられ、ワードインデックス欄７６に示すように、キーフレーズのリストが文書から抽出されて、データベースにセーブされる。
【００１７】
要約すれば、文書又はテキストの断片を特徴付けるフレーズが、本発明により文書から迅速に抽出される。本発明は、文書又はテキストの断片におけるブレークキャラクタを使用して、フレーズを互いに分離し、そして文書に対するキーフレーズを抽出する。上記の例では、抽出されたフレーズ、例えば、「Newsbytes Inc.」、「snake-like robot」、「NEC Corporation」、「robotically controlled electronic snake」、「disaster relief work」及び「world's first active universal joint」は、これらキーフレーズのみを見る人が、文書全体を見なくても文書の内容を理解できるようにする。本発明によるパージングシステムは、従来の他のパージングシステムよりも非常に迅速にキーフレーズの抽出を実行し、これは、パージングに用いられるテキストデータ及び文書の全量が、例えばインターネットユーザの急増により指数関数的な割合で増加したときに、重要となる。
以上、本発明の特定の実施形態を参照して詳細に説明したが、当業者であれば、本発明の精神及び範囲から逸脱せずに種々の変更がなされ得ることが明らかであろう。従って、本発明の範囲は、特許請求の範囲のみによって限定されるものとする。
【図面の簡単な説明】
【００１８】
【図１】テキスト処理システムのブロック図である。
【図２】本発明によるパージングシステムのブロック図である。
【図３】文書をパージングするための本発明の方法を示すフローチャートである。
【図４】本発明のパージングシステムによりパーズされるべき文書の一例を示す図である。
【図５Ａ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｂ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｃ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｄ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｅ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｆ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｇ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｈ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｉ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｊ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｋ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【図５Ｌ】図４に示す文書に対する本発明のパージングバッファの動作を説明する図である。
【符号の説明】
【００１９】
１０テキスト処理システム
１２パーザシステム
１４クラスタライザー
１６マップジェネレータ
１８データベース
２０バッファ
２２パーザ
２４ルールデータベース

【特許請求の範囲】
【請求項１】
テキストの断片を、文書を特徴付ける１つ以上のフレーズへとパージングするシステムにおいて、
ブレークキャラクタが識別されるまでテキストの断片からの１つ以上のワードを読み込むためのバッファを備え、
上記バッファに含まれたフレーズを識別するためのパーザを備え、上記フレーズは、ブレークキャラクタ間における２つ以上のワードのシーケンスであり、
上記パーザは、識別されたフレーズに続くブレークキャラクタの形式を決定する手段と、ブレークキャラクタの決定された形式に基づいて異なるパージングルールを使用して上記識別されたフレーズを処理する手段とを含み、上記ブレークキャラクタの形式は、ソフト終止ブレークキャラクタ、明確な終止ブレークキャラクタ及びハード終止ブレークキャラクタのうちの１つから成る、
ことを特徴とするシステム。

【図１】

【図２】

【図３】

【図４】

【図５Ａ】

【図５Ｂ】

【図５Ｃ】

【図５Ｄ】

【図５Ｅ】

【図５Ｆ】

【図５Ｇ】

【図５Ｈ】

【図５Ｉ】

【図５Ｊ】

【図５Ｋ】

【図５Ｌ】

【公開番号】特開２００８−２５１００３（Ｐ２００８−２５１００３Ａ）
【公開日】平成２０年１０月１６日（２００８．１０．１６）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
      - 自然言語データの取扱い (7,890)
        
        自動言語解析，例．構文解析，綴字訂正 (543)
        
        テキスト処理 (6,199)

【出願番号】特願２００８−６３７２５（Ｐ２００８−６３７２５）
【出願日】平成２０年３月１３日（２００８．３．１３）
【分割の表示】特願２０００−６１１１５８（Ｐ２０００−６１１１５８）の分割
【原出願日】平成１２年４月６日（２０００．４．６）
【出願人】（５０１３９３２８７）セミオ　コーポレイション (1)
【Ｆターム（参考）】

[ Back to top ]

文書をパージングするシステム及び方法

メニュー

スポンサーリンク

次の公報 »

« 前の公報

文書をパージングするシステム及び方法

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク