テキストパターン抽出を用いてＷｅｂ文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体

【課題】テキストパターン抽出を用いてＷｅｂ文書をリファインするための方法、システム及びコンピュータで読取可能な記録媒体を提供する。
【解決手段】複数の抽出対象資料を所定の基準で分析し、そのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき前記複数の抽出対象資料を並べて整列するテキストパターン抽出段階と、前記並べられ整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出段階と、前記抽出された正規式を用いてＷｅｂ文書をリファインして２次資料を生成するＷｅｂ文書リファイン段階とを含むＷｅｂ文書リファインメント方法。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキストパターン抽出を用いてＷｅｂ文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体に関し、より詳細には、Ｗｅｂ文書に基づきテキストパターンを抽出し、抽出されたテキストパターンを用いて全体のパターンを説明する正規式を抽出した後、抽出された正規式をＷｅｂ文書に適用しリファインするための方法、システム及びコンピュータ読み出し可能媒体に関する。
【背景技術】
【０００２】
インターネットの発達及び普及の増加によりインターネットを用いた様々なサービスが提供されているが、そのうち代表的な例が検索サービスであると言える。このような検索サービスは、ユーザが検索しようとする単語又は単語の組み合わせをクエリとして入力すると、検索エンジンが入力されたクエリに対応する検索結果のテキスト（例えば、ユーザから入力された検索クエリを含むウェブサイト、記事、又は該当する検索クエリを含むファイル名を有するイメージなど）をユーザに提供するサービスを意味する。
【０００３】
このように、ユーザが検索したい内容を適切に提供するために、インターネット検索サービスの提供者は、ウェブクローラ又は別途で提供する入力手段などを用いて、このようなウェブサイトや記事などを予め収集した後、収集したウェブサイトや記事などから形態素解析などを通じてキーワードを抽出し、これに基づき索引作業を行った後、別途に保存し、ユーザがクエリを入力する際に、より速い速度で検索結果をユーザに提供するように具現したのが一般的である。
【０００４】
しかし、従来技術により収集されたウェブサイトや記事などに別途の加工を施さず、既存の形態素解析によるキーワード抽出及び索引作業を用いた場合、ユーザが入力したクエリと一致するキーワードが存在する検索結果のテキストに対して検索が一致すると判断し、無条件に提供することとなるが、このような検索結果のテキストの中にはユーザの検索意図とは一致しない内容が含まれる可能性がある。
【０００５】
例えば、ユーザが俳優の「木村拓哉」に関する記事を検索しようとし、クエリとして「木村拓哉」を入力した時、収集された記事の中に「木村拓哉」という名前の記者が存在し、記者名が記事の本文内に含まれている場合がある。この場合、ユーザの検索したい内容とは無関係の記事内容であっても、ユーザが入力したクエリと一致するキーワードが存在するため、検索結果のテキストに含まれ、ユーザに提供されるという問題点が発生するのである。図５ａを参照すると、ユーザがクエリ「木村拓哉」を入力した場合、赤色の長方形であるＡ部分に表示されたように、俳優の「木村拓哉」とは全く関係のない、記者名が「木村拓哉」である記事の内容が検索され、表示されることが分かる。
【０００６】
さらに、インターネット検索サービスの提供者が直接作成又は編集したウェブサイト或いは記事などと異なり、第三者によって作成された後、ウェブクローラなどによって収集されたウェブサイト等の場合、特定の形式に合わせて作成されているわけではなく、当該検索結果を別途の分類基準、例えば作成者又は作成地域などにより再分類するためには、手作業で直接確認し分類するしかなく、インターネット検索サービスの提供者が、ユーザに作成者又は作成地域などの別途の分類基準で整列して提供するのに困難が存在した。
【０００７】
したがって、このような検索上の誤謬防止及びより効率的な検索結果の提供のために、収集されたウェブサイトや記事などについて適切なリファインを行い、内容と関係のない部分を削除するか別途の基準により再分類し、インデックスにして整列するための技術が求められるが、従来は人による手作業以外にはこのような問題を解決する方法が存在していなかった。
【先行技術文献】
【特許文献】
【０００８】
【特許文献１】韓国特許０４３５４４２号公報
【特許文献２】特開２００５−１９００７４号公報
【特許文献３】韓国公開特許２００２−００８９６７７号公報
【発明の概要】
【発明が解決しようとする課題】
【０００９】
本発明の目的は、上述した従来技術の問題点を解決することにある。
【００１０】
本発明の他の目的は、収集されたウェブサイトや記事などについて適切なリファインを行ってユーザの検索したい内容と関係のない部分を削除することにより、検索結果に含まれる恐れのある誤謬を防止し、より正確な検索結果を提供することである。
【００１１】
また、本発明の他の目的は、収集されたウェブサイトや記事などを適切なリファインを介して日付、報道地域、又は記者名などの別途の基準により再分類するための内容を抽出し、これをインデックスにして検索または整列することにより、より多様かつ正確な検索結果を提供することである。
【課題を解決するための手段】
【００１２】
上述のような本発明の目的を達成し、以下の本発明の効果を奏するための、本発明の特徴的な構成は以下の通りである。
【００１３】
本発明の一実施形態に係るＷｅｂ文書リファイン方法は、複数の抽出対象資料を所定の基準で分析し、前記複数の抽出対象資料からテキストパターンを抽出し、前記抽出されたテキストパターンに基づき、前記複数の抽出対象資料を順序付けするテキストパターン抽出段階と、前記順序付けられた前記複数の抽出対象資料から正規式を抽出する正規式抽出段階と、前記抽出された正規式を用いてＷｅｂ文書をリファインし、２次資料を生成するＷｅｂ文書リファイン段階を行うことによって得られる。
【００１４】
本発明の他の実施例によると、Ｗｅｂ文書リファインシステムは、複数の抽出対象資料を所定の基準で分析し、前記複数の抽出対象資料からテキストパターンを抽出し、前記抽出されたテキストパターンに基づき、前記複数の抽出対象資料を順序付けするテキストパターン抽出手段と、前記順序付けられた前記複数の抽出対象資料から正規式を抽出する正規式抽出手段、及び前記抽出された正規式を用いてＷｅｂ文書をリファインし、２次資料を生成する正規式適用手段を含む。
【発明の効果】
【００１５】
本発明の実施例によると、収集されたウェブサイトや記事などの適切なリファインを行い、ユーザの検索したい内容と関係のない部分を削除することができるため、検索結果に含まれる恐れのある誤謬を防止し、より正確な検索結果を提供することができる。
【００１６】
また、本発明によると、収集されたウェブサイトや記事などの適切なリファインを行い、日付、報道地域、又は記者名などの別途の基準により再分類するための内容を抽出し、これをインデックスにして検索または整列することで、より多様で正確な検索結果を提供することができる。
【図面の簡単な説明】
【００１７】
【図１】本発明の一実施形態に係る収集されたＷｅｂ文書にテキストパターン抽出を介した正規式を適用してリファインし、これを用いて構築された検索データベースを用いた検索結果提供システムの全体的な構成を概略的に示す図面である。
【図２】本発明の一実施形態に係る検索結果提供システムの細部構成図である。
【図３】本発明の一実施形態に係る検索結果提供システム内の２次加工部の細部構成図である。
【図４】本発明の一実施形態に係るＷｅｂ文書リファインシステムで用いる頻度分析手段におけるＰＭＩ頻度を示すグラフである。
【図５ａ】従来技術における特定のクエリで検索される検索結果を図示する例示的な画面である。
【図５ｂ】本発明の一実施形態に係るＷｅｂ文書リファインシステムを用いて、特定のクエリで検索される検索結果を図示する例示的な画面である。
【図６ａ】本発明の一実施形態に係るＷｅｂ文書リファインシステムを用いて、報道地域に再分類され提供される結果を図示する例示的な画面である。
【図６ｂ】従来技術における検索を行い、記者名でクエリに該当した検索結果を図示する例示的な画面である。
【図６ｃ】本発明の一実施形態に係るＷｅｂ文書リファインシステムを用いて、記者名により再分類され、提供される検索結果を図示する例示的な画面である。
【図７】本発明の一実施形態に係るＷｅｂ文書リファインシステムの２次加工部における動作のフローチャートである。
【図８】多重配列アラインメント（ＭＳＡ、ＭｕｌｔｉｐｌｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ）技術を用いた遺伝子分析の結果の一実施例を示した画面である。
【発明を実施するための形態】
【００１８】
以下の本発明に対する詳細な説明は、本発明を実施可能な特定の実施形態を例示し、実施形態が図示される添付図面を参照する。これらの実施形態は、当業者が本発明を実施するのに十分であるよう詳細に説明される。本発明の多様な実施形態は、互いに異なるが、相互排他的である必要はない。例えば、ここに記載されている特定形状、構造及び特性は、一実施形態に関して本発明の精神及び範囲から外れない程度に他の実施形態で実現されることができる。また、それぞれの開示された実施形態内の個別の構成要素の位置又は配置は、本発明の精神及び範囲から外れない程度に変更されることができる。従って、以下の詳細な説明は、限定的なものではなく、本発明の範囲は、適切に説明されると、その請求項が主張すること及びその均等な全ての範囲として添付された特許請求の範囲によってのみ限定される。図面において類似した参照符号は、多くの側面にわたり同一かつ類似した機能を示す。
【００１９】
以下、本発明が属する技術分野で通常の知識を有した者が本発明を容易に実施できるようにするために、本発明の好ましい実施例に関して添付の図面を参照して詳細に説明する。
【００２０】
本発明の好ましい実施例において、用語「Ｗｅｂ文書」は、インターネットエクスプローラなどのウェブブラウザプログラムを直接又は間接的に用い、ワールドワイドウェブ（ＷｏｒｌｄＷｉｄｅＷｅｂ）を介して閲覧することのできる手動又は能動的なテキスト形式を全て含む広義の意味で用いられる。Ｗｅｂ文書のファイル形式（ｆｉｌｅｆｏｒｍａｔ）として主に、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）が用いられるが、必ずしもこれに限定されることなく、ＸＭＬ（ｅＸｔｅｎｓｉｂｌｅＭａｒｋｕｐＬａｎｇｕａｇｅ）、ＳＧＭＬ（ＳｔａｎｄａｒｄＧｅｎｅｒａｌｉｚｅｄＭａｒｋｕｐＬａｎｇｕａｇｅ）を含み、ウェブブラウザプログラムを用いて直接又は間接的に（プラグインやその他別途のプログラムと接続される場合も含む）閲覧することのできるテキスト形式であれば、全てＷｅｂ文書に該当する。ウェブブラウザプログラムを用いてＷｅｂ文書を閲覧するためには、一般的にＷｅｂ文書が位置するアドレスをＵＲＬで入力し、そのアドレス形式としてＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）が多く用いられるが、必ずしもこれに限定されない。Ｗｅｂ文書のコンテンツは特定形式に制限されず、一般的なテキストに限定されるものではなく、イメージ、音楽、動画、或いはこれらの結合などの様々な形態を含むことができる。また、Ｗｅｂ文書の出所による具体的な分類によると、Ｗｅｂ文書は一般的なＷｅｂ文書、広告、辞典、ブログ、ウェブサイト、ニュース、クラブ、イメージ、専門情報、本、地図、動画などを含んでもよく、これらに限定されない。前述の様々な出所及び形式を有するＷｅｂ文書を加工した「１次加工資料」、「２次加工資料」もまた様々な出所及び形式を有する。
【００２１】
また、本発明の実施形態における「リファイン」（ｒｅｆｉｎｅ）、「リファインメント」（ｒｅｆｉｎｅｍｅｎｔ）という用語は、Ｗｅｂ文書に所定の処理を施し変更されたＷｅｂ文書を導き出す作業を全て含む広義の意味で用いられる。ここで、リファインの一実施形態として既存のＷｅｂ文書から特定の単語や用語或いは部分を削除する作業を意味してもよく、または既存のＷｅｂ文書内部の特定の用語またはキーワードを抽出し、これに基づき索引作業を行って整列することができるようにデータベースを再構成する作業や、Ｗｅｂ文書の選別作業を意味してもよい、必ずしもこれに限定されるのではない。
【００２２】
また、本発明の明細書における好ましい実施形態の説明のために、Ｗｅｂ文書のコンテンツを新聞記事に仮定して以下説明するが、これはＷｅｂ文書が新聞記事に限定されることを意味するものではなく、その他の様々なコンテンツを有するＷｅｂ文書に対しても本発明が適用可能であることは明らかである。
【００２３】
全システムの構成
図１は、発明の一実施形態により、収集されたＷｅｂ文書に、テキストパターン抽出を介した正規式を適用してリファインし、これを用いて構築された検索データベースを用いた検索結果提供システムの全体的な構成を概略的に示す図面である。
【００２４】
図１に図示された通り、本発明の一実施形態による全システムは、検索データベースを含んでいる検索結果提供システム１００が、ネットワーク２００を通じて複数のユーザ端末装置３００及び複数のＷｅｂ文書サーバ４００と接続されている。
【００２５】
先ず、本発明の一実施形態によると、検索結果提供システム１００は、ユーザ端末装置３００から検索ワード、即ちクエリを受信し、これに基づき検索データベース（図示せず）を参照して検索を行った後、その結果から導き出される検索結果をユーザ端末装置３００に伝送する役目をする。また、検索結果提供システム１００は、複数のＷｅｂ文書サーバ４００から収集したＷｅｂ文書に対して所定の基準による分析を通じてテキストパターンを抽出し、１次加工資料から削除または別途の分類基準として索引作業が必要な部分を探索し、該当部分に対してテキストパターン抽出を用いた正規式の生成及び生成された正規式を１次加工資料に適用するリファイン過程を通じて２次加工資料を生成する役目もする。
【００２６】
また、本発明の一実施形態によると、ネットワーク２００は、有線及び無線といった通信態様と無関係に構成されてもよく、パーソナルエリアネットワーク（ＰＡＮ；ＰｅｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）、ローカルエリアネットワーク（ＬＡＮ；ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、メトロポリタンエリアネットワーク（ＭＡＮ；ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）、ワイドエリアネットワーク（ＷＡＮ；ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などの様々なネットワークで構成されてもよい。
【００２７】
一方、本発明の一実施形態にとるユーザ端末装置３００は、ユーザが所定のクエリに対する検索結果を提供されるためにネットワーク２００を介して検索結果提供システム１００と接続するための機能を含む入出力装置を意味し、デスクトップコンピュータだけでなく、ノートブックコンピュータ、ワークステーション、パームトップ（ｐａｌｍｔｏｐ）コンピュータ、携帯情報端末（ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔ：ＰＤＡ）、ウェブパッド、スマートフォンを含む移動通信端末機などのようにメモリ手段を備え、マイクロプロセッサを搭載し、演算能力を有したデジタル機器であれば本発明によるユーザ端末装置３００に含まれてよい。好ましくは、検索結果提供システム１００と接続し、クエリを入力して検索結果を提供されるために、ユーザ端末装置３００内のウェブブラウザを実行させ、使用することができることが望ましいが、必ずしもこれに限定されない。
【００２８】
また、本発明の一実施形態によるＷｅｂ文書サーバ４００は、検索結果提供システム１００が所定の方式を通じて収集するＷｅｂ文書を含んでいるウェブサーバであればよく、物理的に特定のサーバや、特定の内容／形式のＷｅｂ文書を扱うサーバに限定されるものではない。従って、検索結果提供システム１００がネットワーク２００を通じてアクセスし、Ｗｅｂ文書を収集することのできるウェブサーバは、全てこのＷｅｂ文書サーバ４００に含まれてよい。好ましくは、Ｗｅｂ文書サーバ４００で扱うＷｅｂ文書はニュース記事が記載されたＷｅｂ文書を含んでもよい。
【００２９】
検索結果提供システム
図２は、本発明の一実施形態による検索結果提供システム１００の細部構成図である。
【００３０】
図２を参照すると、本発明の一実施形態による検索結果提供システム１００は、送受信部１１０、検索部１２０、１次加工部１３０、２次加工部１４０及び検索データベース１５０を含んでもよい。
【００３１】
送受信部１１０は、ユーザ端末装置３００からクエリを受信し、検索部１２０に伝送し、検索部１２０から抽出された検索結果をユーザ端末装置３００に伝送する
【００３２】
検索部１２０は、送受信部１１０から受信したクエリにマッチする情報を２次加工資料が保存された検索データベース１５０から検索する。検索を通じて抽出される検索結果は、ユーザ端末装置３００へと送信するために送受信部１１０に伝送される。また、検索部１２０は、検索データベース１５０に保存された２次加工資料からクエリにマッチする情報を検索した後、導き出された検索結果に関する情報をデータベース１５０に保存された１次加工資料から抽出し、送受信部１１０に伝送してもよい。
【００３３】
１次加工部１３０は、Ｗｅｂ文書サーバ４００から既に収集されたＷｅｂ文書について、当該Ｗｅｂ文書から形態素解析などによりキーワードを抽出し、これに基づき索引作業を行って作成した１次加工資料を検索データベース１５０に保存する。ここで、Ｗｅｂ文書は、公知のウェブクローラにより収集されてもよく、形態素解析によるキーワード抽出及び索引作業も公知の方法により行われてもよい。
【００３４】
２次加工部１４０は、１次加工部１３０によりキーワード抽出及び索引作業が完了された１次加工資料を対象に、特定のトークンが登場する頻度が特定の数値以上である部分を抽出した後、これを対象に所定の基準による分析を通じてテキストパターンを抽出し、抽出されたパターンにより並べて整列し、整列された内容に基づき全体のパターンに適用する正規式を抽出する。また、２次加工部１４０は、抽出された正規式に基づき１次加工資料をリファインした結果を２次加工資料にして検索データベース１５０に保存することができる。２次加工部１４０の各構成要素に対する詳細な機能については、後述する。
【００３５】
検索データベース１５０は、Ｗｅｂ文書サーバ４００から既に収集されたＷｅｂ文書、１次加工部を経た１次加工資料及び２次加工部を経た２次加工資料、検索部１２０で検索して抽出した検索結果などを保存する空間を通称する。本発明の簡単な例示のために、図２には検索データベース１５０一つだけが図示されているが、本発明の他の実施形態において、前記の様々なデータが一つ以上の物理的に区分されるデータベースに保存可能であることは、本発明の属する分野における通常の知識を有する者において明らかである。また、１次加工資料及び２次加工資料はそれぞれ別個に存在していても両資料の同一の内容については互いに関係していてもよく、検索部１２０は、検索データベース１５０に保存された２次加工資料を通じて検索を行った後、検索結果は、これに関する１次加工資料から抽出して提供してもよい。
【００３６】
図２での送受信部１１０、検索部１２０、１次加工部１３０及び２次加工部１４０は、物理的に一つのハードウェア内で具現されることもでき、一部又はそのそれぞれが物理的に他のハードウェアに具現されることもでき、同一の機能を行う物理的に複数個存在するハードウェアが並列的に存在することもできる。このように本発明の各構成部が設けられたハードウェア又はデータベースの物理的な個数及び位置に限定されず、様々な方式で設計変更できるということは、本発明の属する技術分野における通常の知識を有する者において明らかである。
【００３７】
２次加工部
本発明の一実施形態による検索結果提供システム１００内の２次加工部１４０を図３を参照してより詳細に説明すると、２次加工部１４０は頻度分析手段１４１、テキストパターン抽出手段１４２、正規式抽出手段１４３及び正規式適用手段１４４を含むことができる。
【００３８】
ここで、本発明の一実施形態による頻度分析手段１４１は、１次加工部１３０によりキーワードの抽出及び索引作業が完了し検索データベース１５０又は別途のデータベースに保存されている１次加工資料を対象に特定のトークン（ｔоｋｅｎ、言彙分析の単位）が登場する頻度が１次加工資料のうちどの部分で特定の数値以上であるかを分析する。このような検討基準の好ましい一実施形態として、以下の数１を用いて特定クラスで所定トークンに該当するＰＭＩ（ＰｏｉｎｔｗｉｓｅＭｕｔｕａｌＩｎｆｏｒｍａｔｉｏｎ）値の推移を求めた後、ＰＭＩ値が特定の数値以上である部分を分析することができる。
【００３９】
【数１】

ここで、Ｐ（Ｗ）は、特定トークンの全体頻度を意味し、Ｐ（Ｗ│Ｃ）はクラスにおける特定トークンの頻度を意味する。一例として、クラスをニュース記事に特定すると、Ｗｅｂ文書全体における登場頻度よりもニュース記事においてより多く登場するトークンの場合（例えば、「新聞」又は「記者」など）、他のトークンの場合よりＰＭＩ値が相対的に高い可能性がある。
【００４０】
より具体的な例として、クラスがニュース記事である場合において記者名に該当するパターンを抽出するために、記者名付近に存在することのできるトークン、即ち「記者」という用語及び記者名以降に挿入できる記号である「）」に対するＰＭＩ値を求めると、図４のように示されることができる。図４のグラフにおいて横軸は、ニュース記事内おける位置を意味し、縦軸は、「記者」という用語及び記号「）」に対するＰＭＩ値を示し、ＰＭＩ値が特定の数値以上である部分は、斜線で表示されている。即ち１次加工資料であるニュース記事のうち、「記者」という用語及び記号「）」に対するＰＭＩ値が特定の数値以上である部分は、斜線で表示されたニュース記事のうち最初からＡで表示された所定部分まで、またＢで表示された所定部分からニュース記事の最後までに該当することが分かる。従って、図４で斜線で表示される該当部分（以下「抽出対象部分」とする）を対象に、テキストパターン抽出手段１４２でテキストパターンを抽出することができる。頻度分析手段１４１の役目は分析を通じて１次加工資料のうちテキストパターンを抽出するのに必要な抽出対象部分を選択する点にあるため、テキストパターン抽出手段１４２で１次加工資料全体ではなく特定部分のみに対して作業を進めることができるようにすることで、テキストパターン抽出手段１４２にかかる負荷（ｌоａｄ）を大幅に減少させることができる。
【００４１】
次に、本発明の一実施形態によるテキストパターン抽出手段１４２は、１次加工資料のうち前記頻度分析手段１４１から選ばれた特定トークンの頻度が特定の数値以上である抽出対象部分を所定の基準で分析してテキストパターンを抽出し、これに基づき抽出対象部分を１次元的に並べ整列できるよう機能する。テキストパターン抽出手段１４２の機能は、ＤＮＡを用いた遺伝子地図探しに必要な共通シーケンス（ｓｅｑｕｅｎｃｅ）抽出の核心技術であるＭｕｌｔｉｐｌｅＳｅｑｕｅｎｃｅＡｌｉｇｎｍｅｎｔ（ＭＳＡ）技術をそのモチーフとして導入し応用することができる。遺伝子地図は、Ａ、Ｔ、Ｇ、Ｃ四つのアルファベットが１次元のシーケンスに並べられた染色体の中にどのような遺伝子がどの位置にあるのかを示すものであり、ＭＳＡ技術を用いて共通する特徴（例えば、青い瞳の人）を有する複数のＤＮＡを並べ、並べられた複数のＤＮＡから共通のシーケンスを抽出し、それから共通する特徴（青い瞳）に対する遺伝子を抽出する。ＭＳＡ技術を用いた遺伝子分析結果の一実施形態である図８を参照すると、図８で図示された通り、複数のＤＮＡ並びを介した共通の特徴を探すことができる。前記で説明した遺伝子地図探しに用いられるＭＳＡ技術を応用したその具体的な例として、頻度分析手段１４１において「記者」という用語及び記号「）」に対するＰＭＩ値が特定の数値以上である部分として選択された抽出対象部分が以下の表１と同じであると仮定する。
【表１】

【００４２】
テキストパターン抽出手段１４２は、前記表１に該当する複数の抽出対象部分を所定の基準で分析してテキストパターンを抽出し、これに基づき複数の抽出対象部分を１次元的に並べ整列する。より具体的に、テキストパターン抽出手段１４２で使用できる所定の基準としては形態素解析でもよく、その他にもＣｈａｒｔ型、Ｗоｒｄ型、Ｂｙｔｅ型、韓国語や英語や日付などのＷоｒｄＴｙｐｅ、都市や時間や動物などの抽象化された概念やワード単位に、またはチャンク（Ｃｈｕｎｋ）やページ（ｐａｇｅ）などが用いられてもよいが、これに限定されず、前記並べた複数の基準を複合的に結合して使用することができる。また、分析時に特定の単語や用語などを保存しておいた別途のデータベースを参照してもよい。例えば、前記表１で「東京」、「大阪」、「横浜」及び「バンクーバー」が全て「地域」に該当する単語であり、予め別途のデータベースに保存されている場合、単語「バンクーバー」の場合には他の単語と文字数が相違しても、データベースを参照して同一に「地域」に該当する単語であることを分析し、表１に該当する複数の抽出対象部分は全て記号「（」以降に「地域」に該当する単語が位置するテキストパターンを有するということを把握することができる。また、他の例として、単語が記者名の場合で別途のデータベースに該当する単語が保存されていない場合においても、それが誰かの名前を示す固有名詞に該当するという分析をすることができる。
【００４３】
また、実質的に別途のデータベースに全ての単語を保存することはできないため、学習法（ヒューリスティック、ｈｅｕｒｉｓｔｉｃ）を用いてデータベースの内容を追加変更、削除してもよい。その例として、前記表１で「東京」、「大阪」、「横浜」のみが「地域」に該当する単語として予め別途のデータベースに保存されているとすると、表１の抽出対象部分のうち前記三つの文章全てが記号「（」以降に地域に該当する文字が位置し、その後に記号「＝」が位置することから、同一の形式、即ち記号「（」及び「＝」で囲まれた部分に位置する文字は地域名が出ると分析し、四つ目の文章で該当位置に位置した「バンクーバー」がデータベースに保存されていなくても地域名として認識し、用語「バンクーバー」をデータベースに追加することができ、この場合、今後新たな抽出対象部分に対する分析に「バンクーバー」を用いることができる。
【００４４】
また、新聞記事の場合、その形式（例えば、記者名を記者内容の前に記載したり、題名の後に記載したり、或いは記事の最後に記載したりするなどの記事作成形式）がその期間ごとに相違する可能性があるため、所定の基準で分析した後、そのテキストパターンを抽出して１次元的に並べて整列を行うために抽出対象部分の期間などを日付別や何週単位で限定するなどさまざまの基準を適用してもよく、用いられる基準は期間のみに限定されない。
【００４５】
このように、テキストパターン抽出手段１４２が表１に該当する抽出対象部分を所定の基準で分析し、そのパターンを抽出し、抽出されたパターンに基づき抽出対象部分を１次元的に並べて整列をした結果は、以下の表２のように示すことができる。
【００４６】
【表２】

表２で示される１次元的に並べて整列された結果により記者名付近に位置した括弧や等号などの記号の位置、報道地域、記者名に該当する部分がテキストパターンにより全て整列されたことがわかるし、単語「ＴＢＣ」は一部記事にのみ含まれた内容であるため、他の記事と対応する部分がなく、別途の位置に整列されるようになる。前記表２で示される結果は、図８で図示された遺伝子地図で用いられるＭＳＡ結果と類似していることを確認することができる。
【００４７】
次に、正規式抽出手段１４３では、前記テキストパターン抽出手段１４２を介してテキストパターンに基づき１次元的に並べられ、整列された内容に基づき一般化された式で表現することのできる正規式を抽出する。前記例に続いて前記表２で提示された内容に基づき以下の表３のように正規式を抽出することができる。
【００４８】
【表３】

表３で開示された正規式は、先ず、記号「（」が位置し、その後に２〜４文字の漢字又は日本語からなる単語が位置し（正規式＜漢字、日本語＞｛２、４｝で表示）、その次に、記号「＝」が位置し、その後に４文字の漢字からなる単語が位置（正規式＜漢字＞｛４｝で表示）することがわかる。続いて、「ＴＢＣ」のような単語が登場することがあるが、これは任意に、すなわち、一部の記事のみにおいて示されることがあるため、該当単語が該当位置に存在してもよいという意味で正規式「（ＴＢＣ）？」のように表現されてもよい。その次には、単語「記者」及び記号「）」が位置することになり、その後は別途の正規化することのできる内容が示されず、抽出しようとする記者名パターンとも関係ないため、正規式「.＊」のように表現されることができる。また、テキストパターン抽出手段１４２での別途のデータベースを参照して記号「（」後に位置する２〜４文字の漢字又は日本語からなる単語は報道地域を示し、記号「＝」後に位置する４文字の漢字からなる単語は記者名を示すことを判断し、該当内容を正規式に含めてもよい。もちろん、表３による正規式は表２における１次元的に並べられ整列された例に限定して抽出されたものであるため、そのテキストパターンによって並べて整列される内容により該当する正規式はいくらでも変化されることができ、正規式の表現方式は、前記表３に限定されないことは了承されなければならない。
【００４９】
最後に、本発明の一実施形態による正規式適用手段１４４は前記正規式抽出手段１４３により抽出された正規式を１次加工資料に対して適用してリファインした結果から、２次加工資料を生成する。正規式適用によるリファインの一例として、正規式適用手段１４４は１次加工資料から記者名を削除してもよく、表３で示した正規式を用いる場合、正規式適用手段１４４は１次加工資料のうち最初に出る記号「＝」のすぐ後に位置した４文字の漢字からなる単語が記者名に該当することを判断しているため、該当位置に存在する漢字からなる４文字を記者名として認識し、削除した後、２次加工資料にして検索データベース１５０又は別途のデータベースに保存してもよい。ここで、正規式適用手段１４４が正規式を適用してリファインするための対象は、１次加工部１３０によりキーワード抽出及び索引作業が完了された１次加工資料それ自体であるため、頻度分析手段１４１から選ばれた抽出対象部分とは異なる。このように、２次加工資料から記者名を削除した実施形態の場合、ユーザがクエリ「木村拓哉」を入力すると、検索部１２０は記者名が削除された２次加工資料から検索して検索結果を導出するようになるので、図５ｂのように、題名又は記事本文にクエリを含んでいる正確な記事のみを提供することができ、従来技術による検索結果である図５ａと異なる検索結果が表示されることが分かる。
【００５０】
正規式の適用の他の例として、正規式適用手段１４４は、記者名又は報道地域に基づき１次加工資料を再分類し、これをインデックスにして１次加工資料を加工した２次加工資料を生成してもよい。表３の正規式を用いる場合、正規式適用手段１４４は、１次加工資料の最初の記号「（」を確認し、その後に漢字又は日本語で２〜４文字が出る報道地域及びその後に記号「＝」が出ることを確認し、報道地域に該当する漢字又は日本語を基準に再分類し、これをインデックスとして設定した２次加工資料を生成したり、又は記号「＝」後に出る漢字からなる４文字の記者名に認識し、これを基準に再分類し、インデックスに設定した２次加工資料を生成してもよい。このように、報道地域を基準に再分類し、インデックスに設定した２次加工資料が生成された場合、ユーザの選択又はクエリの入力により特定報道地域、例えば「鹿児島」から作成された記事を検索部１２０で２次加工資料から検索して検索結果を導出することができるため、図６ａのように記事題名や本文の内容にかかわらず、報道地域が「鹿児島」である記事のみを正確に提供することができる。また、記者名を基準に再分類し、インデックスとして設定した２次加工資料が生成された場合、ユーザの選択又はクエリの入力により特定記者、例えば、「田中俊之」が作成した記事を検索部１２０で２次加工資料から検索して検索結果を導出するようになるため、図６ｃのように記事題名や本文の内容にかかわらず、記者名が「田中俊之」である記事のみを正確に提供することができ、これは従来技術による検索結果を示す図６ｂにおいては本文又は題名などに同名異人の名前がキーワードとして存在する場合、記者名が相違するとしても検索結果に含まれてしまうのと異なることがわかる。
【００５１】
前記の正規式適用の二つの例は、正規式適用手段１４４で正規式が適用される具体例を例示したに過ぎず、本発明の属する技術分野の標準的な技術及び当業者の技術常識によって、様々な方法により前記正規式適用の例を単独に、又は結合して使用したり、同一または類似した機能を行ったりできるように変形して使用することができる
【００５２】
図７は、本発明の一実施形態による２次加工部における動作フローチャートである。
【００５３】
図７に例示された一実施形態によると、２次加工部の頻度分析手段１４１はリファインしようとする複数のＷｅｂ文書、例えば、ニュース記事のうち特定トークン、例えば、記者名付近に位置することのできる用語又は記号である「記者」、「）」などを含む特定トークンが登場する頻度を求める（Ｓ１００）。ここで、前記頻度は、前記説明されたＰＭＩ値を用いて求められてもよい。
【００５４】
次に、頻度分析手段１４１は、求められた頻度が所定の数値以上である部分を抽出対象資料として選択する（Ｓ１１０）。
【００５５】
この後に、２次加工部のテキストパターン抽出手段１４２は、前記選択された抽出対象資料を形態素解析などを含む所定の基準により分析してそのテキストパターンを抽出し、これに基づき、複数の抽出対象部分を並べ、整列する（Ｓ１２０）。所定の基準により抽出対象資料を分析する際、特定単語又は用語などが保存された別途のデータベースを参照してもよく、ここで、別途のデータベースは、抽出対象資料の分析結果を反映する学習法（ヒューリスティック、ｈｅｕｒｉｓｔｉｃ）により変更し、アップデートしてもよい。
【００５６】
この後に、２次加工部の正規式抽出手段１４３は、並べられ整列された複数の抽出対象資料から正規式を抽出する（Ｓ１３０）。
【００５７】
この後に、２次加工部の正規式提供手段１４４は、前記抽出された正規式を用いてリファインしようとする複数のＷｅｂ文書から正規式に表現された特定用語又はキーワードの削除し、又はこれを基準にＷｅｂ文書を再分類してインデックスに設定するなどのリファインメントを経て２次資料を生成する（Ｓ１４０）。このように生成された２次資料は、ユーザによるクエリを受信した際、１次資料の代わりに検索対象となってもよい。
【００５８】
本発明による実施形態は様々なコンピュータ手段を通じて行われることのできるプログラム命令形態に具現され、コンピュータで読取可能な媒体に記録されることができる。前記コンピュータ読取可能媒体は、プログラム命令、データファイル、データ構造などを単独にまたは組み合わせて含むことができる。前記媒体に記録されるプログラム命令は本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェアの分野の当業者に公知され使用可能なものであることもできる。コンピュータで読取可能記録媒体の例としては、ハードディスク、フロッピー（登録商標）ディスク、及び磁気テープのような磁気媒体（ｍａｇｎｅｔｉｃｍｅｄｉａ）、ＣＤ−ＲＯＭ、ＤＶＤのような光記録媒体（ｏｐｔｉｃａｌｍｅｄｉａ）、フロプティカルディスク（Ｆｌｏｐｔｉｃａｌｄｉｓｋ）のような磁気−光媒体（ｍｅｇｎｅｔｏ−ｏｐｔｉｃａｌｍｅｄｉａ）及びロム（ＲＯＭ）、ラム（ＲＡＭ）、フラッシュメモリなどのようなプログラム命令を保存し、実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラにより作成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータにより実行可能な高級言語コードを含む。ハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同様である。
【００５９】
以上の通り、本発明では具体的な構成要素などのような発明特定事項と限られた実施形態及び図面により説明されたが、これは本発明のより全般的な理解のために提供されたものであり、本発明は上述の実施形態に限定されず、本発明の属する技術分野において通常の知識を有した者であれば、以上の記載から本発明の様々な修正及び変形が可能である。
【００６０】
したがって、本発明の思想は、上述した実施形態に限定されてはならず、特許請求の範囲だけでなく、特許請求の範囲と均等かつ等価的な変形である全てのものは、本発明の思想の範疇に属するといえる。

【特許請求の範囲】
【請求項１】
複数の抽出対象資料を所定の基準で分析し、そのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき前記複数の抽出対象資料を並べて整列するテキストパターン抽出段階と、
前記並べられ整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出段階と、
前記抽出された正規式を用いてＷｅｂ文書をリファインして２次資料を生成するＷｅｂ文書リファイン段階と
を含むＷｅｂ文書リファインメント方法。
【請求項２】
前記テキストパターン抽出段階よりも前に、
前記Ｗｅｂ文書のうち特定のトークンが登場する頻度を求め、前記頻度が所定の数値以上である箇所を前記抽出対象資料として選択する頻度分析段階をさらに含むことを特徴とする請求項１に記載のＷｅｂ文書リファインメント方法。
【請求項３】
前記頻度は、ＰＭＩ値を用いることを特徴とする請求項２に記載のＷｅｂ文書リファインメント方法。
【請求項４】
前記特定のトークンは、前記Ｗｅｂ文書中において記者名の近傍に位置する用語又は記号を含むことを特徴とする請求項２または請求項３に記載のＷｅｂ文書リファインメント方法。
【請求項５】
前記所定の基準は、形態素解析を含むことを特徴とする請求項１から請求項４のいずれかに記載のＷｅｂ文書リファインメント方法。
【請求項６】
前記テキストパターン抽出段階において、
さらに特定の単語又は用語が保存されたデータベースを参照し、前記抽出対象資料を分析することを特徴とする請求項１から請求項５のいずれかに記載のＷｅｂ文書のリファインメント方法。
【請求項７】
前記データベースは、前記抽出対象資料の分析結果を反映して内容が変更されることを特徴とする請求項６に記載のＷｅｂ文書リファインメント方法。
【請求項８】
前記Ｗｅｂ文書のリファインは、前記Ｗｅｂ文書から前記正規式に表現された特定の用語又はキーワードの削除、又はこれに基づき前記Ｗｅｂ文書を再分類してインデックスに設定することを含むことを特徴とする請求項１から請求項７のいずれかに記載のＷｅｂ文書リファインメント方法。
【請求項９】
前記Ｗｅｂ文書リファイン段階の後に、
ユーザ端末装置からクエリを受信し、前記クエリによる検索を前記２次資料を対象として行うことを特徴とする請求項１から請求項８のいずれかに記載のＷｅｂ文書リファインメント方法。
【請求項１０】
複数の抽出対象資料を所定の基準で分析してそのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき、前記複数の抽出対象資料を並べて整列するテキストパターン抽出手段と、
前記並べられ、整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出手段と、
前記抽出された正規式を用いてＷｅｂ文書をリファインし、２次資料を生成する正規式適用手段と
を含むことを特徴とするＷｅｂ文書リファインメントシステム。
【請求項１１】
前記Ｗｅｂ文書中において特定のトークンが登場する頻度を求め、前記頻度が特定の数値以上である箇所を前記抽出対象資料として選択する頻度分析手段をさらに含むことを特徴とする請求項１０に記載のＷｅｂ文書リファインメントシステム。
【請求項１２】
前記テキストパターン抽出手段は、
特定の単語又は用語が保存されたデータベースを参照し、前記抽出対象資料を分析することを特徴とする請求項１０または請求項１１に記載のＷｅｂ文書リファインメントシステム。
【請求項１３】
前記データベースは、前記抽出対象資料の分析結果を反映して内容が変更されることを特徴とする請求項１２に記載のＷｅｂ文書リファインメントシステム。
【請求項１４】
前記Ｗｅｂ文書のリファインは、前記Ｗｅｂ文書から前記正規式に表現された特定の用語又はキーワードの削除、又はこれに基づき前記Ｗｅｂ文書を再分類してインデックスに設定することを含むことを特徴とする請求項１０から請求項１３のいずれかに記載のＷｅｂ文書リファインメントシステム。
【請求項１５】
ユーザ端末装置から受信したクエリにより、前記２次資料を対象に検索を行う検索部をさらに含むことを特徴とする請求項１０から請求項１４のいずれかに記載のＷｅｂ文書リファインメントシステム。
【請求項１６】
請求項１から請求項９のいずれかに記載のＷｅｂ文書リファインメント方法の各段階をコンピュータ上で行うためのプログラムを記録したコンピュータで読取可能な記録媒体。

【図１】