説明

テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体

【課題】テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータで読取可能な記録媒体を提供する。
【解決手段】複数の抽出対象資料を所定の基準で分析し、そのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき前記複数の抽出対象資料を並べて整列するテキストパターン抽出段階と、前記並べられ整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出段階と、前記抽出された正規式を用いてWeb文書をリファインして2次資料を生成するWeb文書リファイン段階とを含むWeb文書リファインメント方法。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストパターン抽出を用いてWeb文書をリファインするための方法、システム及びコンピュータ読み出し可能記録媒体に関し、より詳細には、Web文書に基づきテキストパターンを抽出し、抽出されたテキストパターンを用いて全体のパターンを説明する正規式を抽出した後、抽出された正規式をWeb文書に適用しリファインするための方法、システム及びコンピュータ読み出し可能媒体に関する。
【背景技術】
【0002】
インターネットの発達及び普及の増加によりインターネットを用いた様々なサービスが提供されているが、そのうち代表的な例が検索サービスであると言える。このような検索サービスは、ユーザが検索しようとする単語又は単語の組み合わせをクエリとして入力すると、検索エンジンが入力されたクエリに対応する検索結果のテキスト(例えば、ユーザから入力された検索クエリを含むウェブサイト、記事、又は該当する検索クエリを含むファイル名を有するイメージなど)をユーザに提供するサービスを意味する。
【0003】
このように、ユーザが検索したい内容を適切に提供するために、インターネット検索サービスの提供者は、ウェブクローラ又は別途で提供する入力手段などを用いて、このようなウェブサイトや記事などを予め収集した後、収集したウェブサイトや記事などから形態素解析などを通じてキーワードを抽出し、これに基づき索引作業を行った後、別途に保存し、ユーザがクエリを入力する際に、より速い速度で検索結果をユーザに提供するように具現したのが一般的である。
【0004】
しかし、従来技術により収集されたウェブサイトや記事などに別途の加工を施さず、既存の形態素解析によるキーワード抽出及び索引作業を用いた場合、ユーザが入力したクエリと一致するキーワードが存在する検索結果のテキストに対して検索が一致すると判断し、無条件に提供することとなるが、このような検索結果のテキストの中にはユーザの検索意図とは一致しない内容が含まれる可能性がある。
【0005】
例えば、ユーザが俳優の「木村拓哉」に関する記事を検索しようとし、クエリとして「木村拓哉」を入力した時、収集された記事の中に「木村拓哉」という名前の記者が存在し、記者名が記事の本文内に含まれている場合がある。この場合、ユーザの検索したい内容とは無関係の記事内容であっても、ユーザが入力したクエリと一致するキーワードが存在するため、検索結果のテキストに含まれ、ユーザに提供されるという問題点が発生するのである。図5aを参照すると、ユーザがクエリ「木村拓哉」を入力した場合、赤色の長方形であるA部分に表示されたように、俳優の「木村拓哉」とは全く関係のない、記者名が「木村拓哉」である記事の内容が検索され、表示されることが分かる。
【0006】
さらに、インターネット検索サービスの提供者が直接作成又は編集したウェブサイト或いは記事などと異なり、第三者によって作成された後、ウェブクローラなどによって収集されたウェブサイト等の場合、特定の形式に合わせて作成されているわけではなく、当該検索結果を別途の分類基準、例えば作成者又は作成地域などにより再分類するためには、手作業で直接確認し分類するしかなく、インターネット検索サービスの提供者が、ユーザに作成者又は作成地域などの別途の分類基準で整列して提供するのに困難が存在した。
【0007】
したがって、このような検索上の誤謬防止及びより効率的な検索結果の提供のために、収集されたウェブサイトや記事などについて適切なリファインを行い、内容と関係のない部分を削除するか別途の基準により再分類し、インデックスにして整列するための技術が求められるが、従来は人による手作業以外にはこのような問題を解決する方法が存在していなかった。
【先行技術文献】
【特許文献】
【0008】
【特許文献1】韓国特許0435442号公報
【特許文献2】特開2005−190074号公報
【特許文献3】韓国公開特許2002−0089677号公報
【発明の概要】
【発明が解決しようとする課題】
【0009】
本発明の目的は、上述した従来技術の問題点を解決することにある。
【0010】
本発明の他の目的は、収集されたウェブサイトや記事などについて適切なリファインを行ってユーザの検索したい内容と関係のない部分を削除することにより、検索結果に含まれる恐れのある誤謬を防止し、より正確な検索結果を提供することである。
【0011】
また、本発明の他の目的は、収集されたウェブサイトや記事などを適切なリファインを介して日付、報道地域、又は記者名などの別途の基準により再分類するための内容を抽出し、これをインデックスにして検索または整列することにより、より多様かつ正確な検索結果を提供することである。
【課題を解決するための手段】
【0012】
上述のような本発明の目的を達成し、以下の本発明の効果を奏するための、本発明の特徴的な構成は以下の通りである。
【0013】
本発明の一実施形態に係るWeb文書リファイン方法は、複数の抽出対象資料を所定の基準で分析し、前記複数の抽出対象資料からテキストパターンを抽出し、前記抽出されたテキストパターンに基づき、前記複数の抽出対象資料を順序付けするテキストパターン抽出段階と、前記順序付けられた前記複数の抽出対象資料から正規式を抽出する正規式抽出段階と、前記抽出された正規式を用いてWeb文書をリファインし、2次資料を生成するWeb文書リファイン段階を行うことによって得られる。
【0014】
本発明の他の実施例によると、Web文書リファインシステムは、複数の抽出対象資料を所定の基準で分析し、前記複数の抽出対象資料からテキストパターンを抽出し、前記抽出されたテキストパターンに基づき、前記複数の抽出対象資料を順序付けするテキストパターン抽出手段と、前記順序付けられた前記複数の抽出対象資料から正規式を抽出する正規式抽出手段、及び前記抽出された正規式を用いてWeb文書をリファインし、2次資料を生成する正規式適用手段を含む。
【発明の効果】
【0015】
本発明の実施例によると、収集されたウェブサイトや記事などの適切なリファインを行い、ユーザの検索したい内容と関係のない部分を削除することができるため、検索結果に含まれる恐れのある誤謬を防止し、より正確な検索結果を提供することができる。
【0016】
また、本発明によると、収集されたウェブサイトや記事などの適切なリファインを行い、日付、報道地域、又は記者名などの別途の基準により再分類するための内容を抽出し、これをインデックスにして検索または整列することで、より多様で正確な検索結果を提供することができる。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態に係る収集されたWeb文書にテキストパターン抽出を介した正規式を適用してリファインし、これを用いて構築された検索データベースを用いた検索結果提供システムの全体的な構成を概略的に示す図面である。
【図2】本発明の一実施形態に係る検索結果提供システムの細部構成図である。
【図3】本発明の一実施形態に係る検索結果提供システム内の2次加工部の細部構成図である。
【図4】本発明の一実施形態に係るWeb文書リファインシステムで用いる頻度分析手段におけるPMI頻度を示すグラフである。
【図5a】従来技術における特定のクエリで検索される検索結果を図示する例示的な画面である。
【図5b】本発明の一実施形態に係るWeb文書リファインシステムを用いて、特定のクエリで検索される検索結果を図示する例示的な画面である。
【図6a】本発明の一実施形態に係るWeb文書リファインシステムを用いて、報道地域に再分類され提供される結果を図示する例示的な画面である。
【図6b】従来技術における検索を行い、記者名でクエリに該当した検索結果を図示する例示的な画面である。
【図6c】本発明の一実施形態に係るWeb文書リファインシステムを用いて、記者名により再分類され、提供される検索結果を図示する例示的な画面である。
【図7】本発明の一実施形態に係るWeb文書リファインシステムの2次加工部における動作のフローチャートである。
【図8】多重配列アラインメント(MSA、Multiple Sequence Alignment)技術を用いた遺伝子分析の結果の一実施例を示した画面である。
【発明を実施するための形態】
【0018】
以下の本発明に対する詳細な説明は、本発明を実施可能な特定の実施形態を例示し、実施形態が図示される添付図面を参照する。これらの実施形態は、当業者が本発明を実施するのに十分であるよう詳細に説明される。本発明の多様な実施形態は、互いに異なるが、相互排他的である必要はない。例えば、ここに記載されている特定形状、構造及び特性は、一実施形態に関して本発明の精神及び範囲から外れない程度に他の実施形態で実現されることができる。また、それぞれの開示された実施形態内の個別の構成要素の位置又は配置は、本発明の精神及び範囲から外れない程度に変更されることができる。従って、以下の詳細な説明は、限定的なものではなく、本発明の範囲は、適切に説明されると、その請求項が主張すること及びその均等な全ての範囲として添付された特許請求の範囲によってのみ限定される。図面において類似した参照符号は、多くの側面にわたり同一かつ類似した機能を示す。
【0019】
以下、本発明が属する技術分野で通常の知識を有した者が本発明を容易に実施できるようにするために、本発明の好ましい実施例に関して添付の図面を参照して詳細に説明する。
【0020】
本発明の好ましい実施例において、用語「Web文書」は、インターネットエクスプローラなどのウェブブラウザプログラムを直接又は間接的に用い、ワールドワイドウェブ(World Wide Web)を介して閲覧することのできる手動又は能動的なテキスト形式を全て含む広義の意味で用いられる。Web文書のファイル形式(file format)として主に、HTML(HyperText Markup Language)が用いられるが、必ずしもこれに限定されることなく、XML(eXtensible Markup Language)、SGML(Standard Generalized Markup Language)を含み、ウェブブラウザプログラムを用いて直接又は間接的に(プラグインやその他別途のプログラムと接続される場合も含む)閲覧することのできるテキスト形式であれば、全てWeb文書に該当する。ウェブブラウザプログラムを用いてWeb文書を閲覧するためには、一般的にWeb文書が位置するアドレスをURLで入力し、そのアドレス形式としてHTTP(HyperText Transfer Protocol)が多く用いられるが、必ずしもこれに限定されない。Web文書のコンテンツは特定形式に制限されず、一般的なテキストに限定されるものではなく、イメージ、音楽、動画、或いはこれらの結合などの様々な形態を含むことができる。また、Web文書の出所による具体的な分類によると、Web文書は一般的なWeb文書、広告、辞典、ブログ、ウェブサイト、ニュース、クラブ、イメージ、専門情報、本、地図、動画などを含んでもよく、これらに限定されない。前述の様々な出所及び形式を有するWeb文書を加工した「1次加工資料」、「2次加工資料」もまた様々な出所及び形式を有する。
【0021】
また、本発明の実施形態における「リファイン」(refine)、「リファインメント」(refinement)という用語は、Web文書に所定の処理を施し変更されたWeb文書を導き出す作業を全て含む広義の意味で用いられる。ここで、リファインの一実施形態として既存のWeb文書から特定の単語や用語或いは部分を削除する作業を意味してもよく、または既存のWeb文書内部の特定の用語またはキーワードを抽出し、これに基づき索引作業を行って整列することができるようにデータベースを再構成する作業や、Web文書の選別作業を意味してもよい、必ずしもこれに限定されるのではない。
【0022】
また、本発明の明細書における好ましい実施形態の説明のために、Web文書のコンテンツを新聞記事に仮定して以下説明するが、これはWeb文書が新聞記事に限定されることを意味するものではなく、その他の様々なコンテンツを有するWeb文書に対しても本発明が適用可能であることは明らかである。
【0023】
全システムの構成
図1は、発明の一実施形態により、収集されたWeb文書に、テキストパターン抽出を介した正規式を適用してリファインし、これを用いて構築された検索データベースを用いた検索結果提供システムの全体的な構成を概略的に示す図面である。
【0024】
図1に図示された通り、本発明の一実施形態による全システムは、検索データベースを含んでいる検索結果提供システム100が、ネットワーク200を通じて複数のユーザ端末装置300及び複数のWeb文書サーバ400と接続されている。
【0025】
先ず、本発明の一実施形態によると、検索結果提供システム100は、ユーザ端末装置300から検索ワード、即ちクエリを受信し、これに基づき検索データベース(図示せず)を参照して検索を行った後、その結果から導き出される検索結果をユーザ端末装置300に伝送する役目をする。また、検索結果提供システム100は、複数のWeb文書サーバ400から収集したWeb文書に対して所定の基準による分析を通じてテキストパターンを抽出し、1次加工資料から削除または別途の分類基準として索引作業が必要な部分を探索し、該当部分に対してテキストパターン抽出を用いた正規式の生成及び生成された正規式を1次加工資料に適用するリファイン過程を通じて2次加工資料を生成する役目もする。
【0026】
また、本発明の一実施形態によると、ネットワーク200は、有線及び無線といった通信態様と無関係に構成されてもよく、パーソナルエリアネットワーク(PAN;Pesonal Area Network)、ローカルエリアネットワーク(LAN;Local Area Network)、メトロポリタンエリアネットワーク(MAN;Metropolitan Area Network)、ワイドエリアネットワーク(WAN;Wide Area Network)などの様々なネットワークで構成されてもよい。
【0027】
一方、本発明の一実施形態にとるユーザ端末装置300は、ユーザが所定のクエリに対する検索結果を提供されるためにネットワーク200を介して検索結果提供システム100と接続するための機能を含む入出力装置を意味し、デスクトップコンピュータだけでなく、ノートブックコンピュータ、ワークステーション、パームトップ(palmtop)コンピュータ、携帯情報端末(personal digital assistant:PDA)、ウェブパッド、スマートフォンを含む移動通信端末機などのようにメモリ手段を備え、マイクロプロセッサを搭載し、演算能力を有したデジタル機器であれば本発明によるユーザ端末装置300に含まれてよい。好ましくは、検索結果提供システム100と接続し、クエリを入力して検索結果を提供されるために、ユーザ端末装置300内のウェブブラウザを実行させ、使用することができることが望ましいが、必ずしもこれに限定されない。
【0028】
また、本発明の一実施形態によるWeb文書サーバ400は、検索結果提供システム100が所定の方式を通じて収集するWeb文書を含んでいるウェブサーバであればよく、物理的に特定のサーバや、特定の内容/形式のWeb文書を扱うサーバに限定されるものではない。従って、検索結果提供システム100がネットワーク200を通じてアクセスし、Web文書を収集することのできるウェブサーバは、全てこのWeb文書サーバ400に含まれてよい。好ましくは、Web文書サーバ400で扱うWeb文書はニュース記事が記載されたWeb文書を含んでもよい。
【0029】
検索結果提供システム
図2は、本発明の一実施形態による検索結果提供システム100の細部構成図である。
【0030】
図2を参照すると、本発明の一実施形態による検索結果提供システム100は、送受信部110、検索部120、1次加工部130、2次加工部140及び検索データベース150を含んでもよい。
【0031】
送受信部110は、ユーザ端末装置300からクエリを受信し、検索部120に伝送し、検索部120から抽出された検索結果をユーザ端末装置300に伝送する
【0032】
検索部120は、送受信部110から受信したクエリにマッチする情報を2次加工資料が保存された検索データベース150から検索する。検索を通じて抽出される検索結果は、ユーザ端末装置300へと送信するために送受信部110に伝送される。また、検索部120は、検索データベース150に保存された2次加工資料からクエリにマッチする情報を検索した後、導き出された検索結果に関する情報をデータベース150に保存された1次加工資料から抽出し、送受信部110に伝送してもよい。
【0033】
1次加工部130は、Web文書サーバ400から既に収集されたWeb文書について、当該Web文書から形態素解析などによりキーワードを抽出し、これに基づき索引作業を行って作成した1次加工資料を検索データベース150に保存する。ここで、Web文書は、公知のウェブクローラにより収集されてもよく、形態素解析によるキーワード抽出及び索引作業も公知の方法により行われてもよい。
【0034】
2次加工部140は、1次加工部130によりキーワード抽出及び索引作業が完了された1次加工資料を対象に、特定のトークンが登場する頻度が特定の数値以上である部分を抽出した後、これを対象に所定の基準による分析を通じてテキストパターンを抽出し、抽出されたパターンにより並べて整列し、整列された内容に基づき全体のパターンに適用する正規式を抽出する。また、2次加工部140は、抽出された正規式に基づき1次加工資料をリファインした結果を2次加工資料にして検索データベース150に保存することができる。2次加工部140の各構成要素に対する詳細な機能については、後述する。
【0035】
検索データベース150は、Web文書サーバ400から既に収集されたWeb文書、1次加工部を経た1次加工資料及び2次加工部を経た2次加工資料、検索部120で検索して抽出した検索結果などを保存する空間を通称する。本発明の簡単な例示のために、図2には検索データベース150一つだけが図示されているが、本発明の他の実施形態において、前記の様々なデータが一つ以上の物理的に区分されるデータベースに保存可能であることは、本発明の属する分野における通常の知識を有する者において明らかである。また、1次加工資料及び2次加工資料はそれぞれ別個に存在していても両資料の同一の内容については互いに関係していてもよく、検索部120は、検索データベース150に保存された2次加工資料を通じて検索を行った後、検索結果は、これに関する1次加工資料から抽出して提供してもよい。
【0036】
図2での送受信部110、検索部120、1次加工部130及び2次加工部140は、物理的に一つのハードウェア内で具現されることもでき、一部又はそのそれぞれが物理的に他のハードウェアに具現されることもでき、同一の機能を行う物理的に複数個存在するハードウェアが並列的に存在することもできる。このように本発明の各構成部が設けられたハードウェア又はデータベースの物理的な個数及び位置に限定されず、様々な方式で設計変更できるということは、本発明の属する技術分野における通常の知識を有する者において明らかである。
【0037】
2次加工部
本発明の一実施形態による検索結果提供システム100内の2次加工部140を図3を参照してより詳細に説明すると、2次加工部140は頻度分析手段141、テキストパターン抽出手段142、正規式抽出手段143及び正規式適用手段144を含むことができる。
【0038】
ここで、本発明の一実施形態による頻度分析手段141は、1次加工部130によりキーワードの抽出及び索引作業が完了し検索データベース150又は別途のデータベースに保存されている1次加工資料を対象に特定のトークン(tоken、言彙分析の単位)が登場する頻度が1次加工資料のうちどの部分で特定の数値以上であるかを分析する。このような検討基準の好ましい一実施形態として、以下の数1を用いて特定クラスで所定トークンに該当するPMI(Pointwise Mutual Information)値の推移を求めた後、PMI値が特定の数値以上である部分を分析することができる。
【0039】
【数1】


ここで、P(W)は、特定トークンの全体頻度を意味し、P(W│C)はクラスにおける特定トークンの頻度を意味する。一例として、クラスをニュース記事に特定すると、Web文書全体における登場頻度よりもニュース記事においてより多く登場するトークンの場合(例えば、「新聞」又は「記者」など)、他のトークンの場合よりPMI値が相対的に高い可能性がある。
【0040】
より具体的な例として、クラスがニュース記事である場合において記者名に該当するパターンを抽出するために、記者名付近に存在することのできるトークン、即ち「記者」という用語及び記者名以降に挿入できる記号である「)」に対するPMI値を求めると、図4のように示されることができる。図4のグラフにおいて横軸は、ニュース記事内おける位置を意味し、縦軸は、「記者」という用語及び記号「)」に対するPMI値を示し、PMI値が特定の数値以上である部分は、斜線で表示されている。即ち1次加工資料であるニュース記事のうち、「記者」という用語及び記号「)」に対するPMI値が特定の数値以上である部分は、斜線で表示されたニュース記事のうち最初からAで表示された所定部分まで、またBで表示された所定部分からニュース記事の最後までに該当することが分かる。従って、図4で斜線で表示される該当部分(以下「抽出対象部分」とする)を対象に、テキストパターン抽出手段142でテキストパターンを抽出することができる。頻度分析手段141の役目は分析を通じて1次加工資料のうちテキストパターンを抽出するのに必要な抽出対象部分を選択する点にあるため、テキストパターン抽出手段142で1次加工資料全体ではなく特定部分のみに対して作業を進めることができるようにすることで、テキストパターン抽出手段142にかかる負荷(lоad)を大幅に減少させることができる。
【0041】
次に、本発明の一実施形態によるテキストパターン抽出手段142は、1次加工資料のうち前記頻度分析手段141から選ばれた特定トークンの頻度が特定の数値以上である抽出対象部分を所定の基準で分析してテキストパターンを抽出し、これに基づき抽出対象部分を1次元的に並べ整列できるよう機能する。テキストパターン抽出手段142の機能は、DNAを用いた遺伝子地図探しに必要な共通シーケンス(sequence)抽出の核心技術であるMultiple Sequence Alignment(MSA)技術をそのモチーフとして導入し応用することができる。遺伝子地図は、A、T、G、C四つのアルファベットが1次元のシーケンスに並べられた染色体の中にどのような遺伝子がどの位置にあるのかを示すものであり、MSA技術を用いて共通する特徴(例えば、青い瞳の人)を有する複数のDNAを並べ、並べられた複数のDNAから共通のシーケンスを抽出し、それから共通する特徴(青い瞳)に対する遺伝子を抽出する。MSA技術を用いた遺伝子分析結果の一実施形態である図8を参照すると、図8で図示された通り、複数のDNA並びを介した共通の特徴を探すことができる。前記で説明した遺伝子地図探しに用いられるMSA技術を応用したその具体的な例として、頻度分析手段141において「記者」という用語及び記号「)」に対するPMI値が特定の数値以上である部分として選択された抽出対象部分が以下の表1と同じであると仮定する。
【表1】

【0042】
テキストパターン抽出手段142は、前記表1に該当する複数の抽出対象部分を所定の基準で分析してテキストパターンを抽出し、これに基づき複数の抽出対象部分を1次元的に並べ整列する。より具体的に、テキストパターン抽出手段142で使用できる所定の基準としては形態素解析でもよく、その他にもChart型、Wоrd型、Byte型、韓国語や英語や日付などのWоrd Type、都市や時間や動物などの抽象化された概念やワード単位に、またはチャンク(Chunk)やページ(page)などが用いられてもよいが、これに限定されず、前記並べた複数の基準を複合的に結合して使用することができる。また、分析時に特定の単語や用語などを保存しておいた別途のデータベースを参照してもよい。例えば、前記表1で「東京」、「大阪」、「横浜」及び「バンクーバー」が全て「地域」に該当する単語であり、予め別途のデータベースに保存されている場合、単語「バンクーバー」の場合には他の単語と文字数が相違しても、データベースを参照して同一に「地域」に該当する単語であることを分析し、表1に該当する複数の抽出対象部分は全て記号「(」以降に「地域」に該当する単語が位置するテキストパターンを有するということを把握することができる。また、他の例として、単語が記者名の場合で別途のデータベースに該当する単語が保存されていない場合においても、それが誰かの名前を示す固有名詞に該当するという分析をすることができる。
【0043】
また、実質的に別途のデータベースに全ての単語を保存することはできないため、学習法(ヒューリスティック、heuristic)を用いてデータベースの内容を追加変更、削除してもよい。その例として、前記表1で「東京」、「大阪」、「横浜」のみが「地域」に該当する単語として予め別途のデータベースに保存されているとすると、表1の抽出対象部分のうち前記三つの文章全てが記号「(」以降に地域に該当する文字が位置し、その後に記号「=」が位置することから、同一の形式、即ち記号「(」及び「=」で囲まれた部分に位置する文字は地域名が出ると分析し、四つ目の文章で該当位置に位置した「バンクーバー」がデータベースに保存されていなくても地域名として認識し、用語「バンクーバー」をデータベースに追加することができ、この場合、今後新たな抽出対象部分に対する分析に「バンクーバー」を用いることができる。
【0044】
また、新聞記事の場合、その形式(例えば、記者名を記者内容の前に記載したり、題名の後に記載したり、或いは記事の最後に記載したりするなどの記事作成形式)がその期間ごとに相違する可能性があるため、所定の基準で分析した後、そのテキストパターンを抽出して1次元的に並べて整列を行うために抽出対象部分の期間などを日付別や何週単位で限定するなどさまざまの基準を適用してもよく、用いられる基準は期間のみに限定されない。
【0045】
このように、テキストパターン抽出手段142が表1に該当する抽出対象部分を所定の基準で分析し、そのパターンを抽出し、抽出されたパターンに基づき抽出対象部分を1次元的に並べて整列をした結果は、以下の表2のように示すことができる。
【0046】
【表2】


表2で示される1次元的に並べて整列された結果により記者名付近に位置した括弧や等号などの記号の位置、報道地域、記者名に該当する部分がテキストパターンにより全て整列されたことがわかるし、単語「TBC」は一部記事にのみ含まれた内容であるため、他の記事と対応する部分がなく、別途の位置に整列されるようになる。前記表2で示される結果は、図8で図示された遺伝子地図で用いられるMSA結果と類似していることを確認することができる。
【0047】
次に、正規式抽出手段143では、前記テキストパターン抽出手段142を介してテキストパターンに基づき1次元的に並べられ、整列された内容に基づき一般化された式で表現することのできる正規式を抽出する。前記例に続いて前記表2で提示された内容に基づき以下の表3のように正規式を抽出することができる。
【0048】
【表3】


表3で開示された正規式は、先ず、記号「(」が位置し、その後に2〜4文字の漢字又は日本語からなる単語が位置し(正規式<漢字、日本語>{2、4}で表示)、その次に、記号「=」が位置し、その後に4文字の漢字からなる単語が位置(正規式<漢字>{4}で表示)することがわかる。続いて、「TBC」のような単語が登場することがあるが、これは任意に、すなわち、一部の記事のみにおいて示されることがあるため、該当単語が該当位置に存在してもよいという意味で正規式「(TBC)?」のように表現されてもよい。その次には、単語「記者」及び記号「)」が位置することになり、その後は別途の正規化することのできる内容が示されず、抽出しようとする記者名パターンとも関係ないため、正規式「.*」のように表現されることができる。また、テキストパターン抽出手段142での別途のデータベースを参照して記号「(」後に位置する2〜4文字の漢字又は日本語からなる単語は報道地域を示し、記号「=」後に位置する4文字の漢字からなる単語は記者名を示すことを判断し、該当内容を正規式に含めてもよい。もちろん、表3による正規式は表2における1次元的に並べられ整列された例に限定して抽出されたものであるため、そのテキストパターンによって並べて整列される内容により該当する正規式はいくらでも変化されることができ、正規式の表現方式は、前記表3に限定されないことは了承されなければならない。
【0049】
最後に、本発明の一実施形態による正規式適用手段144は前記正規式抽出手段143により抽出された正規式を1次加工資料に対して適用してリファインした結果から、2次加工資料を生成する。正規式適用によるリファインの一例として、正規式適用手段144は1次加工資料から記者名を削除してもよく、表3で示した正規式を用いる場合、正規式適用手段144は1次加工資料のうち最初に出る記号「=」のすぐ後に位置した4文字の漢字からなる単語が記者名に該当することを判断しているため、該当位置に存在する漢字からなる4文字を記者名として認識し、削除した後、2次加工資料にして検索データベース150又は別途のデータベースに保存してもよい。ここで、正規式適用手段144が正規式を適用してリファインするための対象は、1次加工部130によりキーワード抽出及び索引作業が完了された1次加工資料それ自体であるため、頻度分析手段141から選ばれた抽出対象部分とは異なる。このように、2次加工資料から記者名を削除した実施形態の場合、ユーザがクエリ「木村拓哉」を入力すると、検索部120は記者名が削除された2次加工資料から検索して検索結果を導出するようになるので、図5bのように、題名又は記事本文にクエリを含んでいる正確な記事のみを提供することができ、従来技術による検索結果である図5aと異なる検索結果が表示されることが分かる。
【0050】
正規式の適用の他の例として、正規式適用手段144は、記者名又は報道地域に基づき1次加工資料を再分類し、これをインデックスにして1次加工資料を加工した2次加工資料を生成してもよい。表3の正規式を用いる場合、正規式適用手段144は、1次加工資料の最初の記号「(」を確認し、その後に漢字又は日本語で2〜4文字が出る報道地域及びその後に記号「=」が出ることを確認し、報道地域に該当する漢字又は日本語を基準に再分類し、これをインデックスとして設定した2次加工資料を生成したり、又は記号「=」後に出る漢字からなる4文字の記者名に認識し、これを基準に再分類し、インデックスに設定した2次加工資料を生成してもよい。このように、報道地域を基準に再分類し、インデックスに設定した2次加工資料が生成された場合、ユーザの選択又はクエリの入力により特定報道地域、例えば「鹿児島」から作成された記事を検索部120で2次加工資料から検索して検索結果を導出することができるため、図6aのように記事題名や本文の内容にかかわらず、報道地域が「鹿児島」である記事のみを正確に提供することができる。また、記者名を基準に再分類し、インデックスとして設定した2次加工資料が生成された場合、ユーザの選択又はクエリの入力により特定記者、例えば、「田中俊之」が作成した記事を検索部120で2次加工資料から検索して検索結果を導出するようになるため、図6cのように記事題名や本文の内容にかかわらず、記者名が「田中俊之」である記事のみを正確に提供することができ、これは従来技術による検索結果を示す図6bにおいては本文又は題名などに同名異人の名前がキーワードとして存在する場合、記者名が相違するとしても検索結果に含まれてしまうのと異なることがわかる。
【0051】
前記の正規式適用の二つの例は、正規式適用手段144で正規式が適用される具体例を例示したに過ぎず、本発明の属する技術分野の標準的な技術及び当業者の技術常識によって、様々な方法により前記正規式適用の例を単独に、又は結合して使用したり、同一または類似した機能を行ったりできるように変形して使用することができる
【0052】
図7は、本発明の一実施形態による2次加工部における動作フローチャートである。
【0053】
図7に例示された一実施形態によると、2次加工部の頻度分析手段141はリファインしようとする複数のWeb文書、例えば、ニュース記事のうち特定トークン、例えば、記者名付近に位置することのできる用語又は記号である「記者」、「)」などを含む特定トークンが登場する頻度を求める(S100)。ここで、前記頻度は、前記説明されたPMI値を用いて求められてもよい。
【0054】
次に、頻度分析手段141は、求められた頻度が所定の数値以上である部分を抽出対象資料として選択する(S110)。
【0055】
この後に、2次加工部のテキストパターン抽出手段142は、前記選択された抽出対象資料を形態素解析などを含む所定の基準により分析してそのテキストパターンを抽出し、これに基づき、複数の抽出対象部分を並べ、整列する(S120)。所定の基準により抽出対象資料を分析する際、特定単語又は用語などが保存された別途のデータベースを参照してもよく、ここで、別途のデータベースは、抽出対象資料の分析結果を反映する学習法(ヒューリスティック、heuristic)により変更し、アップデートしてもよい。
【0056】
この後に、2次加工部の正規式抽出手段143は、並べられ整列された複数の抽出対象資料から正規式を抽出する(S130)。
【0057】
この後に、2次加工部の正規式提供手段144は、前記抽出された正規式を用いてリファインしようとする複数のWeb文書から正規式に表現された特定用語又はキーワードの削除し、又はこれを基準にWeb文書を再分類してインデックスに設定するなどのリファインメントを経て2次資料を生成する(S140)。このように生成された2次資料は、ユーザによるクエリを受信した際、1次資料の代わりに検索対象となってもよい。
【0058】
本発明による実施形態は様々なコンピュータ手段を通じて行われることのできるプログラム命令形態に具現され、コンピュータで読取可能な媒体に記録されることができる。前記コンピュータ読取可能媒体は、プログラム命令、データファイル、データ構造などを単独にまたは組み合わせて含むことができる。前記媒体に記録されるプログラム命令は本発明のために特別に設計され、構成されたものであるか、コンピュータソフトウェアの分野の当業者に公知され使用可能なものであることもできる。コンピュータで読取可能記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク、及び磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロプティカルディスク(Floptical disk)のような磁気−光媒体(megneto−optical media)及びロム(ROM)、ラム(RAM)、フラッシュメモリなどのようなプログラム命令を保存し、実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラにより作成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータにより実行可能な高級言語コードを含む。ハードウェア装置は、本発明の動作を行うために一つ以上のソフトウェアモジュールとして動作するように構成されてもよく、その逆も同様である。
【0059】
以上の通り、本発明では具体的な構成要素などのような発明特定事項と限られた実施形態及び図面により説明されたが、これは本発明のより全般的な理解のために提供されたものであり、本発明は上述の実施形態に限定されず、本発明の属する技術分野において通常の知識を有した者であれば、以上の記載から本発明の様々な修正及び変形が可能である。
【0060】
したがって、本発明の思想は、上述した実施形態に限定されてはならず、特許請求の範囲だけでなく、特許請求の範囲と均等かつ等価的な変形である全てのものは、本発明の思想の範疇に属するといえる。

【特許請求の範囲】
【請求項1】
複数の抽出対象資料を所定の基準で分析し、そのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき前記複数の抽出対象資料を並べて整列するテキストパターン抽出段階と、
前記並べられ整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出段階と、
前記抽出された正規式を用いてWeb文書をリファインして2次資料を生成するWeb文書リファイン段階と
を含むWeb文書リファインメント方法。
【請求項2】
前記テキストパターン抽出段階よりも前に、
前記Web文書のうち特定のトークンが登場する頻度を求め、前記頻度が所定の数値以上である箇所を前記抽出対象資料として選択する頻度分析段階をさらに含むことを特徴とする請求項1に記載のWeb文書リファインメント方法。
【請求項3】
前記頻度は、PMI値を用いることを特徴とする請求項2に記載のWeb文書リファインメント方法。
【請求項4】
前記特定のトークンは、前記Web文書中において記者名の近傍に位置する用語又は記号を含むことを特徴とする請求項2または請求項3に記載のWeb文書リファインメント方法。
【請求項5】
前記所定の基準は、形態素解析を含むことを特徴とする請求項1から請求項4のいずれかに記載のWeb文書リファインメント方法。
【請求項6】
前記テキストパターン抽出段階において、
さらに特定の単語又は用語が保存されたデータベースを参照し、前記抽出対象資料を分析することを特徴とする請求項1から請求項5のいずれかに記載のWeb文書のリファインメント方法。
【請求項7】
前記データベースは、前記抽出対象資料の分析結果を反映して内容が変更されることを特徴とする請求項6に記載のWeb文書リファインメント方法。
【請求項8】
前記Web文書のリファインは、前記Web文書から前記正規式に表現された特定の用語又はキーワードの削除、又はこれに基づき前記Web文書を再分類してインデックスに設定することを含むことを特徴とする請求項1から請求項7のいずれかに記載のWeb文書リファインメント方法。
【請求項9】
前記Web文書リファイン段階の後に、
ユーザ端末装置からクエリを受信し、前記クエリによる検索を前記2次資料を対象として行うことを特徴とする請求項1から請求項8のいずれかに記載のWeb文書リファインメント方法。
【請求項10】
複数の抽出対象資料を所定の基準で分析してそのテキストパターンを抽出し、前記抽出されたテキストパターンに基づき、前記複数の抽出対象資料を並べて整列するテキストパターン抽出手段と、
前記並べられ、整列された前記複数の抽出対象資料から正規式を抽出する正規式抽出手段と、
前記抽出された正規式を用いてWeb文書をリファインし、2次資料を生成する正規式適用手段と
を含むことを特徴とするWeb文書リファインメントシステム。
【請求項11】
前記Web文書中において特定のトークンが登場する頻度を求め、前記頻度が特定の数値以上である箇所を前記抽出対象資料として選択する頻度分析手段をさらに含むことを特徴とする請求項10に記載のWeb文書リファインメントシステム。
【請求項12】
前記テキストパターン抽出手段は、
特定の単語又は用語が保存されたデータベースを参照し、前記抽出対象資料を分析することを特徴とする請求項10または請求項11に記載のWeb文書リファインメントシステム。
【請求項13】
前記データベースは、前記抽出対象資料の分析結果を反映して内容が変更されることを特徴とする請求項12に記載のWeb文書リファインメントシステム。
【請求項14】
前記Web文書のリファインは、前記Web文書から前記正規式に表現された特定の用語又はキーワードの削除、又はこれに基づき前記Web文書を再分類してインデックスに設定することを含むことを特徴とする請求項10から請求項13のいずれかに記載のWeb文書リファインメントシステム。
【請求項15】
ユーザ端末装置から受信したクエリにより、前記2次資料を対象に検索を行う検索部をさらに含むことを特徴とする請求項10から請求項14のいずれかに記載のWeb文書リファインメントシステム。
【請求項16】
請求項1から請求項9のいずれかに記載のWeb文書リファインメント方法の各段階をコンピュータ上で行うためのプログラムを記録したコンピュータで読取可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5a】
image rotate

【図5b】
image rotate

【図6a】
image rotate

【図6b】
image rotate

【図6c】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−18667(P2012−18667A)
【公開日】平成24年1月26日(2012.1.26)
【国際特許分類】
【出願番号】特願2011−115092(P2011−115092)
【出願日】平成23年5月23日(2011.5.23)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)