説明

文書収集システムおよび方法

【課題】文書収集システムおよび方法が開示される。
【解決手段】文書収集システムは少なくとも1つのサイトからアップデートが発生した文書の識別情報を受信する識別情報受信部と、前記識別情報によって前記サイトに前記文書の収集要求を伝達する収集要求伝達部と、前記文書の収集要求に対応して前記サイトから文書のアップデート情報を収集するアップデート情報収集部を備える。文書収集システムによれば、ウェブサイトの負荷を減少させながら収集する文書の正確度を向上することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サイトで文書を収集するシステムおよび方法に関し、より詳しくは、検索対象となる文書のうちアップデートが発生した文書を収集する文書収集システムおよび方法に関する。
【背景技術】
【0002】
一般に、検索サービスの業者はウェブロボットを用いてインターネット上に存在する複数のサイトで文書のコンテンツを収集する。このとき、ウェブロボットはランダムアクセス方式の巡回(crawler)方式を用いて文書に含まれたコンテンツを収集する。具体的には、検索サービスの業者はランダムにシードURLを抽出し、抽出されたシードURLに基づいてウェブロボットによって文書を収集する。これによって、各文書の固有URLとは関係なく文書が収集される。
【0003】
上記のような方式によって文書が収集される場合、ウェブロボットのランダムアクセスによってウェブサイトに多くの負荷が発生する問題が存在する。また、ウェブロボットがランダムに収集することによって、検索サービスの業者は検索要求と関係のない文書を検索結果として提供していた。すなわち、定形化されていないURLと文書内容により、検索サービスの業者が文書収集の結果を分析することが困難であった。
【0004】
したがって、ウェブサイトに負荷を与えることなく正確なウェブ文書を収集することのできるシステムおよび方法が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の目的は、識別情報によってアップデートが発生した文書を収集することによって、ランダム巡回によるサイトの負荷を減らすことのできるシステムおよび方法を提供することにある。
【0006】
本発明の目的は、コンテンツ提供者が文書のアップデートと関連する識別情報を検索業者に伝達することによって、コンテンツ提供者が希望する文書だけを検索結果に反映することのできるシステムおよび方法を提供することにある。
【0007】
本発明の目的は、アップデートが発生した文書をXML形式で収集することによって、題名、内容、タグなどの文書の構造が検索結果として正確に反映できるシステムおよび方法を提供することにある。
【課題を解決するための手段】
【0008】
本発明の一実施形態に係る文書収集システムは、少なくとも1つのサイトからアップデートが発生した文書の識別情報を受信する識別情報受信部と、前記識別情報によって前記サイトに前記文書の収集要求を伝達する収集要求伝達部と、前記文書の収集要求に対応して前記サイトから文書のアップデート情報を収集するアップデート情報収集部と、サイトから受信した検索要求に対応して前記文書のアップデート情報から抽出した検索結果を前記サイトに提供する検索結果提供部とを備える。
【0009】
本発明の一実施形態に係る文書収集方法は、少なくとも1つのサイトからアップデートが発生した文書の識別情報を受信し、前記識別情報によって前記サイトに前記文書の収集要求を伝達し、前記文書の収集要求に対応して前記サイトから文書のアップデート情報を収集し、サイトから受信した検索要求に対応して前記文書のアップデート情報から抽出した検索結果を前記サイトに提供することを含む。
【発明の効果】
【0010】
本発明の一実施形態によれば、識別情報によってアップデートが発生した文書を収集することによって、ランダム巡回によるサイトの負荷を減らすことができる。
【0011】
本発明の一実施形態によれば、コンテンツ提供者が文書のアップデートと関連する識別情報を検索業者に伝達することによって、コンテンツ提供者が希望する文書だけを検索結果として反映することができる。
【0012】
本発明の一実施形態によれば、アップデートが発生した文書をXML形式で収集することによって、題名、内容、タグなどの文書の構造が検索結果として正確に反映することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の一実施形態による文書を収集する過程を説明するための図である。
【図2】本発明の一実施形態に係る文書収集システムの細部の構成を示すブロックダイアグラムである。
【図3】本発明で用いられるリソースの構造を示す図である。
【図4】本発明の一実施形態に係る文書収集方法を示すフローチャートである。
【図5】本発明の他の実施形態による収集した文書を検索するシステムの一例である。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態を添付された図面を参照して詳細に説明する。本発明の一実施形態に係る文書収集方法は、文書収集システムによって行われてもよい。
【0015】
図1は、本発明の一実施形態により文書を収集する過程を説明するための図である。
【0016】
図1に示すように、サイト110は、文書のアップデートが発生した場合、pingプロトコルのような識別情報を文書収集システム120に送信してもよい。例えば、文書のアップデートは、文書に含まれたコンテンツに登録/修正/削除などが発生したことを意味する。また、pingとは、文書のアップデートが発生したという一種の信号を意味する。
【0017】
ここで、文書収集システム120は、識別情報の受信に対応してサイト110にアップデートが発生した文書を要求する。このとき、文書収集システム120はAtom配信フォーマット(Atom Syndication Format)を満足するシンジケーション文書を要求する。
【0018】
サイト110は、文書収集システム120の要求に応答してアップデートが発生した文書を文書収集システム120に伝達してもよい。具体的に、文書収集システム120は、XML構造で構成されたシンジケーション文書をサイト110から収集してもよい。
【0019】
ここで、サイト110は、検索されたい文書と関連する識別情報を文書収集システム120に送信することによって、望まない文書が文書収集システム120に収集されることを防止することができる。このとき、検索されたい文書に、コンテンツの登録、削除、修正などのアップデートが発生すると、サイト110がpingのような識別情報を文書収集システム120に送信することによって、ランダムな巡回による負荷を減らすことができる。
【0020】
図2は、本発明の一実施形態に係る文書収集システムの細部の構成を示すブロックダイアグラムである。
【0021】
図2に示すように、文書収集システム120は、識別情報受信部210、収集要求伝達部220、アップデート情報収集部230、および検索結果提供部240を備えてもよい。
【0022】
識別情報受信部210は、サイト110からアップデートが発生した文書の識別情報を受信してもよい。ここで、識別情報はコンテンツの登録/修正/削除のようなアップデートが発生した文書と関連するpingプロトコルを含んでもよい。
【0023】
このとき、識別情報受信部210は、アップデートが発生した文書と関連するリンク情報を含む識別情報を受信してもよい。ここで、リンク情報はサイト110においてアップデートが発生した文書の位置を示すURLを含んでもよい。すなわち、サイト110は、収集されたい文書を、リンク情報を含む識別情報によって文書収集システム120に伝達してもよい。
【0024】
収集要求伝達部220は、識別情報によってサイト110に文書の収集要求を伝達してもよい。具体的には、収集要求伝達部220は、識別情報に含まれたリンク情報に指定された経路を用いて、サイト110に文書の収集要求を伝達してもよい。一例として、収集要求伝達部220は、リンク情報を用いてXML形式で構成されたシンジケーション文書をサイト110に要求してもよい。
【0025】
識別情報のpingプロトコルに含まれたリンク情報は次のように構成してもよい。
【0026】
http://[DOMAIN]/atom.cgi?id=[RESOURCE_ID]&type=[RESOURCE_TYPE] &&start−time=[START_TIME]&end−time=[END_TIME]&max−entry=[MAX_ENTRY]&page=[PAGE]
【0027】
一例として、リンク情報に含まれたパラメータは下記の表1によって定義されてもよい。
【表1】


【0028】
また、表1において、idパラメータはAtom配信フォーマットで提案する「Tag URI」によって表現されてもよい。このとき、Tag URIにおいてchannel IDに「−」のセパレータ文字が含まれれば、Tag URIはURL符号化によって表現されてもよい。
【0029】
Tag URIはリソースを含んでもよい。一例として、リソースはサイト(site)、チャネル(channel)、記事(article)を含んでもよい。リソースの種類別に実際のリソースリンクをTag URIに表現した一例は表2の通りである。
【表2】


【0030】
また、収集要求伝達部202が要求するXML形式のシンジケーション(syndication)文書に含まれるリソースの範囲はidとtypeパラメータ値に応じて決定されてもよい。一例として、リソースの範囲は表3のように決定されてもよい。
【表3】


【0031】
一例として、識別情報受信部210が受信した識別情報に含まれたidがsiteであり、タイプがchannelである場合、収集要求伝達部220はサイト110に含まれた全てのチャネルの情報を要求するシンジケーション文書の収集要求をサイト110に送信してもよい。このとき、サイト110は収集要求に応じて、サイト110に含まれた全てのチャネルのアップデート情報を文書収集システム120に送信してもよい。
【0032】
アップデート情報収集部230は、文書の収集要求に対応してサイト110から送信された文書のアップデート情報を収集してもよい。
【0033】
このとき、アップデート情報収集部230がサイト110から収集する文書のアップデート情報は、少なくとも1つの要素を含むXMLの文書形式であってもよい。具体的に、アップデート情報収集部230は、サイト110からXML形式に構成されたシンジケーション文書が伝達されて文書のアップデート情報を収集してもよい。
【0034】
また、文書のアップデート情報は下記の表4のような要素を含んでもよい。
【表4】


【0035】
このとき、リンク(link)要素のrel属性値は下記の表5のように指定してもよい。具体的に、表5に指定される値に応じてシンジケーション文書と関連するリソースは変わり得る。
【表5】


【0036】
また、アップデート情報収集部230が受信するXML形式の文書のシンジケーション文書の最小単位はエントリ(entry)要素1つに構成されたエントリ文書である。
【0037】
また、アップデート情報収集部230は要素が複数である場合、要素グループに設定して収集してもよい。具体的には、1つのシンジケーション文書に複数のエントリ要素を含む場合、アップデート情報収集部230は、複数のエントリ要素をフィード(feed)要素にグループ化して収集してもよい。このとき、フィード要素でグループ化された文書のアップデート情報はフィード文書の形式であってもよい。
【0038】
一例として、1つのシンジケーション文書に複数のエントリ要素が含まれる場合、エントリ要素の他に下記の表6のような要素がフィード要素に追加的に含まれてもよい。
【表6】


【0039】
また、アップデート情報収集部230は、識別情報に含まれた配布期間に基づいて文書のアップデート情報を収集してもよい。具体的には、アップデート情報収集部230は、識別情報に表1のstart−timeとend−timeが含まれた場合、識別情報に該当する文書はstart−timeに設定された時間からend−timeに設定された時間までアップデート情報を収集してもよい。
【0040】
以上の構成はサイト110から文書のアップデート情報を収集する過程を説明したものである。文書収集システム120はサイト110から収集した文書のアップデート情報を検索に活用してもよい。
【0041】
サイト110から検索要求を受信した場合、検索結果提供部240は検索要求に対応する検索結果をサイト110にリターンしてもよい。このとき、検索要求はキーワードとキーワードによるオプションを含んでもよい。
【0042】
具体的には、検索結果提供部240は、アップデート情報収集部230が収集した文書のアップデート情報から検索要求に対応する検索結果を抽出してサイト110に提供してもよい。このとき、サイト110は、サイトインタフェースによって文書収集システム120から受信した検索結果をレンダリングして表示してもよい。すなわち、文書収集システム120はサイト110に対する個別の検索DBの役割を行ってもよい。
【0043】
図3は、本発明で用いられるリソースの構造を示す図である。
【0044】
本発明で用いられるリソースは、図3に示すようにサイト310、チャネル320、および記事330の階層的な構造を有してもよい。
【0045】
具体的には、サイト310は、第1チャネル321、第2チャネル322〜第Nチャネル323のように複数のチャネル320から構成されてもよい。また、各チャネルは、第1記事331、第2記事332〜第n記事333のように複数の記事330により構成してもよい。このとき、記事は文書に対応する。
【0046】
一例として、識別情報のidがsiteであり、タイプがarticleである場合、サイト110は、表3によってサイト310に含まれた全ての記事330のアップデート情報を文書収集システム120に送信してもよい。すなわち、サイト110は文書の収集範囲を表3のようなパラメータによって決定してもよい。
【0047】
図4は、本発明の一実施形態に係る文書収集方法を示すフローチャートである。
【0048】
ステップS410において、識別情報受信部210はサイト110からアップデートが発生した文書の識別情報を受信してもよい。このとき、識別情報は文書と関連するリンク情報を含んでもよい。
【0049】
ステップS420において、収集要求伝達部220は、ステップS410で受信した識別情報によってサイト110に文書の収集要求を伝達してもよい。このとき、収集要求伝達部220は、識別情報に含まれたリンク情報に指定された経路を用いてサイト110に文書の収集要求を伝達してもよい。
【0050】
ステップS430において、アップデート情報収集部230は、ステップS420で送信した文書の収集要求に対応してサイト110から文書のアップデート情報を収集してもよい。このとき、アップデート情報収集部230がサイト110から収集する文書のアップデート情報は少なくとも1つの要素を含むXML形式の文書であってもよい。
【0051】
ステップS410〜ステップS430は、文書収集システム120がサイト110から文書のアップデート内容を収集する過程を示す。その後、ステップS440〜ステップS460は、文書収集システム120が文書のアップデート内容に基づいて検索結果を提供する過程を示す。
【0052】
ステップS440において、検索結果提供部240はサイト110から検索要求を受信してもよい。
【0053】
ステップS450において、検索結果提供部240は、ステップS440で受信した検索要求を用いてステップS430で収集した文書のアップデート情報から検索結果を抽出してもよい。
【0054】
ステップS460において、検索結果提供部240は、ステップS450で抽出した検索結果をサイト110に送信してもよい。このとき、サイト110は、受信した検索結果をサイトインタフェースによってレンダリングして表示してもよい。
【0055】
図5は、本発明の他の実施形態によって収集した文書を検索するシステムの一例である。
【0056】
本発明に係る文書収集システム120は、図5に示すように収集した文書のアップデート情報を検索する検索サーバ500を別に分離してもよい。
【0057】
このとき、文書収集システム120は、識別情報受信部210、収集要求伝達部220、およびアップデート情報収集部230を用いてサイト110で文書を収集し、検索サーバ510の要求に応じて収集された文書を検索し、検索結果を検索サーバ500に提供してもよい。
【0058】
検索サーバ500は、サイト110から検索要求を受信した場合、文書収集システム120に検索要求を送信し、文書収集システム120から検索要求に対応する検索結果を受信してサイト110に提供してもよい。
【0059】
このとき、検索サーバ500は、サイト受信部510、収集システム送信部520、収集システム受信部530、サイト送信部540を備えてもよい。
【0060】
このとき、サイト受信部510はサイト110から検索要求を受信し、収集システム送信部520は文書収集システム120にサイト110から受信した検索要求を送信してもよい。
【0061】
また、収集システム受信部530は文書収集システム120から送信した検索要求に対応する検索結果を受信し、サイト送信部540は受信した検索結果をサイト110に提供してもよい。
【0062】
すなわち、本発明の一実施形態によれば、サイトから文書のアップデート情報と関連する識別情報に対応する文書だけを収集することによって検索されたくない文書が文書収集システムに収集されることを防止することができる。
【0063】
本発明の実施形態に係る方法は、多様なコンピュータ手段を介して様々な処理を実行することができるプログラム命令の形態に実現され、コンピュータ読取可能な記録媒体に記録されてもよい。コンピュータ読取可能な媒体は、プログラム命令、データファイル、データ構造などの単独または組み合わせたものを含んでもよい。媒体に記録されるプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知のものであり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、光ディスクのような光磁気媒体、及びROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コード(machine code)だけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コード(higher level code)を含む。上述したハードウェア装置は、本発明の動作を行うために1つ以上のソフトウェア階層で作動するように構成されてもよい。
【0064】
上述したように、本発明は、一例として限定された実施形態と図面とによって説明したが、本発明は、上記の実施形態に限定されることなく、本発明が属する分野における通常の知識を有する者であれば、このような記載から多様な修正および変形が可能である。
【0065】
したがって、本発明の範囲は説明された実施形態に限定されてはならず、後述する特許請求の範囲だけでなく、この特許請求の範囲と均等なものなどによって定められなければならない。
【符号の説明】
【0066】
210 識別情報受信部
220 収集要求伝達部
230 アップデート情報収集部
240 検索結果提供部

【特許請求の範囲】
【請求項1】
少なくとも1つのサイトからアップデートが発生した文書の識別情報を受信する識別情報受信部と、
前記識別情報によって前記サイトに前記文書の収集要求を伝達する収集要求伝達部と、
前記文書の収集要求に対応して前記サイトから文書のアップデート情報を収集するアップデート情報収集部と、
サイトから受信した検索要求に対応して前記文書のアップデート情報から抽出した検索結果を前記サイトに提供する検索結果提供部と、
を備えることを特徴とする文書収集システム。
【請求項2】
前記識別情報受信部は、前記文書と関連するリンク情報を含む識別情報を受信することを特徴とする請求項1に記載の文書収集システム。
【請求項3】
前記アップデート情報収集部は、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式で収集することを特徴とする請求項1に記載の文書収集システム。
【請求項4】
前記アップデート情報収集部は、前記要素が複数である場合、要素グループに設定して収集することを特徴とする請求項3に記載の文書収集システム。
【請求項5】
前記アップデート情報収集部は、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項3に記載の文書収集システム。
【請求項6】
前記サイトは、サイトインタフェースによって前記検索結果をレンダリングして表示することを特徴とする請求項1に記載の文書収集システム。
【請求項7】
少なくとも1つのサイトからアップデートが発生した文書の識別情報を受信し、前記識別情報によって文書のアップデート情報を収集する文書収集システムにサイトから受信した検索要求を送信する文書システム送信部と、
前記文書収集システムから前記検索要求に対応する検索結果を受信する文書システム受信部と、
前記検索結果を前記サイトに提供するサイト送信部と、
を備えることを特徴とする検索サーバ。
【請求項8】
前記サイトは、サイトインタフェースによって前記検索結果をレンダリングして表示することを特徴とする請求項7に記載の検索サーバ。
【請求項9】
前記前記文書収集システムは、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式に収集することを特徴とする請求項7に記載の検索サーバ。
【請求項10】
前記文書収集システムは、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項7に記載の検索サーバ。
【請求項11】
少なくとも1つのサイトからアップデートが発生した文書の識別情報を受信し、
前記識別情報によって前記サイトに前記文書の収集要求を伝達し、
前記文書の収集要求に対応して前記サイトから文書のアップデート情報を収集し、
サイトから受信した検索要求に対応して前記文書のアップデート情報から抽出した検索結果を前記サイトに提供すること、
を含むことを特徴とする文書収集方法。
【請求項12】
前記識別情報を受信することは、前記文書と関連するリンク情報を含む識別情報を受信することを特徴とする請求項11に記載の文書収集方法。
【請求項13】
前記アップデート情報を収集することは、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式で収集することを特徴とする請求項11に記載の文書収集方法。
【請求項14】
前記アップデート情報を収集することは、前記要素が複数である場合、要素グループに設定して収集することを特徴とする請求項13に記載の文書収集方法。
【請求項15】
前記アップデート情報を収集することは、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項13に記載の文書収集方法。
【請求項16】
前記サイトがサイトインタフェースによって前記検索結果をレンダリングして表示することをさらに含むことを特徴とする請求項11に記載の文書収集方法。
【請求項17】
少なくとも1つのサイトからアップデートが発生した文書の識別情報を受信し、前記識別情報によって文書のアップデート情報を収集する文書収集システムにサイトから受信した検索要求を送信し、
前記文書収集システムから前記検索要求に対応する検索結果を受信し、
前記検索結果を前記サイトに提供すること、
を含むことを特徴とする検索方法。
【請求項18】
前記サイトは、サイトインタフェースによって前記検索結果をレンダリングして表示することを特徴とする請求項17に記載の検索方法。
【請求項19】
前記文書収集システムは、前記サイトから前記文書のアップデート情報を少なくとも1つの要素を含むXMLの文書形式で収集することを特徴とする請求項17に記載の検索方法。
【請求項20】
前記文書収集システムは、前記識別情報に含まれた配布期間に基づいて前記文書のアップデート情報を収集することを特徴とする請求項17に記載の検索方法。
【請求項21】
請求項11乃至請求項20のいずれか1項の方法を実行するためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−9024(P2012−9024A)
【公開日】平成24年1月12日(2012.1.12)
【国際特許分類】
【出願番号】特願2011−135481(P2011−135481)
【出願日】平成23年6月17日(2011.6.17)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)
【Fターム(参考)】