複数のサーバにより順次行われる処理の状態を確認するシステム、方法及び検索エンジン

【課題】複数のサーバにより順次行われる処理の状態を確認し、当該順次行われる処理を中断することなく問題を引き起こしているサーバを特定することが可能なシステムを提供すること。
【解決手段】検索エンジン（１）のデータ解析部（１１）は、複数の解析サーバ（２０）と集約サーバ（３０）とから構成され、解析サーバ（２０）の各々が、ＵＲＬにより識別されるクロールデータに対して順次処理を行うことで検索用インデックスを作成するための前処理を行い、当該処理のトランザクションログを記憶する。解析サーバ（２０）は、集約サーバ（３０）からＵＲＬを指定する状態確認要求を受け付けると、当該ＵＲＬに対応するトランザクションログを抽出し、集約サーバ（３０）に送信する。集約サーバ（３０）は、受信したトランザクションログから、各解析サーバ（２０）の処理の内容を特定する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、複数のサーバにより順次行われる処理の状態を確認するシステム、方法及び検索エンジンに関する。特に、複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステム、方法及び検索エンジンに関する。
【背景技術】
【０００２】
従来、インターネットの検索サイトでは、ユーザによるキーワード入力等の検索要求に応じて、検索結果をリストとしてユーザに提供するサービスが行われている。このような検索サイトの運営側は、通常、クローラ或いはロボットと呼ばれるプログラムを備える検索エンジンを用いて、インターネット上のＷｅｂページにある文書や画像等のデータを収集している。
【０００３】
ここで、検索エンジンに関して、世界中で次々に更新されるＷｅｂページに対応するための技術が提供されている。例えば、特許文献１に記載の技術によれば、アクセスすべき特定サイトに関する情報、当該特定サイトの情報収集を開始する日時を示す情報等を記憶しておき、現在時刻が情報収集開始時刻と一致すると判定した場合に情報収集を開始することで、Ｗｅｂクローラがインターネット上のＷｅｂページを効率良く収集する。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００４−３１８７４６号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ところで、検索エンジンでは、このようなＷｅｂクローラにより収集されたデータに対して、メタデータを付加したり、予め定められたブラックリストに掲載されているか否かをチェックする等の様々な処理を行うデータ解析部が設けられ、データ解析部により処理されたデータに索引（インデックス）等をつけてデータベースに記憶する。そして、ユーザによる検索要求に応じた検索結果リストを、当該データベースを参照して作成し、ユーザの端末に送信している。
【０００６】
ここで、ユーザの端末に送信される検索結果リストでは、検索キーワードに対する優先度（スコア）に基づいて、ヒットしたＷｅｂページが所定の順序（ランキング）で表示される。このような検索キーワードに対する順序は、Ｗｅｂページへのアクセス頻度に多大な影響を与えるため、Ｗｅｂページを管理する管理人にとって非常に重要なものとなっている。そのため、検索サイトの運営側は、検索結果内の順序に対して多大な関心を払っており、異常な順序の変動があった場合には、その原因を早急に特定し対応する必要がある。
【０００７】
検索結果リスト内における順序の変動は多数の原因により起こるものであるが、インデックス作成前に行われるデータ解析部の処理にもその一因があることが知られている。ここで、データ解析部は、複数のサーバにより構成され、Ｗｅｂクローラが収集したデータに対して当該複数のサーバが順次処理を実行するよう構成されている。そのため、検索結果リスト内における順序に異常な変動があった場合、データ解析部のどの段階で異常な変動が発生したか確認することが困難であるという問題があった。
また、近年では、検索エンジンに基づくサービスは、停止することなく常時連続して提供されることが求められている。そのため、異常の確認に際しては、データ解析部の処理、すなわち、複数のサーバにより順次行われる処理を中断することなく、問題となるサーバを特定することが望まれる。
【０００８】
本発明はこのような問題に鑑みてなされたものであり、複数のサーバにより順次行われる処理の状態を確認し、当該順次行われる処理を中断することなく問題を引き起こしているサーバを特定することのできるシステム、方法及び検索エンジンに関する。
【課題を解決するための手段】
【０００９】
本発明では、以下のような解決手段を提供する。
【００１０】
（１）所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するログ抽出手段と、抽出した前記複数のトランザクションログを集約するログ集約手段と、を備えるシステム。
【００１１】
（１）のシステムによれば、所定のキーにより識別されるデータに対して複数のサーバが処理を実行すると、その処理内容であるトランザクションログがトランザクションログ記憶手段に記憶される。そして、所定のキーを指定する状態確認要求を受け付けると、当該キーに対応付けられたトランザクションログが抽出され、集約される。これにより、所定のキーにより識別されるデータに対して当該複数のサーバの各々が実行した処理の内容を当該抽出されたトランザクションログを介して把握可能となり、当該複数のサーバにより順次行われる処理の状態を当該集約されたトランザクションログを介して確認することができる。
また、状態確認要求を受け付けた場合にトランザクションログを抽出するため、複数のサーバで順次行われる（メイン）処理に影響を与えることがない。
したがって、複数のサーバにより順次行われる処理を中断することなく当該複数のサーバの処理の内容を把握することが可能となり、問題を引き起こしているサーバを特定することができる。
【００１２】
（２）前記状態確認要求は、前記所定のキーの指定に加え、前記複数のサーバを識別するサーバ識別情報の指定を含み、前記ログ抽出手段は、前記状態確認要求に含まれるキーに対応付けられたトランザクションログを、前記サーバ識別情報により識別されるサーバに設けられたトランザクションログ記憶手段から抽出する（１）に記載のシステム。
【００１３】
（２）のシステムによれば、複数のサーバのうち状態確認要求に含まれるサーバ識別情報により識別される特定のサーバからトランザクションログを抽出する。これにより、複数のサーバにより順次行われる処理において異常が発生した場合に、その原因となる処理を行ったと推測されるサーバのみの処理内容を確認することができ、システム全体として新たな処理を行うサーバの数を限定して処理の負荷を抑制しつつ、原因を早急に特定することができる。
【００１４】
（３）所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、前記複数のトランザクションログ記憶手段の各々に記憶されたトランザクションログを所定の周期で抽出するログ抽出手段と、抽出した前記複数のトランザクションログを、前記所定のキー及び前記複数のサーバを識別するサーバ識別情報に対応付けて集約するログ集約手段と、を備えるシステム。
【００１５】
（３）のシステムによれば、所定の周期で抽出されるトランザクションログを確認することで、複数のサーバにより順次行われる処理の状態を確認することができる。
【００１６】
（４）所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定する方法であって、コンピュータが、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて、前記複数のサーバの各々に設けられたトランザクションログ記憶手段に記憶するステップと、前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するステップと、抽出した前記複数のトランザクションログを集約するステップと、を含む方法。
【００１７】
（５）Ｗｅｂページの巡回を行いクロールデータの収集を行うＷｅｂクローラと、前記Ｗｅｂクローラが収集した前記クロールデータから検索用インデックスに用いられるデータを作成するデータ解析部と、前記データ解析部により作成されたデータに基づいて、検索用インデックスを作成するインデクサと、前記インデクサにより作成された検索用インデックスを用いてユーザからの検索要求に応答する検索サーバと、を備える検索エンジンであって、前記データ解析部は、前記クロールデータを順次処理して前記検索用インデックスに用いられるデータを作成する複数のサーバと、前記複数のサーバの処理結果を集約する集約サーバと、を備え、前記複数のサーバの各々は、処理を実行するたびに、当該処理に伴うトランザクションログを前記クロールデータに対応するＷｅｂページのＵＲＬに対応付けて記憶するトランザクションログ記憶手段と、前記ＵＲＬを指定する状態確認要求を受け付けたことに応じて、当該ＵＲＬに対応付けられたトランザクションログを前記トランザクションログ記憶手段から抽出し、前記集約サーバに送るログ抽出手段と、を備え、前記集約サーバは、受け付けた複数の前記トランザクションログを集約するログ集約手段を備える検索エンジン。
【００１８】
（４）の方法又は（５）の検索エンジンによれば、（１）のシステムと同様の効果を奏する。特に、（５）の検索エンジンによれば、複数のサーバから構成されるデータ解析部のどの段階で検索結果リスト内における順序の異常な変動が発生したか確認することができる。
【発明の効果】
【００１９】
本発明によれば、複数のサーバにより順次行われる処理の状態を確認し、当該順次行われる処理を中断することなく問題を引き起こしているサーバを特定することができる。
【図面の簡単な説明】
【００２０】
【図１】本発明の検索エンジンの全体構成を示す図である。
【図２】本発明のデータ解析部の構成を示す図である。
【図３】本発明のデータ解析部による処理の内容であるトランザクションログ示す図である。
【図４】本発明のデータ解析部により行われるメイン処理を示すフローチャートである。
【図５】本発明のデータ解析部により行われるログ集約処理を示すフローチャートである。
【図６】変形実施形態のデータ解析部により行われるログ集約処理を示すフローチャートである。
【発明を実施するための形態】
【００２１】
（実施形態）
以下、本発明の複数のサーバにより順次処理を行うシステムについて、当該システムの好適な一例であるデータ解析部１１を含む検索エンジン１について説明する。なお、本発明は複数のサーバにより順次処理を行うシステムであれば適用可能であり、検索エンジン１のデータ解析部１１に限られるものではない。
【００２２】
［検索エンジンの構成］
図１は、本発明の検索エンジン１の全体構成を示す図である。
検索エンジン１は、Ｗｅｂクローラ１０と、データ解析部１１と、インデクサ１２と、検索サーバ１３と、から構成される。
【００２３】
Ｗｅｂクローラ１０は、インターネット上のＷｅｂページを定期的に巡回するプログラムであり、ＨＴＭＬ（ＨｙｐｅｒＴｅｘｔＭａｒｋｕｐＬａｎｇｕａｇｅ）内のリンクをたどり様々なＷｅｂページのデータを自動的に収集する。Ｗｅｂクローラ１０が収集したＷｅｂページのデータ（以下、「クロールデータ」という）は、当該ＷｅｂページのＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）に対応付けられて図示しないクロールデータベース（以下、「データベース」を「ＤＢ」とする）に格納される。本実施の形態では、「所定のキー」としてＵＲＬを用い、「所定のキーにより識別されるデータ」としてクロールデータを用いている。
【００２４】
データ解析部１１は、複数の解析サーバ２０Ａ・・・２０Ｎにより構成され、ＵＲＬにより識別されるクロールデータに対して、複数の解析サーバ２０Ａ・・・２０Ｎが順次処理を実行することで、検索用インデックスを生成するための一連の前処理を行う。
前処理として、データ解析部１１は、例えば、クロールデータに対して、ＨＴＭＬタグの除去、メタデータの付加、スコア判定等の処理を順次行う。「ＨＴＭＬタグの除去」は、例えば、タイトルタグ内に規定される当該Ｗｅｂページのタイトルを抽出すること等をいい、また、「メタデータの付加」は、例えば、パスの長さ、当該Ｗｅｂページのキーワード、ＨＴＭＬサイズ等を抽出すること等をいい、また、「スコア判定」は、例えば、アダルトスコアやＮＧスコア等の各種スコアを算出するとともに、算出したスコアが閾値を超えているか否かを判定すること等をいう。なお、スコア判定により閾値を超えていると判定された場合には、対応するスコアに応じた処理が行われ、例えば、ＮＧスコアが閾値を超えている場合には、検索結果として表示しないという処理が行われる。
なお、データ解析部１１（解析サーバ２０）により処理が行われるたびにクロールＤＢが更新される。
【００２５】
インデクサ１２は、データ解析部１１により更新されたクロールＤＢ内のデータ等を解析し、検索用インデックス１２１を作成する。インデクサ１２は、例えば、被リンク情報に基づいて順位付けされた検索用インデックス１２１を作成することができ、また、Ｗｅｂページのキーワードとタイトルとの関係から順位付けされた検索用インデックス１２１を作成することができる。
【００２６】
検索サーバ１３は、ユーザ端末２から受信した検索キーワードに対して、検索用インデックス１２１を参照して検索結果リストを作成し、当該検索結果リストをユーザ端末２に返信する。
【００２７】
このように、検索エンジン１では、Ｗｅｂクローラ１０、データ解析部１１及びインデクサ１２により作成された検索処理のための検索用インデックス１２１を用いて、ユーザ端末２からの検索要求に応えるように構成されている。
【００２８】
［データ解析部の構成］
続いて、本発明の好適な実施形態であるデータ解析部１１の具体的な構成について説明する。図２は、データ解析部１１の構成を示すブロック図である。
【００２９】
データ解析部１１は、ＵＲＬにより識別されるクロールデータに対して順次処理を行う複数の解析サーバ２０Ａ、２０Ｂ・・・２０Ｎと、解析サーバ２０Ａ、２０Ｂ・・・２０Ｎにおける処理の状態を確認する集約サーバ３０と、を含んで構成される。本実施の形態では、クロールデータに対して、解析サーバ２０Ａから解析サーバ２０Ｂ・・・解析サーバ２０Ｎの順に処理を行っている。
【００３０】
解析サーバ２０Ａは、メイン処理手段２１Ａと、トランザクションログ記憶手段２２Ａと、ログ抽出手段２３Ａと、を含んで構成される。
なお、解析サーバ２０Ｂ・・・２０Ｎの構成は、解析サーバ２０Ａの構成と同じである。すなわち、解析サーバ２０Ｂ・・・２０Ｎは、メイン処理手段２１Ｂ・・・２１Ｎと、トランザクションログ記憶手段２２Ｂ・・・２２Ｎと、ログ抽出手段２３Ｂ・・・２３Ｎと、を含んで構成される。以下、それぞれを区別しない場合には、単に「解析サーバ２０」、「メイン処理手段２１」、「トランザクションログ記憶手段２２」、「ログ抽出手段２３」とする。
【００３１】
メイン処理手段２１は、クロールデータに対して様々な処理を実行し、クロールＤＢを更新する。例えば、メイン処理手段２１は、ＨＴＭＬタグの除去、メタデータの付加、スコア判定等の処理を行い、処理に伴う値をクロールＤＢに入力する。メイン処理手段２１により行われた処理の内容（トランザクションログ）は、次の順序の解析サーバ２０に送信される。
【００３２】
トランザクションログ記憶手段２２は、前の順序の解析サーバ２０から受信したトランザクションログを記憶する。これにより、解析サーバ２０のメイン処理手段２１がクロールデータに対して処理を実行するたびに、その処理の内容がＵＲＬに対応付けられてトランザクションログ記憶手段２２に記憶されていく。
トランザクションログ記憶手段２２に記憶されたトランザクションログは、メイン処理手段２１により読み出され、その後、メイン処理手段２１により処理が実行される。このようなトランザクションログ記憶手段２２に記憶されたトランザクションログの読み出しと、その後のメイン処理手段２１による処理とが、データ解析部１１の主な処理（検索用インデックスを生成するための一連の前処理）である。
【００３３】
なお、本実施の形態では、トランザクションログ記憶手段２２に、前の順序の解析サーバ２０の行った処理の内容を記憶することとしているが、処理を実行した後に自ら備えるトランザクションログ記憶手段２２に自らが行った処理の内容を記憶することとしてもよい。すなわち、本実施の形態では、解析サーバ２０Ａのメイン処理手段２１Ａが行った処理の内容は、次の順序である解析サーバ２０Ｂのトランザクションログ記憶手段２２Ｂに記憶されることとしているが、解析サーバ２０Ａのメイン処理手段２１Ａが行った処理の内容を解析サーバ２０Ａのトランザクションログ記憶手段２２Ａに記憶することとしてもよい。
【００３４】
ログ抽出手段２３は、集約サーバ３０からのＵＲＬを指定する状態確認要求を受け付けると、トランザクションログ記憶手段２２から、このＵＲＬにより識別されるクロールデータに対応付けられたトランザクションログを抽出し、集約サーバ３０に送信する。
【００３５】
集約サーバ３０は、ログ要求手段３１と、ログ集約手段３２と、から構成される。
【００３６】
ログ要求手段３１は、状態確認要求を解析サーバ２０に対して送信し、当該状態確認要求に対応するトランザクションログを解析サーバ２０から受信する。ここで、状態確認要求には、ＵＲＬに加え、解析サーバ２０Ａ・・・２０Ｎの種別を示すサーバ識別情報（例えば、ＩＰアドレス等）を含むこととしてもよい。状態確認要求にサーバ識別情報が含まれることで、複数の解析サーバ２０Ａ・・・２０Ｎのうち、任意の解析サーバ２０からのみ、トランザクションログを取得することができる。
【００３７】
ログ集約手段３２は、取得したトランザクションログを集約することで、ＵＲＬにより識別されるクロールデータに対する処理の状態を管理者が確認可能にする。
【００３８】
ここで、図３は、ＵＲＬ「ｈｔｔｐ：／／ｗｗｗ．ａｂｃｄｅｆｇ．ｃｏ．ｊｐ／ｉｎｄｅｘ．ｈｔｍｌ」により識別されるクロールデータに対するトランザクションログを示し、図３（１）は、解析サーバ２０Ａのトランザクションログを示し（解析サーバ２０Ｂのトランザクションログ記憶手段２２Ｂに記憶されている）、図３（２）は、解析サーバ２０Ｂのトランザクションログを示す（解析サーバ２０Ｃのトランザクションログ記憶手段２２Ｃに記憶されている）。
トランザクションログは、クロールＤＢの更新内容を示しており、所定の項目に対して入力する値を規定している。例えば、図３（１）を参照して、処理２００Ａは、クロールＤＢの「ＵＲＬ」項目に対して、「ｈｔｔｐ：／／ｗｗｗ．ａｂｃｄｅｆｇ．ｃｏ．ｊｐ／ｉｎｄｅｘ．ｈｔｍｌ」という値を入力することを意味する。
【００３９】
ログ集約手段３２は、取得したトランザクションログから、各解析サーバ２０により行われた処理の内容を抽出する。例えば、解析サーバ２０Ａのトランザクションログと、解析サーバ２０Ｂのトランザクションログとから、解析サーバ２０Ａにより行われた処理２００を抽出し、解析サーバ２０Ｂにより行われた処理２０１を抽出する。
【００４０】
ログ集約手段３２により抽出された各解析サーバ２０の処理から、管理者は、ＵＲＬにより識別されるクロールデータに対する処理の状態を確認することができる。例えば、「ｈｔｔｐ：／／ｗｗｗ．ａｂｃｄｅｆｇ．ｃｏ．ｊｐ／ｉｎｄｅｘ．ｈｔｍｌ」のＷｅｂページが検索エンジン１において検索結果として表示されないという異常が発生した場合には、管理者は、解析サーバ２０Ｂの処理２０１Ａにより、検索結果として表示しないことを示すＮＧスコアの計算結果が所定値以上と判定されたことが原因ではないかと把握することができる。
【００４１】
このように本実施の形態に係るデータ解析部１１では、ログ抽出手段２３がメイン処理手段２１とは別に独立して、トランザクションログ記憶手段２２からトランザクションログを抽出するため、データ解析部１１の主な処理（検索用インデックスを生成するための一連の前処理）に影響を与えることなく、複数の解析サーバ２０の各々が実行した処理の状態を確認することができる。すなわち、管理者は、解析サーバ２０により順次行われる処理を中断することなく、その処理の内容を把握でき、また、問題を引き起こしている解析サーバ２０を特定することができる。
【００４２】
なお、解析サーバ２０及び集約サーバ３０のハードウェアは、一般的なコンピュータによって構成することができる。一般的なコンピュータは、例えば、制御部として、中央処理装置（ＣＰＵ）を備える他、記憶部として、メモリ（ＲＡＭ、ＲＯＭ）、ハードディスク（ＨＤＤ）及び光ディスク（ＣＤ、ＤＶＤ等）を、ネットワーク通信装置として、各種有線及び無線ＬＡＮ装置を、表示装置として、例えば、液晶ディスプレイ、プラズマディスプレイ等の各種ディスプレイを、入力装置として、例えば、キーボード及びポインティング・デバイス（マウス、トラッキングボール等）を適宜備え、これらはバスラインにより接続されている。このような一般的なコンピュータにおいて、ＣＰＵは、解析サーバ２０及び集約サーバ３０を統括的に制御し、各種プログラムを適宜読み出して実行することにより、上述したハードウェアと協働し、本発明に係る各種機能を実現する。
【００４３】
［データ解析部の処理］
次に、データ解析部１１の処理について説明する。図４は、各解析サーバ２０により行われるメイン処理のフローチャートであり、図５は、各解析サーバ２０により行われる処理の状態を確認するログ集約処理のフローチャートである。
【００４４】
図４を参照して、メイン処理について説明する。
Ｓ１：解析サーバ２０の制御部は、前の順序の解析サーバ２０のメイン処理手段２１が実行した処理の内容を示すトランザクションログを受信する。
【００４５】
Ｓ２：続いて、解析サーバ２０の制御部は、受信したトランザクションログを、記憶部（トランザクションログ記憶手段２２）に記憶する。
【００４６】
Ｓ３：続いて、解析サーバ２０の制御部（メイン処理手段２１）は、記憶部（トランザクションログ記憶手段２２）に記憶されたトランザクションログを読み出し、当該トランザクションログに対応付けられたＵＲＬにより識別されるクロールデータに対して、検索用インデックスを生成するための一連の前処理を行う。
【００４７】
Ｓ４：続いて、解析サーバ２０の制御部は、メイン処理手段２１による処理の内容（トランザクションログ）を、次の順序の解析サーバ２０に送信し、各解析サーバ２０により行われるメイン処理を終了する。
【００４８】
次に、図５を参照して、ログ集約処理について説明する。ログ集約処理は、図４のメイン処理と並列して行われる処理である。
【００４９】
Ｓ１１：集約サーバ３０の制御部（ログ要求手段３１）は、解析サーバ２０に対して状態確認要求を送信する。ここで、状態確認要求には、処理の状態を確認したいクロールデータを識別するＵＲＬを少なくとも含むものとする。なお、複数の解析サーバ２０のうち何れで異常が発生したかを推測可能な場合（例えば、特定の解析サーバのバージョンを変更した直後等）には、当該解析サーバ２０を識別するＩＰアドレス等のサーバ識別情報も状態確認要求に含めることが好ましい。
【００５０】
Ｓ１２：続いて、解析サーバ２０の制御部（ログ抽出手段２３）は、状態確認要求を受信すると、記憶部（トランザクションログ記憶手段２２）から、状態確認要求に含まれるＵＲＬに対応付けられたトランザクションログを抽出する。
このとき、状態確認要求にサーバ識別情報が含まれる場合には、当該サーバ識別情報により識別される解析サーバ２０のログ抽出手段２３のみが、トランザクションログを抽出する。なお、状態確認要求にサーバ識別情報が含まれる場合には、そもそも当該サーバ識別情報により識別される解析サーバ２０にのみ状態確認要求が送信され、他の解析サーバ２０には状態確認要求が送信されないこととしてもよい。
【００５１】
Ｓ１３：続いて、解析サーバ２０の制御部（ログ抽出手段２３）は、抽出したトランザクションログを集約サーバ３０に送信する。
【００５２】
Ｓ１４：続いて、集約サーバ３０の制御部（ログ集約手段３２）は、受信したトランザクションログを集約し、各解析サーバ２０により行われた処理の内容を抽出する。その後、ログ集約処理を終了する。
【００５３】
このように、本実施の形態に係るデータ解析部１１では、ＵＲＬにより識別されるクロールデータに対して複数の解析サーバ２０の各々が実行した処理の内容を、トランザクションログを介して特定できる。その結果、複数の解析サーバ２０により順次行われる処理の状態を、管理者が確認することができる。特に、ログ集約処理は、メイン処理と並列して行われるため、メイン処理の流れを止めることなく複数の解析サーバ２０により順次行われる処理の状態を確認できる。
【００５４】
このとき、ログ抽出手段２３は、ログ要求手段３１から状態確認要求を受け付けた場合にのみトランザクションログを抽出するとともに、メイン処理手段２１とは別に独立してトランザクションログを抽出するため、データ解析部１１の主な処理に影響を与えることなく複数の解析サーバ２０の各々が実行した処理の状態を確認することができる。
【００５５】
また、状態確認要求に解析サーバ２０の各々を識別するサーバ識別情報も含めることで、異常が発生した場合にその原因となる処理を行ったと推測される解析サーバ２０の処理内容のみを確認することができ、システム全体として新たな処理を行う解析サーバ２０の数を限定して処理の負荷を抑制しつつ、原因を早急に特定することができる。
【００５６】
（変形形態）
以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【００５７】
なお、上記実施形態では、ログ抽出手段２３は、状態確認要求を受け付けた場合にトランザクションログを抽出することとしているが、これに限られるものではなく、図６に示すように、設定された任意の抽出タイミングで抽出することとしてもよい。図６を参照して、変形形態のログ集約処理Ａについて説明する。
【００５８】
Ｓ２１：解析サーバ２０の制御部（ログ抽出手段２３）は、抽出タイミングであるか否かを判定する。抽出タイミングは、任意に設定可能であり、例えば、５分等の定期的な間隔であってよい。Ｓ２１において抽出タイミングである場合には、Ｓ２２の処理に移り、抽出タイミングでない場合には、抽出タイミングになるまでＳ２１の処理を繰り返す。
【００５９】
Ｓ２２：続いて、解析サーバ２０の制御部（ログ抽出手段２３）は、記憶部（トランザクションログ記憶手段２２）から、トランザクションログを抽出する。
【００６０】
Ｓ２３：続いて、解析サーバ２０の制御部（ログ抽出手段２３）は、抽出したトランザクションログを、集約サーバ３０に送信する。
【００６１】
Ｓ２４：続いて、集約サーバ３０の制御部（ログ集約手段３２）は、受信したトランザクションログを、当該トランザクションログに対応付けられたＵＲＬ、及び受信した解析サーバ２０の種別を識別するサーバ識別情報に対応付けて集約する。
【００６２】
これにより、複数の解析サーバ２０により順次行われる処理において指定したＵＲＬをキーとして集約サーバ３０に集約されたトランザクションログを予め設定した任意のタイミングで確認することで、指定したＵＲＬに対する処理の状態を監視することができる。
【００６３】
なお、図６では、ログ抽出手段２３がトランザクションログを抽出するタイミングを任意のタイミングにすることとしているが、ログ抽出手段２３が集約サーバ３０にトランザクションログを送信するタイミングを任意のタイミングとしてもよい。具体的には、トランザクションログ記憶手段２２にトランザクションログが記憶されるたびに、ログ抽出手段２３が当該トランザクションログを抽出し、その後、所定の周期（例えば、５分間隔）で集約サーバ３０にトランザクションログを送信することとしてもよい。
【符号の説明】
【００６４】
１検索エンジン
１０Ｗｅｂクローラ
１１データ解析部
１２インデクサ
１３検索サーバ
２０解析サーバ
２１メイン処理手段
２２トランザクションログ記憶手段
２３ログ抽出手段
３０集約サーバ
３１ログ要求手段
３２ログ集約手段

【特許請求の範囲】
【請求項１】
所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、
前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、
前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するログ抽出手段と、
抽出した前記複数のトランザクションログを集約するログ集約手段と、
を備えるシステム。
【請求項２】
前記状態確認要求は、前記所定のキーの指定に加え、前記複数のサーバを識別するサーバ識別情報の指定を含み、
前記ログ抽出手段は、前記状態確認要求に含まれるキーに対応付けられたトランザクションログを、前記サーバ識別情報により識別されるサーバに設けられたトランザクションログ記憶手段から抽出する
請求項１に記載のシステム。
【請求項３】
所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定するシステムであって、
前記複数のサーバの各々に設けられ、前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて記憶する複数のトランザクションログ記憶手段と、
前記複数のトランザクションログ記憶手段の各々に記憶されたトランザクションログを所定の周期で抽出するログ抽出手段と、
抽出した前記複数のトランザクションログを、前記所定のキー及び前記複数のサーバを識別するサーバ識別情報に対応付けて集約するログ集約手段と、
を備えるシステム。
【請求項４】
所定のキーにより識別されるデータについて複数のサーバにより順次行われる処理を中断することなく問題を引き起こしているサーバを特定する方法であって、
コンピュータが、
前記複数のサーバの各々が処理を実行するたびに、当該処理に伴うトランザクションログを前記所定のキーに対応付けて、前記複数のサーバの各々に設けられたトランザクションログ記憶手段に記憶するステップと、
前記所定のキーを指定する状態確認要求を受け付けたことに応じて、当該キーに対応付けられたトランザクションログを前記複数のトランザクションログ記憶手段の各々から抽出するステップと、
抽出した前記複数のトランザクションログを集約するステップと、
を含む方法。
【請求項５】
Ｗｅｂページの巡回を行いクロールデータの収集を行うＷｅｂクローラと、前記Ｗｅｂクローラが収集した前記クロールデータから検索用インデックスに用いられるデータを作成するデータ解析部と、前記データ解析部により作成されたデータに基づいて、検索用インデックスを作成するインデクサと、前記インデクサにより作成された検索用インデックスを用いてユーザからの検索要求に応答する検索サーバと、を備える検索エンジンであって、
前記データ解析部は、前記クロールデータを順次処理して前記検索用インデックスに用いられるデータを作成する複数のサーバと、前記複数のサーバの処理結果を集約する集約サーバと、を備え、
前記複数のサーバの各々は、
処理を実行するたびに、当該処理に伴うトランザクションログを前記クロールデータに対応するＷｅｂページのＵＲＬに対応付けて記憶するトランザクションログ記憶手段と、
前記ＵＲＬを指定する状態確認要求を受け付けたことに応じて、当該ＵＲＬに対応付けられたトランザクションログを前記トランザクションログ記憶手段から抽出し、前記集約サーバに送るログ抽出手段と、
を備え、
前記集約サーバは、受け付けた複数の前記トランザクションログを集約するログ集約手段を備える
検索エンジン。

【図１】