説明

Webページ情報取得システム、Webページ情報取得方法、Webページ情報取得プログラム

【課題】Webページにおける上位フレームの遷移と下位フレームの遷移に発生順序の変動が生じた場合にWebページの遷移を正確に記録する。
【解決手段】Web情報取得システム1の表示完了イベント取得手段3は、Webブラウザ2の表示完了イベントを検出する。表示内容取得手段4は、Webブラウザ2からWebページの表示内容を取得する。イベント連続状態設定手段6は、表示完了イベントの連続を判定してイベント連続状態を出力する。イベント列取得手段7は、イベント連続状態の境界を判別して連続のイベント列を取得する。遷移判定手段8は、イベント列からWebページ遷移の起因となった表示完了イベントを特定してイベントテーブル9に書き込む。表示内容保存指示手段10は、イベントテーブル9に書き込まれた表示完了イベントに応じた表示内容のブラウザ閲覧履歴格納手段5への保存を表示内容取得手段4に指示する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザがWebブラウザを用いて閲覧したWebページの表示情報を取得する情報取得技術に関する。
【背景技術】
【0002】
周知のようにパーソナルコンピュータ(以下、PCとする。)の所有ユーザは、Web上の文書や画像、映像、音楽などのデータを日々PC上で閲覧しているが、その過程において過去に閲覧したデータを再度閲覧する状況が想定される。
【0003】
ところが、閲覧履歴が膨大になるにつれて過去の閲覧データの探索が困難となることが少なくない。例えばマイクロソフト社の「Internet Explorer(登録商標)」は、履歴データを時系列順に一覧表示できるものの、表示されるのは文字データのみであり、効率よくデータを発見できない。
【0004】
そこで、Web閲覧履歴を含むPC上の操作履歴を保存するシステムが提案されている。例えばフレーム分割されたWebページの閲覧を記録するシステムとしては特許文献1のシステムが公知となっている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2011−90384
【発明の概要】
【発明が解決しようとする課題】
【0006】
特許文献1のシステムは、図1に示すようなフレームに分割されたWebページを主な処理対象としている。ここでは「top.html」がWebページ全体を表し、該Webページの内部が「frame1.html」,「frame2.html」の2つに分割されている。また、「frame2.html」の内部が「frame21.html」,「frame22.html」の2つに分割されている。特許文献1では、「frame2.html」などの上位フレームを親フレームと表し、「frame21.html」などの下位フレームを子フレームと表している。
【0007】
前記Webページの場合には、図2に示すようにhtmlファイルが読み込まれ、Webブラウザは表示完了イベントを2−1.2−2.2−3.2−4.2−5のように発生する。また、下位フレームの内容のみが遷移した場合、即ち「frame21.html」の内容が「frame211.html」に遷移し、「frame22.html」の内容が「frame221.html」に遷移し、「frame2.html」の内容が「frame21.html」に遷移した場合には、図3に示すようにファイルが読み込まれ、3−1.3−2.3−3のように表示完了イベントが発生する。
【0008】
このとき特許文献1のシステムは、Webブラウザが読み込んだhtmlファイルが上位フレームあるいは下位フレームかを判定している。ここでは図2のように上位フレームに先行して下位フレームが読み込まれている場合には、下位フレームの読み込みは上位フレームの読み込みに付随するものと判定している。
【0009】
すなわち、上位フレーム遷移のイベント2−5が検出されれば、それに先立つ下位フレームの遷移2−1〜2−4は、該上位フレーム遷移に付随するものと判定し、上位フレームの遷移のみを記録する。また、図3に示すように、下位フレームの読み込みが独立発生した場合には、下位フレーム単独の遷移と判定し、下位フレームの遷移を記録する。ここで下位フレーム単独の遷移という判定は、下位フレームの遷移3−1〜3−3の発生後一定時間内に上位フレームの遷移が発生しないということで行われる。
【0010】
しかしながら、Webブラウザが発生する表示完了イベントは、図4に示すように、発生順序が入れ替わるおそれがある。例えば本来ならば図2の順序で発生する表示完了イベントが、図4に示すように、下位フレーム「frame2.html」の読み込みが上位フレーム「top.html」の読み込み後に発生し、4−1.4−2.4−3.4−4.4−5の順序で表示完了イベントが発生することもありうる。
【0011】
ここで図4中の表示完了イベント4−1〜3は図2中の表示完了イベント2−1〜2−3に相当し、表示完了イベント4−4は表示完了イベント2−5に相当し、表示完了イベント4−5は表示完了イベント2−4に相当している。したがって、図2で2−4.2−5の順で発生した表示完了イベントが、図4では順序が逆転して2−5(4−4).2−4(4−5)の順で発生している。
【0012】
この場合に特許文献1のシステムでは、表示完了イベント4−4の発生時点で上位フレームの遷移と判定してしまうため、下位フレーム「frame2.html」を別のWebページ遷移と判定し、過剰なWebページ遷移の閲覧履歴が記録されてしまう問題があった。
【0013】
本発明は、上述のような特許文献1の問題を解決するためになされたものであり、Webページにおける上位フレームの遷移と下位フレームの遷移に発生順序の変動が生じた場合にWebページの遷移を正確に処理することを解決課題としている。
【課題を解決するための手段】
【0014】
そこで、本発明は、表示完了イベントが連続して発生したものか否かを判定し、表示完了イベントのイベント列を取得する。例えばWebブラウザの表示完了イベントが検出されればWebブラウザがビジー状態か否かを検出し、ビジー状態が解除された時点を境界としてイベント列を取得する。
【0015】
ここで抽出されたイベント列には、各フレームの表示完了イベントが含まれているから、上位フレームと下位フレームとの本来の発生順序に変動が生じても、その変動に正しく対処することが可能となる。
【0016】
本発明のWebページ情報取得システムは、Webページの内容表示が完了したときにWebブラウザの表示完了イベントを検出し、イベント情報内に含まれる検出イベント情報を取得する表示完了イベント取得手段と、表示完了イベント取得手段が表示完了イベントを検出するとWebブラウザからWebページの表示内容を取得する表示内容取得手段と、表示完了イベント取得手段が取得した検出イベント情報に基づき表示完了イベントが連続発生したか否かを判定し、連続発生と判定されればイベント連続状態を出力する連続状態設定手段と、連続状態設定手段が出力したイベント連続状態の境界を検出イベント情報に基づき判別し、連続した表示完了イベントのイベント列を取得するイベント列取得手段と、イベント列取得手段が取得したイベント列に基づきWebページ遷移の起因となった表示完了イベントを特定し、該特定された表示完了イベントの検出イベント情報をテーブルに書き込む遷移判定手段と、遷移判定手段がテーブルに書き込んだ表示完了イベントに応じたWebブラウザの表示内容を表示内容取得手段に閲覧記録として保存することを指示する保存指示手段と、を有する。
【0017】
本発明のWebページ情報取得方法は、表示完了イベント取得手段が、Webページの内容表示が完了したときにWebブラウザの表示完了イベントを検出し、イベント情報内に含まれる検出イベント情報を取得する表示完了イベント取得ステップと、表示内容取得手段が、表示完了イベント取得ステップで表示完了イベントを検出するとWebブラウザからWebページの表示内容を取得する表示内容取得ステップと、連続状態設定手段が、表示完了イベント取得ステップで取得した検出イベント情報に基づき表示完了イベントが連続発生したか否かを判定し、連続発生と判定されればイベント連続状態を出力する連続状態設定ステップと、イベント列取得手段が、連続状態設定ステップで出力したイベント連続状態の境界を検出イベント情報に基づき判別し、連続した表示完了イベントのイベント列を取得するイベント列取得ステップと、遷移判定手段が、イベント列取得ステップで取得したイベント列に基づきWebページ遷移の起因となった表示完了イベントを特定し、該特定された表示完了イベントの検出イベント情報をテーブルに書き込む遷移判定ステップと、保存指示手段が、遷移判定ステップでテーブルに書き込んだ表示完了イベントに応じたWebブラウザの表示内容を表示内容取得手段に閲覧記録として保存することを指示する保存指示手段と、を有する。
【0018】
なお、本発明は、前記システムとしてコンピュータを機能させるプログラムとして構成することもできる。このプログラムは、ネットワークや記録媒体などを通じて提供することができる。
【発明の効果】
【0019】
本発明によれば、Webページにおける上位フレームの遷移と下位フレームの遷移とに発生順序に変動が生じた場合であっても、Webページの遷移を正確に処理することができる。
【図面の簡単な説明】
【0020】
【図1】フレーム分割されたWebページ例を示す図。
【図2】上位フレームに先行して下位フレームが読み込まれる表示完了イベント例を示す図。
【図3】下位フレームの読み込みが独立して発生する表示完了イベント例。
【図4】図2のイベント発生順序が入れ替わった表示完了イベント例を示す図。
【図5】本発明の実施形態に係るWebフレームページ情報取得システムの構成図。
【図6】図2の表示完了イベントの検出イベント情報を示す図。
【図7】図3の表示完了イベントの検出イベント情報を示す図。
【図8】図4の表示完了イベントの検出イベント情報を示す図。
【図9】上位フレームに先行して下位フレームが読み込まれた後に下位フレームの読み込みが独立して発生する表示完了イベント例。
【図10】図9の表示完了イベントの検出イベント情報を示す図。
【発明を実施するための形態】
【0021】
以下、本発明の実施形態に係るWebページ情報取得システムを説明する。この情報取得システムは、主にフレーム分割されたWebページを処理対象とし、ユーザがWebブラウザを用いて閲覧した前記Webページの遷移経過を取得して記録する。
【0022】
このとき下位フレームのみに遷移があっても正確に表示情報が取得でき、またWebページ遷移時の表示完了イベント発生順序に変動があっても該変動を吸収して表示情報を取得できる。すなわち、前記情報取得システムによれば、所定要件を満たす一連の表示完了イベントのイベント列を取得し、取得されたイベント列をもとにWebページの遷移タイミングを特定する。
【0023】
これにより最上位フレーム(「top.html」など)の表示完了イベントが、最後に発生しなかった場合においてもページ遷移のタイミングを正しく検出でき、ユーザ閲覧のWebページの遷移経過が正確に記録される。
【0024】
≪構成例≫
図5に基づき前記情報取得システムの構成例を説明する。ここでは前記情報取得システム1は、PCやモバイル端末(例えば携帯電話、スマートフォンなど)にWebブラウザ2の拡張機能として実装されている。
【0025】
具体的には、前記情報取得システム1は、表示完了イベント取得手段3.表示内容取得手段4.ブラウザ閲覧履歴格納手段5.イベント連続状態設定手段6.イベント列取得手段7.遷移状態判定手段8.イベントテーブル9.表示内容保存指示手段10により実現されている。ここでは前記格納手段5とイベントテーブル9とは、メモリ(RAM)やハードディスクドライブ装置などの記憶装置に構築することができる。
【0026】
前記イベント取得手段3は、Webページの内容を表示し終わった時にWebブラウザ2が出す表示完了イベントを検出し、そのイベント情報内に含まれる検出イベント情報を取得する。この検出イベント情報には、少なくとも検出日時と検出イベントURLとを含むものとし、検出された表示完了イベント毎に「event ID」が付与される。この検出イベント情報は、前記連続状態設定手段6およびイベント列取得手段7に出力される。
【0027】
表示内容取得手段4は、表示完了イベント取得手段3により表示完了イベントが検出されるとWebブラウザ2が表示している表示内容を取得する。例えば表示URL.htmlファイル.表示内容のサムネイル画像などをWebブラウザ2から取得する。
【0028】
前記連続状態設定手段6は、表示完了イベント取得手段3から出力された検出イベント情報に基づきWebブラウザ2のビジー状態を検出し、ビジー状態と検出されれば表示完了イベントが連続発生していると判定する。ここで表示完了イベントが連続発生していると判定されれば、イベント連続状態データDをイベント列取得手段7に出力する。
【0029】
イベント列取得手段7は、前記連続状態設定手段6から出力された前記連続状態データDの境界を判別し、連続したイベント列を取得する。この境界の判別には前記イベント取得手段3から出力された検出イベント情報が用いられる。
【0030】
例えば表示完了イベント間の時間間隔が閾値を超えていれば前記連続状態データDの境界と判別することができる。また、表示完了イベントのURL間でホスト名などが異なれば前記連続状態データDの境界と判別することもできる。ここで取得されたイベント列は前記判定手段8に出力される。
【0031】
前記判定手段8は、イベント列取得手段7から出力されたイベント列を解析し、最上位のフレーム(フレームのページ)を検出することでWebページ遷移の起因となる遷移、例えば上位フレームの遷移あるいは下位フレーム単独の遷移などを特定する。ここで検出されたフレームの表示完了イベントのeventID.日時.検出イベントURLをイベントテーブル9に記録する。
【0032】
前記保存指示手段10は、イベントテーブル9の記録内容を監視し、イベントテーブル9に表示完了イベントのeventIDなどが記録されれば、表示内容取得手段4に対して該表示完了イベントに応じたWebブラウザ2の表示内容をブラウザ閲覧履歴として前記格納手段5に保存することを指示する。
【0033】
≪前記情報取得システム1の処理例≫
以下、前記情報取得システム1の処理例を説明する。ここでは前記連続状態設定手段6は、前記イベント取得手段3から出力された検出イベント情報を受け取ると前記連続状態データDのフラグ(flag)をON設定する。この設定後Webブラウザ2がビジー状態である間は前記連続状態データDのフラグをON設定のままとし、Webブラウザ2がビジー状態でなくなって事前に設定された前記閾値が経過すれば、前記連続状態データDのフラグをOFF設定に切り替える。
【0034】
このときイベント列取得手段7は、前記OFF設定に切り替えられた部分(表示完了イベント間)を前記連続状態データDの境界点として連続するイベント列を切り出す。すなわち、前記連続状態データDのフラグがON設定の状態で発生した表示完了イベントのイベント列が切り出される。ここで切り出されるイベント列の態様毎に処理例1〜4を説明する。
【0035】
(1)処理例1
図6に基づき図2のWeb閲覧、即ち上位フレームに先行して下位フレームが読み込まれる場合の処理例を説明する。ここでは一例として前記閾値は「30秒」に設定されているものとする(処理例2〜4も同様とする。)。この処理例では、
・サイトxxxからサイトabcに移動するeventID=1.2間
・サイトabcからサイトyyyに移動するeventID=6.7間
において前記連続状態データDのフラグがOFF設定に切り替わる。したがって、イベント列取得手段7は、連続するイベント列としてeventID=2〜6の表示完了イベントを切り出し、前記判定手段8に出力する。
【0036】
このとき前記判定手段8は、受け取った連続するイベント列を解析し、該イベント列中で最上位のフレームを検出する。検出されたフレームの表示完了イベントのeventID.日時.検出イベントURLをイベントテーブル9に記録する。
【0037】
この処理例では、最後に発生しているeventID=6が最上位と検出され、「top.html」の遷移がWebページ遷移の原因と特定される。このeventID=6の検出イベントURLなどがイベントテーブル9に記録されると前記判定手段8からブラウザ閲覧履歴の前記格納手段5への保存が指示される。
【0038】
(2)処理例2
図7に基づき図3のWeb閲覧、即ち下位フレームの読み込みが独立して発生する表示完了イベントの処理例を説明する。
【0039】
この処理例では、イベント列取得手段7は連続するイベント列としてeventID=2〜4の表示完了イベントを切り出し、前記判定手段8に出力する。これに応じて前記判定手段8がeventID=2〜4のイベント列を解析し、eventID=4を最上位として検出し、その検出イベントURLなどがイベントテーブル9に記録される。
【0040】
ここで図7中、eventID=2〜4と同様のイベント列が図6中ではeventID=3〜5として含まれている。もっとも、図6中では、より上位のページ遷移がeventID=6として検出されるため、eventID=3〜5は独立のページ遷移とは特定されず、上位フレームに付随する下位フレームの遷移と特定される。一方、図7中では、eventID=4が最上位として検出されるため、下位フレームの単独遷移と特定される。
【0041】
(3)処理例3
図8に基づき図4のWeb閲覧、即ち図2のイベント発生順序が入れ替わった表示完了イベントの処理例を説明する。この処理例では、イベント列取得手段7は、連続するイベント列としてeventID=2〜6を切り出し、前記判定手段8に出力する。これに応じて前記判定手段8がeventID=2〜6のイベント列を解析し、eventID=5が最上位として検出される。このeventID=5の表示完了イベントの検出イベントURLなどがイベントテーブル9に記録される。
【0042】
この処理例は、図6の処理例2と異なり、イベント列の最後の表示完了イベントが最上位とは検出されていない。これはイベントID=5.6が本来の発生順序と入れ替わって(逆転して)発生したためである。このとき前記情報取得システム1によれば、かかる発生順序の外乱に対応して正確に検出することができる。
【0043】
すなわち、特許文献1のシステムによれば、eventID=5のトップフレームの遷移が検出された時点で関連する表示完了イベントの発生は完了したと判断されるため、eventID=6の表示完了イベントは別のWebページの遷移と判断されてしまう。したがって、過剰なWebページ遷移が検出され、イベントテーブル6に記録されてしまう。
【0044】
一方、前記情報取得システム1によれば、イベント列取得手段7が連続して発生した表示完了イベントのイベント列を切り出すため、イベントID=5.6が本来の発生順序とは入れ替わって発生しても、切り出されるイベント列にはイベントID=5.6のいずれもが含まれる。
【0045】
この切り出されたイベント列中の最上位が検出されるため、上位フレームの遷移と下位フレームの遷移とに順次の入れ替わりがあっても、これを吸収する処理が実現される。すなわち、図4の表示完了イベント4−1.4−2.4−3.4−4.4−5のイベント列中、表示完了イベント4−4.4−5が本来の順序と入れ替わっている場合であっても、前記情報取得システム1はイベント列4−1〜5から最上位が検出される。
【0046】
これにより上位フレームの遷移あるいは下位フレーム単独の遷移が調査され、4−4の上位フレーム遷移に伴って4−1.4−2.4−3.4−5の下位フレーム遷移が生じたものと特定される。したがって、eventID=5の検出イベントURLなどがイベントテーブル9に記録される。
【0047】
この結果、上位フレームの遷移と下位フレームの遷移が本来の発生順序とが入れ替わっても正確にイベントテーブル9に記録することができ、過剰なWebページ遷移の記録を抑制することができる。したがって、フレーム分割されたWebページに対するユーザのブラウザ閲覧履歴を、Webブラウザ2の発生する表示完了イベントに外乱が加わってもそれに影響されることなく、正確に前記格納手段5に保存することができる。
【0048】
(4)処理例4
図9に示すように、上位フレームに先行して下位フレームが読み込まれた後に下位フレームの読み込みが独立して発生した場合の処理例を説明する。ここでは表示完了イベント9−1〜9−5まででWebページ遷移が行われ、その後に表示完了イベント9−6で「frame22.html」のみの遷移が行われたとする。このとき図10に示すように表示完了イベントが表されたとすれば、
・サイトxxxからサイトabcに移動するeventID=1.2間
・サイトabc内でframe22の遷移が起こるeventID=6.7間
・サイトabcからサイトyyyに移動するeventID=7.8間
において前記連続状態データDがOFF設定に切り替わる。したがって、イベント列取得手段7は、連続するイベント列としてeventID=2〜6を切り出し、前記判定手段8に出力する。このときeventID=6.7間の時間間隔が閾値を超えているため、eventID=7はイベント列には含まれず、前記判定手段8は別のWebページ遷移としてイベントテーブル9に記録する。
【0049】
このように前記情報取得システム1によれば、処理例1〜4の各表示完了イベントのイベント列からWebページ遷移の起因となる遷移を適切に特定することができる。したがって、表示完了イベントの発生順位に関係なく、Webページ遷移の起因となった表示完了イベントがイベントテーブル9に記録される。これにより正しいWebページの表示内容がブラウザ閲覧履歴として前記格納手段5に保存される。この点でブラウザ閲覧履歴を効率よく利用することが可能となる。
【0050】
≪プログラムなど≫
本発明は、前記情報取得システム1の各手段3〜10としてコンピュータを機能させるWebページ情報取得プログラムとして構成することもできる。このプログラムによれば、前記各手段3〜10の処理内容の一部あるいは全部をコンピュータに実行させることが可能となる。
【0051】
前記プログラムは、Webサイトや電子メールなどネットワークを通じて提供することができる。また、前記プログラムは、CD−ROM,DVD−ROM,CD−R,CD−RW,DVD−R,DVD−RW,MO,HDD,BD−ROM,BD−R,BD−REなどの記録媒体に記録して、保存・配布することも可能である。この記録媒体は、記録媒体駆動装置を利用して読み出され、そのプログラムコード自体が前記実施形態の処理を実現するので、該記録媒体も本発明を構成する。
【符号の説明】
【0052】
1…Web情報取得システム
2…Webブラウザ
3…表示完了イベント取得手段
4…表示内容取得手段
5…ブラウザ閲覧履歴格納手段
6…イベント連続状態設定手段(連続状態設定手段)
7…イベント列取得手段
8…遷移状態判定手段(遷移判定手段)
9…イベントテーブル(テーブル)
10…表示内容保存指示手段
D…イベント連続状態データ

【特許請求の範囲】
【請求項1】
ユーザがWebブラウザを用いて閲覧したWebページの表示情報を取得するWebページ情報取得システムであって、
Webページの内容表示が完了したときにWebブラウザの表示完了イベントを検出し、イベント情報内に含まれる検出イベント情報を取得する表示完了イベント取得手段と、
表示完了イベント取得手段が表示完了イベントを検出するとWebブラウザからWebページの表示内容を取得する表示内容取得手段と、
表示完了イベント取得手段が取得した検出イベント情報に基づき表示完了イベントが連続発生したか否かを判定し、連続発生と判定されればイベント連続状態を出力する連続状態設定手段と、
連続状態設定手段が出力したイベント連続状態の境界を検出イベント情報に基づき判別し、連続した表示完了イベントのイベント列を取得するイベント列取得手段と、
イベント列取得手段が取得したイベント列に基づきWebページ遷移の起因となった表示完了イベントを特定し、該特定された表示完了イベントの検出イベント情報をテーブルに書き込む遷移判定手段と、
遷移判定手段がテーブルに書き込んだ表示完了イベントに応じたWebブラウザの表示内容を表示内容取得手段に閲覧記録として保存することを指示する保存指示手段と、
を有することを特徴とするWebページ情報取得システム。
【請求項2】
ユーザがWebブラウザを用いて閲覧したWebページの表示情報を取得するWebページ情報取得方法であって、
表示完了イベント取得手段が、Webページの内容表示が完了したときにWebブラウザの表示完了イベントを検出し、イベント情報内に含まれる検出イベント情報を取得する表示完了イベント取得ステップと、
表示内容取得手段が、表示完了イベント取得ステップで表示完了イベントを検出するとWebブラウザからWebページの表示内容を取得する表示内容取得ステップと、
連続状態設定手段が、表示完了イベント取得ステップで取得した検出イベント情報に基づき表示完了イベントが連続発生したか否かを判定し、連続発生と判定されればイベント連続状態を出力する連続状態設定ステップと、
イベント列取得手段が、連続状態設定ステップで出力したイベント連続状態の境界を検出イベント情報に基づき判別し、連続した表示完了イベントのイベント列を取得するイベント列取得ステップと、
遷移判定手段が、イベント列取得ステップで取得したイベント列に基づきWebページ遷移の起因となった表示完了イベントを特定し、該特定された表示完了イベントの検出イベント情報をテーブルに書き込む遷移判定ステップと、
保存指示手段が、遷移判定ステップでテーブルに書き込んだ表示完了イベントに応じたWebブラウザの表示内容を表示内容取得手段に閲覧記録として保存することを指示する保存指示手段と、
を有することを特徴とするWebページ情報取得方法。
【請求項3】
請求項1記載のWebページ情報取得システムとしてコンピュータを機能させることを特徴とするWebページ情報取得プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate