情報処理装置、情報処理方法、および情報処理プログラム
【課題】ウェブページへのアクセス状況を考慮して概要情報を決定すること。
【解決手段】情報処理装置は、ウェブページの中の多くの閲覧者が関心を持つテキスト領域を当該ウェブページの概要情報に決定する。そのために、まず、情報処理装置は、閲覧者がウェブページにたどり着いたときの検索キーワードと当該ウェブページへの滞在時間とを取得する。次に、情報処理装置は、当該ウェブページにおける当該検索キーワードへの閲覧者の関心の強さを示す重要度を算出する。そして、情報処理装置は、当該ウェブページ内において、より重要度の高い検索キーワードをより多く含むテキスト領域を、閲覧者の関心の強いテキスト領域であるとして、当該ウェブページの概要情報に決定する。結果として、当該ウェブページの閲覧者は、多くの閲覧者が関心を持つ概要情報を参照することができ、自らが探している情報が当該ウェブページにあるかを判断しやすくなる。
【解決手段】情報処理装置は、ウェブページの中の多くの閲覧者が関心を持つテキスト領域を当該ウェブページの概要情報に決定する。そのために、まず、情報処理装置は、閲覧者がウェブページにたどり着いたときの検索キーワードと当該ウェブページへの滞在時間とを取得する。次に、情報処理装置は、当該ウェブページにおける当該検索キーワードへの閲覧者の関心の強さを示す重要度を算出する。そして、情報処理装置は、当該ウェブページ内において、より重要度の高い検索キーワードをより多く含むテキスト領域を、閲覧者の関心の強いテキスト領域であるとして、当該ウェブページの概要情報に決定する。結果として、当該ウェブページの閲覧者は、多くの閲覧者が関心を持つ概要情報を参照することができ、自らが探している情報が当該ウェブページにあるかを判断しやすくなる。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報を処理する情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
近年の情報化社会において、ネットワーク上のウェブサイトからの情報収集が盛んである。ウェブサイトには、複数のウェブページが含まれ、各ウェブページがリンクによって繋がっている。このとき、情報収集をおこなう者は、ウェブサイト内の最上位層のウェブページから、リンク先のウェブページにアクセスして、内容を一つ一つ確認し、自分が探している情報があるか否かを判断する必要がある。
【0003】
従来、情報収集の効率化のために、ウェブページにアクセスする前に、ウェブページの概要情報をポップアップとして出力する技術がある。そして、利用者が表示された概要情報から自分が探していた情報であるか否かを判断できるようにしている(例えば、下記特許文献1参照)。
【0004】
また、文書における単語の出現頻度を算出する技術がある(例えば、下記特許文献2参照)。また、アクセスされた情報の表示時間に基づいて情報に重要度を設定する技術がある(例えば、下記特許文献3参照)。また、検索キーと関連性が大きい文書内のブロックを特定する技術がある(例えば、下記特許文献4参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003−281093号公報
【特許文献2】特開2000−112990号公報
【特許文献3】特開2009−151627号公報
【特許文献4】特開2008−269069号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来技術では、ウェブページの概要情報として、ウェブページの制作者が予め作成した情報、ウェブページの最上部などの特定箇所の情報、またはウェブページのスナップショットが採用されていた。結果として、閲覧者のニーズに適さない情報が概要情報になっている場合があるといった問題があった。また、閲覧者のニーズの変化に対応して、概要情報を決定することができないといった問題があった。
【0007】
本発明は、上述した従来技術による問題点を解消するため、ウェブページへのアクセス状況を考慮して概要情報を決定できる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するため、本発明の一側面によれば、閲覧対象ページについてのアクセス元で閲覧対象ページに遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得し、取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出し、検索キーワードごとに算出された検索キーワードの閲覧対象ページにおける重要度と、閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページにおける重要度を、テキスト領域ごとに算出し、テキスト領域ごとに算出されたテキスト領域の閲覧対象ページにおける重要度に基づいて、閲覧対象ページの概要情報となる特定のテキスト領域を決定する情報処理装置、情報処理方法、および情報処理プログラムが提案される。
【0009】
また、上述した課題を解決し、目的を達成するため、本発明の一側面によれば、閲覧対象ページ群についてのアクセス元で閲覧対象ページ群に遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページ群を閲覧していた時間を閲覧対象ページ群へのアクセスごとに取得し、取得された検索キーワードでたどり着いた閲覧対象ページ群についてのアクセス元で閲覧対象ページ群を閲覧していた時間に基づいて、検索キーワードの閲覧対象ページ群における重要度を、検索キーワードごとに算出し、検索キーワードごとに算出された検索キーワードの閲覧対象ページ群における重要度と、閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページ群における重要度を、テキスト領域ごとに算出し、テキスト領域ごとに算出されたテキスト領域の閲覧対象ページ群における重要度に基づいて、閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する情報処理装置、情報処理方法、および情報処理プログラムが提案される。
【発明の効果】
【0010】
本発明の一側面によれば、ウェブページへのアクセス状況を考慮して概要情報を決定できるという効果を奏する。
【図面の簡単な説明】
【0011】
【図1】図1は、情報処理装置によるウェブページの概要情報の決定の内容を示す説明図である。
【図2】図2は、システムの構成例を示す説明図である。
【図3】図3は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。
【図4】図4は、アクセスログDB201の記憶内容を示す説明図である。
【図5】図5は、検索キーワードDB202の記憶内容を示す説明図である。
【図6】図6は、領域重要度DB203の記憶内容を示す説明図である。
【図7】図7は、情報処理装置100の機能的構成を示すブロック図である。
【図8】図8は、情報処理装置100による検索キーワードと滞在時間の取得の具体例を示す説明図である。
【図9】図9は、情報処理装置100による検索キーワードごとの重要度の算出の具体例を示す説明図である。
【図10】図10は、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例を示す説明図である。
【図11】図11は、情報処理装置100による概要情報の提供の具体例を示す説明図である。
【図12】図12は、検索キーワード抽出処理の処理内容の詳細を示すフローチャートである。
【図13】図13は、領域重要度算出処理の処理内容の詳細を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下に添付図面を参照して、この発明にかかる情報処理装置、情報処理方法、および情報処理プログラムの実施の形態を詳細に説明する。情報処理装置は、ウェブページ内で多くの閲覧者が関心を持つテキスト領域を当該ウェブページの概要情報に決定する。そのために、まず、情報処理装置は、閲覧者がウェブページにたどり着く過程で使用した検索キーワードと閲覧端末で当該ウェブページが表示されていた時間(以下、「滞在時間」という)とを取得する。
【0013】
次に、情報処理装置は、当該ウェブページにおける当該検索キーワードへの閲覧者の関心の強さを示す重要度を算出する。そして、情報処理装置は、当該ウェブページ内において、より重要度の高い検索キーワードをより多く含むテキスト領域を、閲覧者の関心の強いテキスト領域であるとして、当該ウェブページの概要情報に決定する。
【0014】
結果として、情報処理装置は、当該ウェブページの閲覧者に対して、多くの閲覧者が関心を持った概要情報を提供することができるようになる。そして、当該ウェブページの閲覧者は、多くの閲覧者が関心を持つ概要情報を参照することができるため、自らが探している情報が当該ウェブページにあるかを判断しやすくなる。
【0015】
(情報処理装置によるウェブページの概要情報の決定の内容)
まず、図1を用いて、情報処理装置によるウェブページの概要情報の決定の内容について説明する。
【0016】
図1は、情報処理装置によるウェブページの概要情報の決定の内容を示す説明図である。図1において、情報処理装置100は、ウェブページWP内で、多くの閲覧者Sが関心を持つテキスト領域をウェブページWPの概要情報に決定する。
【0017】
そのために、まず、図1の(a)に示すように、情報処理装置100は、検索キーワードへのウェブページWPにおける閲覧者Sの関心の強さを示す重要度を算出する。ここで、情報処理装置100は、ウェブページWPへのアクセスに関する情報をアクセスログとして記憶している。ウェブページWPは、複数の閲覧者Sから閲覧されている。各閲覧者Sは、閲覧端末を使用して、検索キーワードを検索サイトに入力し、検索サイトの検索結果ページからウェブページWPにたどり着き、ウェブページWPを閲覧したとする。
【0018】
例えば、閲覧者S(甲)は、検索キーワード「干渉」を用いてウェブページWPにたどり着き、90秒閲覧したとする。また、閲覧者S(乙)は、検索キーワード「干渉」を用いてウェブページWPにたどり着き、120秒閲覧したとする。また、閲覧者S(丙)は、検索キーワード「シミュレーション」を用いてウェブページWPにたどり着き、60秒閲覧したとする。
【0019】
(1)ここで、情報処理装置100は、ウェブページWPのアクセスログを参照し、ウェブページWPへのアクセスごとに、閲覧者Sが使用した検索キーワードとウェブページWPへの滞在時間とを取得する。
【0020】
(2)次に、情報処理装置100は、ウェブページWPにおける検索キーワードごとの重要度を算出する。ここでは、情報処理装置100は、閲覧者Sの滞在時間の和が大きい検索キーワードが、多くの閲覧者Sから関心を持たれている検索キーワードであるとして、重要度を高くする。具体的には、例えば、情報処理装置100は、滞在時間の和を重要度にする。
【0021】
次に、図1の(b)に示すように、情報処理装置100は、ウェブページWP内のテキスト領域(ここでは、3箇所のテキスト領域F1〜F3)ごとに、各テキスト領域に対する閲覧者Sの関心の強さを示す領域重要度を算出し、概要情報を決定する。
【0022】
(1)ここで、情報処理装置100は、ウェブページWP内の各テキスト領域のデータを取得する。ここでは、情報処理装置100は、各テキスト領域F1〜F3のデータを取得する。
【0023】
(2)次に、情報処理装置100は、取得した各テキスト領域F1〜F3のデータに基づいて、テキスト領域ごとに閲覧者Sの関心の強さを示す領域重要度を算出する。ここでは、領域重要度は、テキスト領域内に含まれる検索キーワードの重要度の和である。具体的には、例えば、テキスト領域F2には、重要度「210」の検索キーワード「干渉」が2つ含まれ、重要度「60」の検索キーワード「シミュレーション」が1つ含まれているため、テキスト領域F2の領域重要度は、「210+210+60」になる。
【0024】
これにより、情報処理装置100は、算出した領域重要度に基づいて、閲覧者Sが関心を持っているテキスト領域のデータを特定して、特定したデータを概要情報に決定できる。ここでは、領域重要度が最も高いテキスト領域F2のデータがウェブページWPの概要情報になる。
【0025】
結果として、図1の(c)に示すように、ウェブページWPのリンク元ページLPにおいて、ウェブページWPにたどり着いた多くの閲覧者Sが関心を持っていた概要情報を表示できるようになる。具体的には、例えば、情報処理装置100は、閲覧端末においてウェブページWPへのリンクLにマウスポインタPを重ねた場合に、概要情報に決定されたテキスト領域F2のデータがポップアップPUとして表示されるように、HTML(HyperText Markup Language)文書にJava(登録商標)Scriptを用いて埋め込んでおく。
【0026】
そのため、あらたにウェブページWPを閲覧しようとする閲覧者Sは、多くの閲覧者Sが関心を持っていた概要情報に基づいて、ウェブページWPにアクセスする前に、ウェブページWPの内容を判断できるようになる。結果として、閲覧者Sは、ウェブページWPの内容を精査せずに、ウェブページWPに自らが求めている情報が記載されているかを判断できるようになり、情報収集を効率化できる。また、ウェブページWPの制作者は、多くの閲覧者Sが関心を持っていた概要情報を自動的に決定できるため、閲覧者Sの関心を予測して概要情報を設定する手間をかけずに済む。
【0027】
(システムの構成例)
次に、図2を用いて、図1に示した情報処理装置100と、ウェブページWPの閲覧者Sが使用する閲覧端末と、検索サーバと、を含むシステムの構成例について説明する。
【0028】
図2は、システムの構成例を示す説明図である。図2に示すように、システムは、情報処理装置100と、閲覧端末210と、検索サーバ220と、を含む。なお、図2では、閲覧端末210は1つであるが、閲覧端末210は複数含まれていてもよい。
【0029】
情報処理装置100は、ウェブサイト内の各ウェブページWPのデータを記憶している。ウェブページWPのデータとは、ネットワークN上で公開される文書であり、例えば、HTML文書やXML(Extensible Markup Language)文書である。また、情報処理装置100は、閲覧端末210からのアクセスに関する情報を記憶するアクセスログDB(DataBase)201を有する。また、情報処理装置100は、ウェブサイト内の各ウェブページWPに対する検索キーワードの重要度を記憶する検索キーワードDB202を有する。また、情報処理装置100は、ウェブページWP内の各テキスト領域の領域重要度を記憶する領域重要度DB203を有する。
【0030】
閲覧端末210は、閲覧者Sの操作を受けて、検索サーバ220にアクセスし、ウェブページWPを検索する端末である。また、閲覧端末210は、閲覧者Sの操作を受けて、検索サーバ220による検索結果ページに表示されるリンクLを介して、情報処理装置100が記憶するウェブページWPのデータにアクセスをおこなう端末である。検索サーバ220は、閲覧端末210で閲覧者Sにより入力された検索キーワードに基づいて、ネットワークN上のウェブページWPを検索するサーバである。
【0031】
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、図1および図2に示した情報処理装置100のハードウェア構成例について説明する。
【0032】
図3は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、ROM(Read‐Only Memory)302と、RAM(Random Access Memory)303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、ディスプレイ308と、I/F(Interface)309と、キーボード310と、マウス311と、スキャナ312と、プリンタ313と、を備えている。また、各構成部はバス320によってそれぞれ接続されている。
【0033】
ここで、CPU301は、情報処理装置100の全体の制御を司る。ROM302は、ブートプログラムなどのプログラムを記憶している。また、ROM302は、ウェブサイト内のウェブページWPのデータを記憶している。RAM303は、CPU301のワークエリアとして使用される。また、RAM303は、アクセスログDB201と、検索キーワードDB202と、領域重要度DB203と、を記憶する。
【0034】
磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータのリード/ライトを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記憶する。
【0035】
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータのリード/ライトを制御する。光ディスク307は、光ディスクドライブ306の制御で書き込まれたデータを記憶したり、光ディスク307に記憶されたデータをコンピュータに読み取らせたりする。
【0036】
ディスプレイ308は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ308は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0037】
インターフェース(以下、「I/F」と略する。)309は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワークNに接続され、このネットワークNを介して他の装置に接続される。そして、I/F309は、ネットワークNと内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F309には、例えばモデムやLANアダプタなどを採用することができる。
【0038】
キーボード310は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス311は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
【0039】
スキャナ312は、画像を光学的に読み取り、情報処理装置100内に画像データを取り込む。なお、スキャナ312は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ313は、画像データや文書データを印刷する。プリンタ313には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。
【0040】
(アクセスログDB201の記憶内容)
次に、図4を用いて、RAM303に記憶されているアクセスログDB201の記憶内容について説明する。
【0041】
図4は、アクセスログDB201の記憶内容を示す説明図である。図4に示すように、アクセスログDB201は、ホスト項目のそれぞれに対応付けて、日時項目と、URL項目と、リファラ項目と、を有し、アクセスごとにレコードを構成する。
【0042】
ホスト項目には、ウェブページWPにアクセスした閲覧端末210を識別する識別子が記憶されている。具体的には、例えば、識別子は、IPアドレスである。日時項目には、ウェブページWPにアクセスされた日時が記憶されている。URL項目には、ウェブページWPを識別する識別子が記憶されている。リファラ項目には、URL項目の識別子により識別されるウェブページWPのリンク元ページLPが記憶されている。
【0043】
なお、一般的に、ウェブサーバで記憶されるアクセスログには、データの転送量、閲覧に使用された通信プロトコル、閲覧に使用されたウェブブラウザ、および閲覧端末210のOSなどの情報が含まれるが、ここでは、簡単のため省略する。
【0044】
(検索キーワードDB202の記憶内容)
次に、図5を用いて、RAM303に記憶されている検索キーワードDB202の記憶内容について説明する。
【0045】
図5は、検索キーワードDB202の記憶内容を示す説明図である。図5に示すように、検索キーワードDB202は、ページ名項目のそれぞれに対応付けて、検索キーワード項目を有し、ウェブページWPごとにレコードを構成する。
【0046】
ページ名項目には、ウェブページWPの名称が記憶されている。検索キーワード項目には、検索キーワードごとに、ページ名項目が示すウェブページWPへの閲覧者Sの関心の強さを示す重要度が記憶されている。例えば、重要度として、ページ名項目が示すウェブページWPでの閲覧者Sの滞在時間の和が記憶されている。なお、重要度として、ページ名項目が示すウェブページWPへのアクセス数を採用してもよい。
【0047】
(領域重要度DB203の記憶内容)
次に、図6を用いて、RAM303に記憶されている領域重要度DB203の記憶内容について説明する。
【0048】
図6は、領域重要度DB203の記憶内容を示す説明図である。図6に示すように、領域重要度DB203は、領域項目のそれぞれに対応付けて、領域重要度項目を有し、ウェブページWP内のテキスト領域ごとにレコードを構成する。
【0049】
領域項目には、ウェブページWP内のテキスト領域を識別する識別子が記憶されている。領域重要度項目には、領域項目の識別子により識別されるテキスト領域への閲覧者Sの関心の強さを示す領域重要度が記憶されている。例えば、領域重要度として、テキスト領域に含まれる検索キーワードの重要度の和が記憶されている。なお、領域重要度の算出の際は、隣接するテキスト領域に含まれる検索キーワードをさらに参照してもよい。
【0050】
(情報処理装置100の機能的構成例)
次に、図7を用いて、情報処理装置100の機能的構成例について説明する。
【0051】
図7は、情報処理装置100の機能的構成を示すブロック図である。情報処理装置100は、取得部701と、第1の算出部702と、第2の算出部703と、決定部704と、埋込部705と、出力部706と、を含む構成である。この制御部となる機能(取得部701〜出力部706)は、具体的には、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F309により、その機能を実現する。
【0052】
取得部701は、閲覧対象ページについてのアクセス元で閲覧対象ページに遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得する機能を有する。ここで、閲覧対象ページとは、上述したウェブページWPである。アクセス元とは、上述した閲覧端末210である。検索キーワードとは、閲覧対象ページにたどり着くまでに閲覧端末210で入力された検索キーワードであり、例えば、閲覧端末210で入力されて検索サーバ220に送信された検索キーワードである。閲覧対象ページを閲覧していた時間とは、閲覧端末210が閲覧対象ページを表示していた時間であり、上述した滞在時間である。
【0053】
具体的には、例えば、取得部701は、アクセスログDB201を参照することにより、ウェブページWPにアクセスした閲覧端末210で入力された検索キーワードおよび閲覧端末210がウェブページWPを表示していた時間を取得する。これにより、情報処理装置100は、ウェブページWPへの閲覧者Sの関心の強さの指標となるアクセスに使用された検索キーワードや滞在時間を取得することができる。
【0054】
また、取得部701は、閲覧対象ページについてのアクセス元で閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得する機能を有する。具体的には、例えば、取得部701は、検索サイトからウェブページWPにたどり着くまでのページ数が規定数以下である場合の検索キーワードと滞在時間とを重要度の算出に使用する。
【0055】
これにより、ウェブページWPと関連の深い検索キーワードと滞在時間とを重要度の算出に使用するため、精度よく重要度を算出できるようになる。なお、取得されたデータは、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶される。
【0056】
第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、検索キーワードごとのウェブページWPへの滞在時間の和を、検索キーワードの重要度として算出する。これにより、情報処理装置100は、ウェブページWPにおける検索キーワードへの閲覧者Sの関心の強さを示す重要度を算出することができる。
【0057】
また、第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間のうち、閾値以下であるアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、1回のアクセスにおける閲覧時間が閾値以上であった場合、当該閲覧時間を重要度の算出に使用しない。
【0058】
これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されているものの、閲覧者SがウェブページWPを閲覧していない状況(例えば、閲覧者Sが離席中、または食事中など)における閲覧時間は重要度の算出に使用しない。そのため、情報処理装置100は、精度よく重要度を算出できるようになる。
【0059】
また、第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間のうち、閾値以上であるアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、1回のアクセスにおける閲覧時間が閾値以下であった場合、当該閲覧時間を重要度の算出に使用しない。
【0060】
これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されたものの、閲覧者SがウェブページWPに関心がない状況(例えば、閲覧者Sが流し読みをした場合など)における閲覧時間は重要度の算出に使用しない。そのため、精度よく重要度を算出できるようになる。なお、算出結果は、検索キーワードDB202に記憶される。
【0061】
第2の算出部703は、第1の算出部702によって検索キーワードごとに算出された検索キーワードの閲覧対象ページにおける重要度と、閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページにおける重要度を、テキスト領域ごとに算出する機能を有する。ここで、テキスト領域の閲覧対象ページにおける重要度とは、上述した領域重要度である。
【0062】
具体的には、例えば、第2の算出部703は、テキスト領域に含まれる検索キーワードの重要度の和を、領域重要度として算出する。また、第2の算出部は、さらに、隣接するテキスト領域に含まれる検索キーワードの重要度の和を参照して、領域重要度を算出してもよい。なお、算出結果は、領域重要度DB203に記憶される。これにより、情報処理装置100は、ウェブページWP内の各テキスト領域への閲覧者Sの関心の強さを示す領域重要度を算出することができる。
【0063】
決定部704は、第2の算出部703によってテキスト領域ごとに算出されたテキスト領域の閲覧対象ページにおける重要度に基づいて、閲覧対象ページの概要情報となる特定のテキスト領域を決定する機能を有する。具体的には、例えば、決定部704は、ウェブページWP内で最も領域重要度の高いテキスト領域を、ウェブページWPの概要情報となるテキスト領域に決定する。
【0064】
これにより、ウェブサイトの制作者は、閲覧者Sが関心を持つテキスト領域を調査して概要情報を決定するといった手間を削減できる。また、ウェブサイトの制作者は、ウェブサイトの閲覧者Sのニーズが変化し閲覧者Sが関心を持つテキスト領域が変化した場合にも、変化したニーズに対応した概要情報になるテキスト領域を容易に決定できる。なお、決定結果は、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶される。
【0065】
埋込部705は、決定部704によって決定された特定のテキスト領域内のデータを、閲覧対象ページのリンク元ページLPから呼び出し可能な形式で、リンク元ページLPに埋め込む機能を有する。具体的には、例えば、埋込部705は、ウェブページWPのリンク元ページLPにおいて、ウェブページWPへのリンクLがマウスオーバされたときに、概要情報がポップアップPUに表示されるように、リンク元ページLPのHTML文書内にJavaScriptを用いて埋め込む。
【0066】
これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPにアクセスする前に、リンク先のウェブページWPの概要情報を知ることができる。そのため、ウェブサイトの閲覧者Sにとって、情報の取捨選択が容易になり、ウェブサイトの利便性を向上できる。
【0067】
また、埋込部705は、決定部704によって決定された特定のテキスト領域内のデータを、閲覧対象ページ内のテキスト領域より上の領域に埋め込む機能を有する。具体的には、例えば、埋込部705は、ウェブページWP内の概要情報になるテキスト領域より上の領域に、当該ウェブページWPの概要情報を埋め込む。
【0068】
これにより、ウェブページWPの閲覧者Sは、ウェブページWP全体を読むことなく、ウェブページWPの概要情報を知ることができるようになる。また、ウェブページWPのHTML文書内に「meta descriptionタグ」を用いて埋め込むことで、検索サイトのスニペットへ概要情報が表示されるようにしてもよい。
【0069】
出力部706は、決定部704によって決定された閲覧対象ページの概要情報となる特定のテキスト領域を出力する機能を有する。具体的には、例えば、出力部706は、閲覧端末210に対して概要情報を送信する。出力形式としては、例えば、ディスプレイ308への表示、プリンタ313への印刷出力、I/F309による外部装置への送信がある。また、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶することとしてもよい。
【0070】
これにより、情報処理装置100は、閲覧端末210からの要求を受けてから概要情報を出力することができる。また、情報処理装置100は、情報処理装置100のユーザに、閲覧情報を通知することができる。
【0071】
また、取得部701〜出力部706は、閲覧対象ページとして、ウェブページWPの集合を採用してもよい。具体的には、例えば、取得部701〜決定部704は、ウェブページWPの集合を一つのウェブページWPとして扱い、ウェブページWPの集合の中から、多くの閲覧者Sが興味を持っているテキスト領域のデータを特定し、ウェブページWPの集合の概要情報に決定する。これにより、複数のウェブページWPにまたがった記事があった場合に、複数のウェブページWP全体(当該記事全体)での概要情報を決定することができるようになる。
【0072】
また、具体的には、例えば、埋込部705は、ウェブページWPの集合のいずれかのウェブページWPへのリンク元ページLPにおいて、ウェブページWPへのリンクLがマウスオーバされたときに、概要情報がポップアップPUに表示されるように埋め込む。これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPの集合にアクセスする前に、リンク先のウェブページWPの集合の概要情報を知ることができる。
【0073】
また、具体的には、例えば、埋込部705は、ウェブページWPの集合のうちの最上位層のウェブページWPに概要情報を埋め込む。これにより、ウェブページWPの集合の閲覧者Sは、ウェブページWPの集合全体を読むことなく、ウェブページWPの集合の概要情報を知ることができる。
【0074】
また、具体的には、例えば、出力部706は、ウェブページWPの集合の概要情報を出力する。これにより、情報処理装置100は、閲覧端末210からの概要情報の要求を受けてからウェブページWPの集合の概要情報を出力することができる。また、情報処理装置100は、情報処理装置100のユーザに、ウェブページWPの集合の閲覧情報を通知することができる。
【0075】
(情報処理装置100による概要情報の決定の具体例)
次に、図8〜11を用いて、情報処理装置100による概要情報の決定の具体例について説明する。
【0076】
(情報処理装置100による検索キーワードと滞在時間の取得の具体例)
まず、図8を用いて、情報処理装置100による検索キーワードと滞在時間の取得の具体例について説明する。
【0077】
図8は、情報処理装置100による検索キーワードと滞在時間の取得の具体例を示す説明図である。ここで、情報処理装置100は、アクセスログDB201を参照して、検索キーワードと滞在時間を取得する。
【0078】
(1)具体的には、まず、アクセスログDB201のホスト項目の記憶内容が同一の複数のレコードを参照し、1回のアクセスにおける経路を取得する。ここで、情報処理装置100は、「aa.bb.ne.jp」で識別される閲覧端末210が、「http://xxx.co.jp/search=”干渉”」の検索サイトから、「index.html」のウェブページWPにアクセスした経路を取得する。また、情報処理装置100は、「aa.bb.ne.jp」で識別される閲覧端末210が、「index.html」のウェブページWPから、「mokuji.html」のウェブページWPにアクセスした経路を取得する。
【0079】
(2)そして、情報処理装置100は、取得した経路上の各ウェブページWPへアクセスされた時刻に基づいて、滞在時間を取得する。例えば、「index.html」のウェブページWPへの滞在時間は、「mokuji.html」のウェブページWPへアクセスされた時刻から「index.html」のウェブページWPへアクセスされた時刻を引いた値になる。また、最後にアクセスされた「mokuji.html」のウェブページWPの滞在時間は、例えば、閲覧端末210でウェブページWPが閉じられた時刻から、「mokuji.html」のウェブページWPへアクセスされた時刻を引いた値になる。
【0080】
(3)また、検索サイトのアドレスには、例えば、「http://xxx.co.jp/search=”干渉”」のように、検索に使用された検索キーワードが含まれている。ここでは、簡単のため、URLに検索キーワードがそのまま含まれているように表したが、実際には、URLには検索キーワードを示すコードが含まれる。情報処理装置100は、検索サイトのURLに含まれる検索キーワードを参照することで、取得した経路上の各ウェブページWPについての閲覧端末210での検索キーワードを取得する。
【0081】
情報処理装置100は、1回のアクセスにおける検索キーワードが「干渉」と「シミュレーション」の2つである場合、それぞれについて滞在時間を取得してもよいし、それぞれの検索キーワードに滞在時間を分けてもよい。また、情報処理装置100は、検索キーワードが複合語である「干渉シミュレーション」の場合、1つの検索キーワードとして「干渉シミュレーション」を取得してもよいし、2つの検索キーワードとして「干渉」と「シミュレーション」に分けて取得してもよい。
【0082】
(情報処理装置100による検索キーワードごとの重要度の算出の具体例)
次に、図9を用いて、情報処理装置100による検索キーワードごとの重要度の算出の具体例について説明する。
【0083】
図9は、情報処理装置100による検索キーワードごとの重要度の算出の具体例を示す説明図である。ここで、情報処理装置100は、ウェブサイト内のウェブページWPごとに、図8において取得した各検索キーワードについて重要度を算出する。なお、以下では、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして、対象ページでの検索キーワードの重要度を算出する場合について説明する。
【0084】
図9の(a)は、図8と同様にして、情報処理装置100が取得した、閲覧端末210からのアクセスの経路と、閲覧端末210が使用した検索キーワードと、各ウェブページWPでの閲覧端末210の滞在時間と、を表している。
【0085】
図9の(a)に示すように、対象ページは、経路1では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に90秒表示されている。また、対象ページは、経路2では、検索キーワード「シミュレーション」を使用してたどり着いた閲覧端末210に60秒表示されている。また、対象ページは、経路3では、検索キーワード「バーチャル」を使用してたどり着いた閲覧端末210に90秒表示されている。また、対象ページは、経路4では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に60秒表示されている。また、対象ページは、経路5では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に40秒表示されている。
【0086】
図9の(b)に示すように、情報処理装置100は、検索キーワードの重要度を算出する。例えば、検索キーワードの重要度として、ウェブページWPにおける滞在時間の和を採用できる。この場合、検索キーワード「干渉」の重要度は「190」になり、検索キーワード「シミュレーション」の重要度は「60」になり、検索キーワード「バーチャル」の重要度は「90」になる。
【0087】
ここでは、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして説明したが、全ウェブページWPのそれぞれを対象ページとして同様の処理をおこなってもよい。なお、算出した重要度は、検索キーワードDB202に記憶される。
【0088】
(情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例)
次に、図10を用いて、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例について説明する。
【0089】
図10は、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例を示す説明図である。ここで、情報処理装置100は、図9において算出した検索キーワードの重要度に基づいて、ウェブページWPのテキスト領域ごとに領域重要度を算出する。なお、以下では、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして、対象ページでのテキスト領域ごとの領域重要度を算出する場合について説明する。
【0090】
(1)まず、情報処理装置100は、対象ページ内のテキスト領域を特定し、各テキスト領域のデータを取得する。具体的には、情報処理装置100は、HTML文書内の改行コードから、段落ごとのテキスト領域F1〜F12を特定し、各テキスト領域F1〜F12のデータを取得する。
【0091】
(2)そして、情報処理装置100は、各テキスト領域F1〜F12に含まれる検索キーワードの出現回数と検索キーワードの重要度に基づいて、テキスト領域ごとに領域重要度を算出する。例えば、情報処理装置100は、領域重要度として、各テキスト領域F1〜F12に含まれる検索キーワードごとに出現回数と重要度との積を算出し、算出した積の和をとった値を採用する。この場合、例えば、テキスト領域F12の領域重要度は「340」になる。
【0092】
また、例えば、情報処理装置100は、各テキスト領域F1〜F12に含まれる検索キーワードごとに出現回数と重要度との積を算出し、算出した積の和をとった値を算出する。そして、情報処理装置100は、領域重要度として、各テキスト領域F1〜F12ごとに、各テキスト領域F1〜F12について算出された値と、隣接するテキスト領域について算出された和の何割か(例えば、8割)と、の和をとった値を採用する。この場合、例えば、領域F11の領域重要度は、領域F11について算出された値「0」と、領域F10について算出された値「90」の8割「72」と、領域F12について算出された値「340」の8割「242」と、の和「314」になる。
【0093】
これにより、情報処理装置100は、算出した重要度に基づいて、対象ページにおいて閲覧者Sの関心が強いテキスト領域を特定することができ、特定したテキスト領域のデータを概要情報に決定することができる。
【0094】
ここでは、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして説明したが、全ウェブページWPのそれぞれを対象ページとして同様の処理をおこなってもよい。なお、算出した領域重要度は、領域重要度DB203に記憶される。
【0095】
(情報処理装置100による概要情報の提供の具体例)
次に、図11を用いて、情報処理装置100による概要情報の提供の具体例について説明する。
【0096】
図11は、情報処理装置100による概要情報の提供の具体例を示す説明図である。情報処理装置100は、図10において決定された概要情報を、ウェブサイトの閲覧者Sに提供する。
【0097】
図10に示すように、例えば、情報処理装置100は、ウェブページWPのリンク元ページLPにおいて、ウェブページWPにたどり着いた多くの閲覧者Sが関心を持っていた概要情報(概要情報の周辺のデータを含む)を表示する。具体的には、情報処理装置100は、閲覧端末210においてウェブページWPへのリンクLにマウスポインタPを重ねた場合に概要情報がポップアップPUとして表示されるように、HTML文書にJavaScriptを用いて埋め込んでおく。
【0098】
これにより、リンク先のウェブページWPを閲覧しようとする閲覧者Sは、多くの閲覧者Sが関心を持っていた概要情報に基づいて、ウェブページWPの内容を判断できるようになる。また、ウェブページWPの制作者は、多くの閲覧者Sが関心を持っていた概要情報が自動的に決定されるため、閲覧者Sの関心を予測して概要情報を設定する手間をかけずに済む。
【0099】
また、情報処理装置100は、ウェブページWP内に当該ウェブページWPの概要情報を埋め込んでもよい。これにより、ウェブページWPにアクセスした閲覧者Sは、ウェブページWP全体を閲覧せずとも、ウェブページWPの概要を把握できるようになる。また、情報処理装置100は、HTML文書に「meta descriptionタグ」を使用して、概要情報を埋め込んでおき、検索サイトでのスニペットへ表示されるようにしてもよい。
【0100】
(検索キーワード抽出処理の処理内容)
次に、図12を用いて、検索キーワード抽出処理の処理内容の詳細について説明する。検索キーワード抽出処理は、図8および図9に示した情報処理装置100がおこなった処理である。
【0101】
図12は、検索キーワード抽出処理の処理内容の詳細を示すフローチャートである。まず、CPU301は、アクセスログDB201からアクセスの経路を抽出する(ステップS1201)。次に、CPU301は、未処理のウェブページWPを対象ページに選択する(ステップS1202)。そして、CPU301は、対象ページを通過するアクセスの経路を選択する(ステップS1203)。
【0102】
次に、CPU301は、選択した経路に基づいて、対象ページにおける検索キーワードごとの重要度を算出する(ステップS1204)。そして、CPU301は、未処理のウェブページWPがあるか否かを判定する(ステップS1205)。
【0103】
ここで、未処理のウェブページWPがある場合(ステップS1205:Yes)、CPU301は、ステップS1202に戻る。一方、未処理のウェブページWPがない場合(ステップS1205:No)、CPU301は、処理結果を検索キーワードDB202に記憶し(ステップS1206)、検索キーワード抽出処理を終了する。
【0104】
これにより、情報処理装置100は、ウェブサイト内の各ウェブページWPについて、検索キーワードごとに重要度を算出することができる。また、検索キーワード抽出処理では、ウェブページWPの集合を一つのウェブページWPとして扱って、ウェブページWPの集合全体における検索キーワードごとの重要度を算出してもよい。
【0105】
(領域重要度算出処理の処理内容)
次に、図13を用いて、領域重要度算出処理の処理内容の詳細について説明する。領域重要度算出処理は、図10に示した情報処理装置100がおこなった処理である。
【0106】
図13は、領域重要度算出処理の処理内容の詳細を示すフローチャートである。まず、CPU301は、未処理のウェブページWPを対象ページに選択する(ステップS1301)。そして、CPU301は、対象ページに含まれる全テキスト領域を特定する(ステップS1302)。
【0107】
次に、CPU301は、検索キーワードDB202と特定されたテキスト領域のデータとを参照して、特定されたテキスト領域ごとの領域重要度を算出する(ステップS1303)。そして、CPU301は、未処理のウェブページWPがあるか否かを判定する(ステップS1304)。
【0108】
ここで、未処理のウェブページWPがある場合(ステップS1304:Yes)、CPU301は、ステップS1301に戻る。一方、未処理のウェブページWPがない場合(ステップS1304:No)、CPU301は、処理結果を領域重要度DB203に記憶し(ステップS1305)、領域重要度算出処理を終了する。
【0109】
これにより、情報処理装置100は、ウェブサイト内の各ウェブページWPについて、テキスト領域ごとに重要度を算出することができる。また、領域重要度算出処理では、ウェブページWPの集合を一つのウェブページWPとして扱って、ウェブページWPの集合全体におけるテキスト領域ごとの領域重要度を算出してもよい。
【0110】
以上説明したように、情報処理装置は、ウェブページWPにたどり着いた際の検索キーワードとウェブページWPでの滞在時間とからウェブページWP内で多くの閲覧者Sが興味を持っているテキスト領域を特定する。そして、情報処理装置100は、特定された多くの閲覧者Sが興味を持っているテキスト領域のデータを、ウェブページWPの概要情報に決定する。
【0111】
これにより、ウェブサイトの制作者は、閲覧者Sが関心を持つテキスト領域を調査して概要情報を決定するといった手間を削減できる。また、ウェブサイトの制作者は、ウェブサイトの閲覧者Sのニーズが変化し閲覧者Sが関心を持つテキスト領域が変化した場合にも、変化したニーズに対応した概要情報になるテキスト領域を容易に決定できる。
【0112】
また、情報処理装置100は、決定された概要情報を、ウェブページWPのリンク元ページLPに埋め込んでおく。これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPにアクセスする前に、リンク先のウェブページWPの概要情報を知ることができる。そのため、ウェブサイトの閲覧者Sにとって、情報収集が容易になり、ウェブサイトの利便性を向上できる。
【0113】
また、情報処理装置100は、ウェブページWPに、当該ウェブページWPの概要情報を埋め込んでおく。これにより、ウェブページWPの閲覧者Sは、ウェブページWP全体を読むことなく、ウェブページWPの概要情報を知ることができるようになり、情報収集の効率化を図ることができる。また、ウェブページWPのHTML文書内に「meta descriptionタグ」を用いて概要情報を埋め込むことで、検索サイトのスニペットへ概要情報が表示されるようにし、検索サイトでの閲覧者Sの情報収集の効率化を図ることができる。
【0114】
また、情報処理装置100は、1回のアクセスにおける閲覧時間が閾値以上であった場合、当該閲覧時間を重要度の算出に使用しない。これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されているものの、閲覧者SがウェブページWPを閲覧していない状況(例えば、閲覧者Sが離席中、または食事中など)における閲覧時間は重要度の算出に使用しない。そのため、情報処理装置100は、精度よく重要度を算出できるようになる。
【0115】
また、情報処理装置100は、1回のアクセスにおける閲覧時間が閾値以下であった場合、当該閲覧時間を重要度の算出に使用しない。これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されたものの、閲覧者SがウェブページWPに関心がない状況(例えば、閲覧者Sが流し読みをした場合など)における閲覧時間は重要度の算出に使用しない。そのため、精度よく重要度を算出できるようになる。
【0116】
また、情報処理装置100は、検索サイトからウェブページWPにたどり着くまでのページ数が規定数以下である場合の検索キーワードと滞在時間とを重要度の算出に使用する。これにより、ウェブページWPと関連の深い検索キーワードと滞在時間とを重要度の算出に使用するため、精度よく重要度を算出できるようになる。
【0117】
また、情報処理装置100は、ウェブページWPの集合を一つのウェブページWPとして、ウェブページWPの集合の中から、多くの閲覧者Sが興味を持っているテキスト領域のデータを、ウェブページWPの集合の概要情報に決定する。これにより、複数のウェブページWPにまたがった記事があった場合に、複数のウェブページWP全体での概要情報を決定することができるようになる。
【0118】
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本情報処理プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。
【0119】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0120】
(付記1)閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【0121】
(付記2)前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページのリンク元ページから呼び出し可能な形式で、前記リンク元ページに埋め込む埋込手段を備えることを特徴とする付記1に記載の情報処理装置。
【0122】
(付記3)前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページ内の前記テキスト領域より上の領域に埋め込む埋込手段を備えることを特徴とする付記1に記載の情報処理装置。
【0123】
(付記4)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、閾値以下である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
【0124】
(付記5)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、閾値以上である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
【0125】
(付記6)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、第1の閾値以上かつ第2の閾値以下である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
【0126】
(付記7)前記取得手段は、
前記閲覧対象ページについてのアクセス元で前記閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得することを特徴とする付記1〜6のいずれか一つに記載の情報処理装置。
【0127】
(付記8)閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【0128】
(付記9)コンピュータが、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
【0129】
(付記10)コンピュータが、
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
【0130】
(付記11)コンピュータに、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
【0131】
(付記12)コンピュータに、
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
【符号の説明】
【0132】
100 情報処理装置
S 閲覧者
210 閲覧端末
701 取得部
702 第1の算出部
703 第2の算出部
704 決定部
705 埋込部
【技術分野】
【0001】
本発明は、情報を処理する情報処理装置、情報処理方法、および情報処理プログラムに関する。
【背景技術】
【0002】
近年の情報化社会において、ネットワーク上のウェブサイトからの情報収集が盛んである。ウェブサイトには、複数のウェブページが含まれ、各ウェブページがリンクによって繋がっている。このとき、情報収集をおこなう者は、ウェブサイト内の最上位層のウェブページから、リンク先のウェブページにアクセスして、内容を一つ一つ確認し、自分が探している情報があるか否かを判断する必要がある。
【0003】
従来、情報収集の効率化のために、ウェブページにアクセスする前に、ウェブページの概要情報をポップアップとして出力する技術がある。そして、利用者が表示された概要情報から自分が探していた情報であるか否かを判断できるようにしている(例えば、下記特許文献1参照)。
【0004】
また、文書における単語の出現頻度を算出する技術がある(例えば、下記特許文献2参照)。また、アクセスされた情報の表示時間に基づいて情報に重要度を設定する技術がある(例えば、下記特許文献3参照)。また、検索キーと関連性が大きい文書内のブロックを特定する技術がある(例えば、下記特許文献4参照)。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2003−281093号公報
【特許文献2】特開2000−112990号公報
【特許文献3】特開2009−151627号公報
【特許文献4】特開2008−269069号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した従来技術では、ウェブページの概要情報として、ウェブページの制作者が予め作成した情報、ウェブページの最上部などの特定箇所の情報、またはウェブページのスナップショットが採用されていた。結果として、閲覧者のニーズに適さない情報が概要情報になっている場合があるといった問題があった。また、閲覧者のニーズの変化に対応して、概要情報を決定することができないといった問題があった。
【0007】
本発明は、上述した従来技術による問題点を解消するため、ウェブページへのアクセス状況を考慮して概要情報を決定できる情報処理装置、情報処理方法、および情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するため、本発明の一側面によれば、閲覧対象ページについてのアクセス元で閲覧対象ページに遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得し、取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出し、検索キーワードごとに算出された検索キーワードの閲覧対象ページにおける重要度と、閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページにおける重要度を、テキスト領域ごとに算出し、テキスト領域ごとに算出されたテキスト領域の閲覧対象ページにおける重要度に基づいて、閲覧対象ページの概要情報となる特定のテキスト領域を決定する情報処理装置、情報処理方法、および情報処理プログラムが提案される。
【0009】
また、上述した課題を解決し、目的を達成するため、本発明の一側面によれば、閲覧対象ページ群についてのアクセス元で閲覧対象ページ群に遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページ群を閲覧していた時間を閲覧対象ページ群へのアクセスごとに取得し、取得された検索キーワードでたどり着いた閲覧対象ページ群についてのアクセス元で閲覧対象ページ群を閲覧していた時間に基づいて、検索キーワードの閲覧対象ページ群における重要度を、検索キーワードごとに算出し、検索キーワードごとに算出された検索キーワードの閲覧対象ページ群における重要度と、閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページ群における重要度を、テキスト領域ごとに算出し、テキスト領域ごとに算出されたテキスト領域の閲覧対象ページ群における重要度に基づいて、閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する情報処理装置、情報処理方法、および情報処理プログラムが提案される。
【発明の効果】
【0010】
本発明の一側面によれば、ウェブページへのアクセス状況を考慮して概要情報を決定できるという効果を奏する。
【図面の簡単な説明】
【0011】
【図1】図1は、情報処理装置によるウェブページの概要情報の決定の内容を示す説明図である。
【図2】図2は、システムの構成例を示す説明図である。
【図3】図3は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。
【図4】図4は、アクセスログDB201の記憶内容を示す説明図である。
【図5】図5は、検索キーワードDB202の記憶内容を示す説明図である。
【図6】図6は、領域重要度DB203の記憶内容を示す説明図である。
【図7】図7は、情報処理装置100の機能的構成を示すブロック図である。
【図8】図8は、情報処理装置100による検索キーワードと滞在時間の取得の具体例を示す説明図である。
【図9】図9は、情報処理装置100による検索キーワードごとの重要度の算出の具体例を示す説明図である。
【図10】図10は、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例を示す説明図である。
【図11】図11は、情報処理装置100による概要情報の提供の具体例を示す説明図である。
【図12】図12は、検索キーワード抽出処理の処理内容の詳細を示すフローチャートである。
【図13】図13は、領域重要度算出処理の処理内容の詳細を示すフローチャートである。
【発明を実施するための形態】
【0012】
以下に添付図面を参照して、この発明にかかる情報処理装置、情報処理方法、および情報処理プログラムの実施の形態を詳細に説明する。情報処理装置は、ウェブページ内で多くの閲覧者が関心を持つテキスト領域を当該ウェブページの概要情報に決定する。そのために、まず、情報処理装置は、閲覧者がウェブページにたどり着く過程で使用した検索キーワードと閲覧端末で当該ウェブページが表示されていた時間(以下、「滞在時間」という)とを取得する。
【0013】
次に、情報処理装置は、当該ウェブページにおける当該検索キーワードへの閲覧者の関心の強さを示す重要度を算出する。そして、情報処理装置は、当該ウェブページ内において、より重要度の高い検索キーワードをより多く含むテキスト領域を、閲覧者の関心の強いテキスト領域であるとして、当該ウェブページの概要情報に決定する。
【0014】
結果として、情報処理装置は、当該ウェブページの閲覧者に対して、多くの閲覧者が関心を持った概要情報を提供することができるようになる。そして、当該ウェブページの閲覧者は、多くの閲覧者が関心を持つ概要情報を参照することができるため、自らが探している情報が当該ウェブページにあるかを判断しやすくなる。
【0015】
(情報処理装置によるウェブページの概要情報の決定の内容)
まず、図1を用いて、情報処理装置によるウェブページの概要情報の決定の内容について説明する。
【0016】
図1は、情報処理装置によるウェブページの概要情報の決定の内容を示す説明図である。図1において、情報処理装置100は、ウェブページWP内で、多くの閲覧者Sが関心を持つテキスト領域をウェブページWPの概要情報に決定する。
【0017】
そのために、まず、図1の(a)に示すように、情報処理装置100は、検索キーワードへのウェブページWPにおける閲覧者Sの関心の強さを示す重要度を算出する。ここで、情報処理装置100は、ウェブページWPへのアクセスに関する情報をアクセスログとして記憶している。ウェブページWPは、複数の閲覧者Sから閲覧されている。各閲覧者Sは、閲覧端末を使用して、検索キーワードを検索サイトに入力し、検索サイトの検索結果ページからウェブページWPにたどり着き、ウェブページWPを閲覧したとする。
【0018】
例えば、閲覧者S(甲)は、検索キーワード「干渉」を用いてウェブページWPにたどり着き、90秒閲覧したとする。また、閲覧者S(乙)は、検索キーワード「干渉」を用いてウェブページWPにたどり着き、120秒閲覧したとする。また、閲覧者S(丙)は、検索キーワード「シミュレーション」を用いてウェブページWPにたどり着き、60秒閲覧したとする。
【0019】
(1)ここで、情報処理装置100は、ウェブページWPのアクセスログを参照し、ウェブページWPへのアクセスごとに、閲覧者Sが使用した検索キーワードとウェブページWPへの滞在時間とを取得する。
【0020】
(2)次に、情報処理装置100は、ウェブページWPにおける検索キーワードごとの重要度を算出する。ここでは、情報処理装置100は、閲覧者Sの滞在時間の和が大きい検索キーワードが、多くの閲覧者Sから関心を持たれている検索キーワードであるとして、重要度を高くする。具体的には、例えば、情報処理装置100は、滞在時間の和を重要度にする。
【0021】
次に、図1の(b)に示すように、情報処理装置100は、ウェブページWP内のテキスト領域(ここでは、3箇所のテキスト領域F1〜F3)ごとに、各テキスト領域に対する閲覧者Sの関心の強さを示す領域重要度を算出し、概要情報を決定する。
【0022】
(1)ここで、情報処理装置100は、ウェブページWP内の各テキスト領域のデータを取得する。ここでは、情報処理装置100は、各テキスト領域F1〜F3のデータを取得する。
【0023】
(2)次に、情報処理装置100は、取得した各テキスト領域F1〜F3のデータに基づいて、テキスト領域ごとに閲覧者Sの関心の強さを示す領域重要度を算出する。ここでは、領域重要度は、テキスト領域内に含まれる検索キーワードの重要度の和である。具体的には、例えば、テキスト領域F2には、重要度「210」の検索キーワード「干渉」が2つ含まれ、重要度「60」の検索キーワード「シミュレーション」が1つ含まれているため、テキスト領域F2の領域重要度は、「210+210+60」になる。
【0024】
これにより、情報処理装置100は、算出した領域重要度に基づいて、閲覧者Sが関心を持っているテキスト領域のデータを特定して、特定したデータを概要情報に決定できる。ここでは、領域重要度が最も高いテキスト領域F2のデータがウェブページWPの概要情報になる。
【0025】
結果として、図1の(c)に示すように、ウェブページWPのリンク元ページLPにおいて、ウェブページWPにたどり着いた多くの閲覧者Sが関心を持っていた概要情報を表示できるようになる。具体的には、例えば、情報処理装置100は、閲覧端末においてウェブページWPへのリンクLにマウスポインタPを重ねた場合に、概要情報に決定されたテキスト領域F2のデータがポップアップPUとして表示されるように、HTML(HyperText Markup Language)文書にJava(登録商標)Scriptを用いて埋め込んでおく。
【0026】
そのため、あらたにウェブページWPを閲覧しようとする閲覧者Sは、多くの閲覧者Sが関心を持っていた概要情報に基づいて、ウェブページWPにアクセスする前に、ウェブページWPの内容を判断できるようになる。結果として、閲覧者Sは、ウェブページWPの内容を精査せずに、ウェブページWPに自らが求めている情報が記載されているかを判断できるようになり、情報収集を効率化できる。また、ウェブページWPの制作者は、多くの閲覧者Sが関心を持っていた概要情報を自動的に決定できるため、閲覧者Sの関心を予測して概要情報を設定する手間をかけずに済む。
【0027】
(システムの構成例)
次に、図2を用いて、図1に示した情報処理装置100と、ウェブページWPの閲覧者Sが使用する閲覧端末と、検索サーバと、を含むシステムの構成例について説明する。
【0028】
図2は、システムの構成例を示す説明図である。図2に示すように、システムは、情報処理装置100と、閲覧端末210と、検索サーバ220と、を含む。なお、図2では、閲覧端末210は1つであるが、閲覧端末210は複数含まれていてもよい。
【0029】
情報処理装置100は、ウェブサイト内の各ウェブページWPのデータを記憶している。ウェブページWPのデータとは、ネットワークN上で公開される文書であり、例えば、HTML文書やXML(Extensible Markup Language)文書である。また、情報処理装置100は、閲覧端末210からのアクセスに関する情報を記憶するアクセスログDB(DataBase)201を有する。また、情報処理装置100は、ウェブサイト内の各ウェブページWPに対する検索キーワードの重要度を記憶する検索キーワードDB202を有する。また、情報処理装置100は、ウェブページWP内の各テキスト領域の領域重要度を記憶する領域重要度DB203を有する。
【0030】
閲覧端末210は、閲覧者Sの操作を受けて、検索サーバ220にアクセスし、ウェブページWPを検索する端末である。また、閲覧端末210は、閲覧者Sの操作を受けて、検索サーバ220による検索結果ページに表示されるリンクLを介して、情報処理装置100が記憶するウェブページWPのデータにアクセスをおこなう端末である。検索サーバ220は、閲覧端末210で閲覧者Sにより入力された検索キーワードに基づいて、ネットワークN上のウェブページWPを検索するサーバである。
【0031】
(情報処理装置100のハードウェア構成例)
次に、図3を用いて、図1および図2に示した情報処理装置100のハードウェア構成例について説明する。
【0032】
図3は、実施の形態にかかる情報処理装置100のハードウェア構成例を示すブロック図である。図3において、情報処理装置100は、CPU(Central Processing Unit)301と、ROM(Read‐Only Memory)302と、RAM(Random Access Memory)303と、磁気ディスクドライブ304と、磁気ディスク305と、光ディスクドライブ306と、光ディスク307と、ディスプレイ308と、I/F(Interface)309と、キーボード310と、マウス311と、スキャナ312と、プリンタ313と、を備えている。また、各構成部はバス320によってそれぞれ接続されている。
【0033】
ここで、CPU301は、情報処理装置100の全体の制御を司る。ROM302は、ブートプログラムなどのプログラムを記憶している。また、ROM302は、ウェブサイト内のウェブページWPのデータを記憶している。RAM303は、CPU301のワークエリアとして使用される。また、RAM303は、アクセスログDB201と、検索キーワードDB202と、領域重要度DB203と、を記憶する。
【0034】
磁気ディスクドライブ304は、CPU301の制御にしたがって磁気ディスク305に対するデータのリード/ライトを制御する。磁気ディスク305は、磁気ディスクドライブ304の制御で書き込まれたデータを記憶する。
【0035】
光ディスクドライブ306は、CPU301の制御にしたがって光ディスク307に対するデータのリード/ライトを制御する。光ディスク307は、光ディスクドライブ306の制御で書き込まれたデータを記憶したり、光ディスク307に記憶されたデータをコンピュータに読み取らせたりする。
【0036】
ディスプレイ308は、カーソル、アイコンあるいはツールボックスをはじめ、文書、画像、機能情報などのデータを表示する。このディスプレイ308は、例えば、CRT、TFT液晶ディスプレイ、プラズマディスプレイなどを採用することができる。
【0037】
インターフェース(以下、「I/F」と略する。)309は、通信回線を通じてLAN(Local Area Network)、WAN(Wide Area Network)、インターネットなどのネットワークNに接続され、このネットワークNを介して他の装置に接続される。そして、I/F309は、ネットワークNと内部のインターフェースを司り、外部装置からのデータの入出力を制御する。I/F309には、例えばモデムやLANアダプタなどを採用することができる。
【0038】
キーボード310は、文字、数字、各種指示などの入力のためのキーを備え、データの入力をおこなう。また、タッチパネル式の入力パッドやテンキーなどであってもよい。マウス311は、カーソルの移動や範囲選択、あるいはウィンドウの移動やサイズの変更などをおこなう。ポインティングデバイスとして同様に機能を備えるものであれば、トラックボールやジョイスティックなどであってもよい。
【0039】
スキャナ312は、画像を光学的に読み取り、情報処理装置100内に画像データを取り込む。なお、スキャナ312は、OCR(Optical Character Reader)機能を持たせてもよい。また、プリンタ313は、画像データや文書データを印刷する。プリンタ313には、例えば、レーザプリンタやインクジェットプリンタを採用することができる。
【0040】
(アクセスログDB201の記憶内容)
次に、図4を用いて、RAM303に記憶されているアクセスログDB201の記憶内容について説明する。
【0041】
図4は、アクセスログDB201の記憶内容を示す説明図である。図4に示すように、アクセスログDB201は、ホスト項目のそれぞれに対応付けて、日時項目と、URL項目と、リファラ項目と、を有し、アクセスごとにレコードを構成する。
【0042】
ホスト項目には、ウェブページWPにアクセスした閲覧端末210を識別する識別子が記憶されている。具体的には、例えば、識別子は、IPアドレスである。日時項目には、ウェブページWPにアクセスされた日時が記憶されている。URL項目には、ウェブページWPを識別する識別子が記憶されている。リファラ項目には、URL項目の識別子により識別されるウェブページWPのリンク元ページLPが記憶されている。
【0043】
なお、一般的に、ウェブサーバで記憶されるアクセスログには、データの転送量、閲覧に使用された通信プロトコル、閲覧に使用されたウェブブラウザ、および閲覧端末210のOSなどの情報が含まれるが、ここでは、簡単のため省略する。
【0044】
(検索キーワードDB202の記憶内容)
次に、図5を用いて、RAM303に記憶されている検索キーワードDB202の記憶内容について説明する。
【0045】
図5は、検索キーワードDB202の記憶内容を示す説明図である。図5に示すように、検索キーワードDB202は、ページ名項目のそれぞれに対応付けて、検索キーワード項目を有し、ウェブページWPごとにレコードを構成する。
【0046】
ページ名項目には、ウェブページWPの名称が記憶されている。検索キーワード項目には、検索キーワードごとに、ページ名項目が示すウェブページWPへの閲覧者Sの関心の強さを示す重要度が記憶されている。例えば、重要度として、ページ名項目が示すウェブページWPでの閲覧者Sの滞在時間の和が記憶されている。なお、重要度として、ページ名項目が示すウェブページWPへのアクセス数を採用してもよい。
【0047】
(領域重要度DB203の記憶内容)
次に、図6を用いて、RAM303に記憶されている領域重要度DB203の記憶内容について説明する。
【0048】
図6は、領域重要度DB203の記憶内容を示す説明図である。図6に示すように、領域重要度DB203は、領域項目のそれぞれに対応付けて、領域重要度項目を有し、ウェブページWP内のテキスト領域ごとにレコードを構成する。
【0049】
領域項目には、ウェブページWP内のテキスト領域を識別する識別子が記憶されている。領域重要度項目には、領域項目の識別子により識別されるテキスト領域への閲覧者Sの関心の強さを示す領域重要度が記憶されている。例えば、領域重要度として、テキスト領域に含まれる検索キーワードの重要度の和が記憶されている。なお、領域重要度の算出の際は、隣接するテキスト領域に含まれる検索キーワードをさらに参照してもよい。
【0050】
(情報処理装置100の機能的構成例)
次に、図7を用いて、情報処理装置100の機能的構成例について説明する。
【0051】
図7は、情報処理装置100の機能的構成を示すブロック図である。情報処理装置100は、取得部701と、第1の算出部702と、第2の算出部703と、決定部704と、埋込部705と、出力部706と、を含む構成である。この制御部となる機能(取得部701〜出力部706)は、具体的には、例えば、図3に示したROM302、RAM303、磁気ディスク305、光ディスク307などの記憶装置に記憶されたプログラムをCPU301に実行させることにより、または、I/F309により、その機能を実現する。
【0052】
取得部701は、閲覧対象ページについてのアクセス元で閲覧対象ページに遷移する際に使われた検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得する機能を有する。ここで、閲覧対象ページとは、上述したウェブページWPである。アクセス元とは、上述した閲覧端末210である。検索キーワードとは、閲覧対象ページにたどり着くまでに閲覧端末210で入力された検索キーワードであり、例えば、閲覧端末210で入力されて検索サーバ220に送信された検索キーワードである。閲覧対象ページを閲覧していた時間とは、閲覧端末210が閲覧対象ページを表示していた時間であり、上述した滞在時間である。
【0053】
具体的には、例えば、取得部701は、アクセスログDB201を参照することにより、ウェブページWPにアクセスした閲覧端末210で入力された検索キーワードおよび閲覧端末210がウェブページWPを表示していた時間を取得する。これにより、情報処理装置100は、ウェブページWPへの閲覧者Sの関心の強さの指標となるアクセスに使用された検索キーワードや滞在時間を取得することができる。
【0054】
また、取得部701は、閲覧対象ページについてのアクセス元で閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよびアクセス元で閲覧対象ページを閲覧していた時間を閲覧対象ページへのアクセスごとに取得する機能を有する。具体的には、例えば、取得部701は、検索サイトからウェブページWPにたどり着くまでのページ数が規定数以下である場合の検索キーワードと滞在時間とを重要度の算出に使用する。
【0055】
これにより、ウェブページWPと関連の深い検索キーワードと滞在時間とを重要度の算出に使用するため、精度よく重要度を算出できるようになる。なお、取得されたデータは、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶される。
【0056】
第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、検索キーワードごとのウェブページWPへの滞在時間の和を、検索キーワードの重要度として算出する。これにより、情報処理装置100は、ウェブページWPにおける検索キーワードへの閲覧者Sの関心の強さを示す重要度を算出することができる。
【0057】
また、第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間のうち、閾値以下であるアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、1回のアクセスにおける閲覧時間が閾値以上であった場合、当該閲覧時間を重要度の算出に使用しない。
【0058】
これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されているものの、閲覧者SがウェブページWPを閲覧していない状況(例えば、閲覧者Sが離席中、または食事中など)における閲覧時間は重要度の算出に使用しない。そのため、情報処理装置100は、精度よく重要度を算出できるようになる。
【0059】
また、第1の算出部702は、取得部701によって取得された検索キーワードでたどり着いた閲覧対象ページについてのアクセス元で閲覧対象ページを閲覧していた時間のうち、閾値以上であるアクセス元で閲覧対象ページを閲覧していた時間に基づいて、検索キーワードの閲覧対象ページにおける重要度を、検索キーワードごとに算出する機能を有する。具体的には、例えば、第1の算出部702は、1回のアクセスにおける閲覧時間が閾値以下であった場合、当該閲覧時間を重要度の算出に使用しない。
【0060】
これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されたものの、閲覧者SがウェブページWPに関心がない状況(例えば、閲覧者Sが流し読みをした場合など)における閲覧時間は重要度の算出に使用しない。そのため、精度よく重要度を算出できるようになる。なお、算出結果は、検索キーワードDB202に記憶される。
【0061】
第2の算出部703は、第1の算出部702によって検索キーワードごとに算出された検索キーワードの閲覧対象ページにおける重要度と、閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、テキスト領域の閲覧対象ページにおける重要度を、テキスト領域ごとに算出する機能を有する。ここで、テキスト領域の閲覧対象ページにおける重要度とは、上述した領域重要度である。
【0062】
具体的には、例えば、第2の算出部703は、テキスト領域に含まれる検索キーワードの重要度の和を、領域重要度として算出する。また、第2の算出部は、さらに、隣接するテキスト領域に含まれる検索キーワードの重要度の和を参照して、領域重要度を算出してもよい。なお、算出結果は、領域重要度DB203に記憶される。これにより、情報処理装置100は、ウェブページWP内の各テキスト領域への閲覧者Sの関心の強さを示す領域重要度を算出することができる。
【0063】
決定部704は、第2の算出部703によってテキスト領域ごとに算出されたテキスト領域の閲覧対象ページにおける重要度に基づいて、閲覧対象ページの概要情報となる特定のテキスト領域を決定する機能を有する。具体的には、例えば、決定部704は、ウェブページWP内で最も領域重要度の高いテキスト領域を、ウェブページWPの概要情報となるテキスト領域に決定する。
【0064】
これにより、ウェブサイトの制作者は、閲覧者Sが関心を持つテキスト領域を調査して概要情報を決定するといった手間を削減できる。また、ウェブサイトの制作者は、ウェブサイトの閲覧者Sのニーズが変化し閲覧者Sが関心を持つテキスト領域が変化した場合にも、変化したニーズに対応した概要情報になるテキスト領域を容易に決定できる。なお、決定結果は、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶される。
【0065】
埋込部705は、決定部704によって決定された特定のテキスト領域内のデータを、閲覧対象ページのリンク元ページLPから呼び出し可能な形式で、リンク元ページLPに埋め込む機能を有する。具体的には、例えば、埋込部705は、ウェブページWPのリンク元ページLPにおいて、ウェブページWPへのリンクLがマウスオーバされたときに、概要情報がポップアップPUに表示されるように、リンク元ページLPのHTML文書内にJavaScriptを用いて埋め込む。
【0066】
これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPにアクセスする前に、リンク先のウェブページWPの概要情報を知ることができる。そのため、ウェブサイトの閲覧者Sにとって、情報の取捨選択が容易になり、ウェブサイトの利便性を向上できる。
【0067】
また、埋込部705は、決定部704によって決定された特定のテキスト領域内のデータを、閲覧対象ページ内のテキスト領域より上の領域に埋め込む機能を有する。具体的には、例えば、埋込部705は、ウェブページWP内の概要情報になるテキスト領域より上の領域に、当該ウェブページWPの概要情報を埋め込む。
【0068】
これにより、ウェブページWPの閲覧者Sは、ウェブページWP全体を読むことなく、ウェブページWPの概要情報を知ることができるようになる。また、ウェブページWPのHTML文書内に「meta descriptionタグ」を用いて埋め込むことで、検索サイトのスニペットへ概要情報が表示されるようにしてもよい。
【0069】
出力部706は、決定部704によって決定された閲覧対象ページの概要情報となる特定のテキスト領域を出力する機能を有する。具体的には、例えば、出力部706は、閲覧端末210に対して概要情報を送信する。出力形式としては、例えば、ディスプレイ308への表示、プリンタ313への印刷出力、I/F309による外部装置への送信がある。また、RAM303、磁気ディスク305、光ディスク307などの記憶領域に記憶することとしてもよい。
【0070】
これにより、情報処理装置100は、閲覧端末210からの要求を受けてから概要情報を出力することができる。また、情報処理装置100は、情報処理装置100のユーザに、閲覧情報を通知することができる。
【0071】
また、取得部701〜出力部706は、閲覧対象ページとして、ウェブページWPの集合を採用してもよい。具体的には、例えば、取得部701〜決定部704は、ウェブページWPの集合を一つのウェブページWPとして扱い、ウェブページWPの集合の中から、多くの閲覧者Sが興味を持っているテキスト領域のデータを特定し、ウェブページWPの集合の概要情報に決定する。これにより、複数のウェブページWPにまたがった記事があった場合に、複数のウェブページWP全体(当該記事全体)での概要情報を決定することができるようになる。
【0072】
また、具体的には、例えば、埋込部705は、ウェブページWPの集合のいずれかのウェブページWPへのリンク元ページLPにおいて、ウェブページWPへのリンクLがマウスオーバされたときに、概要情報がポップアップPUに表示されるように埋め込む。これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPの集合にアクセスする前に、リンク先のウェブページWPの集合の概要情報を知ることができる。
【0073】
また、具体的には、例えば、埋込部705は、ウェブページWPの集合のうちの最上位層のウェブページWPに概要情報を埋め込む。これにより、ウェブページWPの集合の閲覧者Sは、ウェブページWPの集合全体を読むことなく、ウェブページWPの集合の概要情報を知ることができる。
【0074】
また、具体的には、例えば、出力部706は、ウェブページWPの集合の概要情報を出力する。これにより、情報処理装置100は、閲覧端末210からの概要情報の要求を受けてからウェブページWPの集合の概要情報を出力することができる。また、情報処理装置100は、情報処理装置100のユーザに、ウェブページWPの集合の閲覧情報を通知することができる。
【0075】
(情報処理装置100による概要情報の決定の具体例)
次に、図8〜11を用いて、情報処理装置100による概要情報の決定の具体例について説明する。
【0076】
(情報処理装置100による検索キーワードと滞在時間の取得の具体例)
まず、図8を用いて、情報処理装置100による検索キーワードと滞在時間の取得の具体例について説明する。
【0077】
図8は、情報処理装置100による検索キーワードと滞在時間の取得の具体例を示す説明図である。ここで、情報処理装置100は、アクセスログDB201を参照して、検索キーワードと滞在時間を取得する。
【0078】
(1)具体的には、まず、アクセスログDB201のホスト項目の記憶内容が同一の複数のレコードを参照し、1回のアクセスにおける経路を取得する。ここで、情報処理装置100は、「aa.bb.ne.jp」で識別される閲覧端末210が、「http://xxx.co.jp/search=”干渉”」の検索サイトから、「index.html」のウェブページWPにアクセスした経路を取得する。また、情報処理装置100は、「aa.bb.ne.jp」で識別される閲覧端末210が、「index.html」のウェブページWPから、「mokuji.html」のウェブページWPにアクセスした経路を取得する。
【0079】
(2)そして、情報処理装置100は、取得した経路上の各ウェブページWPへアクセスされた時刻に基づいて、滞在時間を取得する。例えば、「index.html」のウェブページWPへの滞在時間は、「mokuji.html」のウェブページWPへアクセスされた時刻から「index.html」のウェブページWPへアクセスされた時刻を引いた値になる。また、最後にアクセスされた「mokuji.html」のウェブページWPの滞在時間は、例えば、閲覧端末210でウェブページWPが閉じられた時刻から、「mokuji.html」のウェブページWPへアクセスされた時刻を引いた値になる。
【0080】
(3)また、検索サイトのアドレスには、例えば、「http://xxx.co.jp/search=”干渉”」のように、検索に使用された検索キーワードが含まれている。ここでは、簡単のため、URLに検索キーワードがそのまま含まれているように表したが、実際には、URLには検索キーワードを示すコードが含まれる。情報処理装置100は、検索サイトのURLに含まれる検索キーワードを参照することで、取得した経路上の各ウェブページWPについての閲覧端末210での検索キーワードを取得する。
【0081】
情報処理装置100は、1回のアクセスにおける検索キーワードが「干渉」と「シミュレーション」の2つである場合、それぞれについて滞在時間を取得してもよいし、それぞれの検索キーワードに滞在時間を分けてもよい。また、情報処理装置100は、検索キーワードが複合語である「干渉シミュレーション」の場合、1つの検索キーワードとして「干渉シミュレーション」を取得してもよいし、2つの検索キーワードとして「干渉」と「シミュレーション」に分けて取得してもよい。
【0082】
(情報処理装置100による検索キーワードごとの重要度の算出の具体例)
次に、図9を用いて、情報処理装置100による検索キーワードごとの重要度の算出の具体例について説明する。
【0083】
図9は、情報処理装置100による検索キーワードごとの重要度の算出の具体例を示す説明図である。ここで、情報処理装置100は、ウェブサイト内のウェブページWPごとに、図8において取得した各検索キーワードについて重要度を算出する。なお、以下では、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして、対象ページでの検索キーワードの重要度を算出する場合について説明する。
【0084】
図9の(a)は、図8と同様にして、情報処理装置100が取得した、閲覧端末210からのアクセスの経路と、閲覧端末210が使用した検索キーワードと、各ウェブページWPでの閲覧端末210の滞在時間と、を表している。
【0085】
図9の(a)に示すように、対象ページは、経路1では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に90秒表示されている。また、対象ページは、経路2では、検索キーワード「シミュレーション」を使用してたどり着いた閲覧端末210に60秒表示されている。また、対象ページは、経路3では、検索キーワード「バーチャル」を使用してたどり着いた閲覧端末210に90秒表示されている。また、対象ページは、経路4では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に60秒表示されている。また、対象ページは、経路5では、検索キーワード「干渉」を使用してたどり着いた閲覧端末210に40秒表示されている。
【0086】
図9の(b)に示すように、情報処理装置100は、検索キーワードの重要度を算出する。例えば、検索キーワードの重要度として、ウェブページWPにおける滞在時間の和を採用できる。この場合、検索キーワード「干渉」の重要度は「190」になり、検索キーワード「シミュレーション」の重要度は「60」になり、検索キーワード「バーチャル」の重要度は「90」になる。
【0087】
ここでは、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして説明したが、全ウェブページWPのそれぞれを対象ページとして同様の処理をおこなってもよい。なお、算出した重要度は、検索キーワードDB202に記憶される。
【0088】
(情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例)
次に、図10を用いて、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例について説明する。
【0089】
図10は、情報処理装置100によるテキスト領域ごとの領域重要度の算出の具体例を示す説明図である。ここで、情報処理装置100は、図9において算出した検索キーワードの重要度に基づいて、ウェブページWPのテキスト領域ごとに領域重要度を算出する。なお、以下では、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして、対象ページでのテキスト領域ごとの領域重要度を算出する場合について説明する。
【0090】
(1)まず、情報処理装置100は、対象ページ内のテキスト領域を特定し、各テキスト領域のデータを取得する。具体的には、情報処理装置100は、HTML文書内の改行コードから、段落ごとのテキスト領域F1〜F12を特定し、各テキスト領域F1〜F12のデータを取得する。
【0091】
(2)そして、情報処理装置100は、各テキスト領域F1〜F12に含まれる検索キーワードの出現回数と検索キーワードの重要度に基づいて、テキスト領域ごとに領域重要度を算出する。例えば、情報処理装置100は、領域重要度として、各テキスト領域F1〜F12に含まれる検索キーワードごとに出現回数と重要度との積を算出し、算出した積の和をとった値を採用する。この場合、例えば、テキスト領域F12の領域重要度は「340」になる。
【0092】
また、例えば、情報処理装置100は、各テキスト領域F1〜F12に含まれる検索キーワードごとに出現回数と重要度との積を算出し、算出した積の和をとった値を算出する。そして、情報処理装置100は、領域重要度として、各テキスト領域F1〜F12ごとに、各テキスト領域F1〜F12について算出された値と、隣接するテキスト領域について算出された和の何割か(例えば、8割)と、の和をとった値を採用する。この場合、例えば、領域F11の領域重要度は、領域F11について算出された値「0」と、領域F10について算出された値「90」の8割「72」と、領域F12について算出された値「340」の8割「242」と、の和「314」になる。
【0093】
これにより、情報処理装置100は、算出した重要度に基づいて、対象ページにおいて閲覧者Sの関心が強いテキスト領域を特定することができ、特定したテキスト領域のデータを概要情報に決定することができる。
【0094】
ここでは、簡単のため、ウェブサイト内の1つのウェブページWPを対象ページとして説明したが、全ウェブページWPのそれぞれを対象ページとして同様の処理をおこなってもよい。なお、算出した領域重要度は、領域重要度DB203に記憶される。
【0095】
(情報処理装置100による概要情報の提供の具体例)
次に、図11を用いて、情報処理装置100による概要情報の提供の具体例について説明する。
【0096】
図11は、情報処理装置100による概要情報の提供の具体例を示す説明図である。情報処理装置100は、図10において決定された概要情報を、ウェブサイトの閲覧者Sに提供する。
【0097】
図10に示すように、例えば、情報処理装置100は、ウェブページWPのリンク元ページLPにおいて、ウェブページWPにたどり着いた多くの閲覧者Sが関心を持っていた概要情報(概要情報の周辺のデータを含む)を表示する。具体的には、情報処理装置100は、閲覧端末210においてウェブページWPへのリンクLにマウスポインタPを重ねた場合に概要情報がポップアップPUとして表示されるように、HTML文書にJavaScriptを用いて埋め込んでおく。
【0098】
これにより、リンク先のウェブページWPを閲覧しようとする閲覧者Sは、多くの閲覧者Sが関心を持っていた概要情報に基づいて、ウェブページWPの内容を判断できるようになる。また、ウェブページWPの制作者は、多くの閲覧者Sが関心を持っていた概要情報が自動的に決定されるため、閲覧者Sの関心を予測して概要情報を設定する手間をかけずに済む。
【0099】
また、情報処理装置100は、ウェブページWP内に当該ウェブページWPの概要情報を埋め込んでもよい。これにより、ウェブページWPにアクセスした閲覧者Sは、ウェブページWP全体を閲覧せずとも、ウェブページWPの概要を把握できるようになる。また、情報処理装置100は、HTML文書に「meta descriptionタグ」を使用して、概要情報を埋め込んでおき、検索サイトでのスニペットへ表示されるようにしてもよい。
【0100】
(検索キーワード抽出処理の処理内容)
次に、図12を用いて、検索キーワード抽出処理の処理内容の詳細について説明する。検索キーワード抽出処理は、図8および図9に示した情報処理装置100がおこなった処理である。
【0101】
図12は、検索キーワード抽出処理の処理内容の詳細を示すフローチャートである。まず、CPU301は、アクセスログDB201からアクセスの経路を抽出する(ステップS1201)。次に、CPU301は、未処理のウェブページWPを対象ページに選択する(ステップS1202)。そして、CPU301は、対象ページを通過するアクセスの経路を選択する(ステップS1203)。
【0102】
次に、CPU301は、選択した経路に基づいて、対象ページにおける検索キーワードごとの重要度を算出する(ステップS1204)。そして、CPU301は、未処理のウェブページWPがあるか否かを判定する(ステップS1205)。
【0103】
ここで、未処理のウェブページWPがある場合(ステップS1205:Yes)、CPU301は、ステップS1202に戻る。一方、未処理のウェブページWPがない場合(ステップS1205:No)、CPU301は、処理結果を検索キーワードDB202に記憶し(ステップS1206)、検索キーワード抽出処理を終了する。
【0104】
これにより、情報処理装置100は、ウェブサイト内の各ウェブページWPについて、検索キーワードごとに重要度を算出することができる。また、検索キーワード抽出処理では、ウェブページWPの集合を一つのウェブページWPとして扱って、ウェブページWPの集合全体における検索キーワードごとの重要度を算出してもよい。
【0105】
(領域重要度算出処理の処理内容)
次に、図13を用いて、領域重要度算出処理の処理内容の詳細について説明する。領域重要度算出処理は、図10に示した情報処理装置100がおこなった処理である。
【0106】
図13は、領域重要度算出処理の処理内容の詳細を示すフローチャートである。まず、CPU301は、未処理のウェブページWPを対象ページに選択する(ステップS1301)。そして、CPU301は、対象ページに含まれる全テキスト領域を特定する(ステップS1302)。
【0107】
次に、CPU301は、検索キーワードDB202と特定されたテキスト領域のデータとを参照して、特定されたテキスト領域ごとの領域重要度を算出する(ステップS1303)。そして、CPU301は、未処理のウェブページWPがあるか否かを判定する(ステップS1304)。
【0108】
ここで、未処理のウェブページWPがある場合(ステップS1304:Yes)、CPU301は、ステップS1301に戻る。一方、未処理のウェブページWPがない場合(ステップS1304:No)、CPU301は、処理結果を領域重要度DB203に記憶し(ステップS1305)、領域重要度算出処理を終了する。
【0109】
これにより、情報処理装置100は、ウェブサイト内の各ウェブページWPについて、テキスト領域ごとに重要度を算出することができる。また、領域重要度算出処理では、ウェブページWPの集合を一つのウェブページWPとして扱って、ウェブページWPの集合全体におけるテキスト領域ごとの領域重要度を算出してもよい。
【0110】
以上説明したように、情報処理装置は、ウェブページWPにたどり着いた際の検索キーワードとウェブページWPでの滞在時間とからウェブページWP内で多くの閲覧者Sが興味を持っているテキスト領域を特定する。そして、情報処理装置100は、特定された多くの閲覧者Sが興味を持っているテキスト領域のデータを、ウェブページWPの概要情報に決定する。
【0111】
これにより、ウェブサイトの制作者は、閲覧者Sが関心を持つテキスト領域を調査して概要情報を決定するといった手間を削減できる。また、ウェブサイトの制作者は、ウェブサイトの閲覧者Sのニーズが変化し閲覧者Sが関心を持つテキスト領域が変化した場合にも、変化したニーズに対応した概要情報になるテキスト領域を容易に決定できる。
【0112】
また、情報処理装置100は、決定された概要情報を、ウェブページWPのリンク元ページLPに埋め込んでおく。これにより、ウェブサイトの閲覧者Sは、リンク先のウェブページWPにアクセスする前に、リンク先のウェブページWPの概要情報を知ることができる。そのため、ウェブサイトの閲覧者Sにとって、情報収集が容易になり、ウェブサイトの利便性を向上できる。
【0113】
また、情報処理装置100は、ウェブページWPに、当該ウェブページWPの概要情報を埋め込んでおく。これにより、ウェブページWPの閲覧者Sは、ウェブページWP全体を読むことなく、ウェブページWPの概要情報を知ることができるようになり、情報収集の効率化を図ることができる。また、ウェブページWPのHTML文書内に「meta descriptionタグ」を用いて概要情報を埋め込むことで、検索サイトのスニペットへ概要情報が表示されるようにし、検索サイトでの閲覧者Sの情報収集の効率化を図ることができる。
【0114】
また、情報処理装置100は、1回のアクセスにおける閲覧時間が閾値以上であった場合、当該閲覧時間を重要度の算出に使用しない。これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されているものの、閲覧者SがウェブページWPを閲覧していない状況(例えば、閲覧者Sが離席中、または食事中など)における閲覧時間は重要度の算出に使用しない。そのため、情報処理装置100は、精度よく重要度を算出できるようになる。
【0115】
また、情報処理装置100は、1回のアクセスにおける閲覧時間が閾値以下であった場合、当該閲覧時間を重要度の算出に使用しない。これにより、例えば、情報処理装置100は、閲覧端末210でウェブページWPが表示されたものの、閲覧者SがウェブページWPに関心がない状況(例えば、閲覧者Sが流し読みをした場合など)における閲覧時間は重要度の算出に使用しない。そのため、精度よく重要度を算出できるようになる。
【0116】
また、情報処理装置100は、検索サイトからウェブページWPにたどり着くまでのページ数が規定数以下である場合の検索キーワードと滞在時間とを重要度の算出に使用する。これにより、ウェブページWPと関連の深い検索キーワードと滞在時間とを重要度の算出に使用するため、精度よく重要度を算出できるようになる。
【0117】
また、情報処理装置100は、ウェブページWPの集合を一つのウェブページWPとして、ウェブページWPの集合の中から、多くの閲覧者Sが興味を持っているテキスト領域のデータを、ウェブページWPの集合の概要情報に決定する。これにより、複数のウェブページWPにまたがった記事があった場合に、複数のウェブページWP全体での概要情報を決定することができるようになる。
【0118】
なお、本実施の形態で説明した情報処理方法は、予め用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。本情報処理プログラムは、ハードディスク、フレキシブルディスク、CD−ROM、MO、DVD等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。また本情報処理プログラムは、インターネット等のネットワークを介して配布してもよい。
【0119】
上述した実施の形態に関し、さらに以下の付記を開示する。
【0120】
(付記1)閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【0121】
(付記2)前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページのリンク元ページから呼び出し可能な形式で、前記リンク元ページに埋め込む埋込手段を備えることを特徴とする付記1に記載の情報処理装置。
【0122】
(付記3)前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページ内の前記テキスト領域より上の領域に埋め込む埋込手段を備えることを特徴とする付記1に記載の情報処理装置。
【0123】
(付記4)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、閾値以下である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
【0124】
(付記5)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、閾値以上である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
【0125】
(付記6)前記第1の算出手段は、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間のうち、第1の閾値以上かつ第2の閾値以下である前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出することを特徴とする付記1〜3のいずれか一つに記載の情報処理装置。
【0126】
(付記7)前記取得手段は、
前記閲覧対象ページについてのアクセス元で前記閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得することを特徴とする付記1〜6のいずれか一つに記載の情報処理装置。
【0127】
(付記8)閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【0128】
(付記9)コンピュータが、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
【0129】
(付記10)コンピュータが、
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
【0130】
(付記11)コンピュータに、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
【0131】
(付記12)コンピュータに、
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
【符号の説明】
【0132】
100 情報処理装置
S 閲覧者
210 閲覧端末
701 取得部
702 第1の算出部
703 第2の算出部
704 決定部
705 埋込部
【特許請求の範囲】
【請求項1】
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページのリンク元ページから呼び出し可能な形式で、前記リンク元ページ内に埋め込む埋込手段を備えることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページ内の前記テキスト領域より上の領域に埋め込む埋込手段を備えることを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記取得手段は、
前記閲覧対象ページについてのアクセス元で前記閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得することを特徴とする請求項1〜3のいずれか一つに記載の情報処理装置。
【請求項5】
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【請求項6】
コンピュータが、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
【請求項7】
コンピュータに、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
【請求項1】
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【請求項2】
前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページのリンク元ページから呼び出し可能な形式で、前記リンク元ページ内に埋め込む埋込手段を備えることを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記決定手段によって決定された特定のテキスト領域内のデータを、前記閲覧対象ページ内の前記テキスト領域より上の領域に埋め込む埋込手段を備えることを特徴とする請求項1に記載の情報処理装置。
【請求項4】
前記取得手段は、
前記閲覧対象ページについてのアクセス元で前記閲覧対象ページにたどり着くまでのページ数が規定数以下である検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得することを特徴とする請求項1〜3のいずれか一つに記載の情報処理装置。
【請求項5】
閲覧対象ページ群についてのアクセス元で前記閲覧対象ページ群に遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページ群へのアクセスごとに取得する取得手段と、
前記取得手段によって取得された検索キーワードでたどり着いた前記閲覧対象ページ群についての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページ群における重要度を、前記検索キーワードごとに算出する第1の算出手段と、
前記第1の算出手段によって前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページ群における重要度と、前記閲覧対象ページ群のテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページ群における重要度を、前記テキスト領域ごとに算出する第2の算出手段と、
前記第2の算出手段によって前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページ群における重要度に基づいて、前記閲覧対象ページ群の概要情報となる特定のテキスト領域を決定する決定手段と、
を備えることを特徴とする情報処理装置。
【請求項6】
コンピュータが、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行することを特徴とする情報処理方法。
【請求項7】
コンピュータに、
閲覧対象ページについてのアクセス元で前記閲覧対象ページに遷移する際に使われた検索キーワードおよび前記アクセス元で前記閲覧対象ページを閲覧していた時間を前記閲覧対象ページへのアクセスごとに取得し、
取得された検索キーワードでたどり着いた前記閲覧対象ページについての前記アクセス元で前記閲覧対象ページを閲覧していた時間に基づいて、前記検索キーワードの前記閲覧対象ページにおける重要度を、前記検索キーワードごとに算出し、
前記検索キーワードごとに算出された前記検索キーワードの前記閲覧対象ページにおける重要度と、前記閲覧対象ページのテキスト領域ごとの各検索キーワードの出現回数と、に基づいて、前記テキスト領域の前記閲覧対象ページにおける重要度を、前記テキスト領域ごとに算出し、
前記テキスト領域ごとに算出された前記テキスト領域の前記閲覧対象ページにおける重要度に基づいて、前記閲覧対象ページの概要情報となる特定のテキスト領域を決定する、
処理を実行させることを特徴とする情報処理プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【公開番号】特開2013−15920(P2013−15920A)
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願番号】特願2011−146736(P2011−146736)
【出願日】平成23年6月30日(2011.6.30)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
【公開日】平成25年1月24日(2013.1.24)
【国際特許分類】
【出願日】平成23年6月30日(2011.6.30)
【出願人】(000005223)富士通株式会社 (25,993)
【Fターム(参考)】
[ Back to top ]