説明

文書検索装置

【課題】ユーザが、文書に含まれるページのうちの、ユーザにとって重要な情報を含むページを容易に閲覧することが可能な文書検索装置を提供すること。
【解決手段】文書検索装置100は、各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出する文書抽出部101と、上記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定する重要ページ特定部102と、上記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む上記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する重要ページ特定情報出力部103と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の文書の中から文書を抽出する文書検索装置に関する。
【背景技術】
【0002】
複数の文書の中から文書を抽出する文書検索装置が知られている。この種の文書検索装置の一つとして特許文献1に記載の文書検索装置は、ユーザにより入力された検索条件を満足する文書を抽出し、抽出された文書を識別するための文書識別情報(例えば、URI等)を出力する。これによれば、ユーザは、ユーザにとって重要な情報を含む文書を特定することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−219722号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、文書は、複数のページを含むことが多い。このため、ユーザにとって重要な情報が、文書に含まれる複数のページのうちの一部のページにのみ含まれていることも多い。このような場合、ユーザは、文書に含まれる複数のページの中から、当該ユーザにとって重要な情報を含むページを探し出す必要があった。即ち、上記文書検索装置においては、ユーザが、ユーザにとって重要な情報を含むページを閲覧するために要する手間が煩雑であるという問題があった。
【0005】
このため、本発明の目的は、上述した課題である「ユーザが、ユーザにとって重要な情報を含むページを閲覧するために要する手間が煩雑であること」を解決することが可能な文書検索装置を提供することにある。
【課題を解決するための手段】
【0006】
かかる目的を達成するため本発明の一形態である文書検索装置は、
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出する文書抽出手段と、
上記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定する重要ページ特定手段と、
上記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む上記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する重要ページ特定情報出力手段と、
を備える。
【0007】
また、本発明の他の形態である文書検索方法は、
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出し、
上記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定し、
上記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む上記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する方法である。
【0008】
また、本発明の他の形態である文書検索プログラムは、
情報処理装置に、
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出し、
上記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定し、
上記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む上記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する、処理を実行させるためのプログラムである。
【0009】
また、本発明の他の形態である端末装置は、
複数のページを含む文書をページ毎に表示するページ表示手段と、
上記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得する閲覧時間取得手段と、
上記文書を識別するための文書識別情報と、当該文書に含まれる上記ページを識別するためのページ識別情報と、当該ページに対して上記取得された閲覧時間と、を文書検索装置へ送信する閲覧時間送信手段と、
を備える。
【0010】
また、本発明の他の形態である端末制御方法は、
複数のページを含む文書をページ毎に表示し、
上記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得し、
上記文書を識別するための文書識別情報と、上記ページを識別するためのページ識別情報と、当該ページに対して上記取得された閲覧時間と、を文書検索装置へ送信する方法である。
【0011】
また、本発明の他の形態である端末制御プログラムは、
情報処理装置に、
複数のページを含む文書をページ毎に表示し、
上記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得し、
上記文書を識別するための文書識別情報と、上記ページを識別するためのページ識別情報と、当該ページに対して上記取得された閲覧時間と、を文書検索装置へ送信する、処理を実行させるためのプログラムである。
【発明の効果】
【0012】
本発明は、以上のように構成されることにより、ユーザが、文書に含まれるページのうちの、ユーザにとって重要な情報を含むページを容易に閲覧することができる。
【図面の簡単な説明】
【0013】
【図1】本発明の第1実施形態に係る文書検索システムの機能の概略を表すブロック図である。
【図2】本発明の第1実施形態に係る文書検索装置が記憶するテーブルを表す図である。
【図3】本発明の第1実施形態に係る文書検索装置が実行する文書検索プログラムを示したフローチャートである。
【図4】本発明の第1実施形態に係る文書検索装置が実行する平均閲覧時間算出プログラムを示したフローチャートである。
【図5】本発明の第1実施形態に係る端末装置が実行する閲覧時間取得プログラムを示したフローチャートである。
【図6】本発明の第1実施形態の変形例に係る端末装置が出力する情報の一例を示した図である。
【図7】本発明の第2実施形態に係る文書検索装置の機能の概略を表すブロック図である。
【発明を実施するための形態】
【0014】
以下、本発明に係る、文書検索装置、文書検索方法、文書検索プログラム、端末装置、端末制御方法、及び、端末制御プログラム、の各実施形態について図1〜図7を参照しながら説明する。
【0015】
<第1実施形態>
(構成)
図1に示したように、第1実施形態に係る文書検索システム1は、端末装置10と、文書検索装置20と、を含む。端末装置10、及び、文書検索装置20は、図示しない通信回線(本例では、インターネット)を介して、互いに通信可能に接続されている。
【0016】
端末装置10は、情報処理装置(本例では、パーソナル・コンピュータ)である。なお、端末装置10は、携帯電話端末、PHS(Personal Handyphone System)、PDA(Personal Data Assistance、Personal Digital Assistant)、カーナビゲーション端末、又は、ゲーム端末等であってもよい。
【0017】
端末装置10は、図示しない中央処理装置(CPU;Central Processing Unit)、記憶装置(メモリ、及び、ハードディスク駆動装置(HDD;Hard Disk Drive))、入力装置(キーボード、及び、マウス等)、及び、出力装置(ディスプレイ)を備える。端末装置10は、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。
【0018】
文書検索装置20は、情報処理装置(本例では、サーバ装置)である。文書検索装置20は、端末装置10と同様に、図示しないCPU及び記憶装置を備える。文書検索装置20は、端末装置10と同様に、記憶装置に記憶されているプログラムをCPUが実行することにより、後述する機能を実現するように構成されている。なお、文書検索装置20は、互いに通信可能に構成された複数の情報処理装置により構成されていてもよい。
【0019】
(機能)
図1は、上記のように構成された文書検索システム1の機能を表すブロック図である。
端末装置10の機能は、検索条件送信部(検索条件送信手段)11と、検索結果受信部(重要ページ特定情報受信手段)12と、ページ表示部(ページ表示手段)13と、閲覧時間取得部(閲覧時間取得手段)14と、閲覧時間送信部(閲覧時間送信手段)15と、を含む。
【0020】
検索条件送信部11は、ユーザにより入力された検索条件(を表す情報)を文書検索装置20へ送信する。例えば、検索条件は、文書が特定の文字列(キーワード)を含む、という条件である。なお、検索条件は、文書が作成された日時が、特定の期間内である、という条件等であってもよい。文書は、文字、及び/又は、画像等を含む情報である。文書は、複数のページを含む。
【0021】
検索結果受信部12は、検索条件送信部11により送信された検索条件に応じて文書検索装置20により送信された検索結果を受信する。検索結果は、当該検索条件に基づいて特定された重要ページを識別するためのページ識別情報(本例では、ページ番号を表す整数)と、当該重要ページを含む文書を識別するための文書識別情報(本例では、文書の位置を表すURI(Uniform Resource Identifier))と、を含む重要ページ特定情報を含む。
【0022】
更に、検索結果は、複数の重要ページ特定情報に付与された順位を表す。本例では、検索結果は、当該検索結果において、より先頭側に配置された重要ページ特定情報ほど、より上位の順位が付与されていることを表す。
【0023】
検索結果受信部12は、受信された検索結果に含まれる重要ページ特定情報を、出力装置を介して出力する(本例では、ディスプレイに表示させる)。このとき、検索結果受信部12は、検索結果において、より先頭側に配置された重要ページ特定情報ほど、ディスプレイ内のより上部に配置されるように、重要ページ特定情報を出力する。
【0024】
ページ表示部13は、検索結果受信部12により出力されている重要ページ特定情報のうちの、ユーザにより選択された重要ページ特定情報を取得する。ページ表示部13は、取得された重要ページ特定情報により特定されるページ(即ち、重要ページ特定情報に含まれる文書識別情報により識別される文書に含まれるページのうちの、当該重要ページ特定情報に含まれるページ識別情報により識別されるページ)を出力装置を介して表示する。
【0025】
更に、ページ表示部13は、ユーザにより入力される指示に応じて、表示されるページを変更する。即ち、ページ表示部13は、文書をページ毎に表示する、と言うことができる。また、ページ表示部13は、受信された重要ページ特定情報のうちの、ユーザにより選択された重要ページ特定情報に含まれる文書識別情報により識別される文書に含まれるページを表示する、と言うこともできる。
加えて、ページ表示部13は、ユーザにより入力される指示に応じて、ページの表示を終了する。
【0026】
閲覧時間取得部14は、ページ表示部13によりページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として、ページ毎に取得する。
【0027】
閲覧時間送信部15は、ページ表示部13によるページの表示が終了した場合、閲覧時間情報を文書検索装置20へ送信する。閲覧時間情報は、選択された重要ページ特定情報に含まれる文書識別情報と、当該文書識別情報により識別される文書に含まれるページを識別するためのページ識別情報と、当該ページに対して閲覧時間取得部14により取得された閲覧時間と、当該重要ページ特定情報を受信する基となった検索条件と、を含む。
【0028】
文書検索装置20の機能は、検索インデックス記憶部21と、閲覧時間受信部(閲覧時間取得手段)22と、閲覧時間記憶部(閲覧時間記憶手段)23と、検索処理実行部24と、を含む。
【0029】
検索インデックス記憶部21は、複数の文書から特定の文字列を含む文書を抽出するためのインデックスを予め記憶している。本例では、インデックスは、文字列と、当該文字列を含む文書を識別するための文書識別情報と、を対応付けた情報である。
【0030】
閲覧時間受信部22は、端末装置10により送信された閲覧時間情報を受信することにより閲覧時間情報を取得する。即ち、閲覧時間受信部22は、ページ、及び、検索条件の組み合わせ毎に、当該ページがユーザにより閲覧されていた時間である閲覧時間を取得する。更に、閲覧時間受信部22は、ページ、及び、検索条件の組み合わせ毎に、取得された閲覧時間情報に含まれる閲覧時間の平均値(平均閲覧時間)を算出する。
【0031】
閲覧時間記憶部23は、閲覧時間受信部22により算出された平均閲覧時間と、当該平均閲覧時間を算出する基となった閲覧時間情報に含まれる、検索条件、文書識別情報、及び、ページ識別情報と、を対応付けて記憶する。
【0032】
具体的には、閲覧時間記憶部23は、図2に示したように、平均閲覧時間、検索条件、文書識別情報、ページ識別情報、及び、当該ページ識別情報により識別されるページが閲覧された回数(閲覧回数)を含むレコードを含むテーブルを記憶している。
【0033】
検索処理実行部24は、文書抽出部(文書抽出手段)24aと、重要ページ特定部(重要ページ特定手段)24bと、順位付与部(順位付与手段)24cと、検索結果出力部(重要ページ特定情報出力手段)24dと、を含む。
【0034】
文書抽出部24aは、端末装置10により送信された検索条件を受信することにより検索条件を取得する。文書抽出部24aは、検索インデックス記憶部21に記憶されているインデックスに基づいて、複数の文書の中から、取得された検索条件を満足する文書を抽出する。本例では、文書抽出部24aは、複数の文書の中から、検索条件が表す文字列を含む文書を抽出する。
【0035】
重要ページ特定部24bは、文書抽出部24aにより抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定する。
【0036】
重要条件は、平均閲覧時間が、閲覧時間の基準値である基準閲覧時間よりも長いという条件である。本例では、重要ページ特定部24bは、文書抽出部24aにより抽出された文書に含まれるページのそれぞれに対して取得された平均閲覧時間の平均値及び標準偏差の和を基準閲覧時間として決定する。即ち、重要ページ特定部24bは、抽出された文書に含まれるページのそれぞれに対して取得された閲覧時間の統計値に基づいて基準閲覧時間を決定している、と言うことができる。
【0037】
なお、本例では、重要ページ特定部24bは、文書抽出部24aにより取得された検索条件(即ち、文書抽出部24aが文書を抽出するために用いる検索条件)と同一の検索条件と対応付けて、閲覧時間記憶部23に記憶されている平均閲覧時間を用いることにより上記基準閲覧時間を決定する。
【0038】
順位付与部24cは、重要ページ特定部24bにより特定された重要ページのそれぞれに対して、閲覧時間記憶部23に記憶されている平均閲覧時間に基づいてスコア値を算出する。スコア値は、大きくなるほど、順位がより上位であることを表す値である。本例では、順位付与部24cは、平均閲覧時間がより長いページに対して、より大きいスコア値を算出するように構成される。
【0039】
なお、後述するように、検索結果出力部24dは、重要ページ特定部24bにより特定された重要ページのそれぞれを特定する重要ページ特定情報を出力する。即ち、順位付与部24cは、複数の重要ページに順位を付与することにより、複数の重要ページに対応する複数の重要ページ特定情報に順位を付与している、と言うことができる。また、順位付与部24cは、平均閲覧時間が長いページに対応する重要ページ特定情報ほど、より上位の順位を付与するように構成されている、と言うことができる。
【0040】
検索結果出力部24dは、複数の重要ページ特定情報を含むとともに、順位付与部24cにより付与された順位を表す検索結果を出力する。各重要ページ特定情報は、重要ページ特定部24bにより特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む文書を識別するための文書識別情報と、を含む。
【0041】
(作動)
次に、上述した文書検索システム1の作動について説明する。
文書検索システム1の作動は、第1の作動、第2の作動、及び、第3の作動を含む。
第1の作動は、ユーザが端末装置10に入力した検索条件に基づいて、文書検索装置20が検索結果を送信する作動である。
第2の作動は、端末装置10により送信された閲覧時間情報に基づいて、文書検索装置20が、記憶している平均閲覧時間を更新する作動である。
第3の作動は、端末装置10が閲覧時間を取得し、取得した閲覧時間を文書検索装置20へ送信する作動である。
【0042】
先ず、第1の作動について説明する。
文書検索装置20は、図3にフローチャートにより示した文書検索プログラムを実行するようになっている。
【0043】
具体的に述べると、文書検索装置20は、文書検索プログラムの処理を開始すると、端末装置10から検索条件を受信するまで待機する(ステップS101)。その後、ユーザが端末装置10に検索条件を入力することにより、端末装置10は、入力された検索条件を文書検索装置20へ送信する。
【0044】
これにより、文書検索装置20は、端末装置10から検索条件を受信する。従って、文書検索装置20は、「Yes」と判定してステップS102へ進み、受信された検索条件に基づいて、複数の文書の中から、当該検索条件を満足する文書を抽出する。
【0045】
次いで、文書検索装置20は、抽出された文書のそれぞれを1つずつ順に処理対象とするループ処理(ステップS103〜ステップS105)を実行する。
ループ処理において、文書検索装置20は、閲覧時間記憶部23に記憶されているレコードのうちの、処理対象となる文書を識別するための文書識別情報、及び、上記受信された検索条件を含むレコードをバッファに格納する(ステップS104)。
【0046】
そして、文書検索装置20は、抽出された文書のすべてに対して、上記ループ処理(ステップS103〜ステップS105)を実行した後、ステップS106へ進む。次いで、文書検索装置20は、バッファにレコードが存在する(少なくとも1つのレコードがバッファに格納されている)か否かを判定する。
【0047】
バッファにレコードが存在しない場合、文書検索装置20は、「No」と判定してステップS101へ戻る。
いま、バッファにレコードが存在する場合を想定する。この場合、文書検索装置20は、「Yes」と判定してステップS107へ進む。そして、文書検索装置20は、バッファに格納されているレコードに基づいて基準閲覧時間を算出する。
【0048】
具体的には、文書検索装置20は、数式1に基づいて平均閲覧時間の平均値μを算出する。ここで、Mは、バッファに格納されているレコードの数(総数)であり、Gは、バッファに格納されているj番目のレコードに含まれる平均閲覧時間である。
【数1】

【0049】
更に、文書検索装置20は、数式2に基づいて平均閲覧時間の標準偏差σを算出する。
【数2】

【0050】
そして、文書検索装置20は、平均閲覧時間の平均値μと、平均閲覧時間の標準偏差σと、の和を基準閲覧時間として算出する。
【0051】
次いで、文書検索装置20は、バッファに格納されたレコードのそれぞれを1つずつ順に処理対象とするループ処理(ステップS108〜ステップS111)を実行する。
ループ処理において、先ず、文書検索装置20は、処理対象となるレコードに含まれる平均閲覧時間が、上記算出された基準閲覧時間よりも長い(即ち、重要条件を満足する)か否かを判定する(ステップS109)。
【0052】
平均閲覧時間が基準閲覧時間よりも長い場合、文書検索装置20は、処理対象となるレコードにより特定されるページ(即ち、当該レコードに含まれる文書識別情報により識別される文書に含まれるページのうちの、当該レコードに含まれるページ識別情報により識別されるページ)を重要ページとして特定する(ステップS110)。そして、文書検索装置20は、ステップS111へ進む。
【0053】
一方、平均閲覧時間が基準閲覧時間以下である場合、文書検索装置20は、処理対象となるレコードにより特定されるページを重要ページとして特定することなく、ステップS111へ進む。
【0054】
そして、文書検索装置20は、バッファに格納されたレコードのすべてに対して、上記ループ処理(ステップS108〜ステップS111)を実行した後、ステップS112へ進む。
【0055】
次いで、文書検索装置20は、数式3に基づいて、重要ページとして特定されたページのそれぞれに対するスコア値S(Q,U,P)を算出する。ここで、Qは、検索条件を表す変数であり、Uは、文書識別情報を表す変数であり、Pは、ページ識別情報を表す変数である。
【数3】

【0056】
なお、F(Q,U)は、検索条件Q、及び、文書識別情報Uの組み合わせに対する基本スコア値である。基本スコア値は、周知の方法により算出される。また、E(Q,U,P)は、検索条件Q、文書識別情報U、及び、ページ識別情報Pの組み合わせに対する補正スコア値である。本例では、文書検索装置20は、数式4に基づいて補正スコア値を算出する。
【数4】

【0057】
なお、Aは、予め設定された重み値(係数)であり、Tは、当該レコード(即ち、検索条件Q、文書識別情報U、及び、ページ識別情報Pを含むレコード)に含まれる平均閲覧時間である。
【0058】
なお、文書検索装置20は、スコア値S(Q,U,P)として、基本スコア値F(Q,U)のみを用いてもよいし、補正スコア値E(Q,U,P)のみを用いてもよい。また、文書検索装置20は、平均閲覧時間に加えて、閲覧回数にも基づいて、補正スコア値E(Q,U,P)を算出するように構成されていてもよい。
【0059】
その後、文書検索装置20は、重要ページとして特定されたページのそれぞれに対して、当該ページを識別するためのページ識別情報と、当該ページを含む文書を識別するための文書識別情報と、を含む重要ページ特定情報を取得する。
【0060】
そして、文書検索装置20は、取得された複数の重要ページ特定情報を含む検索結果を生成する。このとき、文書検索装置20は、重要ページ特定情報に対応するページに対して算出されたスコア値がより高くなるほど、検索結果において、より先頭側に当該重要ページ特定情報を配置する。
【0061】
そして、文書検索装置20は、生成された検索結果を、検索条件を送信してきた端末装置10へ送信する(ステップS113)。その後、文書検索装置20は、ステップS101へ戻り、ステップS101〜ステップS113の処理を繰り返し実行する。
【0062】
一方、端末装置10は、文書検索装置20により送信された検索結果を受信する。そして、端末装置10は、受信された検索結果に含まれる重要ページ特定情報をディスプレイに表示させる。このとき、端末装置10は、検索結果において、より先頭側に配置された重要ページ特定情報ほど、ディスプレイ内のより上部に配置されるように、重要ページ特定情報を出力する。
【0063】
そして、ユーザは、端末装置10に表示されている重要ページ特定情報の中から、1つの重要ページ特定情報を選択する旨を表す情報を端末装置10に入力する。これにより、端末装置10は、表示されている重要ページ特定情報のうちの、ユーザにより選択された重要ページ特定情報を取得する。
【0064】
その後、端末装置10は、取得された重要ページ特定情報により特定されるページをディスプレイに表示させる。
【0065】
次に、第2の作動について説明する。
文書検索装置20は、図4にフローチャートにより示した平均閲覧時間更新プログラムを、予め設定された更新周期が経過する毎に実行するようになっている。
【0066】
具体的に述べると、文書検索装置20は、平均閲覧時間更新プログラムの処理を開始すると、前回、平均閲覧時間更新プログラムを実行した時点から、現時点までの間に、端末装置10から受信した閲覧時間情報のそれぞれを1つずつ順に処理対象とするループ処理(ステップS201〜ステップS206)を実行する。
【0067】
ループ処理において、先ず、文書検索装置20は、閲覧時間記憶部23が記憶しているレコードの中に、処理対象となる閲覧時間情報に含まれる、文書識別情報、ページ識別情報、及び、検索条件を含むレコードが存在するか否かを判定する(ステップS202)。
【0068】
当該レコードが存在しない場合、文書検索装置20は、「No」と判定してステップS205へ進み、処理対象となる閲覧時間情報に含まれる、文書識別情報、ページ識別情報、及び、検索条件と、平均閲覧時間としての、当該閲覧時間情報に含まれる閲覧時間と、閲覧回数としての1と、を含むレコードを、閲覧時間記憶部23が記憶しているテーブルに追加する(閲覧時間記憶部23が当該レコードを新たに記憶する)。
【0069】
一方、閲覧時間記憶部23が記憶しているレコードの中に、処理対象となる閲覧時間情報に含まれる、文書識別情報、ページ識別情報、及び、検索条件を含むレコードが存在する場合、文書検索装置20は、「Yes」と判定してステップS203へ進む。
【0070】
そして、文書検索装置20は、閲覧時間記憶部23に記憶されている上記レコードに含まれる平均閲覧時間Tを、数式5に基づいて算出される値T’に更新する。ここで、Nは、閲覧時間記憶部23に記憶されている上記レコードに含まれる閲覧回数であり、Lは、処理対象となる閲覧時間情報に含まれる閲覧時間である。
【数5】

【0071】
次いで、文書検索装置20は、閲覧時間記憶部23に記憶されている上記レコードに含まれる閲覧回数Nを、閲覧回数Nに1を加算することにより更新する。
【0072】
そして、文書検索装置20は、上記受信した閲覧時間情報のすべてに対して、上記ループ処理(ステップS201〜ステップS206)を実行した後、この平均閲覧時間更新プログラムの処理を終了する。
【0073】
次に、第3の作動について説明する。
端末装置10は、図5にフローチャートにより示した閲覧時間取得プログラムを実行するようになっている。
【0074】
具体的に述べると、端末装置10は、表示されている重要ページ特定情報のうちの、ユーザにより選択された重要ページ特定情報を取得すると、閲覧時間取得プログラムの処理を開始する。そして、端末装置10は、文書(本例では、重要ページ特定情報により特定されるページ)の表示が開始するまで待機する(ステップS301)。
【0075】
次いで、文書の表示が開始すると、端末装置10は、ステップS302へ進み、現時点にて表示されているページ(本例では、重要ページ特定情報により特定されるページ)を識別するためのページ識別情報を第1の変数Pに格納する。
【0076】
そして、端末装置10は、予め設定された待機時間Hだけ待機する(ステップS303)。その後、端末装置10は、文書の表示が終了したか否かを判定する(ステップS304)。いま、文書の表示が終了していない場合を想定する。この場合、端末装置10は、「No」と判定してステップS305へ進み、現時点にて表示されているページを識別するためのページ識別情報を第2の変数Pに格納する。
【0077】
次いで、端末装置10は、第1の変数Pと、第2の変数Pと、が一致しているか否かを判定する(ステップS306)。
【0078】
第1の変数Pと、第2の変数Pと、が一致している場合、端末装置10は、「Yes」と判定してステップS307へ進み、第2の変数Pと同一のページ識別情報と対応付けて記憶されている閲覧時間に上記待機時間Hを加算する。なお、端末装置10は、当該ページ識別情報と対応付けて記憶されている閲覧時間が存在しない場合、当該ページ識別情報と対応付けて、上記待機時間Hを閲覧時間として新たに記憶する。
そして、端末装置10は、ステップS302へ戻る。
【0079】
一方、第1の変数Pと、第2の変数Pと、が一致していない場合、端末装置10は、「No」と判定してステップS308へ進み、ページ移動量Wとして、第1の変数Pと、第2の変数Pと、の差の大きさを算出する。
【0080】
次いで、端末装置10は、第1の変数Pから第2の変数Pまでのページ識別情報のそれぞれと対応付けて記憶されている閲覧時間に、上記待機時間Hをページ移動量Wにより除した値H/Wを加算する。
【0081】
例えば、第1の変数Pが3であり、第2の変数Pが5である場合、ページ識別情報としての、3、4、及び、5のそれぞれと対応付けられた閲覧時間に値H/Wを加算する。また、第1の変数Pが7であり、第2の変数Pが5である場合、ページ識別情報としての、5、6、及び、7のそれぞれと対応付けられた閲覧時間に値H/Wを加算する。
そして、端末装置10は、ステップS302へ戻る。
【0082】
その後、ユーザにより入力された指示に応じて、端末装置10が文書の表示を終了すると、端末装置10は、ステップS304に進んだとき、「Yes」と判定してステップS310へ進む。
【0083】
そして、端末装置10は、記憶されている閲覧時間のそれぞれに対して、当該閲覧時間と、当該閲覧時間と対応付けられたページ識別情報と、上記表示していた文書を識別するための文書識別情報と、当該文書が表示される基となった検索条件と、を含む閲覧時間情報を文書検索装置20へ送信する。その後、端末装置10は、ステップS301へ戻り、ステップS301〜ステップS310の処理を繰り返し実行する。
【0084】
以上、説明したように、本発明の第1実施形態に係る文書検索装置20は、抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定する。更に、文書検索装置20は、特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する。
【0085】
これによれば、ユーザにとって重要な情報を含むページ(重要ページ)をユーザに知らせることができる。この結果、ユーザが、文書に含まれるページのうちの、ユーザにとって重要な情報を含むページを容易に閲覧することができる。
【0086】
更に、第1実施形態に係る文書検索装置20において、重要条件は、取得された閲覧時間が基準閲覧時間よりも長いという条件である。
【0087】
ところで、ユーザにとって重要な情報を含むページほど、ユーザが当該ページを閲覧する時間(閲覧時間)が長くなる。従って、上記構成によれば、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
【0088】
加えて、第1実施形態に係る文書検索装置20は、抽出された文書に含まれるページのそれぞれに対して、取得された閲覧時間の統計値に基づいて基準閲覧時間を決定する。
【0089】
これによれば、基準閲覧時間を適切に決定することができる。この結果、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
【0090】
更に、第1実施形態に係る文書検索装置20は、取得された閲覧時間に基づいて、複数の重要ページ特定情報に順位を付与する。そして、文書検索装置20は、複数の重要ページ特定情報を含むとともに、付与された順位を表す検索結果を出力する。
【0091】
これによれば、閲覧時間に基づいて順位が付与されるので、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
更に、重要ページとして特定されたページについてのみ順位が付与される。この結果、すべてのページに対して順位が付与される場合と比較して、順位の付与を行うための処理負荷を軽減することができる。
【0092】
加えて、第1実施形態に係る文書検索装置20は、検索条件と、文書識別情報と、ページ識別情報と、閲覧時間と、を対応付けて記憶する。そして、文書検索装置20は、文書を抽出するために用いる検索条件と同一の検索条件と対応付けて記憶されている閲覧時間を用いることにより、重要ページを特定する。
【0093】
ところで、検索条件が変化すると、当該検索条件を入力したユーザにとって重要である情報も変化していることが多い。従って、上記のように文書検索装置20を構成することにより、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
【0094】
なお、第1実施形態の変形例において、端末装置10は、カメラを備え、カメラにより取得された画像に基づいてユーザがページを閲覧しているか否かを判定し、その判定結果にも基づいて閲覧時間を取得するように構成されていてもよい。これによれば、例えば、ユーザがディスプレイの近傍に位置していない時間を閲覧時間から除外することができる。即ち、ユーザがページを閲覧している時間を高い精度にて取得することができる。
【0095】
また、第1実施形態の他の変形例において、文書検索装置20は、閲覧時間記憶部23が記憶しているレコードの最終更新日時を記憶するように構成されていてもよい。この場合、文書検索装置20は、最終更新日時が新しいページに対応する重要ページ特定情報ほど、より上位の順位を付与するように構成されていることが好適である。
【0096】
また、文書検索装置20は、最終更新日時に基づいて、出力する重要ページ特定情報をフィルタ処理する(例えば、最終更新日時が所定の期間内である重要ページ特定情報のみを出力する)ように構成されていてもよい。
【0097】
また、第1実施形態の他の変形例において、文書検索装置20は、閲覧時間記憶部23が記憶しているレコードに、当該レコードに含まれるページ識別情報により識別されるページの閲覧を許可するユーザを特定するためのアクセス権限情報を含ませるように構成されていてもよい。
【0098】
この場合、文書検索装置20は、検索条件を入力したユーザを特定するアクセス権限情報を含むレコードに対応する重要ページ特定情報のみを出力するように構成されることが好適である。これによれば、ユーザが閲覧可能なページに対応する重要ページ特定情報のみが出力される。
【0099】
また、第1実施形態の他の変形例において、文書検索装置20は、重要ページ特定情報に含まれる文書識別情報により識別される文書の版が最新版でない場合、当該重要ページ特定情報と併せて、最新版の文書を識別するための文書識別情報を出力するように構成されていてもよい。これにより、例えば、端末装置10は、図6に示したように、重要ページ特定情報とともに、最新版の文書の閲覧を誘導するための情報を出力する。
【0100】
<第2実施形態>
次に、本発明の第2実施形態に係る文書検索装置について図7を参照しながら説明する。
第2実施形態に係る文書検索装置100は、
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出する文書抽出部(文書抽出手段)101と、
上記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定する重要ページ特定部(重要ページ特定手段)102と、
上記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む上記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する重要ページ特定情報出力部(重要ページ特定情報出力手段)103と、
を備える。
【0101】
これによれば、ユーザにとって重要な情報を含むページ(重要ページ)をユーザに知らせることができる。この結果、ユーザが、文書に含まれるページのうちの、ユーザにとって重要な情報を含むページを容易に閲覧することができる。
【0102】
以上、上記実施形態を参照して本願発明を説明したが、本願発明は、上述した実施形態に限定されるものではない。本願発明の構成及び詳細に、本願発明の範囲内において当業者が理解し得る様々な変更をすることができる。
【0103】
なお、上記各実施形態において、端末装置、及び、文書検索装置の各機能は、CPUがプログラム(ソフトウェア)を実行することにより実現されていたが、回路等のハードウェアにより実現されていてもよい。
【0104】
また、上記各実施形態においてプログラムは、記憶装置に記憶されていたが、コンピュータが読み取り可能な記録媒体に記憶されていてもよい。例えば、記録媒体は、フレキシブルディスク、光ディスク、光磁気ディスク、及び、半導体メモリ等の可搬性を有する媒体である。
【0105】
また、上記実施形態の他の変形例として、上述した実施形態及び変形例の任意の組み合わせが採用されてもよい。
【0106】
<付記>
上記実施形態の一部又は全部は、以下の付記のように記載され得るが、以下には限られない。
【0107】
(付記1)
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出する文書抽出手段と、
前記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定する重要ページ特定手段と、
前記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する重要ページ特定情報出力手段と、
を備える文書検索装置。
【0108】
これによれば、ユーザにとって重要な情報を含むページ(重要ページ)をユーザに知らせることができる。この結果、ユーザが、文書に含まれるページのうちの、ユーザにとって重要な情報を含むページを容易に閲覧することができる。
【0109】
(付記2)
付記1に記載の文書検索装置であって、
前記ページ毎に、当該ページがユーザにより閲覧されていた時間である閲覧時間を取得する閲覧時間取得手段を備える文書検索装置。
【0110】
(付記3)
付記2に記載の文書検索装置であって、
前記重要条件は、前記取得された閲覧時間が、閲覧時間の基準値である基準閲覧時間よりも長いという条件である文書検索装置。
【0111】
ところで、ユーザにとって重要な情報を含むページほど、ユーザが当該ページを閲覧する時間(閲覧時間)が長くなる。従って、上記構成によれば、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
【0112】
(付記4)
付記3に記載の文書検索装置であって、
前記重要ページ特定手段は、前記抽出された文書に含まれるページのそれぞれに対して前記取得された閲覧時間の統計値に基づいて前記基準閲覧時間を決定するように構成された文書検索装置。
【0113】
これによれば、基準閲覧時間を適切に決定することができる。この結果、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
【0114】
(付記5)
付記4に記載の文書検索装置であって、
前記重要ページ特定手段は、前記抽出された文書に含まれるページのそれぞれに対して前記取得された閲覧時間の平均値及び標準偏差の和を前記基準閲覧時間として決定するように構成された文書検索装置。
【0115】
(付記6)
付記2乃至付記5のいずれかに記載の文書検索装置であって、
前記取得された閲覧時間に基づいて、複数の前記重要ページ特定情報に順位を付与する順位付与手段を備え、
前記重要ページ特定情報出力手段は、前記複数の重要ページ特定情報を含むとともに、前記付与された順位を表す検索結果を出力するように構成された文書検索装置。
【0116】
これによれば、閲覧時間に基づいて順位が付与されるので、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
更に、重要ページとして特定されたページについてのみ順位が付与される。この結果、すべてのページに対して順位が付与される場合と比較して、順位の付与を行うための処理負荷を軽減することができる。
【0117】
(付記7)
付記6に記載の文書検索装置であって、
前記順位付与手段は、前記取得された閲覧時間が長いページに対応する前記重要ページ特定情報ほど、より上位の順位を付与するように構成された文書検索装置。
【0118】
(付記8)
付記2乃至付記7のいずれかに記載の文書検索装置であって、
前記文書識別情報と、前記ページ識別情報と、前記閲覧時間と、を対応付けて記憶する閲覧時間記憶手段を備える文書検索装置。
【0119】
(付記9)
付記8に記載の文書検索装置であって、
前記閲覧時間取得手段は、前記検索条件毎に、前記閲覧時間を取得するように構成され、
前記閲覧時間記憶手段は、前記検索条件と、前記文書識別情報と、前記ページ識別情報と、前記閲覧時間と、を対応付けて記憶するように構成され、
前記重要ページ特定手段は、前記文書を抽出するために用いる前記検索条件と同一の検索条件と対応付けて記憶されている閲覧時間を用いることにより、前記重要ページを特定するように構成された文書検索装置。
【0120】
ところで、検索条件が変化すると、当該検索条件を入力したユーザにとって重要である情報も変化していることが多い。従って、上記のように文書検索装置を構成することにより、ユーザにとって重要な情報を含むページを、より一層確実にユーザに知らせることができる。
【0121】
(付記10)
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出し、
前記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定し、
前記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する、文書検索方法。
【0122】
(付記11)
付記10に記載の文書検索方法であって、
前記ページ毎に、当該ページがユーザにより閲覧されていた時間である閲覧時間を取得する、文書検索方法。
【0123】
(付記12)
付記11に記載の文書検索方法であって、
前記重要条件は、前記取得された閲覧時間が、閲覧時間の基準値である基準閲覧時間よりも長いという条件である文書検索方法。
【0124】
(付記13)
付記11又は付記12に記載の文書検索方法であって、
前記取得された閲覧時間に基づいて、複数の前記重要ページ特定情報に順位を付与し、
前記複数の重要ページ特定情報を含むとともに、前記付与された順位を表す検索結果を出力する、文書検索方法。
【0125】
(付記14)
情報処理装置に、
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出し、
前記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定し、
前記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する、処理を実行させるための文書検索プログラム。
【0126】
(付記15)
付記14に記載の文書検索プログラムであって、
前記情報処理装置に、
前記ページ毎に、当該ページがユーザにより閲覧されていた時間である閲覧時間を取得する、処理を実行させるための文書検索プログラム。
【0127】
(付記16)
付記15に記載の文書検索プログラムであって、
前記重要条件は、前記取得された閲覧時間が、閲覧時間の基準値である基準閲覧時間よりも長いという条件である文書検索プログラム。
【0128】
(付記17)
付記15又は付記16に記載の文書検索プログラムであって、
前記情報処理装置に、
前記取得された閲覧時間に基づいて、複数の前記重要ページ特定情報に順位を付与し、
前記複数の重要ページ特定情報を含むとともに、前記付与された順位を表す検索結果を出力する、処理を実行させるための文書検索プログラム。
【0129】
(付記18)
複数のページを含む文書をページ毎に表示するページ表示手段と、
前記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得する閲覧時間取得手段と、
前記文書を識別するための文書識別情報と、当該文書に含まれる前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、を文書検索装置へ送信する閲覧時間送信手段と、
を備える端末装置。
【0130】
(付記19)
付記18に記載の端末装置であって、
ユーザにより入力された検索条件を前記文書検索装置へ送信する検索条件送信手段と、
前記文書検索装置により、前記検索条件に応じて送信され、且つ、当該検索条件に基づいて特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を受信する重要ページ特定情報受信手段と、
を備え、
前記ページ表示手段は、前記受信された重要ページ特定情報のうちの、ユーザにより選択された重要ページ特定情報に含まれる文書識別情報により識別される前記文書に含まれるページを表示するように構成され、
前記閲覧時間送信手段は、前記選択された重要ページ特定情報に含まれる文書識別情報と、当該文書識別情報により識別される前記文書に含まれる前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、当該重要ページ特定情報を受信する基となった前記検索条件と、を前記文書検索装置へ送信するように構成された端末装置。
【0131】
(付記20)
複数のページを含む文書をページ毎に表示し、
前記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得し、
前記文書を識別するための文書識別情報と、前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、を文書検索装置へ送信する、端末制御方法。
【0132】
(付記21)
付記20に記載の端末制御方法であって、
ユーザにより入力された検索条件を前記文書検索装置へ送信し、
前記文書検索装置により、前記検索条件に応じて送信され、且つ、当該検索条件に基づいて特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を受信し、
前記受信された重要ページ特定情報のうちの、ユーザにより選択された重要ページ特定情報に含まれる文書識別情報により識別される前記文書に含まれるページを表示し、
前記選択された重要ページ特定情報に含まれる文書識別情報と、当該文書識別情報により識別される前記文書に含まれる前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、当該重要ページ特定情報を受信する基となった前記検索条件と、を前記文書検索装置へ送信する、端末制御方法。
【0133】
(付記22)
情報処理装置に、
複数のページを含む文書をページ毎に表示し、
前記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得し、
前記文書を識別するための文書識別情報と、前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、を文書検索装置へ送信する、処理を実行させるための端末制御プログラム。
【0134】
(付記23)
付記22に記載の端末制御プログラムであって、
前記情報処理装置に、
ユーザにより入力された検索条件を前記文書検索装置へ送信し、
前記文書検索装置により、前記検索条件に応じて送信され、且つ、当該検索条件に基づいて特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を受信し、
前記受信された重要ページ特定情報のうちの、ユーザにより選択された重要ページ特定情報に含まれる文書識別情報により識別される前記文書に含まれるページを表示し、
前記選択された重要ページ特定情報に含まれる文書識別情報と、当該文書識別情報により識別される前記文書に含まれる前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、当該重要ページ特定情報を受信する基となった前記検索条件と、を前記文書検索装置へ送信する、処理を実行させるための端末制御プログラム。
【産業上の利用可能性】
【0135】
本発明は、複数の文書の中から文書を抽出する文書検索装置等に適用可能である。
【符号の説明】
【0136】
1 文書検索システム
10 端末装置
11 検索条件送信部
12 検索結果受信部
13 ページ表示部
14 閲覧時間取得部
15 閲覧時間送信部
20 文書検索装置
21 検索インデックス記憶部
22 閲覧時間受信部
23 閲覧時間記憶部
24 検索処理実行部
24a 文書抽出部
24b 重要ページ特定部
24c 順位付与部
24d 検索結果出力部
100 文書検索装置
101 文書抽出部
102 重要ページ特定部
103 重要ページ特定情報出力部

【特許請求の範囲】
【請求項1】
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出する文書抽出手段と、
前記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定する重要ページ特定手段と、
前記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する重要ページ特定情報出力手段と、
を備える文書検索装置。
【請求項2】
請求項1に記載の文書検索装置であって、
前記ページ毎に、当該ページがユーザにより閲覧されていた時間である閲覧時間を取得する閲覧時間取得手段を備える文書検索装置。
【請求項3】
請求項2に記載の文書検索装置であって、
前記重要条件は、前記取得された閲覧時間が、閲覧時間の基準値である基準閲覧時間よりも長いという条件である文書検索装置。
【請求項4】
請求項3に記載の文書検索装置であって、
前記重要ページ特定手段は、前記抽出された文書に含まれるページのそれぞれに対して前記取得された閲覧時間の統計値に基づいて前記基準閲覧時間を決定するように構成された文書検索装置。
【請求項5】
請求項4に記載の文書検索装置であって、
前記重要ページ特定手段は、前記抽出された文書に含まれるページのそれぞれに対して前記取得された閲覧時間の平均値及び標準偏差の和を前記基準閲覧時間として決定するように構成された文書検索装置。
【請求項6】
請求項2乃至請求項5のいずれかに記載の文書検索装置であって、
前記取得された閲覧時間に基づいて、複数の前記重要ページ特定情報に順位を付与する順位付与手段を備え、
前記重要ページ特定情報出力手段は、前記複数の重要ページ特定情報を含むとともに、前記付与された順位を表す検索結果を出力するように構成された文書検索装置。
【請求項7】
請求項6に記載の文書検索装置であって、
前記順位付与手段は、前記取得された閲覧時間が長いページに対応する前記重要ページ特定情報ほど、より上位の順位を付与するように構成された文書検索装置。
【請求項8】
各々が複数のページを含む、複数の文書の中から、所定の検索条件を満足する文書を抽出し、
前記抽出された文書のそれぞれに対して、当該文書に含まれるページのうちの、所定の重要条件を満足するページを重要ページとして特定し、
前記特定された重要ページを識別するためのページ識別情報と、当該重要ページを含む前記文書を識別するための文書識別情報と、を含む重要ページ特定情報を出力する、文書検索方法。
【請求項9】
複数のページを含む文書をページ毎に表示するページ表示手段と、
前記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得する閲覧時間取得手段と、
前記文書を識別するための文書識別情報と、当該文書に含まれる前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、を文書検索装置へ送信する閲覧時間送信手段と、
を備える端末装置。
【請求項10】
複数のページを含む文書をページ毎に表示し、
前記ページが表示されていた時間を、ユーザが当該ページを閲覧していた閲覧時間として取得し、
前記文書を識別するための文書識別情報と、前記ページを識別するためのページ識別情報と、当該ページに対して前記取得された閲覧時間と、を文書検索装置へ送信する、端末制御方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate