情報表示装置およびプログラム
【課題】ネットワーク上に存在する多数の情報サイトにおいて、ユーザにとって必要となる確率の高い情報を自動的に抽出して表示することが可能な情報表示装置を提供する。
【解決手段】予め登録した各情報サイトのURLにアクセスされ当該各URLに対応するWebページの個別タイトル(リンクテキスト)が抽出される。また各個別タイトルのリンク先URLにアクセスされ当該各リンク先URLに対応するページの本文テキストが抽出される。抽出された個別タイトル、リンク先URL、本文テキストは、前記各登録URLのIDに対応付けて抽出結果リストに記憶される(SA)。リストに記憶された各URL_IDの相互間で本文テキストの類似度が求められ、類似度の高い本文テキストに対応する個別タイトルだけ(SB)、重要情報一覧ウインドウに表示される(SC)。ウインドウ表示された所望の個別タイトルにフォーカスを合わせると、その本文テキストが読み出されポップアップ表示される。
【解決手段】予め登録した各情報サイトのURLにアクセスされ当該各URLに対応するWebページの個別タイトル(リンクテキスト)が抽出される。また各個別タイトルのリンク先URLにアクセスされ当該各リンク先URLに対応するページの本文テキストが抽出される。抽出された個別タイトル、リンク先URL、本文テキストは、前記各登録URLのIDに対応付けて抽出結果リストに記憶される(SA)。リストに記憶された各URL_IDの相互間で本文テキストの類似度が求められ、類似度の高い本文テキストに対応する個別タイトルだけ(SB)、重要情報一覧ウインドウに表示される(SC)。ウインドウ表示された所望の個別タイトルにフォーカスを合わせると、その本文テキストが読み出されポップアップ表示される。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Webサイトにある所望の情報を閲覧するための情報表示装置およびプログラムに関する。
【背景技術】
【0002】
従来から、LAN(Local Area Network)やWAN(Wide Area Network)、インターネットなど、通信ネットワークにおけるサーバ・クライアント・システムでは、クライアント装置が備えるWebブラウザにより、ネットワーク上の各Webサイトのサーバ装置が生成保存している種々の情報(Webページ)を取得表示して閲覧することが行われる。
【0003】
特に、インターネット上には、膨大な量のWebサイトが存在し、信頼できる情報か否かを問わず、ありとあらゆる情報が溢れているため、ユーザが本当に必要とする情報を得るのはそれほど簡単ではない。
【0004】
例えば、ユーザが知りたい情報に関してそのキーワードを入力すると、当該キーワードを含む情報を記述している多数のWebページの見出しがリンクテキストとして一覧表示される。ユーザはこの一覧表示されたページ見出しを次々に指定して該当するWebページを開いて表示させ、本当に必要とする情報が含まれるか否か確認している。
【0005】
そこで、各種WebサイトのWebページから当該ページに含まれるリンクを抽出し、この抽出されたリンク先コンテンツの紹介文を自動生成するリンク集作成装置が考えられている(例えば、特許文献1参照。)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2003−016082号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
前記従来のリンク集作成装置によれば、個々のリンク先を一々指定しながら開く必要なく、その内容の概要を知ることができる。
【0008】
しかしながら、このリンク集から得られる情報とは、ユーザにとって必要となる確率の高い情報であるか否かとは無関係な、Webページ上にある各リンクのリンク先に何があるかを紹介するだけのものであり、結局は様々なリンク先の紹介文を次々に見ていく必要がある。
【0009】
本発明は、このような課題に鑑みなされたもので、ネットワーク上に存在する多数の情報サイトにおいて、ユーザにとって必要となる確率の高い情報を自動的に抽出して表示することが可能になる情報表示装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
請求項1に記載の情報表示装置は、情報元として利用する情報サイトのURLを予め記憶するURL記憶手段と、このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段と、この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段と、この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段と、この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段と、を備えたことを特徴としている。
【0011】
請求項2に記載の情報表示装置は、前記請求項1に記載の情報表示装置において、前記見出し情報抽出手段により前記記憶されたURLで指定される情報サイトのページから抽出された見出し情報に対応して前記本文抽出手段により抽出された本文を、該当する前記情報サイトの識別情報に対応付けて記憶する抽出情報記憶手段を備え、前記表示対象設定手段は、前記抽出情報記憶手段により記憶された各本文の類似度を異なる情報サイト相互の本文同士で総当たりに判定する類似度判定手段を有し、前記抽出情報記憶手段により記憶された各本文について、前記類似度判定手段により類似度が予め設定された値よりも高いと判定された一方の本文を表示対象に設定し、もう一方の本文を削除する、ことを特徴としている。
【0012】
請求項3に記載の情報表示装置は、前記請求項1または請求項2に記載の情報表示装置において、前記見出し情報抽出手段による見出し情報の抽出処理と、前記本文抽出手段による本文の抽出処理と、前記表示対象設定手段による表示対象の設定処理と、前記表示制御手段による本文の表示処理とを、予め設定された一定時間毎に繰り返し実行する繰り返し制御手段を備えたことを特徴としている。
【0013】
請求項4に記載のプログラムは、電子機器のコンピュータを制御するためのプログラムであって、前記コンピュータを、情報元として利用する情報サイトのURLを予めメモリに記憶させるURL記憶手段、このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段、この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段、この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段、この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段、として機能させることを特徴としている。
【発明の効果】
【0014】
本発明によれば、ネットワーク上に存在する多数の情報サイトにおいて、ユーザにとって必要となる確率の高い情報を自動的に抽出して表示することが可能になる情報表示装置およびプログラムを提供できる。
【図面の簡単な説明】
【0015】
【図1】本発明の情報表示装置の実施形態に係る情報端末装置20を使用したサーバ・クライアント・システムの構成を示すブロック図。
【図2】前記情報端末装置20のURL登録リストメモリ23aに記憶されるURL登録リストを示す図。
【図3】前記情報端末装置20の抽出結果リストメモリ23bに記憶されるWeb情報の抽出結果リストを示す図。
【図4】前記情報端末装置20において例えばサーバ装置(情報サイトA)10A[http://www.sight.a.co.jp/]から取得されたWebページPの画面表示例を示す図。
【図5】前記図4におけるWebページPのリンクテキストLtxt1部分を記述したHTMLソースPhtmを示す図。
【図6】前記情報端末装置20による重要情報取得表示処理の概要を示すフローチャート。
【図7】前記重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)を示すフローチャート。
【図8】前記図5に一部分を示したHTMLソースPhtmにより記述されたリンク先WebページLPの画面表示例を示す図。
【図9】前記重要情報取得表示処理に伴う類似度判定処理(SB)を示すフローチャート。
【図10】前記重要情報取得表示処理に伴う表示処理(SC)を示すフローチャート。
【図11】前記重要情報取得表示処理の表示処理(SC)に伴う重要情報の表示動作例を示す図。
【発明を実施するための形態】
【0016】
以下図面により本発明の実施の形態について説明する。
【0017】
図1は、本発明の情報表示装置の実施形態に係る情報端末装置20を使用したサーバ・クライアント・システムの構成を示すブロック図である。
【0018】
このサーバ・クライアント・システムは、インターネット、WAN、LANなどからなるネットワークN上に接続された複数のサーバ装置(情報サイトA)10A,(情報サイトB)10B,(情報サイトC)10C,…および複数の情報端末装置(クライアント装置)20,…を備える。
【0019】
サーバ装置(情報サイトA)10A,(情報サイトB)10B,(情報サイトC)10C,…は、各情報サイトに応じたWebコンテンツ生成処理プログラム,登録ユーザ管理処理プログラム,Webページ配信処理プログラムなど、当該サーバ装置10A,10B,10C,…の本体操作により機能する複数のアプリケーションプログラムを有し、例えば情報端末装置20からの指定の情報サイトへのアクセス要求に応じて当該要求された情報サイトにて生成したWebページを同情報端末装置20へ配信する。
【0020】
情報端末装置20は、携帯電話,PDA(Personal Digital Assistant),PCなどからなり、インターネット接続処理プログラム、Webブラウザプログラム,Web印刷プログラムなど、当該情報端末装置20の本体操作により機能する複数のアプリケーションプログラムを有する。そして、例えば所望の情報サイトA[http://www.sight_a.co.jp/]のサーバ装置10AにアクセスしてそのWebページを取得し、当該WebページのHTML(Hyper Text Markup Language)のタグ要素から成るツリー構造を解析して画面展開し表示したり印刷したりする。
【0021】
情報端末装置20の電子回路は、コンピュータとしてのCPU21を備え、このCPU21には、バス22を介してROMやRAMからなる記憶部23、メモリカードや光ディスクなどの外部記憶媒体24にデータを読み書きする記憶媒体読み書き部25が接続される。
【0022】
また、CPU21には、バス22を介してキーボード,マウスなどの入力部26、LCDからなる表示部27、前記サーバ装置10A,10B,10C,…との間でデータを送受信する送受信部28が接続される。
【0023】
CPU21は、記憶部23に予め記憶されているシステムプログラムおよび種々のアプリケーションプログラムに従って回路各部の動作を制御するもので、入力部26からの入力信号に応じて前記種々のアプリケーションプログラムが起動され実行される。
【0024】
前記サーバ装置10A,10B,10C,…をインターネット(N)上のWebサイト、前記情報端末装置20,…を前記Webサイトにアクセス可能なユーザ端末とした場合、ユーザ端末(20)からWebサイト(10A)へのアクセス要求に応じて、当該Webサイト(10A)においてHTMLにより記述生成されたWebページがアクセス要求元のユーザ端末(20)へ配信され、そのWebブラウザプログラムにより表示部27に展開されて表示される。
【0025】
また、記憶部23には、URL登録リストメモリ23a、および抽出結果リストメモリ23bが備えられる。
【0026】
図2は、前記情報端末装置20のURL登録リストメモリ23aに記憶されるURL登録リストを示す図である。
【0027】
このURL登録リストメモリ23aには、ユーザ操作に応じて、例えば当該ユーザが日頃からアクセスする頻度の比較的高い各サーバ装置(情報サイトA,B,C,…)10A,10b,10C,…のURLが、そのURL_IDに対応付けられて記憶される。
【0028】
図3は、前記情報端末装置20の抽出結果リストメモリ23bに記憶されるWeb情報の抽出結果リストを示す図である。
【0029】
この抽出結果リストメモリ23bには、前記URL登録リストメモリ23aに記憶された各URL_ID毎のURLに対応するWebページから抽出されたタイトル(リンクテキスト)、当該タイトル(リンクテキスト)のリンク先URL、このリンク先URLに対応するWebページから抽出された本文テキストが、該当するURL_IDに関係付けた本文IDに対応付けられて記憶される。
【0030】
この抽出結果リスト(23b)において、各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定する。そして、類似度が規定値より高いと判定された本文テキストについては、その判定に伴い、URL_IDが小さい方の本文テキストに対応付けて要表示マークを付加し、もう一方の本文テキストを削除する。
【0031】
つまり、この抽出結果リスト(23b)において、要表示マークが付加されたところの本文テキストは、ユーザが日頃からアクセスする頻度の比較的高い各サーバ装置(情報サイトA,B,C,…)10A,10b,10C,…のWebページから抽出された全てのタイトル(テキストテキスト)に対応するリンク先の本文テキストの中で、少なくとも2つの情報サイトのWebページに載っているタイトルに対応する類似と判定された本文テキストの一方である。このため、前記要表示マークが付加されたところの本文テキストは、ユーザが日頃からアクセスする頻度の比較的高い各情報サイトA,B,C,…から得られる情報の中でも重要度が高い情報になる。
【0032】
図4は、前記情報端末装置20において例えばサーバ装置(情報サイトA)10A[http://www.sight.a.co.jp/]から取得されたWebページPの画面表示例を示す図である。
【0033】
図5は、前記図4におけるWebページPのリンクテキストLtxt1部分を記述したHTMLソースPhtmを示す図である。
【0034】
図4に示すように、情報端末装置20の表示部27に表示させたWebページPはハイパーテキストであり、メインタイトルT「今日の速報ニュース」に属する5項目の個別タイトルが何れもリンクテキストLtxt1〜Ltxt5に設定されている。そして、当該各リンクテキストLtxt1〜Ltxt5は、図5にその一部を示すHTMLソースPhtmにおいて、何れも“A”で括られるタグ要素に記述され、リンク先WebページのURLが対応付けられている。
【0035】
例えば表示部27に表示されたWebページPにおいて、メインタイトルTに属する1番目の個別タイトルに対応するリンクテキスト「首相、内閣支持率に注文」Ltxt1にフォーカスすると、当該リンクテキストLtxt1を記述したHTMLソースPhtmから、破線aで囲んで示すように、リンク先WebページのURL[http://www.sight_b.co.jp/news002.html]が取得される。
【0036】
このように、情報端末装置20のWebブラウザプログラムは、その基本機能として、ユーザ指定のWebサイトのサーバ装置10A,10B,10C,…へのアクセスに伴い、そのWebページを取得し、当該WebページのHTMLのタグから成るツリー構造を解析して、記憶部23内のフレームバッファFBに画面展開し表示する機能を有する。
【0037】
また、この情報端末装置20は、ユーザ操作に応じてアクセス要求されたWebサイトのサーバ装置からWebページPを取得して表示する機能とは別に、一定時間T1毎に、前記URL登録リストメモリ23a(図2参照)に登録されている各URLのサーバ装置へ自動でアクセスし、各サーバ装置が提供する全てのWebページP…内の個別タイトルであるリンクテキストLtxt1〜Ltxtmを抽出する機能、抽出された各リンクテキストLtxt1〜Ltxtmに対応するリンク先URLを取得する機能、取得された各リンク先URLにアクセスしてその本文テキストを抽出する機能、そして前記登録された各URLのID毎の個別タイトル(リンクテキスト)、リンク先URL、本文テキストを、該当するURL_IDに関係付けた本文IDと対応付けて前記抽出結果リストメモリ23b(図3参照)に登録する機能を有する(図6のステップSA[表示対象テキスト取得処理])。
【0038】
そして、この情報端末装置20は、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定する機能、この類似度判定に際して、類似度が規定値より高いと判定された本文テキストについては、URL_IDが小さい方の本文テキストに対応付けて要表示マークを付加すると共に、もう一方の本文テキストを削除する機能を有する(図6のステップSB[類似度判定処理])。
【0039】
さらに、この情報端末装置20は、前記抽出結果リストメモリ23bに要表示マークの付加された本文テキストが存在する場合に、当該要表示の本文テキストが対応付けられた個別タイトル(リンクテキスト)を表示部27にウインドウ表示する機能を有する(図6のステップSC[表示処理])。
【0040】
このような予め登録された各Webサイトからの重要情報取得表示機能は、例えば前記Webブラウザプログラムにプラグインあるいはアドオンするプログラムにより実現される。
【0041】
次に、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能について説明する。
【0042】
図6は、前記情報端末装置20による重要情報取得表示処理の概要を示すフローチャートである。
【0043】
この重要情報取得表示処理では、前述にその機能の概要を説明した表示対象テキスト取得処理(ステップSA)、類似度判定処理(ステップSB)、表示処理(ステップSC)が、予め設定された一定時間T1毎に繰り返し実行される(ステップSD,SE→SA)。
【0044】
この重要情報取得表示処理により、ユーザが日頃からアクセスする頻度の比較的高い各情報サイトA,B,C,…から得られる情報の中でも重要度が高い情報の個別タイトル(リンクテキスト)を常時ウインドウ表示できるようになる。
【0045】
以下にその詳細な処理について説明する。
【0046】
図7は、前記重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)を示すフローチャートである。
【0047】
先ず、記憶部23において管理される変数xの値が、前記URL登録リストメモリ23a(図2参照)に登録されたURLの数“n”に初期化され、また同記憶部23において管理する変数yの値が、前記登録されたn個のURLの先頭を指定する値“1”に初期化される(ステップA1)。
【0048】
すると、前記URL登録リストメモリ23aに登録されたy(=1)番目のURLに従ったサーバ装置(例えば情報サイトA)10Aへアクセスされ、当該情報サイトAのWebページPが取得される。そして、このWebページPに記述されている各個別タイトルのリンクテキストLtxt1〜Ltxtmが抽出され、前記抽出結果リストメモリ23b(図3参照)に前記URLのID(=1)に対応付けられて記憶される(ステップA2)。
【0049】
なお、前記サーバ装置から取得されたWebページPに記述されている各個別タイトルのリンクテキストLtxt1〜Ltxtmを抽出する処理は、例えば次のように実行される。
【0050】
先ず、WebページPのHTMLのタグからなるツリー構造が解析され、当該WebページP内の「カラム」が抽出される。また前記HTMLの構造解析から、例えば前記「カラム」毎に、周囲の文字列と比較して大きい文字サイズや目立つ文字フォントである「強い」文字列が抽出されてリストアップされる。すると、リストアップされた「強い」文字列同士の位置関係,強弱,個数などから各個別タイトルのリンクテキストLtxt1〜Ltxtmが認定抽出される。
【0051】
通常、例えばニュース情報サイトに掲載されるトップニュースなどは、大きめのフォントや太字で個別タイトルが表示されることが多い。従って、前記処理によりタイトル抽出することで、トップニュース等の重要情報についての個別タイトルを抽出することが可能となる。
【0052】
すると、記憶部23において管理される変数nが、前記ステップA2においてy番目(=1)のURLに対応するWebページPから抽出された各個別タイトル(リンクテキストLtxt1〜Ltxtm)の数“m”にセットされる(ステップA3)。
【0053】
ここで、前記変数n=0ではない(ステップA4(No))、つまり前記y番目(=1)のURLに対応するWebページPから少なくとも1つ以上の個別タイトル(リンクテキスト)が抽出されたと判断されると、この抽出されたn(=m)個の個別タイトル(リンクテキスト)の各リンク先URLに従い当該各リンク先のWebページLP…(図8参照)が取得される。そして、この各リンク先のWebページLP…からその本文テキストHtxt…が抽出され、前記リンク先URLと共に、前記リンク元のURL_IDおよび当該リンク元のURL_IDに関係付けた本文IDに対応付けられて、前記抽出結果リストメモリ23b(図3参照)に登録される(ステップA5,A6→A4)。
【0054】
なお、前記リンク先のWebページLPからその本文テキストHtxtを抽出する処理は、例えば次のように実行される。
【0055】
図8は、前記図5に一部分を示したHTMLソースPhtmにより記述されたリンク先WebページLPの画面表示例を示す図である。
【0056】
リンク先WebページLPのHTMLソースLPhtmには、前記リンク元WebページPにて抽出した個別タイトルのリンクテキスト「首相、内閣支持率に注文」Ltxt1と同一(あるいは類似)の見出しテキスト「首相、内閣支持率に注文」Mtxtを含んでいる“H1”で括られるタグ要素が存在する。
【0057】
そして、前記見出しテキスト「首相、内閣支持率に注文」Mtxtに対応する本文テキストHtxtは、当該見出しテキスト「首相、内閣支持率に注文」Mtxtを含むタグ要素“H1”以降のタグ要素“P”において、幾つもの読点を有する比較的長い文字列として記述されている。
【0058】
このため、リンク先WebページLPのHTMLソースLPhtmから、前記リンク元WbページPから抽出した個別タイトルのリンクテキストLtxtに対応する本文テキストHtxtを抽出するには、当該リンクテキストLtxtと同一(あるいは類似)の見出しテキストMtxtを含んでいるタグ要素“H1”を検索し、これ以降のタグ要素“P”において、読点を設定個数以上含み且つ設定数以上の文字数からなるテキストを抽出すればよい。
【0059】
こうして、前記ステップA4〜A6の処理に従いy番目(=1)のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)に対応するリンク先WebページLP1〜LPmの本文テキストHtxt1〜Htxtmが抽出され、例えば図3で示したように、該当するURL_ID“1”の各本文ID“1−1”〜“1−m1”と対応付けられて抽出結果リストメモリ23bに登録されると、変数yの値がインクリメントされて“2”にセットされ(ステップA7)、前記ステップA2以降の処理が繰り返される(ステップA8(No)→A2)。
【0060】
すなわち、次のステップA2の処理により、前記URL登録リストメモリ23aに登録されたy(=2)番目のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)が抽出される。そして、次のステップA3〜A6の処理により、前記抽出されたy番目(=2)のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)に対応するリンク先WebページLP1〜LPmの本文テキストHtxt1〜Htxtmが抽出され、前記図3で示したように、該当するURL_ID“2”の各本文ID“2−1”〜“2−m2”と対応付けられて抽出結果リストメモリ23bに登録される。
【0061】
さらに続けて、前記変数yの値が順次インクリメントされながら、前記URL登録リストメモリ23aに登録されたn(=x)個全てのURLに従い、前記ステップA2〜A6の処理が繰り返されて抽出結果リスト(23b)が生成された後、ステップA7にてインクリメントされた変数yの値が変数x(=n)の値を上回ったと判断されると(ステップA8(Yes))、前記一連の表示対象テキスト取得処理が終了され、図9における類似度判定処理(SB)へ移行される。
【0062】
図9は、前記重要情報取得表示処理に伴う類似度判定処理(SB)を示すフローチャートである。
【0063】
この類似度判定処理に移行されると、先ず、記憶部23にて管理される変数xおよび変数yの値が何れも“1”に初期化される(ステップB1)。変数xは、前記抽出結果リストメモリ23bに登録されたURL_ID毎の各個別タイトル(リンクテキスト)に対応する本文テキストを順番にカウントするための値であり、変数yは、前記URL登録リストメモリ23aに登録されたURL_IDを順番にカウントするための値である。
【0064】
また、記憶部23にて管理される変数ymaxの値に、前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数が代入される(ステップB2)。
【0065】
また、記憶部23にて管理される変数xmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)が代入される(ステップB3)。
【0066】
さらに、記憶部23にて管理される変数mの値に、前記変数y+1(=2)が代入される(ステップB4)。
【0067】
そして、記憶部23にて管理される変数nの値が“1”に初期化されると共に、変数nmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているm(=2)番目のURL_ID“2”に対応するところの本文テキストの総数(m2)が代入される(ステップB5)。
【0068】
すると、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=1)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。
【0069】
そして、前記2つの本文テキストの類似度が規定値(閾値)以下であると判断されると(ステップB7(No))、前記m(=2)番目のURL_ID“2”に対応した本文テキストを指定するための変数nの値がインクリメントされて“2”にセットされる(ステップB8)。
【0070】
すると、前記変数n(=2)は、前記m(=2)番目のURL_ID“2”に対応した本文テキストの総数nmax(=m2)を超えたか否か判断され(ステップB9)、未だ超えないと判断されると(ステップB9(No))、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。
【0071】
すなわち、前記ステップB5〜B9の処理が繰り返し実行されることで、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、m(=2)番目のURL_ID“2”に対応するところの各本文テキスト(n(=1)〜nmax(=m2))を比較対象にその類似度が順次求められ、その都度、求められた類似度が規定値(閾値)より高いか否か判断される。
【0072】
そして、例えば前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の本文テキストとの類似度が求められた際に(ステップB6)、当該類似度が規定値(閾値)より高いと判定された場合には(ステップB7(Yes))、前者y(=1)番目のURL_ID“1”に対応するところのx(=1)番目の個別タイトルおよび本文テキストに対応付けて要表示マークが付加され、表示対象に設定される(ステップB10)。
【0073】
またこれに伴い、後者m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の個別タイトルおよび本文テキストが前記抽出結果リストメモリ23bから削除される(ステップB11)。
【0074】
すると、前記変数mの値がインクリメントされて“3”にセットされ(ステップB12)、当該変数m(=3)は、前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数ymaxを超えたか否か判断される(ステップB13)。
【0075】
ここで、前記変数mはymaxを未だ超えないと判断されると(ステップB13(No))、変数nの値が“1”に初期化されると共に、変数nmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているm(=3)番目のURL_ID“3”に対応するところの本文テキストの総数(m3)が代入される(ステップB5)。
【0076】
そして、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=3)番目のURL_ID“3”に対応するところのn(=1)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。
【0077】
つまりこれにより、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、m(=3)番目のURL_ID“3”に対応するところの各本文テキスト(n(=1)〜nmax(=m3))を比較対象にその類似度が順次求められ、その都度、前記同様に求められた類似度が規定値(閾値)より高いか否か判断される(ステップB6〜B9)。
【0078】
この後、前記ステップB5〜B13の処理が繰り返されることで、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0079】
そして、類似度が規定値(閾値)より高いと判定される毎に(ステップB7(Yes))、基準側であるy番目のURL_IDに対応するところのx番目の個別タイトルおよび本文テキストに対応付けて要表示マークが付加されると共に(ステップB10)、比較対象側であるm番目のURL_IDに対応するところのn番目の個別タイトルおよび本文テキストが前記抽出結果リストメモリ23bから削除され(ステップB11)、その時点で当該比較対象側のURL_IDを指定する変数mがインクリメントされる(ステップB12)。
【0080】
ここで、2つの異なる文字列(本文テキスト)を比較して類似度を求める具体的手法について説明する。
【0081】
2つの異なる文字列を比較して類似度を求める手法としては、レーベンシュタイン距離(2つの文字列を、文字を追加・削除・入れ替えの操作を最小回数で同一にすることができる数)を求める手法やTrigram(文字列を1文字ずつずらして3文字の並びにした時、どの程度の割合で一致する3文字があるか)を求める手法等、各種の手法が既に考えられており、本実施形態ではこれらの手法を用いる。
【0082】
そして、前記手法に従い求められた類似度に基づき前記2つの文字列(本文テキスト)が類似しているか否かを判定するための閾値は、チューニングパラメータであり、重要情報の絞り込みを強めにしたいとかその逆である等、利用者の好みに応じて調整する。
【0083】
こうして、前記ステップB5〜B13の繰り返し処理により、前記y(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準としたURL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が実行され、ステップB12においてインクリメントされた変数mの値が、ステップB13において前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数ymaxを超えたと判断されると(ステップB13(Yes))、前記変数xの値がインクリメントされて“2”にセットされる(ステップB14)。
【0084】
そして、このインクリメントされた変数xの値が前記xmaxの値、つまり前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)を超えたか否か判断される(ステップB15)。
【0085】
ここで、前記インクリメントされた変数x(=2)について前記xmaxの値を超えないと判断されると(ステップB15(No))、前記ステップB4からの処理に戻り、前記変数mの値に、再び前記変数y+1(=2)が代入される。
【0086】
そして、前記ステップB5〜B13の処理が繰り返されることで、前記y(=1)番目のURL_ID“1”に対応するところのx(=2)番目の本文テキストを基準とし、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0087】
さらに、前記ステップB4〜B15の処理が繰り返されることで、前記y(=1)番目のURL_ID“1”に対応するところの各本文テキストを順番に指定する変数xの値がインクリメントされながら、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0088】
そして、前記ステップB14においてインクリメントされた変数xの値が前記xmaxの値、つまり前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)を超えたと判断されると(ステップB15(Yes))、前記類似度判定の基準側のURL_IDを指定するための変数yの値がインクリメントされて“2”にセットされる(ステップB16)。
【0089】
そして、このインクリメントされた変数yの値が前記ymaxの値、つまり前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数を超えたか否か判断される(ステップB17)。
【0090】
ここで、前記インクリメントされた変数y(=2)について前記ymaxの値を超えないと判断されると(ステップB17(No))、前記変数xの値が“1”に初期化される(ステップB18)。
【0091】
そして、前記ステップB3からの処理に戻り、前記変数xmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているy(=2)番目のURL_ID“2”に対応するところの本文テキストの総数(m2)が代入される。
【0092】
そして、前記変数mの値に、前記変数y+1(=3)が代入される。
【0093】
これにより、ステップB5〜B13の処理が繰り返されることで、前記y(=2)番目のURL_ID“2”に対応するところのx(=1)番目の本文テキストを基準とし、URL_ID“3”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0094】
さらに、前記ステップB4〜B15の処理が繰り返されることで、前記y(=2)番目のURL_ID“2”に対応するところの各本文テキストを順番に指定する変数xの値がインクリメントされながら、URL_ID“3”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0095】
さらに、前記ステップB3〜B18の処理が繰り返されることで、前記類似度判定の基準側のURL_IDを順番に指定する変数yの値がインクリメントされながら、当該インクリメントされたy番目のURL_IDに対応するところの各本文テキストの1つずつを基準に、m(=y+1)番目からymaxまでのURL_IDに対応するところの各本文テキストを比較対象にした類似度判定処理が繰り返される。
【0096】
そしてこの後、前記ステップB16においてインクリメントされた変数yの値が前記ymaxの値、つまり前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数を超えたと判断されると(ステップB17(Yes))、前記一連の類似度判定処理が終了され、図10における表示処理(SC)へ移行される。
【0097】
これにより、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度が総当たりに順番に判定される。そして、この類似度判定に際して、類似度が規定値(閾値)より高いと判定された本文テキストについては、URL_IDが小さい方の本文テキストに対応付けて要表示マークが付加されると共に、もう一方の本文テキストが削除される。
【0098】
なお、前記抽出結果リストメモリ23bより削除されてNULLとなった本文テキストは、いかなるテキストと比較しても(NULLテキスト同士の比較も含め)類似度は0%になる。
【0099】
このため、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定するとしても、この処理が進むほど、類似度が規定値より高いと判定されてその一方が削除される本文テキストが増えるので、当該処理に伴う負荷は次第に軽くなる。
【0100】
図10は、前記重要情報取得表示処理に伴う表示処理(SC)を示すフローチャートである。
【0101】
図11は、前記重要情報取得表示処理の表示処理(SC)に伴う重要情報の表示動作例を示す図である。
【0102】
この表示処理に移行されると、先ず、前記抽出結果リストメモリ23bに記憶されている抽出結果リストにおいて、要表示マークが付加されている表示対象の項目があるか否か判断される(ステップC1)。
【0103】
ここで、前記抽出結果リスト(23b)において要表示マークの付加された表示対象の項目があると判断されると(ステップC1(Yes))、フレームバッファFBに現在描画されている表示画面データがクリアされる(ステップC2)。
【0104】
そして、前記抽出結果リスト(23b)において要表示マークが付加された項目に記憶されている個別タイトル(リンクテキスト)が読み出され(ステップC3)、前記フレームバッファFBに表示画面データとして描画される(ステップC4)。
【0105】
これにより、例えば図11(A)に示すように、情報端末装置(携帯電話)20の表示部27には、前記抽出結果リスト(23b)において要表示マークが付加された項目の個別タイトル(リンクテキスト)を一覧にした重要情報一覧ウインドウWが表示される。
【0106】
そして、この重要情報一覧ウインドウWにおいて、例えば図11(B)に示すように、ユーザ操作に応じてユーザ所望の個別タイトル「首相、内閣支持率に注文」にフォーカスfを合わせると、当該フォーカスfを合わせた個別タイトルに対応付けられて前記抽出結果リスト(23b)に記憶されている本文テキスト「◇◇政権発足を受け、○○新聞社が行った…」が読み出され、ポップアップウインドウWpとして表示されるようになる。
【0107】
なお、前記図7における表示対象テキスト取得処理(ステップSA)、前記図9における類似度判定処理(ステップSB)、前記図10における表示処理(ステップSC)は、予め設定された一定時間T1毎に繰り返し実行され(ステップSD,SE→SA)、常に最新の情報に更新される。
【0108】
したがって、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、URL登録リストメモリ23aに予め登録したユーザ所望の各情報サイトのURLにアクセスされ、当該各URLに対応するWebページに記述されている個別タイトル(リンクテキスト)が抽出される。またこれに伴い各個別タイトル(リンクテキスト)のリンク先URLにアクセスされ、当該各リンク先URLに対応するWebページに記述された本文テキストが抽出される。そして、前記各登録URLのIDに対応付けて前記抽出された個別タイトル(リンクテキスト)、リンク先URL、本文テキストが抽出結果リストメモリ23bに記憶される。すると、前記抽出結果リスト(23b)に記憶された各URL_IDの相互間で本文テキストの類似度が求められ、当該類似度の高い本文テキストに対応する個別タイトルだけ、重要情報一覧ウインドウWにして表示部27に表示される。そしてウインドウ表示された所望の個別タイトルにフォーカスfを合わせると、当該所望の個別タイトルに対応する本文テキストが読み出されてポップアップウインドウWpにして表示される。
【0109】
このため、ユーザが予め登録した複数の情報サイトにおいて同時期に掲載されるような、ユーザにとって重要である確率の高い情報のみを抽出して表示させることができる。
【0110】
また、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、前記抽出結果リストメモリ23bにおいて、類似度が高いと判定された一方の本文テキストが要表示マークを付加した表示対象に設定され、もう一方の本文テキストは削除される。このため、類似度の高い本文テキストが重複して表示対象に設定されることがない。
【0111】
さらに、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、前記登録URLに対応するWebページからの個別タイトル(リンクテキスト)の抽出処理、抽出された個別タイトルのリンク先URLに対応するWebページからの本文テキストの抽出処理、各登録URL相互間での個別タイトルに対応するリンク先本文テキストの類似度判定処理、類似度が高いと判定された本文テキストとその個別タイトルを表示対象に設定する処理は、一定時間T1毎に繰り返し実行される。このため、ユーザにとって重要である確率の高い情報のみを、常に最新の状態で抽出して表示させることができる。
【0112】
なお、前記実施形態において記載した情報表示装置(情報端末装置20)による各処理の手法、すなわち、図6のフローチャートに示す重要情報取得表示処理、図7のフローチャートに示す同重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)、図9のフローチャートに示す同重要情報取得表示処理に伴う類似度判定処理(SB)、図10のフローチャートに示す同重要情報取得表示処理に伴う表示処理(SC)などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記憶媒体(記録媒体)24に格納して配布することができる。そして、情報端末装置20のコンピュータ(CPU21)は、この外部記憶媒体(記録媒体)24に記憶されたプログラムを記憶装置(23)に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した重要情報取得表示機能を実現し、前述した手法による同様の処理を実行することができる。
【0113】
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(N)上を伝送させることができ、この通信ネットワーク(N)に接続されたコンピュータ装置(プログラムサーバ)から前記のプログラムデータを取り込んで記憶装置(23)に記憶させ、前述した重要情報取得表示機能を実現することもできる。
【0114】
なお、本願発明は、前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が異なる形態にして組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
【符号の説明】
【0115】
10A,10B,…サーバ装置
20 …情報端末装置
21 …CPU
22 …バス
23 …記憶部
23a…URL登録リストメモリ
23b…抽出結果リストメモリ
FB …フレームバッファ
24 …外部記憶媒体
25 …記憶媒体読み書き部
26 …入力部
27 …表示部
28 …送受信部
N …通信ネットワーク
P …Webページ
Phtm…WebページのHTMLソース
LP …リンク先Webページ
Ltxt…リンクテキスト
Mtxt…見出しテキスト
Htxt…本文テキスト
W …重要情報一覧ウインドウ
f …フォーカス
Wp …ポップアップウインドウ
【技術分野】
【0001】
本発明は、Webサイトにある所望の情報を閲覧するための情報表示装置およびプログラムに関する。
【背景技術】
【0002】
従来から、LAN(Local Area Network)やWAN(Wide Area Network)、インターネットなど、通信ネットワークにおけるサーバ・クライアント・システムでは、クライアント装置が備えるWebブラウザにより、ネットワーク上の各Webサイトのサーバ装置が生成保存している種々の情報(Webページ)を取得表示して閲覧することが行われる。
【0003】
特に、インターネット上には、膨大な量のWebサイトが存在し、信頼できる情報か否かを問わず、ありとあらゆる情報が溢れているため、ユーザが本当に必要とする情報を得るのはそれほど簡単ではない。
【0004】
例えば、ユーザが知りたい情報に関してそのキーワードを入力すると、当該キーワードを含む情報を記述している多数のWebページの見出しがリンクテキストとして一覧表示される。ユーザはこの一覧表示されたページ見出しを次々に指定して該当するWebページを開いて表示させ、本当に必要とする情報が含まれるか否か確認している。
【0005】
そこで、各種WebサイトのWebページから当該ページに含まれるリンクを抽出し、この抽出されたリンク先コンテンツの紹介文を自動生成するリンク集作成装置が考えられている(例えば、特許文献1参照。)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2003−016082号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
前記従来のリンク集作成装置によれば、個々のリンク先を一々指定しながら開く必要なく、その内容の概要を知ることができる。
【0008】
しかしながら、このリンク集から得られる情報とは、ユーザにとって必要となる確率の高い情報であるか否かとは無関係な、Webページ上にある各リンクのリンク先に何があるかを紹介するだけのものであり、結局は様々なリンク先の紹介文を次々に見ていく必要がある。
【0009】
本発明は、このような課題に鑑みなされたもので、ネットワーク上に存在する多数の情報サイトにおいて、ユーザにとって必要となる確率の高い情報を自動的に抽出して表示することが可能になる情報表示装置およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0010】
請求項1に記載の情報表示装置は、情報元として利用する情報サイトのURLを予め記憶するURL記憶手段と、このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段と、この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段と、この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段と、この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段と、を備えたことを特徴としている。
【0011】
請求項2に記載の情報表示装置は、前記請求項1に記載の情報表示装置において、前記見出し情報抽出手段により前記記憶されたURLで指定される情報サイトのページから抽出された見出し情報に対応して前記本文抽出手段により抽出された本文を、該当する前記情報サイトの識別情報に対応付けて記憶する抽出情報記憶手段を備え、前記表示対象設定手段は、前記抽出情報記憶手段により記憶された各本文の類似度を異なる情報サイト相互の本文同士で総当たりに判定する類似度判定手段を有し、前記抽出情報記憶手段により記憶された各本文について、前記類似度判定手段により類似度が予め設定された値よりも高いと判定された一方の本文を表示対象に設定し、もう一方の本文を削除する、ことを特徴としている。
【0012】
請求項3に記載の情報表示装置は、前記請求項1または請求項2に記載の情報表示装置において、前記見出し情報抽出手段による見出し情報の抽出処理と、前記本文抽出手段による本文の抽出処理と、前記表示対象設定手段による表示対象の設定処理と、前記表示制御手段による本文の表示処理とを、予め設定された一定時間毎に繰り返し実行する繰り返し制御手段を備えたことを特徴としている。
【0013】
請求項4に記載のプログラムは、電子機器のコンピュータを制御するためのプログラムであって、前記コンピュータを、情報元として利用する情報サイトのURLを予めメモリに記憶させるURL記憶手段、このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段、この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段、この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段、この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段、として機能させることを特徴としている。
【発明の効果】
【0014】
本発明によれば、ネットワーク上に存在する多数の情報サイトにおいて、ユーザにとって必要となる確率の高い情報を自動的に抽出して表示することが可能になる情報表示装置およびプログラムを提供できる。
【図面の簡単な説明】
【0015】
【図1】本発明の情報表示装置の実施形態に係る情報端末装置20を使用したサーバ・クライアント・システムの構成を示すブロック図。
【図2】前記情報端末装置20のURL登録リストメモリ23aに記憶されるURL登録リストを示す図。
【図3】前記情報端末装置20の抽出結果リストメモリ23bに記憶されるWeb情報の抽出結果リストを示す図。
【図4】前記情報端末装置20において例えばサーバ装置(情報サイトA)10A[http://www.sight.a.co.jp/]から取得されたWebページPの画面表示例を示す図。
【図5】前記図4におけるWebページPのリンクテキストLtxt1部分を記述したHTMLソースPhtmを示す図。
【図6】前記情報端末装置20による重要情報取得表示処理の概要を示すフローチャート。
【図7】前記重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)を示すフローチャート。
【図8】前記図5に一部分を示したHTMLソースPhtmにより記述されたリンク先WebページLPの画面表示例を示す図。
【図9】前記重要情報取得表示処理に伴う類似度判定処理(SB)を示すフローチャート。
【図10】前記重要情報取得表示処理に伴う表示処理(SC)を示すフローチャート。
【図11】前記重要情報取得表示処理の表示処理(SC)に伴う重要情報の表示動作例を示す図。
【発明を実施するための形態】
【0016】
以下図面により本発明の実施の形態について説明する。
【0017】
図1は、本発明の情報表示装置の実施形態に係る情報端末装置20を使用したサーバ・クライアント・システムの構成を示すブロック図である。
【0018】
このサーバ・クライアント・システムは、インターネット、WAN、LANなどからなるネットワークN上に接続された複数のサーバ装置(情報サイトA)10A,(情報サイトB)10B,(情報サイトC)10C,…および複数の情報端末装置(クライアント装置)20,…を備える。
【0019】
サーバ装置(情報サイトA)10A,(情報サイトB)10B,(情報サイトC)10C,…は、各情報サイトに応じたWebコンテンツ生成処理プログラム,登録ユーザ管理処理プログラム,Webページ配信処理プログラムなど、当該サーバ装置10A,10B,10C,…の本体操作により機能する複数のアプリケーションプログラムを有し、例えば情報端末装置20からの指定の情報サイトへのアクセス要求に応じて当該要求された情報サイトにて生成したWebページを同情報端末装置20へ配信する。
【0020】
情報端末装置20は、携帯電話,PDA(Personal Digital Assistant),PCなどからなり、インターネット接続処理プログラム、Webブラウザプログラム,Web印刷プログラムなど、当該情報端末装置20の本体操作により機能する複数のアプリケーションプログラムを有する。そして、例えば所望の情報サイトA[http://www.sight_a.co.jp/]のサーバ装置10AにアクセスしてそのWebページを取得し、当該WebページのHTML(Hyper Text Markup Language)のタグ要素から成るツリー構造を解析して画面展開し表示したり印刷したりする。
【0021】
情報端末装置20の電子回路は、コンピュータとしてのCPU21を備え、このCPU21には、バス22を介してROMやRAMからなる記憶部23、メモリカードや光ディスクなどの外部記憶媒体24にデータを読み書きする記憶媒体読み書き部25が接続される。
【0022】
また、CPU21には、バス22を介してキーボード,マウスなどの入力部26、LCDからなる表示部27、前記サーバ装置10A,10B,10C,…との間でデータを送受信する送受信部28が接続される。
【0023】
CPU21は、記憶部23に予め記憶されているシステムプログラムおよび種々のアプリケーションプログラムに従って回路各部の動作を制御するもので、入力部26からの入力信号に応じて前記種々のアプリケーションプログラムが起動され実行される。
【0024】
前記サーバ装置10A,10B,10C,…をインターネット(N)上のWebサイト、前記情報端末装置20,…を前記Webサイトにアクセス可能なユーザ端末とした場合、ユーザ端末(20)からWebサイト(10A)へのアクセス要求に応じて、当該Webサイト(10A)においてHTMLにより記述生成されたWebページがアクセス要求元のユーザ端末(20)へ配信され、そのWebブラウザプログラムにより表示部27に展開されて表示される。
【0025】
また、記憶部23には、URL登録リストメモリ23a、および抽出結果リストメモリ23bが備えられる。
【0026】
図2は、前記情報端末装置20のURL登録リストメモリ23aに記憶されるURL登録リストを示す図である。
【0027】
このURL登録リストメモリ23aには、ユーザ操作に応じて、例えば当該ユーザが日頃からアクセスする頻度の比較的高い各サーバ装置(情報サイトA,B,C,…)10A,10b,10C,…のURLが、そのURL_IDに対応付けられて記憶される。
【0028】
図3は、前記情報端末装置20の抽出結果リストメモリ23bに記憶されるWeb情報の抽出結果リストを示す図である。
【0029】
この抽出結果リストメモリ23bには、前記URL登録リストメモリ23aに記憶された各URL_ID毎のURLに対応するWebページから抽出されたタイトル(リンクテキスト)、当該タイトル(リンクテキスト)のリンク先URL、このリンク先URLに対応するWebページから抽出された本文テキストが、該当するURL_IDに関係付けた本文IDに対応付けられて記憶される。
【0030】
この抽出結果リスト(23b)において、各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定する。そして、類似度が規定値より高いと判定された本文テキストについては、その判定に伴い、URL_IDが小さい方の本文テキストに対応付けて要表示マークを付加し、もう一方の本文テキストを削除する。
【0031】
つまり、この抽出結果リスト(23b)において、要表示マークが付加されたところの本文テキストは、ユーザが日頃からアクセスする頻度の比較的高い各サーバ装置(情報サイトA,B,C,…)10A,10b,10C,…のWebページから抽出された全てのタイトル(テキストテキスト)に対応するリンク先の本文テキストの中で、少なくとも2つの情報サイトのWebページに載っているタイトルに対応する類似と判定された本文テキストの一方である。このため、前記要表示マークが付加されたところの本文テキストは、ユーザが日頃からアクセスする頻度の比較的高い各情報サイトA,B,C,…から得られる情報の中でも重要度が高い情報になる。
【0032】
図4は、前記情報端末装置20において例えばサーバ装置(情報サイトA)10A[http://www.sight.a.co.jp/]から取得されたWebページPの画面表示例を示す図である。
【0033】
図5は、前記図4におけるWebページPのリンクテキストLtxt1部分を記述したHTMLソースPhtmを示す図である。
【0034】
図4に示すように、情報端末装置20の表示部27に表示させたWebページPはハイパーテキストであり、メインタイトルT「今日の速報ニュース」に属する5項目の個別タイトルが何れもリンクテキストLtxt1〜Ltxt5に設定されている。そして、当該各リンクテキストLtxt1〜Ltxt5は、図5にその一部を示すHTMLソースPhtmにおいて、何れも“A”で括られるタグ要素に記述され、リンク先WebページのURLが対応付けられている。
【0035】
例えば表示部27に表示されたWebページPにおいて、メインタイトルTに属する1番目の個別タイトルに対応するリンクテキスト「首相、内閣支持率に注文」Ltxt1にフォーカスすると、当該リンクテキストLtxt1を記述したHTMLソースPhtmから、破線aで囲んで示すように、リンク先WebページのURL[http://www.sight_b.co.jp/news002.html]が取得される。
【0036】
このように、情報端末装置20のWebブラウザプログラムは、その基本機能として、ユーザ指定のWebサイトのサーバ装置10A,10B,10C,…へのアクセスに伴い、そのWebページを取得し、当該WebページのHTMLのタグから成るツリー構造を解析して、記憶部23内のフレームバッファFBに画面展開し表示する機能を有する。
【0037】
また、この情報端末装置20は、ユーザ操作に応じてアクセス要求されたWebサイトのサーバ装置からWebページPを取得して表示する機能とは別に、一定時間T1毎に、前記URL登録リストメモリ23a(図2参照)に登録されている各URLのサーバ装置へ自動でアクセスし、各サーバ装置が提供する全てのWebページP…内の個別タイトルであるリンクテキストLtxt1〜Ltxtmを抽出する機能、抽出された各リンクテキストLtxt1〜Ltxtmに対応するリンク先URLを取得する機能、取得された各リンク先URLにアクセスしてその本文テキストを抽出する機能、そして前記登録された各URLのID毎の個別タイトル(リンクテキスト)、リンク先URL、本文テキストを、該当するURL_IDに関係付けた本文IDと対応付けて前記抽出結果リストメモリ23b(図3参照)に登録する機能を有する(図6のステップSA[表示対象テキスト取得処理])。
【0038】
そして、この情報端末装置20は、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定する機能、この類似度判定に際して、類似度が規定値より高いと判定された本文テキストについては、URL_IDが小さい方の本文テキストに対応付けて要表示マークを付加すると共に、もう一方の本文テキストを削除する機能を有する(図6のステップSB[類似度判定処理])。
【0039】
さらに、この情報端末装置20は、前記抽出結果リストメモリ23bに要表示マークの付加された本文テキストが存在する場合に、当該要表示の本文テキストが対応付けられた個別タイトル(リンクテキスト)を表示部27にウインドウ表示する機能を有する(図6のステップSC[表示処理])。
【0040】
このような予め登録された各Webサイトからの重要情報取得表示機能は、例えば前記Webブラウザプログラムにプラグインあるいはアドオンするプログラムにより実現される。
【0041】
次に、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能について説明する。
【0042】
図6は、前記情報端末装置20による重要情報取得表示処理の概要を示すフローチャートである。
【0043】
この重要情報取得表示処理では、前述にその機能の概要を説明した表示対象テキスト取得処理(ステップSA)、類似度判定処理(ステップSB)、表示処理(ステップSC)が、予め設定された一定時間T1毎に繰り返し実行される(ステップSD,SE→SA)。
【0044】
この重要情報取得表示処理により、ユーザが日頃からアクセスする頻度の比較的高い各情報サイトA,B,C,…から得られる情報の中でも重要度が高い情報の個別タイトル(リンクテキスト)を常時ウインドウ表示できるようになる。
【0045】
以下にその詳細な処理について説明する。
【0046】
図7は、前記重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)を示すフローチャートである。
【0047】
先ず、記憶部23において管理される変数xの値が、前記URL登録リストメモリ23a(図2参照)に登録されたURLの数“n”に初期化され、また同記憶部23において管理する変数yの値が、前記登録されたn個のURLの先頭を指定する値“1”に初期化される(ステップA1)。
【0048】
すると、前記URL登録リストメモリ23aに登録されたy(=1)番目のURLに従ったサーバ装置(例えば情報サイトA)10Aへアクセスされ、当該情報サイトAのWebページPが取得される。そして、このWebページPに記述されている各個別タイトルのリンクテキストLtxt1〜Ltxtmが抽出され、前記抽出結果リストメモリ23b(図3参照)に前記URLのID(=1)に対応付けられて記憶される(ステップA2)。
【0049】
なお、前記サーバ装置から取得されたWebページPに記述されている各個別タイトルのリンクテキストLtxt1〜Ltxtmを抽出する処理は、例えば次のように実行される。
【0050】
先ず、WebページPのHTMLのタグからなるツリー構造が解析され、当該WebページP内の「カラム」が抽出される。また前記HTMLの構造解析から、例えば前記「カラム」毎に、周囲の文字列と比較して大きい文字サイズや目立つ文字フォントである「強い」文字列が抽出されてリストアップされる。すると、リストアップされた「強い」文字列同士の位置関係,強弱,個数などから各個別タイトルのリンクテキストLtxt1〜Ltxtmが認定抽出される。
【0051】
通常、例えばニュース情報サイトに掲載されるトップニュースなどは、大きめのフォントや太字で個別タイトルが表示されることが多い。従って、前記処理によりタイトル抽出することで、トップニュース等の重要情報についての個別タイトルを抽出することが可能となる。
【0052】
すると、記憶部23において管理される変数nが、前記ステップA2においてy番目(=1)のURLに対応するWebページPから抽出された各個別タイトル(リンクテキストLtxt1〜Ltxtm)の数“m”にセットされる(ステップA3)。
【0053】
ここで、前記変数n=0ではない(ステップA4(No))、つまり前記y番目(=1)のURLに対応するWebページPから少なくとも1つ以上の個別タイトル(リンクテキスト)が抽出されたと判断されると、この抽出されたn(=m)個の個別タイトル(リンクテキスト)の各リンク先URLに従い当該各リンク先のWebページLP…(図8参照)が取得される。そして、この各リンク先のWebページLP…からその本文テキストHtxt…が抽出され、前記リンク先URLと共に、前記リンク元のURL_IDおよび当該リンク元のURL_IDに関係付けた本文IDに対応付けられて、前記抽出結果リストメモリ23b(図3参照)に登録される(ステップA5,A6→A4)。
【0054】
なお、前記リンク先のWebページLPからその本文テキストHtxtを抽出する処理は、例えば次のように実行される。
【0055】
図8は、前記図5に一部分を示したHTMLソースPhtmにより記述されたリンク先WebページLPの画面表示例を示す図である。
【0056】
リンク先WebページLPのHTMLソースLPhtmには、前記リンク元WebページPにて抽出した個別タイトルのリンクテキスト「首相、内閣支持率に注文」Ltxt1と同一(あるいは類似)の見出しテキスト「首相、内閣支持率に注文」Mtxtを含んでいる“H1”で括られるタグ要素が存在する。
【0057】
そして、前記見出しテキスト「首相、内閣支持率に注文」Mtxtに対応する本文テキストHtxtは、当該見出しテキスト「首相、内閣支持率に注文」Mtxtを含むタグ要素“H1”以降のタグ要素“P”において、幾つもの読点を有する比較的長い文字列として記述されている。
【0058】
このため、リンク先WebページLPのHTMLソースLPhtmから、前記リンク元WbページPから抽出した個別タイトルのリンクテキストLtxtに対応する本文テキストHtxtを抽出するには、当該リンクテキストLtxtと同一(あるいは類似)の見出しテキストMtxtを含んでいるタグ要素“H1”を検索し、これ以降のタグ要素“P”において、読点を設定個数以上含み且つ設定数以上の文字数からなるテキストを抽出すればよい。
【0059】
こうして、前記ステップA4〜A6の処理に従いy番目(=1)のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)に対応するリンク先WebページLP1〜LPmの本文テキストHtxt1〜Htxtmが抽出され、例えば図3で示したように、該当するURL_ID“1”の各本文ID“1−1”〜“1−m1”と対応付けられて抽出結果リストメモリ23bに登録されると、変数yの値がインクリメントされて“2”にセットされ(ステップA7)、前記ステップA2以降の処理が繰り返される(ステップA8(No)→A2)。
【0060】
すなわち、次のステップA2の処理により、前記URL登録リストメモリ23aに登録されたy(=2)番目のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)が抽出される。そして、次のステップA3〜A6の処理により、前記抽出されたy番目(=2)のURLに対応するWebページPの各個別タイトル(リンクテキストLtxt1〜Ltxtm)に対応するリンク先WebページLP1〜LPmの本文テキストHtxt1〜Htxtmが抽出され、前記図3で示したように、該当するURL_ID“2”の各本文ID“2−1”〜“2−m2”と対応付けられて抽出結果リストメモリ23bに登録される。
【0061】
さらに続けて、前記変数yの値が順次インクリメントされながら、前記URL登録リストメモリ23aに登録されたn(=x)個全てのURLに従い、前記ステップA2〜A6の処理が繰り返されて抽出結果リスト(23b)が生成された後、ステップA7にてインクリメントされた変数yの値が変数x(=n)の値を上回ったと判断されると(ステップA8(Yes))、前記一連の表示対象テキスト取得処理が終了され、図9における類似度判定処理(SB)へ移行される。
【0062】
図9は、前記重要情報取得表示処理に伴う類似度判定処理(SB)を示すフローチャートである。
【0063】
この類似度判定処理に移行されると、先ず、記憶部23にて管理される変数xおよび変数yの値が何れも“1”に初期化される(ステップB1)。変数xは、前記抽出結果リストメモリ23bに登録されたURL_ID毎の各個別タイトル(リンクテキスト)に対応する本文テキストを順番にカウントするための値であり、変数yは、前記URL登録リストメモリ23aに登録されたURL_IDを順番にカウントするための値である。
【0064】
また、記憶部23にて管理される変数ymaxの値に、前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数が代入される(ステップB2)。
【0065】
また、記憶部23にて管理される変数xmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)が代入される(ステップB3)。
【0066】
さらに、記憶部23にて管理される変数mの値に、前記変数y+1(=2)が代入される(ステップB4)。
【0067】
そして、記憶部23にて管理される変数nの値が“1”に初期化されると共に、変数nmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているm(=2)番目のURL_ID“2”に対応するところの本文テキストの総数(m2)が代入される(ステップB5)。
【0068】
すると、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=1)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。
【0069】
そして、前記2つの本文テキストの類似度が規定値(閾値)以下であると判断されると(ステップB7(No))、前記m(=2)番目のURL_ID“2”に対応した本文テキストを指定するための変数nの値がインクリメントされて“2”にセットされる(ステップB8)。
【0070】
すると、前記変数n(=2)は、前記m(=2)番目のURL_ID“2”に対応した本文テキストの総数nmax(=m2)を超えたか否か判断され(ステップB9)、未だ超えないと判断されると(ステップB9(No))、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。
【0071】
すなわち、前記ステップB5〜B9の処理が繰り返し実行されることで、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、m(=2)番目のURL_ID“2”に対応するところの各本文テキスト(n(=1)〜nmax(=m2))を比較対象にその類似度が順次求められ、その都度、求められた類似度が規定値(閾値)より高いか否か判断される。
【0072】
そして、例えば前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の本文テキストとの類似度が求められた際に(ステップB6)、当該類似度が規定値(閾値)より高いと判定された場合には(ステップB7(Yes))、前者y(=1)番目のURL_ID“1”に対応するところのx(=1)番目の個別タイトルおよび本文テキストに対応付けて要表示マークが付加され、表示対象に設定される(ステップB10)。
【0073】
またこれに伴い、後者m(=2)番目のURL_ID“2”に対応するところのn(=2)番目の個別タイトルおよび本文テキストが前記抽出結果リストメモリ23bから削除される(ステップB11)。
【0074】
すると、前記変数mの値がインクリメントされて“3”にセットされ(ステップB12)、当該変数m(=3)は、前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数ymaxを超えたか否か判断される(ステップB13)。
【0075】
ここで、前記変数mはymaxを未だ超えないと判断されると(ステップB13(No))、変数nの値が“1”に初期化されると共に、変数nmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているm(=3)番目のURL_ID“3”に対応するところの本文テキストの総数(m3)が代入される(ステップB5)。
【0076】
そして、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストと、m(=3)番目のURL_ID“3”に対応するところのn(=1)番目の本文テキストとの類似度が求められ(ステップB6)、当該類似度が予め設定された規定値(閾値)より高いか否か判断される(ステップB7)。
【0077】
つまりこれにより、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、m(=3)番目のURL_ID“3”に対応するところの各本文テキスト(n(=1)〜nmax(=m3))を比較対象にその類似度が順次求められ、その都度、前記同様に求められた類似度が規定値(閾値)より高いか否か判断される(ステップB6〜B9)。
【0078】
この後、前記ステップB5〜B13の処理が繰り返されることで、前記抽出結果リストメモリ23bに登録されているy(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準とし、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0079】
そして、類似度が規定値(閾値)より高いと判定される毎に(ステップB7(Yes))、基準側であるy番目のURL_IDに対応するところのx番目の個別タイトルおよび本文テキストに対応付けて要表示マークが付加されると共に(ステップB10)、比較対象側であるm番目のURL_IDに対応するところのn番目の個別タイトルおよび本文テキストが前記抽出結果リストメモリ23bから削除され(ステップB11)、その時点で当該比較対象側のURL_IDを指定する変数mがインクリメントされる(ステップB12)。
【0080】
ここで、2つの異なる文字列(本文テキスト)を比較して類似度を求める具体的手法について説明する。
【0081】
2つの異なる文字列を比較して類似度を求める手法としては、レーベンシュタイン距離(2つの文字列を、文字を追加・削除・入れ替えの操作を最小回数で同一にすることができる数)を求める手法やTrigram(文字列を1文字ずつずらして3文字の並びにした時、どの程度の割合で一致する3文字があるか)を求める手法等、各種の手法が既に考えられており、本実施形態ではこれらの手法を用いる。
【0082】
そして、前記手法に従い求められた類似度に基づき前記2つの文字列(本文テキスト)が類似しているか否かを判定するための閾値は、チューニングパラメータであり、重要情報の絞り込みを強めにしたいとかその逆である等、利用者の好みに応じて調整する。
【0083】
こうして、前記ステップB5〜B13の繰り返し処理により、前記y(=1)番目のURL_ID“1”に対応するところのx(=1)番目の本文テキストを基準としたURL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が実行され、ステップB12においてインクリメントされた変数mの値が、ステップB13において前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数ymaxを超えたと判断されると(ステップB13(Yes))、前記変数xの値がインクリメントされて“2”にセットされる(ステップB14)。
【0084】
そして、このインクリメントされた変数xの値が前記xmaxの値、つまり前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)を超えたか否か判断される(ステップB15)。
【0085】
ここで、前記インクリメントされた変数x(=2)について前記xmaxの値を超えないと判断されると(ステップB15(No))、前記ステップB4からの処理に戻り、前記変数mの値に、再び前記変数y+1(=2)が代入される。
【0086】
そして、前記ステップB5〜B13の処理が繰り返されることで、前記y(=1)番目のURL_ID“1”に対応するところのx(=2)番目の本文テキストを基準とし、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0087】
さらに、前記ステップB4〜B15の処理が繰り返されることで、前記y(=1)番目のURL_ID“1”に対応するところの各本文テキストを順番に指定する変数xの値がインクリメントされながら、URL_ID“2”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0088】
そして、前記ステップB14においてインクリメントされた変数xの値が前記xmaxの値、つまり前記抽出結果リストメモリ23b(図3参照)に登録されているy(=1)番目のURL_ID“1”に対応するところの本文テキストの総数(m1)を超えたと判断されると(ステップB15(Yes))、前記類似度判定の基準側のURL_IDを指定するための変数yの値がインクリメントされて“2”にセットされる(ステップB16)。
【0089】
そして、このインクリメントされた変数yの値が前記ymaxの値、つまり前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数を超えたか否か判断される(ステップB17)。
【0090】
ここで、前記インクリメントされた変数y(=2)について前記ymaxの値を超えないと判断されると(ステップB17(No))、前記変数xの値が“1”に初期化される(ステップB18)。
【0091】
そして、前記ステップB3からの処理に戻り、前記変数xmaxの値に、前記抽出結果リストメモリ23b(図3参照)に登録されているy(=2)番目のURL_ID“2”に対応するところの本文テキストの総数(m2)が代入される。
【0092】
そして、前記変数mの値に、前記変数y+1(=3)が代入される。
【0093】
これにより、ステップB5〜B13の処理が繰り返されることで、前記y(=2)番目のURL_ID“2”に対応するところのx(=1)番目の本文テキストを基準とし、URL_ID“3”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0094】
さらに、前記ステップB4〜B15の処理が繰り返されることで、前記y(=2)番目のURL_ID“2”に対応するところの各本文テキストを順番に指定する変数xの値がインクリメントされながら、URL_ID“3”〜URL_ID“n”までの全ての本文テキストを比較対象にした類似度判定処理が繰り返される。
【0095】
さらに、前記ステップB3〜B18の処理が繰り返されることで、前記類似度判定の基準側のURL_IDを順番に指定する変数yの値がインクリメントされながら、当該インクリメントされたy番目のURL_IDに対応するところの各本文テキストの1つずつを基準に、m(=y+1)番目からymaxまでのURL_IDに対応するところの各本文テキストを比較対象にした類似度判定処理が繰り返される。
【0096】
そしてこの後、前記ステップB16においてインクリメントされた変数yの値が前記ymaxの値、つまり前記URL登録リストメモリ23a(図2参照)に登録されたURLの総数を超えたと判断されると(ステップB17(Yes))、前記一連の類似度判定処理が終了され、図10における表示処理(SC)へ移行される。
【0097】
これにより、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度が総当たりに順番に判定される。そして、この類似度判定に際して、類似度が規定値(閾値)より高いと判定された本文テキストについては、URL_IDが小さい方の本文テキストに対応付けて要表示マークが付加されると共に、もう一方の本文テキストが削除される。
【0098】
なお、前記抽出結果リストメモリ23bより削除されてNULLとなった本文テキストは、いかなるテキストと比較しても(NULLテキスト同士の比較も含め)類似度は0%になる。
【0099】
このため、前記抽出結果リストメモリ23bに登録された各URL_IDの相互間で当該URL_IDが小さい方の本文テキストを基準に他のURL_IDに対応付けられた本文テキストとの類似度を総当たりに順番に判定するとしても、この処理が進むほど、類似度が規定値より高いと判定されてその一方が削除される本文テキストが増えるので、当該処理に伴う負荷は次第に軽くなる。
【0100】
図10は、前記重要情報取得表示処理に伴う表示処理(SC)を示すフローチャートである。
【0101】
図11は、前記重要情報取得表示処理の表示処理(SC)に伴う重要情報の表示動作例を示す図である。
【0102】
この表示処理に移行されると、先ず、前記抽出結果リストメモリ23bに記憶されている抽出結果リストにおいて、要表示マークが付加されている表示対象の項目があるか否か判断される(ステップC1)。
【0103】
ここで、前記抽出結果リスト(23b)において要表示マークの付加された表示対象の項目があると判断されると(ステップC1(Yes))、フレームバッファFBに現在描画されている表示画面データがクリアされる(ステップC2)。
【0104】
そして、前記抽出結果リスト(23b)において要表示マークが付加された項目に記憶されている個別タイトル(リンクテキスト)が読み出され(ステップC3)、前記フレームバッファFBに表示画面データとして描画される(ステップC4)。
【0105】
これにより、例えば図11(A)に示すように、情報端末装置(携帯電話)20の表示部27には、前記抽出結果リスト(23b)において要表示マークが付加された項目の個別タイトル(リンクテキスト)を一覧にした重要情報一覧ウインドウWが表示される。
【0106】
そして、この重要情報一覧ウインドウWにおいて、例えば図11(B)に示すように、ユーザ操作に応じてユーザ所望の個別タイトル「首相、内閣支持率に注文」にフォーカスfを合わせると、当該フォーカスfを合わせた個別タイトルに対応付けられて前記抽出結果リスト(23b)に記憶されている本文テキスト「◇◇政権発足を受け、○○新聞社が行った…」が読み出され、ポップアップウインドウWpとして表示されるようになる。
【0107】
なお、前記図7における表示対象テキスト取得処理(ステップSA)、前記図9における類似度判定処理(ステップSB)、前記図10における表示処理(ステップSC)は、予め設定された一定時間T1毎に繰り返し実行され(ステップSD,SE→SA)、常に最新の情報に更新される。
【0108】
したがって、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、URL登録リストメモリ23aに予め登録したユーザ所望の各情報サイトのURLにアクセスされ、当該各URLに対応するWebページに記述されている個別タイトル(リンクテキスト)が抽出される。またこれに伴い各個別タイトル(リンクテキスト)のリンク先URLにアクセスされ、当該各リンク先URLに対応するWebページに記述された本文テキストが抽出される。そして、前記各登録URLのIDに対応付けて前記抽出された個別タイトル(リンクテキスト)、リンク先URL、本文テキストが抽出結果リストメモリ23bに記憶される。すると、前記抽出結果リスト(23b)に記憶された各URL_IDの相互間で本文テキストの類似度が求められ、当該類似度の高い本文テキストに対応する個別タイトルだけ、重要情報一覧ウインドウWにして表示部27に表示される。そしてウインドウ表示された所望の個別タイトルにフォーカスfを合わせると、当該所望の個別タイトルに対応する本文テキストが読み出されてポップアップウインドウWpにして表示される。
【0109】
このため、ユーザが予め登録した複数の情報サイトにおいて同時期に掲載されるような、ユーザにとって重要である確率の高い情報のみを抽出して表示させることができる。
【0110】
また、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、前記抽出結果リストメモリ23bにおいて、類似度が高いと判定された一方の本文テキストが要表示マークを付加した表示対象に設定され、もう一方の本文テキストは削除される。このため、類似度の高い本文テキストが重複して表示対象に設定されることがない。
【0111】
さらに、前記構成のサーバ・クライアント・システムの情報端末装置20による重要情報取得表示機能によれば、前記登録URLに対応するWebページからの個別タイトル(リンクテキスト)の抽出処理、抽出された個別タイトルのリンク先URLに対応するWebページからの本文テキストの抽出処理、各登録URL相互間での個別タイトルに対応するリンク先本文テキストの類似度判定処理、類似度が高いと判定された本文テキストとその個別タイトルを表示対象に設定する処理は、一定時間T1毎に繰り返し実行される。このため、ユーザにとって重要である確率の高い情報のみを、常に最新の状態で抽出して表示させることができる。
【0112】
なお、前記実施形態において記載した情報表示装置(情報端末装置20)による各処理の手法、すなわち、図6のフローチャートに示す重要情報取得表示処理、図7のフローチャートに示す同重要情報取得表示処理に伴う表示対象テキスト取得処理(SA)、図9のフローチャートに示す同重要情報取得表示処理に伴う類似度判定処理(SB)、図10のフローチャートに示す同重要情報取得表示処理に伴う表示処理(SC)などの各手法は、何れもコンピュータに実行させることができるプログラムとして、メモリカード(ROMカード、RAMカード等)、磁気ディスク(フロッピディスク、ハードディスク等)、光ディスク(CD−ROM、DVD等)、半導体メモリ等の外部記憶媒体(記録媒体)24に格納して配布することができる。そして、情報端末装置20のコンピュータ(CPU21)は、この外部記憶媒体(記録媒体)24に記憶されたプログラムを記憶装置(23)に読み込み、この読み込んだプログラムによって動作が制御されることにより、前記実施形態において説明した重要情報取得表示機能を実現し、前述した手法による同様の処理を実行することができる。
【0113】
また、前記各手法を実現するためのプログラムのデータは、プログラムコードの形態として通信ネットワーク(N)上を伝送させることができ、この通信ネットワーク(N)に接続されたコンピュータ装置(プログラムサーバ)から前記のプログラムデータを取り込んで記憶装置(23)に記憶させ、前述した重要情報取得表示機能を実現することもできる。
【0114】
なお、本願発明は、前記実施形態に限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で種々に変形することが可能である。さらに、前記実施形態には種々の段階の発明が含まれており、開示される複数の構成要件における適宜な組み合わせにより種々の発明が抽出され得る。例えば、実施形態に示される全構成要件から幾つかの構成要件が削除されたり、幾つかの構成要件が異なる形態にして組み合わされても、発明が解決しようとする課題の欄で述べた課題が解決でき、発明の効果の欄で述べられている効果が得られる場合には、この構成要件が削除されたり組み合わされた構成が発明として抽出され得るものである。
【符号の説明】
【0115】
10A,10B,…サーバ装置
20 …情報端末装置
21 …CPU
22 …バス
23 …記憶部
23a…URL登録リストメモリ
23b…抽出結果リストメモリ
FB …フレームバッファ
24 …外部記憶媒体
25 …記憶媒体読み書き部
26 …入力部
27 …表示部
28 …送受信部
N …通信ネットワーク
P …Webページ
Phtm…WebページのHTMLソース
LP …リンク先Webページ
Ltxt…リンクテキスト
Mtxt…見出しテキスト
Htxt…本文テキスト
W …重要情報一覧ウインドウ
f …フォーカス
Wp …ポップアップウインドウ
【特許請求の範囲】
【請求項1】
情報元として利用する情報サイトのURLを予め記憶するURL記憶手段と、
このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段と、
この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段と、
この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段と、
この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段と、
を備えたことを特徴とする情報表示装置。
【請求項2】
前記見出し情報抽出手段により前記記憶されたURLで指定される情報サイトのページから抽出された見出し情報に対応して前記本文抽出手段により抽出された本文を、該当する前記情報サイトの識別情報に対応付けて記憶する抽出情報記憶手段を備え、
前記表示対象設定手段は、
前記抽出情報記憶手段により記憶された各本文の類似度を異なる情報サイト相互の本文同士で総当たりに判定する類似度判定手段を有し、
前記抽出情報記憶手段により記憶された各本文について、前記類似度判定手段により類似度が予め設定された値よりも高いと判定された一方の本文を表示対象に設定し、もう一方の本文を削除する、
ことを特徴とする請求項1に記載の情報表示装置。
【請求項3】
前記見出し情報抽出手段による見出し情報の抽出処理と、前記本文抽出手段による本文の抽出処理と、前記表示対象設定手段による表示対象の設定処理と、前記表示制御手段による本文の表示処理とを、予め設定された一定時間毎に繰り返し実行する繰り返し制御手段を備えたことを特徴とする請求項1または請求項2に記載の情報表示装置。
【請求項4】
電子機器のコンピュータを制御するためのプログラムであって、
前記コンピュータを、
情報元として利用する情報サイトのURLを予めメモリに記憶させるURL記憶手段、
このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段、
この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段、
この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段、
この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段、
として機能させるためのプログラム。
【請求項1】
情報元として利用する情報サイトのURLを予め記憶するURL記憶手段と、
このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段と、
この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段と、
この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段と、
この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段と、
を備えたことを特徴とする情報表示装置。
【請求項2】
前記見出し情報抽出手段により前記記憶されたURLで指定される情報サイトのページから抽出された見出し情報に対応して前記本文抽出手段により抽出された本文を、該当する前記情報サイトの識別情報に対応付けて記憶する抽出情報記憶手段を備え、
前記表示対象設定手段は、
前記抽出情報記憶手段により記憶された各本文の類似度を異なる情報サイト相互の本文同士で総当たりに判定する類似度判定手段を有し、
前記抽出情報記憶手段により記憶された各本文について、前記類似度判定手段により類似度が予め設定された値よりも高いと判定された一方の本文を表示対象に設定し、もう一方の本文を削除する、
ことを特徴とする請求項1に記載の情報表示装置。
【請求項3】
前記見出し情報抽出手段による見出し情報の抽出処理と、前記本文抽出手段による本文の抽出処理と、前記表示対象設定手段による表示対象の設定処理と、前記表示制御手段による本文の表示処理とを、予め設定された一定時間毎に繰り返し実行する繰り返し制御手段を備えたことを特徴とする請求項1または請求項2に記載の情報表示装置。
【請求項4】
電子機器のコンピュータを制御するためのプログラムであって、
前記コンピュータを、
情報元として利用する情報サイトのURLを予めメモリに記憶させるURL記憶手段、
このURL記憶手段により記憶されたURLで指定される情報サイトのページを取得し、当該ページ内の見出し情報を抽出する見出し情報抽出手段、
この見出し情報抽出手段により抽出された見出し情報に対応する本文を抽出する本文抽出手段、
この本文抽出手段により抽出された各本文の類似度を判定し、当該類似度が予め設定された値よりも高いと判定された本文を表示対象に設定する表示対象設定手段、
この表示対象設定手段により表示対象に設定された本文を表示部に表示させる表示制御手段、
として機能させるためのプログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【公開番号】特開2011−150591(P2011−150591A)
【公開日】平成23年8月4日(2011.8.4)
【国際特許分類】
【出願番号】特願2010−12220(P2010−12220)
【出願日】平成22年1月22日(2010.1.22)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】
【公開日】平成23年8月4日(2011.8.4)
【国際特許分類】
【出願日】平成22年1月22日(2010.1.22)
【出願人】(000001443)カシオ計算機株式会社 (8,748)
【Fターム(参考)】
[ Back to top ]