説明

情報選別装置

【課題】特定テーマに関連する情報をWebなどから収集して網羅的かつ効率的に絞り込むことができる情報選別装置を提供すること。
【解決手段】検索手段11は、Web検索の結果レポートをクライアント端末20に提示する。テーマ空間構築手段12は、クライアント端末20からの習得情報フィードバックによりテーマ情報DB13内のテーマ情報を更新し、Web検索してテーマ空間を構築する。検索手段11は、対象テーマ全体に対するユーザ習得済み部分の割合である網羅度を算出する網羅度算出手段を備える。また、検索手段11は、対象Webページをユーザが習得した場合の習得済み範囲とそれ以前のユーザ習得済み範囲との差分を算出する差分算出手段、対象Webページの、対象テーマに対する関連度を算出する関連度算出手段を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報選別装置に関し、特に、特定テーマに関連する情報をWebなどから収集して網羅的かつ効率的に絞り込むことができる情報選別装置に関する。
【背景技術】
【0002】
Web上には多種多様の情報が存在し、そのような情報の中からユーザが自分の要求に合ったものを選別して収集することは、労力と時間がかかる作業である。従来、ユーザの過去の情報選別での履歴を利用したり、情報絞り込みの手法を工夫したりして、情報収集作業の負担を軽減することが提案されている。
【0003】
特許文献1には、電子情報メディアなどから提供される情報に対する個々のユーザの嗜好をユーザの実際の評価値から自動的に学習し、その学習結果を用いて個々のユーザに合った情報を優先的に提示する学習装置が提案されている。
【0004】
非特許文献1には、ドキュメント集合をシステムが内容に基づき分類、ユーザが分類を選択、選択された内容をシステムが統合して再度分類、ユーザが分類を選択、のように、ドキュメント集合に対し、システム側での分類、ユーザ側での選択、さらにシステム側での統合および分類、ユーザ側での選択という処理を繰り返すことでユーザが必要とする情報を絞り込む方法が提案されている。
【特許文献1】特開平9−54780号公報
【非特許文献1】Douglass R. Cutting, David R. Karger, Jan O. Pedersen, and John W. Turkey, ”Scatter/Gather: A Cluster-based Approach to Browsing Large Document Collections,” Proc. of the 15th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, pp. 318-329, 1992.
【発明の開示】
【発明が解決しようとする課題】
【0005】
特許文献1の学習装置は、ユーザが求めている嗜好がどのようなものであるかを考慮する必要をなくして、複数の情報の中からユーザが求める情報を容易に選択できるようにするものである。しかしながら、Web上には重複する内容を持つページが多数存在する。特許文献1の学習装置では、この点を考慮していないので、これを用いてWebから情報を収集した場合、重複する内容を持つページを含めて多数の情報が提示されることになる。最終的には、ユーザが多数の情報を閲覧して必要とする情報を選択しなければならないので、提示される情報の数の増加に伴ってユーザの情報収集作業の負担が増えてしまうという課題がある。
【0006】
非特許文献1の方法によれば、ユーザは、システムでの分類を利用して、類似するドキュメントを絞り込み、必要とする情報を選択することができる。しかしながら、この方法でも、特許文献1記載の学習装置と同様に、重複する内容を持つドキュメントが存在するという点を考慮していないので、ドキュメント数の増加に伴って最終的な情報選別でのユーザの負担が増えてしまうという課題がある。
【0007】
本発明の目的は、上記課題を解決し、特定テーマに関連する情報をWebなどから収集して網羅的かつ効率的に絞り込むことができる情報選別装置を提供することにある。
【課題を解決するための手段】
【0008】
上記課題を解決するため、本発明は、対象テーマに関連する情報を収集する情報選別装置において、単語の集合で形成される語彙空間における、対象テーマ関連情報群の範囲に対するユーザ習得済み情報群の範囲の割合を網羅度として算出する網羅度算出手段と、前記網羅度算出手段により算出された網羅度をクライアント端末に送出する送出手段を備えた点に第1の特徴がある。
【0009】
また、本発明は、対象情報をユーザが習得した場合のユーザ習得済み情報群の範囲とそれ以前のユーザ習得済み情報群の範囲との差分を算出する差分算出手段を備え、前記送出手段は、前記差分算出手段により算出された差分を前記網羅度とともに送出する点に第2の特徴がある。
【0010】
また、本発明は、対象情報の、対象テーマに対する関連度を算出する関連度算出手段を備え、前記送出手段は、前記関連度算出手段により算出された関連度を前記網羅度とともに送出する点に第3の特徴がある。
【0011】
また、本発明は、対象情報をユーザが習得した場合の習得済み情報群の範囲とそれ以前のユーザ習得済み情報群の範囲との差分を算出する差分算出手段と、対象情報の、対象テーマに対する関連度を算出する関連度算出手段を備え、前記送出手段は、前記差分算出手段により算出された差分および前記関連度算出手段により算出された関連度を前記網羅度とともに送出する点に第4の特徴がある。
【0012】
また、本発明は、前記送出手段が、前記差分算出手段により算出された差分が大であり、かつ前記関連度算出手段により算出された関連度が大である情報を優先的にクライアント端末に提示させる点に第5の特徴がある。
【0013】
また、本発明は、ユーザにより習得済みであるとされた情報のフィードバックである習得済み履歴を利用して対象テーマに関連する情報を検索するための検索キーワードを生成し、該検索キーワードを用いて情報を収集し、収集された情報から対象テーマに関連する単語を抽出して対象テーマ関連情報群の範囲を構築するテーマ空間構築手段を備えた点に第6の特徴がある。
【0014】
また、本発明は、前記テーマ空間構築手段が、さらに、対象テーマ関連情報群の範囲の構築の元になった情報から対象テーマに関連する情報を検索するための検索キーワードを生成し、該検索キーワードを用いて情報を収集し、収集された情報から対象テーマに関連する単語を抽出して対象テーマ関連情報群の範囲を構築する処理を繰り返す点に第7の特徴がある。
【0015】
また、本発明は、前記テーマ空間構築手段が、TF-IDFおよび類義語辞書を利用して対象テーマにおける単語の重要度を算出する手段を有し、該重要度を考慮して対象テーマに関連する単語を抽出する点に第8の特徴がある。
【0016】
また、本発明は、前記テーマ空間構築手段が、抽出した単語とその重要度、およびその元となった情報をテーマ情報としてテーマ情報データベースに保存する点に第9の特徴がある。
【0017】
また、本発明は、前記テーマ情報データベースに保存される情報が、対象テーマ関連情報群の範囲の構築に利用された情報のURLとその内容であり、その内のユーザ習得済み情報にはフラグが付加されている点に第10の特徴がある。
【0018】
さらに、本発明は、前記網羅度算出手段が、対象テーマ関連情報群の範囲に含まれる単語の重要度の和に対するユーザ習得済み情報群の範囲に含まれる単語の重要度の和の割合を網羅度として算出する点に第11の特徴がある。
【発明の効果】
【0019】
本発明では、対象テーマにおけるユーザ習得済み情報の網羅度を算出してクライアント端末に送出するので、ユーザは、クライアント端末に提示された網羅度から情報習得の状況を把握でき、情報習得がさらに必要であるか否かを判断することができる。したがって、処理時間やユーザの負担を抑えつつ高い網羅性で情報を絞り込むことができるようになる。
【0020】
また、ユーザ習得済み情報群の範囲と対象情報をユーザが習得した場合の習得済み情報群の範囲との差分や、対象情報の、対象テーマに対する関連度を算出してクライアント端末で提示させることにより、ユーザは、最小限の閲覧時間で、必要とする情報を絞り込むことができる。例えば、上記差分が大である情報や関連度が大である情報を優先的に閲覧し、その際の網羅度を考慮することにより、情報を絞り込むに際して閲覧する情報の重複を最小限にすることができる。
【0021】
また、ユーザにより習得済みであるとされた情報のフィードバックである習得済み履歴、さらには対象テーマ関連情報群の範囲の構築の元になった情報を利用して対象テーマ関連情報群の範囲を構築する処理を繰り返すことにより、対象テーマ関連情報群の範囲を最適なものに拡張することができる。
【0022】
さらに、ユーザが情報を閲覧して習得済みとした場合、対象テーマ関連情報群の範囲に対して、どの程度の網羅度で習得できたかを数値で表すことにより、さらに情報習得の要否の判断が容易になる。
【発明を実施するための最良の形態】
【0023】
以下、図面を参照して本発明を説明する。図1は、本発明に係る情報選別装置の一実施形態を示すブロック図である。本実施形態は、情報選別装置を、WebからWebページを検索して収集するサーバ10として構成したものである。
【0024】
サーバ10は、検索手段11、テーマ空間構築手段12およびテーマ情報データベース(DB)13を備える。検索手段11およびテーマ空間構築手段12は、ハードウエアとしてもソフトウエアとしても構成できる。
【0025】
検索手段11は、クライアント端末20から検索キーワードが送信された場合、その検索キーワードを用いてWeb30上のWebページを検索し、その検索の結果レポートをクライアント端末20に提示する。結果レポートに提示するのは、例えば、検索されたWebページのURL(uniform resource locator)リストでよい。ユーザは、提示された結果レポートのWebページ(文書情報)を閲覧して習得することができる。
【0026】
また、検索手段11は、網羅度算出手段を有し、網羅度算出手段は、対象テーマ全体に対するユーザ習得済み部分の割合である網羅度を算出する。網羅度は、単語の集合で形成される語彙空間における、それぞれの単語集合の範囲に基づいて算出できる。すなわち、網羅度は、単語の集合により形成される語彙空間おける、対象テーマ関連Webページ群の範囲に対するユーザ習得済みWebページ群の範囲の割合として算出できる。後述するように、対象テーマ関連Webページ群は、テーマ情報を利用したWeb検索で取得でき、ユーザ習得済みWebページ群は、習得情報フィードバックの習得済み履歴から取得できる。
【0027】
さらに、検索手段11は、差分算出手段および関連度算出手段を有し、差分算出手段は、対象Webページをユーザが習得した場合の習得済みWebページ群の範囲とそれ以前のユーザ習得済みWebページ群の範囲との差分を算出し、関連度算出手段は、対象Webページの、対象テーマに対する関連度を算出する。
【0028】
図2は、網羅度、差分および関連度を示す概念図である。同図は、単語の集合で形成される語彙空間をイメージとして表している。ここで、(A+B+C+D)は対象テーマ関連Webページ群の範囲、(B+C)はユーザ習得済みWebページ群の範囲、(C+D+E)は対象Webページの範囲である。この場合、網羅度は、(B+C)/(A+B+C+D)で算出される。また、差分は、Dで算出され、関連度は、(C+D)/(C+D+E)で算出される。なお、D/(C+D)は、差分の度合いを表す。
【0029】
網羅度、差分および関連度は、各範囲に含まれる単語の数を基に算出することができるが、単語の重要度(単語スコア)を考慮して算出することが好ましい。単語の重要度については後述する。単語の重要度を考慮した場合の網羅度は、式(1)により算出される。
【0030】
【数1】

【0031】
また、検索手段11は、クライアント端末20から未習得情報要求が送信された場合、テーマ情報DB13からユーザ未習得Webページを取得し、その結果レポートをクライアント端末20に提示する。ユーザは、提示された結果レポートのWebページの内容を閲覧して習得することができる。
【0032】
テーマ空間構築手段12は、当該Webページをユーザが習得したという判断に基づくクライアント端末20からの習得情報フィードバックによりテーマ情報DB13内のテーマ情報を更新する。また、テーマ空間構築手段12は、更新されたテーマ情報を利用してWeb検索を行い、その結果により対象テーマ関連Webページ群の範囲(以下では、テーマ空間と称する。)を構築する。
【0033】
テーマ情報DB13は、テーマ情報を保存する。テーマ情報は、テーマ空間の構築の元となったWebページ(URLと文書情報)およびそのリスト(テーマ全体文書リスト:URL)、それらのWebページから抽出された、対象テーマに関連する単語のリスト(テーマ単語リスト)を含む。なお、テーマ空間の構築の元となったWebページは、ユーザ習得済みWebページとユーザ未習得Webページを含むが、ユーザ習得済みWebページにはユーザ習得済みフラグが付加されていて両者の区別が可能になっている。ユーザ習得済みフラグが付加されているWebページは、習得済み履歴を形成する。また、テーマ単語リストにおいて、各単語に対して当該テーマにおける単語の重要度が付与されている。各単語の重要度は、テーマごとに予め決められて登録されている。
【0034】
次に、サーバ10の動作を説明する。図3は、対象テーマに関連するWebページを収集するために、クライアント端末20から検索キーワードが送信された場合の動作を示すフローチャートである。
【0035】
まず、クライアント端末20からの対象テーマに関連する検索キーワードが入力(S31)されると、検索手段11は、該検索キーワードを用いてWeb検索を実行し(S32)、Webページを取得する。次に、検索手段11は、テーマ情報DB13内に対象テーマのテーマ情報があるか否かを調べる(S33)。
【0036】
ここで、テーマ情報がなければ、Web検索(S32)による検索結果だけの結果レポートをクライアント端末20に提示する(S34)。以上のステップS31〜S34は、例えば、新たなテーマについてWebページを収集する場合などの、テーマ情報DB13内に何もデータがない状態から開始された場合に実行される処理であり、ユーザによりクライアント端末20から検索キーワードが検索手段11に入力された時点が開始ポイントとなる。この場合には、Web検索による結果のWebページだけがクライアント端末20に提示される。なお、Webページとしては、そのURLだけを提示し、その文書情報を適宜閲覧できるようにする。以下の提示でも同様である。
【0037】
対象テーマのテーマ情報がテーマ情報DB13にある場合には、検索手段11は、テーマ情報を利用して網羅度、差分および関連度を算出し(S35)、それらとユーザ習得済みWebページおよびユーザ未習得Webページを含む結果レポートをクライアント端末20に提示する(S34)。この際、差分や関連度が大であるWebページから順に提示したり、差分や関連度が一定閾値以下のWebページを提示しないように、クライアント端末20で設定できるようにすることが好ましい。差分と関連度の両者が大であるWebページを優先的に提示することも好ましい。提示するWebページが多い場合には、ページ送りやスクロールの手法を利用できる。
【0038】
図4は、結果レポートの具体例を示す図である。この具体例は、3つのWebページを習得済みとした場合の結果レポートである。同図では、「pppp http://www.pppp.jp/」、「qqqq http://www.qqqq.co.jp/xxx」、「rrrr http://www.rrrr.com/」がユーザ習得済みWebページとして提示され、対象テーマに対する網羅度(習得の進捗)が棒グラフで45%として提示されている。さらに、それらの提示に加えて、XXX、YYY、ZZZがユーザ未習得Webページとして、差分および関連度とともに提示されている。なお、差分および関連度は、黒塗り部分が多い程、大であり、差分および関連度が大きい未習得Webページから順に提示されている。
【0039】
ユーザは、クライアント端末20に提示されたWebページ(文書情報)を閲覧し、役に立ったと思われるWebページに対する習得情報フィードバックを行う。習得情報フィードバックには、ユーザが習得済みであるとしたWebページのURLと文書情報が含まれる。習得情報フィードバックは、クライアント端末20でユーザが「習得済み」ボタンを押すなどの明示的な操作で行うことができるが、Webページの閲覧時間、スクロール回数、習得者数などの暗示的なユーザ操作を認識して行うこともできる。閲覧時間が長い、あるいはスクロール回数が多いWebページは、ユーザにより習得されたと考えることができ、習得者数が多いWebページは、当該ユーザを含めて一般的に習得されていると考えることができる。
【0040】
テーマ空間構築手段12は、習得情報フィードバックによるWebページを、テーマ情報DB13内の習得済み履歴に追加保存する。また、テーマ空間構築手段12は、追加保存されたWebページをも利用してテーマ空間を構築する。具体的には、追加保存されたWebページを含む習得済み履歴のWebページから対象テーマに関連するWebページを検索するための検索キーワードを生成し、該検索キーワードおよび検索手段11から入力される検索キーワードを用い、Web検索してWebページを収集し、収集されたWebページから対象テーマに関連する単語を抽出してテーマ空間を構築する。これに伴って結果レポートが更新される。
【0041】
テーマ空間の構築(拡張)は、さらに自動的に繰り返し行わせることができる。すなわち、上記のWeb検索により収集されたWebページからも検索キーワードを生成し、この検索キーワードをも用いてWeb検索を実行する。そして、収集されたWebページから対象テーマに関連する単語を抽出てテーマ空間を拡張する、という処理を所定条件が満たされるまで繰り返す。この場合にも結果レポートが順次更新される。
【0042】
図5は、テーマ情報DB13内のユーザ未習得Webページを提示させるために、クライアント端末20から未習得情報要求が送信された場合の動作を示すフローチャートである。
【0043】
まず、クライアント端末20から対象テーマに対する未習得情報要求が入力(S51)されると、検索手段11は、テーマ情報DB13内を検索し(S52)、テーマ情報DB13内に対象テーマの習得済み履歴があるか否かを調べる(S53)。ここで、習得済み履歴がなければ、その旨をクライアント端末20に提示する(S54)。
【0044】
テーマ情報DB13内に対象テーマの習得済み履歴がある場合、検索手段11は、テーマ情報DB13から対象テーマのユーザ未習得Webページを検索し(S55)、対象テーマ関連Webページ群に対するユーザ習得済みWebページ群の割合を網羅度として算出する(S56)。そして、ユーザ未習得WebページのURLおよび網羅度を含む結果レポートをクライアント端末20に送信する。結果レポートには、未習得Webページについての差分および関連度を含ませてもよい。ユーザが、結果レポートのユーザ未習得Webページの内容を閲覧し、習得情報フィードバックを行えば、該ユーザ未習得Webページはユーザ習得済みWebページに変更されて保存される。これに伴って結果レポートの内容が更新される。
【0045】
図6は、習得情報フィードバック処理の概要を示すフローチャートである。習得情報をフィードバックする際、クライアント端末20は、結果レポートで提示されたWebページのうちの習得済みとなったWebページに習得済みフラグを付与し、習得情報フィードバックする(S61)。テーマ空間構築手段12は、習得情報フィードバックを受け、テーマ情報DB13のテーマ情報を更新する(S62)。これにより、テーマ情報の習得済みWebページおよびテーマ単語リストが更新される。習得済みフラグを付与するのは、上述のように、クライアント端末20から未習得情報要求が検索手段11に送信された場合に対処し得るようにするためである。
【0046】
図7は、テーマ情報DB13のテーマ情報の更新処理(S62)の概要を示すフローチャートである。テーマ空間構築手段12は、クライアント端末20からの習得情報フィードバックを受信し(S71)、習得情報フィードバックされたWebページから習得対象テキスト中の単語を抽出し、その出現頻度を算出する(S72)。習得対象テキストとしては、例えば、品詞の分布などを基に、Webページの特定ページや特定段落を選択できる。
【0047】
次に、習得済みWebページにおける各単語の重要度(単語スコア)を算出する(S73)。単語の重要度は、例えば、TF(term frequency)-IDF(inverse document frequency)と類義語関係に基づいて算出できる。最後に、単語を重要度の降順にソートしてテーマ情報を更新する(S74)。テーマ単語リストでは、対象テーマに関連する単語と該単語の重要度が更新される。
【0048】
単語の重要度は、以下の手順で算出できる。
(1)まず、Webページのテキストを形態素解析して単語を抽出し、評価対象の単語を選択する。例えば、以下の単語を評価対象として選択すればよい。
・名詞(品詞細分類が一般 or 固有名詞 or サ変接続)
・動詞(活用型が五段〜)
・形容詞
(2)次に、評価対象の単語についてTF-IDFを算出する。TF-IDFの値は、当該単語の出現頻度と偏りを表しており、文書中での単語の重要度を示す指標となる。図8は、6つの単語A,B,C,D,E,Fについて算出されたTF,IDFの値の具体例を示す。
(3)次に、シソーラスで2単語間に関連(リンク)があるかどうかをチェックし、リンクがあれば1、無ければ0とする。自分自身には1とする。リンクは、例えば、以下のように定義される。
【0049】
a)2つの単語が、「広義 or 同義」の関係にある。
【0050】
b)2つの単語が、「広義の同義 or 同義の広義」の関係にある。
【0051】
c)2つの単語が、「同じ広義語 or 同じ同義語」を持つ。
【0052】
d)2つの単語が、「同じ広義の同義語 or 同じ同義語の広義語」を持つ。
(4)次に、単語の重要度を算出する。単語の重要度は、例えば、下記式で算出できる。
【0053】
単語の重要度=(TF*IDF*リンク数)/(TFの合計*(単語の種類数))
【0054】
図8の例の場合、TFの合計=8、単語の種類数は(A〜F)の6(種類)である。図9は、単語A〜Fの重要度および重要度ランクを示す。例えば、単語Bの重要度は、以下の値になる。
【0055】
単語Bの重要度=(10*3)/(8*6)=0.1042
【0056】
図10は、テーマ情報DB13のテーマ情報の更新処理(S62)を詳細に示すフローチャートである。同図では、テーマ空間構築手段12が実行するステップを中央に記載し、クライアント端末(GUI)20での操作をその左側に記載し、テーマ情報DB13に保存される情報を右側に記載している。
【0057】
まず、クライアント端末(GUI)20において、ユーザがWebページに対して「習得済み」ボタンを押すと、該WebページのURLがテーマ空間構築手段12にフィードバックされる(S101)。
【0058】
テーマ空間構築手段12は、フィードバックされたWebページのURLを取得し(S102)、テーマ情報DB13のテーマ全体文書リストとの重複判定を行い(S103)、重複していれば(S104)、処理を終了する。S103-S104により、既に保存されているWebページと同一のWebページが重複して保存されるのが防止される。なお、テーマ全体文書リストには、対象テーマに関連するWebページとして既に保存されているWebページのURLがリストアップされている。S103での判定結果が重複していなければ(S104)、フィードバックされたWebページ(URL)の文書情報(HTML)を取得する(S105)。そして、Webページのテキストの形態素解析を行って評価対象の単語を選択するとともに、各単語の重要度の指標となるDF値を取得する(S106)。なお、各単語のDF値は、予め計算されて蓄積されている。
【0059】
次に、フィードバックされたWebページ、つまりユーザ習得済みWebページを習得済み文書としてテーマ情報DB13に保存する(S107)。また、選択された単語をテーマ単語リストに追加保存する。次に、選択された単語の重要度を算出し、該重要度を単語と対応させてテーマ単語リストに保存する(S108)。次に、習得済みWebページ数が一定値、例えば3以上であるか否かを判定し(S109)、一定値以上であれば、ステップS110以下の処理に進むが、一定値未満であれば、処理を終了する。S109は、習得済みWebページ数が一定値以上という条件が満たされた場合にテーマ情報を更新するようにしてシステムの精度を高めるために設けたものであり、省略しても構わない。
【0060】
次に、テーマ空間自動拡張再検索用キーワードを決定する(S110)。ここでは、テーマ空間自動拡張再検索用キーワードとして、テーマ単語リストに保存されている単語のうちから、単語の重要度を参照して、対象テーマに関連するWebページを検索するのに有用な単語を選択する。例えば、重要度が一定値以上の単語、重要度が大きい一定数の単語、あるいはすべての品詞を含めて重要度が大きい一定数の単語を再検索用キーワードとして選択することができる。
【0061】
次に、テーマ空間自動拡張再検索用キーワードを用いてWeb検索を行い(S111)、Web30からWebページを取得する(S112)。そして、取得されたWebページのテキストの形態素解析を行って評価する単語を選択するとともに、各単語の重要度の指標となるDF値を取得する(S113)。
【0062】
次に、取得された各Webページの、対象テーマに対する関連度を算出し、関連度が高いWebページを選択(フィルタリング)し、自動検索文書としてテーマ情報DB13に保存する(S114)。次に、保存されたWebページから評価対象の単語を選択し、該単語の重要度を算出し、該重要度を単語とともにテーマ単語リストに追加保存する(S115)。
【0063】
最後に、テーマ空間自動拡張ループを続けるか否かを判定する(S116)。テーマ空間自動拡張ループを続けない場合は、処理を終了するが、テーマ空間自動拡張ループを続ける場合は、ステップS110〜S115での処理を繰り返す。ステップS116での判定は、テーマ空間自動拡張処理の実行回数などに基づいて行うことができる。例えば、テーマ空間自動拡張処理が3回実行された場合にテーマ空間自動拡張ループから抜け出すようにすればよい。また、テーマ単語リストに保存される各単語の重要度の順序が変わらなくなった場合にテーマ空間自動拡張ループから抜け出すようにすることもできる。テーマ空間は、以上のようにしてテーマ単語リストに順次追加保存される単語の集合により構築(拡張)される。
【0064】
Webページの収集および絞り込みの手順の概要を以下にまとめて示す。
【0065】
(1)クライアント端末20からの対象テーマに関する検索キーワード(例えば「ジャム 作り方」)が検索手段11に入力された場合、
(1-1)検索手段11は、検索キーワードを用いてWeb30を検索し、検索結果としてWebページのURLと文書情報(HTML)を取得する。また、検索手段11は、検索キーワードをテーマ空間構築手段11に送出する。
(1-2)テーマ情報DB13に対象テーマのテーマ情報が存在しない場合には、検索手段11は、検索結果のWebページのURLだけを含む結果レポートをクライアント端末20に送信する。
【0066】
テーマ情報DB13に対象テーマのテーマ情報が存在する場合、検索手段11の網羅度算出手段は、対象テーマ関連Webページ群に対するユーザ習得済みWebページ群の割合を網羅度として算出する。そして、ユーザ習得済みWebページおよびユーザ未習得WebページのURLおよび網羅度を含む結果レポートをクライアント端末20に送信する。結果レポートには、ユーザ未習得Webページについての差分および関連度を含ませてもよい。
(1-3)検索手段11から送信された結果レポートがクライアント端末20で提示される。ユーザは、結果レポートを見てWebページを適宜閲覧する。そして、提示された結果レポートのWebページが習得完了と判断された場合は処理を終了する。
【0067】
提示された結果レポートのWebページが習得未完了と判断された場合には、ユーザは、習得すべきWebページあるいはそれから抜き出した特定部分を閲覧して習得する。習得されたWebページには「習得済みラベル」が付与され、テーマ空間構築手段11に習得情報フィードバックされる。
(1-4)テーマ空間構築手段12は、習得情報フィードバックを受け、習得済みとなったWebページをテーマ情報DB13内の習得済み履歴に追加保存する。
(1-5)テーマ空間構築手段12は、保存されているWebページから検索キーワードを生成し、該検索キーワードおよび検索手段11からの検索キーワードを用いてWeb30を検索し、対象テーマに関連するWebページのURLと文書情報を取得し、保存する。ここで、文書情報の内容の遠近度、単語ベースの類似性などの判断基準により、対象テーマに関連するWebページを取捨選択できる。これにより取得されたWebページから抽出さる単語によりテーマ空間を構築(拡張)する。これに伴って結果レポートの内容が更新される。
(1-6)さらに、テーマ空間の自動拡張を繰り返す場合には、(1-5)に戻って再検索用キーワードを生成し、処理を繰り返す。テーマ空間の自動拡張とともに、対象テーマに関連するWebページがWeb30から収集される。テーマ空間の自動拡張の繰り返しは、テーマ空間の自動拡張処理の繰り返し回数などを条件として終了させればよい。
【0068】
(2)クライアント端末20からの対象テーマに関する未習得情報要求が検索手段11に入力された場合、
(2-1)テーマ情報DB13に該対象テーマの習得済み履歴が存在しない場合には、検索手段11は、その旨を通知して処理を終了する。
【0069】
テーマ情報DB13に該対象テーマの習得済み履歴が存在する場合には、検索手段11は、テーマ情報DB13から該対象テーマ内のユーザ未習得Webページを検索する。Webページが習得済みか未習得かは、習得済みフラグが付与されているか否かで分かる。
(2-2)検索手段11の網羅度算出手段は、対象テーマ関連文書群に対するユーザ習得済み文書群の割合を網羅度として算出する。そして、ユーザ未習得WebページのURLおよび網羅度を含む結果レポートをクライアント端末20に送信する。結果レポートには、ユーザ未習得Webページについての差分および関連度を含ませてもよい。
(2-3)クライアント端末20は、検索手段11から送信された結果レポートをユーザに提示する。
(2-4)ユーザは、結果レポートを見てユーザ未習得Webページあるいはそれから抜き出した特定部分を閲覧することができる。習得したWebページには「習得済みラベル」が付与され、テーマ空間構築手段12に習得情報フィードバックされる。
(2-5)テーマ空間構築手段12は、習得情報フィードバックを受け、習得済みとなったWebページをテーマ情報DB13内の習得済み履歴に追加保存する。これに伴って結果レポートの内容が更新される。
【0070】
本発明は、多種多様の情報の中から対象テーマに関連する情報を検索して提供する検索サービスに適用できる。
【図面の簡単な説明】
【0071】
【図1】本発明に係る情報選別装置の一実施形態を示すブロック図である。
【図2】網羅度、差分および関連度を示す概念図である。
【図3】検索キーワードが入力された場合の動作を示すフローチャートである。
【図4】結果レポートの具体例を示す図である。
【図5】未習得情報要求が入力された場合の動作を示すフローチャートである。
【図6】習得情報フィードバック処理の概要を示すフローチャートである。
【図7】テーマ情報の更新処理の概要を示すフローチャートである。
【図8】単語のTF,IDFの値の具体例を示す図である。
【図9】単語の重要度および重要度ランクを示す図である。
【図10】テーマ情報の更新処理を詳細に示すフローチャートである。
【符号の説明】
【0072】
10・・・サーバ、11・・・検索手段、12・・・テーマ空間構築手段、13・・・テーマ情報データベース(DB)、20・・・クライアント端末、30・・・Web

【特許請求の範囲】
【請求項1】
対象テーマに関連する情報を収集する情報選別装置において、
単語の集合で形成される語彙空間における、対象テーマ関連情報群の範囲に対するユーザ習得済み情報群の範囲の割合を網羅度として算出する網羅度算出手段と、
前記網羅度算出手段により算出された網羅度をクライアント端末に送出する送出手段を備えたことを特徴とする情報選別装置。
【請求項2】
対象情報をユーザが習得した場合のユーザ習得済み情報群の範囲とそれ以前のユーザ習得済み情報群の範囲との差分を算出する差分算出手段を備え、
前記送出手段は、前記差分算出手段により算出された差分を網羅度とともに送出することを特徴とする請求項1に記載の情報選別装置。
【請求項3】
対象情報の、対象テーマに対する関連度を算出する関連度算出手段を備え、前記送出手段は、前記関連度算出手段により算出された関連度を網羅度とともに送出することを特徴とする請求項1に記載の情報選別装置。
【請求項4】
対象情報をユーザが習得した場合の習得済み情報群の範囲とそれ以前のユーザ習得済み情報群の範囲との差分を算出する差分算出手段と、対象情報の、対象テーマに対する関連度を算出する関連度算出手段を備え、前記送出手段は、前記差分算出手段により算出された差分および前記関連度算出手段により算出された関連度を網羅度とともに送出することを特徴とする請求項1に記載の情報選別装置。
【請求項5】
前記送出手段は、前記差分算出手段により算出された差分が大であり、かつ前記関連度算出手段により算出された関連度が大である情報を優先的に前記クライアント端末に提示させることを特徴とする請求項4に記載の情報選別装置。
【請求項6】
ユーザにより習得済みであるとされた情報のフィードバックである習得済み履歴を利用して対象テーマに関連する情報を検索するための検索キーワードを生成し、該検索キーワードを用いて情報を収集し、収集された情報から対象テーマに関連する単語を抽出して対象テーマ関連情報群の範囲を構築するテーマ空間構築手段を備えたことを特徴とする請求項1ないし5のいずれかに記載の情報選別装置。
【請求項7】
前記テーマ空間構築手段は、さらに、対象テーマ関連情報群の範囲の構築の元になった情報から対象テーマに関連する情報を検索するための検索キーワードを生成し、該検索キーワードを用いて情報を収集し、収集された情報から対象テーマに関連する単語を抽出して対象テーマ関連情報群の範囲を構築する処理を繰り返すことを特徴とする請求項6に記載の情報選別装置。
【請求項8】
前記テーマ空間構築手段は、TF−IDFおよび類義語辞書を利用して対象テーマにおける単語の重要度を算出する手段を有し、該重要度を考慮して対象テーマに関連する単語を抽出することを特徴とする請求項6または7に記載の情報選別装置。
【請求項9】
前記テーマ空間構築手段は、抽出した単語とその重要度、およびその元となった情報をテーマ情報としてテーマ情報データベースに保存することを特徴とする請求項8に記載の情報選別装置。
【請求項10】
前記テーマ情報データベースに保存される情報は、対象テーマ関連情報群の範囲の構築に利用された情報のURLとその内容であり、その内のユーザ習得済み情報にはフラグが付加されていることを特徴とする請求項9に記載の情報選別装置。
【請求項11】
前記網羅度算出手段は、対象テーマ関連情報群の範囲に含まれる単語の重要度の和に対するユーザ習得済み情報群の範囲に含まれる単語の重要度の和の割合を網羅度として算出することを特徴とする請求項9または10に記載の情報選別装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2010−146345(P2010−146345A)
【公開日】平成22年7月1日(2010.7.1)
【国際特許分類】
【出願番号】特願2008−323712(P2008−323712)
【出願日】平成20年12月19日(2008.12.19)
【出願人】(000208891)KDDI株式会社 (2,700)
【Fターム(参考)】