説明

キーワード提示装置、方法及びプログラム

【課題】電子文書集合からキーワードを抽出し、クラスタリングして提示する。
【解決手段】実施形態に係るキーワード提示装置は、文書集合から、所定の汎用概念辞書に規定されている形態素列を基本用語候補として抽出する抽出部101と、文書集合から、汎用概念辞書に規定されていない形態素列を専門用語として抽出する抽出部104とを含む。このキーワード提示装置は、基本用語候補の各々と専門用語との間の関連性を評価し、関連性の高い基本用語候補を優先的に基本用語として選定する選定部106を含む。このキーワード提示装置は、文書集合に基づく基本用語間の統計的な相関度と汎用概念辞書に基づく基本用語間の概念的な相関度との重み付き和を計算し、重み付き和に基づいて基本用語をクラスタリングするクラスタリング部107を含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、電子文書の集合からキーワードを抽出し、提示する手法に関する。
【背景技術】
【0002】
近年、電子文書の利用機会が増えつつある。一般的に、電子文書は、通常の印刷文書に比べて解析、検索などの情報処理が容易である。例えば、電子文書集合からキーワードを抽出して提示すれば、ユーザは電子文書集合に含まれる個々の電子文書を閲覧することなく電子文書集合の概要を把握しやすい。更に、このキーワードを利用して電子文書集合の絞り込み検索を実行することも可能である。
【0003】
電子文書からキーワードを抽出するための様々な手法が提案されている。具体的には、電子文書における出現頻度などの統計的な特徴に基づいてキーワードを抽出する手法が知られている。例えば、電子文書集合中での出現頻度の高い用語が、キーワードとして抽出される。また、抽出したキーワードを単に列挙して提示するのでなく、キーワード間の相関度に基づいてグルーピングして提示する手法も知られている。キーワードのグルーピングは、電子文書集合の概要把握に役立つ。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2007−128389号公報
【特許文献2】特許第3665480号公報
【非特許文献】
【0005】
【非特許文献1】Frantzi, T.K. and Ananiadous, S. 1996. "Extracting nested collocations". In Proceedings of 16th International Conference on Computational Linguistics, 41-46.
【非特許文献2】Robertson, R. E., et al. Simple, Proven Approaches to Text Retrieval. University of Cambridge Technical Report. 356, 12, 1994 p.1-8.
【発明の概要】
【発明が解決しようとする課題】
【0006】
出現頻度などの統計的な特徴に基づいてキーワードを抽出する手法は、基本的な用語に比べて専門的な用語をキーワードとして抽出しにくい傾向にある。一般的に、専門的な用語は、基本的な用語に比べて電子文書集合の詳細な絞り込み検索に役立つ。また、キーワード間の共起関係に基づいてグルーピング、階層化などを行う場合にも、出現頻度の高い基本的な用語間の共起関係が判定されやすい。更に、統計的な特徴に基づくキーワード抽出は、Webページなどの大規模な電子文書集合に適しているものの、社内文書などの小規模な電子文書集合には必ずしも適さない。
【0007】
実施形態は、電子文書集合からキーワードを抽出し、クラスタリングして提示することを目的とする。
【課題を解決するための手段】
【0008】
一態様に係るキーワード提示装置は、文書集合から、所定の汎用概念辞書に規定されている形態素列を基本用語候補として抽出する第1の抽出部と、文書集合から、汎用概念辞書に規定されていない形態素列を専門用語として抽出する第2の抽出部とを含む。このキーワード提示装置は、基本用語候補の各々と専門用語との間の関連性を評価し、関連性の高い基本用語候補を優先的に基本用語として選定する第1の選定部を含む。このキーワード提示装置は、文書集合に基づく基本用語間の統計的な相関度と汎用概念辞書に基づく基本用語間の概念的な相関度との重み付き和を計算し、重み付き和に基づいて基本用語をクラスタリングするクラスタリング部を含む。このキーワード提示装置は、基本用語のクラスタリング結果に基づいて、各クラスタのキーワードを基本用語及び専門用語から選定する第2の選定部と、選定されたキーワードを提示する提示部とを含む。
【図面の簡単な説明】
【0009】
【図1】第1の実施形態に係るキーワード提示装置を例示するブロック図。
【図2】図1の文書集合記憶部に記憶される一文書を例示する図。
【図3】図1の汎用概念辞書記憶部に記憶される汎用概念辞書を例示する図。
【図4】図1の基本用語候補抽出部の動作を例示するフローチャート。
【図5】図1の基本用語候補リスト記憶部に記憶される基本用語候補リストを例示する図。
【図6】図1の専門用語リスト記憶部に記憶される専門用語リストを例示する図。
【図7】図1の基本用語選定部の動作を例示するフローチャート。
【図8】図1の基本用語選定部によって選定される基本用語を例示する図。
【図9】図1の基本用語クラスタリング部の動作を例示するフローチャート。
【図10】図9における相関度表の作成処理の詳細を例示するフローチャート。
【図11】相関度表を例示する図。
【図12】図1の基本用語クラスタリング部による基本用語のクラスタリング結果を例示する図。
【図13】図1のキーワード選定部の動作を例示するフローチャート。
【図14】図1のキーワード選定部による代表専門用語の選定結果を例示する図。
【図15】図1のキーワード提示UIによるキーワードの提示例を示す図。
【図16】第2の実施形態に係るキーワード提示装置を例示するブロック図。
【図17】図16の基本用語選定部の動作を例示するフローチャート。
【図18】選定語彙カテゴリー設定ルールの説明図。
【図19】図16の選択キーワードリスト記憶部に記憶される選択キーワードリストを例示する図。
【図20】図16のキーワード提示UIによるキーワードの提示例を示す図。
【図21】図16のキーワード提示UIによるキーワードの提示例を示す図。
【図22】図16の選択キーワードリスト記憶部に記憶される選択キーワードリストを例示する図。
【発明を実施するための形態】
【0010】
以下、図面を参照して、実施形態について説明する。尚、以降の説明において「文書」という用語は、「電子文書」の意味で使用される。
(第1の実施形態)
図1に示されるように、第1の実施形態に係るキーワード提示装置は、文書集合記憶部100、基本用語候補抽出部101、汎用概念辞書記憶部102、基本用語候補リスト記憶部103、専門用語抽出部104、専門用語リスト記憶部105、基本用語選定部106、基本用語クラスタリング部107、キーワード選定部108及びキーワード提示UI(ユーザインタフェース)109を含む。
【0011】
文書集合記憶部100には、任意の数の文書が記憶される。尚、後述するように本実施形態に係るキーワード提示装置は、大規模文書集合及び小規模文書集合の両方に適している。文書集合記憶部100に記憶されている文書集合は、基本用語候補抽出部101、専門用語抽出部104、基本用語クラスタリング部107及びキーワード選定部108によって適宜読み出される。
【0012】
例えば、文書集合記憶部100には、図2に示されるような文書を含む文書集合が記憶される。典型的には各文書には識別のための文書IDが付与されるが、他の方法で各文書を識別することも可能である。また、後述する他の処理(用語抽出など)において、「タイトル」フィールドと「本文」フィールドとが区別されてもよいし、されなくてもよい。更に、各文書においてフィールドが設定されなくてもよいし、図2に示されていないフィールドが設定されてもよい。
【0013】
基本用語候補抽出部101は、文書集合記憶部100から文書集合を読み出し、基本用語候補を抽出する。具体的には、基本用語候補抽出部101は、汎用概念辞書記憶部102に記憶されている汎用概念辞書を参照して、文書集合から基本用語候補を抽出する。後述するように、基本用語候補は、上記汎用概念辞書に規定される用語のいずれかである。例えば、基本用語候補抽出部101は、文書集合に含まれる各文書に形態素解析を行い、所定の品詞に一致し、かつ、汎用概念辞書に規定されている形態素列を基本用語候補として抽出する。基本用語候補抽出部101は、抽出した基本用語候補を基本用語候補リスト記憶部103に記憶させる。
【0014】
汎用概念辞書記憶部102には、例えば図3に示される汎用概念辞書が記憶されている。汎用概念辞書は、用語間の概念的な関係(上下関係)を規定する。例えば、図3によれば、用語「試験」と用語「テスト」とが同じ概念を持つ関係にあり、更にこれらの親ノードが用語「検査」と同じ概念を持つ関係にある。更に、図3によれば、用語「映像」及び用語「画像」とが同じ概念を持つ関係にあり、更にこれらの親ノードが用語「画面」と同じ概念を持つ関係にある。図3に示される汎用概念辞書によれば、用語間の概念的な相関度を用語ノード間の距離(総エッジ数)によって見積もることができる。尚、汎用概念辞書は、独自に用意することも可能であるが、既存のEDR(Electronic Dictionary Research)概念辞書などを利用しても勿論よい。
【0015】
以下、図4を用いて基本用語候補抽出部101の動作例を説明する。基本用語候補抽出部101が動作を開始すると、処理はステップS201に進む。
ステップS201において、基本用語候補抽出部101は、文書集合記憶部100から文書集合中の処理対象文書を取得する。基本用語候補抽出部101は、ステップS201において取得した処理対象文書に形態素解析を行い、当該処理対象文書に含まれる名詞(或いは、名詞以外の所定の品詞であってもよい)を抽出する(ステップS202)。基本用語候補抽出部101は、ステップS202において抽出した全ての名詞について、汎用概念辞書記憶部102に記憶されている汎用概念辞書に規定されている用語の出現頻度をカウントする(ステップS203)。ステップS203に関して、基本用語候補抽出部101は、所定のストップワードリストを参照し、汎用概念辞書に規定される特定の用語を出現頻度のカウント対象から除外する処理を付加的に行ってもよい。
【0016】
例えば、基本用語候補抽出部101は、ステップS202において、図2に示される文書に形態素解析を行い、「タイトル」フィールドから名詞「文書」、「分類」、「単体」、「検査」、「エラー」及び「発生」を抽出し、「本文」フィールドから名詞「本日」、「文書」、「分類」、「エンジン」、「単体」、「検査」、「サーバ」、「ダウン」、「XYZ」及び「原因」を抽出する。そして、基本用語候補抽出部101は、ステップS203において、これら抽出結果について、汎用概念辞書に規定されている用語の出現頻度をカウントし、「文書:2」、「分類:2」、「単体:2」、「検査:2」、「エラー:1」、「発生:1」、「本日:1」、「エンジン:1」、「サーバ:1」、「ダウン:1」、「原因:1」という結果を得る。尚、用語「XYZ」は、汎用概念辞書に規定されていないので、出現頻度をカウントされない。
【0017】
全ての文書に対する処理が完了すれば処理はステップS205に進み、そうでなければ処理はステップS201に戻る。即ち、基本用語候補抽出部101は、ステップS201乃至ステップS203の処理を文書集合に含まれる全ての文書に対して行う。結果的に、汎用概念辞書に規定される用語の文書集合における合計出現頻度が導出される。ステップS205において、基本用語候補抽出部101は、合計出現頻度が所定値以上の用語を基本用語候補として抽出し、基本用語候補リスト記憶部103に記憶させる。或いは、基本用語候補抽出部101は、合計出現頻度が高い順に所定数の用語を基本用語候補として抽出してもよい。基本用語候補抽出部101が抽出した基本用語候補は、例えば図5に示されるようなリスト形式で基本用語候補リスト記憶部103に記憶される。
【0018】
専門用語抽出部104は、文書集合記憶部100から文書集合を読み出し、専門用語(或いは複合語)を抽出する。専門用語は、少なくとも汎用概念辞書に規定されていない用語である。例えば、専門用語抽出部104は、文書集合における形態素列の出現パターンに基づいて各形態素列が単独の用語であるか否かを判定する。そして、専門用語抽出部104は、単独の用語であると判定され、かつ、汎用概念辞書に規定されていない形態素列を専門用語として抽出する。
【0019】
専門用語を抽出するための具体的な手法が、非特許文献1に例示されている。この手法は、C−valueと呼ばれる評価値を用いて専門用語を抽出する。文書集合において出現する形態素列wに対するC−value(w)は、下記の数式(1)により定義される。
【数1】

【0020】
数式(1)において、l(w)は形態素列wの形態素数(形態素長)を表し、n(w)は形態素列wの出現頻度を表し、t(w)は形態素列wを含むより長い形態素列の出現頻度を表し、c(w)は形態素列wを含むより長い形態素列の種類の数を表す。
【0021】
専門用語抽出部104は、C−valueが所定値以上の形態素列を専門用語として抽出し、専門用語リスト記憶部105に記憶させる。或いは、専門用語抽出部104は、C−valueの高い順に所定数の形態素列を専門用語として抽出してもよい。専門用語抽出部104は、例えば図6に示されるようなリスト形式で専門用語リスト記憶部105に記憶される。尚、専門用語抽出部104は、予め用意されているストップワードリストを参照し、特定の形態素列をC−valueの計算対象から除外してもよい。
【0022】
基本用語選定部106は、基本用語候補リスト記憶部103に記憶されている基本用語候補から基本用語を選定する。具体的には、基本用語選定部106は、専門用語リスト記憶部105に記憶されている専門用語との関連性の高い基本用語候補を基本用語として選定する。
【0023】
以下、図7を用いて基本用語選定部106の動作例を説明する。
基本用語選定部106は基本用語候補リスト記憶部103に記憶されている各基本用語候補の出現頻度カウンターを初期化(例えば、「0」に設定)し(ステップS211)、処理はステップS212に進む。
【0024】
ステップS212において、基本用語選定部106は、専門用語リスト記憶部105に記憶されている専門用語リスト中の処理対象専門用語を選択する。基本用語選定部106は、ステップS212において選択した処理対象専門用語を、基本用語候補リスト記憶部103に記憶されている基本用語候補リストと照合する(ステップS213)。基本用語選定部106は、処理対象専門用語の一部(即ち、部分文字列)に一致する基本用語候補の出現頻度をカウントする(ステップS214)。
【0025】
例えば、基本用語選定部106が、処理対象専門用語として「画像検索」を選択し(ステップS212)、処理対象専門用語「画像検索」を基本用語候補リストと照合し(ステップS213)、処理対象専門用語「画像検索」の一部に一致する基本用語候補「画像」及び「検索」の出現頻度を夫々「1」カウントする。
【0026】
全ての専門用語に対する処理が完了すれば処理はステップS216に進み、そうでなければ処理はステップS212に戻る。即ち、基本用語選定部106は、ステップS212乃至ステップS214の処理を専門用語リストに含まれる全ての専門用語に対して行う。結果的に、全ての専門用語に対する各基本用語候補の関連性が見積もられる。ステップS216において、基本用語選定部106は、出現頻度の高い順にN(Nは任意の自然数)個の基本用語候補を基本用語として選定する。N=10の場合の基本用語選定結果が図8に例示されている。或いは、基本用語選定部106は、出現頻度が所定値以上の基本用語候補を基本用語として選定してもよい。基本用語選定部106は、ステップS216において選定した基本用語を基本用語クラスタリング部107に入力する(ステップS217)。
【0027】
尚、図7の例では、全ての専門用語に対する各基本用語候補の関連性を、各専門用語の部分文字列との一致数によって評価しているが、その他の手法で関連性を評価することも可能である。例えば、文書集合から専門用語を含む周辺文字列(例えば、専門用語及び当該専門用語の前後に出現するM(Mは任意の自然数)文字)を抽出し、各周辺文字列を基本用語候補リストと照合することによって関連性を評価してもよい。或いは、文書集合から専門用語の出現するセンテンスを抽出し、当該センテンスを構文解析して得られる係り受け関係に基づいて関連性を評価してもよい。例えば、各センテンスにおいて専門用語と係り受け関係にある基本用語候補の出現頻度をカウントし、当該出現頻度によって関連性を評価してもよい。係り受け関係に基づいて関連性を評価すると、例えば専門用語が「行為」を示唆する場合にはその「行為」の「対象」を示唆する基本用語が選定されやすくなり、専門用語が「対象」を示唆する場合にはその「対象」への「行為」を示唆する基本用語が選定されやすくなる。即ち、基本用語−専門用語間の関係(「行為」−「対象」または「対象」−「行為」)が明確となるので、キーワード提示時に文書集合の概要把握に役立つ。尚、これらの手法は、単独で利用されてもよいし、組み合わせて利用されてもよい。
【0028】
基本用語クラスタリング部107は、基本用語選定部106によって選定された基本用語をクラスタリングし、複数のクラスタを作成する。各クラスタは、1つまたは複数の基本用語によって構成される。基本用語クラスタリング部107は、クラスタリング結果をキーワード選定部108に入力する。
【0029】
以下、図9を用いて基本用語クラスタリング部107の動作例を説明する。
基本用語クラスタリング部107は、基本用語選定部106によって選定された基本用語間の相関度表を作成する(ステップS221)。尚、ステップS221における処理の詳細は、図10に例示されている。
【0030】
ステップS221の処理が開始すると、基本用語クラスタリング部107は相関度表を初期化し(ステップS231)、処理はステップS232に進む。相関度表は、図11に例示されるように、行方向及び列方向に基本用語が設定され、第i行第j列(i及びjは、基本用語の総数以下の自然数)には第i行に設定された基本用語と第j列に設定された基本用語との間の相関度が設定される。尚、第i行第j列に設定される相関度と第j行第i列に設定される相関度は等しく、第i行第i列に設定される相関度は不要なので、j>iを満たすようにi及びjを可変とする。ステップS231において、基本用語クラスタリング部107は相関度表の各要素に例えば「0」などの初期値を設定する。
【0031】
ステップS232において、基本用語クラスタリング部107は処理対象行(第i行)に対応する基本用語iを設定し、処理はステップS233に進む。ステップS233において、基本用語クラスタリング部107は処理対象列(第j(>i)列)に対応する基本用語jを設定する。基本用語クラスタリング部107は、基本用語iと基本用語jとの間の統計的な(例えば、共起関係に基づく)相関度を計算する(ステップS234)と共に、これらの間の概念的な相関度を計算する(ステップS235)。尚、ステップS234及びステップS235は任意の順序で実行してよい。
【0032】
統計的な相関度は、文書集合記憶部100に記憶されている文書集合に基づいて計算される。具体的には、基本用語クラスタリング部107は、文書集合に含まれる各文書について基本用語iの出現の有無に応じて「1」/「0」の値を与えて出現文書ベクトルiを作成し、同様に各文書について基本用語jの出現の有無に応じて「1」/「0」の値を与えて出現ベクトルjを作成する。尚、出現文書ベクトルi及び出現文書ベクトルjの要素数は、作成に利用された文書の総数(ここでは、文書集合に含まれる総文書数)に等しい。基本用語クラスタリング部107は、この出現文書ベクトルi及び出現文書ベクトルjのcosine値を統計的な相関度として計算する。
【0033】
概念的な相関度は、汎用概念辞書記憶部102に記憶されている汎用概念辞書に基づいて計算される。具体的には、基本用語クラスタリング部107は、汎用概念辞書における基本用語iのノードと基本用語jのノードとの間のエッジ数を利用する。基本用語クラスタリング部107は、1/(エッジ数−1)を概念的な相関度として計算する。
【0034】
基本用語クラスタリング部107は、ステップS234において計算した統計的な相関度と、ステップS235において計算した概念的な相関度との重み付き和を計算し、基本用語iと基本用語jとの間の相関度として設定する(ステップS236)。
【0035】
ステップS236において、典型的には、統計的な相関度及び概念的な相関度に一様な重み(例えば「1/2」及び「1/2」)が割り当てられる。一様な重み付けは、両者の平均値を計算することを意味している。一方、基本用語クラスタリング部107は、非一様な重み付けを行ってもよい。例えば、共起関係判定などの統計的な解析は小規模な文書集合に対して必ずしも適さないので、文書集合に含まれる総文書数が少なくなるほど概念的な相関度を重視するような重み付けを行うことにより、文書集合の規模によらず妥当な相関度が計算され易くなる。また、基本用語クラスタリング部107は、文書集合に含まれる総文書数に応じて重みを動的に更新してもよい。係る処理によれば、例えば絞り込み検索によって文書数が減少する場合に、概念的な相関度を重視するような動的な重み付けが可能となる。更に、重みを非一様にする場合に、一方の重みを「0」とすることも想定される。一方の重みを「0」とする場合には、対応するステップ(ステップS234またはステップS235)が省略されてよい。
【0036】
例えば、基本用語クラスタリング部107は、ステップS232において第1行に対応する基本用語「画面」を設定し、ステップS233において第2列に対応する基本用語「画像」を設定する。仮に、基本用語「画面」が50文書に出現し、基本用語「画像」が50文書に出現し、基本用語「画面」及び基本用語「画像」の両方が20文書に出現するとすれば、基本用語クラスタリング部107は、基本用語「画面」の出現文書ベクトル及び基本用語「画像」の出現文書ベクトルのcosine値=20/(sqrt(50)*sqrt(50)=「0.4」を統計的な相関度として計算する(ステップS234)。また、図3に示される汎用概念辞書を参照する場合には、基本用語クラスタリング部107は、基本用語「画面」のノードと基本用語「画像」のノードとの間のエッジ数=「3」を利用して、1/(3−1)=「0.5」を概念的な相関度として計算する(ステップS235)。基本用語クラスタリング部107は、例えば一様な重み(「1/2」及び「1/2」)を用いて、統計的な相関度「0.4」及び概念的な相関度「0.5」の重み付き和「0.45」を計算し、基本用語「画面」と基本用語「画像」との間の相関度に設定する(ステップS236)。
【0037】
処理対象行(第i行)に関する全ての列の処理が完了すれば処理はステップS238に進み、そうでなければ処理はステップS233に戻る(ステップS237)。ステップS237において、全ての行に関する処理が完了すればステップS221の処理は終了し、そうでなければ処理はステップS232に戻る。図10に示される一連の処理の結果、例えば図11に示される相関度表が作成される。
【0038】
ステップS221の完了後、処理はステップS222に進む。ステップS222において、基本用語クラスタリング部107は、相関度表から最大の相関度を持つクラスタ対を探索する。図9の例では、個々の基本用語が夫々1つのクラスタを構成すると仮定し、これらのクラスタを繰り返し処理によって順次併合することにより、最終的なクラスタリング結果を得る。即ち、図11に示される相関度表は、クラスタ併合前のクラスタ(即ち、1つの基本用語によって構成されるクラスタ)間の相関度を示しているとみなすことができる。
【0039】
尚、特定のクラスタに基本用語が集中する事態を回避するために、ステップS222において例外処理を行うことができる。例えば、特定のクラスタを構成する基本用語のうちの少なくとも1つの出現する文書数の、総文書数に対する割合が一定以上になる場合に、基本用語クラスタリング部107は当該特定のクラスタを併合の対象から除外してもよい。
【0040】
基本用語クラスタリング部107は、ステップS222において探索したクラスタ対を併合する(ステップS223)。ステップS222乃至ステップS225の処理が一定回数行われていれば処理はステップS226に進み、そうでなければ処理はステップS225に進む。尚、ステップS223によって、2つのクラスタが1つに併合されるので、クラスタの総数は1つ減少する。即ち、一定回数の繰り返し処理の結果、クラスタの総数は当該一定回数だけ減少する。
【0041】
ステップS225において、基本用語クラスタリング部107は、ステップS223におけるクラスタ対の併合に伴う相関度表の更新を行う。複数の基本用語によって構成されるクラスタ間の相関度は、例えば単一リンク法に従って計算することができる。単一リンク法によれば、一方のクラスタを構成する各基本用語と他方のクラスタを構成する各基本用語との間の相関度の中での最大値が、両クラスタ間の相関度として計算される。ステップS226において、基本用語クラスタリング部107がクラスタリング結果をキーワード選定部108に入力し、処理は終了する。
【0042】
例えば、図11の相関度表によれば、クラスタ(「画面」)とクラスタ(「映像」)との間の相関度「0.5」が最大である。故に、基本用語クラスタリング部107は、ステップS223において、クラスタ(「画面」)及びクラスタ「(映像)」を併合してクラスタ(「画面」、「映像」)を作成する。そして、基本用語クラスタリング部107は、ステップS225において、併合済みクラスタ(「画面」、「映像」)と他のクラスタとの間の相関度を更新する。例えば単一リンク法によれば、クラスタ(「画面」、「映像」)とクラスタ(「画像」)との間の相関度はmax(0.45,0.3)=「0.45」に更新され、クラスタ(「画面」、「映像」)とクラスタ(「表示」)との間の相関度はmax(0.41,0.34)=「0.41」に更新される。図11の相関度表に基づいてステップS222乃至ステップS225の処理を7回繰り返すと、例えば図12に示される3つのクラスタを含むクラスタリング結果が得られる。
【0043】
キーワード選定部108は、基本用語クラスタリング部107からのクラスタリング結果に従って、キーワードを選定する。例えばキーワード選定部108は各クラスタを構成する各基本用語の一部または全部を、当該クラスタのキーワードとして選定する。更に、キーワード選定部108は、クラスタリング結果に従って、専門用語リストから各クラスタの代表専門用語を選定してもよい。キーワード選定部108は、キーワード選定結果をキーワード提示UI109に入力する。以下、図13を用いてキーワード選定部108が代表専門用語を選定する場合の動作例を説明する。
【0044】
最初に、ステップS241が行われる。ステップS241において、キーワード選定部108は、処理対象クラスタを構成する基本用語のうち少なくとも1つが出現する全文書を文書集合記憶部100から取得する。キーワード選定部108は、ステップS241において取得した文書に基づいて処理対象クラスタの代表専門用語を選定する(ステップS242)。例えば、キーワード選定部108は、ステップS241において取得した文書における出現頻度の降順に所定数の専門用語を代表専門用語として選定したり、出現頻度が所定値以上の専門用語を代表専門用語として選定したりしてもよい。或いは、キーワード選定部108は、非特許文献2の手法を用いて代表専門用語を選定してもよい。
【0045】
非特許文献2によれば、専門用語wについての評価値RW(w)は下記の数式(2)によって定義される。
【数2】

【0046】
数式(2)において、rはステップS241において取得した文書のうち専門用語wの出現する文書数を表し、Nは文書集合記憶部100に記憶されている文書の総数を表し、nは文書集合記憶部100に記憶されている文書のうち専門用語wの出現する文書数を表し、RはステップS241において取得した文書の総数を表す。キーワード選定部108は、評価値RW(w)の降順に所定数の専門用語を代表専門用語として選定したり、評価値RW(w)が所定値以上の専門用語を代表専門用語として選定したりしてもよい。尚、キーワード選定部108は、各クラスタを構成する基本用語の全部でなく一部をキーワードとして選定する場合に、出現頻度または評価値RW(w)を利用してもよい。
【0047】
全てのクラスタに対する処理が完了すれば処理は終了し、そうでなければ処理はステップS241に戻る。即ち、キーワード選定部108は、ステップS241及びステップS242の処理を全てのクラスタに対して行う。図13に示される一連の処理によって、例えば図14に示される代表専門用語選定結果が得られる。
【0048】
キーワード提示UI109は、キーワード選定部108からのキーワード選定結果を例えば表示デバイスを介して提示する。キーワード提示UI109は、例えば図15に示される形式でキーワードを提示する。キーワードの提示形式は、特に限定されないが、クラスタ間の区別がユーザに認識されやすいように提示することが好ましい。クラスタ間の区別は、典型的には、各クラスタについて選定されたキーワードの表示位置、表示期間、表示サイズ、表示カラー、マーキングなどによって実現される。更に、各クラスタについて選定されたキーワードの全てが必ずしも一斉に提示される必要はない。例えば、キーワード提示UI109は、キーワードの一部(例えば、基本用語、一部のクラスタについて選択されたキーワードなど)を最初に表示し、ユーザ操作に応じて他のキーワード(例えば、代表専門用語、他のクラスタについて選択されたキーワード)を追加的或いは代替的に表示してもよい。
【0049】
以上説明したように、第1の実施形態に係るキーワード提示装置は、文書集合から基本用語候補及び専門用語を個別に抽出し、抽出した専門用語と関連性の高い基本用語候補を基本用語として選定する。従って、本実施形態に係るキーワード提示装置によれば、専門用語と関連性の高い基本用語が選定されるので、キーワード提示時にユーザが基本用語−専門用語間の関係を推測しやすい。
【0050】
また、本実施形態に係るキーワード提示装置は、選定した基本用語を概念的な相関度及び統計的な相関度の重み付き和に基づいてクラスタリングし、クラスタリング結果に応じてキーワードを選定及び提示する。従って、本実施形態に係るキーワード提示装置によれば、文書集合の規模によらずに基本用語間の相関度を妥当に評価できるので、適切なクラスタリングを実現しやすい。また、各クラスタを構成する基本用語をキーワードとして提示することにより、ユーザが各クラスタの概要を把握しやすくなる。また専門用語も併せてキーワードとして提示する事により、ユーザが各クラスタの具体的な内容も把握しやすくなる。
【0051】
(第2の実施形態)
第2の実施形態に係るキーワード提示装置は、図16に示されるように、文書集合記憶部100、基本用語候補抽出部101、汎用概念辞書記憶部102、基本用語候補リスト記憶部103、専門用語抽出部104、専門用語リスト記憶部105、基本用語選定部306、基本用語クラスタリング部307、キーワード選定部308、キーワード提示UI309、選択キーワードリスト記憶部310及び文書検索部311を含む。尚、本実施形態において第1の実施形態と同一部分には同一符号を付して示し、異なる部分を中心に述べる。
【0052】
キーワード提示UI309は、キーワードをユーザに提示するだけでなく、提示したキーワードのうち1つまたは複数を選択する入力を受理する。例えば、キーワード提示UI309は、図20及び図21に示されるように、キーワードと当該キーワードを選択するためのGUI(Graphical User Interface)部品(例えばチェックボックス)を提示してもよい。キーワード提示UI309は、選択されたキーワード(以降、選択キーワードと称する)を選択キーワードリスト記憶部310に記憶させる。尚、係る入力は、キーワード提示UI309とは異なるUI(図示しない)によって受理されても勿論よい。本実施形態に係るキーワード提示装置は、この選択キーワードに基づいて、キーワードを再選定及び提示する。
【0053】
更に、キーワード提示UI309は、後述するように選択キーワードを用いて絞り込み検索を行った結果を提示してもよい。典型的には、キーワード提示UI309は、検索された文書集合に含まれる各文書のタイトルをリスト形式で提示する。また、キーワード提示UI309は、各文書の抜粋、各文書の要約、各文書において選択キーワードを含む文脈、各文書に含まれるキーワードなどの各文書に関する情報を代替的に或いは追加的に提示してもよい。
【0054】
選択キーワードリスト記憶部310には、キーワード提示UI309からの選択キーワードが例えば図19及び図22に示されるようなリスト形式で記憶される。尚、好ましくは、選択キーワードリスト記憶部310において、少なくとも直前に選択されたキーワードが識別可能な形式で、選択キーワードが記憶される。
【0055】
文書検索部311は、選択キーワードリスト記憶部310から選択キーワードを読み出し、当該選択キーワードを用いて文書集合記憶部100に記憶された文書集合に絞り込み検索を行う。典型的には、文書検索部311は、直前に選択されたキーワードを含む文書を文書集合から絞り込む。尚、複数の直前に選択されたキーワードが存在するならば、文書検索部311は係る複数の選択キーワードを用いてOR検索、AND検索などを行ってよい。
【0056】
文書検索部311は、検索した文書の集合(以降、部分文書集合とも称する)を基本用語クラスタリング部307、キーワード選定部308及びキーワード提示UI309に入力する。尚、文書検索部311は、選択キーワードリスト記憶部310に選択キーワードが記憶されていなければ、文書集合記憶部100に記憶された文書集合を基本用語クラスタリング部307、キーワード選定部308及びキーワード提示UI309に入力する。
【0057】
基本用語選定部306は、選択キーワードリスト記憶部310に記憶されている選択キーワードを参照し、選択キーワードの語彙カテゴリーに応じて動作を切り替える。具体的には、基本用語選定部306は、図18に示されるような選定語彙カテゴリー設定ルールに従って、基本用語として選定する語彙のカテゴリーを制限する。
【0058】
図18の例によれば、直前に選択されたキーワードの語彙カテゴリーが「サ変名詞」であれば、基本用語選定部306は「その他名詞(即ち、サ変名詞以外の名詞)」に該当する基本用語候補を選定する(或いは、該当する基本用語候補を優先して選定する)。一方、直前に選択されたキーワードの語彙カテゴリーが「その他名詞」であれば、基本用語選定部306は「サ変名詞」に該当する基本用語候補を選定する(或いは、該当する基本用語候補を優先して選定する)。係る動作によれば、直前に選択されたキーワードが「行為」を示唆する「サ変名詞」である場合には、その「行為」の「対象」を示唆する「その他名詞」が基本用語として選定されやすくなる。また、直前に選択されたキーワードが「対象」を示唆する「その他名詞」である場合には、その「対象」への「行為」を示唆する「サ変名詞」が基本用語として選定されやすくなる。即ち、係る動作によれば、選択キーワードと、当該選択キーワードに基づいて再選定されるキーワード間の関係(「行為」−「対象」または「対象」−「行為」)が明確となりやすい。
【0059】
また、直前に選択されたキーワードが存在しない場合(即ち、初回)には、基本用語選定部306は例えば「サ変名詞」に該当する基本用語候補を選定する(或いは、該当する基本用語を優先して選定する)。「サ変名詞」は、「その他名詞」に比べて適切なクラスタリングを実現しやすいので、初回の選定語彙カテゴリーに適している。勿論、図18において、係る選定語彙カテゴリーを第1の実施形態と同様に「サ変名詞」+「その他名詞」(即ち、「名詞」全体)に置き換えたり、「その他名詞」に置き換えたりすることも可能である。
【0060】
更に、直前に選択されたキーワードが基本用語でなく専門用語に該当する場合には、基本用語選定部306は「名詞」に該当する基本用語候補を選定する。勿論、図18において、係る選定語彙カテゴリーを「サ変名詞」に置き換えたり、「その他名詞」に置き換えたりすることも可能である。尚、複数のキーワードが一緒に選択された場合には、一律に何らかを選定語彙カテゴリーを設定したり、複数の選択キーワードに何らかの解析(例えば、該当数の多い語彙カテゴリーの探索)を行い、その結果に基づいて選定語彙カテゴリーを設定したりしてもよい。
【0061】
以下、図17を用いて基本用語選定部306の動作例を説明する。尚、図17と図7との間で共通する部分の説明は省略する。
処理がステップS211からステップS212へ遷移するよりも前に、基本用語選定部306は直前に選択されたキーワードに応じて、選定語彙カテゴリーを設定する(ステップS410)。尚、ステップS410及びステップS211の処理順序は、図17と逆であってもよい。
【0062】
ステップS414において、基本用語選定部306は、処理対象専門用語の一部(即ち、部分文字列)に一致し、かつ、ステップS410において設定した選定語彙カテゴリーに該当する基本用語候補の出現頻度をカウントする。
【0063】
例えば、直前に選択されたキーワードが存在しなければ、ステップS410において、基本用語選定部306は図18に例示される選定語彙カテゴリー設定ルールに従って「サ変名詞」を選定語彙カテゴリーとして設定する。そして、ステップS414において、処理対象専門用語が「画像検索」であれば、基本用語選定部306は「画像検索」の一部に一致し、かつ、「サ変名詞」に該当する基本用語候補「検索」の出現頻度をカウントする。その後、この「検索」が、キーワードの1つとして提示され、ユーザによって選択されたと仮定する。キーワードの選択に応じて、基本用語選定部306は図17に例示される動作を再び開始する。
【0064】
直前に選択されたキーワードが「検索」(サ変名詞)であるので、ステップS410において、基本用語選定部306は図18に例示される選定語彙カテゴリー設定ルールに従って、「その他名詞」を選定語彙カテゴリーとして設定する。そして、ステップS414において、処理対象専門用語が「画像検索」であれば、基本用語選定部306は「画像検索」の一部に一致し、かつ、「その他名詞」に該当する基本用語候補「画像」の出現頻度をカウントする。
【0065】
基本用語クラスタリング部307は、基本用語クラスタリング部107と同様に、基本用語選定部306によって選定された基本用語をクラスタリングし、複数のクラスタを作成する。但し、基本用語クラスタリング部307は、前述の統計的な相関度を文書検索部311からの文書集合に基づいて計算する。基本用語クラスタリング部307は、クラスタリング結果をキーワード選定部308に入力する。
【0066】
また、基本用語クラスタリング部307は、特定のクラスタに基本用語が集中する事態を回避するために、クラスタの併合において例外処理を実行してもよい。例えば、特定のクラスタを構成する基本用語のうちの少なくとも1つの出現する文書数の、文書検索部311から入力される総文書数に対する割合が一定以上になる場合に、基本用語クラスタリング部307は当該特定のクラスタを併合の対象から除外してもよい。
【0067】
キーワード選定部308は、選択キーワードを選定対象から排除したうえで、文書検索部311からの文書集合に基づいてキーワード選定部108と同一または類似の処理を行う。特に、キーワード選定部308は文書検索部311からの文書集合に基づいて処理を行うので、直前に選択されたキーワードと共起関係にある専門用語が代表専門用語として選定されやすい。
【0068】
以下、本実施形態に係るキーワード提示装置の動作例を説明する。
基本用語選定部306の初回の動作時には直前に選択されたキーワードが存在しないので、図18によれば、基本用語選定部306は「サ変名詞」を選定語彙カテゴリーに設定する。そして、基本用語選定部306は、基本用語候補から「表示」、「テスト」、「検査」、「検索」、「設計」、「抽出」、「分類」、「処理」を基本用語として選定する。基本用語クラスタリング部307は、これら基本用語にクラスタリングを行い、下記のクラスタリング結果を得る。
【0069】
クラスタID1:「表示」「処理」
クラスタID2:「テスト」「検査」
クラスタID3:「検索」「分類」「抽出」
キーワード選定部308は、上記クラスタリング結果に従ってキーワードを選定する。例えば、キーワード選定部308は、各クラスタの代表専門用語(クラスタID1:「画像処理」「画面表示」、クラスタID2:「単体テスト」「総合検査」「統合テスト」、クラスタID3:「画像検索」「文書分類」「情報抽出」)を選定し、基本用語及び代表専門用語をキーワードとしてキーワード提示UI309に入力する。キーワード提示UI309は、例えば図20に示される形式でキーワードを提示する。
【0070】
ユーザは、提示されたキーワードのうち例えば「検索」を選択する(例えば、図20において「検索」の左隣に提示されたチェックボックスをチェックする)。この選択キーワード「検索」は、例えば図19に示される形式で選択キーワードリスト記憶部310に記憶される。文書検索部311は、選択キーワード「検索」を選択キーワードリスト記憶部310から読み出し、当該選択キーワード「検索」を用いて文書集合記憶部100に記憶されている文書集合に絞り込み検索を行う。典型的には、文書検索部311は、選択キーワード「検索」を含む文書を文書集合から絞り込む。文書検索部311は、部分文書集合を基本用語クラスタリング部307、キーワード選定部308及びキーワード提示UI309に入力する。
【0071】
直前に選択されたキーワード「検索」(サ変名詞)を受けて、基本用語選定部306は、「その他名詞」を選定語彙カテゴリーに設定する。そして、基本用語選定部306は、基本用語候補から「画像」、「文書」、「概念」、「全文」、「単体」、「エラー」、「基本」、「画面」、「詳細」、「索引」を基本用語として選定する。基本用語クラスタリング部307は、係る基本用語にクラスタリングを行い、下記のクラスタリング結果を得る。尚、前述の通り、基本用語クラスタリング部307は、文書検索部311からの部分文書集合に基づいて基本用語間の統計的な相関度を計算する。
【0072】
クラスタID1:「文書」「概念」「全文」「索引」
クラスタID2:「画像」「画面」
クラスタID3:「単体」「エラー」「基本」「詳細」
キーワード選定部308は、上記クラスタリング結果に従ってキーワードを選定する。例えば、キーワード選定部308は、各クラスタの代表専門用語(クラスタID1:「文書検索」「概念検索」「語彙検索」、クラスタID2:「画像検索」「画像索引」、クラスタID3:「検索エラー」「基本設計」「詳細設計」)を選定し、基本用語の一部及び代表専門用語をキーワードとしてキーワード提示UI309に入力する。キーワード提示UI309は、例えば図21に示される形式でキーワードを提示する。更に、図21の例では、キーワード提示UI309は、選択キーワード「検索」を用いて検索された文書集合に含まれる各文書のタイトルをリスト形式で提示している。
【0073】
ユーザは、提示されたキーワードのうち例えば「語彙索引」を更に選択できる。選択キーワード「語彙索引」の追加により、選択キーワードリスト記憶部310の記憶内容は図22に示されるように更新される。キーワードが追加的に選択される場合に、過去の選択キーワード(本例では、「検索」)は様々な方法で取り扱うことができる。例えば、過去の選択キーワード「検索」を単に破棄してもよいし、複数のキーワード「検索」、「語彙索引」が一度に選択されたとみなしてキーワードの再選定及び提示を行ってもよい。更に、過去の選択キーワード「検索」を文書の絞り込み検索、キーワードの選定などには利用せずに、検索された文書集合に含まれる各文書の優先度(例えば、提示順序)の決定に利用してもよい。例えば、キーワード提示UI309は、選択キーワード「語彙索引」を用いて部分文書集合について過去の選択キーワード「検索」のTF(Term Frequency)−IDF(Inverse Document Frequency)を計算して、その降順に各文書に関する情報をランキング形式で提示したりしてもよい。
【0074】
以上説明したように、第2の実施形態に係るキーワード提示装置は、ユーザからの選択キーワードを用いて文書集合に絞り込み検索を行い、基本用語を再クラスタリングし、キーワードを再選定する。従って、本実施形態に係るキーワード提示装置によれば、ユーザが選択したキーワードと関連するキーワードを再選定及び提示できる
例えば、上記各実施形態の処理を実現するプログラムを、コンピュータで読み取り可能な記憶媒体に格納して提供することも可能である。記憶媒体としては、磁気ディスク、光ディスク(CD−ROM、CD−R、DVD等)、光磁気ディスク(MO等)、半導体メモリなど、プログラムを記憶でき、かつ、コンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であってもよい。
【0075】
また、上記各実施形態の処理を実現するプログラムを、インターネットなどのネットワークに接続されたコンピュータ(サーバ)上に格納し、ネットワーク経由でコンピュータ(クライアント)にダウンロードさせてもよい。
【0076】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0077】
100・・・文書集合記憶部
101・・・基本用語候補抽出部
102・・・汎用概念辞書記憶部
103・・・基本用語候補リスト記憶部
104・・・専門用語抽出部
105・・・専門用語リスト記憶部
106・・・基本用語選定部
107・・・基本用語クラスタリング部
108・・・キーワード選定部
109・・・キーワード提示UI
306・・・基本用語選定部
307・・・基本用語クラスタリング部
308・・・キーワード選定部
309・・・キーワード提示UI
310・・・選択キーワードリスト記憶部
311・・・文書検索部

【特許請求の範囲】
【請求項1】
文書集合から、所定の汎用概念辞書に規定されている形態素列を複数の基本用語候補として抽出する第1の抽出部と、
前記文書集合から、前記汎用概念辞書に規定されていない形態素列を専門用語として抽出する第2の抽出部と、
前記基本用語候補の各々と前記専門用語との間の関連性を評価し、前記関連性の高い基本用語候補を優先的に基本用語として選定する第1の選定部と、
前記文書集合に基づく基本用語間の統計的な相関度と前記汎用概念辞書に基づく基本用語間の概念的な相関度との重み付き和を計算し、当該重み付き和に基づいて前記基本用語をクラスタリングするクラスタリング部と、
前記基本用語のクラスタリング結果に基づいて、各クラスタのキーワードを前記基本用語及び前記専門用語から選定する第2の選定部と、
選定されたキーワードを提示する提示部と
を具備する、キーワード提示装置。
【請求項2】
前記概念的な相関度に与えられる重みは、前記文書集合に含まれる総文書数が少なくなるほど前記統計的な相関度に与えられる重みに比べて相対的に大きくなる、請求項1のキーワード提示装置。
【請求項3】
前記提示部によって提示されたキーワードから選択されたキーワードを用いて前記文書集合に絞り込み検索を行い、部分文書集合を得る検索部を更に具備し、
前記クラスタリング部は、前記部分文書集合に基づく基本用語間の統計的な相関度と前記汎用概念辞書に基づく基本用語間の概念的な相関度との重み付き和を計算し、当該重み付き和に基づいて前記基本用語を再クラスタリングし、
前記第2の選定部は、前記基本用語の再クラスタリング結果に基づいて各クラスタのキーワードを前記基本用語及び前記専門用語から再選定し、
前記提示部は、再選定されたキーワードを提示する、
請求項1のキーワード提示装置。
【請求項4】
前記第1の選定部は、前記選択されたキーワードによって決まる語彙カテゴリーに該当し、かつ、前記関連性の高い基本用語候補を優先的に前記基本用語として再選定する、請求項3のキーワード提示装置。
【請求項5】
前記提示部は、過去に選択されたキーワードを用いて前記部分文書集合に含まれる各文書の優先度を決定し、前記優先度に従って前記部分文書集合に含まれる各文書に関する情報を提示する、請求項3のキーワード提示装置。
【請求項6】
前記第1の抽出部は、前記文書集合に含まれる各文書に形態素解析を行い、所定の品詞に一致し、かつ、前記汎用概念辞書に規定されている形態素列を前記基本用語候補として抽出する、請求項1のキーワード提示装置。
【請求項7】
前記第2の抽出部は、前記文書集合における形態素列の出現パターンに基づいて各形態素列が単独の用語であるか否かを判定し、前記単独の用語であると判定され、かつ、前記汎用概念辞書に規定されていない形態素列を前記専門用語として抽出する、請求項1のキーワード提示装置。
【請求項8】
前記第2の選定部は、前記クラスタリング結果において各クラスタを構成する基本用語を含む文書を前記文書集合から取得し、取得した文書における前記専門用語の出現文書数に基づいて前記専門用語から各クラスタのキーワードを選定し、前記各クラスタを構成する基本用語の一部または全部を各クラスタのキーワードとして更に選定する、請求項1のキーワード提示装置。
【請求項9】
文書集合から、所定の汎用概念辞書に規定されている形態素列を複数の基本用語候補として抽出することと、
前記文書集合から、前記汎用概念辞書に規定されていない形態素列を専門用語として抽出することと、
前記基本用語候補の各々と前記専門用語との間の関連性を評価し、前記関連性の高い基本用語候補を優先的に基本用語として選定することと、
前記文書集合に基づく基本用語間の統計的な相関度と前記汎用概念辞書に基づく基本用語間の概念的な相関度との重み付き和を計算し、当該重み付き和に基づいて前記基本用語をクラスタリングすることと、
前記基本用語のクラスタリング結果に基づいて、各クラスタのキーワードを前記基本用語及び前記専門用語から選定することと、
選定されたキーワードを提示することと
を具備する、キーワード提示方法。
【請求項10】
コンピュータを
文書集合から、所定の汎用概念辞書に規定されている形態素列を複数の基本用語候補として抽出する第1の抽出手段、
前記文書集合から、前記汎用概念辞書に規定されていない形態素列を専門用語として抽出する第2の抽出手段、
前記基本用語候補の各々と前記専門用語との間の関連性を評価し、前記関連性の高い基本用語候補を優先的に基本用語として選定する第1の選定手段、
前記文書集合に基づく基本用語間の統計的な相関度と前記汎用概念辞書に基づく基本用語間の概念的な相関度との重み付き和を計算し、当該重み付き和に基づいて前記基本用語をクラスタリングするクラスタリング手段、
前記基本用語のクラスタリング結果に基づいて、各クラスタのキーワードを前記基本用語及び前記専門用語から選定する第2の選定手段、
選定されたキーワードを提示する提示手段
として機能させるための、キーワード提示プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate