説明

キーワード抽出装置、キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出システム

【課題】複数の文書からなる文書集合に対して、文書集合を構成する各文書のキーワードを、文書集合全体のキーワードと併せて、精度よく抽出する。
【解決手段】複数の文書に基づく文書集合のテキスト情報から、文書集合の全体としてのキーワードを抽出する集合ワード抽出部113と、文書集合のテキスト情報から、文書集合の各文書におけるキーワードを、文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出部114と、文書集合の各文書について、集合ワード抽出部113により抽出されたキーワードのうち当該文書に含まれるキーワードと、文書ワード抽出部114により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定部112と、を備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、キーワード抽出装置、キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出システムに関する。
【背景技術】
【0002】
日本語の文章から成る文書の概要を知りたい場合や、その文書を検索するための検索ワードを予め用意しておきたい場合等に、その文書のキーワードを抽出する方法が取られる。日本語の文書からキーワードを抽出する手法として、その文書を構成するそれぞれの文を形態素に分解し、各形態素に対してTF(単語の出現頻度:Term Frequency)−IDF(逆出現頻度:Inverse Document Frequency)値等の重要度を表す指標を計算し、その指標の高い形態素をその文書のキーワードとする技術が知られている。
【0003】
また、例えば、特許文献1には、複数文書を話題ごとに分類することを目的とし、文書からキーワードを抽出し、そのキーワードに基づき、文書同士が同一の話題を扱っているかを判定する文書集約方法に関する技術が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、単に文章を形態素に分解し、それぞれの形態素について重要度を計算する方法では、複数ページからなるスライド文書のように、共通する話題を持った文書の集合体について、それぞれの文書に特有のキーワードを的確に抽出することができないという問題があった。
【0005】
ここで、スライド文書の場合は、各ページを一つの文書と見なすことにより、スライド全体を複数の文書(=ページ)の集合体と見なすことができる。また、通常の文書においても構造化された文書であれば、各構造を一つの文書と見なすことで、文書全体を複数の文書(=構造)の集合体と見なすことができる。
【0006】
しかしながら、このような集合体(文書集合ともいう)を構成する各文書は、共通した話題について書かれているため、各文書に対して、日本語一般としてのキーワードを抽出しようとすると、それぞれの文書間でのキーワードの違いが少なくなってしまうという問題がある。
【0007】
また、逆に集合体を構成する他の文書との比較において重要なキーワードを抜き出そうとすると、他の文書とは違った言葉を抜き出そうとするがために、文書集合全体で共通する話題を表すようなキーワードが抜け落ちてしまうという問題があった。
【0008】
上記特許文献1に記載の技術では、似た話題の文書それぞれにおいてキーワードを抽出しているが、文書間に共通する話題のキーワードと各書特有のキーワードの双方に考慮したキーワードについては、同時に抽出することができないという問題を解消することはできなかった。
【0009】
そこで本発明は、複数の文書から成る文書集合のそれぞれの文書のキーワードを抽出し、文書集合そのものを表すキーワードを残しながらも、各文書間の違いが分かるようなキーワードをも抽出できるようにすることができるキーワード抽出装置、キーワード抽出方法、キーワード抽出プログラムおよびキーワード抽出システムを提供することを目的とする。
【課題を解決するための手段】
【0010】
かかる目的を達成するため、請求項1に記載のキーワード抽出装置は、複数の文書に基づく文書集合のテキスト情報から、文書集合の全体としてのキーワードを抽出する集合ワード抽出手段と、文書集合のテキスト情報から、文書集合の各文書におけるキーワードを、文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出手段と、文書集合の各文書について、集合ワード抽出手段により抽出されたキーワードのうち当該文書に含まれるキーワードと、文書ワード抽出手段により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定手段と、を備えたものである。
【0011】
また、請求項2に記載の発明は、請求項1に記載のキーワード抽出装置において、集合ワード抽出手段は、形態素と該形態素の日本語としての特異度との対応付けを記憶したコスト記憶テーブルを参照して、各文書を構成する各形態素の特異度を計算し、該特異度に基づいて文書集合の全体としてのキーワードを抽出するものである。
【0012】
また、請求項3に記載の発明は、請求項1または2に記載のキーワード抽出装置において、文書ワード抽出手段は、当該文書における形態素の出現頻度および文書集合の全体における該形態素の逆出現頻度に基づいて、各文書におけるキーワードを抽出するものである。
【0013】
また、請求項4に記載の発明は、請求項1から3までのいずれかに記載のキーワード抽出装置において、集合ワード抽出手段により抽出されたキーワードと、文書ワード抽出手段により抽出されたキーワードと、を識別可能に表示させるキーワード表示手段を備えたものである。
【0014】
また、請求項5に記載の発明は、請求項1から4までのいずれかに記載のキーワード抽出装置において、文書集合のテキスト情報は、ユーザにより入力された複数の文書、または、ユーザにより入力された電子ファイルから抽出された文書に基づくものである。
【0015】
また、請求項6に記載の発明は、請求項5に記載のキーワード抽出装置において、複数の文書または電子ファイルを入力する入力手段と、抽出されたキーワードを表示する出力手段と、をさらに備えたものである。
【0016】
また、請求項7に記載のキーワード抽出方法は、複数の文書に基づく文書集合のテキスト情報から、文書集合の全体としてのキーワードを抽出する集合ワード抽出処理と、文書集合のテキスト情報から、文書集合の各文書におけるキーワードを、文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出処理と、文書集合の各文書について、集合ワード抽出処理により抽出されたキーワードのうち当該文書に含まれるキーワードと、文書ワード抽出処理により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定処理と、を行うようにしている。
【0017】
また、請求項8に記載のキーワード抽出プログラムは、コンピュータに、複数の文書に基づく文書集合のテキスト情報から、文書集合の全体としてのキーワードを抽出する集合ワード抽出処理と、文書集合のテキスト情報から、文書集合の各文書におけるキーワードを、文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出処理と、文書集合の各文書について、集合ワード抽出処理により抽出されたキーワードのうち当該文書に含まれるキーワードと、文書ワード抽出処理により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定処理と、を実行させるものである。
【0018】
また、請求項9に記載のキーワード抽出システムは、キーワード抽出装置とネットワークを介して接続されるクライアント端末からなるキーワード抽出システムであって、キーワード抽出装置は、複数の文書に基づく文書集合のテキスト情報から、文書集合の全体としてのキーワードを抽出する集合ワード抽出手段と、文書集合のテキスト情報から、文書集合の各文書におけるキーワードを、文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出手段と、文書集合の各文書について、集合ワード抽出手段により抽出されたキーワードのうち当該文書に含まれるキーワードと、文書ワード抽出手段により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定手段と、を備え、クライアント端末は、複数の文書を入力する入力手段と、キーワード決定手段が決定したキーワードを表示する出力手段と、を備えたものである。
【発明の効果】
【0019】
本発明によれば、複数の文書からなる文書集合に対して、文書集合を構成する各文書のキーワードを、文書集合全体のキーワードと併せて、精度よく抽出することができる。
【図面の簡単な説明】
【0020】
【図1】キーワード抽出装置のハードウェア構成図の一例である。
【図2】キーワード抽出システムの概略構成図の一例である。
【図3】キーワード抽出装置およびクライアント端末の機能ブロック図の一例である。
【図4】キーワード抽出処理の概要を示すフローチャートである。
【図5】文書入力画面の一例である。
【図6】キーワード決定処理の詳細を示すフローチャートである。
【図7】集合ワード抽出処理の詳細を示すフローチャートである。
【図8】コスト記憶テーブルの説明図である。
【図9】文書ワード抽出処理の詳細を示すフローチャートである。
【図10】キーワード表示画面の一例である。
【図11】他の実施形態に係るキーワード抽出装置およびクライアント端末の機能ブロック図である。
【図12】キーワード表示画面の他の例である。
【図13】キーワード表示画面の他の例である。
【図14】他の実施形態に係るキーワード抽出装置の機能ブロック図である。
【発明を実施するための形態】
【0021】
以下、本発明に係る構成を図1から図14に示す実施の形態に基づいて詳細に説明する。
【0022】
本実施形態に係るキーワード抽出装置は、複数の文書(以下、文書集合ともいう)に基づく文書集合のテキスト情報から、文書集合の全体としてのキーワードを抽出する集合ワード抽出手段(集合ワード抽出部113)と、文書集合のテキスト情報から、文書集合の各文書におけるキーワードを、文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出手段(文書ワード抽出部114)と、文書集合の各文書について、集合ワード抽出手段により抽出されたキーワードのうち当該文書に含まれるキーワードと、文書ワード抽出手段により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定手段(キーワード決定部112)と、を備えたものである。
ものである。
【0023】
より詳しくは、先ず、日本語からなる文書集合全体の文書を形態素に分解し、各形態素に対して日本語として特異度を表す指標を計算することにより、文書集合全体としてのキーワードを抽出し、一方で、文書集合を構成する各文書のキーワードについては、文書集合全体に対しての特異度を表す指標を計算することにより抽出し、さらに、文書集合全体でのキーワードが、その文書に含まれる場合、そのキーワードについてもその文書のキーワードとするものである。
【0024】
(キーワード抽出装置・キーワード抽出システム)
本実施形態に係るキーワード抽出装置のハードウェア構成図の一例を図1に示す。キーワード抽出装置100は、例えば、汎用のサーバ、ワークステーション、パーソナルコンピュータ等により構成され、CPU131と、メモリ132と、ディスプレイアダプタ133を介してディスプレイスクリーン134などの表示装置(出力手段)と、プリンタ、FAX、スキャナ等の外部入出力装置135を接続するシリアルポート136と、記憶装置(ROM等)137と、キーボード138、ポインティングデバイス139等の入力装置(入力手段)とを相互接続するバス140を含む。その他、音声インタフェース141や無線LANを含むネットワークインタフェース142など多くのデバイスを接続できる。例えば、ネットワークインタフェース142を通して、電子メールやFTPなどの電子ファイル転送やWWWなどのネットワークサービス143を利用することができる。
【0025】
キーワード抽出システムの概略構成図を図2に示す。キーワード抽出システム300は、キーワード抽出装置100に、イントラネットやインターネットなどのネットワーク301を介してクライアント端末200が接続されて構成される。なお、クライアント端末200としては、例えば、汎用のパーソナルコンピュータを用いることができ、図1と同様のハードウェア構成を有している。
【0026】
キーワード抽出システム300におけるキーワード抽出装置100は、クライアント端末200においてユーザが入力した複数の文書について、各文書に特有のキーワードおよび文書集合全体としてのキーワードを抽出し、クライアント端末200にその結果を表示するものである。
【0027】
具体的には、例えば、ユーザは、クライアント端末200のブラウザ201上で複数の文書を入力し、該文書がネットワーク301を介して、キーワード抽出装置100に送信され、キーワード抽出装置100によって以下に説明するように、該文書集合についてのキーワードの抽出処理が実行され、クライアント端末200に抽出結果を表示させ、ユーザはブラウザ201上で抽出されたキーワードを確認することができるものである。
【0028】
次に、本実施形態に係るキーワード抽出装置およびクライアント端末の機能ブロック図の一例を図3に示す。キーワード抽出装置100は、処理部110として、クライアント端末200からネットワーク300を介して、文書をテキスト情報として受信する文書受信部111、文書受信部111の受信した複数の文書の、各々についてキーワードを決定するキーワード決定部112、複数の文書から成る文書集合全体としてのキーワードを抽出する集合ワード抽出部113、複数の文書から成る文書集合中の各々の文書について、文書集合全体と比較して、その文書に特徴的な言葉をキーワードとして抽出する文書ワード抽出部114、キーワード決定部の決定したキーワードを表示させるキーワード表示部(キーワード表示手段)115を備え、また、記憶部(DB部)120として、言葉の日本語としての特異性の高さを表すコストを保持するコスト記憶部121を備えている。なお、本実施形態における複数の文書は、共通するキーワードを抽出するものであるので、話題(内容)に共通部分を有していることが好適であることは勿論である。
【0029】
また、クライアント端末200は、キーワード表示部115による表示結果を受け、当該結果を、ブラウザ201を介して表示するものである。なお、クライアント端末200は必須ではなく、キーワード抽出装置100のキーボード138等の入力装置から入力された文書について、キーワード抽出処理を実行し、キーワード表示部115による表示結果をキーワード抽出装置100のディスプレイスクリーン134等の表示装置に表示するようにしても良い(後述する図14参照)。
【0030】
(キーワード抽出処理)
次に、キーワード抽出装置100が実行するキーワード抽出処理(本発明に係るキーワード抽出方法)の概要を図4のフローチャートを用いて説明する。
【0031】
まず、クライアント端末200の表示装置に表示される文書入力画面202から、ユーザは、図5に示すように、複数の文書をテキストで入力する。該複数の文書は、文書受信部111によりテキスト情報(文書集合のテキスト情報)として受信される(S101)。
【0032】
キーワード決定部112は、文書集合を集合ワード抽出部113に受け渡し、返り値として文書集合全体でのキーワードを取得する(S102)。また、キーワード決定部112は、同じ文書集合を文書ワード抽出部114に受け渡し、返り値として各文書におけるキーワードを取得する(S103)。
【0033】
そして、キーワード決定部112は、集合ワード抽出部113および文書ワード抽出部114から取得した各キーワードに基づき、各文書に対するキーワードを決定する(S104)。最後に、もとの複数の文書とともにキーワード表示部115に渡し、キーワード表示部115は、キーワード抽出結果を表示するものである(S105)。
【0034】
さらに、キーワード決定部112によるキーワード決定処理について図6のフローチャートを用いて説明する。キーワード決定部112は、先ず、文書受信部111からユーザの入力した複数の文書のテキスト情報を得る(S201)。ここで、受信する文書の数をnとする。
【0035】
次に、その各文書のテキスト情報を、集合ワード抽出部113に渡し、返り値として文書集合全体としてのキーワードword0,1〜word0,pを得る(S202、図4のS102に相当)。なお、添え字0は文書集合のキーワードであることを示し、pは集合ワード抽出部113により決定される文書集合のキーワードの数を示している(後述する)。
【0036】
さらに、同じ各文書のテキスト情報を、文書ワード抽出部114に渡し、返り値として各文書のキーワードwordi,1〜wordi,qを得る(S203、図4のS103に相当)。なお、添え字iは文書の番号を示しており、i=1,・・・,nである。また、qは文書ワード抽出部114により決定される一つの文書から抽出するキーワードの数を示している(後述する)。
【0037】
そして、文書i(i=1,・・・,n)について、wordi,1〜wordi,qをその文書特有のキーワードとし、かつ、word0,1〜word0,pのうち当該文書iに存在するすべてのワードを文書集合の話題に関わるその文書iのキーワードとする。すなわち、当該2種類のキーワードを合わせて文書iのキーワードとして決定する(S204、図4のS103に相当)。以下、各処理の詳細について説明する。
【0038】
<集合ワード抽出処理>
上記集合ワード抽出部113による処理の詳細を図7のフローチャートを用いて説明する。集合ワード抽出部113は、先ず、キーワード決定部112から文書のテキスト情報を得る(S301)。
【0039】
次に、その各文書について以下の処理を実行する(S302〜S306)。先ず、文書iを形態素に分解する(S303)。形態素への分解処理については、公知または新規の手法によれば良く、特に限られるものではないが、例えばChaSen(茶筌)やMeCab(和布蕪)等の公知の形態素解析エンジンをライブラリとして用いることができる。
【0040】
そして、形態素毎にその文書に含まれる数をカウントし、形態素jの文書iにおける出現頻度をF(i,j)とする(S303)。ここで、名詞などキーワードになり得やすい品詞以外は、キーワードの候補とせず出現頻度のカウントも行わないことが好ましい。
【0041】
さらに、各形態素のその文書におけるTF値(単語の出現頻度:Term Frequency)を、数式1により、計算し、文書集合におけるTF値tf(j)に加算する(S304)。なお、TF値とは、ある文書(文書i)におけるある単語(形態素j)の出現回数をその文書中に出現する単語のバリエーション数(形態素数)で割った値である。
【数1】

【0042】
なお、数式1の右辺におけるtf(j)の値が、本式を計算する時点で存在しない場合は0とする。また、tf(j)の値が他の文書によってすでに得られている場合には、その値に対して加算する。
【0043】
上記処理(S303〜S304)をすべての文書について行う(S305,S306)。この結果、文書集合に含まれる形態素の種類の数だけtf(j)が存在することとなる。但し、キーワードの候補から外した形態素については除かれる。
【0044】
その結果、得られたtf(j)に対して、さらに形態素jに対応する固有の値であるidf(j)との積を求める(S307、次式(2))。
tf・idf(j)=tf(j)・idf(j) …(2)
【0045】
ここで、IDF値(逆出現頻度:Inverse Document Frequency)はその形態素の日本語としての出現のしにくさによって求められる値(特異性の高さを示す指標)である。
【0046】
なお、IDF値は、形態素をキーとしたデータベースとして記憶部120に記録しておくことが好ましい。本実施形態では、図8に示すようなコスト記憶テーブル122として記憶部120のコスト記憶部121に記録するようにしている。
【0047】
コスト記憶テーブル122は、各形態素をキーとして、対応するIDF値が格納された辞書形式のデータベースである。なお、IDF値の算出方法は、公知または新規の手法によれば良く、特に限られるものではないが、例えば、ニュース記事など一般性の高い文書の集合を用意し、集合に含まれる全文書の数を、その文書の中で形態素jを含む文書の数で割ることや、インターネット上の全文検索エンジンを用い、その検索エンジンが検索可能な文書数を、その形態素jにより検索した結果得られる文書数で割ることで求めた値に対し、さらに自然対数を計算して求めることができる。
【0048】
上記式(2)により得られるTF−IDF値(tf・idf(j))がその形態素jのその文書における日本語としての特異性を表す指標となる。最後に、集合ワード抽出部113はそのtf・idf(j)が高い順にp個の形態素(返り値、word0,1〜word0,p)を、文書集合のキーワードとして出力する(S308)。なお、pは、任意の値であり、例えば、nを定数で割った値とすることができる。
【0049】
<文書ワード抽出処理>
上記文書ワード抽出部114による処理の詳細を図9のフローチャートを用いて説明する。文書ワード抽出部114は、先ず、キーワード決定部112から文書のテキスト情報を得る(S401)。
【0050】
次に、その各文書について以下の処理を実行する(S402〜S406)。先ず、文書iを形態素に分解する(S403)。形態素への分解処理については、集合ワード抽出部113と同様の処理によれば良い。
【0051】
そして、形態素毎にその文書に含まれる数をカウントし、形態素jの文書iにおける出現頻度をtf(i,j)とする(S403)。なお、名詞などキーワードになり得やすい品詞以外は、キーワードの候補とせず出現頻度のカウントも行わないことが好ましい。
【0052】
さらに、文書内に含まれ、かつキーワードの候補から外されていない形態素jのすべてについて、次式(3)とする(S404)。
N(j)=N(j)+1 …(3)
【0053】
なお、上記式(3)の右辺におけるN(j)が、本式を計算する時点で存在しない場合は、その値を0とする。上記処理(S403〜S404)をすべての文書について行った時点で、形態素jを含む文書の数がN(j)となる(S405,S406)。
【0054】
次に、文書集合で扱った各形態素jについてのIDF値を、次式(4)により求める(S407)。
idf(j)=log(n/N(j)) …(4)
【0055】
上記式(4)にて求められるidf(j)の値は、形態素jの出現のしにくさを表すが、ここでは(文書集合の文書数/形態素jを含む文書数)の対数により計算しているため、集合ワード抽出処理(図7)においてはidf(j)の値が日本語としての出現のしにくさを表したのに対し、文書ワード抽出処理では形態素jの「文書集合における出現のしにくさ」を表す値となっている。
【0056】
以上の処理により得たtf(i,j)とidf(j)から、各形態素jの各文書iにおけるTF−IDF値を計算する(S408、上記式(2)と同様)。ここで、idf(j)の値は、「文書集合における出現のしにくさ」を表す値であるため、このTF−IDFの値は、文書集合中の他の文書と比較して特異性の高い形態素について値が高くなることとなる。
【0057】
最後に、文書ワード抽出部114は、各文書iについて、tf・idf(i,j)の高い順にq個の形態素j(返り値、wordi,1〜wordi,q)を、各文書のキーワードとして出力する(S408)。なお、qは、任意の値であり、例えば、各文書の単語数をある定数で割った値とすることができる。この場合、qはiにより異なる値となり得る。
【0058】
<キーワード表示処理>
また、キーワード表示手段115は、以上の処理(図6のS201〜S204)により抽出したキーワードを表示する。図10にキーワード表示画面203の一例を示す。図10に示す例では、ユーザが入力した文書と、抽出されたキーワードについて、3つの文書全体でのキーワード(文書集合のキーワード)は囲み文字、各文書特有のキーワードは下線で表示し、ユーザが2種類のキーワードを容易に識別可能に表示している。また、例えば、文書全体でのキーワードを青字、各文書特有のキーワードを赤字などのように、色分け表示をすることとしても良い。
【0059】
(その他の実施形態)
本発明に係るキーワード抽出装置の他の実施形態について説明する。なお、上記実施形態と同様の点についての説明は省略する。
【0060】
上記実施形態では、ユーザが文書入力画面202からテキスト入力を行う例について説明したが、ユーザが電子ファイルによる入力を行うことも好ましい。
【0061】
本実施形態に係るキーワード抽出装置およびクライアント端末の機能ブロック図の一例を図11に示す。電子ファイルによる入力を可能とするには、クライアント端末200から送られる電子ファイルからテキスト情報を抽出する処理を行う必要がある。
【0062】
そこで、図11に示すように、本実施形態に係るキーワード抽出装置100は、上記実施形態の各構成に加え、電子ファイルからテキスト情報を抜き出すテキスト抽出部116を備えている。本実施形態では、文書受信部111は、テキスト情報ではなく電子ファイルを受信するため、文書受信部111は、受けた電子ファイルをテキスト抽出部116に渡し、テキスト抽出部116が電子ファイルをテキスト情報に変換し、文書受信部111がそのテキスト情報を受け取るものである。以降の処理は、上記実施形態と同様である。
【0063】
図12に、ユーザが電子ファイルにより入力を行った場合のキーワード表示画面203の一例を示す。図12に示す例は、文書の集合体として、複数のスライドをまとめたファイルを扱う場合の表示例を示しており、文書集合のキーワードが囲み文字、各文書特有のキーワードが下線で示されている。これにより、ユーザは一枚一枚のスライドのキーワードを見るだけで、そのスライド全体としての話題と、その中でその一枚のスライドがどのような内容か、その双方を容易に知ることができる。
【0064】
また、キーワード抽出装置により抽出されたキーワードを、トリガーとしてそのキーワードをもつファイルを検索することも好ましい。例えば、一つの文書を、各ページの文書集合とみなして、その検索結果を表示する際に、図13に示すように、その文書中でそのキーワードをもつページを表示したり、また、そのページの他のキーワードを表示することで、検索結果の内容を容易に知ることができる。なお、図13に示す例では、文書全体のキーワードを大きく、そのページ特有のキーワードを小さく、また検索ワードを囲い文字として、容易に識別可能に表示することで、検索ワードがその文書にとってどのような言葉なのか、またその文書がどのような文書で、その検索キーワードが属するページにどのようなことが書かれているのか、容易に知ることができる。
【0065】
また、図14に示すように、クライアント端末200を介さずに、キーワード抽出装置100の入力装置から文書のテキストを入力し、キーワードの抽出結果をキーワード抽出装置100の出力装置に表示するようにすることも好ましい。
【0066】
本実施形態に係るキーワード抽出装置100は、文書受信部111に代えて文書入力部117を有している。本実施形態の文書入力部117は、ユーザが文書入力を行う文書入力画面(図5参照)をキーワード抽出装置100の表示装置に表示させ、ユーザの入力した文書をテキスト情報としてキーワード決定部112に渡すものである。
【0067】
また、キーワード表示部115は、キーワード表示画面(図10参照)を表示装置に表示するものである。なお、図14に示す例において、ユーザが文書を電子ファイルにより入力する場合は、上述のようにテキスト抽出部116をさらに備える構成とすれば良い。
【0068】
以上説明したキーワード抽出装置によるキーワード抽出処理は、コンピュータにキーワード抽出処理を実行させるプログラム(キーワード抽出プログラム)により実現できる。キーワード抽出プログラムは、例えば、インターネット上からのダウンロードによって提供し、コンピュータにインストールすることも好ましい。また、キーワード抽出プログラムをコンピュータで実行可能に記録した記録媒体(キーワード抽出プログラムを記録した記録媒体)の態様にも適用される。
【0069】
尚、上述の実施形態は本発明の好適な実施の例ではあるがこれに限定されるものではなく、本発明の要旨を逸脱しない範囲において種々変形実施可能である。
【符号の説明】
【0070】
100 キーワード抽出装置
110 処理部
111 文書受信部
112 キーワード決定部
113 集合ワード抽出部
114 文書ワード抽出部
115 キーワード表示部
116 テキスト抽出部
117 文書入力部
120 記憶部
121 コスト記憶部
122 コスト記憶テーブル
131 CPU
132 メモリ
133 ディスプレイアダプタ
134 ディスプレイスクリーン
135 外部入出力装置
136 シリアルポート
137 記憶装置
138 キーボード
139 ポインティングデバイス
140 バス
141 音声インタフェース
142 ネットワークインタフェース
143 ネットワークサービス
200 クライアント端末
201 ブラウザ
202 文書入力画面
203 キーワード表示画面
300 キーワード抽出システム
301 ネットワーク
【先行技術文献】
【特許文献】
【0071】
【特許文献1】特開2006‐293616号公報

【特許請求の範囲】
【請求項1】
複数の文書に基づく文書集合のテキスト情報から、前記文書集合の全体としてのキーワードを抽出する集合ワード抽出手段と、
前記文書集合のテキスト情報から、前記文書集合の各文書におけるキーワードを、前記文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出手段と、
前記文書集合の各文書について、前記集合ワード抽出手段により抽出されたキーワードのうち当該文書に含まれるキーワードと、前記文書ワード抽出手段により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定手段と、
を備えたことを特徴とするキーワード抽出装置。
【請求項2】
前記集合ワード抽出手段は、形態素と該形態素の日本語としての特異度との対応付けを記憶したコスト記憶テーブルを参照して、各文書を構成する各形態素の特異度を計算し、該特異度に基づいて前記文書集合の全体としてのキーワードを抽出することを特徴とする請求項1に記載のキーワード抽出装置。
【請求項3】
前記文書ワード抽出手段は、当該文書における形態素の出現頻度および前記文書集合の全体における該形態素の逆出現頻度に基づいて、前記各文書におけるキーワードを抽出することを特徴とする請求項1または2のいずれかに記載のキーワード抽出装置。
【請求項4】
前記集合ワード抽出手段により抽出されたキーワードと、前記文書ワード抽出手段により抽出されたキーワードと、を識別可能に表示させるキーワード表示手段を備えたことを特徴とする請求項1から3までのいずれかに記載のキーワード抽出装置。
【請求項5】
前記文書集合のテキスト情報は、ユーザにより入力された複数の文書、または、ユーザにより入力された電子ファイルから抽出された文書に基づくことを特徴とする請求項1から4までのいずれかに記載のキーワード抽出装置。
【請求項6】
前記複数の文書または前記電子ファイルを入力する入力手段と、抽出されたキーワードを表示する出力手段と、をさらに備えたことを特徴とする請求項5に記載のキーワード抽出装置。
【請求項7】
複数の文書に基づく文書集合のテキスト情報から、前記文書集合の全体としてのキーワードを抽出する集合ワード抽出処理と、
前記文書集合のテキスト情報から、前記文書集合の各文書におけるキーワードを、前記文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出処理と、
前記文書集合の各文書について、前記集合ワード抽出処理により抽出されたキーワードのうち当該文書に含まれるキーワードと、前記文書ワード抽出処理により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定処理と、
を行うことを特徴とするキーワード抽出方法。
【請求項8】
コンピュータに、
複数の文書に基づく文書集合のテキスト情報から、前記文書集合の全体としてのキーワードを抽出する集合ワード抽出処理と、
前記文書集合のテキスト情報から、前記文書集合の各文書におけるキーワードを、前記文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出処理と、
前記文書集合の各文書について、前記集合ワード抽出処理により抽出されたキーワードのうち当該文書に含まれるキーワードと、前記文書ワード抽出処理により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定処理と、
を実行させることを特徴とするキーワード抽出プログラム。
【請求項9】
キーワード抽出装置とネットワークを介して接続されるクライアント端末からなるキーワード抽出システムであって、
前記キーワード抽出装置は、
複数の文書に基づく文書集合のテキスト情報から、前記文書集合の全体としてのキーワードを抽出する集合ワード抽出手段と、
前記文書集合のテキスト情報から、前記文書集合の各文書におけるキーワードを、前記文書集合の全体における出現頻度を考慮して抽出する文書ワード抽出手段と、
前記文書集合の各文書について、前記集合ワード抽出手段により抽出されたキーワードのうち当該文書に含まれるキーワードと、前記文書ワード抽出手段により抽出されたキーワードと、を当該文書のキーワードとするキーワード決定手段と、を備え、
前記クライアント端末は、
前記複数の文書を入力する入力手段と、
前記キーワード決定手段が決定したキーワードを表示する出力手段と、を備えたことを特徴とするキーワード抽出システム。

【図1】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図14】
image rotate

【図2】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2011−242844(P2011−242844A)
【公開日】平成23年12月1日(2011.12.1)
【国際特許分類】
【出願番号】特願2010−111946(P2010−111946)
【出願日】平成22年5月14日(2010.5.14)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】