説明

会議キーワード抽出装置、会議キーワード抽出方法、及び会議キーワード抽出プログラム

【課題】ネットワーク上に接続された機器同士で提供サービスを補完しあう分散システムにおいて、他装置で作成され自装置が扱えない文書データであってもこれを処理する画像処理装置及び画像処理システムをより簡単な構成で提供する。
【解決手段】本発明における会議キーワード抽出装置は、会議文書からキーワードを抽出する会議キーワード抽出装置であって、相関連する関連会議文書を取得する取得手段と、取得された関連会議文書毎に、関連会議文書内の各フレーズの重要度を算出する算出手段と、各フレーズの中から、重要度に基づき所定数のフレーズをキーワードとして抽出する抽出手段とを有し、算出手段は、各フレーズの重要度を算出するに際し、関連会議文書内の重要度算出対象フレーズが、取得手段により取得された全ての関連会議文書内のフレーズに対して該関連会議文書内に頻出する度合いである逆頻出度を用いる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議キーワード抽出装置、会議キーワード抽出方法、及び会議キーワード抽出プログラムに関する。
【背景技術】
【0002】
会議で話し合われた内容は議事録に記録されるが、この議事録を会議情報(日時、場所、参加者、テーマ等々)とともにDB化しておくと(例えば会議情報管理システム)、ユーザは随時DBにアクセスし、議事録を参照したり取り出したりすることができるので、会議内容を簡便に確認できる。
【0003】
しかしながら議事録が蓄積されていくにつれその情報量が増大していくと、ユーザは所望する議事録まで辿り着くのが困難になってくる。例えばユーザがある会議での議事内容を確認したいとき、日時や場所、参加者などの会議情報をキーとしてDBを検索する。それでもうまく絞りきれない場合には、検索された複数の議事録ファイルを1つ1つ開いて参照しながら、目的の議事録を探し出すことになる。
【0004】
ここで、議事録毎にキーワード(その議事録の内容をよく表わす代表的なワード)を抽出、表示させることで、議事録ファイルを1つ1つ開かなくとも、キーワードを見るだけで、ユーザが簡単に各議事録の内容を把握できる。キーワードの取得方法としては、議事録文書内のテキストに対し、キーワード抽出技術を適用することができる。キーワード抽出技術としては、例えば、その情報を構成するそれぞれの文を形態素に分解し、各々の形態素に対してTF(単語の出現頻度:Term Frequency)−IDF(逆出現頻度:Inverse Document Frequency)値等の重要度を表す指標を計算し、その指標の高い形態素をその議事録文書のキーワードとする技術が知られている(例えば特許文献1参照)。
【発明の概要】
【発明が解決しようとする課題】
【0005】
さて一般に、会議は一回限りで完結する会議のみならず、同一テーマで複数回に渡って開催されるものも少なくないところ、そのような互いに議事内容に関連性のある関連会議では、複数回分のいずれの議事録においても重要な用語は共通、類似しているため(同一テーマに起因)、上述の如く議事録毎にキーワードを抽出するとき、抽出されるキーワードは同じようなものが抽出される可能性が高い。この場合、複数の議事録間において、似たようなキーワードが表示されることになるため、ユーザはキーワードから議事録の内容を把握しようとしても、一連の関連会議間における議事内容の差異をなかなか把握することができないという問題があった。
【0006】
なお会議においては、議事録のみならず、他にも例えばアジェンダ、参考資料、配布資料等々の文書も取り扱われ、これら文書もまたその会議の議事内容を反映しうる文書である(以下総じて会議文書という)。
【0007】
本発明では上記のような問題に鑑みて、会議の会議文書毎にキーワードを抽出する方法に関し、同一のテーマを扱うなど議事内容に関連性のある関連会議の会議文書であっても、各会議文書から各会議間の議事内容を差別化しうるキーワードを抽出する会議キーワード抽出装置、会議キーワード抽出方法、及び会議キーワード抽出プログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の目的を達成するために、本発明に係る会議キーワード抽出装置は、会議文書からキーワードを抽出する会議キーワード抽出装置であって、相関連する関連会議文書を取得する取得手段と、取得された関連会議文書毎に、関連会議文書内の各フレーズの重要度を算出する算出手段と、前記各フレーズの中から、前記重要度に基づき所定数のフレーズをキーワードとして抽出する抽出手段と、を有し、前記算出手段は、各フレーズの重要度を算出するに際し、関連会議文書内の重要度算出対象フレーズが、前記取得手段により取得された全ての関連会議文書内のフレーズに対して該関連会議文書内に頻出する度合いである逆頻出度を用いることを特徴とする。
【0009】
また、上記の目的を達成するために、上記会議キーワード抽出装置において、前記算出手段は、前記各フレーズの重要度としてTF−IDF値を算出し、IDF値を算出するに際し、利用するコーパスの対象範囲を取得された関連会議文書の範囲とすることを特徴とする。
【0010】
また、上記の目的を達成するために、上記会議キーワード抽出装置において、前記取得手段は、関連会議文書を取得するとき、当該関連会議文書にさらに関連する会議文書を取得することを特徴とする。
【0011】
また、上記の目的を達成するために、上記会議キーワード抽出装置において、前記取得手段は、関連会議文書を取得するとき、当該関連会議文書に対応付けられた重み値を含めて取得し、前記算出手段は、前記重み値による重み付けを行って、取得された関連会議文書毎に、関連会議文書内の各フレーズの重要度を算出することを特徴とする。
【0012】
また、上記の目的を達成するために、上記会議キーワード抽出装置において、会議文書の会議毎に、当該会議文書から抽出されたキーワードを、当該会議に関する情報とともに表示する表示手段を有することを特徴とする。
【0013】
なお、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。
【発明の効果】
【0014】
本発明によれば、会議の会議文書毎にキーワードを抽出する方法に関し、同一のテーマを扱うなど議事内容に関連性のある関連会議の会議文書であっても、各会議文書から各会議間の議事内容を差別化しうるキーワードを抽出する会議キーワード抽出装置、会議キーワード抽出方法、及び会議キーワード抽出プログラムを提供することができる。
【図面の簡単な説明】
【0015】
【図1】本実施形態に係る会議情報管理システムのネットワーク概略構成図を示す。
【図2】会議一覧画面例を示す。
【図3】キーワード表示画面例を示す。
【図4】本実施形態に係る会議情報管理サーバのハードウェア構成図の一例を示す。
【図5】本実施形態に係る会議情報管理サーバ100及びクライアント端末200の機能ブロック図の一例を示す。
【図6】属性情報テーブル例を示す。
【図7】会議文書テーブル例を示す。
【図8】本実施形態に係る会議情報管理サーバ100のキーワード抽出処理を説明するフローチャートである。
【図9】重要度算出処理を説明するフローチャートである。
【図10】本変形例に係る属性情報テーブル例を示す。
【図11】関連の会議登録画面例を示す。
【図12】本変形例に係る会議一覧画面例を示す。
【図13】本変形例に係るキーワード表示画面例を示す。
【図14】本変形例に係る属性情報テーブル例を示す。
【図15】会議文書テーブル例を示す。
【図16】本変形例に係る重要度算出処理を説明するフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明を実施するための最良の形態について図面を参照して説明する。以下では本発明に係る会議キーワード抽出装置を会議情報管理サーバに適用した例を示す。本実施形態に係る会議情報管理サーバは、会議文書(例えば議事録、アジェンダ、参考資料、配布資料等々)など会議に関する様々な情報を会議情報(会議名、日時、場所、参加者、テーマ等々)とともに保存し、またユーザ要求に応じて随時これら情報を取り出したりすることができる。また、会議毎の各会議文書からキーワード(その会議文書の内容をよく表わす代表的なワード)を抽出、表示させることで、ユーザはその表示されたキーワードを見るだけで簡単に各会議の内容(要旨)やその違いを把握できるようにする。なおまた本実施形態に係る会議情報管理サーバは、一のテーマを扱うなど議事内容に関連性のある関連会議の会議文書であっても、各会議文書から各会議間の議事内容を差別化しうるキーワードを抽出するものである。以下詳しく説明する。
【0017】
[システム構成]
(ネットワーク構成)
図1は、本実施形態に係る会議情報管理システムのネットワーク概略構成図を示す。会議情報管理システムは、会議情報管理サーバ100に、イントラネットやインターネットなどのネットワーク300を介してクライアント端末200が接続されて構成される。なお、クライアント端末200としては、例えば、汎用のパーソナルコンピュータを用いることができ、図1と同様のハードウェア構成を有している。またいうまでもなく複数台あってもよい。
【0018】
この会議情報管理システムにおける会議情報管理サーバ100は、会議文書(例えば議事録、アジェンダ、参考資料、配布資料等々)など会議に関する様々な情報を会議の属性情報(会議名、日時、場所、参加者、テーマ等々)とともに保存しており、クライアント端末200においてユーザが指定した会議文書(指定会議という)について、各会議文書から特有のキーワードを抽出し、クライアント端末200にその結果を表示できる。
【0019】
具体的には、例えば、ユーザはクライアント端末200からネットワーク300を介して、会議情報管理サーバ100にアクセスする。図2は、会議一覧画面例を示す。会議一覧画面には、図に示されるように、会議名やその日時等が表示される。会議一覧リストは日時順に並んでおり、スクロール操作により、表示されているより以前又は以降の日時に行われた会議をも表示できる。ユーザはこの会議一覧画面からキーワードを抽出、表示させたい会議文書(指定会議)を一以上指定する。
【0020】
図3は、キーワード表示画面例を示す。図に示されるように、会議名や場所、日時といった会議に関する情報の右側に、その会議の内容を表すキーワードが表示される。このキーワードは、指定会議の会議文書から抽出されたもので、各会議の議事内容を特徴的に示しているため、ユーザは各会議間の内容やその違いが容易に理解できるようになっている。
【0021】
なお図に示される3つの会議は、いずれも「A社案件」に関する会議であるが、各々の会議においては、その都度様々なトピックが話し合われている。従来、このような一連の関連会議からキーワードを抽出する場合、テーマが「A社案件」と共通であるゆえ、その都度話し合われた様々なトピックを抽出できず、同じようなキーワードが抽出される可能性があり、この場合、「A社案件第1回」、「A社案件第2回」、「A社案件第3回」の会議それぞれの内容やその違いをキーワードから判断するのは困難である。一方本実施形態に係る議情報管理サーバ100は、一連の関連会議からキーワードを抽出する場合であっても、図に示されるように、その都度話し合われた様々なトピックを抽出できるので、ユーザは各会議間の内容(要旨)やその違いが容易に把握可能となっている。
(ハードウェア)
図4は、本実施形態に係る会議情報管理サーバのハードウェア構成図の一例を示す。会議情報管理サーバ100は、例えば、汎用のサーバ、ワークステーション、パーソナルコンピュータ等により構成され、CPU131と、メモリ132と、ディスプレイアダプタ133を介してディスプレイスクリーン134などの表示装置(出力手段)と、プリンタ、FAX、スキャナ等の外部入出力装置135を接続するシリアルポート136と、記憶装置(ROM等)137と、キーボード138、ポインティングデバイス139等の入力装置(入力手段)とを相互接続するバス140を含む。その他、音声インタフェース141や無線LANを含むネットワークインタフェース142など多くのデバイスを接続できる。例えば、ネットワークインタフェース142を通して、電子メールやFTPなどの電子ファイル転送やWWWなどのネットワークサービス143を利用することができる。
【0022】
(機能)
次に、本実施形態に係る会議情報管理サーバ100の主要機能構成についてそれぞれ簡単に説明する。図5は、本実施形態に係る会議情報管理サーバ100及びクライアント端末200の機能ブロック図の一例を示す。図に示すように会議情報管理サーバ100は、主要な機能として、登録部101、指定会議受信部102、会議情報取得部103、重要度算出部104、キーワード抽出部105、キーワード表示部106を有している。
【0023】
登録部101は、クライアント端末200からネットワーク300を介し、会議文書及びその会議の属性情報を含む登録要請を受信すると、会議文書を会議文書記憶部107に、属性情報を属性情報記憶部108に登録する。
【0024】
指定会議受信部102は、ユーザからキーワード取得が所望される指定会議名の情報を受信する。本実施形態において指定会議は、相関連する関連会議が複数指定される。
【0025】
会議情報取得部103は、会議文書記憶部107及び属性情報記憶部108から、指定された会議の会議文書及び属性情報を取得する。本実施形態において取得される会議文書は、相関連する複数の関連会議文書である。
【0026】
重要度算出部104は、会議文書毎にフレーズを抽出し、各フレーズの重要度を算出する。なおここでいうフレーズとは、形態素のうち、名詞あるいは隣り合う複数の名詞同士の組み合わせたものをいうが、この点、重要度算出処理を含め詳細は後述する。
【0027】
キーワード抽出部105は、各フレーズの中から、算出された重要度に基づき所定数のフレーズをキーワードとして抽出する。例えば各フレーズを重要度順に並べ、上位所定数のフレーズをキーワードとして抽出する。
【0028】
キーワード表示部106は、会議文書の会議毎に、当該会議文書から抽出されたキーワードを、当該会議に関する情報とともに表示する(例えば図3参照)。
【0029】
以上これらの機能は、実際には装置のCPU131が実行するプログラムによりコンピュータに実現させるものである。
【0030】
なおまた、クライアント端末200は、キーワード表示部106による表示結果を受け、当該結果を、ブラウザ201を介して表示する。なお、クライアント端末200は必須ではなく、会議情報管理サーバ100のキーボード138等の入力装置から入力された文書について、キーワード抽出処理を実行し、キーワード表示部106による表示結果を会議情報管理サーバ100のディスプレイスクリーン134等の表示装置に表示することも可能である。
【0031】
(属性情報例)
上述したように、登録部101により予め、会議文書記憶部107には会議文書が、属性情報記憶部108には属性情報が登録、保存されている。
【0032】
図6は、属性情報テーブル例を示す。属性情報記憶部108において、属性情報は例えばテーブル形式で登録、管理されている。図に示されるように、属性情報テーブルは会議とその会議に関する属性情報と会議文書との対応関係を示すものである。例えば、1列目には、会議IDが格納され、これはテーブルのすべての行において重複がないよう決定される固有識別子であり、例えばそのままその行の行番号を利用できる。2列目には、その会議の会議名が、3列目には会議が行われた場所が、4列目にはその会議の行われた日時が格納される。そして5列目には、その会議の会議文書を示す文書IDが格納される。この文書IDは、会議文書を特定、識別する識別子であり、後述の会議文書テーブルにリンクされ、会議文書データを特定するために用いられる。
【0033】
(会議文書例)
図7は、会議文書テーブル例を示す。会議文書記憶部107において、会議文書は例えばテーブル形式で登録、管理されている。図に示されるように、会議文書テーブルは文書IDと文書ファイルが格納されている位置(ファイルパス)との対応関係を示す。例えば、1列目には文書IDが、2列目には文書ファイルの置かれたファイルパスがそれぞれ格納される。会議文書は、議事録等々の文書情報であるので、その実体はファイルパスで特定される文書ファイルである。なおまた、このファイルパスをネットワークパスにすれば、文書ファイル実体は外部装置等に蓄積されていてもよいことになる。
【0034】
上述の会議情報取得部103は、指定された会議の会議文書及び属性情報を取得に際しては、例えばまず属性情報テーブルの第1列から一致する会議IDを検索する。またその会議IDが存在する行の第5列目より文書IDを取得する。そして属性情報テーブルと会議文書テーブル内の文書IDは一対一で対応しているため、今度は会議文書テーブルの第1列目から取得した文書IDを検索し、その文書IDが存在する行の第2列目よりファイルパスを取得、そのファイルパスに存在する会議文書のファイルを読み込む。
【0035】
[情報処理]
図8は、本実施形態に係る会議情報管理サーバ100のキーワード抽出処理を説明するフローチャートである。
【0036】
S410:ユーザがキーワード取得を所望する会議を指定すると(例えば図2参照)、指定会議受信部102は、一以上の指定会議を受信する。本実施形態において指定会議は、相関連する関連会議が複数指定されたものとする。
【0037】
S420:会議情報取得部103は、会議文書記憶部107及び属性情報記憶部108から、指定された会議の会議情報(会議文書及び属性情報)を取得する。本実施形態において取得される会議文書は、相関連する複数の関連会議文書である。
【0038】
S430:重要度算出部104は、会議文書毎にフレーズを抽出し、各フレーズの重要度を算出する。つまり会議文書毎に、その会議文書内の全てのフレーズとその重要度を出力する。
【0039】
S440:キーワード抽出部105は、会議毎に、算出された重要度(例えばTF-IDF値)に基づき所定数のフレーズをキーワードとして抽出する。例えば各フレーズを重要度順に並べ、上位所定数pのフレーズをキーワードとして抽出する。なおこのpの値の決め方としては、システムにより予め規定されていたり、Ciに含まれる形態素の数によって決められる方法(例えばCiに含まれる形態素の数の5分の1)、などが挙げられる。
【0040】
S450:キーワード表示部106は、会議毎に、キーワード及び属性情報を表示する(例えば図3参照)。
【0041】
続いてS430を詳しく説明する。図9は、重要度算出処理を説明するフローチャートである。ここでは重要度としてTD−IDF値を適用した例を示す。
【0042】
S431:重要度算出部104は、会議情報取得部103から、会議の会議文書をテキスト形式で得る。ここで会議の数をnとおく。例えば図2の場合、3つの会議が指定されているので会議の数nは3となる。また得られた会議文書テキストをCiとおく。但し、iは1からnまでの各整数値を取る。またすべてのiについてCiの文書集合を{Ci}とする(即ち全指定会議の会議文書)。
【0043】
S432:iに1を代入する。まずC1から処理するためである。
【0044】
S433:次にCiに対して形態素解析を行う。つまり会議文書のテキストを形態素に分解する。例えばMeCab等のソフトウェアを利用して行う。そして分割された形態素の中から、フレーズとされるものを全て抽出する。フレーズとは、例えばCiに含まれる形態素のうち、名詞あるいは隣り合う複数の名詞同士の組み合わせをフレーズとする。
【0045】
S434:次にCiに含まれる全てのフレーズjについて、その出現頻度を算出し、その値をtf(i,j)とする。tf(i,j)は、例えば(フレーズjが会議文書Ci中に表れる出現回数/会議文書Ci中の形態素の数)などによって算出できる。
【0046】
S435:次に逆出現度値idf(j)を算出する。全てのフレーズjについて集合{Ci}に含まれる文書集合のうち、そのフレーズjを含む文書数を調べ、N(j)とする。
【0047】
S436:さらに逆出現度値idf(j) = log(n/N(j))を計算し、算出する。
【0048】
S437:最後に、S434及びS436で算出したtf(i,j)、idf(j)を使用して、TF-IDF値=tf(i,j)×idf(j)を計算する。これをそのフレーズjのTF-IDF値とし、全てのフレーズjとTF-IDF値tf(i,j)×idf(j)の組み合わせを出力する。
【0049】
S438:i>=n?の判定がなされ、Nであれば、iに1が加算されてから、再びS433に戻る。全ての会議についての会議文書を処理するためである。つまり例えば3つの会議が指定され会議の数nは3であれば、3つの会議文全てについてそれぞれの会議文書からキーワードを抽出するためである。
【0050】
以上、逆出現度値idf(j)は、あるフレーズjがそのフレーズjが含まれる会議文書テキストCiに集中している度合いをみるものであるところ、逆出現度値idf(j)を算出するに際し、S435において、そのフレーズjを含む文書数N(j)を算出するときの文書集合(即ちコーパスに相当)を{Ci}とした。そしてここで文書集合{Ci}は、会議情報取得部103により取得された全ての会議文書のテキストをその範囲としている。
【0051】
従来一般においては、この文書集合{Ci}、即ちコーパスは、非常に広い文書データベース(該文書データベース内の文書)を対象としている。例えば、会議文書データベース内の全ての文書(未関連文書含む)や、広くは自然言語の文書を大量に集めた文書データベース全般が設定される。また例えば検索エンジンなどにおいては、Web内の全Web文書データベースが文書集合{Ci}として設定される。
【0052】
ここで本実施形態において取得される会議文書は、各々が相関連する複数の関連会議文書であるため、ある関連会議文書Aにおいてあるフレーズが頻出していたとしても、同一テーマ系のフレーズは関連文書に渡っても広く出現していると考えられ、一連の関連会議文書B、C中においてもまたそのフレーズが多く頻出しているのであれば、そのフレーズはその関連会議の議事内容(要旨)を示すキーワードとして必ずしもふさわしいとはいえない。従来技術によるコーパスを利用した場合、このようなフレーズが抽出されがちである。
【0053】
一方、本実施形態に係る会議情報管理サーバ100においては、コーパスとして文書集合{Ci}を関連会議文書(全指定会議の会議文書)の範囲に絞っているため、日本語文書一般に対するキーワードではなく、あくまで相互の関連会議文書対するキーワードが抽出される。即ち一のテーマを扱うなど議事内容に関連性のある関連会議の会議文書であっても、各会議文書から各会議間の議事内容を差別化しうるキーワードを抽出することが可能となる。
【0054】
[変形例1]
これまでの実施形態においては、キーワードを表示する全ての会議をユーザが会議一覧画面(例えば図2)において指定する例を示した。本変形例では、ユーザが指定した指定会議に加え、指定会議に対しさらに関連する他の関連会議を含め、キーワードを表示する。以下説明する。但し上述の実施形態において既に説明済みの点については説明を割愛し、特に異なる点に重点をおいて説明するものとする。
【0055】
[システム構成]
(属性情報例)
図10は、本変形例に係る属性情報テーブル例を示す。図に示されるように、上述の属性情報例(図6)に対し、6列目が追加されており、ここには関連の会議IDが格納されている。例えば、一行目の会議ID「0001」の「A社案件第1回」の会議は、他にも関連する会議ID「0003」、「0004」、「0020」が存在していることを示す。
【0056】
属性情報テーブルの関連の会議IDは、例えば次のような画面から予めユーザが設定しておくことができる。図11は、関連の会議登録画面例を示す。例えば「A社案件第1回」の会議に対し関連する他の会議を設定する場合、図に示されるように「A社案件第1回」を「関連元」に選択し、それから「関連先」の会議を選択し(複数可)、「登録」ボタンを押下する。このような操作により、任意の会議IDに対し、関連の会議ID(、関連する会議)を予め登録設定しておくことができる。
【0057】
またもしくは、システムが属性情報に基づいて自動的に図10の関連の会議IDを決定することもできる。例えば、属性情報の「会議名」を加味すると、「A社案件第1回」、「A社案件第2回」、「A社案件第3回」は関連する会議であると容易に判断できるため、結果、上述図10の関連の会議登録画面からのユーザによる設定と同様に、関連の会議IDを設定しておくことができる。但しユーザ設定の場合は関連する会議の選定精度は優れる反面、設定の手間を要するため、システムが属性情報に基づいて自動的に関連の会議IDを決定するようにしておくと便利である。また望ましくは、システム上自動設定にしておき、適宜必要に応じて、ユーザが手動で設定を行うとよい。
【0058】
(会議一覧画面例)
図12は、本変形例に係る会議一覧画面例を示す。上述の会議一覧画面例(図2)と比較すると、「指定会議のほかに、指定会議に関連する会議についてもキーワードを表示する」なるチェックが可能となっており、チェックされてから「詳細」ボタンが押下されると、指定された指定会議に関連する会議も含めキーワードが表示される。いうまでもなく、属性情報テーブル上の「関連の会議ID」で特定される会議についての会議情報(会議文書、属性情報)が取得され、指定会議と同様の処理を経てから、その関連する会議についてのキーワードもまた表示される。
【0059】
(キーワード表示画面例)
図13は、本変形例に係るキーワード表示画面例を示す。上述のキーワード表示画面例(図3)と比較すると、4行目に会議名「製品戦略会議」が属性情報やキーワードとともに加えて表示されている。図10の1行目、会議ID「0001」の「A社案件第1回」は、関連の会議ID「0020」が登録されているので、ユーザに指定された指定会議の会議ID「0001」に関連する会議ID「0020」についてもまたキーワード表示対象の会議となったものである。会議ID「0020」自体は指定会議ではない。
【0060】
会議「A社案件第1回」では、「新製品の紹介」なるキーワードが挙がっているが、これに関連してA社の製品を含む会議名「製品戦略会議」(会議ID「0020」)が関連する会議として事前に登録されていたものと考えられる。ユーザは図13のキーワード表示画面例を参照し、「A社案件」に関連する一連の会議のキーワードを把握できるとともに、関連の会議「製品戦略会議」についても一目にてキーワードを把握できる。
【0061】
なお図13とは異なるが、キーワード表示画面において、会議「製品戦略会議」は「A社案件」に関連するものであることを示すため、表示上、「A社案件」の直後に配置して表示したり、「A社案件」にぶら下げる(ツリー状)ようにして表示することも可能である。
【0062】
[情報処理]
本変形例に係る情報処理について、図8のS420では、会議情報取得部103は、会議文書記憶部107及び属性情報記憶部108から、指定された会議の会議情報(会議文書及び属性情報)を取得するが、ここで指定された指定会議の関連の会議からも、会議情報(会議文書及び属性情報)を取得するようにすればよい。上述例でいえば、会議ID「0020」の会議情報(会議文書及び属性情報)も取得する。そして以後の処理は、指定会議と同様に処理を進め最終的にキーワードを抽出、表示すればよい。
【0063】
[変形例2]
これまでの実施形態においては、一つの会議(会議ID)に対し一つの文書ファイルが対応付けられて保持された例(例えば図6参照)を示したが、いうまでもなく実際の会議においては一つの会議に対し、例えば議事録、アジェンダ、参考資料、配布資料等々など複数の会議文書が存在することも多い。本変形例においては、それら複数の会議文書のファイルの情報を組み合わせることで、その会議の内容をより表すキーワードを抽出するものである。以下説明する。但し上述の実施形態において既に説明済みの点については説明を割愛し、特に異なる点に重点をおいて説明するものとする。
【0064】
(属性情報例)
図14は、本変形例に係る属性情報テーブル例を示す。図に示されるように、上述の属性情報例(図6)と比較すると、「文書ID」には複数の文書IDが格納されている。例えば、一行目の会議ID「0001」の「A社案件第1回」の会議は、文書ID「1558」、「4478」、「2210」が格納されており、これは3つの会議文書がこの会議に対し対応付けられて保存されていることを示す。
【0065】
(会議文書例)
図154は、会議文書テーブル例を示す。会議文書テーブルは上述したように会議文書記憶部107において例えばテーブル形式で登録、管理されているが、本変形例に係る会議文書テーブルは、図に示されるように、文書の「種類」、「重み」を示す格納列が設けられている。
【0066】
重みには、文書の種類に応じてその文書が会議内容を表すにどの程度重要であるかを示す重み値が格納される。重み値の決め方としては、システムが固定値として予め保持しているほか、システム管理者が予め指定したり、会議で実際に利用されている時間や回数に応じてシステムが学習してするなどの方法が考えられる。図を参照すると、例えば種類「agenda」(目次、目録)はその文書性格上、会議の議事内容を端的に示す文書であるので、比較的に重い重み値が与えられていることが分かる。
【0067】
[情報処理]
再び図8を参照する。
【0068】
S410:ユーザがキーワード取得を所望する会議を指定すると(例えば図2参照)、指定会議受信部102は、一以上の指定会議名を受信する。
【0069】
S420:会議情報取得部103は、会議文書記憶部107及び属性情報記憶部108から、指定された会議の会議情報(会議文書及び属性情報)を取得する。また本変形例では、さらにその会議情報に対応する重み値を取得する。
【0070】
S430:重要度算出部104は、会議文書毎にフレーズを抽出し、各フレーズの重要度を算出する。つまり会議文書毎に、その会議文書内の全てのフレーズとその重要度を出力する。
【0071】
S440:キーワード抽出部105は、会議毎に、算出された重要度(例えばTF-IDF値)に基づき所定数のフレーズをキーワードとして抽出する。例えば各フレーズを重要度順に並べ、上位所定数pのフレーズをキーワードとして抽出する。
【0072】
S450:キーワード表示部106は、会議毎に、キーワード及び属性情報を表示する(例えば図3参照)。
【0073】
本変形例に関し、続いてS430を詳しく説明する。図16は、本変形例に係る重要度算出処理を説明するフローチャートである。ここでも重要度としてTD−IDF値を適用する。
【0074】
S441:重要度算出部104は、会議情報取得部103から、会議の会議文書をテキスト形式で得る。またその会議情報に対応する重み値Wi,jを取得する。ここで会議の数をnとおく。また会議iに登録されている会議文書の数をmiとおく。また得られた会議文書テキストをCi,jとおく。但し、iは1からnまでの各整数値を取る。jは1からmiまでの各整数値を取る。またすべてのi,jについてCi,jの文書集合を{Ci,j}とする(即ち全指定会議の全会議文書)。
【0075】
S442:iに1を代入する。まずC1,jから処理するためである。
【0076】
S443:jに1を代入する。まずC1,1から処理するためである。
【0077】
S444:次にCi,jに対して形態素解析を行う。つまり会議文書のテキストを形態素に分解する。そして分割された形態素の中から、上述の如くフレーズとされるものを全て抽出する。
【0078】
S445:次にCi,jに含まれる全てのフレーズkについてその出現頻度を仮にfreq(i,j,k)とし、重みを考慮した出現頻度を算出し、重みを考慮した出現頻度の値をtf(i, k)とする。具体的には例えば、tf(i,k) = tf(i,k) + Wi,j×freq(i,j,k)によって算出する。但しtf(i,k) の値が存在しないときはtf(i,k) = Wi,j×freq(i,j,k) によって算出する。
【0079】
S446:次に逆出現度値idf(k)を算出する。全てのフレーズkについて集合{Ci,j}に含まれる文書集合のうち、そのフレーズkを含む文書数を調べ、仮にN(k)とし、重みを考慮した値をN(k)とする。具体的には例えば、N(k) = Wi,j + N(k) によって算出する。但し、N(k)の値が存在しない場合は、N(k) = Wi,j によって算出する。
【0080】
S447:jに1を加算する。会議iに対応付けられ保存された複数の会議文書のうち、次の会議文書を処理するためである。
【0081】
S448:i>=m?の判定がなされる。Yの場合、ある会議iに対応付けられ保存された複数の会議文書は全て処理済みであるので、次の会議についての会議文書を処理するためである。
【0082】
S449:iに1を加算する。次の会議についての会議文書を処理するためである。
【0083】
S450:i>=n?の判定がなされ、Nであれば、iに1が加算されてから、再びS433に戻る。全ての会議についての会議文書を処理するためである。
【0084】
S451:逆出現度値idf(k) = log(n/N(k))を計算し、算出する。
【0085】
S452:最後に、S445及びS451で算出したtf(i, k)、idf(k)を使用して、TF-IDF値=tf(i,k)×idf(k)を計算する。これをそのフレーズkのTF-IDF値とし、全てのフレーズjとTF-IDF値tf(i,k)×idf(k)の組み合わせを出力する。
【0086】
以上、本変形例においては、一つの会議に対し、例えば議事録、アジェンダ、参考資料、配布資料等々など複数の会議文書が存在することも多いところ、各会議文書の重み値を考慮してTF-IDF値が算出されているので、会議の内容をよりよく表すキーワードを抽出できる。
【0087】
また上述の実施形態と同様に、逆出現度値idf(k)を算出するに際し、S446において、そのフレーズkを含む文書数N(k)を算出するときの文書集合(即ちコーパスに相当)を{Ci,j}としている。文書集合{Ci,j}は、会議情報取得部103により取得された全ての会議文書のテキスト(全指定会議の全会議文書)であるが、この文書集合{Ci,j}を関連会議文書(全指定会議の複数の会議文書)に絞っているため、日本語文書一般に対するキーワードではなく、あくまで相互の関連会議文書対するキーワードが抽出される。即ち一のテーマを扱うなど議事内容に関連性のある関連会議の会議文書であっても、各会議文書から各会議間の議事内容を差別化しうるキーワードを抽出することが可能となる。
【0088】
なお、本変形例2を変形例1に適用することも可能である。この場合、ユーザが指定した指定会議に加え、該指定会議に対しさらに関連する他の関連会議においても重み値が登録されていればよい(図10+図15)。
【0089】
以上、実施形態に係る会議情報管理サーバ100は、複数の関連会議のそれぞれにおいて管理される文書中の全文章に対して形態素に分解し、各形態素(又はフレーズ)に対して、関連会議全体として管理される全ての文書集合に対しての特殊度を表す指標を計算し、その特殊度の高い形態素(又はフレーズ)をその会議のキーワードとして抽出、表示する。つまり、関連会議全体に共通するような言葉は、個々の会議においては特異語ではないため、各会議のキーワードとはなりにくくなり、特定の会議に限って頻出するようなワードの方が特異であるため、むしろそのようなワードの方がその会議のキーワードとして適切である点に着目することにより、ある複数の関連会議全体の会議文書との比較により、その関連会議に含まれる個々の会議の会議情報における特異語を抽出し、個々の会議のキーワードとするようにした。
【0090】
従って、上述の本実施形態によれば、会議の会議文書毎にキーワードを抽出する方法に関し、同一のテーマを扱うなど議事内容に関連性のある関連会議の会議文書であっても、各会議文書から各会議間の議事内容を差別化しうるキーワードを抽出する会議キーワード抽出装置、会議キーワード抽出方法、会議キーワード抽出プログラムを提供することが可能となる。
【0091】
各実施形態に基づき本発明の説明を行ってきたが、上記各実施形態にあげたその他の要素との組み合わせなど、ここで示した要件に本発明が限定されるものではない。これらの点に関しては、本発明の主旨をそこなわない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。また、本発明の構成要素、表現または構成要素の任意の組合せを、方法、装置、システム、コンピュータプログラム、記録媒体、などに適用したものも本発明の態様として有効である。
【符号の説明】
【0092】
100 キーワード抽出装置
101 登録部
102 指定会議受信部
103 会議情報取得部
104 重要度算出部
105 キーワード抽出部
106 キーワード表示部
107 会議文書記憶部
108 属性情報記憶部
131 CPU
132 メモリ
133 ディスプレイアダプタ
134 ディスプレイスクリーン
135 外部入出力装置
136 シリアルポート
137 記憶装置
138 キーボード
139 ポインティングデバイス
140 バス
141 音声インタフェース
142 ネットワークインタフェース
143 ネットワークサービス
200 クライアント端末
201 ブラウザ
300 ネットワーク
【先行技術文献】
【特許文献】
【0093】
【特許文献1】特開2008−243024号

【特許請求の範囲】
【請求項1】
会議文書からキーワードを抽出する会議キーワード抽出装置であって、
相関連する関連会議文書を取得する取得手段と、
取得された関連会議文書毎に、関連会議文書内の各フレーズの重要度を算出する算出手段と、
前記各フレーズの中から、前記重要度に基づき所定数のフレーズをキーワードとして抽出する抽出手段と、
を有し、
前記算出手段は、各フレーズの重要度を算出するに際し、
関連会議文書内の重要度算出対象フレーズが、前記取得手段により取得された全ての関連会議文書内のフレーズに対して該関連会議文書内に頻出する度合いである逆頻出度を用いること、
を特徴とする会議キーワード抽出装置。
【請求項2】
前記算出手段は、前記各フレーズの重要度としてTF−IDF値を算出し、
IDF値を算出するに際し、利用するコーパスの対象範囲を取得された関連会議文書の範囲とすること、
を特徴とする請求項1記載の会議キーワード抽出装置。
【請求項3】
前記取得手段は、
関連会議文書を取得するとき、当該関連会議文書にさらに関連する会議文書を取得すること、
を特徴とする請求項1又は2記載の会議キーワード抽出装置。
【請求項4】
前記取得手段は、
関連会議文書を取得するとき、当該関連会議文書に対応付けられた重み値を含めて取得し、
前記算出手段は、前記重み値による重み付けを行って、取得された関連会議文書毎に、関連会議文書内の各フレーズの重要度を算出すること、
を特徴とする請求項1ないし3何れか一項記載の会議キーワード抽出装置。
【請求項5】
会議文書の会議毎に、当該会議文書から抽出されたキーワードを、当該会議に関する情報とともに表示する表示手段を有すること、
を特徴とする請求項1ないし4何れか一項記載の会議キーワード抽出装置。
【請求項6】
会議文書からキーワードを抽出する会議キーワード抽出装置における会議キーワード抽出方法であって、
相関連する関連会議文書を取得する取得手順と、
取得された関連会議文書毎に、関連会議文書内の各フレーズの重要度を算出する算出手順と、
前記各フレーズの中から、前記重要度に基づき所定数のフレーズをキーワードとして抽出する抽出手順と、
を有し、
前記算出手順は、各フレーズの重要度を算出するに際し、
関連会議文書内の重要度算出対象フレーズが、前記取得手順により取得された全ての関連会議文書内のフレーズに対して該関連会議文書内に頻出する度合いである逆頻出度を用いること、
を特徴とする会議キーワード抽出方法。
【請求項7】
前記算出手順は、前記各フレーズの重要度としてTF−IDF値を算出し、
IDF値を算出するに際し、利用するコーパスの対象範囲を取得された関連会議文書の範囲とすること、
を特徴とする請求項6記載の会議キーワード抽出方法。
【請求項8】
前記取得手順は、
関連会議文書を取得するとき、当該関連会議文書にさらに関連する会議文書を取得すること、
を特徴とする請求項6又は7記載の会議キーワード抽出方法。
【請求項9】
前記取得手順は、
関連会議文書を取得するとき、当該関連会議文書に対応付けられた重み値を含めて取得し、
前記算出手順は、前記重み値による重み付けを行って、取得された関連会議文書毎に、関連会議文書内の各フレーズの重要度を算出すること、
を特徴とする請求項6ないし8何れか一項記載の会議キーワード抽出方法。
【請求項10】
会議文書の会議毎に、当該会議文書から抽出されたキーワードを、当該会議に関する情報とともに表示する表示手順を有すること、
を特徴とする請求項6ないし9何れか一項記載の会議キーワード抽出方法。
【請求項11】
請求項請求項6ないし10何れか一項記載の会議キーワード抽出方法をコンピュータに実行させるための会議キーワード抽出プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate


【公開番号】特開2012−38064(P2012−38064A)
【公開日】平成24年2月23日(2012.2.23)
【国際特許分類】
【出願番号】特願2010−177259(P2010−177259)
【出願日】平成22年8月6日(2010.8.6)
【出願人】(000006747)株式会社リコー (37,907)
【Fターム(参考)】