文書分析装置
【課題】 電子化された文書群の分析結果を表すテーブルを表示する際に、テーブル内で注目すべき零セルを強調して表示する。
【解決手段】 本明細書に開示された実施形態のベクトル生成部は、テーブル情報に基づいて、各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成する。行方向クラスタリング部及び列方向クラスタリング部は、それぞれ各方向ベクトル情報間の類似度に基づいてクラスタリングを実行する。零セルスコアリング部は、各クラスタリング結果情報に基づいて各セルのスコアリングを実行してテーブルスコア情報を作成する。表示部は、テーブルスコア情報に基づいて、零セルに強調表示データを付加したテーブル情報を表示する。
【解決手段】 本明細書に開示された実施形態のベクトル生成部は、テーブル情報に基づいて、各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成する。行方向クラスタリング部及び列方向クラスタリング部は、それぞれ各方向ベクトル情報間の類似度に基づいてクラスタリングを実行する。零セルスコアリング部は、各クラスタリング結果情報に基づいて各セルのスコアリングを実行してテーブルスコア情報を作成する。表示部は、テーブルスコア情報に基づいて、零セルに強調表示データを付加したテーブル情報を表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書に開示された本発明の実施形態は、文書分析装置に関する。
【背景技術】
【0002】
近年の情報システムの高度化に伴い、電子化された特許文献や新聞記事、ウェブページ、書籍といった文書を大量に記録して保存可能となっている。これら蓄積された文書群は、日々の業務に有効活用されることが求められている。有効活用の例としては、過去の膨大な量の新聞記事を分類し、多くの人が利用しやすいように整理する、あるいは、現在研究開発している技術に関係のある自他社の特許群の傾向を分析して、新しい研究開発分野を発見する、などがある。
【0003】
しかしながら、大量の文書群から関係のある文書を抽出し、文書の内容を分類し、傾向を分析するといった作業には多大な労力とコストがかかる。そこで、これらの作業を支援するために、様々な文書検索・分類・分析技術が考案されている。
【0004】
このような技術の一つとして、文書群から、統計図表の一種であるテーブル(表)を自動的に生成することにより、文書群の分析を支援するテーブル自動生成技術がある。テーブルは、行方向と列方向にそれぞれ複数のセルを並べた形で構成された統計図表の一種であり、事象の傾向を2つの観点から分析する際に適した表示形態である。テーブル自動生成技術は、1つの文書が複数の観点から記述されている場合、その中からユーザが2つの観点を選び、選ばれた観点ごとに同種の属性を持つ文書をグルーピングし、結果をクロス(交差)させてテーブルを生成する。一般に、テーブルの行・列の各分類項目名にはグルーピングしたグループの特徴を表す名称が表示され、テーブル中のセルには交差する行と列のグループを同時に満たす文書の文書数や文書リストが表示される。
【0005】
例えば、特許文献は1件毎に「出願人」、「発明者」、「出願年」及び「IPC(国際特許分類)」といった多数の観点からなる書誌情報を保持している。この特許文献を対象に「出願人」と「IPC」の観点でグルーピングし、結果をクロスしたテーブルを作成する。このようなテーブルを見ることで、どの出願人がどのようなIPC(すなわち技術)の発明をしているかが分かり、特許戦略や研究開発戦略を検討しやすくなる。
【0006】
文書群からのテーブル自動生成技術に関しては、そのほかにも、前述した書誌情報だけでなく、文書の内容(例えば、特許文書の「要約の課題」と「要約の解決手段」、など)を元に、各観点の分類項目を自動生成する技術や、分類項目を入れ替えることでテーブルを見やすくする技術など、テーブルの作成を支援したり、視認性を向上させたりする既存の技術がある。
【0007】
また、自動生成されるテーブルは、セルに記載されたデータの大小や、行(列)方向に見た連続的な移り変わりにより、注目すべき行・列の組み合わせや、事象の傾向を分析する利用方法が一般的である。
【0008】
一方、データが零のセル(以下、「零セル」という)に着目する利用方法もある。例えば、特許文献を元に、「課題」と「解決手段」の観点からなるテーブルを作成し、出願がない(0件の)セルを「穴場」として見つけて、新しい研究領域の参考にする場合、などである。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2001−282852号公報
【特許文献2】特開2004−86350号公報
【特許文献3】特開2007−108867号公報
【特許文献4】特開2003−345811号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、以上のような零セルに着目する利用方法では、テーブルの行・列の項目数が多数ある場合、零セルも多数になってしまうケースがあり、どの零セルに注目すべきか分からなくなってしまう不都合がある。この不都合は、従来の技術では有効に対応することができない。
【0011】
従って、このような不都合に対し、多数の零セルのうちの注目すべき零セルが分かれば、文書群からの新しい知見の発見の支援につながる。
【0012】
本明細書に開示された実施形態は、電子化された文書群の分析結果を表すテーブルを表示する際に、テーブル内で注目すべき零セルを強調して表示し得る文書分析装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
本明細書に開示された実施形態の文書分析装置は、テーブル情報記憶部、操作部、ベクトル生成部、行方向クラスタリング部、列方向クラスタリング部、零セルスコアリング部及び表示部を備えている。
【0014】
実施形態のテーブル情報記憶部は、行方向と列方向にそれぞれ複数のセルを並べて構成されたテーブルであって、複数の行項目名、複数の列項目名、及び各行項目名のいずれかと各列項目名のいずれかとの両者に分類された文書の数を示す各セル、を含むテーブルを表すテーブル情報を記憶する。
【0015】
実施形態の操作部は、ユーザの操作に応じて入力された開始指示を受け付けると、この開始指示を送出する。
【0016】
実施形態のベクトル生成部は、操作部から開始指示を受けると、テーブル情報記憶部内のテーブル情報に基づいて、各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成する。
【0017】
実施形態の行方向クラスタリング部は、各行方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各行方向ベクトル情報を示す行方向ベクトルクラスタリング結果情報を算出する。
【0018】
実施形態の列方向クラスタリング部は、各列方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各列方向ベクトル情報を示す列方向ベクトルクラスタリング結果情報を算出する。
【0019】
実施形態の零セルスコアリング部は、行方向ベクトルクラスタリング結果情報及び列方向ベクトルクラスタリング結果情報に基づいて、当該各クラスタリング結果情報内の各セルの中で零値を示す零セルと非零値を示す非零セルとのスコアリングを実行することにより、当該スコアリングの実行結果を示すテーブルスコア情報を作成する。
【0020】
実施形態の表示部は、テーブルスコア情報に基づいてテーブル情報内の零セルに強調表示データを付加し、強調表示データが付加されたテーブル情報を表示する。
【図面の簡単な説明】
【0021】
【図1】実施形態に係る文書分析装置の構成を示す模式図である。
【図2】同実施形態におけるテーブル情報記憶部内のテーブル情報を示す模式図である。
【図3】同実施形態における動作を説明するためのフローチャートである。
【図4】同実施形態における操作部の一例を示す模式図である。
【図5】同実施形態における行ベクトル生成部の動作を説明するための模式図である。
【図6】同実施形態における列ベクトル生成部の動作を説明するための模式図である。
【図7】同実施形態における行クラスタリング部の動作を説明するための模式図である。
【図8】同実施形態における列クラスタリング部の動作を説明するための模式図である。
【図9】同実施形態における行方向スコアリング部の動作を説明するための模式図である。
【図10】同実施形態における行方向スコアリング部の動作を説明するための模式図である。
【図11】同実施形態における列方向スコアリング部の動作を説明するための模式図である。
【図12】同実施形態における列方向スコアリング部の動作を説明するための模式図である。
【図13】同実施形態におけるスコア統合部の動作を説明するための模式図である。
【図14】同実施形態における表示部の動作を説明するための模式図である。
【図15】同実施形態における表示部による表示画面を示す模式図である。
【発明を実施するための形態】
【0022】
以下、実施形態について図面を用いて説明する。なお、本実施形態は、理解を容易にする観点から、文書が電子レンジに関連する特許文書である場合を例に挙げて述べる。
【0023】
図1は実施形態に係る文書分析装置の構成を示す模式図であり、図2は同実施形態におけるテーブル情報記憶部内のテーブル情報を示す模式図である。
【0024】
この文書分析装置は、テーブル情報記憶部100、操作部300、ベクトル生成部400、クラスタリング部500、零セルスコアリング部600及び表示部700を備えている。このような文書分析装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から文書分析装置となるコンピュータにインストールされ、文書分析装置の機能を実現させるためのプログラムが用いられる。
【0025】
ここで、テーブル情報記憶部100は、行方向と列方向にそれぞれ複数のセルを並べて構成されたテーブルであって、複数の行項目名、複数の列項目名、及び各行項目名のいずれかと各列項目名のいずれかとの両者に分類された文書の数を示す各セル、を含むテーブルを表すテーブル情報を記憶した部位である。テーブル情報の例を図2に示す。図2は、特許文書群を「技術」と「出願人」の観点からそれぞれ分類した結果をクロスしたテーブル情報を示している。特許文書群は、「技術」の観点では「扉」、「電流」、「容器」、「ラップ」、「電磁波」の各分類項目に予め分類され、「出願人」の観点では「A社」、「B社」、「C社」、「D社」、「E社」に予め分類されている。その上で、「技術」の観点で「扉」に分類され、かつ「出願人」の観点で「A社」に分類されている特許文書は30件、「技術」の観点で「容器」に分類され、かつ「出願人」の観点で「B社」に分類されている特許文書は10件、というように「技術」の特定の分類項目と、「出願人」の特定の分類項目を両方満たす特許文書の件数を、その交点のセルに配置している。ただし、当てはまる特許文書がない場合は0とする。例えば、「技術」の観点で「電磁波」に分類され、かつ「出願人」の観点で「C社」に分類されている特許文書は0件であり、0とする。
【0026】
操作部300は、ユーザ200の操作に応じて入力された開始指示を受け付けると、この開始指示をベクトル生成部400に送出する部位であり、例えばGUI(Graphical User Interface)が使用可能となっている。
【0027】
ベクトル生成部400は、操作部300から開始指示を受けると、テーブル情報記憶部100内のテーブル情報に基づいて、各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成する部位である。ベクトル生成部400は、行ベクトル生成部401及び列ベクトル生成部402を備えている。
【0028】
行ベクトル生成部401は、テーブル情報のセル中の特許文書件数を1行単位で抽出し、例えば、「A社」ベクトル(30,30,0,0,30)、「B社」ベクトル(30,0,10,0,20)、「C社」ベクトル(0,0,30,20,0)、「D社」ベクトル(30,20,0,10,20)、「E社」ベクトル(0,0,30,0,0)等の行方向ベクトル情報を生成する。抽出したベクトルの名称は、その行の分類項目名(=行項目名)となる。
【0029】
列ベクトル生成部402は、テーブル情報のセル中の特許文書件数を1列単位で抽出し、例えば、「扉」ベクトル(30,30,0,30,0)を生成する。同様に、「電流」ベクトル(30,0,0,20,0)、「容器」ベクトル(0,10,30,0,30)、「ラップ」ベクトル(0,0,20,10,0)、「電磁波」ベクトル(30,20,0,20,0)等の列方向ベクトル情報を生成する。抽出したベクトルの名称は、その列の分類項目名(=列項目名)となる。
【0030】
クラスタリング部500は、ベクトル生成部400で生成された行方向ベクトル情報と列方向ベクトル情報をそれぞれクラスタリングし、行方向クラスタリング結果情報と列方向クラスタリング結果情報を算出する部位である。クラスタリング部500は、行クラスタリング部501及び列クラスタリング部502を備えている。
【0031】
行クラスタリング部501は、行ベクトル生成部401で生成された各行方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各行方ベクトル情報を示す行方向ベクトルクラスタリング結果情報を算出する部位である。行クラスタリング部501は、ここでは5つの行方向ベクトル相互の類似度を算出し、算出結果がしきい値を超えているものについて、相互にまとめクラスタを生成する。
【0032】
列クラスタリング部502は、列ベクトル生成部402で生成された各列方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各列方向ベクトル情報を示す列方向ベクトルクラスタリング結果情報を算出する部位である。列クラスタリング部502は、ここでは、5つの列方向ベクトル相互の類似度を算出し、算出結果がしきい値を超えているものについて、相互にまとめクラスタを生成する。
【0033】
零セルスコアリング部600は、行方向ベクトルクラスタリング結果情報及び列方向ベクトルクラスタリング結果情報に基づいて、当該各クラスタリング結果情報内の各セルの中で零値を示す零セルと非零値を示す非零セルとのスコアリングを実行することにより、当該スコアリングの実行結果を示すテーブルスコア情報を作成する部位である。零セルスコアリング部600は、行方向スコアリング部601、列方向スコアリング部602及びスコア統合部603を備えている。
【0034】
行方向スコアリング部601は、行方向ベクトルクラスタリング結果情報内の列方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す行方向スコアリング結果情報を作成する部位である。なお、非負値とは、零又は正の値(すなわち、零以上の値)であり、負値とは、負の値(すなわちマイナスの値)である。行方向スコアリング部601は、割り当ての際に、以下の3ルールを適用する。
【0035】
ルール1:零セルの重みを、その零セルの列方向の零セル以外のセルの特許件数の平均値であるとする。
【0036】
ルール2:列方向に零セル以外が存在しない場合は、その零セルのスコアは0であるとする。
【0037】
ルール3:零セル以外のセルのスコアは全て−1であるとする。
【0038】
列方向スコアリング部602は、列方向ベクトルクラスタリング結果情報内の行方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す列方向スコアリング結果情報を作成する部位である。列方向スコアリング部602は、割り当ての際に、以下の3ルールを適用する。
【0039】
ルール1:零セルの重みを、その零セルの行方向の零セル以外のセルの特許件数の平均値であるとする。
【0040】
ルール2:行方向に零セル以外が存在しない場合は、その零セルのスコアは0であるとする。
【0041】
ルール3:零セル以外のセルのスコアは全て−1であるとする。
【0042】
スコア統合部603は、行方向スコアリング部601及び列方向スコアリング部602の出力結果である行方向スコアリング結果情報と、列方向スコアリング結果情報とをセル毎に合計し、当該合計結果を示すテーブルスコア情報を生成する部位である。
【0043】
表示部700は、テーブル情報と零セルスコアリング部600により生成されたテーブルスコア情報に基づき、ユーザ200に対しテーブルを表示する部位である。テーブルはテーブル情報の各セルに対し、テーブルスコアと予め定められたルールに基づいた強調表示データを付加することで表示される。換言すると、表示部700は、テーブルスコア情報に基づいてテーブル情報内の零セルに強調表示データを付加し、強調表示データが付加されたテーブル情報を表示する。
【0044】
次に、以上のように構成された文書分析装置の動作を図3のフローチャートを用いて説明する。
【0045】
始めに、操作部300はユーザからの操作を受けて一連の処理を開始する(S1)。操作部300の例を図4に示す。図4ではWebブラウザ上に、テーブル情報を表示するための指示を出す「OK」ボタン300aがある。ユーザ200がマウス等の操作により「OK」ボタン300aをクリックすると、操作部300はベクトル生成部400へ、処理を開始する開始指示を出す。
【0046】
ベクトル生成部400は、この開始指示に基づき、テーブル情報記憶部100からテーブル情報を読み込む(S2)。
【0047】
ベクトル生成部400においては、行ベクトル生成部401がテーブル情報から行方向ベクトルを生成する(S3−1)。
【0048】
具体的には、ベクトル生成部401は、図5に示すように、テーブル情報のセル中の特許文書件数を1行単位で抽出し、行方向ベクトル情報を生成する。抽出したベクトルの名称は、その行の分類項目名となる。例えば、テーブル情報の第2列目には、分類項目名「A社」に対し、技術の観点の5つの分類項目それぞれとの交点の特許文書件数は、それぞれ「30」、「30」、「0」、「0」、「30」となっている。これを元に、行方向ベクトル情報として、「A社」ベクトル(30,30,0,0,30)を生成する。同様に、「B社」ベクトル(30,0,10,0,20)、「C社」ベクトル(0,0,30,20,0)、「D社」ベクトル(30,20,0,10,20)、「E社」ベクトル(0,0,30,0,0)を、それぞれ生成する。
【0049】
また同様に、ベクトル生成部400内の列ベクトル生成部402は、テーブル情報から列方向ベクトルを生成する(S3−2)。
【0050】
すなわち、列ベクトル生成部402は、図6に示すように、テーブル情報のセル中の特許文書件数を1列単位で抽出し、列方向ベクトル情報を生成する。抽出したベクトルの名称は、その列の分類項目名となる。例えば、テーブル情報の第2列目には、分類項目名「扉」に対し、出願人の観点の5つの分類項目それぞれとの交点の特許文書件数は、それぞれ「30」、「30」、「0」、「30」、「0」となっている。これを元に、列方向ベクトル情報として、「扉」ベクトル(30,30,0,30,0)を生成する。同様に、「電流」ベクトル(30,0,0,20,0)、「容器」ベクトル(0,10,30,0,30)、「ラップ」ベクトル(0,0,20,10,0)、「電磁波」ベクトル(30,20,0,20,0)を、それぞれ生成する。
【0051】
しかる後、ベクトル生成部400は、生成された行方向ベクトルと列方向ベクトルをクラスタリング部500に送出する。
【0052】
クラスタリング部500では、行クラスタリング部501が行方向ベクトルのクラスタリングを行い、クラスタに分ける(S4−1)。
【0053】
例えば、行クラスタリング部501は、図7に示すように、行方向ベクトル情報を元にクラスタを生成する。具体的には、5つのベクトル相互の類似度を式(1)に示すコサイン類似度で算出する。この例では、n=5である。
【0054】
ベクトルa=(a1,a2,…,an)、b=(b1,b2,…,bn)があるとき、
コサイン類似度=(a・b)/|a||b| …(1)
ただし、
a・b=(ベクトルaとベクトルbの内積)
=a1*b1+a2*b2+・・・+an*bn
|a|=ベクトルaの長さ(ノルム)
=sqrt(a1*a1+a2*a2+・・・+an*an)
|b|=ベクトルbの長さ(ノルム)
=sqrt(b1*b1+b2*b2+・・・+bn*bn)
コサイン類似度の算出結果は図7の表に示すように、0〜1までの値をとる。その後、コサイン類似度がしきい値(例、0.5)を超えているものについて、相互にまとめてクラスタを生成する。この結果、互いに類似する各行方向ベクトル情報からなる行方向ベクトルクラスタリング結果情報として、2つのクラスタ(A社、B社、D社)、(C社、E社)が生成される。
【0055】
また同様に、列クラスタリング部502は、列方向ベクトルのクラスタリングを行い、クラスタに分ける(S4−2)。
【0056】
例えば、列クラスタリング部502は、図8に示すように、列方向ベクトル情報を元にクラスタを生成する。具体的には、5つのベクトル相互の類似度を式(1)に示すコサイン類似度で算出する。算出結果は図8の表に示すように、0〜1までの値をとる。その後、コサイン類似度がしきい値(例、0.5)を超えているものについて、相互にまとめてクラスタを生成する。この結果、互いに類似する各列方向ベクトル情報からなる列方向ベクトルクラスタリング結果情報として、2つのクラスタ(扉、電流、電磁波)、(容器、ラップ)が生成される。
【0057】
しかる後、クラスタリング部500は、行方向ベクトルクラスタリング結果情報と列方向ベクトルクラスタリング結果情報を零セルスコアリング部600に送出する。
【0058】
零セルスコアリング部600では、行方向ベクトルクラスタリング結果情報に対し、行方向スコアリング部601により、各セルのスコアリングを実行する(S5−1)。
【0059】
図9は行方向ベクトルクラスタリング結果情報にあるクラスタ1に対する処理の例である。まず「扉」列に関しては、零セルが存在しないため、ルール3のみを適用して「A社」×「扉」、「B社」×「扉」、「D社」×「扉」の各セルとも「−1」になる。「電流」列に関しては、「B社」×「電流」が零セルである。このため、このセルに関してはルール1を適用して、同じ「電流」列の、「A社」×「電流」、「D社」×「電流」の平均値である(30+20)/2=25をスコアとする。また、「A社」×「電流」、「D社」×「電流」のスコアは、ルール3を適用して「−1」とする。同様に他のセルのスコアを図9に示すようにスコアリングする。
【0060】
図10は行方向ベクトルクラスタリング結果情報にあるクラスタ2に対する処理の例である。まず「扉」列、「電流」列に関しては、零セルしか存在しないため、ルール2が適用されスコアはすべての零セルに関し0となる。その他のセルのスコアについてもルール1、ルール3を適用して図10に示すようにスコアリングする。
【0061】
また、零セルスコアリング部600は、列方向ベクトルスコアリング結果情報に対し、列方向スコアリング部602により、各セルのスコアリングを実行する(S5−2)。
【0062】
図11は列方向ベクトルクラスタリング結果情報にあるクラスタ1に対する処理の例である。まず「A社」行に関しては、零セルが存在しないため、ルール3のみを適用して「A社」×「扉」、「A社」×「電流」、「A社」×「電磁波」の各セルとも「−1」になる。「B社」行に関しては、「B社」×「電流」が零セルである。このため、このセルに関してはルール1を適用して、同じ「B社」行の、「B社」×「扉」、「B社」×「電磁波」の平均値である(30+20)/2=25をスコアとする。また、「B社」×「扉」、「B社」×「電磁波」のスコアは、ルール3を適用して「−1」とする。同様に他のセルのスコアを図11に示すように決定する。「C社」行に関しては零セルしか存在しないため、ルール2が適用されスコアは全ての零セルに関し0となる。同様に他のセルのスコアを図11に示すようにスコアリングする。
【0063】
図12は列方向ベクトルクラスタリング結果情報にあるクラスタ2に対する処理の例である。まず「A社」行に関しては、零セルしか存在しないため、ルール2のみを適用して「A社」×「容器」、「A社」×「ラップ」の各セルとも「0」になる。「B社」行に関しては、「B社」×「ラップ」が零セルである。このセルに関してはルール1を適用して、同じ「B社」行の、「B社」×「容器」の特許件数を元に、10/1=10をスコアとする。また、「B社」×「容器」のスコアは、ルール3を適用して「−1」とする。「C社」行には、零セルが存在しないため、ルール3のみを適用して「C社」×「容器」、「C社」×「ラップ」の各セルとも「−1」になる。同様に他のセルのスコアを図12に示すようにスコアリングする。
【0064】
スコア統合部603は、ステップS5−1,S5−2でスコアリングした結果を合算してテーブルスコア情報を生成する(S6)。スコア統合部603の動作を図13に模式的に示す。例えば、「A社」×「扉」は、(−1)+(−1)=−2、「B社」×「電流」は、25+25=50、「E社」×「ラップ」は、20+30=50となる。ほか同様に図13に示すように各セルを合計し、テーブルスコア情報を生成する。
【0065】
しかる後、表示部700は、テーブル情報とテーブルスコア情報により、零セルが強調表示されたテーブルを生成し、ユーザ200へ表示する(S7)。
【0066】
図14は表示部700の動作を説明するための模式図である。テーブル情報の各セルに対し、テーブルスコア情報の各セルの数値に基づき、セル背景を段階的に強調して表示する。具体的には、テーブルスコア情報の各セルの値に基づき、テーブル情報の各セルを「セルのスコア<0」、「セルのスコア=0」、「0<セルのスコア≦30」、「30<セルのスコア」の各ケースに分けて、図14に示したような段階的な強調表示を行う。
【0067】
図15は表示部700による表示画面を示している。最終的に、零セルが強調表示されたテーブル情報が可視化され、ユーザ200はその結果を閲覧することができる。
【0068】
本表示結果をみることで、ユーザ200は、多数ある零セルの中でより注目すべきところがわかる。本テーブルの元となる特許情報は電子レンジを対象としたものであるが、電子レンジに係る技術分野は多岐にあたり、またその各技術に対応している出願人にも偏りがある。本表示では、「同種の技術を発明している傾向がある出願人群において、他の出願人が発明しているにもかかわらず、ある出願人では発明していない技術」を強調して表示する。これにより、零セルの中で本当にその出願人が弱点としているものがわかりやすく表示されるようになり、注目すべきポイントをユーザ200は手早く発見することができるようになる。
【0069】
上述したように本実施形態によれば、電子化された文書群の分析結果を表すテーブルを表示する際に、テーブル内で注目すべき零セルを強調して表示することができる。これに伴い、テーブルにおいて、多数ある零セルの中でどこに注目すべきかがわかり、文書群からの新しい知見の発見の支援につながる。
【0070】
なお、本実施形態では、理解を容易にするために文書が電子レンジに関連する特許文書である場合を例に挙げて説明したが、対象とする文書はこれに限らず、例えば特許文書以外のメールやクレーム情報といった他の文書であってもよい。
【0071】
本実施形態のクラスタリング部500のクラスタリング処理は、コサイン類似度を用いる手法に限らず、例えば、kミーンズ(k-means)法やリーダ・フォロワ(leader-follower)法、階層型クラスタリングといった既存の手法を用いて実行してもよい。
【0072】
本実施形態の零セルスコアリング部600のスコアリング処理は、平均値に限らず、例えば、合算値、零セルの個数で除算した値、一部のセルに重みを付けた値といった所望の計算値を用いて実現してもよい。
【0073】
本実施形態の表示部700の表示処理は、色の濃淡に限らず、例えば、強調表示の際に、カラー表示及び/又は図形化を用いてもよい。また、表示形態に関しても、Webブラウザに限らず、他のGUI(Graphical User Interface)や印刷物等であってもよい。
【0074】
以上で説明した実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0075】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0076】
そして、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0077】
さらに、実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶又は一時記憶した記憶媒体も含まれる。
【0078】
また、記憶媒体は1つに限らず、複数の媒体から上記の実施形態における処理が実行される場合も、実施形態における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0079】
なお、上記の実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0080】
また、実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって実施形態の機能を実現することが可能な機器、装置を総称している。
【0081】
なお、本明細書に開示された発明は、上記の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
【0082】
加えて、上記の実施形態に開示されている複数の構成要素の適宜な組合せにより種々の実施形態を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。すなわち、実施形態の各構成要素は、適宜に統合、分割、順番の入れ替え等が行われてもよい。
【符号の説明】
【0083】
100…テーブル情報記憶部、200…ユーザ、300…操作部、400…ベクトル生成部、401…行方向ベクトル生成部、402…列方向ベクトル生成部、500…クラスタリング部、501…行方向クラスタリング部、502…列方向クラスタリング部、600…零セルスコアリング部、601…行方向スコアリング部、602…列方向スコアリング部、603…スコア統合部、700…表示部。
【技術分野】
【0001】
本明細書に開示された本発明の実施形態は、文書分析装置に関する。
【背景技術】
【0002】
近年の情報システムの高度化に伴い、電子化された特許文献や新聞記事、ウェブページ、書籍といった文書を大量に記録して保存可能となっている。これら蓄積された文書群は、日々の業務に有効活用されることが求められている。有効活用の例としては、過去の膨大な量の新聞記事を分類し、多くの人が利用しやすいように整理する、あるいは、現在研究開発している技術に関係のある自他社の特許群の傾向を分析して、新しい研究開発分野を発見する、などがある。
【0003】
しかしながら、大量の文書群から関係のある文書を抽出し、文書の内容を分類し、傾向を分析するといった作業には多大な労力とコストがかかる。そこで、これらの作業を支援するために、様々な文書検索・分類・分析技術が考案されている。
【0004】
このような技術の一つとして、文書群から、統計図表の一種であるテーブル(表)を自動的に生成することにより、文書群の分析を支援するテーブル自動生成技術がある。テーブルは、行方向と列方向にそれぞれ複数のセルを並べた形で構成された統計図表の一種であり、事象の傾向を2つの観点から分析する際に適した表示形態である。テーブル自動生成技術は、1つの文書が複数の観点から記述されている場合、その中からユーザが2つの観点を選び、選ばれた観点ごとに同種の属性を持つ文書をグルーピングし、結果をクロス(交差)させてテーブルを生成する。一般に、テーブルの行・列の各分類項目名にはグルーピングしたグループの特徴を表す名称が表示され、テーブル中のセルには交差する行と列のグループを同時に満たす文書の文書数や文書リストが表示される。
【0005】
例えば、特許文献は1件毎に「出願人」、「発明者」、「出願年」及び「IPC(国際特許分類)」といった多数の観点からなる書誌情報を保持している。この特許文献を対象に「出願人」と「IPC」の観点でグルーピングし、結果をクロスしたテーブルを作成する。このようなテーブルを見ることで、どの出願人がどのようなIPC(すなわち技術)の発明をしているかが分かり、特許戦略や研究開発戦略を検討しやすくなる。
【0006】
文書群からのテーブル自動生成技術に関しては、そのほかにも、前述した書誌情報だけでなく、文書の内容(例えば、特許文書の「要約の課題」と「要約の解決手段」、など)を元に、各観点の分類項目を自動生成する技術や、分類項目を入れ替えることでテーブルを見やすくする技術など、テーブルの作成を支援したり、視認性を向上させたりする既存の技術がある。
【0007】
また、自動生成されるテーブルは、セルに記載されたデータの大小や、行(列)方向に見た連続的な移り変わりにより、注目すべき行・列の組み合わせや、事象の傾向を分析する利用方法が一般的である。
【0008】
一方、データが零のセル(以下、「零セル」という)に着目する利用方法もある。例えば、特許文献を元に、「課題」と「解決手段」の観点からなるテーブルを作成し、出願がない(0件の)セルを「穴場」として見つけて、新しい研究領域の参考にする場合、などである。
【先行技術文献】
【特許文献】
【0009】
【特許文献1】特開2001−282852号公報
【特許文献2】特開2004−86350号公報
【特許文献3】特開2007−108867号公報
【特許文献4】特開2003−345811号公報
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかしながら、以上のような零セルに着目する利用方法では、テーブルの行・列の項目数が多数ある場合、零セルも多数になってしまうケースがあり、どの零セルに注目すべきか分からなくなってしまう不都合がある。この不都合は、従来の技術では有効に対応することができない。
【0011】
従って、このような不都合に対し、多数の零セルのうちの注目すべき零セルが分かれば、文書群からの新しい知見の発見の支援につながる。
【0012】
本明細書に開示された実施形態は、電子化された文書群の分析結果を表すテーブルを表示する際に、テーブル内で注目すべき零セルを強調して表示し得る文書分析装置を提供することを目的とする。
【課題を解決するための手段】
【0013】
本明細書に開示された実施形態の文書分析装置は、テーブル情報記憶部、操作部、ベクトル生成部、行方向クラスタリング部、列方向クラスタリング部、零セルスコアリング部及び表示部を備えている。
【0014】
実施形態のテーブル情報記憶部は、行方向と列方向にそれぞれ複数のセルを並べて構成されたテーブルであって、複数の行項目名、複数の列項目名、及び各行項目名のいずれかと各列項目名のいずれかとの両者に分類された文書の数を示す各セル、を含むテーブルを表すテーブル情報を記憶する。
【0015】
実施形態の操作部は、ユーザの操作に応じて入力された開始指示を受け付けると、この開始指示を送出する。
【0016】
実施形態のベクトル生成部は、操作部から開始指示を受けると、テーブル情報記憶部内のテーブル情報に基づいて、各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成する。
【0017】
実施形態の行方向クラスタリング部は、各行方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各行方向ベクトル情報を示す行方向ベクトルクラスタリング結果情報を算出する。
【0018】
実施形態の列方向クラスタリング部は、各列方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各列方向ベクトル情報を示す列方向ベクトルクラスタリング結果情報を算出する。
【0019】
実施形態の零セルスコアリング部は、行方向ベクトルクラスタリング結果情報及び列方向ベクトルクラスタリング結果情報に基づいて、当該各クラスタリング結果情報内の各セルの中で零値を示す零セルと非零値を示す非零セルとのスコアリングを実行することにより、当該スコアリングの実行結果を示すテーブルスコア情報を作成する。
【0020】
実施形態の表示部は、テーブルスコア情報に基づいてテーブル情報内の零セルに強調表示データを付加し、強調表示データが付加されたテーブル情報を表示する。
【図面の簡単な説明】
【0021】
【図1】実施形態に係る文書分析装置の構成を示す模式図である。
【図2】同実施形態におけるテーブル情報記憶部内のテーブル情報を示す模式図である。
【図3】同実施形態における動作を説明するためのフローチャートである。
【図4】同実施形態における操作部の一例を示す模式図である。
【図5】同実施形態における行ベクトル生成部の動作を説明するための模式図である。
【図6】同実施形態における列ベクトル生成部の動作を説明するための模式図である。
【図7】同実施形態における行クラスタリング部の動作を説明するための模式図である。
【図8】同実施形態における列クラスタリング部の動作を説明するための模式図である。
【図9】同実施形態における行方向スコアリング部の動作を説明するための模式図である。
【図10】同実施形態における行方向スコアリング部の動作を説明するための模式図である。
【図11】同実施形態における列方向スコアリング部の動作を説明するための模式図である。
【図12】同実施形態における列方向スコアリング部の動作を説明するための模式図である。
【図13】同実施形態におけるスコア統合部の動作を説明するための模式図である。
【図14】同実施形態における表示部の動作を説明するための模式図である。
【図15】同実施形態における表示部による表示画面を示す模式図である。
【発明を実施するための形態】
【0022】
以下、実施形態について図面を用いて説明する。なお、本実施形態は、理解を容易にする観点から、文書が電子レンジに関連する特許文書である場合を例に挙げて述べる。
【0023】
図1は実施形態に係る文書分析装置の構成を示す模式図であり、図2は同実施形態におけるテーブル情報記憶部内のテーブル情報を示す模式図である。
【0024】
この文書分析装置は、テーブル情報記憶部100、操作部300、ベクトル生成部400、クラスタリング部500、零セルスコアリング部600及び表示部700を備えている。このような文書分析装置は、ハードウェア構成、又はハードウェア資源とソフトウェアとの組合せ構成のいずれでも実施可能となっている。組合せ構成のソフトウェアとしては、予めネットワーク又は記憶媒体から文書分析装置となるコンピュータにインストールされ、文書分析装置の機能を実現させるためのプログラムが用いられる。
【0025】
ここで、テーブル情報記憶部100は、行方向と列方向にそれぞれ複数のセルを並べて構成されたテーブルであって、複数の行項目名、複数の列項目名、及び各行項目名のいずれかと各列項目名のいずれかとの両者に分類された文書の数を示す各セル、を含むテーブルを表すテーブル情報を記憶した部位である。テーブル情報の例を図2に示す。図2は、特許文書群を「技術」と「出願人」の観点からそれぞれ分類した結果をクロスしたテーブル情報を示している。特許文書群は、「技術」の観点では「扉」、「電流」、「容器」、「ラップ」、「電磁波」の各分類項目に予め分類され、「出願人」の観点では「A社」、「B社」、「C社」、「D社」、「E社」に予め分類されている。その上で、「技術」の観点で「扉」に分類され、かつ「出願人」の観点で「A社」に分類されている特許文書は30件、「技術」の観点で「容器」に分類され、かつ「出願人」の観点で「B社」に分類されている特許文書は10件、というように「技術」の特定の分類項目と、「出願人」の特定の分類項目を両方満たす特許文書の件数を、その交点のセルに配置している。ただし、当てはまる特許文書がない場合は0とする。例えば、「技術」の観点で「電磁波」に分類され、かつ「出願人」の観点で「C社」に分類されている特許文書は0件であり、0とする。
【0026】
操作部300は、ユーザ200の操作に応じて入力された開始指示を受け付けると、この開始指示をベクトル生成部400に送出する部位であり、例えばGUI(Graphical User Interface)が使用可能となっている。
【0027】
ベクトル生成部400は、操作部300から開始指示を受けると、テーブル情報記憶部100内のテーブル情報に基づいて、各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成する部位である。ベクトル生成部400は、行ベクトル生成部401及び列ベクトル生成部402を備えている。
【0028】
行ベクトル生成部401は、テーブル情報のセル中の特許文書件数を1行単位で抽出し、例えば、「A社」ベクトル(30,30,0,0,30)、「B社」ベクトル(30,0,10,0,20)、「C社」ベクトル(0,0,30,20,0)、「D社」ベクトル(30,20,0,10,20)、「E社」ベクトル(0,0,30,0,0)等の行方向ベクトル情報を生成する。抽出したベクトルの名称は、その行の分類項目名(=行項目名)となる。
【0029】
列ベクトル生成部402は、テーブル情報のセル中の特許文書件数を1列単位で抽出し、例えば、「扉」ベクトル(30,30,0,30,0)を生成する。同様に、「電流」ベクトル(30,0,0,20,0)、「容器」ベクトル(0,10,30,0,30)、「ラップ」ベクトル(0,0,20,10,0)、「電磁波」ベクトル(30,20,0,20,0)等の列方向ベクトル情報を生成する。抽出したベクトルの名称は、その列の分類項目名(=列項目名)となる。
【0030】
クラスタリング部500は、ベクトル生成部400で生成された行方向ベクトル情報と列方向ベクトル情報をそれぞれクラスタリングし、行方向クラスタリング結果情報と列方向クラスタリング結果情報を算出する部位である。クラスタリング部500は、行クラスタリング部501及び列クラスタリング部502を備えている。
【0031】
行クラスタリング部501は、行ベクトル生成部401で生成された各行方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各行方ベクトル情報を示す行方向ベクトルクラスタリング結果情報を算出する部位である。行クラスタリング部501は、ここでは5つの行方向ベクトル相互の類似度を算出し、算出結果がしきい値を超えているものについて、相互にまとめクラスタを生成する。
【0032】
列クラスタリング部502は、列ベクトル生成部402で生成された各列方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各列方向ベクトル情報を示す列方向ベクトルクラスタリング結果情報を算出する部位である。列クラスタリング部502は、ここでは、5つの列方向ベクトル相互の類似度を算出し、算出結果がしきい値を超えているものについて、相互にまとめクラスタを生成する。
【0033】
零セルスコアリング部600は、行方向ベクトルクラスタリング結果情報及び列方向ベクトルクラスタリング結果情報に基づいて、当該各クラスタリング結果情報内の各セルの中で零値を示す零セルと非零値を示す非零セルとのスコアリングを実行することにより、当該スコアリングの実行結果を示すテーブルスコア情報を作成する部位である。零セルスコアリング部600は、行方向スコアリング部601、列方向スコアリング部602及びスコア統合部603を備えている。
【0034】
行方向スコアリング部601は、行方向ベクトルクラスタリング結果情報内の列方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す行方向スコアリング結果情報を作成する部位である。なお、非負値とは、零又は正の値(すなわち、零以上の値)であり、負値とは、負の値(すなわちマイナスの値)である。行方向スコアリング部601は、割り当ての際に、以下の3ルールを適用する。
【0035】
ルール1:零セルの重みを、その零セルの列方向の零セル以外のセルの特許件数の平均値であるとする。
【0036】
ルール2:列方向に零セル以外が存在しない場合は、その零セルのスコアは0であるとする。
【0037】
ルール3:零セル以外のセルのスコアは全て−1であるとする。
【0038】
列方向スコアリング部602は、列方向ベクトルクラスタリング結果情報内の行方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す列方向スコアリング結果情報を作成する部位である。列方向スコアリング部602は、割り当ての際に、以下の3ルールを適用する。
【0039】
ルール1:零セルの重みを、その零セルの行方向の零セル以外のセルの特許件数の平均値であるとする。
【0040】
ルール2:行方向に零セル以外が存在しない場合は、その零セルのスコアは0であるとする。
【0041】
ルール3:零セル以外のセルのスコアは全て−1であるとする。
【0042】
スコア統合部603は、行方向スコアリング部601及び列方向スコアリング部602の出力結果である行方向スコアリング結果情報と、列方向スコアリング結果情報とをセル毎に合計し、当該合計結果を示すテーブルスコア情報を生成する部位である。
【0043】
表示部700は、テーブル情報と零セルスコアリング部600により生成されたテーブルスコア情報に基づき、ユーザ200に対しテーブルを表示する部位である。テーブルはテーブル情報の各セルに対し、テーブルスコアと予め定められたルールに基づいた強調表示データを付加することで表示される。換言すると、表示部700は、テーブルスコア情報に基づいてテーブル情報内の零セルに強調表示データを付加し、強調表示データが付加されたテーブル情報を表示する。
【0044】
次に、以上のように構成された文書分析装置の動作を図3のフローチャートを用いて説明する。
【0045】
始めに、操作部300はユーザからの操作を受けて一連の処理を開始する(S1)。操作部300の例を図4に示す。図4ではWebブラウザ上に、テーブル情報を表示するための指示を出す「OK」ボタン300aがある。ユーザ200がマウス等の操作により「OK」ボタン300aをクリックすると、操作部300はベクトル生成部400へ、処理を開始する開始指示を出す。
【0046】
ベクトル生成部400は、この開始指示に基づき、テーブル情報記憶部100からテーブル情報を読み込む(S2)。
【0047】
ベクトル生成部400においては、行ベクトル生成部401がテーブル情報から行方向ベクトルを生成する(S3−1)。
【0048】
具体的には、ベクトル生成部401は、図5に示すように、テーブル情報のセル中の特許文書件数を1行単位で抽出し、行方向ベクトル情報を生成する。抽出したベクトルの名称は、その行の分類項目名となる。例えば、テーブル情報の第2列目には、分類項目名「A社」に対し、技術の観点の5つの分類項目それぞれとの交点の特許文書件数は、それぞれ「30」、「30」、「0」、「0」、「30」となっている。これを元に、行方向ベクトル情報として、「A社」ベクトル(30,30,0,0,30)を生成する。同様に、「B社」ベクトル(30,0,10,0,20)、「C社」ベクトル(0,0,30,20,0)、「D社」ベクトル(30,20,0,10,20)、「E社」ベクトル(0,0,30,0,0)を、それぞれ生成する。
【0049】
また同様に、ベクトル生成部400内の列ベクトル生成部402は、テーブル情報から列方向ベクトルを生成する(S3−2)。
【0050】
すなわち、列ベクトル生成部402は、図6に示すように、テーブル情報のセル中の特許文書件数を1列単位で抽出し、列方向ベクトル情報を生成する。抽出したベクトルの名称は、その列の分類項目名となる。例えば、テーブル情報の第2列目には、分類項目名「扉」に対し、出願人の観点の5つの分類項目それぞれとの交点の特許文書件数は、それぞれ「30」、「30」、「0」、「30」、「0」となっている。これを元に、列方向ベクトル情報として、「扉」ベクトル(30,30,0,30,0)を生成する。同様に、「電流」ベクトル(30,0,0,20,0)、「容器」ベクトル(0,10,30,0,30)、「ラップ」ベクトル(0,0,20,10,0)、「電磁波」ベクトル(30,20,0,20,0)を、それぞれ生成する。
【0051】
しかる後、ベクトル生成部400は、生成された行方向ベクトルと列方向ベクトルをクラスタリング部500に送出する。
【0052】
クラスタリング部500では、行クラスタリング部501が行方向ベクトルのクラスタリングを行い、クラスタに分ける(S4−1)。
【0053】
例えば、行クラスタリング部501は、図7に示すように、行方向ベクトル情報を元にクラスタを生成する。具体的には、5つのベクトル相互の類似度を式(1)に示すコサイン類似度で算出する。この例では、n=5である。
【0054】
ベクトルa=(a1,a2,…,an)、b=(b1,b2,…,bn)があるとき、
コサイン類似度=(a・b)/|a||b| …(1)
ただし、
a・b=(ベクトルaとベクトルbの内積)
=a1*b1+a2*b2+・・・+an*bn
|a|=ベクトルaの長さ(ノルム)
=sqrt(a1*a1+a2*a2+・・・+an*an)
|b|=ベクトルbの長さ(ノルム)
=sqrt(b1*b1+b2*b2+・・・+bn*bn)
コサイン類似度の算出結果は図7の表に示すように、0〜1までの値をとる。その後、コサイン類似度がしきい値(例、0.5)を超えているものについて、相互にまとめてクラスタを生成する。この結果、互いに類似する各行方向ベクトル情報からなる行方向ベクトルクラスタリング結果情報として、2つのクラスタ(A社、B社、D社)、(C社、E社)が生成される。
【0055】
また同様に、列クラスタリング部502は、列方向ベクトルのクラスタリングを行い、クラスタに分ける(S4−2)。
【0056】
例えば、列クラスタリング部502は、図8に示すように、列方向ベクトル情報を元にクラスタを生成する。具体的には、5つのベクトル相互の類似度を式(1)に示すコサイン類似度で算出する。算出結果は図8の表に示すように、0〜1までの値をとる。その後、コサイン類似度がしきい値(例、0.5)を超えているものについて、相互にまとめてクラスタを生成する。この結果、互いに類似する各列方向ベクトル情報からなる列方向ベクトルクラスタリング結果情報として、2つのクラスタ(扉、電流、電磁波)、(容器、ラップ)が生成される。
【0057】
しかる後、クラスタリング部500は、行方向ベクトルクラスタリング結果情報と列方向ベクトルクラスタリング結果情報を零セルスコアリング部600に送出する。
【0058】
零セルスコアリング部600では、行方向ベクトルクラスタリング結果情報に対し、行方向スコアリング部601により、各セルのスコアリングを実行する(S5−1)。
【0059】
図9は行方向ベクトルクラスタリング結果情報にあるクラスタ1に対する処理の例である。まず「扉」列に関しては、零セルが存在しないため、ルール3のみを適用して「A社」×「扉」、「B社」×「扉」、「D社」×「扉」の各セルとも「−1」になる。「電流」列に関しては、「B社」×「電流」が零セルである。このため、このセルに関してはルール1を適用して、同じ「電流」列の、「A社」×「電流」、「D社」×「電流」の平均値である(30+20)/2=25をスコアとする。また、「A社」×「電流」、「D社」×「電流」のスコアは、ルール3を適用して「−1」とする。同様に他のセルのスコアを図9に示すようにスコアリングする。
【0060】
図10は行方向ベクトルクラスタリング結果情報にあるクラスタ2に対する処理の例である。まず「扉」列、「電流」列に関しては、零セルしか存在しないため、ルール2が適用されスコアはすべての零セルに関し0となる。その他のセルのスコアについてもルール1、ルール3を適用して図10に示すようにスコアリングする。
【0061】
また、零セルスコアリング部600は、列方向ベクトルスコアリング結果情報に対し、列方向スコアリング部602により、各セルのスコアリングを実行する(S5−2)。
【0062】
図11は列方向ベクトルクラスタリング結果情報にあるクラスタ1に対する処理の例である。まず「A社」行に関しては、零セルが存在しないため、ルール3のみを適用して「A社」×「扉」、「A社」×「電流」、「A社」×「電磁波」の各セルとも「−1」になる。「B社」行に関しては、「B社」×「電流」が零セルである。このため、このセルに関してはルール1を適用して、同じ「B社」行の、「B社」×「扉」、「B社」×「電磁波」の平均値である(30+20)/2=25をスコアとする。また、「B社」×「扉」、「B社」×「電磁波」のスコアは、ルール3を適用して「−1」とする。同様に他のセルのスコアを図11に示すように決定する。「C社」行に関しては零セルしか存在しないため、ルール2が適用されスコアは全ての零セルに関し0となる。同様に他のセルのスコアを図11に示すようにスコアリングする。
【0063】
図12は列方向ベクトルクラスタリング結果情報にあるクラスタ2に対する処理の例である。まず「A社」行に関しては、零セルしか存在しないため、ルール2のみを適用して「A社」×「容器」、「A社」×「ラップ」の各セルとも「0」になる。「B社」行に関しては、「B社」×「ラップ」が零セルである。このセルに関してはルール1を適用して、同じ「B社」行の、「B社」×「容器」の特許件数を元に、10/1=10をスコアとする。また、「B社」×「容器」のスコアは、ルール3を適用して「−1」とする。「C社」行には、零セルが存在しないため、ルール3のみを適用して「C社」×「容器」、「C社」×「ラップ」の各セルとも「−1」になる。同様に他のセルのスコアを図12に示すようにスコアリングする。
【0064】
スコア統合部603は、ステップS5−1,S5−2でスコアリングした結果を合算してテーブルスコア情報を生成する(S6)。スコア統合部603の動作を図13に模式的に示す。例えば、「A社」×「扉」は、(−1)+(−1)=−2、「B社」×「電流」は、25+25=50、「E社」×「ラップ」は、20+30=50となる。ほか同様に図13に示すように各セルを合計し、テーブルスコア情報を生成する。
【0065】
しかる後、表示部700は、テーブル情報とテーブルスコア情報により、零セルが強調表示されたテーブルを生成し、ユーザ200へ表示する(S7)。
【0066】
図14は表示部700の動作を説明するための模式図である。テーブル情報の各セルに対し、テーブルスコア情報の各セルの数値に基づき、セル背景を段階的に強調して表示する。具体的には、テーブルスコア情報の各セルの値に基づき、テーブル情報の各セルを「セルのスコア<0」、「セルのスコア=0」、「0<セルのスコア≦30」、「30<セルのスコア」の各ケースに分けて、図14に示したような段階的な強調表示を行う。
【0067】
図15は表示部700による表示画面を示している。最終的に、零セルが強調表示されたテーブル情報が可視化され、ユーザ200はその結果を閲覧することができる。
【0068】
本表示結果をみることで、ユーザ200は、多数ある零セルの中でより注目すべきところがわかる。本テーブルの元となる特許情報は電子レンジを対象としたものであるが、電子レンジに係る技術分野は多岐にあたり、またその各技術に対応している出願人にも偏りがある。本表示では、「同種の技術を発明している傾向がある出願人群において、他の出願人が発明しているにもかかわらず、ある出願人では発明していない技術」を強調して表示する。これにより、零セルの中で本当にその出願人が弱点としているものがわかりやすく表示されるようになり、注目すべきポイントをユーザ200は手早く発見することができるようになる。
【0069】
上述したように本実施形態によれば、電子化された文書群の分析結果を表すテーブルを表示する際に、テーブル内で注目すべき零セルを強調して表示することができる。これに伴い、テーブルにおいて、多数ある零セルの中でどこに注目すべきかがわかり、文書群からの新しい知見の発見の支援につながる。
【0070】
なお、本実施形態では、理解を容易にするために文書が電子レンジに関連する特許文書である場合を例に挙げて説明したが、対象とする文書はこれに限らず、例えば特許文書以外のメールやクレーム情報といった他の文書であってもよい。
【0071】
本実施形態のクラスタリング部500のクラスタリング処理は、コサイン類似度を用いる手法に限らず、例えば、kミーンズ(k-means)法やリーダ・フォロワ(leader-follower)法、階層型クラスタリングといった既存の手法を用いて実行してもよい。
【0072】
本実施形態の零セルスコアリング部600のスコアリング処理は、平均値に限らず、例えば、合算値、零セルの個数で除算した値、一部のセルに重みを付けた値といった所望の計算値を用いて実現してもよい。
【0073】
本実施形態の表示部700の表示処理は、色の濃淡に限らず、例えば、強調表示の際に、カラー表示及び/又は図形化を用いてもよい。また、表示形態に関しても、Webブラウザに限らず、他のGUI(Graphical User Interface)や印刷物等であってもよい。
【0074】
以上で説明した実施形態に記載した手法は、コンピュータに実行させることのできるプログラムとして、磁気ディスク(フロッピー(登録商標)ディスク、ハードディスクなど)、光ディスク(CD−ROM、DVDなど)、光磁気ディスク(MO)、半導体メモリなどの記憶媒体に格納して頒布することもできる。
【0075】
また、この記憶媒体としては、プログラムを記憶でき、かつコンピュータが読み取り可能な記憶媒体であれば、その記憶形式は何れの形態であっても良い。
【0076】
そして、記憶媒体からコンピュータにインストールされたプログラムの指示に基づきコンピュータ上で稼働しているOS(オペレーティングシステム)や、データベース管理ソフト、ネットワークソフト等のMW(ミドルウェア)等が上記実施形態を実現するための各処理の一部を実行しても良い。
【0077】
さらに、実施形態における記憶媒体は、コンピュータと独立した媒体に限らず、LANやインターネット等により伝送されたプログラムをダウンロードして記憶又は一時記憶した記憶媒体も含まれる。
【0078】
また、記憶媒体は1つに限らず、複数の媒体から上記の実施形態における処理が実行される場合も、実施形態における記憶媒体に含まれ、媒体構成は何れの構成であっても良い。
【0079】
なお、上記の実施形態におけるコンピュータは、記憶媒体に記憶されたプログラムに基づき、上記の実施形態における各処理を実行するものであって、パソコン等の1つからなる装置、複数の装置がネットワーク接続されたシステム等の何れの構成であっても良い。
【0080】
また、実施形態におけるコンピュータとは、パソコンに限らず、情報処理機器に含まれる演算処理装置、マイコン等も含み、プログラムによって実施形態の機能を実現することが可能な機器、装置を総称している。
【0081】
なお、本明細書に開示された発明は、上記の実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。
【0082】
加えて、上記の実施形態に開示されている複数の構成要素の適宜な組合せにより種々の実施形態を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。すなわち、実施形態の各構成要素は、適宜に統合、分割、順番の入れ替え等が行われてもよい。
【符号の説明】
【0083】
100…テーブル情報記憶部、200…ユーザ、300…操作部、400…ベクトル生成部、401…行方向ベクトル生成部、402…列方向ベクトル生成部、500…クラスタリング部、501…行方向クラスタリング部、502…列方向クラスタリング部、600…零セルスコアリング部、601…行方向スコアリング部、602…列方向スコアリング部、603…スコア統合部、700…表示部。
【特許請求の範囲】
【請求項1】
行方向と列方向にそれぞれ複数のセルを並べて構成されたテーブルであって、複数の行項目名、複数の列項目名、及び前記各行項目名のいずれかと前記各列項目名のいずれかとの両者に分類された文書の数を示す前記各セル、を含む前記テーブルを表すテーブル情報を記憶するテーブル情報記憶手段と、
ユーザの操作に応じて入力された開始指示を受け付けると、この開始指示を送出する操作手段と、
前記操作手段から開始指示を受けると、前記テーブル情報記憶手段内のテーブル情報に基づいて、前記各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、前記各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成するベクトル生成手段と、
前記各行方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各行方向ベクトル情報を示す行方向ベクトルクラスタリング結果情報を算出する行ベクトルクラスタリング手段と、
前記各列方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各列方向ベクトル情報を示す列方向ベクトルクラスタリング結果情報を算出する列ベクトルクラスタリング手段と、
前記行方向ベクトルクラスタリング結果情報及び前記列方向ベクトルクラスタリング結果情報に基づいて、当該各クラスタリング結果情報内の各セルの中で零値を示す零セルと非零値を示す非零セルとのスコアリングを実行することにより、当該スコアリングの実行結果を示すテーブルスコア情報を作成する零セルスコアリング手段と、
前記テーブルスコア情報に基づいて前記テーブル情報内の零セルに強調表示データを付加し、前記強調表示データが付加されたテーブル情報を表示する表示手段と、
を備えたことを特徴とする文書分析装置。
【請求項2】
請求項1に記載の文書分析装置において、
前記零セルスコアリング手段は、
前記行方向ベクトルクラスタリング結果情報内の列方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す行方向スコアリング結果情報を作成する行方向スコアリング手段と、
前記列方向ベクトルクラスタリング結果情報内の行方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す列方向スコアリング結果情報を作成する列方向スコアリング手段と、
前記行方向スコアリング結果情報と、前記列方向スコアリング結果情報とをセル毎に合計し、当該合計結果を示す前記テーブルスコア情報を作成するスコア統合手段と、
を備えたことを特徴とする文書分析装置。
【請求項1】
行方向と列方向にそれぞれ複数のセルを並べて構成されたテーブルであって、複数の行項目名、複数の列項目名、及び前記各行項目名のいずれかと前記各列項目名のいずれかとの両者に分類された文書の数を示す前記各セル、を含む前記テーブルを表すテーブル情報を記憶するテーブル情報記憶手段と、
ユーザの操作に応じて入力された開始指示を受け付けると、この開始指示を送出する操作手段と、
前記操作手段から開始指示を受けると、前記テーブル情報記憶手段内のテーブル情報に基づいて、前記各行項目名の各々と当該各々の行項目名に関連付けられた各セルとを含む複数の行方向ベクトル情報と、前記各列項目名の各々と当該各々の列項目名に関連付けられた各セルとを含む複数の列方向ベクトル情報とを生成するベクトル生成手段と、
前記各行方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各行方向ベクトル情報を示す行方向ベクトルクラスタリング結果情報を算出する行ベクトルクラスタリング手段と、
前記各列方向ベクトル情報間の類似度に基づいてクラスタリングを実行することにより、互いに類似する各列方向ベクトル情報を示す列方向ベクトルクラスタリング結果情報を算出する列ベクトルクラスタリング手段と、
前記行方向ベクトルクラスタリング結果情報及び前記列方向ベクトルクラスタリング結果情報に基づいて、当該各クラスタリング結果情報内の各セルの中で零値を示す零セルと非零値を示す非零セルとのスコアリングを実行することにより、当該スコアリングの実行結果を示すテーブルスコア情報を作成する零セルスコアリング手段と、
前記テーブルスコア情報に基づいて前記テーブル情報内の零セルに強調表示データを付加し、前記強調表示データが付加されたテーブル情報を表示する表示手段と、
を備えたことを特徴とする文書分析装置。
【請求項2】
請求項1に記載の文書分析装置において、
前記零セルスコアリング手段は、
前記行方向ベクトルクラスタリング結果情報内の列方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す行方向スコアリング結果情報を作成する行方向スコアリング手段と、
前記列方向ベクトルクラスタリング結果情報内の行方向の非零セルの値と個数に基づく非負値のスコアを零セルに割り当てると共に、当該非零セルに所定の負値のスコアを割り当てることにより、当該割り当て結果を示す列方向スコアリング結果情報を作成する列方向スコアリング手段と、
前記行方向スコアリング結果情報と、前記列方向スコアリング結果情報とをセル毎に合計し、当該合計結果を示す前記テーブルスコア情報を作成するスコア統合手段と、
を備えたことを特徴とする文書分析装置。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【公開番号】特開2011−257809(P2011−257809A)
【公開日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2010−129397(P2010−129397)
【出願日】平成22年6月4日(2010.6.4)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
【公開日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願日】平成22年6月4日(2010.6.4)
【出願人】(000003078)株式会社東芝 (54,554)
【出願人】(301063496)東芝ソリューション株式会社 (1,478)
【Fターム(参考)】
[ Back to top ]