説明

用語収集装置、およびプログラム

【課題】従来の用語収集装置においては、時事的な用語などを収集できなかった、という課題があった。
【解決手段】1以上の関連文書から用語を取り出す用語取得部と、用語取得部が取得した1以上の用語のうちの各用語について、1以上の関連文書内での出現頻度である関連文書中出現頻度を取得する関連文書中出現頻度取得部と、用語取得部が取得した1以上の用語のうちの各用語について、1以上の関連文書または1以上の非関連文書内での出現頻度である文書中出現頻度を取得する文書中出現頻度取得部と、用語取得部が取得した1以上の用語のうちの各用語について、関連文書中出現頻度、および文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出部と、スコア算出部が算出したスコアに基づいて用語を出力する出力部を具備する用語収集装置により、時事的な用語などを収集できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、1以上の文書から用語を収集する用語収集装置等に関するものである。
【背景技術】
【0002】
従来の用語収集装置において、検索対象用語を入力させる手段と、前記検索対象用語と関連度の高い用語を検索する関連用語検索手段と、前記検索対象用語と意味的な類似度の高い用語を検索する類似用語検索手段と、前記検索対象用語を語構成上包含する一群の同族用語を検索する同族用語を検索し、前記検索された一群の同族用語を語構成上の包含関係に従って階層化するタームバリエーション作成手段と、前記類似用語検索の際に、検索された類似用語に特徴的な文脈パターンを抽出する文脈抽出手段と、前記関連用語検索手段、前記類似用語検索手段、前記タームバリエーション作成手段と前記文脈抽出手段とを用いて検索した結果を出力する手段とを有していた(例えば、特許文献1参照)。
【0003】
一方、コンピュータを用いた自動通訳や、人手による通訳などを行う場合に、対訳辞書に登録されていない専門用語が出現した場合の処理がきわめて重要となる。
【0004】
また、関連する技術として、与えた情報と文書の関連度のスコアを算出する技術「Okapi BM25」がある(非特許文献1参照)。
【0005】
さらに、関連する技術として、有意確率を算出する技術がある(例えば、非特許文献2参照)。
【特許文献1】特開2005−222263号公報(第1頁、第1図等)
【非特許文献1】S.E.Roberson and S.Walker,"Okapi/Keenbow at TREC−8," TREC−8,1999.
【非特許文献2】久光 徹,丹羽芳樹,「組み合わせ的確率モデルに基づく特徴単語選択方法」,NL140−12,PP.85−90,2000.
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、従来の用語収集装置においては、特に、ある時期にのみ出現する時事的な用語や、ある特定の話題を有する少数の文書にのみ出現する専門用語を効率的に、精度高く収集することが困難、という課題があった。
【課題を解決するための手段】
【0007】
本第一の発明の用語収集装置は、1以上の文書から用語を収集する用語収集装置において、収集する用語に関連する文書である関連文書が1以上格納され得る関連文書格納部と、収集する用語に関連しない文書である非関連文書が1以上格納され得る非関連文書格納部と、前記1以上の関連文書から1以上の用語を取り出す用語取得部と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得部と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する文書中出現頻度取得部と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度、および前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出部と、前記スコア算出部が算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成部と、前記出力情報構成部が構成した出力情報を出力する出力部を具備する用語収集装置である。
【0008】
かかる構成により、専門的な用語や、時事的な用語を収集できる。
【0009】
また、本第二の発明の用語収集装置は、1以上の文書が格納され得る文書格納部と、収集する用語に関連する情報である関連情報を受け付ける関連情報受付部と、前記関連情報から1以上の語を取得する関連情報語取得部と、前記関連情報語取得部が取得した1以上の語を用いて、前記文書格納部の1以上の文書の各文書が、前記関連情報と所定の関係にある関連文書か、前記関連情報と所定の関係に無い非関連文書かを判断する判断部と、前記1以上の関連文書が有する1以上の用語を取り出す用語取得部と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得部と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する文書中出現頻度取得部と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度、および前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出部と、前記スコア算出部が算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成部と、前記出力情報構成部が構成した出力情報を出力する出力部を具備する用語収集装置である。
【0010】
かかる構成により、専門的な用語や、時事的な用語を収集でき、かつ、処理前に関連文書と非関連文書を分けておく必要がなく、好適である。
【0011】
また、本第三の発明の用語収集装置は、第二の発明に対して、前記判断部は、関連文書と非関連文書を分類するための閾値を格納している閾値格納手段と、前記文書格納部の1以上の各文書に対して、前記関連情報語取得部が取得した1以上の用語を用いて、前記関連情報との関連度を算出する関連度算出手段と、前記各文書について、前記関連度算出手段が算出した関連度と前記閾値を用いて、文書ごとに、当該文書が関連文書であるか非関連文書であるかを判断する判断手段を具備する用語収集装置である。
【0012】
かかる構成により、専門的な用語や、時事的な用語を収集する場合に、関連文書の関連度合いを考慮した、精度の高い収集ができる。
【0013】
また、本第四の発明の用語収集装置は、第三の発明に対して、前記スコア算出部は、前記用語取得部が取得した1以上の用語のうちの各用語について、前記各関連文書に対して、当該関連文書中の関連文書中出現頻度と当該関連文書の関連度をパラメータとする増加関数による演算を行い、前記各関連文書に対応する1以上の関連文書中頻度情報を算出する関連文書中頻度算出手段と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記文書中出現頻度取得部が算出した前記非関連文書中出現頻度または前記文書中出現頻度を用いて、当該用語が非関連文書を含む文書群に広く出現しない度合いである集中出現度を算出する集中出現度算出手段と、前記関連文書中頻度情報と前記集中出現度をパラメータとする増加関数による演算を行い、用語の専門性または特殊性に関するスコアを算出するスコア算出手段を具備する用語収集装置である。
【0014】
かかる構成により、専門的な用語や、時事的な用語を収集する場合に、精度の高い収集ができる。
【0015】
また、本第五の発明の用語収集装置は、第一から第四いずれかの発明に対して、1以上の用語である1以上の登録用語を格納している登録用語格納部をさらに具備し、前記出力部は、前記登録用語格納部の登録用語を有する出力情報を出力しない用語収集装置である。
【0016】
かかる構成により、既に登録されている用語について処理をする必要がなく、高速に精度高く専門的な用語や、時事的な用語を収集できる。
【発明の効果】
【0017】
本発明による用語収集装置によれば、専門的な用語、または時事的な用語などを収集できる。
【発明を実施するための最良の形態】
【0018】
以下、用語収集装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態)
【0019】
図1は、本実施の形態における用語収集装置のブロック図である。
【0020】
用語収集装置は、文書格納部101、登録用語格納部102、関連情報受付部103、関連情報語取得部104、判断部105、用語取得部106、関連文書中出現頻度取得部107、文書中出現頻度取得部108、スコア算出部109、出力情報構成部110、出力部111を具備する。
【0021】
判断部105は、閾値格納手段1051、関連度算出手段1052、判断手段1053を具備する。
【0022】
スコア算出部109は、関連文書中頻度算出手段1091、集中出現度算出手段1092、スコア算出手段1093を具備する。
【0023】
文書格納部101は、1以上の文書が格納され得る。文書とは、例えば、新聞記事のデータや雑誌のデータであり、テキストデータを有する。1つの文書は、例えば、1つのファイルやデータベース中の一レコードなどである。文書のデータ構造は問わない。文書格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0024】
登録用語格納部102は、1以上の用語である1以上の登録用語を格納している。登録用語格納部102は、例えば、いわゆる、機械翻訳システムの辞書である。登録用語格納部102は、ここでは、登録されている用語を、本用語収集装置で抽出しないために利用される。登録用語は、その訳語と対で格納されている対訳辞書でも良い。登録用語格納部102は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0025】
関連情報受付部103は、収集する用語に関連する情報である関連情報を受け付ける。関連情報は、例えば、講演のタイトルの情報(例えば、「迷走するペイオフ論議」など)である。また、関連情報は、例えば、時事的な問題を扱った記事の情報である。関連情報は、通常、テキストデータであり、そのコードの種類やデータ構造等は問わない。関連情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。関連情報受付部103は、外部の装置から関連情報を受信しても良い。また、関連情報受付部103は、記録媒体から関連情報を読み出しても良い。かかる受信や読み出しも関連情報の受け付けである。関連情報受付部103は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0026】
関連情報語取得部104は、関連情報から1以上の語を取得する。関連情報語取得部104は、通常、関連情報に対して形態素解析を行い、かかる各形態素のうち、機能語を除いた語を、後述する処理対象の語として取得する。また、関連情報語取得部104は、関連情報に対して形態素解析を行い、機能語を除き、かつ名詞および名詞句の情報のみ、処理対象の用語として取得しても良い。なお、機能語を除く処理は、無くても良い。また、形態素解析の処理、および機能語を除く処理は公知技術であるので、詳細な説明は省略する。関連情報語取得部104は、通常、MPUやメモリ等から実現され得る。関連情報語取得部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0027】
判断部105は、関連情報語取得部104が取得した1以上の語を用いて、文書格納部101の1以上の各文書が、関連情報と所定の関係にある関連文書か、関連情報と所定の関係に無い非関連文書かを判断する。関連文書とは、関連情報と話題が一致する文書である。2つの文書(タイトルなども含む)の話題の一致度合いを算出する処理のうち、公知の処理はいくつか存在する。公知の処理の例として、以下の処理がある。例えば、2つの文書が含む用語とその出現頻度からベクトルを構成し、2つのベクトルの近似度を算出することにより、話題の一致度合いを算出する処理は公知技術である。本実施の形態における関連文書/非関連文書の判断処理は、主として、閾値格納手段1051、関連度算出手段1052、および判断手段1053による処理である。その処理の詳細については、後述する。判断部105は、通常、MPUやメモリ等から実現され得る。判断部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0028】
閾値格納手段1051は、関連文書と非関連文書を分類するための閾値を格納している。閾値は、例えば、「0.7」である。閾値は、例えば、コンピュータを動作させるプログラム中に埋め込まれていたり、プログラムが読み込みファイル(ヘッダーファイルなど)に記録されていたりする。閾値格納手段1051は、不揮発性の記録媒体でも、揮発性の記録媒体でも良い。
【0029】
関連度算出手段1052は、文書格納部101の1以上の各文書に対して、関連情報語取得部104が取得した1以上の語を用いて、関連情報との関連度を算出する。関連度とは、文書と関連情報の類似度、または文書と関連情報の話題の一致度をととらえても良く、広く解釈する。関連度算出手段1052は、文書(S)ごとに関連度(S)を算出する。関連度算出手段1052は、通常、MPUやメモリ等から実現され得る。関連度算出手段1052の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0030】
判断手段1053は、文書格納部101の各文書について、関連度算出手段1052が算出した関連度と閾値格納手段1051の閾値を用いて、文書ごとに、当該文書が関連文書であるか非関連文書であるかを判断する。判断手段1053は、文書の関連度が大きいほど、当該文書を関連文書として判断する。判断手段1053は、例えば、1以上の文書の関連度のうち最大の関連度(Smax)を取得し、i番目の文書の関連度(S)が、「S>=a×Smax」の関係にある場合、i番目の文書を関連文書である、と判断する。なお、「a」は、閾値である。また、例えば、判断手段1053は、各文書について、関連度算出手段1052が算出した関連度と、閾値を比較し、関連度が閾値より大きいまたは閾値以上の場合に、当該文書を関連文書であると判断し、関連度が閾値以下または閾値より小さい場合に、当該文書を非関連文書であると判断しても良い。判断手段1053は、通常、MPUやメモリ等から実現され得る。判断手段1053の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0031】
用語取得部106は、1以上の関連文書が有する1以上の用語を取り出す。1以上の関連文書から1以上の用語を取り出す場合に、登録用語を除いて1以上の用語を取り出すことは好適である。用語取得部106は、例えば、関連文書を形態素解析し、1以上の用語を取得し、当該1以上の用語から機能語を除いた用語群を取得する。そして、用語取得部106は、取得した全用語に対して、登録用語格納部102に格納されていないか否かを検索し、登録されていれば、用語群から削除する。そして、用語取得部106は、最終的な処理対象の用語を取得する。なお、登録用語を除く処理は必須ではない。用語取得部106が登録用語を除く処理を行わない場合、登録用語格納部102は不要となる。また、判断部105が先に形態素解析を行っている場合、用語取得部106は、その形態素解析の結果を利用することは好適である。かかる場合、用語取得部106は、形態素解析の結果から1以上の用語を取得し、その用語群から機能語と、登録された用語を削除する処理を行う。また、用語取得部106は、重複している用語を一つにする処理を行うことは好適である。用語取得部106は、例えば、用語群から機能語と、登録された用語を削除して残った用語群をソートしてから、一致する複数の用語を一つの用語とする(複数の用語のうち、2番目以降に表れる用語を削除する)。用語取得部106は、通常、MPUやメモリ等から実現され得る。用語取得部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0032】
関連文書中出現頻度取得部107は、用語取得部106が取得した1以上の用語のうちの各用語について、1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する。出現頻度とは、例えば、一の用語が1以上の関連文書に出現する延べ回数である。出現頻度とは、例えば、一の用語が1回以上出現する関連文書の数でも良い。関連文書中出現頻度取得部107は、例えば、関連文書(ファイル)をオープンし、当該関連文書を、一の用語でパターンマッチングし、マッチした回数を算出する。関連文書中出現頻度取得部107は、通常、MPUやメモリ等から実現され得る。関連文書中出現頻度取得部の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0033】
文書中出現頻度取得部108は、用語取得部106が取得した1以上の用語のうちの各用語について、1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または1以上の関連文書または1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する。ここでの出現頻度は、例えば、一の用語が検索対象となる文書に出現する延べ回数である。出現頻度とは、例えば、一の用語が1回以上出現する文書の数でも良い。文書中出現頻度取得部108は、通常、MPUやメモリ等から実現され得る。文書中出現頻度取得部108の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0034】
スコア算出部109は、用語取得部106が取得した1以上の用語のうちの各用語について、関連文書中出現頻度および、非関連文書中出現頻度または/および文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出する。スコア算出部109は、関連文書中出現頻度をパラメータとする増加関数であり、非関連文書中出現頻度または/および文書中出現頻度をパラメータとする減少関数によりスコアを算出する。このスコアは、用語の専門性または特殊性についてのスコアであるが、広く解し、用語の時事性、一時性などの意義も含む。つまり、スコア算出部109は、関連文書での出現回数に関する情報である関連文書中出現頻度が大きいほど、および、非関連文書を含む文書での出現回数に関する情報である非関連文書中出現頻度または/および文書中出現頻度が小さいほど、スコアは大きくなる。スコア算出部109の具体的なスコア算出アルゴリズムの例は、後述の関連文書中頻度算出手段1091、集中出現度算出手段1092、およびスコア算出手段1093によるスコア算出アルゴリズムであり、これをTF・IDF法という。スコア算出部109は、通常、MPUやメモリ等から実現され得る。スコア算出部109の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0035】
関連文書中頻度算出手段1091は、用語取得部106が取得した1以上の用語のうちの各用語について、各関連文書に対して、当該関連文書中の関連文書中出現頻度と当該関連文書の関連度をパラメータとする増加関数による演算を行い、各関連文書に対応する1以上の関連文書中頻度情報を算出する。例えば、関連文書が3つ(RS、RS、RS)存在し、一の用語が出現する頻度が、それぞれの関連文書に対して、「6」「0」「5」であり、それぞれの関連文書の関連度が「0.9」「0.7」「0.8」である場合、関連文書中頻度算出手段1091は、「6×0.9+0×0.7+5×0.8=9.4」と関連文書中頻度情報を算出する。かかる関連文書中頻度情報は、後述する「TF」である。関連文書中頻度算出手段1091は、通常、MPUやメモリ等から実現され得る。関連文書中頻度算出手段1091の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0036】
集中出現度算出手段1092は、用語取得部106が取得した1以上の用語のうちの各用語について、文書中出現頻度取得部108が算出した非関連文書中出現頻度または文書中出現頻度を用いて、当該用語が非関連文書を含む文書群に広く出現しない度合いである集中出現度を算出する。集中出現度算出手段1092は、例えば、以下のように集中出現度を算出する。つまり、文書中出現頻度取得部108は、一の用語が出現する文書の数(ここでの「文書中出現頻度」であり、「DF」とする。)を算出する。そして、集中出現度算出手段1092は、文書格納部101の文書の数(N)を取得する。そして、例えば、集中出現度算出手段1092は、予め格納されている集中出現度の算出式「log(N/DF)」を読み出し、「N」「DF」に、既に取得している値を代入し、集中出現度を得る。かかる集中出現度をIDFという。その他、集中出現度算出手段1092が集中出現度を算出するアルゴリズムは問わない。集中出現度算出手段1092は、通常、MPUやメモリ等から実現され得る。集中出現度算出手段の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0037】
スコア算出手段1093は、関連文書中頻度情報(TF)と集中出現度(IDF)をパラメータとする増加関数による演算を行い、用語の専門性または特殊性に関するスコアを算出する。スコア算出手段1093は、例えば、予め格納している演算式「TF×IDF」の情報を読み出し、当該演算式に、関連文書中頻度算出手段1091が算出した関連文書中頻度情報(TF)、および集中出現度算出手段1092が算出した集中出現度(IDF)を代入する。そして、スコア算出手段1093は、スコアを得る。かかるスコアの算出方法を、ここでは、TF・IDF法という。また、スコア算出手段1093は、スコア算出手段1093は、通常、MPUやメモリ等から実現され得る。スコア算出手段1093の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0038】
なお、スコア算出部109は、TF・IDF法ではなく、有意確率法によりスコアを算出しても良い。つまり、スコア算出部109は、まず、全関連文書の全用語の数を算出する。かかる処理は、例えば、全関連文書を読み出し、形態素解析を行い、機能語を削除し、残った語数を算出する処理である。次に、スコア算出部109は、文書格納部101の全文書から、全関連文書の全用語の数だけランダムに用語を取得した場合に、一の用語の出現頻度が上述した「TF」以上である確率として統計的仮説検定の有意確率(p値)を設定する。そして、スコア算出部109は、予め決められた演算式「−log(p値)」の情報を読み出し、既に得た有意確率(p値)を代入し、スコアを算出する。
【0039】
出力情報構成部110は、スコア算出部109が算出したスコアと用語を用いて出力する情報である出力情報を構成する。出力情報構成部110は、例えば、スコアをキーに降順に用語をソートして、スコアの高い用語から出力するように出力情報を構成する。また、例えば、出力情報構成部110は、スコアをキーに降順に用語をソートして、上位100の用語をスコアの高い用語から出力するように出力情報を構成しても良い。出力情報構成部110は、用語のみを出力しても良いし、用語とスコアの組の情報を出力しても良い。その他、出力情報構成部110が出力情報を構成するアルゴリズムは問わない。出力情報構成部110は、通常、MPUやメモリ等から実現され得る。出力情報構成部110の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0040】
出力部111は、出力情報構成部110が構成した出力情報を出力する。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信、記録媒体への蓄積等を含む概念である。出力部111は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部111は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0041】
次に、用語収集装置の動作について図2から図6のフローチャートを用いて説明する。
【0042】
(ステップS201)関連情報受付部103は、収集する用語に関連する情報である関連情報(例えば、講演のタイトルの情報)を受け付けたか否かを判断する。関連情報を受け付ければステップS202に行き、関連情報を受け付けなければステップS201に戻る。
【0043】
(ステップS202)関連情報語取得部104は、ステップS201で受け付けた関連情報から1以上の語を取得する。具体的には、例えば、関連情報語取得部104は、関連情報を形態素解析し、1以上の形態素の中から機能語を除く処理を行い、残った形態素を1以上の用語として得る。
【0044】
(ステップS203)判断部105は、ステップS202で取得した1以上の用語を用いて、文書格納部101の1以上の各文書が、関連情報と所定の関係にある関連文書か、関連情報と所定の関係に無い非関連文書かを判断する。そして、判断部105は、各文書について、関連文書か、非関連文書かについての情報を、メモリ上に一時記憶する。かかる判断処理の詳細については、図3のフローチャートを用いて後述する。
【0045】
(ステップS204)用語取得部106は、ステップS203で関連文書であると判断された1以上の関連文書が有する1以上の用語を取り出す。具体的には、用語取得部106は、各関連文書を読み出し(例えば、ファイルオープンし)、読み出した関連文書を、順次、形態素解析し、機能語を削除し、1以上の用語を得る。そして、用語取得部106は、重複する用語を一つの用語にし(ユニーク処理し)、重複しない1以上の用語を得る。
【0046】
(ステップS205)関連文書中出現頻度取得部107は、カウンタiに1を代入する。
【0047】
(ステップS206)関連文書中出現頻度取得部107は、ステップS204で取得した用語のうち、i番目の用語が存在するか否かを判断する。i番目の用語が存在すればステップS207に行き、i番目の用語が存在しなければステップS212に行く。
【0048】
(ステップS207)関連文書中出現頻度取得部107は、i番目の用語について、1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する。関連文書中出現頻度を取得する処理の例については、図4のフローチャートを用いて後述する。
【0049】
(ステップS208)文書中出現頻度取得部108は、i番目の用語について、1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または1以上の関連文書または1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する。ここでは、文書中出現頻度取得部108は、文書中出現頻度を取得する、とする。この文書中出現頻度を取得する処理の例については、図5のフローチャートを用いて後述する。
【0050】
(ステップS209)スコア算出部109は、i番目の用語について、ステップS207で取得した関連文書中出現頻度および、ステップS208で取得した文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出する。スコアを算出する処理の例については、図6のフローチャートを用いて後述する。
【0051】
(ステップS210)スコア算出部109は、i番目の用語と、ステップS209で算出したスコアを対にして、メモリ上に一時格納する。
【0052】
(ステップS211)関連文書中出現頻度取得部107は、カウンタiを1、インクリメントし、ステップS206に戻る。
【0053】
(ステップS212)出力情報構成部110は、ステップS210で一時格納された情報を用いて出力情報を構成する。
【0054】
(ステップS213)出力部111は、ステップS212で構成した出力情報を出力し、処理を終了する。
【0055】
次に、文書が関連文書か、非関連文書かを判断する判断部105の処理(ステップS203)の詳細について、図3のフローチャートを用いて説明する。
【0056】
(ステップS301)判断部105は、カウンタiに1を代入する。
【0057】
(ステップS302)判断部105は、文書のスコア(S)を算出する演算式の情報を読み込む。この演算式の情報は、例えば、予め判断部105が有する記録媒体(図示しない)に格納している。
【0058】
(ステップS303)判断部105は、演算式に与えるパラメータの情報であり、文書に共通する情報を取得する。共通する情報とは、例えば、文書格納部101の文書数「N」や、関連情報が含む用語(ステップS202で取得した用語)が、文書格納部101の文書の中で出現する文書数「n」などである。「N」「n」を取得する技術は、公知技術であるので説明を省略する。
【0059】
(ステップS304)関連度算出手段1052は、文書格納部101の中に、i番目の文書が存在するか否かを判断する。i番目の文書が存在すればステップS305に行き、i番目の文書が存在しなければステップS311に行く。
【0060】
(ステップS305)関連度算出手段1052は、文書格納部101からi番目の文書を読み出す。
【0061】
(ステップS306)関連度算出手段1052は、ステップS305で読み出したi番目の文書を形態素解析し、1以上の形態素を得る。
【0062】
(ステップS307)関連度算出手段1052は、ステップS306で得た1以上の形態素から機能語を除き、1以上の形態素を残す。
【0063】
(ステップS308)関連度算出手段1052は、i番目の文書固有の情報を取得する。i番目の文書固有の情報とは、例えば、関連情報が含む用語のi番目の文書中での出現頻度「tf」や、i番目の文書の長さ(文字数)「dl」などである。「tf」「dl」を取得する技術は、公知技術であるので説明を省略する。
【0064】
(ステップS309)関連度算出手段1052は、ステップS302で読み込んだ演算式に、共通する情報、固有の情報を代入し、演算式を実行し、i番目の文書のスコア(S)を得る。そして、i番目の文書のスコア(S)をi番目の文書を識別する情報(またはi番目の文書)と対にして、メモリ上に一時格納する。
【0065】
(ステップS310)関連度算出手段1052は、カウンタiを1、インクリメントし、ステップS304に戻る。
【0066】
(ステップS311)判断手段1053は、ステップS309で一時格納したスコアのうちの最大のスコア(Smax)を取得する。
【0067】
(ステップS312)判断手段1053は、閾値格納手段1051から閾値(a)を読み出す。
【0068】
(ステップS313)判断手段1053は、カウンタiに1を代入する。
【0069】
(ステップS314)判断手段1053は、文書格納部101の中に、i番目の文書が存在するか否かを判断する。i番目の文書が存在すればステップS315に行き、i番目の文書が存在しなければ上位関数にリターンする。
【0070】
(ステップS315)判断手段1053は、「S>=a×Smax」であるか否かを判断する。かかる条件を満足すればステップS316に行き、満足しなければステップS318に行く。なお、i番目の文書のスコア(S)は、ステップS309で一時格納しており、判断手段1053は、かかるスコア(S)を読み出す。
【0071】
(ステップS316)判断手段1053は、i番目の文書を関連文書として登録する。ここで、登録とは、i番目の文書に関連文書のフラグ(例えば、「1」)を付与する処理でも良いし、関連文書を登録するメモリ上のテーブルに、i番目の文書を識別する情報を追記する処理でも良い。その他、登録の方法は問わない。
【0072】
(ステップS317)判断手段1053は、カウンタiを1、インクリメントし、ステップS314に戻る。
【0073】
(ステップS318)判断手段1053は、i番目の文書を非関連文書として登録し、ステップS317に行く。なお、「非関連文書として登録」とは、関連文書と非関連文書とを区別できるように処理すれば良い。したがって、判断手段1053は、関連文書のみを登録し、ここでは、何もしない(NOP)でも良い。
【0074】
なお、図3のフローチャートにおいて説明した処理は、関連文書/非関連文書を分類する処理の一例であり、他のアルゴリズムで関連文書/非関連文書を分類しても良い。他のアルゴリズムとは、例えば、関連情報が有する用語から構成されるベクトルと、文書が有する用語から構成されるベクトルを用いて、2つのベクトルの類似度を算出し、類似度が予め決められている閾値より大きい場合のみ関連文書と判断するアルゴリズムである。
【0075】
次に、ステップS207の関連文書中出現頻度を取得する処理の例について、図4のフローチャートを用いて説明する。
【0076】
(ステップS401)関連文書中出現頻度取得部107は、初期化処理を行う。初期化処理とは、カウンタiに1を代入したり、関連文書中出現頻度を代入する変数「関連文書中出現頻度」に0を代入したりする処理である。
【0077】
(ステップS402)関連文書中出現頻度取得部107は、i番目の関連文書が存在するか否かを判断する。i番目の関連文書が存在すればステップS403に行き、i番目の関連文書が存在しなければステップS408に行く。
【0078】
(ステップS403)関連文書中出現頻度取得部107は、i番目の関連文書に、着目している用語が出現する回数(d)を取得する。関連文書中出現頻度取得部107は、通常、i番目の関連文書を形態素解析した結果を用いて、着目している用語が出現する回数を取得する。ただし、関連文書中出現頻度取得部107は、i番目の関連文書に対して、着目している用語でパターンマッチングを行い、合致する回数を取得しても良い。
【0079】
(ステップS404)関連文書中出現頻度取得部107は、i番目の関連文書のスコア(S)と、スコアの最大値(Smax)を得る。かかる(S)と(Smax)は、算出済みである。
【0080】
(ステップS405)関連文書中出現頻度取得部107は、出現する回数(d)と(S)と(Smax)を用いてi番目の関連文書の出現頻度スコアを算出する。出現頻度スコアを算出する演算式は、ここでは、例えば、「d×(S/Smax)」である。この演算式の情報は予め格納されている。関連文書中出現頻度取得部107は、演算式の情報を読み込み、当該演算式に、(d)と(S)と(Smax)を代入し、演算式を実行し、出現頻度スコアを得る。
【0081】
(ステップS406)関連文書中出現頻度取得部107は、変数「関連文書中出現頻度」にステップS405で算出した出現頻度スコアを加算する。
【0082】
(ステップS407)関連文書中出現頻度取得部107は、カウンタiを1、インクリメントし、ステップS402に戻る。
【0083】
(ステップS408)関連文書中出現頻度取得部107は、変数「関連文書中出現頻度」の値をi番目の用語と対応付けて、メモリ上に一時格納し、上位関数にリターンする。
【0084】
なお、図4のフローチャートにおいて説明した関連文書中出現頻度を算出するアルゴリズムや算出式は、一例であることは言うまでもない。
【0085】
次に、ステップS208の文書中出現頻度を取得する処理の例について、図5のフローチャートを用いて説明する。
【0086】
(ステップS501)文書中出現頻度取得部108は、初期化処理を行う。初期化処理とは、カウンタiに1を代入したり、変数「文書中出現頻度」に0を代入したりする処理である。
【0087】
(ステップS502)文書中出現頻度取得部108は、文書格納部101にi番目の文書が存在するか否かを判断する。i番目の文書が存在すればステップS503に行き、i番目の文書が存在しなければステップS506に行く。
【0088】
(ステップS503)文書中出現頻度取得部108は、i番目の文書中に着目する用語が出現するか否かを判断する。用語が出現すればステップS504に行き、用語が出現しなければステップS505に行く。
【0089】
(ステップS504)文書中出現頻度取得部108は、変数「文書中出現頻度」に1を加算する。
【0090】
(ステップS505)文書中出現頻度取得部108は、カウンタiを1、インクリメントし、ステップS502に戻る。
【0091】
(ステップS506)文書中出現頻度取得部108は、変数「文書中出現頻度」を着目する用語に対応付けて、メモリ上に一時格納し、上位関数にリターンする。
【0092】
なお、図5のフローチャートにおいて説明した文書中出現頻度を算出するアルゴリズムや算出式は、一例であることは言うまでもない。
【0093】
次に、ステップS209のスコアを取得する処理の例について、図6のフローチャートを用いて説明する。
【0094】
(ステップS601)スコア算出手段1093は、予め格納されているスコアの算出式を読み込む。
【0095】
(ステップS602)集中出現度算出手段1092は、文書格納部101の全文書数「N」を取得する。
【0096】
(ステップS603)関連文書中頻度算出手段1091は、ステップS207で算出した関連文書中頻度から関連文書中頻度情報(TF)を得る。ここでは、関連文書中頻度情報(TF)は、ステップS207で算出した関連文書中頻度と同じ値である、とする。したがって、ここでは、関連文書中頻度算出手段1091は、既に算出してメモリ上に存在する値を取得するだけである。
【0097】
(ステップS604)集中出現度算出手段1092は、ステップS602で取得した全文書数「N」と、文書中出現頻度を用いて、集中出現度(IDF)を算出する。集中出現度を算出する演算式は、ステップS601で読み込んだ式の一部であり、集中出現度算出手段1092は、かかる式に、全文書数「N」と、文書中出現頻度を代入し、演算を実行し、集中出現度を得る。集中出現度算出手段1092は、得た集中出現度を用語と対応付けてメモリ上に一時格納する。
【0098】
(ステップS605)スコア算出手段1093は、関連文書中頻度情報(TF)と集中出現度(IDF)をパラメータとする増加関数による演算を行い、用語の専門性または特殊性に関するスコアを算出する。スコア算出手段1093は、ステップS601で読み込んだ式に、関連文書中頻度情報(TF)と集中出現度(IDF)を代入し、演算を実行し、スコアを得て、上位関数にリターンする。
【0099】
なお、図6のフローチャートにおいて説明したスコアを算出するアルゴリズムや算出式は、一例であることは言うまでもない。
【0100】
以下、本実施の形態における用語収集装置の具体的な動作について説明する。ここで、本用語収集装置は、例えば、ある講演を自動通訳する場合に、講演タイトルに関連する分野の専門用語を収集する機能を具備するものとして説明する。
【0101】
まず、本用語収集装置の文書格納部101に、図7に示すような文書ファイルが格納されている。図7において、(a)(b)の2つの文書ファイルを示しているが、文書格納部101には多数の文書ファイルが格納されている、とする。文書格納部101は、例えば、いわゆる新聞記事の記事データベースである。
【0102】
また、登録用語格納部102に、図8に示す登録用語が格納されている。登録用語は、既にデータベースに登録されている用語であり、通訳者に伝えられている対訳辞書に格納されている用語である。なお、通常、登録用語は、図示しない訳の用語と対になっている。
【0103】
かかる場合、ユーザは、関連情報「迷走するペイオフ論議」を、キーボード等を用いて、用語収集装置を入力した、とする。関連情報「迷走するペイオフ論議」は、講演のタイトルである。
【0104】
次に、関連情報受付部103は、関連情報「迷走するペイオフ論議」を受け付ける。
【0105】
そして、関連情報語取得部104は、関連情報受付部103が受け付けた関連情報「迷走するペイオフ論議」を形態素解析し、形態素に分割する。そして、関連情報語取得部104は、形態素のうち、機能語を削除し、自立語のみを残して、語を取得する。そして、関連情報語取得部104は、「迷走」「する」「ペイオフ」「論議」を得る。なお、語は、ここでは形態素である。
【0106】
次に、判断部105は、以下の処理により、文書格納部101の1以上の各文書が、関連情報と所定の関係にある関連文書か、関連情報と所定の関係に無い非関連文書かを判断する。
【0107】
つまり、判断部105は、文書のスコア(S)を算出する演算式(例えば、数式1
数式2)の情報を読み込む。なお、数式1において、w(1)を求める算出式は、数式2である。また、数式1は、非特許文献1に開示されている式である。
【0108】
また、数式1、2において、Qは、関連情報中の語Tの集合である。また、Nは、文書格納部101の文書数である。nは、語Tを含む文書数である。Rは、関連情報に関連のある文書である関連文書の数である。rは、関連文書の中で、用語Tを含む文書数である。Kは、「k((1−b)+b×dl/avdl)」で算出される数値である。k、b、kは、パラメータである。tfは、関連文書の中で、用語Tが出現する頻度である。qtfは、関連情報の中で、用語Tが出現する頻度である。dlは、着目している文書の長さである。avdlは、文書格納部101の文書の長さの平均である。なお、関連文書の情報を利用しない場合は、数式2におけるR、およびrは、「0」でよい。
【数1】

【数2】

【0109】
そして、判断部105は、読み込んだ数式に代入すべき情報であり共通する情報(例えば、文書の長さの平均、文書格納部101の文書数など)を取得する。
【0110】
そして、判断部105の関連度算出手段1052は、文書格納部101から1つ目の文書(図7(a))を読み出す。そして、関連度算出手段1052は、図7(a)の文書を形態素解析し、図9の情報を得る。図9において、形態素の間に、「|」が存在する。そして、関連度算出手段1052は、図9の情報から機能語を除く。また、関連度算出手段1052は、機能語を除いて残った自立語の例から、連続する名詞を一つの用語とし、1以上の用語を得る。この1以上の用語が図10である。図10において、用語間は「|」で区切られている。
【0111】
次に、関連度算出手段1052は、図7(a)の文書固有の情報(例えば、関連情報が含む用語のi番目の文書中での出現頻度「tf」や、i番目の文書の長さ(文字数)「dl」など)を取得する。
【0112】
次に、関連度算出手段1052は、読み込んだ数式1、2の演算式に、取得した共通の情報、文書固有の情報を代入し、演算式を実行する。そして、例えば、関連度算出手段1052は、図7(a)のスコア(S)を、「24.2085」と算出した、とする。
【0113】
次に、同様に、関連度算出手段1052は、文書格納部101から2つ目の文書(図7(b))を読み出し、上記と同様の処理を行い、図7(b)のスコア(S)を、「2.1109」と算出した、とする。
【0114】
さらに、関連度算出手段1052は、3つ目以降の文書(図示しない)を読み出し、上記と同様の処理を行い、それぞれのスコアを算出する。
【0115】
次に、関連度算出手段1052は、文書格納部101の全文書のスコアのうち最大のスコア(Smax)を、ここでは、「28.0000」と取得した、とする。そして、閾値「a=0.7」を記録媒体から読み出す。
【0116】
次に、関連度算出手段1052は、1番目の文書から、先に算出し、一時格納した各文書のスコア(S)が「S>0.7×28.0000」を満たすか否か、判断する。
【0117】
ここで、1番目の文書(図7(a))のスコア(S)の「24.2085」は、「>0.7×28.0000」を満たすので、関連度算出手段1052は、1番目の文書(図7(a))を、関連文書である、として登録する。
【0118】
次に、2番目の文書(図7(b))のスコア(S)の「2.1109」は、「>0.7×28.0000」を満たさないので、関連度算出手段1052は、1番目の文書(図7(a))を、非関連文書である、として登録する。
【0119】
そして、同様に、関連度算出手段1052は、3番目以降の文書のスコアと、最大のスコア(Smax)を用いて、「Si>a(0.7)×Smax」を満たすか否かを判断し、満たせば関連文書、満たさなければ非関連文書である、として登録する。
【0120】
その結果、関連度算出手段1052は、図11に示す関連・非関連管理表を得る。関連・非関連管理表は、「文書ID」と「関連(1)・非関連(0)」の属性値を有する。「文書ID」は、文書を識別する情報であり、例えば、文書のファイル名である。「関連(1)・非関連(0)」は、文書が関連文書か非関連文書かを示す情報であり、文書が関連文書の場合は「1」、文書が非関連文書の場合は「0」の値をとる。
【0121】
次に、用語取得部106は、関連文書であると判断された1以上の関連文書(文書a、文書cなど)が有する1以上の用語を取り出す。つまり、用語取得部106は、1以上の関連文書を形態素解析し、機能語を除き、連続する名詞を一の用語として抽出する。また、ユニーク処理を行い、用語の重複を回避する。その結果、例えば、図12に示すような用語群を得る。
【0122】
次に、関連文書中出現頻度取得部107は、図12の用語群のうち、1番目の用語「ペイオフ」について、1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する。ここで、関連文書中出現頻度取得部107は、関連文書中出現頻度を「80」と取得できた、とする。ここで、関連文書中出現頻度は、用語「ペイオフ」が関連文書中で出現する出現回数である。
【0123】
次に、文書中出現頻度取得部108は、1番目の用語「ペイオフ」について、1以上の関連文書または1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する。ここでは、文書中出現頻度取得部108は、文書中出現頻度を「26」と取得できた、とする。ここで、文書中出現頻度は、用語「ペイオフ」が出現する文書数である。
【0124】
次に、スコア算出部109は、1番目の用語「ペイオフ」について、関連文書中出現頻度「80」および、取得した文書中出現頻度「26」を用いて、用語の専門性または特殊性に関するスコアを算出する。スコア算出の演算式は、数式3である。
【数3】

【0125】
なお、数式3において、TFは関連文書中出現頻度「80」である。また、Nは文書格納部101の全文書数であり、ここでは、1024である、とする。また、DFは文書中出現頻度「26」である。
【0126】
したがって、スコア算出部109は、記録媒体に格納している数式3の情報を読み出し、TF「80」、N「1024」、DF「26」を代入し、「スコア=80×log(1024/26)」を演算し、スコア「127.6261」を得る。そして、スコア算出部109は、用語の情報と、スコアを対にして、メモリ上に一時格納する。
【0127】
同様に、スコア算出部109は、2番目以降の用語に対してもスコアを算出し、各用語の情報とスコアを対にして算出し、メモリ上に一時格納する。
【0128】
次に、出力情報構成部110は、メモリ上に一時格納された用語とスコアの多数の組の情報を、スコアをキーとして降順にソートする。そして、出力情報構成部110は、図13に示すような出力情報を構成する。
【0129】
そして、出力部111は、図13の出力情報を出力する。
【0130】
以上、本実施の形態によれば、専門的な用語や、時事的な用語を、精度高く収集できる。
【0131】
なお、本実施の形態によれば、用語に対するスコアの算出アルゴリズムとして、TF・IDF法を用いた。しかし、他のアルゴリズムでも良い。例えば、上述した有意確率法でも良い。有意確率法による場合、以下のように処理をする。つまり、関連文書中出現頻度取得部107は、用語「t」について、1以上の関連文書内での出現頻度である関連文書中出現頻度(これを「a」とする)を取得する。また、文書中出現頻度取得部108は、用語「t」について、1以上の非関連文書内での出現頻度である非関連文書中出現頻度(これを「c」とする)を取得する。そして、スコア算出部109は、用語「t」以外の用語の、1以上の関連文書内での出現頻度(これを「b」とする)を取得する。また、スコア算出部109は、用語「t」以外の用語の、1以上の非関連文書内での出現頻度(これを「d」とする)を取得する。そして、スコア算出部109は、図14に示す頻度管理表を得た、とする。
【0132】
そして、スコア算出部109は、頻度管理表の定数「a」「b」・・・「h」「n」を、数式4に代入し、有意確率を算出する。
【数4】

【0133】
なお、有意確率とは、2×2分割表でe,f,g,hが決まっている時に、a,b,c,dが特定の値である確率をpとすると、pは、数式5になる。
【数5】

【0134】
また、a,b,c,dのうち、どれkら1つを決めると残りの3つが一意に決まる。用語「t」が話題一致文書中にk回出現する確率のうち、「k>=a」の確率を足し合わせた値が有意確率である。
【0135】
そして、スコア算出部109は、予め決められた演算式「−log(有意確率)」の情報を読み出し、数式4の演算により得た有意確率を代入し、スコアを算出する。有意確率法によれば、上記の具体例における出力情報は、図15に示すような情報となる。
【0136】
また、本実施の形態によれば、登録されている用語である登録用語を除いて、専門用語等を抽出した。しかし、登録用語が存在しない場合や、重複を嫌わない場合など、かかる登録用語を除く処理は必須ではない。かかる場合、登録用語格納部102は不要となる。
【0137】
また、本実施の形態において、出力部は、登録用語格納部の登録用語を有する出力情報を出力しない用語収集装置であった。ここで、出力部は最終的に登録用語を有する出力情報を出力しなければ良い。したがって、例えば、スコア算出部が登録用語についてのスコアを算出しない、という構成でも良いし、出力構成部が登録用語を有する出力情報を構成しない、という構成でも良いし、出力部が登録用語を有する出力情報を出力しない、という構成でも良い。
【0138】
また、本実施の形態によれば、判断部105が文書格納部101の各文書に対して、関連文書であるか、非関連文書であるかを判断した。しかし、予め関連文書と非関連文書が分類されて、格納されていても良い。かかる場合、判断部105の処理等は不要となり、用語収集装置の構成は、以下のようになる。つまり、用語収集装置は、図16に示すように、収集する用語に関連する文書である関連文書が1以上格納され得る関連文書格納部1501と、収集する用語に関連しない文書である非関連文書が1以上格納され得る非関連文書格納部1502と、前記1以上の関連文書から1以上の用語を取り出す用語取得部106と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得部107と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する文書中出現頻度取得部108と、前記用語取得部が取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度および、前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出部109と、前記スコア算出部が算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成部110と、前記出力情報構成部が構成した出力情報を出力する出力部111を具備する。図16は、かかる用語収集装置のブロック図である。なお、受付部1503は、用語収集装置の処理の開始指示を受け付け、かかる開始指示により、用語収集装置の動作が開始される。
【0139】
また、本実施の形態によれば、スコア算出部109は、関連文書中出現頻度をパラメータとする増加関数であり、非関連文書中出現頻度または/および文書中出現頻度をパラメータとする減少関数によりスコアを算出した。しかし、スコアの大小を逆に算出しても良い。つまり、スコア算出部109は、関連文書中出現頻度をパラメータとする減少関数であり、非関連文書中出現頻度または/および文書中出現頻度をパラメータとする増加関数によりスコアを算出しても良い。かかる場合、出力の段階で、スコアの小さい用語を優先的に出力する処理(ソートをする場合は、スコアの昇順に用語をソートする処理)を行うこととなる。
【0140】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における用語収集装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、1以上の関連文書から1以上の用語を取り出す用語取得ステップと、前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得ステップと、前記用語取得ステップで取得した1以上の用語のうちの各用語について、1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報文書中出現頻度を取得する文書中出現頻度取得ステップと、前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度および、前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出ステップと、前記スコア算出ステップで算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成ステップと、前記出力情報構成ステップで構成した出力情報を出力する出力ステップを実行させるためのプログラム、である。
【0141】
また、本実施の形態における用語収集装置を実現するソフトウェアは、コンピュータに、収集する用語に関連する情報である関連情報を受け付ける関連情報受付ステップと、前記関連情報から1以上の用語を取得する関連情報用語取得ステップと、前記関連情報用語取得ステップで取得した1以上の用語を用いて、1以上の文書が、前記関連情報と所定の関係にある関連文書か、前記関連情報と所定の関係に無い非関連文書かを判断する判断ステップと、前記1以上の関連文書が有する1以上の用語を取り出す用語取得ステップと、前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得ステップと、前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する文書中出現頻度取得ステップと、前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度および、前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出ステップと、前記スコア算出ステップで算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成ステップと、前記出力情報構成ステップで構成した出力情報を出力する出力ステップを実行させるためのプログラム、である。
【0142】
また、上記プログラムにおいて、前記判断ステップは、前記1以上の各文書に対して、前記関連情報用語取得ステップで取得した1以上の用語を用いて、前記関連情報との関連度を算出する関連度算出ステップと、前記各文書について、前記関連度算出ステップで算出した関連度と閾値を用いて、文書ごとに、当該文書が関連文書であるか非関連文書であるかを判断する判断ステップを具備することは好適である。
【0143】
また、上記プログラムにおいて、前記スコア算出ステップは、前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記各関連文書に対して、当該関連文書中の関連文書中出現頻度と当該関連文書の関連度をパラメータとする増加関数による演算を行い、前記各関連文書に対応する1以上の関連文書中頻度情報を算出する関連文書中頻度算出ステップと、前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記文書中出現頻度取得ステップで算出した前記非関連文書中出現頻度または前記文書中出現頻度を用いて、当該用語が非関連文書を含む文書群に広く出現しない度合いである集中出現度を算出する集中出現度算出ステップと、前記関連文書中頻度情報と前記集中出現度をパラメータとする増加関数による演算を行い、用語の専門性または特殊性に関するスコアを算出するスコア算出ステップを具備することは好適である。
【0144】
また、上記プログラムにおいて、前記用語取得ステップにおいて、前記1以上の関連文書から1以上の用語を取り出す場合に、すでに登録されている用語である登録用語を除いて1以上の用語を取り出すことは好適である。
【0145】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0146】
また、図17は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の用語収集装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図17は、このコンピュータシステム340の概観図であり、図18は、コンピュータシステム340のブロック図である。
【0147】
図17において、コンピュータシステム340は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ341と、キーボード342と、マウス343と、モニタ344とを含む。
【0148】
図18において、コンピュータ341は、FDドライブ3411、CD−ROMドライブ3412に加えて、CPU(Central Processing Unit)3413と、CPU3413、CD−ROMドライブ3412及びFDドライブ3411に接続されたバス3414と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3415と、CPU3413に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3416と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3417とを含む。ここでは、図示しないが、コンピュータ341は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0149】
コンピュータシステム340に、上述した実施の形態の用語収集装置の機能を実行させるプログラムは、CD−ROM3501、またはFD3502に記憶されて、CD−ROMドライブ3412またはFDドライブ3411に挿入され、さらにハードディスク3417に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ341に送信され、ハードディスク3417に記憶されても良い。プログラムは実行の際にRAM3416にロードされる。プログラムは、CD−ROM3501、FD3502またはネットワークから直接、ロードされても良い。
【0150】
プログラムは、コンピュータ341に、上述した実施の形態の用語収集装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム340がどのように動作するかは周知であり、詳細な説明は省略する。
【0151】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0152】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0153】
以上のように、本発明にかかる用語収集装置は、専門的な用語、または時事的な用語などを収集できる、という効果を有し、用語収集装置等として有用である。
【図面の簡単な説明】
【0154】
【図1】実施の形態における用語収集装置のブロック図
【図2】同用語収集装置の動作について説明するフローチャート
【図3】同判断処理について説明するフローチャート
【図4】同関連文書中出現頻度を取得する処理について説明するフローチャート
【図5】同文書中出現頻度を取得する処理について説明するフローチャート
【図6】同スコアを算出する処理について説明するフローチャート
【図7】同文書ファイルの例を示す図
【図8】同登録用語の例を示す図
【図9】同文書の形態素解析結果を示す図
【図10】同取得した用語の例を示す図
【図11】同関連・非関連管理表を示す図
【図12】同例を示す図
【図13】同出力情報の例を示す図
【図14】同有意確率を説明する頻度管理表を示す図
【図15】同出力情報の例を示す図
【図16】同用語収集装置のブロック図
【図17】同用語収集装置を実現するコンピュータシステムの概観図
【図18】同用語収集装置を実現するコンピュータシステムのブロック図
【符号の説明】
【0155】
101 文書格納部
102 登録用語格納部
103 関連情報受付部
104 関連情報語取得部
105 判断部
106 用語取得部
107 関連文書中出現頻度取得部
108 文書中出現頻度取得部
109 スコア算出部
110 出力情報構成部
111 出力部
1051 閾値格納手段
1052 関連度算出手段
1053 判断手段
1091 関連文書中頻度算出手段
1092 集中出現度算出手段
1093 スコア算出手段
1501 関連文書格納部
1502 非関連文書格納部
1503 受付部

【特許請求の範囲】
【請求項1】
1以上の文書から用語を収集する用語収集装置において、
収集する用語に関連する文書である関連文書が1以上格納され得る関連文書格納部と、
収集する用語に関連しない文書である非関連文書が1以上格納され得る非関連文書格納部と、
前記1以上の関連文書から1以上の用語を取り出す用語取得部と、
前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得部と、
前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する文書中出現頻度取得部と、
前記用語取得部が取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度、および前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成部と、
前記出力情報構成部が構成した出力情報を出力する出力部を具備する用語収集装置。
【請求項2】
1以上の文書が格納され得る文書格納部と、
収集する用語に関連する情報である関連情報を受け付ける関連情報受付部と、
前記関連情報から1以上の語を取得する関連情報語取得部と、
前記関連情報語取得部が取得した1以上の語を用いて、前記文書格納部の1以上の各文書が、前記関連情報と所定の関係にある関連文書か、前記関連情報と所定の関係に無い非関連文書かを判断する判断部と、
前記1以上の関連文書が有する1以上の用語を取り出す用語取得部と、
前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得部と、
前記用語取得部が取得した1以上の用語のうちの各用語について、前記1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する文書中出現頻度取得部と、
前記用語取得部が取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度、および前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出部と、
前記スコア算出部が算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成部と、
前記出力情報構成部が構成した出力情報を出力する出力部を具備する用語収集装置。
【請求項3】
前記判断部は、
関連文書と非関連文書を分類するための閾値を格納している閾値格納手段と、
前記文書格納部の1以上の各文書に対して、前記関連情報語取得部が取得した1以上の用語を用いて、前記関連情報との関連度を算出する関連度算出手段と、
前記各文書について、前記関連度算出手段が算出した関連度と前記閾値を用いて、文書ごとに、当該文書が関連文書であるか非関連文書であるかを判断する判断手段を具備する請求項2記載の用語収集装置。
【請求項4】
1以上の用語である1以上の登録用語を格納している登録用語格納部をさらに具備し、
前記出力部は、
前記登録用語を有する出力情報を出力しない請求項1から請求項3いずれか記載の用語収集装置。
【請求項5】
コンピュータに、
1以上の関連文書から1以上の用語を取り出す用語取得ステップと、
前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記1以上の関連文書内での出現頻度についての情報である関連文書中出現頻度を取得する関連文書中出現頻度取得ステップと、
前記用語取得ステップで取得した1以上の用語のうちの各用語について、1以上の非関連文書内での出現頻度についての情報である非関連文書中出現頻度、または前記1以上の関連文書または前記1以上の非関連文書内での出現頻度についての情報である文書中出現頻度を取得する文書中出現頻度取得ステップと、
前記用語取得ステップで取得した1以上の用語のうちの各用語について、前記関連文書中出現頻度および、前記非関連文書中出現頻度または/および前記文書中出現頻度を用いて、用語の専門性または特殊性に関するスコアを算出するスコア算出ステップと、
前記スコア算出ステップで算出したスコアと用語を用いて出力する情報である出力情報を構成する出力情報構成ステップと、
前記出力情報構成ステップで構成した出力情報を出力する出力ステップを実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate


【公開番号】特開2007−241348(P2007−241348A)
【公開日】平成19年9月20日(2007.9.20)
【国際特許分類】
【出願番号】特願2006−58871(P2006−58871)
【出願日】平成18年3月6日(2006.3.6)
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】