説明

用語抽出装置、およびプログラム

【課題】従来の用語抽出装置において、同時翻訳に有用な用語を抽出できない、と言う課題があった。
【解決手段】用語収集の元になる情報である元情報を受け付ける元情報受付部と、元情報と、格納している2以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出部と、2以上の情報群から1以上の用語を抽出する用語抽出部と、用語抽出部が抽出した1以上の各用語の、2以上の情報群における出現頻度と情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得部と、用語抽出部が抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得部と、出現頻度情報および特殊性情報に基づいて、用語抽出部が抽出した用語のうち、1以上の用語を出力する出力部を具備する用語抽出装置により、同時翻訳に有用な用語を抽出できる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、翻訳等で利用するための用語を抽出する用語抽出装置等に関するものである。
【背景技術】
【0002】
例えば、講演の原稿は事前に入手できず、講演のタイトルのみが事前に得られ、かかる状況において同時通訳を行わねばならない場合がある。通常、同時通訳者は、通訳する話の中に専門用語が含まれると想定される場合には、専門用語の対訳用語集を事前に作成し、記憶してから通訳に臨む。同時通訳では、原言語の音声を聞いてから、通訳するまでの時間がきわめて限られているという時間的制約がある。このため、辞書や用語集などの資料は、通訳している最中には基本的に利用することはできない。そのため、記憶している情報が重要となる。
【0003】
そこで、かかる通訳者を支援の方法としては、用語集を作成するために有用な情報を網羅的にそして適切に順位付けして提示することが効果的である。通訳者は、その情報から必要な用語と訳語を認識し、用語の意味を理解し、最終的に自分が記憶しやすい形に再編集して独自の用語集を作成する。そのためには、用語とその訳語だけではなく、用語の簡潔な説明や、関連性の高い語彙とその関係なども同時に提供することが有用である。
【0004】
一方、従来の用語抽出装置において、専門用語の抽出を自動的に行う用語抽出装置がある(例えば、特許文献1参照)。かかる用語抽出装置は、原言語と目的言語の単語対応データを自動的に作成する装置であった、原言語と目的言語のテキストから予め文間の対応付けを行った対訳コーパスを利用し、該対訳コーパスから対応データを読み込む手段と、読み込んだ該対応データに対し、原言語の単語と目的言語の単語との尤度による対応付けを行うことを特徴とする。
【特許文献1】特開平7−28819号公報(第1頁、第1図等)
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかしながら、従来の用語抽出装置においては、用語抽出の対象となる新聞記事等の情報群から、用語収集の元になる情報である元情報(例えば、講演のタイトル)に関連の深い用語を精度高く抽出することができない、という課題があった。
【0006】
さらに具体的には、従来の用語抽出装置においては、元情報と情報群の関連度を考慮して用語を抽出したり、一般用語を除き、特殊な用語を中心に抽出したりすることができなかったので、通訳者が真に必要な用語を効果的に抽出することができなかった。
【課題を解決するための手段】
【0007】
本第一の発明の用語抽出装置は、2以上の情報群を格納している情報群格納部と、用語収集の元になる情報である元情報を受け付ける元情報受付部と、前記元情報と前記2以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出部と、前記2以上の情報群から1以上の用語を抽出する用語抽出部と、前記用語抽出部が抽出した1以上の各用語の、前記2以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得部と、前記用語抽出部が抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得部と、前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出部が抽出した用語のうち、1以上の用語を出力する出力部を具備する用語抽出装置である。
【0008】
かかる構成により、元情報(例えば、講演のタイトル)と情報群(例えば、新聞記事)の関連度を考慮して用語を抽出したり、一般用語を除き、特殊な用語を中心に抽出したりすることができる。したがって、元情報に関連の深い用語を精度高く抽出できる。
【0009】
また、本第二の発明の用語抽出装置は、第一の発明に対して、前記情報関連度算出部は、前記元情報を形態素解析し、1以上の形態素列を得る第一形態素解析手段と、前記第一形態素解析手段が得た1以上の形態素列から、機能語を削除する第一機能語削除手段と、前記機能語削除手段により機能語が削除され、残った1以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である1以上のノードを取得するノード取得手段と、前記ノード取得手段が取得した1以上のノードの、2以上の各情報群における出現頻度を算出するノード出現頻度算出手段と、前記ノード出現頻度算出手段が算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出するノードスコア算出手段と、対象形態素列が完成する1以上のノードの1以上のノードスコアに基づいて、各情報群の情報関連度を算出する情報関連度算出手段を具備する用語抽出装置である。
かかる構成により、特に、元情報(例えば、講演のタイトル)と情報群(例えば、新聞記事)の関連度を十分に考慮して用語を抽出できる。
【0010】
また、本第三の発明の用語抽出装置は、第一の発明に対して、前記用語抽出部は、前記2以上の情報群を形態素解析し、1以上の形態素列を得る第二形態素解析手段と、前記第二形態素解析手段が得た1以上の形態素列から、機能語を削除する第二機能語削除手段と、前記第二機能語削除手段により機能語が削除され、残った1以上の連続する形態素列のうち名詞を最終の語とする、1以上の連続する語を用語として取得する用語取得手段とを具備する用語抽出装置である。
かかる構成により、不要な用語を除いた用語抽出ができる。
【0011】
また、本第四の発明の用語抽出装置は、第三の発明に対して、前記用語抽出部は、抽出する用語から、所定の用語を除くルールであり、形態素列が満たす条件を示すルールである例外ルールを格納している例外ルール格納手段と、前記用語取得手段が取得した形態素列が、前記例外ルールが示す条件に合致するか否かを判断する例外合致判断手段と、前記用語取得手段が取得した用語のうち、前記例外合致判断手段が前記例外ルールに合致すると判断した形態素列を除く例外除去手段をさらに具備する用語抽出装置である。
かかる構成により、さらに、不要な語を除いた用語抽出ができる。
【0012】
また、本第五の発明の用語抽出装置は、第一の発明に対して、前記出現頻度情報取得部は、前記用語抽出部が抽出した1以上の各用語について、前記2以上の各情報群における1以上の出現頻度を算出する出現頻度算出手段と、前記出現頻度算出手段が算出した前記2以上の各情報群における出現頻度と、出現頻度に対応する前記2以上の各情報群の前記情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する用語関連度情報算出手段とを具備する用語抽出装置である。
かかる構成により、元情報に関連の深い用語を抽出できる。
【0013】
また、本第六の発明の用語抽出装置は、第一の発明に対して、前記特殊性情報取得部は、前記情報群に関する数である情報群数を取得する情報群数取得手段と、前記用語抽出部が抽出した各用語について、前記情報群に出現する数に関する情報である頻度情報を取得する頻度情報取得手段と、前記情報群数および前記頻度情報をパラメータとして、特殊性情報を算出する特殊性情報算出手段を具備する用語抽出装置である。
かかる構成により、通訳者が知っているであろう一般的な用語を除き、特殊な用語を抽出できる。
【0014】
また、本第七の発明の用語抽出装置は、第6の発明に対して、前記情報群は、1以上のカテゴリに分類される新聞記事の情報であり、前記情報群数は、前記情報群中の総用語数、または/および情報群の数、または/および前記新聞記事の総日数、または/および前記新聞記事の総月数、または/および前記新聞記事の総カテゴリ数であり、前記頻度情報は、抽出した各用語について、当該各用語の出現頻度、または/および当該各用語を含む情報群数、または/および当該各用語を含む日数、または/および当該各用語を含む月数、または/および当該各用語を含むカテゴリ数である用語抽出装置である。
かかる構成により、通訳者が知っているであろう一般的な用語を除き、特殊な用語を抽出できる。
【0015】
また、本第八の発明の用語抽出装置は、第一の発明に対して、前記出力部は、各用語について、前記出現頻度情報および前記特殊性情報をパラメータとして用語スコアを算出する用語スコア算出手段と、前記用語スコア算出手段が算出した用語スコアに基づいて、前記用語抽出部が抽出した用語を並べるソート手段と、前記ソート手段でソートされた順で、1以上の用語を出力する出力手段を具備する用語抽出装置である。
かかる構成により、抽出した用語を、通訳者等に対して効果的に出力できる。
【発明の効果】
【0016】
本発明による用語抽出装置によれば、講演タイトル等の元情報に関連のある用語を、新聞記事等の情報群から効果的に抽出できる。
【発明を実施するための最良の形態】
【0017】
以下、用語抽出装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
(実施の形態1)
図1は、本実施の形態における用語抽出装置のブロック図である。
本用語抽出装置は、情報群格納部101、元情報受付部102、情報関連度算出部103、用語抽出部104、出現頻度情報取得部105、特殊性情報取得部106、出力部107を具備する。
【0018】
情報関連度算出部103は、第一形態素解析手段1031、第一機能語削除手段1032、ノード取得手段1033、ノード出現頻度算出手段1034、ノードスコア算出手段1035、情報関連度算出手段1036を具備する。
用語抽出部104は、第二形態素解析手段1041、第二機能語削除手段1042、用語取得手段1043、例外ルール格納手段1044、例外合致判断手段1045、例外除去手段1046を具備する。
出現頻度情報取得部105は、出現頻度算出手段1051、用語関連度情報算出手段1052を具備する。
特殊性情報取得部106は、情報群数取得手段1061、頻度情報取得手段1062、特殊性情報算出手段1063を具備する。
出力部107は、用語スコア算出手段1071、ソート手段1072、出力手段1073を具備する。
【0019】
また、元情報受付部102、例えば、キーボード302、マウス303等の入力手段から、元情報を受け付ける。さらに、出力部107は、例えば、モニタ304に情報を出力する。なお、モニタ304は、以下、ディスプレイとも言う。
【0020】
情報群格納部101は、2以上の情報群を格納している。情報群とは、例えば、新聞記事の情報である。また、情報群とは、例えば、ホームページの情報(例えば、いわゆるブログ)や、電子メール(メールマガジンを含む)等の情報である。一の情報群は、例えば、一のファイルである。ただし、一の情報群は、例えば、一のデータベースや、データベース中の一のレコード等でも良い。また、情報群は、例えば、テキスト形式である。なお、情報群のデータ形式は問わない。また、情報群は、例えば、完全な文章になっていなくても良い。情報群格納部101は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。情報群格納部101が、揮発性の記録媒体の場合、情報群の実体は、例えば、用語抽出装置の外部の装置に存在する。また、かかる場合、外部の装置は、2以上でも良い。
【0021】
元情報受付部102は、用語収集の元になる情報である元情報を受け付ける。元情報は、例えば、講演や論文やテレビ番組やラジオ番組などのタイトルの情報である。また、元情報は、文章であっても、1以上の単語集等であっても良い。元情報は、通常、文字列の情報である。元情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。元情報受付部102は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0022】
情報関連度算出部103は、元情報(例えば、講演のタイトル)と2以上の各情報群との関連度である情報関連度を、情報群ごとに算出する。情報関連度算出部103が情報関連度を算出するアルゴリズムの具体例は後述する。情報関連度算出部103は、通常、MPUやメモリ等から実現され得る。情報関連度算出部103の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第一形態素解析手段1031は、元情報を形態素解析し、1以上の形態素列を得る。形態素解析は公知技術であるので詳細な説明は省略する。
【0023】
第一機能語削除手段1032は、第一形態素解析手段1031が得た1以上の形態素列から、機能語を削除する。機能語は、内容語ではない語であり、それ自体で特有の意味を有さない語である。機能語は、例えば、助詞である。第一形態素解析手段1031は、元情報を語に分割し、当該語の品詞の情報を取得するので、第一機能語削除手段1032は、当該品詞の情報から、機能語に対応する品詞(例えば、助詞など)の語を決定し、当該決定した語を削除する処理を行う。ここで、「削除」とは、実態的に消去する必要はなく、機能語と内容語を区別する処理を行えば良い。区別する処理とは、例えば、機能語にはフラグ「0」を付与し、内容語にはフラグ「1」を付与する等の処理である。
【0024】
ノード取得手段1033は、第一機能語削除手段1032により機能語が削除され、残った1以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である1以上のノードを取得する。なお、ノードは、文字列である。対象形態素列が、例えば、「特許法」である場合、ノード取得手段1033は、「特許」「法」「特許法」の3つのノードを取得する。
【0025】
ノード出現頻度算出手段1034は、ノード取得手段1033が取得した1以上のノードの、2以上の各情報群における出現頻度を算出する。ここでの出現頻度は、例えば、ノード(文字列)が出現する情報群の数である。したがって、一の情報群に2回以上、ノード(文字列)が出現した場合でも、ここでの出現頻度には、「1」が加算されるだけである。なお、ここでの出現頻度は、例えば、全情報群中にノード(文字列)が出現する回数でも良い。文字列であるノードの、情報群における出現頻度を算出する処理は、公知技術であるので詳細な説明は省略する。
【0026】
ノードスコア算出手段1035は、ノード出現頻度算出手段1034が算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出する。例えば、ノードスコア算出手段1035は、各情報群に対して、各ノードの出現頻度と、各ノードの形態素の数をパラメータとして、ノードスコアを算出する。ノードスコア算出手段1035は、各情報群に対して、各ノードの出現頻度をパラメータとする減少関数であり、かつ各ノードの形態素の数をパラメータとする増加関数により、ノードスコアを算出する。
【0027】
情報関連度算出手段1036は、対象形態素列が完成する1以上のノードの1以上のノードスコアに基づいて、各情報群の情報関連度を算出する。情報関連度算出手段1036は、例えば、元情報において、重ならないように、各ノードを連結したラティスを生成し、当該ラティスの先頭から末尾までのノードのスコアの和の最大値を、情報関連度とする。情報関連度算出手段1036は、かかる情報関連度を、動的計画法(DP)により、算出する。
【0028】
第一形態素解析手段1031、第一機能語削除手段1032、ノード取得手段1033、ノード出現頻度算出手段1034、ノードスコア算出手段1035、情報関連度算出手段1036は、通常、MPUやメモリ等から実現され得る。第一形態素解析手段1031等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0029】
用語抽出部104は、2以上の情報群から1以上の用語を抽出する。用語抽出部104は、例えば、情報群を形態素解析し、かつ機能語を削除して、残った内容語を用語として抽出する。用語抽出部104は、例えば、情報群を形態素解析し、名詞のみを用語として抽出しても良い。その他、用語抽出部104における用語の抽出方法は問わない。用語抽出部104が、用語を抽出する方法の具体例は、後述する。用語抽出部104は、通常、MPUやメモリ等から実現され得る。用語抽出部104の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
第二形態素解析手段1041は、2以上の情報群を形態素解析し、1以上の形態素列を得る。第二形態素解析手段1041は、第一形態素解析手段1031と同一の手段であり、物理的に一の手段でも良い。
【0030】
第二機能語削除手段1042は、第二形態素解析手段1041が得た1以上の形態素列から、機能語を削除する。第二機能語削除手段1042は、第一機能語削除手段1032と同一の手段であり、物理的に一の手段でも良い。
【0031】
用語取得手段1043は、第二機能語削除手段1042により機能語が削除され、残った1以上の連続する形態素列のうち名詞を最終の語とする、1以上の連続する語を用語として取得する。ただし、用語取得手段1043は、全名詞を独立に取得しても良い。
【0032】
例外ルール格納手段1044は、抽出する用語から、所定の用語を除くルールであり、形態素列が満たす条件を示すルールである例外ルールを格納している。例外ルールは、例えば、「代名詞であり、かつカタカナでない」、「非自立の名詞であり、かつカタカナでない」などを示す情報である。例外ルールの記載方法、データ構造等は問わない。例外ルールの他の例は、後述する。例外ルール格納手段1044は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
例外合致判断手段1045は、用語取得手段1043が取得した形態素列(用語)が、例外ルールが示す条件に合致するか否かを判断する。
【0033】
例外除去手段1046は、用語取得手段1043が取得した用語のうち、例外合致判断手段1045が例外ルールに合致すると判断した形態素列を除く。ここで、「除く」とは、例外ルールに合致すると判断した形態素列(用語)を、最終的に出力対象の用語として、抽出しないことである。例外除去手段1046は、具体的な処理を行う必要は必ずしもなく、例外ルールに合致すると判断した形態素列(用語)を、最終的に出力対象の用語として、抽出しなければ良い。
【0034】
第二形態素解析手段1041、第二機能語削除手段1042、用語取得手段1043、例外合致判断手段1045、例外除去手段1046は、通常、MPUやメモリ等から実現され得る。第二形態素解析手段1041等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0035】
出現頻度情報取得部105は、用語抽出部104が抽出した1以上の各用語の、2以上の情報群における出現頻度と情報関連度に関する情報である出現頻度情報を用語ごとに取得する。用語関連度情報とは、情報関連度と、情報群中の出現頻度とをパラメータとして、算出される値である。出現頻度情報取得部105は、例えば、情報関連度と出現頻度とをパラメータとする増加関数により、出現頻度情報を用語ごとに取得する。出現頻度情報取得部105は、通常、MPUやメモリ等から実現され得る。出現頻度情報取得部105の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0036】
出現頻度算出手段1051は、用語抽出部104が抽出した1以上の各用語について、2以上の各情報群における出現頻度を取得する。出現頻度算出手段1051は、各情報群のそれぞれに対応して、用語の出現頻度(出現回数)を取得する。
【0037】
用語関連度情報算出手段1052は、出現頻度算出手段1051が算出した2以上の各情報群における出現頻度と、出現頻度に対応する2以上の各情報群の情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する。ここで、用語関連度情報算出手段1052が算出する出現頻度情報は、用語関連度情報と同意義である。
【0038】
出現頻度算出手段1051、用語関連度情報算出手段1052は、通常、MPUやメモリ等から実現され得る。出現頻度算出手段1051等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0039】
特殊性情報取得部106は、用語抽出部104が抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する。特殊性情報は、着目している用語が、あまり使用されない用語であるか、一般的に良く使用される用語であるかを示す情報であり、その形式等は問わない。特殊性情報取得部106は、通常、MPUやメモリ等から実現され得る。特殊性情報取得部106の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0040】
情報群数取得手段1061は、情報群に関する数である情報群数を取得する。情報群数は、例えば、情報群中の総用語数、または/および情報群の数である。また、情報群が1以上のカテゴリに分類される新聞記事の情報である場合、情報群数は、例えば、新聞記事の総日数、または/および新聞記事の総月数、または/および新聞記事の総カテゴリ数である。情報群数の形式、データ構造等は問わない。情報群数取得手段1061が行う処理は、既存の形態素解析等の処理や文字列処理等により実現可能であるので、詳細な説明は省略する。
【0041】
頻度情報取得手段1062は、用語抽出部104が抽出した各用語について、情報群に出現する数に関する情報である頻度情報を取得する。頻度情報は、例えば、抽出した各用語について、当該各用語の出現頻度(全情報群中における出現回数)、または/および当該各用語を含む情報群数である。また、情報群が1以上のカテゴリに分類される新聞記事の情報である場合、頻度情報は、例えば、各用語を含む日数、または/および各用語を含む月数、または/および各用語を含むカテゴリ数である。なお、情報群数は、予め格納されている情報であっても良い。かかる場合、情報群数取得手段1061は、情報群数を読み出す。また、情報群数取得手段1061は、情報群格納部101に格納されている情報群を読み出し、情報群数を算出しても良い。例えば、情報群数が、情報群中の総用語数である場合、情報群数取得手段1061は、全情報群を形態素解析し、用語に区分し、用語の数を算出する処理を行う。また、情報群が1以上のカテゴリに分類される新聞記事の情報であり、情報群数は、例えば、新聞記事の総日数である場合、情報群数取得手段1061は、新聞記事の情報が保持している属性値「発行日」を取り出し、かかる「発行日」の情報をソートして、ユニークの処理を行い、新聞記事の総日数の情報を取得する。その他、情報群数取得手段1061は、情報群数によって、適切な処理を行い、情報群数を取得する。
【0042】
特殊性情報算出手段1063は、情報群数および頻度情報をパラメータとして、特殊性情報を算出する。特殊性情報算出手段1063は、例えば、情報群数をパラメータとする関数であり、頻度情報をパラメータとする減少関数である関数により、特殊性情報を算出する。特殊性情報算出手段1063が特殊性情報を算出する式等の詳細については、後述する。特殊性情報のデータ構造等は問わない。
【0043】
情報群数取得手段1061、頻度情報取得手段1062、特殊性情報算出手段1063は、通常、MPUやメモリ等から実現され得る。情報群数取得手段1061等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
【0044】
出力部107は、出現頻度情報および特殊性情報に基づいて、用語抽出部104が抽出した用語のうち、1以上の用語を出力する。出力部107は、用語抽出部104が抽出した用語のすべてを出力しても良いし、出現頻度情報および特殊性情報が所定の条件を満たす用語のみを出力しても良いし、出現頻度情報および特殊性情報が所定の条件を満し、かつ出現頻度情報および特殊性から算出される値(後述する用語スコア)で用語をソートし、例えば、上位50の用語のみ出力しても良い。その他、出力部107における用語の出力態様は問わない。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。出力部107は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部107は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0045】
用語スコア算出手段1071は、各用語について、出現頻度情報および特殊性情報をパラメータとして用語スコアを算出する。用語スコア算出手段1071が、いかに出現頻度情報および特殊性情報を用いて、用語スコアを算出するかは問わない。ただし、用語スコア算出手段1071は、出現頻度情報が示す出現頻度が大きいほど、かつ、特殊性情報が示す特殊性が大きいほど、用語スコアを高く設定するように、用語スコアを算出する。「用語スコアを高く設定する」とは、出力する用語として抽出されやすくなることである。
【0046】
ソート手段1072は、用語スコア算出手段1071が算出した用語スコアに基づいて、用語抽出部104が抽出した用語を並べる。ソート手段1072は、通常、用語スコアが高い用語を、出力されやすいように並べる。
出力手段1073は、ソート手段1072でソートされた順で、1以上の用語を出力する。
【0047】
用語スコア算出手段1071、ソート手段1072は、通常、MPUやメモリ等から実現され得る。用語スコア算出手段1071等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。
次に、用語抽出装置の動作について図2から図7のフローチャートを用いて説明する。
【0048】
(ステップS201)元情報受付部102は、用語収集の元になる情報である元情報を受け付けたか否かを判断する。元情報を受け付ければステップS202に行き、元情報を受け付けなければステップS201に戻る。
【0049】
(ステップS202)情報関連度算出部103は、ステップS201で受け付けた元情報を用いて、情報群格納部101に格納されている2以上の情報群の情報関連度を、情報群ごとに算出する。かかる情報関連度を算出する処理である情報関連度算出処理の例について、図3のフローチャートを用いて詳細に説明する。
【0050】
(ステップS203)用語抽出部104は、情報群格納部101に格納されている2以上の情報群から1以上の用語を抽出する。ここで、抽出した用語が、出力される候補の用語である。かかる用語抽出処理の例について、図4のフローチャートを用いて詳細に説明する。
【0051】
(ステップS204)出現頻度情報取得部105は、ステップS203で抽出した1以上の各用語の、2以上の情報群における出現頻度に関する情報である出現頻度情報を用語ごとに取得する。かかる出現頻度情報取得処理の例について、図5のフローチャートを用いて詳細に説明する。
【0052】
(ステップS205)特殊性情報取得部106は、ステップS203で抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する。かかる特殊性情報取得処理の例について、図6のフローチャートを用いて詳細に説明する。
【0053】
(ステップS206)出力部107は、ステップS204で取得した出現頻度情報およびステップS205で取得した特殊性情報に基づいて、ステップS203で抽出した用語のうち、1以上の用語を出力する。かかる出力処理の例について、図7のフローチャートを用いて詳細に説明する。また、1以上の用語を出力した後、処理を終了する。
次に、ステップS202の情報関連度算出処理について図3のフローチャートを用いて説明する。
(ステップS301)第一形態素解析手段1031は、元情報を形態素解析し、1以上の形態素列を得る。
(ステップS302)第一機能語削除手段1032は、カウンタiに1を代入する。
【0054】
(ステップS303)第一機能語削除手段1032は、i番目の形態素が存在するか否かを判断する。i番目の形態素が存在すればステップS304に行き、i番目の形態素が存在しなければステップS307に行く。
【0055】
(ステップS304)第一機能語削除手段1032は、i番目の形態素が機能語であるか否かを判断する。i番目の形態素が機能語であればステップS305に行き、i番目の形態素が機能語でなければステップS306に行く。
(ステップS305)第一機能語削除手段1032は、i番目の形態素を元情報から削除する。
(ステップS306)第一機能語削除手段1032は、カウンタiを1、インクリメントする。そして、ステップS303に戻る。
【0056】
(ステップS307)ノード取得手段1033は、機能語削除手段1032により機能語が削除され、残った1以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である1以上のノードを取得する。対象形態素列が「特許法」の場合、ノード取得手段1033は、「特許」「法」「特許法」の3つのノードを取得する。
(ステップS308)ノード出現頻度算出手段1034は、カウンタiに1を代入する。
【0057】
(ステップS309)ノード出現頻度算出手段1034は、i番目のノードが存在するか否かを判断する。i番目のノードが存在すればステップS310に行き、i番目のノードが存在しなければステップS314に行く。
【0058】
(ステップS310)ノード出現頻度算出手段1034は、i番目のノード(文字列)が存在する各情報群における出現頻度を算出する。ここでの出現頻度は、例えば、ノード(文字列)が出現する情報群の数である、とする。
(ステップS311)ノードスコア算出手段1035は、i番目のノード(文字列)の形態素の数を取得する。
【0059】
(ステップS312)ノードスコア算出手段1035は、ステップS310で算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出する。ここでは、例えば、ノードスコア算出手段1035は、出現頻度とノードの形態素の数をパラメータとして、ノードスコアを算出する。
(ステップS313)ノードスコア算出手段1035は、カウンタiを1、インクリメントする。そして、ステップS309に戻る。
(ステップS314)情報関連度算出手段1036は、カウンタiに1を代入する。
【0060】
(ステップS315)情報関連度算出手段1036は、i番目の情報群が存在するか否かを判断する。i番目の情報群が存在すればステップS316に行き、i番目の情報群が存在しなければ上位関数にリターンする。
【0061】
(ステップS316)情報関連度算出手段1036は、i番目の情報群中に存在するすべてのノードを検出する。つまり、情報関連度算出手段1036は、全ノード中、i番目の情報群中に存在するノードと存在しないノードを区別する。
(ステップS317)情報関連度算出手段1036は、i番目の情報群中に存在しないすべてのノードの、i番目の情報群に対応するノードスコアを0とする。
【0062】
なお、ステップS316、ステップS317の処理は、ノードの数だけループを回し、当該ノードがi番目の情報群中に存在するか否かを判断し、存在しない場合に、当該ノードのノードスコア(i番目の情報群に対応するノードスコア)を0とする処理である。なお、ノードがi番目の情報群中に存在す場合、当該ノードのノードスコアは、ステップS312で算出したノードスコアとする。
【0063】
(ステップS318)情報関連度算出手段1036は、対象形態素列が完成する1以上のノードの1以上のノードスコアに基づいて、各情報群の情報関連度を算出する。情報関連度算出手段1036は、例えば、機能語を削除した元情報において、重ならないように、各ノードを連結したラティスを生成し、当該ラティスの先頭から末尾までのノードのスコアの和の最大値を、i番目の情報群の情報関連度とする。かかる場合、i番目の情報群に存在しないノードのノードスコアは「0」として、ノードのスコアの和の最大値を検出する。情報関連度算出手段1036は、かかる情報関連度を、動的計画法(DP)により、算出する。
(ステップS319)情報関連度算出手段1036は、カウンタiを1、インクリメントする。そして、ステップS315に戻る。
なお、図3のフローチャートにおいて、各情報群を形態素解析してから、情報関連度を算出しても良いことは言うまでもない。
次に、ステップS203の用語抽出処理について図4のフローチャートを用いて説明する。
(ステップS401)第二形態素解析手段1041は、カウンタiに1を代入する。
【0064】
(ステップS402)第二形態素解析手段1041は、i番目の未処理の情報群が、情報群格納部101に存在するか否かを判断する。i番目の未処理の情報群が存在すればステップS403に行き、i番目の未処理の情報群が存在しなければステップS416に行く。
(ステップS403)第二形態素解析手段1041は、i番目の未処理の情報群を情報群格納部101から読み出し、形態素解析の処理を行う。
(ステップS404)第二機能語削除手段1042は、カウンタjに1を代入する。
【0065】
(ステップS405)第二機能語削除手段1042は、ステップS403で形態素解析した情報群の中に、j番目の未処理の文節が存在するか否かを判断する。j番目の文節が存在すればステップS406に行き、j番目の文節が存在しなければステップS415に行く。なお、文章等を形態素解析した後に、文節を認定する処理は、公知技術であるので詳細な説明は省略する。
(ステップS406)第二機能語削除手段1042は、j番目の文節から機能語を削除する。なお、形態素解析された文節から機能語を削除する処理は公知技術である。
【0066】
(ステップS407)用語取得手段1043は、ステップS406で機能語が削除され、残った1以上の連続する形態素列のうち、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得する。なお、文節中に名詞を含まない場合、用語取得手段1043は、用語を取得しない。
(ステップS408)例外合致判断手段1045は、ステップS407で用語が取得できたか否かを判断する。用語が取得できればステップS409に行き、用語が取得できなければステップS412に行く。
(ステップS409)例外合致判断手段1045は、カウンタkに1を代入する。
【0067】
(ステップS410)例外合致判断手段1045は、k番目の例外ルールが例外ルール格納手段1044に格納されているか否かを判断する。k番目の例外ルールが存在すればステップS411に行き、k番目の例外ルールが存在しなければステップS414に行く。
【0068】
(ステップS411)例外合致判断手段1045は、ステップS407で取得した用語が、k番目の例外ルールが示す条件に合致するか否かを判断する。k番目の例外ルールが示す条件に合致すればステップS412に行き、合致しなければステップS413に行く。
(ステップS412)第二機能語削除手段1042は、カウンタjを1、インクリメントする。そして、ステップS405に行く。
(ステップS413)例外合致判断手段1045は、カウンタkを1、インクリメントする。そして、ステップS410に行く。
(ステップS414)用語取得手段1043は、ステップS407で取得した用語を登録する。ここで、登録とは、所定のバッファに書き込むことである。
(ステップS415)第二形態素解析手段1041は、カウンタiを1、インクリメントする。そして、ステップS402に戻る。
【0069】
(ステップS415)用語抽出部104は、登録した用語の中で、重複する用語を削除する。つまり、登録される用語は、ユニークである状態とする。そして、上位関数にリターンする。なお、重複する用語を削除する処理は、いつの段階で行っても良い。例えば、後述する用語スコアを算出した後に、重複する用語を削除する処理を行っても良い。
なお、図4のフローチャートにおいて、用語取得手段1043はステップS407で用語を取得した際に、まず用語を登録し、その後、例外ルールに合致する用語を、例外除去手段1046が削除しても良い。
次に、ステップS204の出現頻度情報取得処理について図5のフローチャートを用いて説明する。
(ステップS501)出現頻度算出手段1051は、カウンタiに1を代入する。
【0070】
(ステップS502)出現頻度算出手段1051は、用語抽出部104が抽出した用語の中で、i番目の用語が存在するか否かを判断する。i番目の用語が存在すればステップS503に行き、i番目の用語が存在しなければ上位関数にリターンする。
(ステップS503)出現頻度算出手段1051は、初期化を行う。初期化とは、カウンタjに1を代入し、変数「出現頻度情報」に「0」を代入することである。
【0071】
(ステップS504)出現頻度算出手段1051は、j番目の情報群が、情報群格納部101に存在するか否かを判断する。j番目の情報群が存在すればステップS505に行き、j番目の情報群が存在しなければステップS510に行く。
(ステップS505)出現頻度算出手段1051は、j番目の情報群中における、i番目の用語の出現頻度を取得する。ここで、j番目の情報群中にi番目の用語が5回出現すれば、出現頻度は「5」である。
(ステップS506)用語関連度情報算出手段1052は、j番目の情報群の情報関連度を読み出す。この情報関連度は、ステップS202で算出された情報関連度である。
【0072】
(ステップS507)用語関連度情報算出手段1052は、ステップS505で算出した出現頻度、およびステップS506で読み出した情報関連度に基づいて、中間スコアを算出する。この中間スコアは、情報群ごとに算出される用語の出現頻度に関する情報である。用語関連度情報算出手段1052は、例えば、「出現頻度×情報関連度」により、中間スコアを算出する。ただし、用語関連度情報算出手段1052は、例えば、「(出現頻度)×情報関連度」や、「(出現頻度)×(情報関連度)1/2」により、中間スコアを算出しても良い。つまり、用語関連度情報算出手段1052は、通常、出現頻度と情報関連度をパラメータとする増加関数により、中間スコアを算出する。
(ステップS508)用語関連度情報算出手段1052は、変数「出現頻度情報」に、ステップS507で算出した中間スコアを加算する。
(ステップS509)用語関連度情報算出手段1052は、カウンタjを1、インクリメントする。そして、ステップS504に戻る。
【0073】
(ステップS510)用語関連度情報算出手段1052は、i番目の用語の出現頻度情報を、i番目の用語に対応付けて登録する。なお、ここでの登録は、出現頻度情報を、i番目の用語に対応付けて記録することである。
(ステップS511)出現頻度算出手段1051は、カウンタiを1、インクリメントする。そして、ステップS502に戻る。
【0074】
なお、図5のフローチャートにおいて、各用語に対応する出現頻度情報が算出でき、少なくとも一時的に登録された。
次に、特殊性情報取得処理について図6のフローチャートを用いて説明する。
(ステップS601)情報群数取得手段1061は、カウンタiに1を代入する。
(ステップS602)情報群数取得手段1061は、i番目の用語が存在するか否かを判断する。i番目の用語が存在すればステップS603に行き、i番目の用語が存在しなければ上位関数にリターンする。
【0075】
(ステップS603)情報群数取得手段1061は、情報群格納部101に格納されている情報群に関する数である情報群数を、1種以上取得する。また、情報群数取得手段1061は、予め決められている1種以上の情報群数を取得する。
(ステップS604)頻度情報取得手段1062は、予め決められている1種以上の頻度情報を取得する。
【0076】
(ステップS605)特殊性情報算出手段1063は、ステップS603で取得した情報群数および、ステップS604で取得した頻度情報をパラメータとして、特殊性情報を算出する。特殊性情報算出手段1063は、頻度情報のみをパラメータとして、特殊性情報を算出しても良い。また、特殊性情報算出手段1063は、頻度情報が大きな値を示す(頻度が大きい)場合に、特殊性情報が小さい値(特殊である)になるように、特殊性情報を算出する。
【0077】
(ステップS606)特殊性情報算出手段1063は、ステップS605で算出した特殊性情報を、少なくとも一時的に登録する。特殊性情報算出手段1063は、i番目の用語に対応付けて、特殊性情報を記録する。
(ステップS607)特殊性情報算出手段1063は、カウンタiを1、インクリメントし、ステップS602に戻る。
次に、出力処理について図7のフローチャートを用いて説明する。
(ステップS701)用語スコア算出手段1071は、カウンタiに1を代入する。
【0078】
(ステップS702)用語スコア算出手段1071は、用語抽出部104が抽出した用語の中で、i番目の用語が存在するか否かを判断する。i番目の用語が存在すればステップS703に行き、i番目の用語が存在しなければステップS707に行く。
(ステップS703)用語スコア算出手段1071は、i番目の用語に対応する出現頻度情報を読み出す。
(ステップS704)用語スコア算出手段1071は、i番目の用語に対応する特殊性情報を読み出す。
【0079】
(ステップS705)用語スコア算出手段1071は、ステップS703で読み出した出現頻度情報と、ステップS704で読み出した特殊性情報をパラメータとして、i番目の用語に対応する用語スコアを算出する。用語スコア算出手段1071は、出現頻度情報と特殊性情報をパラメータとする増加関数により、用語スコアを算出する。用語スコア算出手段1071は、例えば、「出現頻度情報×特殊性情報」により、用語スコアを算出する。なお、用語スコア算出手段1071は、例えば、「(出現頻度情報)1/2×特殊性情報」により、用語スコアを算出しても良い。そして、用語スコア算出手段1071は、算出した用語スコアを、i番目の用語に対応付けて、少なくとも一時的に登録する。
(ステップS706)用語スコア算出手段1071は、カウンタiを1、インクリメントする。そして、ステップS702に戻る。
(ステップS707)ソート手段1072は、ステップS705で算出した用語スコアをキーに昇順(用語スコアが大きい用語を前)に、用語抽出部104が抽出した用語をソートする。
(ステップS708)出力手段1073は、ステップS707でソートされた順で、1以上の用語を出力する。そして、上位関数にリターンする。
以下、本実施の形態における用語抽出装置の具体的な動作について説明する。
【0080】
まず、本用語抽出装置の、代表的な一の目的について説明する。例えば、本用語抽出装置は、同時通訳者にとって有効な用語を抽出する装置である。そして、本用語抽出装置は、講演タイトルなどの元情報が与えられたときに、新聞記事の情報などの情報群から用語を収集し、同時通訳者等に資する装置として機能するものである。
【0081】
ここで、用語を4つの種類A,B,C,Dに分けた図を図8に示す。Aは講演に関連し、通訳者が訳せない用語、Bは講演に関連し、通訳者が訳せる用語、Cは講演に関連せず、通訳者が訳せる用語、Dは、講演に関連せず、通訳者が訳せない用語を示している。本用語抽出装置で収集目的としているのは、図8におけるAの部分である。また、例えば、本具体例において、情報群は、新聞記事の情報であり、一記事が一ファイルである。また、元情報は、講演のタイトルである。ここで、講演のタイトルは、「消費者契約法制定へ」である、とする。
【0082】
次に、本用語抽出装置の用語の自動抽出手法の概要について説明する。自動抽出手法の概要を図9に示す.本手法では、まず、情報関連度算出部103は、講演タイトル(元情報)と新聞の各記事(各情報群)との関連度を示す情報関連度を計算する。次に、用語抽出部104が新聞記事から用語を抽出し、情報関連度と用語の頻度分布を考慮して、用語の順位付けを行い、順位の上位の用語を出力する。
以下、かかる処理の詳細について述べる。
【0083】
まず、第一形態素解析手段1031は、タイトル「消費者契約法制定へ」を形態素解析する。また、第一形態素解析手段1031は、新聞記事を形態素解析しても良い。次に、形態素解析し、取得した形態素から、第一機能語削除手段1032は、機能語を削除する。その結果、「へ」は削除され、内容語の形態素「消費者契約法制定」のみが残る。次に、ノード取得手段1033は、後の処理の容易化のために、タイトルの前後に先頭と末尾を示すノードを追加する。ここで、先頭のノードは「^」、末尾のノードは「$」である、とする。さらに、タイトルにおいて任意の長さで連続する形態素列を1つのノードとし、位置関係が交差重複しないように各ノードを接続したラティスを生成する。その結果、ノード取得手段1033は、図10に示すラティスを得る。なお、ノード取得手段1033が取得した全ノードは、「消費」「者」「契約」「法」「制定」「消費者」「契約法」「者契約」「法制定」「消費者契約」「者契約法」「契約法制定」「消費者契約法」「者契約法制定」「消費者契約法制定」である。
次に、ノード出現頻度算出手段1034は、全ノードに対して、各ノードが含まれる記事数(DF)を取得する。ここでの記事数(DF)は、ノードの出現頻度とも言える。
【0084】
次に、ノードスコア算出手段1035は、各ノードの形態素数(m)を取得する。そして、ノードスコア算出手段1035は、記事数(DF)と形態素数(m)をパラメータとして、数式1により、ノードスコアを算出する。なお、数式1において、hは、定数であり、出現頻度の違いによるノードスコアに与える影響の大きさを調整するパラメータである。ノードスコア算出手段1035は、全ノードについて、数式1により、ノードスコアを算出する。なお、ノードスコア算出手段1035は、記事数(DF)が0のノードについては、ノードスコアを算出しない。つまり、記事数(DF)が0のノードについては、ノードが存在しないものとして、本用語抽出装置で扱う。また、数式1の「1/(DF+h)」の部分は、多くの文書(新聞記事)に出現する表現に対してスコアを小さくするための項である。
【数1】

【0085】
次に、情報関連度算出手段1036は、数式2により、各情報群の情報関連度を算出する。数式2は、ラティスの先頭から末尾までのノードのスコアの和の最大値を算出する式である。なお、数式2において、wは記事番号jの記事の情報関連度である。また、数式2は、動的計画法を利用して計算される。
【数2】

【0086】
以上の処理により、各新聞記事(情報群)に対して、情報関連度が算出された。そして、情報関連度算出部103は、算出した情報関連度を、各新聞記事(情報群)に対応付けて格納する。図11は、算出した情報関連度を管理する情報関連度管理表である。情報関連度管理表は、「情報群ID」「情報関連度」を有するレコードを1以上保持している。情報関連度管理表は、情報関連度算出部が生成する表であり、少なくとも一時的に記録媒体に存在する。
【0087】
次に、用語抽出部104は、以下のような処理により、2以上の新聞記事から1以上の用語を抽出する。まず、第二形態素解析手段1041は、2以上の新聞記事を形態素解析し、1以上の形態素列(文節)を得る。次に、第二機能語削除手段1042は、形態素解析し、得た各文節から、機能語を削除する。そして、用語取得手段1043は、機能語が削除され、残った1以上の連続する形態素列のうち、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得する。つまり、例えば、「世界貿易機構」という用語が存在する場合、「世界/貿易/機構」と3つの形態素からなっているが、形態素単位に分解して、「世界」と「貿易」と「機構」に分けるのではなく、連続した「世界貿易機構」を取得できるように、用語取得手段1043は、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得する。同様に、用語取得手段1043は、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得することにより、例えば、「立ち退き(動詞)料(名詞)」と解析された結果を1つの用語として抽出することができる。
【0088】
次に、例外ルール格納手段1044に、図12に示す例外ルール管理表が格納されている、とする。例外ルール管理表は、「ID」「例外ルール」を有するレコードを1以上保持している。図12において、例外ルール管理表は、「例」を有するが、「例」は説明の便宜のため存在する。通常、例外ルール格納手段1044は、「例」の情報は有さない。図12において、「D=1」の例外ルールは、「代名詞、または非自立の名詞、または副詞の可能性のある名詞、または人名の接尾氏となる名詞を除き、かつカタカナの場合は除かない」というルールである。また、「D=2」の例外ルールは、「未知語のうち、カタカナとアルファベットは名詞と見なし、それ以外は除く」というルールである。なお、未知語か否かを判断する処理は、公知技術である。また、「D=3」の例外ルールは、「ひらがなのみの形態素を除く」というルールである。また、「D=4」の例外ルールは、「数名詞+助数詞を除く」というルールである。かかるルールにより、「22日」「48%」などが除かれる。また、「D=5」の例外ルールは、「数のみの形態素からなる用語を除く」というルールである。また、「D=6」の例外ルールは、「記号を除く。ただし、カタカナ表現に囲まれた・は除かない」というルールである。かかるルールにより、「=」等は除かれる。また、「D=7」の例外ルールは、「固有名詞+接尾の後は用語を区切る」というルールである。かかるルールにより、「東京都渋谷区」は、「東京都」と「渋谷区」に区分される。したがって、例外除去手段1046は、用語を分割する処理も、場合によって行う。また、「D=8」の例外ルールは、「用語の先頭が接尾の場合は、その形態素を除く」というルールである。かかるルールにより、「東京都下」は、「東京都」になる。さらに、「D=9」の例外ルールは、「固有名詞+固有名詞以外+固有名詞の場合は、2番目の固有名詞の前で区切る」というルールである。かかるルールにより、「神戸地検姫路支部」は、「神戸地検」と「姫路支部」に区分される。なお、例外ルールの記載方法は、問わない。例外ルールは、用語抽出装置が処理できる情報であれば良い。
【0089】
例外合致判断手段1045は、用語取得手段1043が取得した用語に対して、図12の9つの例外ルールを適用する。そして、例外合致判断手段1045が、9つの例外ルールのすべてに適合しないと判断された用語のみ、最終的に抽出される。例外合致判断手段1045は、例えば、用語取得手段1043が取得した用語に対して「ID=1」の例外ルール「名詞−代名詞,名詞−非自立,名詞−副詞可能,名詞−接尾−人名を除く.ただしカタカナの場合は除かない.」を適用し、「これ」「こと」「今年」「氏」などの用語を、抽出対象の用語から除く。「これ」は「代名詞」である。「こと」は「非自立」である。「今年」は「副詞可能」である。「氏」は「接尾−人名」である。
そして、用語取得手段1043は、9つの例外ルールのすべてに適合しないと判断された用語のみ、最終的に抽出し、一時登録する。
【0090】
次に、用語抽出部104は、用語取得手段1043が登録した用語の中で、重複する用語を削除する。この処理により、同一の用語が2以上、登録されることを防止する。図13は、用語抽出部104が最終的に抽出した用語の例である。
次に、出現頻度情報取得部105は、以下に示す処理により、各用語の出現頻度情報を取得する。
【0091】
まず、出現頻度算出手段1051は、図13の各用語について、2以上の各新聞記事における出現頻度を算出する。そして、出現頻度算出手段1051は、図14の用語出現頻度表を得る。用語出現頻度表は、「ID」「用語」「情報群識別子」を有するレコードを1以上保持している。「情報群識別子」は、2以上の新聞記事を識別する情報(「記事1」「記事2」「記事3」等)である。用語出現頻度表は、各用語の各新聞記事における出現頻度を示す。図14において、「ダイオキシン情報」は、記事1には出現せず、記事2、3には、「1」回出現していることを示す。
【0092】
そして、次に、用語関連度情報算出手段1052は、各情報群(新聞記事)の情報関連度を、図11の表から読み出す。そして、用語関連度情報算出手段1052は、例えば、数式3により、出現頻度情報(l)を算出する。数式3において、jは記事番号、wは記事番号jの記事の情報関連度、tfは記事j中の用語の出現頻度、nは総記事数である。
【数3】

そして、用語関連度情報算出手段1052は、図15に示すような出現頻度情報管理表を得る。出現頻度情報管理表は、用語に対応する出現頻度情報を管理する表である。
次に、特殊性情報取得部106は、以下の処理により、用語抽出部104が抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する。
【0093】
まず、情報群数取得手段1061は、図16に示す特殊性情報取得表を保持している。特殊性情報取得表は、「i」「f」「N」を有するレコードを5つ保持している。「i」はレコードIDである。「f」は、1種以上の頻度情報を示す。「N」は、1種以上の情報群数を示す。
【0094】
特殊性情報算出手段1063は、数式4に従って、特殊性情報取得表に基づいて、特殊性情報を算出する。数式4において、「λ」は各要素の重み付けである。「N」に1を足しているのは、分母が0になるのを避けるためである。「λ」は、例えば、常に「1」でも良い。また、「λ」は、例えば、「1/情報群数」でも良い。
【数4】

【0095】
かかる場合、情報群数取得手段1061は、情報群格納部101に格納されている情報群(新聞記事)について、新聞記事中の総用語数、および新聞記事の数、および新聞記事の総日数、および新聞記事の総月数、および新聞記事の総カテゴリ数を取得する。また、頻度情報取得手段1062は、用語抽出部104が抽出した各用語について、当該各用語の出現頻度(全新聞記事中における出現回数)、および当該各用語を含む新聞記事数、および新聞記事が各用語を含む日数、および各用語を含む月数、および各用語を含むカテゴリ数を取得する。そして、特殊性情報算出手段1063は、数式4に従って、特殊性情報を算出する。そして、特殊性情報算出手段1063は、例えば、図17に示す用語特殊性情報管理表を得る。用語特殊性情報管理表は、各用語の特殊性情報を管理する表である。
次に、用語スコア算出手段1071は、各用語について、用語スコア(s)を、数式5により算出する。
【数5】

そして、ソート手段1072は、用語スコアをキーに昇順(用語スコアが大きい用語を前)に、用語抽出部104が抽出した用語をソートする。
次に、出力手段1073は、ソートされた順で、例えば、上位30語を出力する。かかる出力例が、図18である。
以上、本実施の形態によれば、講演タイトル等の元情報に関連のある用語を、新聞記事等の情報群から効果的に抽出できる。
なお、本実施の形態において、元情報は講演タイトルに限られないことは言うまでもない。また、情報群も新聞記事に限られないことは言うまでもない。
また、本実施の形態において、情報関連度を算出する方法、用語を抽出する方法、出現頻度情報を算出する方法や数式、特殊性情報を算出する方法や数式は、種々考えられる。
また、本実施の形態において、用語の出力は、例えば、日本語の用語だけではなく、日本語と英語の用語(訳)を対にして出力しても良い。かかる場合、用語抽出装置等は、日英辞書を保持している必要がある。
また、本実施の形態において、出力する用語は、日本語に限られないことは言うまでもない。出力する用語は、英語でも、中国語でも、韓国語(ハングル)でも、スペイン語等でも良い。
【0096】
また、本実施の形態において、情報関連度、および特殊性情報の算出に、IDFという従来技術を用いた場合の結果を、図19に示す。図19は、かかる従来技術における用語抽出装置の抽出例(上位30語)である。かかる図18、図19の比較により、本用語抽出装置の能力が認定できる。
【0097】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD−ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、用語収集の元になる情報である元情報を受け付ける元情報受付ステップと、前記元情報と、格納している2以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出ステップと、前記2以上の情報群から1以上の用語を抽出する用語抽出ステップと、前記用語抽出ステップで抽出した1以上の各用語の、前記2以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得ステップと、前記用語抽出ステップで抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得ステップと、前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出ステップで抽出した用語のうち、1以上の用語を出力する出力ステップを実行させるためのプログラム、である。
【0098】
また、上記プログラムにおける情報関連度算出ステップは、前記元情報を形態素解析し、1以上の形態素列を得る第一形態素解析ステップと、前記第一形態素解析ステップで得た1以上の形態素列から、機能語を削除する第一機能語削除ステップと、前記機能語削除ステップにより機能語が削除され、残った1以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である1以上のノードを取得するノード取得ステップと、前記ノード取得ステップで取得した1以上のノードの、2以上の各情報群における出現頻度を算出するノード出現頻度算出ステップと、前記ノード出現頻度算出ステップで算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出するノードスコア算出ステップと、対象形態素列が完成する1以上のノードの1以上のノードスコアに基づいて、各情報群の情報関連度を算出する情報関連度算出ステップを具備することは好適である。
【0099】
また、上記プログラムにおける用語抽出ステップは、前記2以上の情報群を形態素解析し、1以上の形態素列を得る第二形態素解析ステップと、前記第二形態素解析ステップで得た1以上の形態素列から、機能語を削除する第二機能語削除ステップと、前記第二機能語削除ステップにより機能語が削除され、残った1以上の連続する形態素列のうち名詞を最終の語とする、1以上の連続する語を用語として取得する用語取得ステップとを具備することは好適である。
【0100】
また、上記プログラムにおける用語抽出ステップは、前記用語取得ステップで取得した形態素列が、格納している例外ルールが示す条件に合致するか否かを判断する例外合致判断ステップと、前記用語取得ステップで取得した用語のうち、前記例外合致判断ステップで前記例外ルールに合致すると判断した形態素列を除く例外除去ステップをさらに具備することは好適である。
【0101】
また、上記プログラムにおける出現頻度情報取得ステップは、前記用語抽出ステップで抽出した1以上の各用語について、前記2以上の各情報群における1以上の出現頻度を算出する出現頻度算出ステップと、前記出現頻度算出ステップで算出した前記2以上の各情報群における出現頻度と、出現頻度に対応する前記2以上の各情報群の前記情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する用語関連度情報算出ステップとを具備することは好適である。
【0102】
また、上記プログラムにおける特殊性情報取得ステップは、前記情報群に関する数である情報群数を取得する情報群数取得ステップと、前記用語抽出ステップで抽出した各用語について、前記情報群に出現する数に関する情報である頻度情報を取得する頻度情報取得ステップと、前記情報群数および前記頻度情報をパラメータとして、特殊性情報を算出する特殊性情報算出ステップを具備することは好適である。
【0103】
また、上記プログラムにおける前記情報群は、1以上のカテゴリに分類される新聞記事の情報であり、前記情報群数は、前記情報群中の総用語数、または/および情報群の数、または/および前記新聞記事の総日数、または/および前記新聞記事の総月数、または/および前記新聞記事の総カテゴリ数であり、前記頻度情報は、抽出した各用語について、当該各用語の出現頻度、または/および当該各用語を含む情報群数、または/および当該各用語を含む日数、または/および当該各用語を含む月数、または/および当該各用語を含むカテゴリ数であることは好適である。
【0104】
また、上記プログラムにおける出力ステップは、各用語について、前記出現頻度情報および前記特殊性情報をパラメータとして用語スコアを算出する用語スコア算出ステップと、前記用語スコア算出ステップで算出した用語スコアに基づいて、前記用語抽出ステップで抽出した用語を並べるソートステップと、前記ソートステップでソートされた順で、1以上の用語を出力する出力ステップを具備することは好適である。
【0105】
また、上記で述べた用語抽出装置は、用語集を製造する装置である、と言える。つまり、本用語抽出装置は、用語収集の元になる情報である元情報を受け付ける元情報受付ステップと、前記元情報と格納している2以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出ステップと、前記2以上の情報群から1以上の用語を抽出する用語抽出ステップと、前記用語抽出ステップで抽出した1以上の各用語の、前記2以上の情報群における出現頻度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得ステップと、前記用語抽出ステップで抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得ステップと、前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出ステップで抽出した用語のうち、1以上の用語を蓄積する蓄積ステップを具備する用語集の製造方法を実施する装置である。
【0106】
また、上記各実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0107】
また、図20は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図20は、このコンピュータシステム300の概観図であり、図21は、システム300のブロック図である。
【0108】
図20において、コンピュータシステム300は、FD(Flexible Disk)ドライブ、CD−ROM(Compact Disk Read Only Memory)ドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
【0109】
図21において、コンピュータ301は、FDドライブ3011、CD−ROMドライブ3012に加えて、CPU(Central Processing Unit)3013と、CPU3013、CD−ROMドライブ3012及びFDドライブ3011に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM(Read−Only Memory)3015と、CPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM(Random Access Memory)3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0110】
コンピュータシステム300に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、CD−ROM3101、またはFD3102に記憶されて、CD−ROMドライブ3012またはFDドライブ3011に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD−ROM3101、FD3102またはネットワークから直接、ロードされても良い。
【0111】
プログラムは、コンピュータ301に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する2以上の通信手段(情報送信部など)は、物理的に一の媒体で実現されても良いことは言うまでもない。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0112】
以上のように、本発明にかかる用語抽出装置は、講演タイトル等の元情報に関連のある用語を、新聞記事等の情報群から効果的に抽出できるという効果を有し、用語抽出装置等として有用である。
【図面の簡単な説明】
【0113】
【図1】実施の形態1における用語抽出装置のブロック図
【図2】同用語抽出装置の動作について説明するフローチャート
【図3】同情報関連度算出処理について説明するフローチャート
【図4】同用語抽出処理について説明するフローチャート
【図5】同出現頻度情報取得処理について説明するフローチャート
【図6】同特殊性情報取得処理について説明するフローチャート
【図7】同出力処理について説明するフローチャート
【図8】同用語抽出装置の目的について説明する図
【図9】同自動抽出手法の概要を説明する図
【図10】同ノード取得手段が取得するノードおよびラティスを説明する図
【図11】同情報関連度管理表を示す図
【図12】同例外ルール管理表を示す図
【図13】同抽出した用語の例を示す図
【図14】同用語出現頻度表を示す図
【図15】同出現頻度情報管理表を示す図
【図16】同特殊性情報取得表を示す図
【図17】同用語特殊性情報管理表を示す図
【図18】同出力例を示す図
【図19】同従来技術を用いた場合の用語の出力結果を示す図
【図20】同情報処理装置を示す図
【図21】同システムを示す図
【符号の説明】
【0114】
101 情報群格納部
102 元情報受付部
103 情報関連度算出部
104 用語抽出部
105 出現頻度情報取得部
106 特殊性情報取得部
107 出力部
1031 第一形態素解析手段
1032 第一機能語削除手段
1033 ノード取得手段
1034 ノード出現頻度算出手段
1035 ノードスコア算出手段
1036 情報関連度算出手段
1041 第二形態素解析手段
1042 第二機能語削除手段
1043 用語取得手段
1044 例外ルール格納手段
1045 例外合致判断手段
1046 例外除去手段
1051 出現頻度算出手段
1052 用語関連度情報算出手段
1061 情報群数取得手段
1062 頻度情報取得手段
1063 特殊性情報算出手段
1071 用語スコア算出手段
1072 ソート手段
1073 出力手段

【特許請求の範囲】
【請求項1】
2以上の情報群を格納している情報群格納部と、
用語収集の元になる情報である元情報を受け付ける元情報受付部と、
前記元情報と前記2以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出部と、
前記2以上の情報群から1以上の用語を抽出する用語抽出部と、
前記用語抽出部が抽出した1以上の各用語の、前記2以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得部と、
前記用語抽出部が抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得部と、
前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出部が抽出した用語のうち、1以上の用語を出力する出力部を具備する用語抽出装置。
【請求項2】
前記情報関連度算出部は、
前記元情報を形態素解析し、1以上の形態素列を得る第一形態素解析手段と、
前記第一形態素解析手段が得た1以上の形態素列から、機能語を削除する第一機能語削除手段と、
前記機能語削除手段により機能語が削除され、残った1以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である1以上のノードを取得するノード取得手段と、
前記ノード取得手段が取得した1以上のノードの、2以上の各情報群における出現頻度を算出するノード出現頻度算出手段と、
前記ノード出現頻度算出手段が算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出するノードスコア算出手段と、
対象形態素列が完成する1以上のノードの1以上のノードスコアに基づいて、各情報群の情報関連度を算出する情報関連度算出手段を具備する請求項1記載の用語抽出装置。
【請求項3】
前記出現頻度情報取得部は、
前記用語抽出部が抽出した1以上の各用語について、前記2以上の各情報群における1以上の出現頻度を算出する出現頻度算出手段と、
前記出現頻度算出手段が算出した前記2以上の各情報群における出現頻度と、出現頻度に対応する前記2以上の各情報群の前記情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する用語関連度情報算出手段とを具備する請求項1記載の用語抽出装置。
【請求項4】
前記特殊性情報取得部は、
前記情報群に関する数である情報群数を取得する情報群数取得手段と、
前記用語抽出部が抽出した各用語について、前記情報群に出現する数に関する情報である頻度情報を取得する頻度情報取得手段と、
前記情報群数および前記頻度情報をパラメータとして、特殊性情報を算出する特殊性情報算出手段を具備する請求項1記載の用語抽出装置。
【請求項5】
前記情報群は、1以上のカテゴリに分類される新聞記事の情報であり、
前記情報群数は、前記情報群中の総用語数、または/および情報群の数、または/および前記新聞記事の総日数、または/および前記新聞記事の総月数、または/および前記新聞記事の総カテゴリ数であり、
前記頻度情報は、抽出した各用語について、当該各用語の出現頻度、または/および当該各用語を含む情報群数、または/および当該各用語を含む日数、または/および当該各用語を含む月数、または/および当該各用語を含むカテゴリ数である請求項4記載の用語抽出装置。
【請求項6】
コンピュータに、
用語収集の元になる情報である元情報を受け付ける元情報受付ステップと、
前記元情報と格納している2以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出ステップと、
前記2以上の情報群から1以上の用語を抽出する用語抽出ステップと、
前記用語抽出ステップで抽出した1以上の各用語の、前記2以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得ステップと、
前記用語抽出ステップで抽出した1以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得ステップと、
前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出ステップで抽出した用語のうち、1以上の用語を出力する出力ステップを実行させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate


【公開番号】特開2007−79652(P2007−79652A)
【公開日】平成19年3月29日(2007.3.29)
【国際特許分類】
【出願番号】特願2005−263137(P2005−263137)
【出願日】平成17年9月12日(2005.9.12)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 2005年3月15日 言語処理学会発行の「言語処理学会第11回年次大会 発表論文集」に発表
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成17年度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第30条の適用を受ける特許出願
【出願人】(393031586)株式会社国際電気通信基礎技術研究所 (905)
【Fターム(参考)】