用語抽出装置、およびプログラム

【課題】従来の用語抽出装置において、同時翻訳に有用な用語を抽出できない、と言う課題があった。
【解決手段】用語収集の元になる情報である元情報を受け付ける元情報受付部と、元情報と、格納している２以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出部と、２以上の情報群から１以上の用語を抽出する用語抽出部と、用語抽出部が抽出した１以上の各用語の、２以上の情報群における出現頻度と情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得部と、用語抽出部が抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得部と、出現頻度情報および特殊性情報に基づいて、用語抽出部が抽出した用語のうち、１以上の用語を出力する出力部を具備する用語抽出装置により、同時翻訳に有用な用語を抽出できる。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、翻訳等で利用するための用語を抽出する用語抽出装置等に関するものである。
【背景技術】
【０００２】
例えば、講演の原稿は事前に入手できず、講演のタイトルのみが事前に得られ、かかる状況において同時通訳を行わねばならない場合がある。通常、同時通訳者は、通訳する話の中に専門用語が含まれると想定される場合には、専門用語の対訳用語集を事前に作成し、記憶してから通訳に臨む。同時通訳では、原言語の音声を聞いてから、通訳するまでの時間がきわめて限られているという時間的制約がある。このため、辞書や用語集などの資料は、通訳している最中には基本的に利用することはできない。そのため、記憶している情報が重要となる。
【０００３】
そこで、かかる通訳者を支援の方法としては、用語集を作成するために有用な情報を網羅的にそして適切に順位付けして提示することが効果的である。通訳者は、その情報から必要な用語と訳語を認識し、用語の意味を理解し、最終的に自分が記憶しやすい形に再編集して独自の用語集を作成する。そのためには、用語とその訳語だけではなく、用語の簡潔な説明や、関連性の高い語彙とその関係なども同時に提供することが有用である。
【０００４】
一方、従来の用語抽出装置において、専門用語の抽出を自動的に行う用語抽出装置がある（例えば、特許文献１参照）。かかる用語抽出装置は、原言語と目的言語の単語対応データを自動的に作成する装置であった、原言語と目的言語のテキストから予め文間の対応付けを行った対訳コーパスを利用し、該対訳コーパスから対応データを読み込む手段と、読み込んだ該対応データに対し、原言語の単語と目的言語の単語との尤度による対応付けを行うことを特徴とする。
【特許文献１】特開平７−２８８１９号公報（第１頁、第１図等）
【発明の開示】
【発明が解決しようとする課題】
【０００５】
しかしながら、従来の用語抽出装置においては、用語抽出の対象となる新聞記事等の情報群から、用語収集の元になる情報である元情報（例えば、講演のタイトル）に関連の深い用語を精度高く抽出することができない、という課題があった。
【０００６】
さらに具体的には、従来の用語抽出装置においては、元情報と情報群の関連度を考慮して用語を抽出したり、一般用語を除き、特殊な用語を中心に抽出したりすることができなかったので、通訳者が真に必要な用語を効果的に抽出することができなかった。
【課題を解決するための手段】
【０００７】
本第一の発明の用語抽出装置は、２以上の情報群を格納している情報群格納部と、用語収集の元になる情報である元情報を受け付ける元情報受付部と、前記元情報と前記２以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出部と、前記２以上の情報群から１以上の用語を抽出する用語抽出部と、前記用語抽出部が抽出した１以上の各用語の、前記２以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得部と、前記用語抽出部が抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得部と、前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出部が抽出した用語のうち、１以上の用語を出力する出力部を具備する用語抽出装置である。
【０００８】
かかる構成により、元情報（例えば、講演のタイトル）と情報群（例えば、新聞記事）の関連度を考慮して用語を抽出したり、一般用語を除き、特殊な用語を中心に抽出したりすることができる。したがって、元情報に関連の深い用語を精度高く抽出できる。
【０００９】
また、本第二の発明の用語抽出装置は、第一の発明に対して、前記情報関連度算出部は、前記元情報を形態素解析し、１以上の形態素列を得る第一形態素解析手段と、前記第一形態素解析手段が得た１以上の形態素列から、機能語を削除する第一機能語削除手段と、前記機能語削除手段により機能語が削除され、残った１以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である１以上のノードを取得するノード取得手段と、前記ノード取得手段が取得した１以上のノードの、２以上の各情報群における出現頻度を算出するノード出現頻度算出手段と、前記ノード出現頻度算出手段が算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出するノードスコア算出手段と、対象形態素列が完成する１以上のノードの１以上のノードスコアに基づいて、各情報群の情報関連度を算出する情報関連度算出手段を具備する用語抽出装置である。
かかる構成により、特に、元情報（例えば、講演のタイトル）と情報群（例えば、新聞記事）の関連度を十分に考慮して用語を抽出できる。
【００１０】
また、本第三の発明の用語抽出装置は、第一の発明に対して、前記用語抽出部は、前記２以上の情報群を形態素解析し、１以上の形態素列を得る第二形態素解析手段と、前記第二形態素解析手段が得た１以上の形態素列から、機能語を削除する第二機能語削除手段と、前記第二機能語削除手段により機能語が削除され、残った１以上の連続する形態素列のうち名詞を最終の語とする、１以上の連続する語を用語として取得する用語取得手段とを具備する用語抽出装置である。
かかる構成により、不要な用語を除いた用語抽出ができる。
【００１１】
また、本第四の発明の用語抽出装置は、第三の発明に対して、前記用語抽出部は、抽出する用語から、所定の用語を除くルールであり、形態素列が満たす条件を示すルールである例外ルールを格納している例外ルール格納手段と、前記用語取得手段が取得した形態素列が、前記例外ルールが示す条件に合致するか否かを判断する例外合致判断手段と、前記用語取得手段が取得した用語のうち、前記例外合致判断手段が前記例外ルールに合致すると判断した形態素列を除く例外除去手段をさらに具備する用語抽出装置である。
かかる構成により、さらに、不要な語を除いた用語抽出ができる。
【００１２】
また、本第五の発明の用語抽出装置は、第一の発明に対して、前記出現頻度情報取得部は、前記用語抽出部が抽出した１以上の各用語について、前記２以上の各情報群における１以上の出現頻度を算出する出現頻度算出手段と、前記出現頻度算出手段が算出した前記２以上の各情報群における出現頻度と、出現頻度に対応する前記２以上の各情報群の前記情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する用語関連度情報算出手段とを具備する用語抽出装置である。
かかる構成により、元情報に関連の深い用語を抽出できる。
【００１３】
また、本第六の発明の用語抽出装置は、第一の発明に対して、前記特殊性情報取得部は、前記情報群に関する数である情報群数を取得する情報群数取得手段と、前記用語抽出部が抽出した各用語について、前記情報群に出現する数に関する情報である頻度情報を取得する頻度情報取得手段と、前記情報群数および前記頻度情報をパラメータとして、特殊性情報を算出する特殊性情報算出手段を具備する用語抽出装置である。
かかる構成により、通訳者が知っているであろう一般的な用語を除き、特殊な用語を抽出できる。
【００１４】
また、本第七の発明の用語抽出装置は、第６の発明に対して、前記情報群は、１以上のカテゴリに分類される新聞記事の情報であり、前記情報群数は、前記情報群中の総用語数、または／および情報群の数、または／および前記新聞記事の総日数、または／および前記新聞記事の総月数、または／および前記新聞記事の総カテゴリ数であり、前記頻度情報は、抽出した各用語について、当該各用語の出現頻度、または／および当該各用語を含む情報群数、または／および当該各用語を含む日数、または／および当該各用語を含む月数、または／および当該各用語を含むカテゴリ数である用語抽出装置である。
かかる構成により、通訳者が知っているであろう一般的な用語を除き、特殊な用語を抽出できる。
【００１５】
また、本第八の発明の用語抽出装置は、第一の発明に対して、前記出力部は、各用語について、前記出現頻度情報および前記特殊性情報をパラメータとして用語スコアを算出する用語スコア算出手段と、前記用語スコア算出手段が算出した用語スコアに基づいて、前記用語抽出部が抽出した用語を並べるソート手段と、前記ソート手段でソートされた順で、１以上の用語を出力する出力手段を具備する用語抽出装置である。
かかる構成により、抽出した用語を、通訳者等に対して効果的に出力できる。
【発明の効果】
【００１６】
本発明による用語抽出装置によれば、講演タイトル等の元情報に関連のある用語を、新聞記事等の情報群から効果的に抽出できる。
【発明を実施するための最良の形態】
【００１７】
以下、用語抽出装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
（実施の形態１）
図１は、本実施の形態における用語抽出装置のブロック図である。
本用語抽出装置は、情報群格納部１０１、元情報受付部１０２、情報関連度算出部１０３、用語抽出部１０４、出現頻度情報取得部１０５、特殊性情報取得部１０６、出力部１０７を具備する。
【００１８】
情報関連度算出部１０３は、第一形態素解析手段１０３１、第一機能語削除手段１０３２、ノード取得手段１０３３、ノード出現頻度算出手段１０３４、ノードスコア算出手段１０３５、情報関連度算出手段１０３６を具備する。
用語抽出部１０４は、第二形態素解析手段１０４１、第二機能語削除手段１０４２、用語取得手段１０４３、例外ルール格納手段１０４４、例外合致判断手段１０４５、例外除去手段１０４６を具備する。
出現頻度情報取得部１０５は、出現頻度算出手段１０５１、用語関連度情報算出手段１０５２を具備する。
特殊性情報取得部１０６は、情報群数取得手段１０６１、頻度情報取得手段１０６２、特殊性情報算出手段１０６３を具備する。
出力部１０７は、用語スコア算出手段１０７１、ソート手段１０７２、出力手段１０７３を具備する。
【００１９】
また、元情報受付部１０２、例えば、キーボード３０２、マウス３０３等の入力手段から、元情報を受け付ける。さらに、出力部１０７は、例えば、モニタ３０４に情報を出力する。なお、モニタ３０４は、以下、ディスプレイとも言う。
【００２０】
情報群格納部１０１は、２以上の情報群を格納している。情報群とは、例えば、新聞記事の情報である。また、情報群とは、例えば、ホームページの情報（例えば、いわゆるブログ）や、電子メール（メールマガジンを含む）等の情報である。一の情報群は、例えば、一のファイルである。ただし、一の情報群は、例えば、一のデータベースや、データベース中の一のレコード等でも良い。また、情報群は、例えば、テキスト形式である。なお、情報群のデータ形式は問わない。また、情報群は、例えば、完全な文章になっていなくても良い。情報群格納部１０１は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。情報群格納部１０１が、揮発性の記録媒体の場合、情報群の実体は、例えば、用語抽出装置の外部の装置に存在する。また、かかる場合、外部の装置は、２以上でも良い。
【００２１】
元情報受付部１０２は、用語収集の元になる情報である元情報を受け付ける。元情報は、例えば、講演や論文やテレビ番組やラジオ番組などのタイトルの情報である。また、元情報は、文章であっても、１以上の単語集等であっても良い。元情報は、通常、文字列の情報である。元情報の入力手段は、テンキーやキーボードやマウスやメニュー画面によるもの等、何でも良い。元情報受付部１０２は、テンキーやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【００２２】
情報関連度算出部１０３は、元情報（例えば、講演のタイトル）と２以上の各情報群との関連度である情報関連度を、情報群ごとに算出する。情報関連度算出部１０３が情報関連度を算出するアルゴリズムの具体例は後述する。情報関連度算出部１０３は、通常、ＭＰＵやメモリ等から実現され得る。情報関連度算出部１０３の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
第一形態素解析手段１０３１は、元情報を形態素解析し、１以上の形態素列を得る。形態素解析は公知技術であるので詳細な説明は省略する。
【００２３】
第一機能語削除手段１０３２は、第一形態素解析手段１０３１が得た１以上の形態素列から、機能語を削除する。機能語は、内容語ではない語であり、それ自体で特有の意味を有さない語である。機能語は、例えば、助詞である。第一形態素解析手段１０３１は、元情報を語に分割し、当該語の品詞の情報を取得するので、第一機能語削除手段１０３２は、当該品詞の情報から、機能語に対応する品詞（例えば、助詞など）の語を決定し、当該決定した語を削除する処理を行う。ここで、「削除」とは、実態的に消去する必要はなく、機能語と内容語を区別する処理を行えば良い。区別する処理とは、例えば、機能語にはフラグ「０」を付与し、内容語にはフラグ「１」を付与する等の処理である。
【００２４】
ノード取得手段１０３３は、第一機能語削除手段１０３２により機能語が削除され、残った１以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である１以上のノードを取得する。なお、ノードは、文字列である。対象形態素列が、例えば、「特許法」である場合、ノード取得手段１０３３は、「特許」「法」「特許法」の３つのノードを取得する。
【００２５】
ノード出現頻度算出手段１０３４は、ノード取得手段１０３３が取得した１以上のノードの、２以上の各情報群における出現頻度を算出する。ここでの出現頻度は、例えば、ノード（文字列）が出現する情報群の数である。したがって、一の情報群に２回以上、ノード（文字列）が出現した場合でも、ここでの出現頻度には、「１」が加算されるだけである。なお、ここでの出現頻度は、例えば、全情報群中にノード（文字列）が出現する回数でも良い。文字列であるノードの、情報群における出現頻度を算出する処理は、公知技術であるので詳細な説明は省略する。
【００２６】
ノードスコア算出手段１０３５は、ノード出現頻度算出手段１０３４が算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出する。例えば、ノードスコア算出手段１０３５は、各情報群に対して、各ノードの出現頻度と、各ノードの形態素の数をパラメータとして、ノードスコアを算出する。ノードスコア算出手段１０３５は、各情報群に対して、各ノードの出現頻度をパラメータとする減少関数であり、かつ各ノードの形態素の数をパラメータとする増加関数により、ノードスコアを算出する。
【００２７】
情報関連度算出手段１０３６は、対象形態素列が完成する１以上のノードの１以上のノードスコアに基づいて、各情報群の情報関連度を算出する。情報関連度算出手段１０３６は、例えば、元情報において、重ならないように、各ノードを連結したラティスを生成し、当該ラティスの先頭から末尾までのノードのスコアの和の最大値を、情報関連度とする。情報関連度算出手段１０３６は、かかる情報関連度を、動的計画法（ＤＰ）により、算出する。
【００２８】
第一形態素解析手段１０３１、第一機能語削除手段１０３２、ノード取得手段１０３３、ノード出現頻度算出手段１０３４、ノードスコア算出手段１０３５、情報関連度算出手段１０３６は、通常、ＭＰＵやメモリ等から実現され得る。第一形態素解析手段１０３１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００２９】
用語抽出部１０４は、２以上の情報群から１以上の用語を抽出する。用語抽出部１０４は、例えば、情報群を形態素解析し、かつ機能語を削除して、残った内容語を用語として抽出する。用語抽出部１０４は、例えば、情報群を形態素解析し、名詞のみを用語として抽出しても良い。その他、用語抽出部１０４における用語の抽出方法は問わない。用語抽出部１０４が、用語を抽出する方法の具体例は、後述する。用語抽出部１０４は、通常、ＭＰＵやメモリ等から実現され得る。用語抽出部１０４の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
第二形態素解析手段１０４１は、２以上の情報群を形態素解析し、１以上の形態素列を得る。第二形態素解析手段１０４１は、第一形態素解析手段１０３１と同一の手段であり、物理的に一の手段でも良い。
【００３０】
第二機能語削除手段１０４２は、第二形態素解析手段１０４１が得た１以上の形態素列から、機能語を削除する。第二機能語削除手段１０４２は、第一機能語削除手段１０３２と同一の手段であり、物理的に一の手段でも良い。
【００３１】
用語取得手段１０４３は、第二機能語削除手段１０４２により機能語が削除され、残った１以上の連続する形態素列のうち名詞を最終の語とする、１以上の連続する語を用語として取得する。ただし、用語取得手段１０４３は、全名詞を独立に取得しても良い。
【００３２】
例外ルール格納手段１０４４は、抽出する用語から、所定の用語を除くルールであり、形態素列が満たす条件を示すルールである例外ルールを格納している。例外ルールは、例えば、「代名詞であり、かつカタカナでない」、「非自立の名詞であり、かつカタカナでない」などを示す情報である。例外ルールの記載方法、データ構造等は問わない。例外ルールの他の例は、後述する。例外ルール格納手段１０４４は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
例外合致判断手段１０４５は、用語取得手段１０４３が取得した形態素列（用語）が、例外ルールが示す条件に合致するか否かを判断する。
【００３３】
例外除去手段１０４６は、用語取得手段１０４３が取得した用語のうち、例外合致判断手段１０４５が例外ルールに合致すると判断した形態素列を除く。ここで、「除く」とは、例外ルールに合致すると判断した形態素列（用語）を、最終的に出力対象の用語として、抽出しないことである。例外除去手段１０４６は、具体的な処理を行う必要は必ずしもなく、例外ルールに合致すると判断した形態素列（用語）を、最終的に出力対象の用語として、抽出しなければ良い。
【００３４】
第二形態素解析手段１０４１、第二機能語削除手段１０４２、用語取得手段１０４３、例外合致判断手段１０４５、例外除去手段１０４６は、通常、ＭＰＵやメモリ等から実現され得る。第二形態素解析手段１０４１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００３５】
出現頻度情報取得部１０５は、用語抽出部１０４が抽出した１以上の各用語の、２以上の情報群における出現頻度と情報関連度に関する情報である出現頻度情報を用語ごとに取得する。用語関連度情報とは、情報関連度と、情報群中の出現頻度とをパラメータとして、算出される値である。出現頻度情報取得部１０５は、例えば、情報関連度と出現頻度とをパラメータとする増加関数により、出現頻度情報を用語ごとに取得する。出現頻度情報取得部１０５は、通常、ＭＰＵやメモリ等から実現され得る。出現頻度情報取得部１０５の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００３６】
出現頻度算出手段１０５１は、用語抽出部１０４が抽出した１以上の各用語について、２以上の各情報群における出現頻度を取得する。出現頻度算出手段１０５１は、各情報群のそれぞれに対応して、用語の出現頻度（出現回数）を取得する。
【００３７】
用語関連度情報算出手段１０５２は、出現頻度算出手段１０５１が算出した２以上の各情報群における出現頻度と、出現頻度に対応する２以上の各情報群の情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する。ここで、用語関連度情報算出手段１０５２が算出する出現頻度情報は、用語関連度情報と同意義である。
【００３８】
出現頻度算出手段１０５１、用語関連度情報算出手段１０５２は、通常、ＭＰＵやメモリ等から実現され得る。出現頻度算出手段１０５１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００３９】
特殊性情報取得部１０６は、用語抽出部１０４が抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する。特殊性情報は、着目している用語が、あまり使用されない用語であるか、一般的に良く使用される用語であるかを示す情報であり、その形式等は問わない。特殊性情報取得部１０６は、通常、ＭＰＵやメモリ等から実現され得る。特殊性情報取得部１０６の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００４０】
情報群数取得手段１０６１は、情報群に関する数である情報群数を取得する。情報群数は、例えば、情報群中の総用語数、または／および情報群の数である。また、情報群が１以上のカテゴリに分類される新聞記事の情報である場合、情報群数は、例えば、新聞記事の総日数、または／および新聞記事の総月数、または／および新聞記事の総カテゴリ数である。情報群数の形式、データ構造等は問わない。情報群数取得手段１０６１が行う処理は、既存の形態素解析等の処理や文字列処理等により実現可能であるので、詳細な説明は省略する。
【００４１】
頻度情報取得手段１０６２は、用語抽出部１０４が抽出した各用語について、情報群に出現する数に関する情報である頻度情報を取得する。頻度情報は、例えば、抽出した各用語について、当該各用語の出現頻度（全情報群中における出現回数）、または／および当該各用語を含む情報群数である。また、情報群が１以上のカテゴリに分類される新聞記事の情報である場合、頻度情報は、例えば、各用語を含む日数、または／および各用語を含む月数、または／および各用語を含むカテゴリ数である。なお、情報群数は、予め格納されている情報であっても良い。かかる場合、情報群数取得手段１０６１は、情報群数を読み出す。また、情報群数取得手段１０６１は、情報群格納部１０１に格納されている情報群を読み出し、情報群数を算出しても良い。例えば、情報群数が、情報群中の総用語数である場合、情報群数取得手段１０６１は、全情報群を形態素解析し、用語に区分し、用語の数を算出する処理を行う。また、情報群が１以上のカテゴリに分類される新聞記事の情報であり、情報群数は、例えば、新聞記事の総日数である場合、情報群数取得手段１０６１は、新聞記事の情報が保持している属性値「発行日」を取り出し、かかる「発行日」の情報をソートして、ユニークの処理を行い、新聞記事の総日数の情報を取得する。その他、情報群数取得手段１０６１は、情報群数によって、適切な処理を行い、情報群数を取得する。
【００４２】
特殊性情報算出手段１０６３は、情報群数および頻度情報をパラメータとして、特殊性情報を算出する。特殊性情報算出手段１０６３は、例えば、情報群数をパラメータとする関数であり、頻度情報をパラメータとする減少関数である関数により、特殊性情報を算出する。特殊性情報算出手段１０６３が特殊性情報を算出する式等の詳細については、後述する。特殊性情報のデータ構造等は問わない。
【００４３】
情報群数取得手段１０６１、頻度情報取得手段１０６２、特殊性情報算出手段１０６３は、通常、ＭＰＵやメモリ等から実現され得る。情報群数取得手段１０６１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
【００４４】
出力部１０７は、出現頻度情報および特殊性情報に基づいて、用語抽出部１０４が抽出した用語のうち、１以上の用語を出力する。出力部１０７は、用語抽出部１０４が抽出した用語のすべてを出力しても良いし、出現頻度情報および特殊性情報が所定の条件を満たす用語のみを出力しても良いし、出現頻度情報および特殊性情報が所定の条件を満し、かつ出現頻度情報および特殊性から算出される値（後述する用語スコア）で用語をソートし、例えば、上位５０の用語のみ出力しても良い。その他、出力部１０７における用語の出力態様は問わない。ここで、出力とは、ディスプレイへの表示、プリンタへの印字、音出力、外部の装置への送信等を含む概念である。出力部１０７は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部１０７は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【００４５】
用語スコア算出手段１０７１は、各用語について、出現頻度情報および特殊性情報をパラメータとして用語スコアを算出する。用語スコア算出手段１０７１が、いかに出現頻度情報および特殊性情報を用いて、用語スコアを算出するかは問わない。ただし、用語スコア算出手段１０７１は、出現頻度情報が示す出現頻度が大きいほど、かつ、特殊性情報が示す特殊性が大きいほど、用語スコアを高く設定するように、用語スコアを算出する。「用語スコアを高く設定する」とは、出力する用語として抽出されやすくなることである。
【００４６】
ソート手段１０７２は、用語スコア算出手段１０７１が算出した用語スコアに基づいて、用語抽出部１０４が抽出した用語を並べる。ソート手段１０７２は、通常、用語スコアが高い用語を、出力されやすいように並べる。
出力手段１０７３は、ソート手段１０７２でソートされた順で、１以上の用語を出力する。
【００４７】
用語スコア算出手段１０７１、ソート手段１０７２は、通常、ＭＰＵやメモリ等から実現され得る。用語スコア算出手段１０７１等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはＲＯＭ等の記録媒体に記録されている。但し、ハードウェア（専用回路）で実現しても良い。
次に、用語抽出装置の動作について図２から図７のフローチャートを用いて説明する。
【００４８】
（ステップＳ２０１）元情報受付部１０２は、用語収集の元になる情報である元情報を受け付けたか否かを判断する。元情報を受け付ければステップＳ２０２に行き、元情報を受け付けなければステップＳ２０１に戻る。
【００４９】
（ステップＳ２０２）情報関連度算出部１０３は、ステップＳ２０１で受け付けた元情報を用いて、情報群格納部１０１に格納されている２以上の情報群の情報関連度を、情報群ごとに算出する。かかる情報関連度を算出する処理である情報関連度算出処理の例について、図３のフローチャートを用いて詳細に説明する。
【００５０】
（ステップＳ２０３）用語抽出部１０４は、情報群格納部１０１に格納されている２以上の情報群から１以上の用語を抽出する。ここで、抽出した用語が、出力される候補の用語である。かかる用語抽出処理の例について、図４のフローチャートを用いて詳細に説明する。
【００５１】
（ステップＳ２０４）出現頻度情報取得部１０５は、ステップＳ２０３で抽出した１以上の各用語の、２以上の情報群における出現頻度に関する情報である出現頻度情報を用語ごとに取得する。かかる出現頻度情報取得処理の例について、図５のフローチャートを用いて詳細に説明する。
【００５２】
（ステップＳ２０５）特殊性情報取得部１０６は、ステップＳ２０３で抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する。かかる特殊性情報取得処理の例について、図６のフローチャートを用いて詳細に説明する。
【００５３】
（ステップＳ２０６）出力部１０７は、ステップＳ２０４で取得した出現頻度情報およびステップＳ２０５で取得した特殊性情報に基づいて、ステップＳ２０３で抽出した用語のうち、１以上の用語を出力する。かかる出力処理の例について、図７のフローチャートを用いて詳細に説明する。また、１以上の用語を出力した後、処理を終了する。
次に、ステップＳ２０２の情報関連度算出処理について図３のフローチャートを用いて説明する。
（ステップＳ３０１）第一形態素解析手段１０３１は、元情報を形態素解析し、１以上の形態素列を得る。
（ステップＳ３０２）第一機能語削除手段１０３２は、カウンタｉに１を代入する。
【００５４】
（ステップＳ３０３）第一機能語削除手段１０３２は、ｉ番目の形態素が存在するか否かを判断する。ｉ番目の形態素が存在すればステップＳ３０４に行き、ｉ番目の形態素が存在しなければステップＳ３０７に行く。
【００５５】
（ステップＳ３０４）第一機能語削除手段１０３２は、ｉ番目の形態素が機能語であるか否かを判断する。ｉ番目の形態素が機能語であればステップＳ３０５に行き、ｉ番目の形態素が機能語でなければステップＳ３０６に行く。
（ステップＳ３０５）第一機能語削除手段１０３２は、ｉ番目の形態素を元情報から削除する。
（ステップＳ３０６）第一機能語削除手段１０３２は、カウンタｉを１、インクリメントする。そして、ステップＳ３０３に戻る。
【００５６】
（ステップＳ３０７）ノード取得手段１０３３は、機能語削除手段１０３２により機能語が削除され、残った１以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である１以上のノードを取得する。対象形態素列が「特許法」の場合、ノード取得手段１０３３は、「特許」「法」「特許法」の３つのノードを取得する。
（ステップＳ３０８）ノード出現頻度算出手段１０３４は、カウンタｉに１を代入する。
【００５７】
（ステップＳ３０９）ノード出現頻度算出手段１０３４は、ｉ番目のノードが存在するか否かを判断する。ｉ番目のノードが存在すればステップＳ３１０に行き、ｉ番目のノードが存在しなければステップＳ３１４に行く。
【００５８】
（ステップＳ３１０）ノード出現頻度算出手段１０３４は、ｉ番目のノード（文字列）が存在する各情報群における出現頻度を算出する。ここでの出現頻度は、例えば、ノード（文字列）が出現する情報群の数である、とする。
（ステップＳ３１１）ノードスコア算出手段１０３５は、ｉ番目のノード（文字列）の形態素の数を取得する。
【００５９】
（ステップＳ３１２）ノードスコア算出手段１０３５は、ステップＳ３１０で算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出する。ここでは、例えば、ノードスコア算出手段１０３５は、出現頻度とノードの形態素の数をパラメータとして、ノードスコアを算出する。
（ステップＳ３１３）ノードスコア算出手段１０３５は、カウンタｉを１、インクリメントする。そして、ステップＳ３０９に戻る。
（ステップＳ３１４）情報関連度算出手段１０３６は、カウンタｉに１を代入する。
【００６０】
（ステップＳ３１５）情報関連度算出手段１０３６は、ｉ番目の情報群が存在するか否かを判断する。ｉ番目の情報群が存在すればステップＳ３１６に行き、ｉ番目の情報群が存在しなければ上位関数にリターンする。
【００６１】
（ステップＳ３１６）情報関連度算出手段１０３６は、ｉ番目の情報群中に存在するすべてのノードを検出する。つまり、情報関連度算出手段１０３６は、全ノード中、ｉ番目の情報群中に存在するノードと存在しないノードを区別する。
（ステップＳ３１７）情報関連度算出手段１０３６は、ｉ番目の情報群中に存在しないすべてのノードの、ｉ番目の情報群に対応するノードスコアを０とする。
【００６２】
なお、ステップＳ３１６、ステップＳ３１７の処理は、ノードの数だけループを回し、当該ノードがｉ番目の情報群中に存在するか否かを判断し、存在しない場合に、当該ノードのノードスコア（ｉ番目の情報群に対応するノードスコア）を０とする処理である。なお、ノードがｉ番目の情報群中に存在す場合、当該ノードのノードスコアは、ステップＳ３１２で算出したノードスコアとする。
【００６３】
（ステップＳ３１８）情報関連度算出手段１０３６は、対象形態素列が完成する１以上のノードの１以上のノードスコアに基づいて、各情報群の情報関連度を算出する。情報関連度算出手段１０３６は、例えば、機能語を削除した元情報において、重ならないように、各ノードを連結したラティスを生成し、当該ラティスの先頭から末尾までのノードのスコアの和の最大値を、ｉ番目の情報群の情報関連度とする。かかる場合、ｉ番目の情報群に存在しないノードのノードスコアは「０」として、ノードのスコアの和の最大値を検出する。情報関連度算出手段１０３６は、かかる情報関連度を、動的計画法（ＤＰ）により、算出する。
（ステップＳ３１９）情報関連度算出手段１０３６は、カウンタｉを１、インクリメントする。そして、ステップＳ３１５に戻る。
なお、図３のフローチャートにおいて、各情報群を形態素解析してから、情報関連度を算出しても良いことは言うまでもない。
次に、ステップＳ２０３の用語抽出処理について図４のフローチャートを用いて説明する。
（ステップＳ４０１）第二形態素解析手段１０４１は、カウンタｉに１を代入する。
【００６４】
（ステップＳ４０２）第二形態素解析手段１０４１は、ｉ番目の未処理の情報群が、情報群格納部１０１に存在するか否かを判断する。ｉ番目の未処理の情報群が存在すればステップＳ４０３に行き、ｉ番目の未処理の情報群が存在しなければステップＳ４１６に行く。
（ステップＳ４０３）第二形態素解析手段１０４１は、ｉ番目の未処理の情報群を情報群格納部１０１から読み出し、形態素解析の処理を行う。
（ステップＳ４０４）第二機能語削除手段１０４２は、カウンタｊに１を代入する。
【００６５】
（ステップＳ４０５）第二機能語削除手段１０４２は、ステップＳ４０３で形態素解析した情報群の中に、ｊ番目の未処理の文節が存在するか否かを判断する。ｊ番目の文節が存在すればステップＳ４０６に行き、ｊ番目の文節が存在しなければステップＳ４１５に行く。なお、文章等を形態素解析した後に、文節を認定する処理は、公知技術であるので詳細な説明は省略する。
（ステップＳ４０６）第二機能語削除手段１０４２は、ｊ番目の文節から機能語を削除する。なお、形態素解析された文節から機能語を削除する処理は公知技術である。
【００６６】
（ステップＳ４０７）用語取得手段１０４３は、ステップＳ４０６で機能語が削除され、残った１以上の連続する形態素列のうち、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得する。なお、文節中に名詞を含まない場合、用語取得手段１０４３は、用語を取得しない。
（ステップＳ４０８）例外合致判断手段１０４５は、ステップＳ４０７で用語が取得できたか否かを判断する。用語が取得できればステップＳ４０９に行き、用語が取得できなければステップＳ４１２に行く。
（ステップＳ４０９）例外合致判断手段１０４５は、カウンタｋに１を代入する。
【００６７】
（ステップＳ４１０）例外合致判断手段１０４５は、ｋ番目の例外ルールが例外ルール格納手段１０４４に格納されているか否かを判断する。ｋ番目の例外ルールが存在すればステップＳ４１１に行き、ｋ番目の例外ルールが存在しなければステップＳ４１４に行く。
【００６８】
（ステップＳ４１１）例外合致判断手段１０４５は、ステップＳ４０７で取得した用語が、ｋ番目の例外ルールが示す条件に合致するか否かを判断する。ｋ番目の例外ルールが示す条件に合致すればステップＳ４１２に行き、合致しなければステップＳ４１３に行く。
（ステップＳ４１２）第二機能語削除手段１０４２は、カウンタｊを１、インクリメントする。そして、ステップＳ４０５に行く。
（ステップＳ４１３）例外合致判断手段１０４５は、カウンタｋを１、インクリメントする。そして、ステップＳ４１０に行く。
（ステップＳ４１４）用語取得手段１０４３は、ステップＳ４０７で取得した用語を登録する。ここで、登録とは、所定のバッファに書き込むことである。
（ステップＳ４１５）第二形態素解析手段１０４１は、カウンタｉを１、インクリメントする。そして、ステップＳ４０２に戻る。
【００６９】
（ステップＳ４１５）用語抽出部１０４は、登録した用語の中で、重複する用語を削除する。つまり、登録される用語は、ユニークである状態とする。そして、上位関数にリターンする。なお、重複する用語を削除する処理は、いつの段階で行っても良い。例えば、後述する用語スコアを算出した後に、重複する用語を削除する処理を行っても良い。
なお、図４のフローチャートにおいて、用語取得手段１０４３はステップＳ４０７で用語を取得した際に、まず用語を登録し、その後、例外ルールに合致する用語を、例外除去手段１０４６が削除しても良い。
次に、ステップＳ２０４の出現頻度情報取得処理について図５のフローチャートを用いて説明する。
（ステップＳ５０１）出現頻度算出手段１０５１は、カウンタｉに１を代入する。
【００７０】
（ステップＳ５０２）出現頻度算出手段１０５１は、用語抽出部１０４が抽出した用語の中で、ｉ番目の用語が存在するか否かを判断する。ｉ番目の用語が存在すればステップＳ５０３に行き、ｉ番目の用語が存在しなければ上位関数にリターンする。
（ステップＳ５０３）出現頻度算出手段１０５１は、初期化を行う。初期化とは、カウンタｊに１を代入し、変数「出現頻度情報」に「０」を代入することである。
【００７１】
（ステップＳ５０４）出現頻度算出手段１０５１は、ｊ番目の情報群が、情報群格納部１０１に存在するか否かを判断する。ｊ番目の情報群が存在すればステップＳ５０５に行き、ｊ番目の情報群が存在しなければステップＳ５１０に行く。
（ステップＳ５０５）出現頻度算出手段１０５１は、ｊ番目の情報群中における、ｉ番目の用語の出現頻度を取得する。ここで、ｊ番目の情報群中にｉ番目の用語が５回出現すれば、出現頻度は「５」である。
（ステップＳ５０６）用語関連度情報算出手段１０５２は、ｊ番目の情報群の情報関連度を読み出す。この情報関連度は、ステップＳ２０２で算出された情報関連度である。
【００７２】
（ステップＳ５０７）用語関連度情報算出手段１０５２は、ステップＳ５０５で算出した出現頻度、およびステップＳ５０６で読み出した情報関連度に基づいて、中間スコアを算出する。この中間スコアは、情報群ごとに算出される用語の出現頻度に関する情報である。用語関連度情報算出手段１０５２は、例えば、「出現頻度×情報関連度」により、中間スコアを算出する。ただし、用語関連度情報算出手段１０５２は、例えば、「（出現頻度）^２×情報関連度」や、「（出現頻度）^２×（情報関連度）^１／２」により、中間スコアを算出しても良い。つまり、用語関連度情報算出手段１０５２は、通常、出現頻度と情報関連度をパラメータとする増加関数により、中間スコアを算出する。
（ステップＳ５０８）用語関連度情報算出手段１０５２は、変数「出現頻度情報」に、ステップＳ５０７で算出した中間スコアを加算する。
（ステップＳ５０９）用語関連度情報算出手段１０５２は、カウンタｊを１、インクリメントする。そして、ステップＳ５０４に戻る。
【００７３】
（ステップＳ５１０）用語関連度情報算出手段１０５２は、ｉ番目の用語の出現頻度情報を、ｉ番目の用語に対応付けて登録する。なお、ここでの登録は、出現頻度情報を、ｉ番目の用語に対応付けて記録することである。
（ステップＳ５１１）出現頻度算出手段１０５１は、カウンタｉを１、インクリメントする。そして、ステップＳ５０２に戻る。
【００７４】
なお、図５のフローチャートにおいて、各用語に対応する出現頻度情報が算出でき、少なくとも一時的に登録された。
次に、特殊性情報取得処理について図６のフローチャートを用いて説明する。
（ステップＳ６０１）情報群数取得手段１０６１は、カウンタｉに１を代入する。
（ステップＳ６０２）情報群数取得手段１０６１は、ｉ番目の用語が存在するか否かを判断する。ｉ番目の用語が存在すればステップＳ６０３に行き、ｉ番目の用語が存在しなければ上位関数にリターンする。
【００７５】
（ステップＳ６０３）情報群数取得手段１０６１は、情報群格納部１０１に格納されている情報群に関する数である情報群数を、１種以上取得する。また、情報群数取得手段１０６１は、予め決められている１種以上の情報群数を取得する。
（ステップＳ６０４）頻度情報取得手段１０６２は、予め決められている１種以上の頻度情報を取得する。
【００７６】
（ステップＳ６０５）特殊性情報算出手段１０６３は、ステップＳ６０３で取得した情報群数および、ステップＳ６０４で取得した頻度情報をパラメータとして、特殊性情報を算出する。特殊性情報算出手段１０６３は、頻度情報のみをパラメータとして、特殊性情報を算出しても良い。また、特殊性情報算出手段１０６３は、頻度情報が大きな値を示す（頻度が大きい）場合に、特殊性情報が小さい値（特殊である）になるように、特殊性情報を算出する。
【００７７】
（ステップＳ６０６）特殊性情報算出手段１０６３は、ステップＳ６０５で算出した特殊性情報を、少なくとも一時的に登録する。特殊性情報算出手段１０６３は、ｉ番目の用語に対応付けて、特殊性情報を記録する。
（ステップＳ６０７）特殊性情報算出手段１０６３は、カウンタｉを１、インクリメントし、ステップＳ６０２に戻る。
次に、出力処理について図７のフローチャートを用いて説明する。
（ステップＳ７０１）用語スコア算出手段１０７１は、カウンタｉに１を代入する。
【００７８】
（ステップＳ７０２）用語スコア算出手段１０７１は、用語抽出部１０４が抽出した用語の中で、ｉ番目の用語が存在するか否かを判断する。ｉ番目の用語が存在すればステップＳ７０３に行き、ｉ番目の用語が存在しなければステップＳ７０７に行く。
（ステップＳ７０３）用語スコア算出手段１０７１は、ｉ番目の用語に対応する出現頻度情報を読み出す。
（ステップＳ７０４）用語スコア算出手段１０７１は、ｉ番目の用語に対応する特殊性情報を読み出す。
【００７９】
（ステップＳ７０５）用語スコア算出手段１０７１は、ステップＳ７０３で読み出した出現頻度情報と、ステップＳ７０４で読み出した特殊性情報をパラメータとして、ｉ番目の用語に対応する用語スコアを算出する。用語スコア算出手段１０７１は、出現頻度情報と特殊性情報をパラメータとする増加関数により、用語スコアを算出する。用語スコア算出手段１０７１は、例えば、「出現頻度情報×特殊性情報」により、用語スコアを算出する。なお、用語スコア算出手段１０７１は、例えば、「（出現頻度情報）^１／２×特殊性情報」により、用語スコアを算出しても良い。そして、用語スコア算出手段１０７１は、算出した用語スコアを、ｉ番目の用語に対応付けて、少なくとも一時的に登録する。
（ステップＳ７０６）用語スコア算出手段１０７１は、カウンタｉを１、インクリメントする。そして、ステップＳ７０２に戻る。
（ステップＳ７０７）ソート手段１０７２は、ステップＳ７０５で算出した用語スコアをキーに昇順（用語スコアが大きい用語を前）に、用語抽出部１０４が抽出した用語をソートする。
（ステップＳ７０８）出力手段１０７３は、ステップＳ７０７でソートされた順で、１以上の用語を出力する。そして、上位関数にリターンする。
以下、本実施の形態における用語抽出装置の具体的な動作について説明する。
【００８０】
まず、本用語抽出装置の、代表的な一の目的について説明する。例えば、本用語抽出装置は、同時通訳者にとって有効な用語を抽出する装置である。そして、本用語抽出装置は、講演タイトルなどの元情報が与えられたときに、新聞記事の情報などの情報群から用語を収集し、同時通訳者等に資する装置として機能するものである。
【００８１】
ここで、用語を４つの種類Ａ，Ｂ，Ｃ，Ｄに分けた図を図８に示す。Ａは講演に関連し、通訳者が訳せない用語、Ｂは講演に関連し、通訳者が訳せる用語、Ｃは講演に関連せず、通訳者が訳せる用語、Ｄは、講演に関連せず、通訳者が訳せない用語を示している。本用語抽出装置で収集目的としているのは、図８におけるＡの部分である。また、例えば、本具体例において、情報群は、新聞記事の情報であり、一記事が一ファイルである。また、元情報は、講演のタイトルである。ここで、講演のタイトルは、「消費者契約法制定へ」である、とする。
【００８２】
次に、本用語抽出装置の用語の自動抽出手法の概要について説明する。自動抽出手法の概要を図９に示す．本手法では、まず、情報関連度算出部１０３は、講演タイトル（元情報）と新聞の各記事（各情報群）との関連度を示す情報関連度を計算する。次に、用語抽出部１０４が新聞記事から用語を抽出し、情報関連度と用語の頻度分布を考慮して、用語の順位付けを行い、順位の上位の用語を出力する。
以下、かかる処理の詳細について述べる。
【００８３】
まず、第一形態素解析手段１０３１は、タイトル「消費者契約法制定へ」を形態素解析する。また、第一形態素解析手段１０３１は、新聞記事を形態素解析しても良い。次に、形態素解析し、取得した形態素から、第一機能語削除手段１０３２は、機能語を削除する。その結果、「へ」は削除され、内容語の形態素「消費者契約法制定」のみが残る。次に、ノード取得手段１０３３は、後の処理の容易化のために、タイトルの前後に先頭と末尾を示すノードを追加する。ここで、先頭のノードは「＾」、末尾のノードは「＄」である、とする。さらに、タイトルにおいて任意の長さで連続する形態素列を１つのノードとし、位置関係が交差重複しないように各ノードを接続したラティスを生成する。その結果、ノード取得手段１０３３は、図１０に示すラティスを得る。なお、ノード取得手段１０３３が取得した全ノードは、「消費」「者」「契約」「法」「制定」「消費者」「契約法」「者契約」「法制定」「消費者契約」「者契約法」「契約法制定」「消費者契約法」「者契約法制定」「消費者契約法制定」である。
次に、ノード出現頻度算出手段１０３４は、全ノードに対して、各ノードが含まれる記事数（ＤＦ）を取得する。ここでの記事数（ＤＦ）は、ノードの出現頻度とも言える。
【００８４】
次に、ノードスコア算出手段１０３５は、各ノードの形態素数（ｍ）を取得する。そして、ノードスコア算出手段１０３５は、記事数（ＤＦ）と形態素数（ｍ）をパラメータとして、数式１により、ノードスコアを算出する。なお、数式１において、ｈは、定数であり、出現頻度の違いによるノードスコアに与える影響の大きさを調整するパラメータである。ノードスコア算出手段１０３５は、全ノードについて、数式１により、ノードスコアを算出する。なお、ノードスコア算出手段１０３５は、記事数（ＤＦ）が０のノードについては、ノードスコアを算出しない。つまり、記事数（ＤＦ）が０のノードについては、ノードが存在しないものとして、本用語抽出装置で扱う。また、数式１の「１／（ＤＦ＋ｈ）」の部分は、多くの文書（新聞記事）に出現する表現に対してスコアを小さくするための項である。
【数１】

【００８５】
次に、情報関連度算出手段１０３６は、数式２により、各情報群の情報関連度を算出する。数式２は、ラティスの先頭から末尾までのノードのスコアの和の最大値を算出する式である。なお、数式２において、ｗ_ｊは記事番号ｊの記事の情報関連度である。また、数式２は、動的計画法を利用して計算される。
【数２】

【００８６】
以上の処理により、各新聞記事（情報群）に対して、情報関連度が算出された。そして、情報関連度算出部１０３は、算出した情報関連度を、各新聞記事（情報群）に対応付けて格納する。図１１は、算出した情報関連度を管理する情報関連度管理表である。情報関連度管理表は、「情報群ＩＤ」「情報関連度」を有するレコードを１以上保持している。情報関連度管理表は、情報関連度算出部が生成する表であり、少なくとも一時的に記録媒体に存在する。
【００８７】
次に、用語抽出部１０４は、以下のような処理により、２以上の新聞記事から１以上の用語を抽出する。まず、第二形態素解析手段１０４１は、２以上の新聞記事を形態素解析し、１以上の形態素列（文節）を得る。次に、第二機能語削除手段１０４２は、形態素解析し、得た各文節から、機能語を削除する。そして、用語取得手段１０４３は、機能語が削除され、残った１以上の連続する形態素列のうち、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得する。つまり、例えば、「世界貿易機構」という用語が存在する場合、「世界／貿易／機構」と３つの形態素からなっているが、形態素単位に分解して、「世界」と「貿易」と「機構」に分けるのではなく、連続した「世界貿易機構」を取得できるように、用語取得手段１０４３は、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得する。同様に、用語取得手段１０４３は、最も後ろに位置する名詞の形態素と、その形態素より前に位置する形態素を一の用語として取得することにより、例えば、「立ち退き（動詞）料（名詞）」と解析された結果を１つの用語として抽出することができる。
【００８８】
次に、例外ルール格納手段１０４４に、図１２に示す例外ルール管理表が格納されている、とする。例外ルール管理表は、「ＩＤ」「例外ルール」を有するレコードを１以上保持している。図１２において、例外ルール管理表は、「例」を有するが、「例」は説明の便宜のため存在する。通常、例外ルール格納手段１０４４は、「例」の情報は有さない。図１２において、「Ｄ＝１」の例外ルールは、「代名詞、または非自立の名詞、または副詞の可能性のある名詞、または人名の接尾氏となる名詞を除き、かつカタカナの場合は除かない」というルールである。また、「Ｄ＝２」の例外ルールは、「未知語のうち、カタカナとアルファベットは名詞と見なし、それ以外は除く」というルールである。なお、未知語か否かを判断する処理は、公知技術である。また、「Ｄ＝３」の例外ルールは、「ひらがなのみの形態素を除く」というルールである。また、「Ｄ＝４」の例外ルールは、「数名詞＋助数詞を除く」というルールである。かかるルールにより、「２２日」「４８％」などが除かれる。また、「Ｄ＝５」の例外ルールは、「数のみの形態素からなる用語を除く」というルールである。また、「Ｄ＝６」の例外ルールは、「記号を除く。ただし、カタカナ表現に囲まれた・は除かない」というルールである。かかるルールにより、「＝」等は除かれる。また、「Ｄ＝７」の例外ルールは、「固有名詞＋接尾の後は用語を区切る」というルールである。かかるルールにより、「東京都渋谷区」は、「東京都」と「渋谷区」に区分される。したがって、例外除去手段１０４６は、用語を分割する処理も、場合によって行う。また、「Ｄ＝８」の例外ルールは、「用語の先頭が接尾の場合は、その形態素を除く」というルールである。かかるルールにより、「東京都下」は、「東京都」になる。さらに、「Ｄ＝９」の例外ルールは、「固有名詞＋固有名詞以外＋固有名詞の場合は、２番目の固有名詞の前で区切る」というルールである。かかるルールにより、「神戸地検姫路支部」は、「神戸地検」と「姫路支部」に区分される。なお、例外ルールの記載方法は、問わない。例外ルールは、用語抽出装置が処理できる情報であれば良い。
【００８９】
例外合致判断手段１０４５は、用語取得手段１０４３が取得した用語に対して、図１２の９つの例外ルールを適用する。そして、例外合致判断手段１０４５が、９つの例外ルールのすべてに適合しないと判断された用語のみ、最終的に抽出される。例外合致判断手段１０４５は、例えば、用語取得手段１０４３が取得した用語に対して「ＩＤ＝１」の例外ルール「名詞−代名詞，名詞−非自立，名詞−副詞可能，名詞−接尾−人名を除く．ただしカタカナの場合は除かない．」を適用し、「これ」「こと」「今年」「氏」などの用語を、抽出対象の用語から除く。「これ」は「代名詞」である。「こと」は「非自立」である。「今年」は「副詞可能」である。「氏」は「接尾−人名」である。
そして、用語取得手段１０４３は、９つの例外ルールのすべてに適合しないと判断された用語のみ、最終的に抽出し、一時登録する。
【００９０】
次に、用語抽出部１０４は、用語取得手段１０４３が登録した用語の中で、重複する用語を削除する。この処理により、同一の用語が２以上、登録されることを防止する。図１３は、用語抽出部１０４が最終的に抽出した用語の例である。
次に、出現頻度情報取得部１０５は、以下に示す処理により、各用語の出現頻度情報を取得する。
【００９１】
まず、出現頻度算出手段１０５１は、図１３の各用語について、２以上の各新聞記事における出現頻度を算出する。そして、出現頻度算出手段１０５１は、図１４の用語出現頻度表を得る。用語出現頻度表は、「ＩＤ」「用語」「情報群識別子」を有するレコードを１以上保持している。「情報群識別子」は、２以上の新聞記事を識別する情報（「記事１」「記事２」「記事３」等）である。用語出現頻度表は、各用語の各新聞記事における出現頻度を示す。図１４において、「ダイオキシン情報」は、記事１には出現せず、記事２、３には、「１」回出現していることを示す。
【００９２】
そして、次に、用語関連度情報算出手段１０５２は、各情報群（新聞記事）の情報関連度を、図１１の表から読み出す。そして、用語関連度情報算出手段１０５２は、例えば、数式３により、出現頻度情報（ｌ_ｔ）を算出する。数式３において、ｊは記事番号、ｗ_ｊは記事番号ｊの記事の情報関連度、ｔｆ_ｊは記事ｊ中の用語の出現頻度、ｎは総記事数である。
【数３】

そして、用語関連度情報算出手段１０５２は、図１５に示すような出現頻度情報管理表を得る。出現頻度情報管理表は、用語に対応する出現頻度情報を管理する表である。
次に、特殊性情報取得部１０６は、以下の処理により、用語抽出部１０４が抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する。
【００９３】
まず、情報群数取得手段１０６１は、図１６に示す特殊性情報取得表を保持している。特殊性情報取得表は、「ｉ」「ｆ_ｉ」「Ｎ_ｉ」を有するレコードを５つ保持している。「ｉ」はレコードＩＤである。「ｆ_ｉ」は、１種以上の頻度情報を示す。「Ｎ_ｉ」は、１種以上の情報群数を示す。
【００９４】
特殊性情報算出手段１０６３は、数式４に従って、特殊性情報取得表に基づいて、特殊性情報を算出する。数式４において、「λ_ｉ」は各要素の重み付けである。「Ｎ_ｉ」に１を足しているのは、分母が０になるのを避けるためである。「λ_ｉ」は、例えば、常に「１」でも良い。また、「λ_ｉ」は、例えば、「１／情報群数」でも良い。
【数４】

【００９５】
かかる場合、情報群数取得手段１０６１は、情報群格納部１０１に格納されている情報群（新聞記事）について、新聞記事中の総用語数、および新聞記事の数、および新聞記事の総日数、および新聞記事の総月数、および新聞記事の総カテゴリ数を取得する。また、頻度情報取得手段１０６２は、用語抽出部１０４が抽出した各用語について、当該各用語の出現頻度（全新聞記事中における出現回数）、および当該各用語を含む新聞記事数、および新聞記事が各用語を含む日数、および各用語を含む月数、および各用語を含むカテゴリ数を取得する。そして、特殊性情報算出手段１０６３は、数式４に従って、特殊性情報を算出する。そして、特殊性情報算出手段１０６３は、例えば、図１７に示す用語特殊性情報管理表を得る。用語特殊性情報管理表は、各用語の特殊性情報を管理する表である。
次に、用語スコア算出手段１０７１は、各用語について、用語スコア（ｓ_ｔ）を、数式５により算出する。
【数５】

そして、ソート手段１０７２は、用語スコアをキーに昇順（用語スコアが大きい用語を前）に、用語抽出部１０４が抽出した用語をソートする。
次に、出力手段１０７３は、ソートされた順で、例えば、上位３０語を出力する。かかる出力例が、図１８である。
以上、本実施の形態によれば、講演タイトル等の元情報に関連のある用語を、新聞記事等の情報群から効果的に抽出できる。
なお、本実施の形態において、元情報は講演タイトルに限られないことは言うまでもない。また、情報群も新聞記事に限られないことは言うまでもない。
また、本実施の形態において、情報関連度を算出する方法、用語を抽出する方法、出現頻度情報を算出する方法や数式、特殊性情報を算出する方法や数式は、種々考えられる。
また、本実施の形態において、用語の出力は、例えば、日本語の用語だけではなく、日本語と英語の用語（訳）を対にして出力しても良い。かかる場合、用語抽出装置等は、日英辞書を保持している必要がある。
また、本実施の形態において、出力する用語は、日本語に限られないことは言うまでもない。出力する用語は、英語でも、中国語でも、韓国語（ハングル）でも、スペイン語等でも良い。
【００９６】
また、本実施の形態において、情報関連度、および特殊性情報の算出に、ＩＤＦという従来技術を用いた場合の結果を、図１９に示す。図１９は、かかる従来技術における用語抽出装置の抽出例（上位３０語）である。かかる図１８、図１９の比較により、本用語抽出装置の能力が認定できる。
【００９７】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをＣＤ−ＲＯＭなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における情報処理装置を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータに、用語収集の元になる情報である元情報を受け付ける元情報受付ステップと、前記元情報と、格納している２以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出ステップと、前記２以上の情報群から１以上の用語を抽出する用語抽出ステップと、前記用語抽出ステップで抽出した１以上の各用語の、前記２以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得ステップと、前記用語抽出ステップで抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得ステップと、前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出ステップで抽出した用語のうち、１以上の用語を出力する出力ステップを実行させるためのプログラム、である。
【００９８】
また、上記プログラムにおける情報関連度算出ステップは、前記元情報を形態素解析し、１以上の形態素列を得る第一形態素解析ステップと、前記第一形態素解析ステップで得た１以上の形態素列から、機能語を削除する第一機能語削除ステップと、前記機能語削除ステップにより機能語が削除され、残った１以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である１以上のノードを取得するノード取得ステップと、前記ノード取得ステップで取得した１以上のノードの、２以上の各情報群における出現頻度を算出するノード出現頻度算出ステップと、前記ノード出現頻度算出ステップで算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出するノードスコア算出ステップと、対象形態素列が完成する１以上のノードの１以上のノードスコアに基づいて、各情報群の情報関連度を算出する情報関連度算出ステップを具備することは好適である。
【００９９】
また、上記プログラムにおける用語抽出ステップは、前記２以上の情報群を形態素解析し、１以上の形態素列を得る第二形態素解析ステップと、前記第二形態素解析ステップで得た１以上の形態素列から、機能語を削除する第二機能語削除ステップと、前記第二機能語削除ステップにより機能語が削除され、残った１以上の連続する形態素列のうち名詞を最終の語とする、１以上の連続する語を用語として取得する用語取得ステップとを具備することは好適である。
【０１００】
また、上記プログラムにおける用語抽出ステップは、前記用語取得ステップで取得した形態素列が、格納している例外ルールが示す条件に合致するか否かを判断する例外合致判断ステップと、前記用語取得ステップで取得した用語のうち、前記例外合致判断ステップで前記例外ルールに合致すると判断した形態素列を除く例外除去ステップをさらに具備することは好適である。
【０１０１】
また、上記プログラムにおける出現頻度情報取得ステップは、前記用語抽出ステップで抽出した１以上の各用語について、前記２以上の各情報群における１以上の出現頻度を算出する出現頻度算出ステップと、前記出現頻度算出ステップで算出した前記２以上の各情報群における出現頻度と、出現頻度に対応する前記２以上の各情報群の前記情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する用語関連度情報算出ステップとを具備することは好適である。
【０１０２】
また、上記プログラムにおける特殊性情報取得ステップは、前記情報群に関する数である情報群数を取得する情報群数取得ステップと、前記用語抽出ステップで抽出した各用語について、前記情報群に出現する数に関する情報である頻度情報を取得する頻度情報取得ステップと、前記情報群数および前記頻度情報をパラメータとして、特殊性情報を算出する特殊性情報算出ステップを具備することは好適である。
【０１０３】
また、上記プログラムにおける前記情報群は、１以上のカテゴリに分類される新聞記事の情報であり、前記情報群数は、前記情報群中の総用語数、または／および情報群の数、または／および前記新聞記事の総日数、または／および前記新聞記事の総月数、または／および前記新聞記事の総カテゴリ数であり、前記頻度情報は、抽出した各用語について、当該各用語の出現頻度、または／および当該各用語を含む情報群数、または／および当該各用語を含む日数、または／および当該各用語を含む月数、または／および当該各用語を含むカテゴリ数であることは好適である。
【０１０４】
また、上記プログラムにおける出力ステップは、各用語について、前記出現頻度情報および前記特殊性情報をパラメータとして用語スコアを算出する用語スコア算出ステップと、前記用語スコア算出ステップで算出した用語スコアに基づいて、前記用語抽出ステップで抽出した用語を並べるソートステップと、前記ソートステップでソートされた順で、１以上の用語を出力する出力ステップを具備することは好適である。
【０１０５】
また、上記で述べた用語抽出装置は、用語集を製造する装置である、と言える。つまり、本用語抽出装置は、用語収集の元になる情報である元情報を受け付ける元情報受付ステップと、前記元情報と格納している２以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出ステップと、前記２以上の情報群から１以上の用語を抽出する用語抽出ステップと、前記用語抽出ステップで抽出した１以上の各用語の、前記２以上の情報群における出現頻度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得ステップと、前記用語抽出ステップで抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得ステップと、前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出ステップで抽出した用語のうち、１以上の用語を蓄積する蓄積ステップを具備する用語集の製造方法を実施する装置である。
【０１０６】
また、上記各実施の形態において、各処理（各機能）は、単一の装置（システム）によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【０１０７】
また、図２０は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の情報処理装置を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図２０は、このコンピュータシステム３００の概観図であり、図２１は、システム３００のブロック図である。
【０１０８】
図２０において、コンピュータシステム３００は、ＦＤ（ＦｌｅｘｉｂｌｅＤｉｓｋ）ドライブ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｋＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ドライブを含むコンピュータ３０１と、キーボード３０２と、マウス３０３と、モニタ３０４とを含む。
【０１０９】
図２１において、コンピュータ３０１は、ＦＤドライブ３０１１、ＣＤ−ＲＯＭドライブ３０１２に加えて、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１３と、ＣＰＵ３０１３、ＣＤ−ＲＯＭドライブ３０１２及びＦＤドライブ３０１１に接続されたバス３０１４と、ブートアッププログラム等のプログラムを記憶するためのＲＯＭ（Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）３０１５と、ＣＰＵ３０１３に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０１６と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク３０１７とを含む。ここでは、図示しないが、コンピュータ３０１は、さらに、ＬＡＮへの接続を提供するネットワークカードを含んでも良い。
【０１１０】
コンピュータシステム３００に、上述した実施の形態の情報処理装置の機能を実行させるプログラムは、ＣＤ−ＲＯＭ３１０１、またはＦＤ３１０２に記憶されて、ＣＤ−ＲＯＭドライブ３０１２またはＦＤドライブ３０１１に挿入され、さらにハードディスク３０１７に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ３０１に送信され、ハードディスク３０１７に記憶されても良い。プログラムは実行の際にＲＡＭ３０１６にロードされる。プログラムは、ＣＤ−ＲＯＭ３１０１、ＦＤ３１０２またはネットワークから直接、ロードされても良い。
【０１１１】
プログラムは、コンピュータ３０１に、上述した実施の形態の情報処理装置の機能を実行させるオペレーティングシステム（ＯＳ）、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能（モジュール）を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム３００がどのように動作するかは周知であり、詳細な説明は省略する。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
また、上記各実施の形態において、一の装置に存在する２以上の通信手段（情報送信部など）は、物理的に一の媒体で実現されても良いことは言うまでもない。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【０１１２】
以上のように、本発明にかかる用語抽出装置は、講演タイトル等の元情報に関連のある用語を、新聞記事等の情報群から効果的に抽出できるという効果を有し、用語抽出装置等として有用である。
【図面の簡単な説明】
【０１１３】
【図１】実施の形態１における用語抽出装置のブロック図
【図２】同用語抽出装置の動作について説明するフローチャート
【図３】同情報関連度算出処理について説明するフローチャート
【図４】同用語抽出処理について説明するフローチャート
【図５】同出現頻度情報取得処理について説明するフローチャート
【図６】同特殊性情報取得処理について説明するフローチャート
【図７】同出力処理について説明するフローチャート
【図８】同用語抽出装置の目的について説明する図
【図９】同自動抽出手法の概要を説明する図
【図１０】同ノード取得手段が取得するノードおよびラティスを説明する図
【図１１】同情報関連度管理表を示す図
【図１２】同例外ルール管理表を示す図
【図１３】同抽出した用語の例を示す図
【図１４】同用語出現頻度表を示す図
【図１５】同出現頻度情報管理表を示す図
【図１６】同特殊性情報取得表を示す図
【図１７】同用語特殊性情報管理表を示す図
【図１８】同出力例を示す図
【図１９】同従来技術を用いた場合の用語の出力結果を示す図
【図２０】同情報処理装置を示す図
【図２１】同システムを示す図
【符号の説明】
【０１１４】
１０１情報群格納部
１０２元情報受付部
１０３情報関連度算出部
１０４用語抽出部
１０５出現頻度情報取得部
１０６特殊性情報取得部
１０７出力部
１０３１第一形態素解析手段
１０３２第一機能語削除手段
１０３３ノード取得手段
１０３４ノード出現頻度算出手段
１０３５ノードスコア算出手段
１０３６情報関連度算出手段
１０４１第二形態素解析手段
１０４２第二機能語削除手段
１０４３用語取得手段
１０４４例外ルール格納手段
１０４５例外合致判断手段
１０４６例外除去手段
１０５１出現頻度算出手段
１０５２用語関連度情報算出手段
１０６１情報群数取得手段
１０６２頻度情報取得手段
１０６３特殊性情報算出手段
１０７１用語スコア算出手段
１０７２ソート手段
１０７３出力手段

【特許請求の範囲】
【請求項１】
２以上の情報群を格納している情報群格納部と、
用語収集の元になる情報である元情報を受け付ける元情報受付部と、
前記元情報と前記２以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出部と、
前記２以上の情報群から１以上の用語を抽出する用語抽出部と、
前記用語抽出部が抽出した１以上の各用語の、前記２以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得部と、
前記用語抽出部が抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得部と、
前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出部が抽出した用語のうち、１以上の用語を出力する出力部を具備する用語抽出装置。
【請求項２】
前記情報関連度算出部は、
前記元情報を形態素解析し、１以上の形態素列を得る第一形態素解析手段と、
前記第一形態素解析手段が得た１以上の形態素列から、機能語を削除する第一機能語削除手段と、
前記機能語削除手段により機能語が削除され、残った１以上の形態素列である対象形態素列について、任意の長さで連続する形態素列である１以上のノードを取得するノード取得手段と、
前記ノード取得手段が取得した１以上のノードの、２以上の各情報群における出現頻度を算出するノード出現頻度算出手段と、
前記ノード出現頻度算出手段が算出した出現頻度に基づいて、各ノードのスコアであるノードスコアを算出するノードスコア算出手段と、
対象形態素列が完成する１以上のノードの１以上のノードスコアに基づいて、各情報群の情報関連度を算出する情報関連度算出手段を具備する請求項１記載の用語抽出装置。
【請求項３】
前記出現頻度情報取得部は、
前記用語抽出部が抽出した１以上の各用語について、前記２以上の各情報群における１以上の出現頻度を算出する出現頻度算出手段と、
前記出現頻度算出手段が算出した前記２以上の各情報群における出現頻度と、出現頻度に対応する前記２以上の各情報群の前記情報関連度とをパラメータとして、出現頻度情報を用語ごとに取得する用語関連度情報算出手段とを具備する請求項１記載の用語抽出装置。
【請求項４】
前記特殊性情報取得部は、
前記情報群に関する数である情報群数を取得する情報群数取得手段と、
前記用語抽出部が抽出した各用語について、前記情報群に出現する数に関する情報である頻度情報を取得する頻度情報取得手段と、
前記情報群数および前記頻度情報をパラメータとして、特殊性情報を算出する特殊性情報算出手段を具備する請求項１記載の用語抽出装置。
【請求項５】
前記情報群は、１以上のカテゴリに分類される新聞記事の情報であり、
前記情報群数は、前記情報群中の総用語数、または／および情報群の数、または／および前記新聞記事の総日数、または／および前記新聞記事の総月数、または／および前記新聞記事の総カテゴリ数であり、
前記頻度情報は、抽出した各用語について、当該各用語の出現頻度、または／および当該各用語を含む情報群数、または／および当該各用語を含む日数、または／および当該各用語を含む月数、または／および当該各用語を含むカテゴリ数である請求項４記載の用語抽出装置。
【請求項６】
コンピュータに、
用語収集の元になる情報である元情報を受け付ける元情報受付ステップと、
前記元情報と格納している２以上の各情報群との関連度である情報関連度を、情報群ごとに算出する情報関連度算出ステップと、
前記２以上の情報群から１以上の用語を抽出する用語抽出ステップと、
前記用語抽出ステップで抽出した１以上の各用語の、前記２以上の情報群における出現頻度と前記情報関連度に関する情報である出現頻度情報を用語ごとに取得する出現頻度情報取得ステップと、
前記用語抽出ステップで抽出した１以上の各用語の、特殊性に関する情報である特殊性情報を用語ごとに取得する特殊性情報取得ステップと、
前記出現頻度情報および前記特殊性情報に基づいて、前記用語抽出ステップで抽出した用語のうち、１以上の用語を出力する出力ステップを実行させるためのプログラム。

【図１】

【図２】

【図３】

【図４】

【図５】

【図６】

【図７】

【図８】

【図９】

【図１０】

【図１１】

【図１２】

【図１３】

【図１４】

【図１５】

【図１６】

【図１７】

【図１８】

【図１９】

【図２０】

【図２１】

【公開番号】特開２００７−７９６５２（Ｐ２００７−７９６５２Ａ）
【公開日】平成１９年３月２９日（２００７．３．２９）
【国際特許分類】

物理学 (1,541,580)
- 計算；計数 (381,677)
  - 電気的デジタルデータ処理 (228,215)
    - 特定の機能に特に適合したデジタル計算またはデータ処理の装置また... (34,028)
      - 情報検索；そのためのデータベース構造 (17,914)
      - 自然言語データの取扱い (7,890)
        
        自然言語の処理または翻訳 (1,147)

【出願番号】特願２００５−２６３１３７（Ｐ２００５−２６３１３７）
【出願日】平成１７年９月１２日（２００５．９．１２）
【新規性喪失の例外の表示】特許法第３０条第１項適用申請有り　２００５年３月１５日　言語処理学会発行の「言語処理学会第１１回年次大会　発表論文集」に発表
【国等の委託研究の成果に係る記載事項】（出願人による申告）平成１７年度独立行政法人情報通信研究機構、研究テーマ「大規模コーパスベース音声対話翻訳技術の研究開発」に関する委託研究、産業活力再生特別措置法第３０条の適用を受ける特許出願
【出願人】（３９３０３１５８６）株式会社国際電気通信基礎技術研究所 (905)
【Ｆターム（参考）】

[ Back to top ]

用語抽出装置、およびプログラム

メニュー

スポンサーリンク

次の公報 »

« 前の公報

用語抽出装置、およびプログラム

メニュー

スポンサー リンク

次の公報 »

« 前の公報

スポンサーリンク