説明

他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

【課題】概念ベースを持たない言語において、固有名詞を含んだ概念ベクトルを高精度に算出する。
【解決手段】本発明は、言語Bの単語が2言語辞書記憶手段に登録されていない場合に、該言語Bの単語に基づいて、言語B固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて言語A概念ベース記憶手段を参照して、該言語Bの単語の概念ベクトルを生成する。更に、生成された言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納し、言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求め、単語に基づいて言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語や文書の特徴をベクトルで表す他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【0002】
2つの自然言語(言語A,言語Bと記す)があり、一方の言語Aについて単語の特徴を表すベクトル(これを言語Aの概念ベースと呼ぶ)が登録されているときに、他方の言語Bで使用される単語を言語Aで使用される単語で説明するデータベース(2言語辞書)を用いて、言語Bの単語の特徴を表す(言語Bの概念ベースと呼ぶ)を生成する方法がある(例えば、特許文献1参照)。
【特許文献1】特開2003−345828号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
上記の従来技術は、日本語の単語の特徴をベクトル(これを概念ベクトルと呼ぶ)で表す概念ベースがある場合に、2言語辞書として英和辞典を用い、英語の単語の特徴をベクトルで表す概念ベースを構築することができる。しかし、英語の固有名詞(人名、地名、企業名、団体名、…)については、「Florida」のように有名な地名や人名を除いて対応する日本語がないことが多い。また、それをカタカナで表記したとしても、日本語においてよく使われている単語でなければ、そのカタカナ表記に対応するベクトルが存在しない。このように固有名詞については対応する概念ベクトルを算出することが難しい。そのため、固有名詞を含んだ文書の特徴を概念ベクトルで表す場合に精度が低下するという問題がある。
【0004】
本発明は、上記の点に鑑みなされたもので、概念ベースを持たない言語において、固有名詞を含んだ概念ベクトルを高精度に算出することが可能な他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0005】
図1は、本発明の原理構成図である。
【0006】
本発明(請求項1)は、言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成装置であって、
言語Bの見出し語が言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段40と、
言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段50と、
言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段60と、
言語Bの単語が2言語辞書記憶手段40に登録されていない場合に、該言語Bの単語に基づいて、言語B固有名詞意味カテゴリ表記憶手段50を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて言語A概念ベース記憶手段60を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成手段10と、を有する。
【0007】
また、本発明(請求項2)は、単語概念ベース生成手段10において、
生成された言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納する手段含み、
言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出手段と、
単語に基づいて言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する手段と、
を更に有する。
【0008】
図2は、本発明の原理を説明するための図である。
【0009】
本発明(請求項3)は、言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成方法であって、
言語Bの見出し語が言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段と、
言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段と、
言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段と、を有する装置において、
単語概念ベース生成手段が、言語Bの単語が2言語辞書記憶手段に登録されていない場合に(ステップ1、No)、該言語Bの単語に基づいて、言語B固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し(ステップ2)、該意味カテゴリ名に基づいて言語A概念ベース記憶手段を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成ステップを行う(ステップ3)。
【0010】
また、本発明(請求項4)は、単語概念ベース生成ステップ(ステップ3)において、
生成された言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納するステップを含み、
単語頻度算出手段が、言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出ステップと、
単語に基づいて言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力するステップと、
を更に行う。
【0011】
本発明(請求項5)は、請求項1または2に記載の他言語の概念ベクトル生成装置を構成する各手段としてコンピュータを機能させるための他言語の概念ベクトル生成プログラムである。
【0012】
本発明(請求項6)は、請求項5記載の他言語の概念ベクトル生成プログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【0013】
上記のように本発明によれば、概念ベースを持たない言語Bについては、当該言語Bの固有名詞の意味カテゴリを表す意味カテゴリ表に言語Bの単語(固有名詞)が含まれていれば、その固有名詞に対応付けられている意味カテゴリ名をもとに、概念ベースを持つ言語Aの単語の概念ベクトルを用いて概念ベクトルを生成するため、言語Bについて、固有名詞を含んだ文書の概念ベクトルを、従来より高精度に算出することができ、類似文書や文書分類などの精度を高めることができる。
【発明を実施するための最良の形態】
【0014】
以下、図面と共に本発明の実施の形態を説明する。
【0015】
以下では、言語Bが単語概念ベースを持たないものとして説明する。
【0016】
図3は、本発明の一実施の形態における他言語の概念ベクトル生成装置の構成を示す。
【0017】
同図に示す他言語の概念ベクトル生成装置は、単語概念生成部10、単語頻度算出部20、文書ベクトル算出部30、2言語辞書40、言語Bの固有名所の意味カテゴリ表50、言語A単語概念ベース60、言語B単語頻度概念ベース70から構成される。
【0018】
本実施の形態では、上記の2言語辞書40、言語Bの固有名所の意味カテゴリ表50、言語A単語概念ベース60、言語B単語頻度概念ベース70は、データベースに格納されているものとして説明する。
【0019】
2言語辞書40は、言語Bの見出し語が言語Aで説明されている辞書である。
【0020】
言語Bの固有名詞の意味カテゴリ表50は、(Bayfield→地名)のようにより抽象化された意味カテゴリへの対応が示されている。意味カテゴリは2言語辞書40により言語Aで説明できれば、言語Bで表されていても構わない。
【0021】
言語Aの単語概念ベース60は、言語Aに関し単語に対応する概念ベクトルが格納されている。
【0022】
単語概念ベース生成部10では、上記の2言語辞書40、言語Bの固有名所の意味カテゴリ表50、言語A単語概念ベース60の要素から言語Bの単語概念ベース70を生成する。詳細については図4において説明する。
【0023】
単語頻度算出部20は、言語Bの文書が入力されると、言語B単語概念ベース70を参照することにより当該文書の特徴を表す文書ベクトル(=文書概念ベクトル)を算出する。
【0024】
図4は、本発明の一実施の形態における動作のフローチャートである。
【0025】
ステップ101) まず、単語概念ベース生成部10において、2言語辞書40に言語Bの単語に関する説明語があるかを判定し、ある場合はステップ102に移行し、ない場合はステップ103に移行する。
【0026】
ステップ102) 単語概念ベース生成部10は、言語Bの単語について、2言語辞書40で説明されている単語に関して、前述の特許文献1で示されている方法により、言語Aによる説明語の個々に対して言語Aの単語概念ベース60からベクトルを取り出して対応する言語Bの単語概念ベクトルを算出し、ステップ104に移行する。
【0027】
ステップ103) 一方、2言語辞書40で説明されていない場合、つまり、言語Bの単語が2言語辞書40に記載されていない場合は、当該言語Bの単語(固有名詞)に基づいて、言語Bの固有名詞の意味カテゴリ表50を参照して、当該固有名詞に対応付けられている意味カテゴリ名を取得し、当該意味カテゴリ名に基づいて、言語A単語概念ベース60を参照して概念ベクトルを生成する。
【0028】
ステップ104) 上記のステップ102、または、ステップ103で算出された言語Bの単語についての概念ベクトルを束ねて言語Bの単語概念ベース70に格納する。
【0029】
ステップ105) 上記のステップ104までの処理で言語Bの単語概念ベース70が生成された後に、言語Bの文書が入力される。
【0030】
ステップ106) 単語頻度算出部20は、言語Bの文書が入力されると、形態素解析によって文書を単語に分割し、単語が文書に出現する頻度を求め、メモリ(図示せず)に格納する。
【0031】
ステップ107) 次に、文書ベクトル算出部30において、ステップ105で得られた単語に基づいて、言語B単語概念ベース70を参照することにより、単語をベクトルに変換する。
【0032】
ステップ108) ステップ106において求められた単語の出現頻度により加重平均をとり、これを文書ベクトルとして出力する。
【0033】
なお、上記の図3に示す構成要素の動作をプログラムとして構築し、他言語の概念ベクトル生成装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0034】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0035】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【0036】
本発明は、自然言語処理技術の特に、2つの自然言語の概念ベースを生成する技術に適用可能である。
【図面の簡単な説明】
【0037】
【図1】本発明の原理構成図である。
【図2】本発明の原理を説明するための図である。
【図3】本発明の一実施の形態における他言語の概念ベクトル生成装置の構成図である。
【図4】本発明の一実施の形態における動作のフローチャートである。
【符号の説明】
【0038】
10 単語概念ベース生成手段
20 単語頻度算出部
30 文書ベクトル算出部
40 2言語辞書記憶手段、2言語辞書
50 言語B固有名詞意味カテゴリ表記憶手段、言語Bの固有名詞の意味カテゴリ表
60 言語A概念ベース記憶手段、言語A単語概念ベース
70 言語B単語概念ベース

【特許請求の範囲】
【請求項1】
言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成装置であって、
前記言語Bの見出し語が前記言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段と、
前記言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段と、
前記言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段と、
前記言語Bの単語が前記2言語辞書記憶手段に登録されていない場合に、該言語Bの単語に基づいて、前記言語B固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて前記言語A概念ベース記憶手段を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成手段と、
を有することを特徴とする他言語の概念ベクトル生成装置。
【請求項2】
前記単語概念ベース生成手段は、
生成された前記言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納する手段含み、
言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出手段と、
前記単語に基づいて前記言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、前記出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する手段と、
を更に有する請求項1記載の他言語の概念ベクトル生成装置。
【請求項3】
言語Aと言語Bの2つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成方法であって、
前記言語Bの見出し語が前記言語Aで説明されている2言語辞書を格納した2言語辞書記憶手段と、
前記言語Bの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Bの固有名詞の意味カテゴリ表を格納した言語B固有名詞意味カテゴリ表記憶手段と、
前記言語Aの単語に対応する概念ベクトルを格納した言語A概念ベース記憶手段と、を有する装置において、
単語概念ベース生成手段が、前記言語Bの単語が前記2言語辞書記憶手段に登録されていない場合に、該言語Bの単語に基づいて、前記言語B固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて前記言語A概念ベース記憶手段を参照して、該言語Bの単語の概念ベクトルを生成する単語概念ベース生成ステップを行う
ことを特徴とする他言語の概念ベクトル生成方法。
【請求項4】
前記単語概念ベース生成ステップにおいて、
生成された前記言語Bの単語の概念ベクトルを言語B単語概念ベース記憶手段に格納するステップを更に行い、
単語頻度算出手段が、言語Bの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出ステップと、
前記単語に基づいて前記言語B単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、前記出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力するステップと、
を行う請求項3記載の他言語の概念ベクトル生成方法。
【請求項5】
請求項1または2に記載の他言語の概念ベクトル生成装置を構成する各手段としてコンピュータを機能させるための他言語の概念ベクトル生成プログラム。
【請求項6】
請求項5記載の他言語の概念ベクトル生成プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−9238(P2010−9238A)
【公開日】平成22年1月14日(2010.1.14)
【国際特許分類】
【出願番号】特願2008−166340(P2008−166340)
【出願日】平成20年6月25日(2008.6.25)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】