他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体

【課題】概念ベースを持たない言語において、固有名詞を含んだ概念ベクトルを高精度に算出する。
【解決手段】本発明は、言語Ｂの単語が２言語辞書記憶手段に登録されていない場合に、該言語Ｂの単語に基づいて、言語Ｂ固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて言語Ａ概念ベース記憶手段を参照して、該言語Ｂの単語の概念ベクトルを生成する。更に、生成された言語Ｂの単語の概念ベクトルを言語Ｂ単語概念ベース記憶手段に格納し、言語Ｂの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求め、単語に基づいて言語Ｂ単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に係り、特に、単語や文書の特徴をベクトルで表す他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体に関する。
【背景技術】
【０００２】
２つの自然言語(言語Ａ，言語Ｂと記す)があり、一方の言語Ａについて単語の特徴を表すベクトル（これを言語Ａの概念ベースと呼ぶ）が登録されているときに、他方の言語Ｂで使用される単語を言語Ａで使用される単語で説明するデータベース（２言語辞書）を用いて、言語Ｂの単語の特徴を表す（言語Ｂの概念ベースと呼ぶ）を生成する方法がある（例えば、特許文献１参照）。
【特許文献１】特開２００３−３４５８２８号公報
【発明の開示】
【発明が解決しようとする課題】
【０００３】
上記の従来技術は、日本語の単語の特徴をベクトル(これを概念ベクトルと呼ぶ)で表す概念ベースがある場合に、２言語辞書として英和辞典を用い、英語の単語の特徴をベクトルで表す概念ベースを構築することができる。しかし、英語の固有名詞(人名、地名、企業名、団体名、…)については、「Florida」のように有名な地名や人名を除いて対応する日本語がないことが多い。また、それをカタカナで表記したとしても、日本語においてよく使われている単語でなければ、そのカタカナ表記に対応するベクトルが存在しない。このように固有名詞については対応する概念ベクトルを算出することが難しい。そのため、固有名詞を含んだ文書の特徴を概念ベクトルで表す場合に精度が低下するという問題がある。
【０００４】
本発明は、上記の点に鑑みなされたもので、概念ベースを持たない言語において、固有名詞を含んだ概念ベクトルを高精度に算出することが可能な他言語の概念ベクトル生成装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体を提供することを目的とする。
【課題を解決するための手段】
【０００５】
図１は、本発明の原理構成図である。
【０００６】
本発明（請求項１）は、言語Ａと言語Ｂの２つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成装置であって、
言語Ｂの見出し語が言語Ａで説明されている２言語辞書を格納した２言語辞書記憶手段４０と、
言語Ｂの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Ｂの固有名詞の意味カテゴリ表を格納した言語Ｂ固有名詞意味カテゴリ表記憶手段５０と、
言語Ａの単語に対応する概念ベクトルを格納した言語Ａ概念ベース記憶手段６０と、
言語Ｂの単語が２言語辞書記憶手段４０に登録されていない場合に、該言語Ｂの単語に基づいて、言語Ｂ固有名詞意味カテゴリ表記憶手段５０を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて言語Ａ概念ベース記憶手段６０を参照して、該言語Ｂの単語の概念ベクトルを生成する単語概念ベース生成手段１０と、を有する。
【０００７】
また、本発明（請求項２）は、単語概念ベース生成手段１０において、
生成された言語Ｂの単語の概念ベクトルを言語Ｂ単語概念ベース記憶手段に格納する手段含み、
言語Ｂの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出手段と、
単語に基づいて言語Ｂ単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する手段と、
を更に有する。
【０００８】
図２は、本発明の原理を説明するための図である。
【０００９】
本発明（請求項３）は、言語Ａと言語Ｂの２つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成方法であって、
言語Ｂの見出し語が言語Ａで説明されている２言語辞書を格納した２言語辞書記憶手段と、
言語Ｂの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Ｂの固有名詞の意味カテゴリ表を格納した言語Ｂ固有名詞意味カテゴリ表記憶手段と、
言語Ａの単語に対応する概念ベクトルを格納した言語Ａ概念ベース記憶手段と、を有する装置において、
単語概念ベース生成手段が、言語Ｂの単語が２言語辞書記憶手段に登録されていない場合に(ステップ１、Ｎｏ)、該言語Ｂの単語に基づいて、言語Ｂ固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し(ステップ２)、該意味カテゴリ名に基づいて言語Ａ概念ベース記憶手段を参照して、該言語Ｂの単語の概念ベクトルを生成する単語概念ベース生成ステップを行う(ステップ３)。
【００１０】
また、本発明（請求項４）は、単語概念ベース生成ステップ（ステップ３）において、
生成された言語Ｂの単語の概念ベクトルを言語Ｂ単語概念ベース記憶手段に格納するステップを含み、
単語頻度算出手段が、言語Ｂの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出ステップと、
単語に基づいて言語Ｂ単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力するステップと、
を更に行う。
【００１１】
本発明（請求項５）は、請求項１または２に記載の他言語の概念ベクトル生成装置を構成する各手段としてコンピュータを機能させるための他言語の概念ベクトル生成プログラムである。
【００１２】
本発明（請求項６）は、請求項５記載の他言語の概念ベクトル生成プログラムを格納したコンピュータ読取可能な記録媒体である。
【発明の効果】
【００１３】
上記のように本発明によれば、概念ベースを持たない言語Ｂについては、当該言語Ｂの固有名詞の意味カテゴリを表す意味カテゴリ表に言語Ｂの単語(固有名詞)が含まれていれば、その固有名詞に対応付けられている意味カテゴリ名をもとに、概念ベースを持つ言語Ａの単語の概念ベクトルを用いて概念ベクトルを生成するため、言語Ｂについて、固有名詞を含んだ文書の概念ベクトルを、従来より高精度に算出することができ、類似文書や文書分類などの精度を高めることができる。
【発明を実施するための最良の形態】
【００１４】
以下、図面と共に本発明の実施の形態を説明する。
【００１５】
以下では、言語Ｂが単語概念ベースを持たないものとして説明する。
【００１６】
図３は、本発明の一実施の形態における他言語の概念ベクトル生成装置の構成を示す。
【００１７】
同図に示す他言語の概念ベクトル生成装置は、単語概念生成部１０、単語頻度算出部２０、文書ベクトル算出部３０、２言語辞書４０、言語Ｂの固有名所の意味カテゴリ表５０、言語Ａ単語概念ベース６０、言語Ｂ単語頻度概念ベース７０から構成される。
【００１８】
本実施の形態では、上記の２言語辞書４０、言語Ｂの固有名所の意味カテゴリ表５０、言語Ａ単語概念ベース６０、言語Ｂ単語頻度概念ベース７０は、データベースに格納されているものとして説明する。
【００１９】
２言語辞書４０は、言語Ｂの見出し語が言語Ａで説明されている辞書である。
【００２０】
言語Ｂの固有名詞の意味カテゴリ表５０は、(Bayfield→地名)のようにより抽象化された意味カテゴリへの対応が示されている。意味カテゴリは２言語辞書４０により言語Ａで説明できれば、言語Ｂで表されていても構わない。
【００２１】
言語Ａの単語概念ベース６０は、言語Ａに関し単語に対応する概念ベクトルが格納されている。
【００２２】
単語概念ベース生成部１０では、上記の２言語辞書４０、言語Ｂの固有名所の意味カテゴリ表５０、言語Ａ単語概念ベース６０の要素から言語Ｂの単語概念ベース７０を生成する。詳細については図４において説明する。
【００２３】
単語頻度算出部２０は、言語Ｂの文書が入力されると、言語Ｂ単語概念ベース７０を参照することにより当該文書の特徴を表す文書ベクトル(＝文書概念ベクトル)を算出する。
【００２４】
図４は、本発明の一実施の形態における動作のフローチャートである。
【００２５】
ステップ１０１）まず、単語概念ベース生成部１０において、２言語辞書４０に言語Ｂの単語に関する説明語があるかを判定し、ある場合はステップ１０２に移行し、ない場合はステップ１０３に移行する。
【００２６】
ステップ１０２）単語概念ベース生成部１０は、言語Ｂの単語について、２言語辞書４０で説明されている単語に関して、前述の特許文献１で示されている方法により、言語Ａによる説明語の個々に対して言語Ａの単語概念ベース６０からベクトルを取り出して対応する言語Ｂの単語概念ベクトルを算出し、ステップ１０４に移行する。
【００２７】
ステップ１０３）一方、２言語辞書４０で説明されていない場合、つまり、言語Ｂの単語が２言語辞書４０に記載されていない場合は、当該言語Ｂの単語（固有名詞）に基づいて、言語Ｂの固有名詞の意味カテゴリ表５０を参照して、当該固有名詞に対応付けられている意味カテゴリ名を取得し、当該意味カテゴリ名に基づいて、言語Ａ単語概念ベース６０を参照して概念ベクトルを生成する。
【００２８】
ステップ１０４）上記のステップ１０２、または、ステップ１０３で算出された言語Ｂの単語についての概念ベクトルを束ねて言語Ｂの単語概念ベース７０に格納する。
【００２９】
ステップ１０５）上記のステップ１０４までの処理で言語Ｂの単語概念ベース７０が生成された後に、言語Ｂの文書が入力される。
【００３０】
ステップ１０６）単語頻度算出部２０は、言語Ｂの文書が入力されると、形態素解析によって文書を単語に分割し、単語が文書に出現する頻度を求め、メモリ（図示せず）に格納する。
【００３１】
ステップ１０７）次に、文書ベクトル算出部３０において、ステップ１０５で得られた単語に基づいて、言語Ｂ単語概念ベース７０を参照することにより、単語をベクトルに変換する。
【００３２】
ステップ１０８）ステップ１０６において求められた単語の出現頻度により加重平均をとり、これを文書ベクトルとして出力する。
【００３３】
なお、上記の図３に示す構成要素の動作をプログラムとして構築し、他言語の概念ベクトル生成装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【００３４】
また、構築されたプログラムをハードディスクや、フレキシブルディスク・ＣＤ−ＲＯＭ等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【００３５】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【産業上の利用可能性】
【００３６】
本発明は、自然言語処理技術の特に、２つの自然言語の概念ベースを生成する技術に適用可能である。
【図面の簡単な説明】
【００３７】
【図１】本発明の原理構成図である。
【図２】本発明の原理を説明するための図である。
【図３】本発明の一実施の形態における他言語の概念ベクトル生成装置の構成図である。
【図４】本発明の一実施の形態における動作のフローチャートである。
【符号の説明】
【００３８】
１０単語概念ベース生成手段
２０単語頻度算出部
３０文書ベクトル算出部
４０２言語辞書記憶手段、２言語辞書
５０言語Ｂ固有名詞意味カテゴリ表記憶手段、言語Ｂの固有名詞の意味カテゴリ表
６０言語Ａ概念ベース記憶手段、言語Ａ単語概念ベース
７０言語Ｂ単語概念ベース

【特許請求の範囲】
【請求項１】
言語Ａと言語Ｂの２つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成装置であって、
前記言語Ｂの見出し語が前記言語Ａで説明されている２言語辞書を格納した２言語辞書記憶手段と、
前記言語Ｂの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Ｂの固有名詞の意味カテゴリ表を格納した言語Ｂ固有名詞意味カテゴリ表記憶手段と、
前記言語Ａの単語に対応する概念ベクトルを格納した言語Ａ概念ベース記憶手段と、
前記言語Ｂの単語が前記２言語辞書記憶手段に登録されていない場合に、該言語Ｂの単語に基づいて、前記言語Ｂ固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて前記言語Ａ概念ベース記憶手段を参照して、該言語Ｂの単語の概念ベクトルを生成する単語概念ベース生成手段と、
を有することを特徴とする他言語の概念ベクトル生成装置。
【請求項２】
前記単語概念ベース生成手段は、
生成された前記言語Ｂの単語の概念ベクトルを言語Ｂ単語概念ベース記憶手段に格納する手段含み、
言語Ｂの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出手段と、
前記単語に基づいて前記言語Ｂ単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、前記出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力する手段と、
を更に有する請求項１記載の他言語の概念ベクトル生成装置。
【請求項３】
言語Ａと言語Ｂの２つの自然言語の概念ベクトルを生成するための他言語の概念ベクトル生成方法であって、
前記言語Ｂの見出し語が前記言語Ａで説明されている２言語辞書を格納した２言語辞書記憶手段と、
前記言語Ｂの固有名詞を抽象化した意味カテゴリへの対応を記載した言語Ｂの固有名詞の意味カテゴリ表を格納した言語Ｂ固有名詞意味カテゴリ表記憶手段と、
前記言語Ａの単語に対応する概念ベクトルを格納した言語Ａ概念ベース記憶手段と、を有する装置において、
単語概念ベース生成手段が、前記言語Ｂの単語が前記２言語辞書記憶手段に登録されていない場合に、該言語Ｂの単語に基づいて、前記言語Ｂ固有名詞意味カテゴリ表記憶手段を参照して、該単語に対応付けられている意味カテゴリ名を取得し、該意味カテゴリ名に基づいて前記言語Ａ概念ベース記憶手段を参照して、該言語Ｂの単語の概念ベクトルを生成する単語概念ベース生成ステップを行う
ことを特徴とする他言語の概念ベクトル生成方法。
【請求項４】
前記単語概念ベース生成ステップにおいて、
生成された前記言語Ｂの単語の概念ベクトルを言語Ｂ単語概念ベース記憶手段に格納するステップを更に行い、
単語頻度算出手段が、言語Ｂの文書が入力されると、該文書を単語分割し、分割された単語の該文書における出現頻度を求める単語頻度算出ステップと、
前記単語に基づいて前記言語Ｂ単語概念ベース記憶手段を参照して、該単語をベクトルに変換し、前記出現頻度による加重平均をとり、該加重平均を文書ベクトルして出力するステップと、
を行う請求項３記載の他言語の概念ベクトル生成方法。
【請求項５】
請求項１または２に記載の他言語の概念ベクトル生成装置を構成する各手段としてコンピュータを機能させるための他言語の概念ベクトル生成プログラム。
【請求項６】
請求項５記載の他言語の概念ベクトル生成プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。

【図１】