説明

中国語の品詞を判定する装置、方法およびプログラム

【課題】品詞を判定のために必要なデータの作成労力を軽減することができる中国語の品詞判定装置を提供する。
【解決手段】日本語の単語列と、日本語の単語列に含まれる単語それぞれの日本語の品詞とを対応づけて記憶する単語列記憶部122と、日本語の品詞と、中国語の品詞とを対応づけて記憶する品詞対応記憶部123と、中国語の単語列を入力する入力部101と、入力された中国語の単語列を日本語の単語列に翻訳する翻訳部102と、翻訳された日本語の単語列に含まれる単語それぞれに対応する日本語の品詞を単語列記憶部122から検索する検索部103と、日本語の品詞が検索された日本語の単語の翻訳元である中国語の単語は、検索された日本語の品詞に対応する品詞対応記憶部123の中国語の品詞であると判定する判定部105と、を備えた。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、中国語単語列に対して各単語の品詞を決定する装置、方法およびプログラムに関する。
【背景技術】
【0002】
機械翻訳などの自然言語処理では、入力された文章中の各単語の品詞を決定しなければならないことが多い。そのためには、予め辞書中に各単語の品詞を付与しておく必要がある。特許文献1では、他の言語の品詞を流用して辞書中の単語への品詞付与の手間を軽減する技術が提案されている。
【0003】
一方、日本語、英語、および中国語など多くの言語では、表層的には同じ単語が複数の品詞を取る場合がある。このため、複数の品詞を取りうる単語が、入力された文章中ではいずれの品詞であるかを判定しなければならない。
【0004】
例えば、「管理する」を意味する動詞である中国語の単語は、2文字の中国語の漢字で表される。一方、同じ2文字の中国語の漢字は、「管理」を意味する名詞としても用いられる。したがって、この2文字の漢字の品詞が動詞および名詞のいずれであるかを、入力される文章の文脈に応じて正しく判定する工夫が必要になる。複数の品詞候補の中から適切な品詞を選択するための方法として、例えば「隠れマルコフモデル」に代表される統計的な手法が知られている。
【0005】
【特許文献1】特開平11−212974号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
しかしながら、このような統計的な手法では、統計値を取得するための正解事例となる訓練データが大量に必要になるという問題があった。また、訓練データを作成するために、複数の品詞を取り得る単語に対してすべての事例を人手でチェックする必要があった。
【0007】
本発明は、上記に鑑みてなされたものであって、品詞を判定するために必要なデータの作成労力を軽減することができる中国語の品詞判定装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上述した課題を解決し、目的を達成するために、本発明は、中国語の単語の品詞を判定する品詞判定装置であって、連結して用いられる複数の単語からなる日本語の単語列と、前記日本語の単語列に含まれる単語それぞれの日本語の品詞とを対応づけて記憶する単語列記憶部と、日本語の品詞と、中国語の品詞とを対応づけて記憶する品詞対応記憶部と、中国語の単語列を入力する入力部と、前記中国語の単語列を日本語に翻訳した翻訳単語列を生成する翻訳部と、前記翻訳単語列に含まれる連続する単語をキー単語列とし、前記キー単語列と一致する前記日本語の単語列に対応する日本語の品詞を前記単語列記憶部から検索する検索部と、検索された日本語の品詞に対応する中国語の品詞を前記品詞対応記憶部から取得する取得部と、取得された中国語の品詞が、前記キー単語列に含まれる単語の翻訳元である中国語の単語の品詞であると判定する判定部と、を備えたことを特徴とする。
【0009】
また、本発明は、上記装置を実行することができる方法およびプログラムである。
【発明の効果】
【0010】
本発明によれば、中国語の品詞を判定するために必要なデータの作成労力を軽減することができる中国語の品詞判定装置、方法およびプログラムを提供することができるという効果を奏する。
【発明を実施するための最良の形態】
【0011】
以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。
【0012】
本実施の形態にかかる品詞判定装置は、中国語の品詞を判定するときに、中国語と同様の漢字を使用する言語である日本語に関する以下の性質(1)〜(3)を利用する。
(1)動詞および名詞の両方の品詞を取り得る中国語単語の中には、日本語のサ変名詞に対応付けることができるものが存在する。
(2)日本語のサ変名詞の品詞判定は対応する中国語単語と比べて容易である。
(3)日本語と中国語の複合名詞の構成(語順)に共通点が存在する。
【0013】
より具体的には、本実施の形態にかかる品詞判定装置は、まず、日本語の語句として意味を有し、品詞が判定された日本語の単語列のデータベースを機械的に事前に構築しておく。そして、動詞および名詞の両方の品詞を取り得る中国語単語の品詞判定を行う際に、このデータベースの情報を参照する。なお、通常このようなデータベースの作成には人手によるチェックが必要となるが、上記(2)で述べたように、日本語の品詞判定は中国語より容易であるため、大量のテキストを収集し公知の形態素解析により自動単語分割・品詞付与を行うだけで、高精度に品詞を判定可能なデータベースを作成できる。
【0014】
なお、本実施の形態にかかる品詞判定装置は、例えば、入力された中国語の文章から用語を抽出する用語抽出装置や、入力された中国語の文章を構文解析する解析装置、入力された中国語の文章を他の言語に翻訳する機械翻訳装置などの装置で、中国語の文章を解析して得られた単語の品詞を判定する機能に適用できる。以下では、入力された中国語の文章から用語を抽出する用語抽出装置として品詞判定装置を実現した場合を例に説明する。
【0015】
図1は、本実施の形態にかかる用語抽出装置100の構成を示すブロック図である。図1に示すように、用語抽出装置100は、辞書記憶部121と、単語列記憶部122と、品詞対応記憶部123と、入力部101と、翻訳部102と、検索部103と、取得部104と、判定部105と、用語抽出部106とを備えている。
【0016】
辞書記憶部121は、中国語の文字と日本語の文字とを対応づけた対訳辞書を記憶する。図2は、対訳辞書のデータ構造の一例を示す図である。図2に示すように、対訳辞書は、中国語の単語(中国語単語)と、対訳関係にある日本語の単語(日本語訳語)とを対応づけて記憶している。
【0017】
なお、対訳辞書のデータ構造は図2に限られるものではなく、中国語を対応する日本語に変換可能なものであればあらゆる形式を適用できる。図3は、対訳辞書のデータ構造の別の例を示す図である。図3は、中国語の文字である漢字1文字を、対応する日本語の漢字と対応づけた対訳辞書(以下、中日文字対応テーブルという)の例を示している。
【0018】
図1に戻り、単語列記憶部122は、連結して用いられる複数の単語からなる語句として事前に求められた日本語の単語列と、日本語の単語列に含まれる単語それぞれの日本語の品詞を含む日本語品詞列とを記憶する。図4は、単語列記憶部122に格納されるデータのデータ構造の一例を示す図である。単語列記憶部122は、任意の長さの日本語単語列を記憶しておくことができるが、本実施の形態では、2単語の連続である単語列が記憶されているものとする。
【0019】
同図のような日本語単語列と、それらに対応する日本語品詞列を数多く集めるには、単語に分割され、各単語に品詞が付与された大量のテキスト(品詞タグ付きコーパス)が必要になる。単語分割結果と品詞付与結果をすべて人手でチェックすると、従来の手法と同様に大きな労力が必要となる。しかし、日本語の場合、公知の形態素解析技術を用いることにより、人手のチェックを行わなくても十分精度の高いデータが得られる。
【0020】
例えば、図2の日本語訳語212(「管理」)は名詞として用いられ、特定の格助詞(「が」、「を」、「に」など)を伴う場合が多い。一方、日本語訳語212は、文脈に応じた活用語尾(「し」、「する」、「すれ」、「せよ」など)を伴うことによって動詞として用いられる場合もある。例えば、図2の日本語訳語211は、日本語訳語212に活用語尾213(「する」)が付加された動詞の単語を表している。このように、日本語の場合は、明確な形態的特徴が存在するため、計算機による機械的な判定処理でも比較的精度よく品詞を決定することができる。
【0021】
一方、日本語訳語212(「管理」)に対応する中国語単語201も、動詞および名詞の両方で用いられる。しかし、中国語には日本語の活用語尾や格助詞に相当するものが存在しないため、計算機による機械的な判定処理の精度は、日本語の場合よりも低い。
【0022】
なお、上記(2)のように日本語のサ変名詞の品詞判定の精度が高いため、本実施の形態では名詞の単語のみからなる単語列の判定結果を単語列記憶部122に記憶するものとする。ただし、日本語単語列に含まれる単語の品詞は名詞に限られるものではなく、他の品詞の単語を含む日本語単語列を単語列記憶部122に格納することもできる。
【0023】
図1に戻り、品詞対応記憶部123は、日本語の品詞と、中国語の品詞とを対応づけて記憶する。図5は、品詞対応記憶部123に格納されるデータのデータ構造の一例を示す図である。図5に示すように、品詞対応記憶部123は、日本語の品詞(日本語品詞)と、対応する中国語の品詞(中国語品詞)を対応づけて記憶している。
【0024】
なお、辞書記憶部121、単語列記憶部122、および品詞対応記憶部123は、HDD(Hard Disk Drive)、光ディスク、メモリカード、RAM(Random Access Memory)などの一般的に利用されているあらゆる記憶媒体により構成することができる。
【0025】
図1に戻り、入力部101は、中国語の単語列の入力を受け付ける。なお、単語列は、単語ごとに区切られて入力される。
【0026】
翻訳部102は、中国語単語をキーとして図2に示すような辞書記憶部121を参照し、対応する日本語訳語を検索することにより、入力された中国語の単語列を日本語に翻訳し、翻訳結果である翻訳単語列を生成する。なお、図3に示すような中日文字対応テーブルを用いる場合は、翻訳部102は、中国語の単語列を構成する文字を1文字ずつキーとして対応する日本語文字を検索することにより、入力された中国語の単語列を日本語に翻訳する。
【0027】
例えば、図2の中国語単語201がキーとして与えられたとき、翻訳部102は、図2のような辞書記憶部121から、日本語訳語211(「管理する」)と日本語訳語212(「管理」)の2つを取得することができる。
【0028】
図3の中日文字対応テーブルを用いる場合に、図2の中国語単語201がキーとして与えられたときは、翻訳部102は、まず、中国語単語201を1文字ずつ分割する。これにより、図3の中国語文字301および中国語文字302が得られる。さらに、翻訳部102は、各文字をキーとして中日文字対応テーブルを検索することにより日本語文字311(「管」)および日本語文字312(「理」)をそれぞれ取得する。そして、翻訳部102は、中国語単語201に対応する日本語の訳語として、取得した日本語文字311および日本語文字312を連結した単語である図2の日本語訳語212(「管理」)を得ることができる。
【0029】
図1に戻り、検索部103は、入力された中国語の単語列に対して翻訳部102によって得られた翻訳単語列に含まれる単語それぞれに対応する日本語の品詞を単語列記憶部122から検索する。具体的には、検索部103は、翻訳単語列のうち、検索キーとして利用する2つの連続する単語からなる単語列(キー単語列)を順次選択し、選択したキー単語列と一致する日本語単語列に対応づけられた日本語品詞列を単語列記憶部122から検索する。
【0030】
取得部104は、中国語の単語列に含まれる単語のうち、当該単語を翻訳した日本語の単語に対して検索部103によって日本語の品詞が検索された単語に対して、検索された日本語の品詞に対応する中国語の品詞を品詞対応記憶部123から取得する。
【0031】
判定部105は、中国語の単語列に含まれる単語の品詞を判定する。具体的には、判定部105は、取得部104によって取得された中国語の品詞を、対応する中国語の単語の品詞であると判定する。なお、判定部105は、入力された中国語の単語列に含まれる単語に、判定した品詞を対応づけて出力する。
【0032】
用語抽出部106は、入力された中国語の単語列から、判定部105によって判定された品詞を参照して用語抽出する。
【0033】
次に、このように構成された本実施の形態にかかる用語抽出装置100による用語抽出処理について図6を用いて説明する。図6は、本実施の形態における用語抽出処理の全体の流れを示すフローチャートである。また、図7〜図9は、用語抽出処理過程で得られる各種データを格納する処理テーブルの一例を示す図である。
【0034】
以下では、図7の中国語表記欄に示した4つの単語からなる中国語単語列が入力された場合を例に説明する。
【0035】
まず、入力部101は、上記4つの単語からなる中国語単語列を入力する(ステップS601)。入力部101は、図7に示すように入力した中国語単語列を単語ごとに分割して先頭から順にIDを付与して処理テーブルの「中国語表記」の列に設定する。
【0036】
次に、翻訳部102は、図2のような対訳辞書を参照し、中国語の単語列を対応する日本語に翻訳する(ステップS602)。まず、翻訳部102は、最初の中国語単語である図7のID=0の単語をキーとして、対訳辞書の「中国語単語」の列を検索する。この場合、中国語単語204がキーと一致するため、翻訳部102は、対応する2つの日本語訳語216(「改革する(動詞)」)と日本語訳語217(「改革(名詞)」)を取得する。
【0037】
なお、本実施の形態では上述のように名詞の判定のみを行うため、翻訳部102は、名詞の訳語である日本語訳語(「改革(名詞)」)のみを採用する。また、品詞の情報は以降の処理では不要であるため、翻訳部102は、括弧で囲んだ品詞の情報を取り除いた部分のみを取得する。
【0038】
次に、翻訳部102は、次の中国語単語である図7のID=1の単語をキーとして、対訳辞書の「中国語単語」の列を検索する。この場合、中国語単語202がキーと一致するため、翻訳部102は、対応する日本語訳語214(「資産(名詞)」)を取得する。同様にして、図7のID=2の中国語単語については、図2の中国語単語201に対応する日本語訳語212(「管理」)が得られる。また、図7のID=3の中国語単語については、図2の中国語単語203に対応する日本語訳語215(「体制」)が得られる。
【0039】
取得された日本語訳語は、処理テーブルの「日本語表記」の列に設定される。図8は、このようにして「日本語表記」の列が設定された状態の処理テーブルを示す。なお、「日本語表記」の列に設定された日本語訳語をID順に並べた単語列が、入力された中国語の単語列を翻訳した翻訳単語列に相当する。
【0040】
次に、検索部103は、翻訳単語列の先頭から順に1つの単語を取得する(ステップS603)。次に、検索部103は、取得した単語の左隣の単語の日本語表記と、取得した単語の日本語表記とを連結した単語列をキー単語列として、単語列記憶部122を検索する(ステップS604)。なお、単語列記憶部122に、図4に示すようなデータが記憶されているものとする。先頭の単語については、左隣の単語が存在しないため、検索部103は、単語列記憶部122の検索は実行しない。
【0041】
次に、検索部103は、取得した単語の日本語表記と、取得した単語の右隣の単語の日本語表記とを連結した単語列をキー単語列として、単語列記憶部122を検索する(ステップS605)。例えば、検索部103は、図8のID=0の日本語表記(「改革」)と、右隣のID=1の日本語表記(「資産」)とを連結した単語列(「改革/資産」)をキー単語列とする。この場合は、キー単語列と一致する日本語単語列が、図4の単語列記憶部122には登録されていないため、何も検索結果が得られない。
【0042】
なお、ステップS604およびステップS605で、それぞれ単語の左隣および右隣の単語を連結したキー単語列を用いているが、処理の効率化のため、取得した単語の右隣の単語を連結した単語列のみをキー単語列として品詞を判定するように構成してもよい。
【0043】
次に、検索部103は、ステップS604またはステップS605で、単語列記憶部122からキー単語列と一致する日本語単語列が検索されたか否かを判断する(ステップS606)。日本語単語列が検索されなかった場合は(ステップS606:NO)、検索部103は、すべての単語を処理したか否かを判断する(ステップS610)。すべての単語を処理していない場合は(ステップS610:NO)、検索部103は、次の単語を取得して処理を繰り返す(ステップS603)。
【0044】
最初の単語については、1件も検索結果が得られないため、検索部103は、ステップS603に戻って次の単語を取得する。2番目の単語であるID=1の単語については、検索部103は、日本語表記(「資産」)と、その左隣のID=0の日本語表記(「改革」)とを連結した単語列(「改革/資産」)をキー単語列とする。この場合も、キー単語列と一致する日本語単語列が登録されていないため、何も検索結果が得られない(ステップS604)。
【0045】
右隣のID=2の日本語表記(「管理」)を連結した単語列(「資産/管理」)をキー単語列とした場合、検索部103は、単語列記憶部122からキー単語列と一致する日本語単語列401を検索できる(ステップS605)。
【0046】
この例のように日本語単語列が検索された場合は(ステップS606:YES)、検索部103は、検索された日本語単語列に対応する日本語品詞列を単語列記憶部122から取得する(ステップS607)。例えば、日本語単語列401が検索された場合は、検索部103は、対応する日本語品詞列411(「名詞/名詞」)を図4のような単語列記憶部122から取得することができる。なお、検索部103は、取得した品詞列を、それぞれ単語の順序にしたがって処理テーブルの「日本語品詞」の列に設定する。
【0047】
次に、取得部104は、取得した日本語の品詞に対応する中国語の品詞を品詞対応記憶部123から取得する(ステップS608)。取得部104は、例えば、日本語の品詞「名詞」に対しては、図5のような品詞対応記憶部123から、中国語の品詞「名詞」を取得する。取得部104は、取得した中国語の品詞を、対応する単語の「中国語品詞」の列に設定する。
【0048】
次に、判定部105は、取得された中国語の品詞が、翻訳単語列に含まれる単語の翻訳元である中国語の単語の品詞であると判定する(ステップS609)。例えば、ID=1の単語の「中国語品詞」の列には「名詞」が設定されるため、判定部105は、ID=1の中国語単語の品詞は「名詞」であると判定する。
【0049】
3番目の単語であるID=2の中国語単語、および4番目の単語であるID=3の中国語単語についても同様の処理が行われ、判定部105は、いずれも「名詞」であるという判定結果を得る。最終的な処理結果は図9のような処理テーブルで表される。すなわち、この例では、1番目の中国語単語は名詞ではなく、2〜4番目の中国語単語はそれぞれ名詞であるという品詞判定結果が得られる。
【0050】
なお、同図では省略しているが、上記手法により品詞が判定できなかった単語については、従来から用いられている手法によって品詞を判定する。
【0051】
すべての単語について処理が終わり、ステップS610ですべての単語が処理されたと判断された場合(ステップS610:YES)、用語抽出部106は、判定結果にしたがって、入力された中国語単語列に対して用語抽出を実行する(ステップS611)。例えば、名詞の連続を用語として抽出すると、図9のID=1、ID=2、ID=3の中国語表記を連結したものが用語として抽出される。
【0052】
このように、本実施の形態にかかる品詞判定装置では、中国語単語を日本語単語に変換し、日本語単語列の品詞情報を参照することでその中国語単語の品詞を判定することができる。単語列の品詞情報を作成するには、品詞タグ付きコーパスが必要となるが、日本語については、公知の形態素解析技術を用いることで人手をかけずに高精度な品詞タグ付きコーパスを構築することができる。このため、中国語の品詞タグ付きコーパスを利用する従来手法に対して、著しく小さな労力で中国語の品詞を判定可能な品詞判定装置を得ることができる。
【0053】
次に、本実施の形態にかかる品詞判定装置のハードウェア構成について図10を用いて説明する。図10は、本実施の形態にかかる品詞判定装置のハードウェア構成を示す説明図である。
【0054】
本実施の形態にかかる品詞判定装置は、CPU(Central Processing Unit)51などの制御装置と、ROM(Read Only Memory)52やRAM53などの記憶装置と、ネットワークに接続して通信を行う通信I/F54と、各部を接続するバス61を備えている。
【0055】
本実施の形態にかかる品詞判定装置で実行される品詞判定プログラムは、ROM52等に予め組み込まれて提供される。
【0056】
本実施の形態にかかる品詞判定装置で実行される品詞判定プログラムは、インストール可能な形式又は実行可能な形式のファイルでCD−ROM(Compact Disk Read Only Memory)、フレキシブルディスク(FD)、CD−R(Compact Disk Recordable)、DVD(Digital Versatile Disk)等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0057】
さらに、本実施の形態にかかる品詞判定装置で実行される品詞判定プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施の形態にかかる品詞判定装置で実行される品詞判定プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【0058】
本実施の形態にかかる品詞判定装置で実行される品詞判定プログラムは、上述した各部(入力部、翻訳部、検索部、判定部、用語抽出部)を含むモジュール構成となっており、実際のハードウェアとしてはCPU51が上記ROM52から品詞判定プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【0059】
以上のように、本発明にかかる装置、方法およびプログラムは、中国語の品詞判定が必要な中国語の用語抽出装置、中国語の構文解析装置、中国語を翻訳する機械翻訳装置などに適している。
【図面の簡単な説明】
【0060】
【図1】本実施の形態にかかる品詞判定装置としての用語抽出装置の構成を示すブロック図である。
【図2】対訳辞書のデータ構造の一例を示す図である。
【図3】対訳辞書のデータ構造の別の例を示す図である。
【図4】単語列記憶部に格納されるデータのデータ構造の一例を示す図である。
【図5】品詞対応記憶部に格納されるデータのデータ構造の一例を示す図である。
【図6】本実施の形態における用語抽出処理の全体の流れを示すフローチャートである。
【図7】処理テーブルの一例を示す図である。
【図8】処理テーブルの一例を示す図である。
【図9】処理テーブルの一例を示す図である。
【図10】本実施の形態にかかる品詞判定装置のハードウェア構成を示す説明図である。
【符号の説明】
【0061】
51 CPU
52 ROM
53 RAM
54 通信I/F
61 バス
100 解析装置
101 入力部
102 翻訳部
103 検索部
104 取得部
105 判定部
106 用語抽出部
121 辞書記憶部
122 単語列記憶部
123 品詞対応記憶部
201〜204 中国語単語
211、212、214〜217 日本語訳語
213 活用語尾
301、302 中国語文字
311、312 日本語文字
401 日本語単語列
411 日本語品詞列

【特許請求の範囲】
【請求項1】
中国語の単語の品詞を判定する品詞判定装置であって、
連結して用いられる複数の単語からなる日本語の単語列と、前記日本語の単語列に含まれる単語それぞれの日本語の品詞とを対応づけて記憶する単語列記憶部と、
日本語の品詞と、中国語の品詞とを対応づけて記憶する品詞対応記憶部と、
中国語の単語列を入力する入力部と、
前記中国語の単語列を日本語に翻訳した翻訳単語列を生成する翻訳部と、
前記翻訳単語列に含まれる連続する単語をキー単語列とし、前記キー単語列と一致する前記日本語の単語列に対応する日本語の品詞を前記単語列記憶部から検索する検索部と、
検索された日本語の品詞に対応する中国語の品詞を前記品詞対応記憶部から取得する取得部と、
取得された中国語の品詞が、前記キー単語列に含まれる単語の翻訳元である中国語の単語の品詞であると判定する判定部と、
を備えたことを特徴とする品詞判定装置。
【請求項2】
前記単語列記憶部は、品詞が名詞である複数の単語からなる前記日本語の単語列と、前記日本語の単語列に含まれる単語それぞれの日本語の品詞とを対応づけて記憶すること、
を特徴とする請求項1に記載の品詞判定装置。
【請求項3】
前記判定部は、さらに、入力された中国語に単語列に含まれる単語に、判定した中国語の品詞を対応づけ、
品詞が対応づけられた単語を含む前記中国語の単語列から用語を抽出する用語抽出部をさらに備えたこと、
を特徴とする請求項1に記載の品詞判定装置。
【請求項4】
前記単語列記憶部は、予め定められた個数の単語からなる前記日本語の単語列と、前記日本語の単語列に含まれる単語それぞれの品詞とを対応づけて記憶し、
前記検索部は、前記翻訳単語列に含まれる連続する前記個数の単語からなる前記キー単語列を選択し、前記キー単語列と一致する前記日本語の単語列に対応する日本語の品詞を前記単語列記憶部から検索すること、
を特徴とする請求項1に記載の品詞判定装置。
【請求項5】
前記検索部は、前記翻訳単語列に含まれる連続する前記個数の単語からなる前記キー単語列を選択し、前記キー単語列と一致する前記日本語の単語列を前記単語列記憶部から検索し、検索した前記日本語の単語列に含まれる単語それぞれに対応する日本語の品詞を前記単語列記憶部から検索すること、
を特徴とする請求項4に記載の品詞判定装置。
【請求項6】
中国語の文字と、日本語の文字とを対応づけて記憶する辞書記憶部をさらに備え、
前記翻訳部は、入力された中国語の単語列に含まれる文字それぞれに対応する日本語の文字を前記辞書記憶部から取得することにより、入力された中国語の単語列を日本語の単語列に翻訳すること、
を特徴とする請求項1に記載の品詞判定装置。
【請求項7】
前記辞書記憶部は、中国語の単語と、日本語の単語とを対応づけて記憶し、
前記翻訳部は、入力された中国語の単語列に含まれる単語それぞれに対応する日本語の単語を前記辞書記憶部から取得することにより、入力された中国語の単語列を日本語の単語列に翻訳すること、
を特徴とする請求項1に記載の品詞判定装置。
【請求項8】
中国語の単語の品詞を判定する品詞判定装置で実行される品詞判定方法であって、
前記品詞判定装置は、
連結して用いられる複数の単語からなる日本語の単語列と、前記日本語の単語列に含まれる単語それぞれの日本語の品詞とを対応づけて記憶する単語列記憶部と、
日本語の品詞と、中国語の品詞とを対応づけて記憶する品詞対応記憶部と、を備え、
入力部が、中国語の単語列を入力する入力ステップと、
翻訳部が、前記中国語の単語列を日本語に翻訳した翻訳単語列を生成する翻訳ステップと、
検索部が、前記翻訳単語列に含まれる連続する単語をキー単語列とし、前記キー単語列と一致する前記日本語の単語列に対応する日本語の品詞を前記単語列記憶部から検索する検索ステップと
取得部が、検索された日本語の品詞に対応する中国語の品詞を前記品詞対応記憶部から取得する取得ステップと、
判定部が、取得された中国語の品詞が、前記キー単語列に含まれる単語の翻訳元である中国語の単語の品詞であると判定する判定ステップと
を備えたことを特徴とする品詞判定方法。
【請求項9】
コンピュータを、
連結して用いられる複数の単語からなる日本語の単語列と、前記日本語の単語列に含まれる単語それぞれの日本語の品詞とを対応づけて記憶する単語列記憶部と、
日本語の品詞と、中国語の品詞とを対応づけて記憶する品詞対応記憶部と、
中国語の単語列を入力する入力部と、
前記中国語の単語列を日本語に翻訳した翻訳単語列を生成する翻訳部と、
前記翻訳単語列に含まれる連続する単語をキー単語列とし、前記キー単語列と一致する前記日本語の単語列に対応する日本語の品詞を前記単語列記憶部から検索する検索部と、
検索された日本語の品詞に対応する中国語の品詞を前記品詞対応記憶部から取得する取得部と、
取得された中国語の品詞が、前記キー単語列に含まれる単語の翻訳元である中国語の単語の品詞であると判定する判定部と、
として機能させる品詞判定プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate


【公開番号】特開2009−205357(P2009−205357A)
【公開日】平成21年9月10日(2009.9.10)
【国際特許分類】
【出願番号】特願2008−46030(P2008−46030)
【出願日】平成20年2月27日(2008.2.27)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】