説明

中国語文章誤り検出装置、中国語文章誤り検出方法および記録媒体

【課題】中国語文章誤り検出装置を提供する。
【解決手段】本発明の装置は、第1の誤り文字列を第1の文字の組に切り分ける文章切り分けモジュール、複数の第1の正しい文字列及び複数の第1のインデックスを有するデータベース、第1の文字の組に対応する第1のインデックスを得ると共に対応する第1の正しい文字列を得る候補語生成モジュール、最適候補センテンスを生成する候補センテンス生成及び得点付けモジュール、中国語文字と最適候補センテンスを表示する表示装置を有する。なお、第1の文字の組は第1の誤り文字列中の任意の2つの連続するおよび連続しない文字からなり、第1のインデックスは第1の正しい文字列中の任意の2つの連続するおよび連続しない文字からなる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、中国語文章誤り検出装置に関し、特にバイグラム(bi-gram)切り分けメカニズムの中国語文章誤り検出装置に関する。
【背景技術】
【0002】
コンピュータの使用がますます普及してきている昨今では、文書の作成もコンピュータに頼ることが多くなっている。中国語は、同音の文字が多く、また、同じパーツを持つ似通った文字も多い。このため、中国語の文字は煩瑣かつ複雑となっており、文書作成者は文章中に誤った文字を使い易い。
よって、中国語が煩瑣であることによって起こる誤記の問題を解決できるような中国語文章の誤りを検出可能なシステムおよび方法が必要である。
【発明の開示】
【発明が解決しようとする課題】
【0003】
上述に鑑みて、本発明の目的は中国語文章誤り検出装置、中国語文章誤り検出方法および記録媒体を提供することにある。
【課題を解決するための手段】
【0004】
本発明は、第1の位置に位置する第1の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出装置を開示する。該装置は、文章切り分けモジュール、データベース、候補語生成モジュール、候補センテンス生成および得点付けモジュール、ならびに表示装置を含む。文章切り分けモジュールは、第1の誤り文字列を複数の第1の文字の組に切り分ける。第1の文字の組は、第1の誤り文字列中の任意の2つの連続するおよび連続しない文字からなる。データベースは、複数の第1の正しい文字列および第1の正しい文字列に対応する複数の第1のインデックスを有する。第1のインデックスは、第1の正しい文字列中の任意の2つの連続するおよび連続しない文字からなる。候補語生成モジュールは、第1の文字の組に対応する第1のインデックスを得ると共に、得られた第1のインデックスに基づいて対応する第1の正しい文字列を得る。候補センテンス生成および得点付けモジュールは、得られた第1の正しい文字列に基づいて最適候補センテンスを生成する。表示装置は中国語文字列および上記最適候補センテンスを表示する。
【0005】
また、本発明は、第1の位置に位置する第1の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出方法を提供する。該方法は次の工程を含む。第1の誤り文字列を複数の第1の文字の組に切り分ける。第1の文字の組は、第1の誤り文字列中の任意の2つの連続するおよび連続しない文字からなる。複数の第1の正しい文字列、および第1の正しい文字列に対応する複数の第1のインデックスを有するデータベースを提供する。第1のインデックスは、第1の正しい文字列中の任意の2つの連続するおよび連続しない文字からなる。第1の文字の組に基づいて第1の文字の組に対応する第1のインデックスを得ると共に、得られた第1のインデックスに基づいて対応する第1の正しい文字列を得る。得られた第1の正しい文字列に基づいて最適候補センテンスを生成する。最後に表示装置に中国語文字列および最適候補センテンスを表示する。
【0006】
また本発明は、コンピュータシステムにロードされてコンピュータシステムに中国語文章誤り検出方法を実行させる複数のプログラムコードを含む中国語文章誤り検出プログラムを格納した記録媒体をも開示する。該中国語文章誤り検出方法は、第1の位置に位置する第1の誤り文字列を含む中国語文字列を処理するのに適用され、次の工程を含む。第1の誤り文字列を複数の第1の文字の組に切り分ける。第1の文字の組は、第1の誤り文字列中の任意の2つの連続するおよび連続しない文字からなる。複数の第1の正しい文字列、および第1の正しい文字列に対応する複数の第1のインデックスを格納する。第1のインデックスは、第1の正しい文字列中の任意の2つの連続するおよび連続しない文字からなる。第1の文字の組に基づいて第1の文字の組に対応する第1のインデックスを得ると共に、得られた第1のインデックスに基づいて対応する第1の正しい文字列を得る。得られた第1の正しい文字列に基づいて最適候補センテンスを生成する。最後に中国語文字列および最適候補センテンスを表示する。
【発明の効果】
【0007】
本発明によれば、中国語が煩瑣であることに起因する誤記の問題を解決できる中国語文章誤り検出装置、中国語文章誤り検出方法および記録媒体を提供できる。
【発明を実施するための最良の形態】
【0008】
上述した本発明の目的、特徴および長所がより明りょうに理解されるよう、以下に好ましい実施形態を挙げ、添付の図面に対応させながら、本発明をより詳細に説明する。
【0009】
図1は、本発明による中国語文章誤り検出装置100の実施形態を示している。中国語文章誤り検出装置100は、文章受信モジュール110、文章切り分けモジュール120、正用データベース130、誤用データベース140、候補語生成モジュール150、候補センテンス生成および得点付けモジュール160、類似文字データベース170、同音文字データベース180、言語モデルデータベース190、文章表示モジュール200、ならびに表示装置210を含む。
【0010】
文章受信モジュール110は中国語文章Artを受け取ってから中国語文章Artを文章切り分けモジュール120へ伝送し、文章切り分けモジュール120が文章の切り分けを実行する。
【0011】
正用データベース130は、成語、俗語、固有名詞、詩(これらは例示に過ぎない)の正しい表記を格納するものであり、かつ複数の第1の正しい文字列および第1の正しい文字列に対応する複数の第1のインデックスを有している。
【0012】
誤用データベース140は、よく見られる語句の誤りとその正しい表記を格納するものであり、かつ複数の第2のインデックスおよび第2のインデックスと対応する複数の第2の正しい文字列を有している。
【0013】
候補語生成モジュール150は、第1の正しい文字列を得ると共に第1の正しい文字列を第1の候補語として設定し、かつ第2の正しい文字列を得ると共に第2の正しい文字列を第2の候補語として設定する。
【0014】
候補センテンス生成および得点付けモジュール160は、第1の候補語と第2の候補語に基づいて複数の候補センテンスを生成し、かつ候補センテンス得点付けメカニズムを用い、類似文字データベース170、同音文字データベース180および言語モデルデータベース190のデータに基づいて候補センテンスを得点付けすることにより最適候補センテンスを生成する。
【0015】
文章表示モジュール200は、中国語文章Artおよび最適候補センテンスを表示装置210上に表示する。
【0016】
以上は中国語文章誤り検出装置100の簡単な紹介である。そのすべての構成要素の動作の流れを以下詳細に説明する。
【0017】
図2は、本発明による中国語文章誤り検出装置100の動作流れ図を示している。
工程S100において、文章受信モジュール110が中国語文章Artを受け取る。
【0018】
工程S110において、文章切り分けモジュール120が文章Artの切り分けを実行する。文章切り分けモジュール120は先ず文章Artを句読点に基づいて複数の中国語センテンスに切り分ける。
【0019】
各センテンスはそれぞれ中国語文字列である。例えば、中国語文章Artの記述が「外面的世界充滿旌旗,令他忍不住躍躍浴室,也因此▲ロ嘗▼扁各種酸甜苦臘。」である場合、文章切り分けモジュール120は句読点(この場合は読点と句点)に基づいて、中国語文章Artを3つの中国語文字列:「外面的世界充滿旌旗」、「令他忍不住躍躍浴室」、および「也因此▲ロ嘗▼扁各種酸甜苦臘」に切り分ける。中国語文章Artを複数の中国語文字列に切り分けたら、続いて個々の中国語文字列の切り分け処理を行う。
【0020】
中国語文字列の切り分けに先立ち、先ずその関連する定義を説明する。中国語文字列Str「也因此▲ロ嘗▼扁各種酸甜苦臘」を例にとると、この文字列は、第1の位置に位置する第1の誤り文字列「酸甜苦臘」と第2の位置に位置する第2の誤り文字列「▲ロ嘗▼扁」とを有している。図3に示されるように、第1の位置は中国語文字列Str中の8から11個目の文字の位置を表し、第2の位置は中国語文字列Str中の4から5個目の文字の位置を表す。
【0021】
本実施形態において、文章切り分けモジュール120は、スキップ式バイグラム(bi-gram)のメカニズムを用いて切り分けを行う。つまり、中国語文字列Str中の任意の2つの連続するおよび連続しない文字を複数の第1の文字の組に切り分ける。
【0022】
中国語文字列Str中の任意の2つの連続する文字とは、次に挙げる第1の文字の組:12,23,34…のことである。このうち、12は中国語文字列Str中の1および2個目の文字からなる第1の文字の組を表し、23は中国語文字列Str中の2および3個目の文字からなる第1の文字の組を表す。以降についてはこれにしたがって類推されたい。
【0023】
また、中国語文字列Str中の任意の2つの連続しない文字とは、次に挙げる第1の文字の組:13,35,57…24,46,68…のことであってよい。このうち、13は中国語文字列Str中の1および3個目の文字からなる第1の文字の組を表し、35は中国語文字列Str中の3および5個目の文字からなる第1の文字の組を表す。つまりは1文字おきの2つの文字である。
【0024】
また、中国語文字列Str中の任意の2つの連続しない文字は、次に挙げる第1の文字の組:14,47…25,58…36,69…のことであってもよい。このうち、14は中国語文字列Str中の1および4個目の文字からなる第1の文字の組を表し、47は中国語文字列Str中の4および7個目の文字からなる第1の文字の組を表す。つまりは2文字おきの2つの文字である。
【0025】
以上より、中国語文字列Str「也因此▲ロ嘗▼扁各種酸甜苦臘」を以下の第1の文字の組に切り分けることができる。
【0026】
【表1】

【0027】
表中、Nは、中国語文字列Strを第1の文字の組に切り分けるときに、中国語文字列Strにおける第1の文字の組の2つの文字の間にある文字の数を表す。N=0は中国語文字列Strにおける第1の文字の組の2つの文字の間にある文字の数が0であることを示し、N=1は中国語文字列Strにおける第1の文字の組の2つの文字の間にある文字の数が1であることを示し、N=2は中国語文字列Strにおける第1の文字の組の2つの文字の間にある文字の数が2であることを示す。
【0028】
工程S110の中国語文章Artの切り分けが完了したら、続いて工程S120において正用データベース130および誤用データベース140を提供する。留意すべきは、工程S120においては、正用データベース130および誤用データベース140に格納される関連データを有した1つのデータベースだけを提供してもよいという点である。よって、上述の第1および第2のデータベースは説明の便宜上挙げたにすぎず、本発明を限定するものではない。
【0029】
上述したように、正用データベース130は複数の第1の正しい文字列および第1の正しい文字列に対応する複数の第1のインデックスを有している。第1の正しい文字列に対応する複数の第1のインデックスは、文章切り分けモジュール120が中国語文字列Strを切り分けて表1に示した第1の文字の組を得たのと同じように、上記バイグラム(bi-gram)のメカニズムによって第1の正しい文字列を切り分けて得られるものである。
【0030】
例えば、正用データベース130が成語「酸甜苦辣」および固有名詞「乙太網路」の2組の第1の正しい文字列(2組としたのは例示にすぎず、これより多くの組であってもよい)を有しているとする。この場合、正用データベース130に格納されるデータは表2に示すようになる。
【0031】
【表2】

【0032】
工程S130において、候補語生成モジュール150は、第1の文字の組に基づいて第1の文字の組に対応する第1のインデックスを得ると共に、得られた第1のインデックスに基づいて対応する第1の正しい文字列を得る。
【0033】
より詳しく説明すると、候補語生成モジュール150は、表1に示された第1の文字の組に基づき、表2に同じ第1のインデックスがあるか否かをサーチし、ある場合はその第1のインデックスを得てから、その第1のインデックスと対応する第1の正しい文字列を得る。
【0034】
例えば、候補語生成モジュール150は先ず表1における第1の文字の組「也因」に基づき、表2中にこれと同じ第1のインデックスがあるか否かをサーチする。表2には「也因」の第1のインデックスはないため、候補語生成モジュール150は引き続き次の第1の文字の組「因此」に基づいて、表2中にこれと同じ第1のインデックスがあるか否かをサーチする。同様に、表2には「因此」の第1のインデックスはないため、候補語生成モジュール150は引き続き次の第1の文字の組「此▲ロ嘗▼」に基づいて、表2中にこれと同じ第1のインデックスがあるか否かをサーチする。
【0035】
このようにして、第1の文字の組すべてについてサーチが終わるまで上記工程を繰り返す。この期間において、第1の文字の組「酸甜」を処理するに至ったとき、候補語生成モジュール150は表2中に第1のインデックス「酸甜」を見つける。よって、候補語生成モジュール150は該第1のインデックス(つまり「酸甜」)を得る動作を実行する。
【0036】
該第1のインデックスを得た後、候補語生成モジュール150は得られた第1のインデックス「酸甜」に基づいて、これに対応する第1の正しい文字列、つまり「酸甜苦辣」を得る。同様に、第1の文字の組「酸苦」を処理するに至ったとき、候補語生成モジュール150は表2中に第1のインデックス「酸苦」を見つけ、よって同じように第1の正しい文字列「酸甜苦辣」を得る。
【0037】
対応する第1の正しい文字列「酸甜苦辣」を得たら、続いて工程S140において、得られた第1の正しい文字列に対し、元の語類似度によるフィルタリングを行い、抽出された第1の正しい文字列を第1の候補語として設定する。
【0038】
フィルタリングの方式は、得られた第1の正しい文字列の、中国語文字列Str中に出現する文字の数によってその元の語類似度を決定し、その元の語類似度が経験的閾値よりも大きいか否かを判断するというものである。この例の場合、得られた4文字の第1の正しい文字列「酸甜苦辣」では、中国語文字列Str「也因此▲ロ嘗▼扁各種酸甜苦臘」中に「酸甜苦」の3文字が出現し、「辣」のみが出現しない。よってその元の語類似度は75%であり(4文字中3文字出現)であり、予め設定されていた経験的閾値は60%である(これに限定はされない)ので、得られた第1の正しい文字列「酸甜苦辣」の元の語類似度は経験的閾値よりも大きいということになる。したがって、得られた第1の正しい文字列「酸甜苦辣」を第1の候補語に設定することができる。
【0039】
第1の候補語は図3における第1の誤り文字列および第1の位置に対応している。該第1の候補語は最適候補センテンスを決定するために用いられるが、この点については以下に詳しく説明する。
【0040】
以上の処理プロセスは中国語文字列Str中の第1の誤り文字列「酸甜苦臘」についてのものである。以下に、中国語文字列Str中の第2の誤り文字列「▲ロ嘗▼扁」の処理について詳細に述べていく。
【0041】
上述したように、誤用データベース140は、複数の第2のインデックスおよび第2のインデックスと対応する複数の第2の正しい文字列を有している。この場合に、下の表3に示されるように、誤用データベース140が5組の第2のインデックスおよびその対応する2組の第2の正しい文字列を格納しているとする(説明のための例示にすぎず、実際にはより多くの組であってもよい)。
【0042】
【表3】

【0043】
表中、第2のインデックスは一般ユーザーがよく書き誤る語句であり、第2の正しい文字列はそれらよく書き誤る語句と対応する正しい表記を表している。表3の場合では、第2の正しい文字列の「粽子」は正しい表記であり、ユーザーは「粽子」を「棕子」または「綜子」と書き誤ることが多い。かかる誤りの主な原因となっているのは、誤記である「棕子」または「綜子」と正しい表記「粽子」とが同形特性を有している(いずれも “宗”の パーツを有している)ことである。
【0044】
同じように、ユーザーは「▲ロ嘗▼遍」を「▲ロ嘗▼扁」(同形特性のため)または「▲ロ嘗▼片」(同音特性のため)と書き誤ることも多い。こうした状況に際し、本発明では、書き誤ることの多い語句「棕子」および「綜子」を事前に第2のインデックスとして定義して誤用データベース140中に格納しておき、さらにその対応する正しい表記を第2の正しい文字列として定義し誤用データベース140中に格納する。
以上誤用データベース140に格納されるデータフォーマットを説明した。続いて工程S150に進む。
【0045】
工程S150において、候補語生成モジュール150は第2のインデックスに基づいて第2の候補語を生成する。第2の候補語生成のプロセスは次のとおりである。
先ず、候補語生成モジュール150が、第2の誤り文字列が第2のインデックスと同じであるか否かを判断し、第2の誤り文字列が第2のインデックスのうちの1つと同じである場合、第2の誤り文字列と同じ第2のインデックスと対応する第2の正しい文字列を得ると共に、得られた第2の正しい文字列を第2の候補語として設定する。上述の例の場合、候補語生成モジュール150は先ず表1における第1の文字の組「也因」が表3における第2のインデックスと同じであるか否かを判断する。表3における5組の第2のインデックス中に「也因」と同じ文字はないので、候補語生成モジュール150は引き続き次の第1の文字の組「因此」が表3中の第2のインデックスと同じであるか否かを判断する。
【0046】
同様に、表3における5組の第2のインデックス中に「因此」と同じ文字はないため、候補語生成モジュール150は引き続き次の第1の文字の組「此▲ロ嘗▼」が表3中の第2のインデックスと同じであるか否かを判断する。
このようにして、第1の文字の組すべてについて判断が終わるまで上記工程を繰り返す。この期間において、第1の文字の組「▲ロ嘗▼扁」(すなわち第2の誤り文字列)を処理するに至ったとき、候補語生成モジュール150は第2の誤り文字列(▲ロ嘗▼扁)が確かに第2のインデックスのうちの1つと同じであると判断し、これにより第2の誤り文字列と同じ第2のインデックスと対応する第2の正しい文字列を得る、つまり第2の正しい文字列「▲ロ嘗▼遍」を得る。
【0047】
続いて、候補語生成モジュール150は得られた第2の正しい文字列「▲ロ嘗▼遍」を第2の候補語として設定する。この第2の候補語は図3における第2の誤り文字列および第2の位置に対応している。
【0048】
第2の候補語が生成されたので、今、第1の候補語と第2の候補語が得られた。よって、続く工程S160において第1の候補語および第2の候補語の処理を行う。
【0049】
工程S160において、候補センテンス生成および得点付けモジュール160が第1の誤り文字列、第2の誤り文字列、第1の候補語および第2の候補語に基づいて複数の候補センテンスを生成し、さらに最適候補センテンスを生成する。候補センテンス生成のプロセスは次のとおりである。候補センテンス生成および得点付けモジュール160は先ず、第1の誤り文字列、第2の誤り文字列、第1の候補語および第2の候補語をそれら各々の対応する位置に基づき中国語文字列Strにおける第1の位置および第2の位置へ置き換えて、各種可能な組み合わせの複数の候補センテンスを生成した後、候補センテンス得点付けメカニズムにより複数の候補センテンスを得点付けし、最高得点を得た候補センテンスを最適候補センテンスとして設定する。
【0050】
図4は、本発明の1実施形態による中国語文字列Strのすべての可能な候補センテンスの組み合わせを示している。図4に示されるように、候補センテンス生成および得点付けモジュール160は、第1の誤り文字列、第2の誤り文字列、第1の候補語および第2の候補語に基づいて、次の4組の候補センテンス:「也因此▲ロ嘗▼扁各種酸甜苦臘」、「也因此▲ロ嘗▼扁各種酸甜苦辣」、「也因此▲ロ嘗▼遍各種酸甜苦臘」および「也因此▲ロ嘗▼遍各種酸甜苦辣」を生成することができる。
【0051】
図5は、本発明による候補センテンス得点付けメカニズムの実施形態を示している。生成された4組の候補センテンスに基づき、候補センテンス生成および得点付けモジュール160は、候補センテンスの使用頻度(PPL)、候補センテンスと中国語文字列Str(元のセンテンス)との間のセンテンス類似度(SS)、音類似度(PS)、および形類似度(WS)を用いて4組の候補センテンスを得点付けすることができる。
【0052】
ここで、候補センテンスの使用頻度は、例えば医学、天文学のような各種知識分野などの特定分野の言語モデルを表すものである。候補センテンスおよび元のセンテンスの間のセンテンス類似度は、候補センテンスの文字数と候補センテンスおよび元のセンテンスで異なる文字の数との差の、元のセンテンスの文字数に対する割合、つまり式(1)
【数1】

によって定義される。
【0053】
候補センテンスおよび元のセンテンスの間の音類似度は、候補センテンスの文字数と候補センテンスおよび元のセンテンス間の非同音文字の数との差の、元のセンテンスの文字数に対する割合、つまり式(2)
【数2】

によって定義される。
【0054】
候補センテンスおよび元のセンテンスの間の形類似度は、候補センテンスの文字数と候補センテンスおよび元のセンテンス間の非同形文字の数との差の、元のセンテンスの文字数に対する割合、つまり式(3)
【数3】

によって定義される。
【0055】
以上より、上記4つの要素に基づいて候補センテンスを得点付けする。得点付けのSCORE計算式は次の式(4)のとおりである。
【数4】

【0056】
式中、w1は候補センテンスの使用頻度の重みを表し、w2は候補センテンスと元のセンテンスとのセンテンス類似度の重みを表し、w3は候補センテンスと元のセンテンスとの音類似度の重みを表し、w4は候補センテンスと元のセンテンスとの形類似度の重みを表す。
【0057】
また、候補センテンスの使用頻度は複数の分野の言語モデルを含んでいてもよい。したがって、図5によれば、候補センテンスの使用頻度PPLは次の式(5)により計算することができる。
【数5】

【0058】
式中、PPLは第1の言語モデルを表し、PPLは第2の言語モデルを表す。
上式により候補センテンスを得点付けすると、実験で与えられるパラメータは次の式(6)のとおりとなる。
【数6】

【0059】
そして図4におけるセンテンスD「也因此▲ロ嘗▼遍各種酸甜苦辣」が最高得点を得たため、続いて候補センテンス生成および得点付けモジュール160は該候補センテンスを最適候補センテンスとして設定する。
【0060】
最後に、工程S170において、文章表示モジュール200が表示装置210上に元のセンテンスと最適候補センテンスとの間で修正された部分を表示する。
【0061】
本発明の動作を上のように詳述したが、本発明の精神を逸脱しない限りにおいては、上に詳述した流れに変更を加えることができる点に注意されたい。例えば、必ずしも、先に第1の候補語を生成してから第2の候補語を生成しなければならないということはなく、第1および第2の候補語はこれと逆の順で生成されても、または同時に生成されてもよい。
【0062】
さらに、上述した実施形態において、第2の誤り文字列は「▲ロ嘗▼扁」であって、2つの文字からなっている。しかし、別の状況においては、それはより多くの文字から構成されていることもある。例として、中国語文字列「想用著美味的佳▲食肴▼」を考えてみる。「想用」自体は正しい表現であるが、1センテンス中に「想用」と「佳▲食肴▼」が同時に出現する場合に、「想用」は誤りとなろう。正しい用法は「享用著美味的佳▲食肴▼」であるからである。「享」および「想」の同音特性のために、ユーザーは同音の誤った文字を使い易いのである。このような問題に対し、本発明の以下の実施形態は解決法を提供する。
【0063】
本実施形態では、以下の表4に示すように、誤用データベース140の表3をそのまま用いると共に、新たなパラメータおよび内容を追加する。
【0064】
【表4】

【0065】
誤用データベース140中、1および2行目は表3にて示した元の内容であり、3および4行目は本実施形態で新たに追加した内容である。よって3および4行目の第2のインデックスは第2の正しい文字列と対応する他、コンテクストとも対応している。なお、当然に、以上のデータは説明のために挙げたにすぎず、本発明を限定するものではない。
【0066】
上の中国語文字列「想用著美味的佳▲食肴▼」では、「佳佳」および「想用」はそれ自体単独で見ると正しい表現であるので、「▲ロ嘗▼扁」および「綜子」のようにそれ自体が誤りであって直ちに正しい表記「▲ロ嘗▼遍」および「粽子」を見つけることができるというものではない。こういった場合、「佳佳」および「想用」自体は正しい表現であるが、センテンス中に特定の文字列が出現したときに、「佳佳」および「想用」は誤った表現となる。よって本発明の実施形態では、それら特定の文字列をコンテクストと定義し(表4の3列目に示すとおり)、誤用データベース140に予め格納しておく。以下に本発明の誤り検出工程を説明する。
【0067】
先ず、中国語文字列「想用著美味的佳▲食肴▼」には誤り文字列「想用」がある。上述したのと同じように、バイグラム(bi-gram)により複数の文字の組に切り分ける。切り分けの原理と結果は表1と同じであるので、その説明は省く。最初に、候補語生成モジュール150は、文字の組「想用」が表4の第2のインデックスと同じであるか否かを判断する。
【0068】
表4には第2のインデックス「想用」があるため、候補語生成モジュール150は該第2のインデックスと対応するコンテクストを得る、つまり、コンテクスト「佳▲食肴▼」を得る。次いで、候補語生成モジュール150は中国語文字列中に得られたコンテクスト(佳▲食肴▼)が含まれているか否かを判断する。含まれていれば「想用」は誤り文字列ということであり、また、含まれていなければ「想用」は正しい文字列ということであるので、引き続いてその他の文字の組の処理を行う。
【0069】
中国語文字列には確かに文字列「佳▲食肴▼」が含まれているので、候補語生成モジュール150は続いて誤り文字列(想用)と同じ第2のインデックス(想用)と対応する第2の正しい文字列(享用)を得ると共に、得られた第2の正しい文字列を第2の候補語として設定する。
【0070】
本実施形態において、中国語文字列「想用著美味的佳▲食肴▼」には1つの誤り文字列「想用」があるだけなので、候補語を1つだけ生成することができる。上述の工程では第2の候補語を生成したが、第2の候補語は唯一の候補語でもある。本発明では、1中国語文字列中にN個の誤り文字列があったなら、N個の候補語を生成すると共にN個の候補語に基づいて2個の組み合わせの候補センテンス(元のセンテンスを含む)を生成するということを、当業者は理解するべきである。
【0071】
また、本発明の中国語文章誤り検出方法は、上記フローの動作が実行できるようにプログラムの形式で記録媒体(例えば光ディスク、フレキシブルディスクディスクおよびリムーバブルハードディスクなど)に格納され得る。中国語文章誤り検出方法のプログラムは基本的に多数のプログラムコードから構成され、かつこれらプログラムコードの機能は上記方法の工程および上記システムの機能ブロック図に対応付けられる。
【0072】
本発明を好適な実施形態により以上のように開示したが、これは本発明の範囲を限定するものではなく、当業者であれば、本発明の精神および範囲を逸脱しない限りにおいていくらかの変更や修飾を加えることができる。よって、本発明の保護範囲は添付の特許請求の範囲で定義されたものが基準となる。
【図面の簡単な説明】
【0073】
【図1】図1は、本発明による中国語文章誤り検出装置100の実施形態を示す。
【図2】図2は、本発明による中国語文章誤り検出装置100の動作流れ図である。
【図3】図3は、本発明の1実施形態による中国語文字列Strの構造説明図である。
【図4】図4は、本発明の1実施形態による複数の候補センテンスの生成メカニズムを示す。
【図5】図5は、本発明の1実施形態による候補センテンス得点付けメカニズムの説明図である。
【符号の説明】
【0074】
110 文章受信モジュール
120 文章切り分けモジュール
130 正用データベース
140 誤用データベース
150 候補語生成モジュール
160 候補センテンス生成および得点付けモジュール
170 類似文字データベース
180 同音文字データベース
190 言語モデルデータベース
200 文章表示モジュール
210 表示装置
Art 中国語文章
Str 中国語文字列

【特許請求の範囲】
【請求項1】
第1の位置に位置する第1の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出方法であって、
前記第1の誤り文字列を、それぞれが前記第1の誤り文字列中の任意の2つの連続するおよび連続しない文字からなる複数の第1の文字の組に切り分ける工程、
複数の第1の正しい文字列と、前記第1の正しい文字列に対応し、それぞれが前記第1の正しい文字列中の任意の2つの連続するおよび連続しない文字からなる複数の第1のインデックスとを有するデータベースを提供する工程、
前記第1の文字の組に基づいて前記第1の文字の組に対応する前記第1のインデックスを得ると共に、得られた前記第1のインデックスに基づいて対応する前記第1の正しい文字列を得る工程、
得られた前記第1の正しい文字列に基づいて最適候補センテンスを生成する工程、ならびに、
表示装置に前記中国語文字列および前記最適候補センテンスを表示する工程、
を含む中国語文章誤り検出方法。
【請求項2】
前記最適候補センテンスの生成が、前記中国語文字列中の前記第1の誤り文字列を、得られた前記第1の正しい文字列で置き換えることによってなされる請求項1記載の中国語文章誤り検出方法。
【請求項3】
前記中国語文字列が第2の位置に位置する第2の誤り文字列をさらに含み、前記データベースが複数の第2のインデックスおよび前記第2のインデックスと対応する複数の第2の正しい文字列をさらに有し、前記方法がさらに、得られた前記第1の正しい文字列を第1の候補語として設定し、かつ前記第2のインデックスに基づいて第2の候補語を生成する請求項1記載の中国語文章誤り検出方法。
【請求項4】
前記第2の誤り文字列が前記第2のインデックスと同じであるか否かを判断する工程をさらに含む請求項3記載の中国語文章誤り検出方法。
【請求項5】
前記第2の誤り文字列と前記第2のインデックスのうちの1つとが同じであるときに、前記第2の誤り文字列と同じ前記第2のインデックスと対応する前記第2の正しい文字列を得ると共に、得られた前記第2の正しい文字列を前記第2の候補語として設定する請求項4記載の中国語文章誤り検出方法。
【請求項6】
前記第1の誤り文字列、前記第2の誤り文字列、前記第1の候補語および前記第2の候補語をそれら各々の対応する位置に基づき前記中国語文字列中の前記第1の位置および前記第2の位置へ置き換えて、各種可能な組み合わせの複数の候補センテンスを生成する工程をさらに含む請求項5記載の中国語文章誤り検出方法。
【請求項7】
候補センテンス得点付けメカニズムにより前記候補センテンスを得点付けして前記最佳候補センテンスを生成する工程をさらに含む請求項6記載の中国語文章誤り検出方法。
【請求項8】
前記候補センテンス得点付けメカニズムが、前記候補センテンスの使用頻度、前記候補センテンスと前記中国語文字列との間のセンテンス類似度、音類似度、および形類似度によって前記候補センテンスを得点付けするものであり、かつ前記使用頻度が少なくとも1つの言語モデルを含む請求項7記載の中国語文章誤り検出方法。
【請求項9】
前記データベースが、前記第2のインデックスと対応する複数のコンテクストをさらに有し、前記第2の誤り文字列と前記第2のインデックスのうちの1つとが同じであるときに、前記第2の誤り文字列と同じ前記第2のインデックスと対応する前記コンテクストを得ると共に、前記中国語文字列中に得られた前記コンテクストが含まれているか否かを判断する請求項4記載の中国語文章誤り検出方法。
【請求項10】
前記中国語文字列中に得られた前記コンテクストが含まれているときに、前記第2の誤り文字列と同じ前記第2のインデックスと対応する前記第2の正しい文字列を得ると共に、得られた前記第2の正しい文字列を前記第2の候補語として設定する工程をさらに含む請求項9記載の中国語文章誤り検出方法。
【請求項11】
第1の位置に位置する第1の誤り文字列を含む中国語文字列を処理するのに適用される中国語文章誤り検出装置であって、
前記第1の誤り文字列を、それぞれが前記第1の誤り文字列中の任意の2つの連続するおよび連続しない文字からなる複数の第1の文字の組に切り分ける文章切り分けモジュール、
複数の第1の正しい文字列と、前記第1の正しい文字列に対応し、それぞれが前記第1の正しい文字列中の任意の2つの連続するおよび連続しない文字からなる複数の第1のインデックスとを有するデータベース、
前記第1の文字の組に基づいて前記第1の文字の組に対応する前記第1のインデックスを得ると共に、得られた前記第1のインデックスに基づいて対応する前記第1の正しい文字列を得る候補語生成モジュール、
得られた前記第1の正しい文字列に基づいて最適候補センテンスを生成する候補センテンス生成および得点付けモジュール、ならびに、
前記中国語文字列および前記最適候補センテンスを表示する表示装置、
を含む中国語文章誤り検出装置。
【請求項12】
前記最適候補センテンスの生成が、前記中国語文字列中の前記第1の誤り文字列を、得られた前記第1の正しい文字列で置き換えることによってなされる請求項11記載の中国語文章誤り検出装置。
【請求項13】
前記中国語文字列が第2の位置に位置する第2の誤り文字列をさらに含み、前記データベースが複数の第2のインデックスおよび前記第2のインデックスと対応する複数の第2の正しい文字列をさらに有し、前記候補語生成モジュールがさらに、得られた前記第1の正しい文字列を第1の候補語として設定し、かつ前記第2のインデックスに基づいて第2の候補語を生成する請求項11記載の中国語文章誤り検出装置。
【請求項14】
前記候補語生成モジュールがさらに、前記第2の誤り文字列が前記第2のインデックスと同じであるか否かを判断する請求項13記載の中国語文章誤り検出装置。
【請求項15】
前記第2の誤り文字列と前記第2のインデックスのうちの1つとが同じであるときに、前記候補語生成モジュールが、前記第2の誤り文字列と同じ前記第2のインデックスと対応する前記第2の正しい文字列を得ると共に、得られた前記第2の正しい文字列を前記第2の候補語として設定する請求項14記載の中国語文章誤り検出装置。
【請求項16】
前記候補センテンス生成および得点付けモジュールがさらに、前記第1の誤り文字列、前記第2の誤り文字列、前記第1の候補語および前記第2の候補語をそれら各々の対応する位置に基づき前記中国語文字列中の前記第1の位置および前記第2の位置へ置き換えて、各種可能な組み合わせの複数の候補センテンスを生成する請求項15記載の中国語文章誤り検出装置。
【請求項17】
前記候補センテンス生成および得点付けモジュールがさらに、候補センテンス得点付けメカニズムにより前記候補センテンスを得点付けして前記最佳候補センテンスを生成する請求項16記載の中国語文章誤り検出装置。
【請求項18】
類似文字データベース、同音文字データベースおよび少なくとも1つの言語モデルデータベースをさらに含み、前記候補センテンス得点付けメカニズムが、前記候補センテンスと前記中国語文字列との間のセンテンス類似度、前記類似文字データベース、前記同音文字データベースおよび少なくとも1つの前記言語モデルデータベースのデータによって前記候補センテンスを得点付けするものである請求項17記載の中国語文章誤り検出装置。
【請求項19】
前記データベースが、前記第2のインデックスと対応する複数のコンテクストをさらに有し、前記第2の誤り文字列と前記第2のインデックスのうちの1つとが同じであるときに、前記候補語生成モジュールが、前記第2の誤り文字列と同じ前記第2のインデックスと対応する前記コンテクストを得ると共に、前記中国語文字列中に得られた前記コンテクストが含まれているか否かを判断する請求項14記載の中国語文章誤り検出装置。
【請求項20】
前記中国語文字列中に得られた前記コンテクストが含まれているときに、前記候補語生成モジュールは、前記第2の誤り文字列と同じ前記第2のインデックスと対応する前記第2の正しい文字列を得ると共に、得られた前記第2の正しい文字列を前記第2の候補語として設定する請求項19記載の中国語文章誤り検出装置。
【請求項21】
コンピュータシステムにロードされて前記コンピュータシステムに中国語文章誤り検出方法を実行させる複数のプログラムコードを含む中国語文章誤り検出プログラムを格納した記録媒体であって、
前記中国語文章誤り検出方法が、第1の位置に位置する第1の誤り文字列を含む中国語文字列を処理するのに適用され、
前記第1の誤り文字列を、それぞれが前記第1の誤り文字列中の任意の2つの連続するおよび連続しない文字からなる複数の第1の文字の組に切り分ける工程、
複数の第1の正しい文字列と、前記第1の正しい文字列に対応し、それぞれが前記第1の正しい文字列中の任意の2つの連続するおよび連続しない文字からなる複数の第1のインデックスとを格納する工程、
前記第1の文字の組に基づいて前記第1の文字の組に対応する前記第1のインデックスを得ると共に、得られた前記第1のインデックスに基づいて対応する前記第1の正しい文字列を得る工程、
得られた前記第1の正しい文字列に基づいて最適候補センテンスを生成する工程、ならびに、
前記中国語文字列および前記最適候補センテンスを表示する工程、
を含む、記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2010−67250(P2010−67250A)
【公開日】平成22年3月25日(2010.3.25)
【国際特許分類】
【出願番号】特願2008−304955(P2008−304955)
【出願日】平成20年11月28日(2008.11.28)
【出願人】(599064731)インスティチュート フォー インフォメイション インダストリ (24)
【氏名又は名称原語表記】INSTITUTE FOR INFORMATION INDUSTRY
【Fターム(参考)】