説明

統計的な方法を用いて漢字を自国語の発音列に変換するシステムおよび方法

【課題】漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて漢字文字列を自国語の発音列に変換することによって、最終的に導き出される自国語の発音列の精度を向上するシステムおよび方法を提供する。
【解決手段】統計的な方法を用いた漢字に対する自国語の発音列変換システムおよび方法が開示される。自国語の発音列変換システムは、漢字文字列に対して自国語の発音列を抽出する自国語の発音列抽出部、漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて漢字文字列に対する統計データを決定する統計データ決定部と、抽出された自国語の発音列と決定された統計データとを用いて漢字文字列を最適な自国語の発音列に変換する自国語の発音列変換部と、を含んでもよい。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は漢字を自国語の発音列に変換するシステムおよび方法に関し、より詳しくは、漢字から自国語への変換に関連する統計データを用いて漢字を自国語の発音列に変換するシステムおよび方法に関する。
【背景技術】
【0002】
漢字の文化圏であるアジア各国における様々な文書では漢字が用いられる。また、漢字の文化圏でないアメリカなどでも漢字が限定的に用いられる。特に、コンピュータで用いられるプログラムにおいて漢字が含まれたテキスト文書が多く用いられる。ただし、漢字に慣れていないユーザのためにワードプロセスプログラムにおいて漢字を自国語の発音に変換するか、インテリジェントな情報検索で漢字に入力された検索クエリも検索しなければならない場合がある。
【0003】


【0004】
日本の場合、韓国よりも文書に漢字の出現する頻度がさらに多い。しかし、日本人は漢字の代わりによみがな(yomigana)を入力して漢字を検索する場合が多い。例えば、「おんがく」というクエリを入力して「音楽」を検索していた。
【0005】


【0006】
アメリカのような英語圏の国の場合、文書に漢字が用いられる場合は多くない。しかし、文書に用いられた漢字を英語に変換してクエリを入力すれば、該当文書を簡単に検索することができる。
【0007】
従来、漢字を自国語に変換する方法は、予め設定した変換テーブルを用いる方式があった。すなわち、特定の漢字に対応する自国語を予め変換テーブルに格納しておき、ユーザから漢字が入力された場合、対応する自国語を単に提示する方式であった。
【0008】


【0009】
したがって、少なくとも1つの漢字に対して変換することのできる自国語の発音の数が1つ以上である場合、最終的に変換される自国語の発音も様々であるため、本来の漢字を入力する時の意図とまったく関係のない自国語の発音が導き出される恐れが多かった。したがって、ユーザの本来の意図を反映して文脈および自国語の綴字法に適する自国語の発音列を導き出す必要がある。
【0010】
また、同形異音の漢字によって文書またはクエリに様々なコード値を有する漢字が存在していて検索できない場合が生じていた。例えば、4つの文書がそれぞれ「楽園」(楽=0xF95C)、「楽園」(楽=0xF914)、「楽園」(楽=0x6A02)、「楽園」(楽=0xF9BF)のみが書かれていたと仮定する。この場合、ユーザが0xF95Cに該当する「楽園」を入力して文書を検索すると、4個の文書のうちの1つの文書のみ検索されるという問題がある。したがって、様々なコード値で表現される同形異音の漢字を1つの正規化された漢字に変換して検索の再現率を高める必要がある。
【0011】


【0012】
このような問題を解決するために、漢字から自国語の発音にさらに正確に変換する方法が求められている。
【発明の概要】
【発明が解決しようとする課題】
【0013】
本発明は漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて、漢字の文字列に対して自国語の発音列を変換することによって、最終的に導き出される自国語の発音列の精度を向上させるシステムおよび方法を提供する。
【0014】
本発明は、従来の変換テーブル方式では処理できない同形異音の漢字に対しても統計データを用いることによって文脈および自国語の綴字法に適した自国語の発音列に変換することができるシステムおよび方法を提供する。
【0015】
本発明は、漢字コードの正規化によって正確ではないコードの漢字が入力された場合であっても、正確な自国語の発音列に変換することができるシステムおよび方法を提供する。
【0016】
本発明は、統計データを用いてハングルの頭音法則のような例外的な文法も正確に反映することにより漢字文字列を自国語の発音列に変換することの信頼性を向上させるシステムおよび方法を提供する。
【課題を解決するための手段】
【0017】
本発明の一実施形態に係る自国語の発音変換システムは、漢字の文字列に対して自国語の発音列を抽出する自国語の発音列抽出部と、漢字文字列と自国語の発音列の変換との関連を特徴つける統計データを用いて前記漢字文字列に対する統計データを決定する統計データ決定部と、前記抽出された自国語の発音列と前記決定した統計データとを用いて前記漢字の文字列に対して最適な自国語の発音列に変換する自国語の発音列変換部と、を含んでもよい。
【0018】
本発明の一実施形態に係る自国語の発音変換システムは、形態が同一でありコードが異なる同形異音の漢字を含む漢字文字列に対し、前記漢字文字列のコードを正規化するコード正規化部をさらに含んでもよい。
【0019】
本発明の一実施形態に係る自国語の発音変換方法は、漢字文字列に対して自国語の発音列を抽出するステップと、漢字文字列と自国語の発音列の変換との関連を特徴つける統計データを用いて前記漢字文字列に対する統計データを決定するステップと、前記抽出された自国語の発音列と前記決定した統計データとを用いて前記漢字文字列を最適な自国語の発音列に変換するステップと、を含んでもよい。
【0020】
本発明の一実施形態に係る自国語の発音変換方法は、形態が同一でありコードが異なる同形異音の漢字を含む漢字文字列に対して前記漢字文字列のコードを正規化するステップをさらに含んでもよい。
【発明の効果】
【0021】
本発明によれば、漢字文字列と自国語の発音列の変換との関連を特徴つける統計データを用いて、漢字文字列に対して自国語の発音列を変換することによって、最終的に導き出される自国語の発音列の精度を向上させることができる。
【0022】
本発明によれば、従来の変換テーブル方式では処理できない同形異音の漢字であっても、統計データを用いることよって文脈および自国語の綴字法に適した自国語の発音列に変換することができる。
【0023】
本発明によれば、漢字コードの正規化によって正確ではないコードの漢字が入力された場合にも正確な自国語の発音列に変換することができる。
【0024】
本発明によれば、統計データを用いてハングルの頭音法則のような例外的な文法も正確に反映することによって、漢字文字列を自国語の発音列に変換することの信頼性を向上させることができる。
【図面の簡単な説明】
【0025】
【図1】本発明の一実施形態に係る自国語の発音列変換システムによって漢字文字列に対して自国語の発音列に変換する全過程を示す図である。
【図2】本発明の一実施形態に係る自国語の発音列変換システムの全体構成を示すブロックダイヤグラムである。
【図3】本発明の一実施形態に係る漢字文字列に対して正規化する過程を説明するための図である。
【図4】本発明の一実施形態に係る漢字−自国語の発音列テーブルの一例を示す図である。
【図5】本発明の一実施形態に係る漢字文字列に対して自国語の発音列に変換する過程を示す図である。
【図6】本発明の一実施形態に係る自国語の発音列の変換方法の全過程を示すフローチャートである。
【発明を実施するための形態】
【0026】
以下、添付された図面に記載した内容を参照して本発明に係る実施形態を詳細に説明する。ただし、本発明が実施形態によって制限され、限定されることはない。各図面に提示された同一の参照符号は同一の部材を示す。自国語の発音列の変換方法は、自国語の発音列変換システムによって行われてもよい。
【0027】
図1は、本発明の一実施形態に係る自国語の発音列変換システムによって漢字の文字列に対して自国語の発音列に変換する全過程を示す図である。
【0028】
ユーザ101−1〜101−nが少なくとも1つの漢字を含む漢字文字列を入力すれば、自国語の発音列変換システム100は、漢字文字列を自国語の発音列102−1〜102−nに変換する。自国語は、自国語の発音列変換システム100が提供する文書に記載された言語に基づいて異なるように決定されてもよい。例えば、自国語の発音列変換システム100がハングル文書を提供する場合、自国語をハングルに決定してもよい。
【0029】
この場合、漢字文字列は、少なくとも1つの漢字を含んでもよい。コンピュータを用いるプログラム(PC用プログラム、サーバ用プログラム、ウェブ用プログラムなど)に漢字が含まれたテキスト文書に対し、自国語の発音に変換しなければならない場合が度々発生する。
【0030】


【0031】


【0032】
本発明の一実施形態に係る自国語の発音列変換システム100は、与えられた漢字文字列に対して自国語の発音列に変換されるデータを統計的に分析したデータを用いることによって、さらに正確な自国語の発音列を提供することができる。また、自国語の発音列変換システム100は、文脈および自国語の綴字法に適する自国語の発音列を提供することによって、自国語の発音列に変換された結果に対して信頼性を保障することができる。
【0033】
図2は、本発明の一実施形態に係る自国語の発音列変換システムの全体構成を示すブロックダイヤグラムである。
【0034】
図2に示すように、自国語の発音列変換システム100は、コード正規化部201、自国語の発音列抽出部202、統計データ決定部203、および自国語の発音列変換部204を含んでよい。
【0035】
コード正規化部201は、形態が同一であり、コードが異なる同形異音の漢字を含む漢字文字列205に対して漢字文字列205のコードを正規化する。一例として、コード正規化部201は、同形異音の漢字を代表漢字に変換して漢字文字列205のコードを正規化してもよい。この場合、コード正規化部201は、漢字正規化データ207を用いて漢字文字列205のコードを正規化してもよい。
【0036】
その結果、コード正規化部201によって正規化された漢字文字列210を導き出することができる。ただし、漢字文字列205が同形異音の漢字を含まない場合、コード正規化部201は動作しない。コード正規化部201の具体的な動作は図3を参照して詳しく説明する。
【0037】
自国語の発音列抽出部202は、漢字−自国語の発音列テーブル208を用いて漢字文字列に対して自国語の発音列を抽出する。この場合、漢字−自国語の発音列テーブル208は、複数の漢字に対する自国語の発音列の組みを含んでもよい。すなわち、漢字−自国語の発音列テーブル208によれば、漢字ごとに自国語の発音列が対応付けられてもよい。
【0038】
ただし、同一の漢字に対して自国語の発音列が1つ以上である場合がある。この場合、自国語の発音列は、文脈および自国語の綴字法にしたがって変換されなければならない。これに対して、本発明の一実施形態に係る自国語の発音列変換システム100は、漢字から自国語に変換された統計データを用いることによって変換される自国語の発音列の精度を向上させることができる。
【0039】
統計データ決定部203は、漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて漢字文字列に対する統計データを決定する。
【0040】
一例として、統計データ決定部203は、漢字と自国語が共に表現されたデータから抽出され、漢字−自国語の変換に対して意味のある特徴に対応する統計データ209を用いて漢字文字列205に対する統計データを決定してもよい。この場合、統計データ決定部203は、漢字文字列205と関連して自国語の発音列206の音節に対して音節確率と転移確率を決定してもよい。
【0041】
すなわち、本発明の一実施形態によれば、漢字に対して自国語に変換される様々な統計データを用いることによって、それぞれの状況に応じて同一の漢字であっても異なるように発音される自国語を正確に決定することができる。統計データを用いる過程は、図5を参照してさらに具体的に説明する。
【0042】
自国語の発音列変換部204は、抽出された自国語の発音列と決定された統計データを用いて漢字文字列205を最適な自国語の発音列206に変換する。一例として、自国語の発音列変換部204は、漢字文字列205に対して変換しようとする自国語の発音列の確率が最大になる自国語の発音列206を決定してもよい。
【0043】
この場合、自国語の発音列変換部204は、隠れマルコフモデル(hidden markov model)に基づいて漢字文字列205を自国語の発音列206を変換してもよい。特に、自国語の発音列変換部204は、繰り返し処理される漢字文字列に対してはビタビ(viterbi)アルゴリズムを適用して、漢字文字列205に対して最適経路を示す自国語の発音列204に変換してもよい。
【0044】
図3は、本発明の一実施形態に係る漢字文字列を正規化する過程を説明するための図である。
【0045】
漢字文字列が自国語の発音列に変換されなくても同形異音の漢字によって文書またはクエリに様々なコード値を有する単語が存在して検索が実行できない場合がある。これに対して、自国語の発音列変換システム100は、形態が同一でありコードが異なる同形異音の漢字を含む漢字文字列に対して漢字文字列のコードを正規化してもよい。
【0046】


【0047】


【0048】


【0049】
本発明の一実施形態に係る自国語の発音列変換システムは、漢字文字列の正規化過程によって統計モデルにおけるデータの稀少性の問題を解決することができる。また、自国語の発音列変換システムは、文脈および自国語の綴字法に適さないコードで用いられた漢字に対しても自国語の変換ができる。
【0050】
図4は、本発明の一実施形態に係る漢字−自国語の発音列テーブルの一例を示す図である。特に、図4は、漢字−ハングルの発音列テーブルの一例を示す。図4の説明は他の自国語にも類推して適用してもよい。
【0051】


【0052】


【0053】


【0054】
図5は、本発明の一実施形態に係る漢字文字列に対して自国語の発音列に変換する過程を示す図である。
【0055】


【0056】
自国語の発音列変換システムは、漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて漢字文字列に対する統計データを決定してもよい。一例として、自国語の発音列変換システムは、漢字と自国語が共に表現されるデータから抽出され、漢字−自国語の変換に対して意味のある特徴に対応する統計データを用いて漢字文字列に対する統計データを決定してもよい。
【0057】
本発明の一実施形態によれば、漢字−ハングルの変換に対して意味のある特徴は、以下の通りである。特徴は、各国の文法および綴字法に応じて変更されてもよい。
【0058】


【0059】


【0060】


【0061】


【0062】


【0063】


【0064】


【0065】


【0066】
前述のような特徴に対する確率は、自国語と漢字が共に表現されたブログ、文書、ウェプページなどのデータによって統計的に決定されてもよい。特に、ハングルの発音には様々な頭音法則が存在し、それに対する例外も多く存在する。このため、漢字とハングルが共に表現されたデータから抽出し、漢字−ハングルの変換に対して意味のある特徴に対応する統計データを用いて変換されるハングルの発音列の精度を向上させることができる。また、韓国の頭音法則と共に韓国以外の他の国でも固有の綴字法が存在することから、このような固有の綴字法を反映した特徴を用いて各国の状況に適する統計データが導き出されてもよい。
【0067】
一例として、ハングルの発音に対する頭音法則とその例外は次のとおりであり、このような事項も本発明の一実施形態に係る統計データに適用される特徴として用いられてもよい。
【0068】


【0069】


【0070】


【0071】


【0072】


【0073】


【0074】


【0075】


【0076】
そして、自国語の発音列変換システムは、抽出された自国語の発音列と決定された統計データとを用いて、漢字文字列を最適な自国語の発音列に変換してもよい。一例として、自国語の発音列変換システムは、統計データである音節確率と転移確率とを用いて、漢字文字列を変換しようとする自国語の発音列の確率が最大になる自国語の発音列を決定してもよい。このとき、自国語の発音列変換システムは、隠れマルコフモデルに基づいて漢字文字列を自国語の発音列に変換してもよい。
【0077】


【0078】


【0079】
一例として、自国語の発音列変換システムは、下記の数式(1)及び(2)による隠れマルコフモデルを用いて漢字文字列を自国語の発音列を変換してもよい。
【0080】
【数1】

【数2】

【0081】
このとき、Cは漢字文字列、Kは自国語の発音列を意味する。また、下記数式(3)は音節の確率であり、数式(4)は遷移確率を示す。
【数3】

【数4】

【0082】
すると、漢字文字列が最終的に変換される自国語の発音列は下記の数式(5)によって決定してもよい。
【0083】
【数5】

【0084】
すなわち、自国語の発音列変換システムは、与えられた漢字文字列に対して音節確率と遷移確率を組み合わせた結果が最大になる自国語の発音列を決定してもよい。このとき、自国語の発音列変換システムは、繰り返し処理される部分に対してはビタビアルゴリズムを適用して漢字文字列を最適な経路を示す自国語の発音列を変換してもよい。
【0085】


【0086】
図6は、本発明の一実施形態に係る自国語の発音列の変換方法の全過程を示すフローチャートである。
【0087】
自国語の発音列変換システムは、漢字文字列のコードを正規化してもよい(S601)。一例として、自国語の発音列変換システムは、形態が同一であるがコードが異なる同形異音の漢字を含む漢字文字列に対して漢字文字列のコードを正規化してもよい。この場合、自国語の発音列変換システムは、正規化データを用いて同形異音の漢字を代表漢字に変換することにより、漢字文字列のコードを正規化してもよい。ここで、正規化データは、漢字辞書によって自動に構築されてもよい。
【0088】
自国語の発音列変換システムは、漢字文字列に対して自国語の発音列を抽出してもよい(S602)。一例として、自国語の発音列変換システムは、複数の漢字に対する自国語の発音列の組で構成される漢字−自国語の発音列テーブルを用いて、漢字文字列に対して自国語の発音列を抽出してもよい。このとき、漢字文字列が正規化する過程を経た場合、自国語の発音列変換システムは、正規化された漢字文字列に対して自国語の発音列を抽出してもよい。
【0089】
自国語の発音列変換システムは、漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて漢字文字列に対する統計データを決定してもよい(S603)。
【0090】
一例として、自国語の発音列変換システムは、漢字と自国語が共に表現されたデータから抽出され、漢字−自国語の変換に対して意味のある特徴に対応する統計データを用いて漢字文字列に対する統計データを決定してもよい。このとき、自国語の発音列変換システムは、漢字文字列と関連する統計データを用いて自国語の発音列の音節に対して音節確率と転移確率を決定してもよい。
【0091】
自国語の発音列変換システムは、抽出された自国語の発音列と決定された統計データとを用いて漢字文字列を最適な自国語の発音列に変換してもよい(S604)。一例として、自国語の発音列変換システムは、漢字文字列に対して変換しようとする自国語の発音列の確率が最大になる自国語の発音列を決定してもよい。
【0092】
このとき、自国語の発音列変換システムは、隠れマルコフモデルに基づいて漢字文字列を自国語の発音列に変換してもよい。特に、自国語の発音列変換システムは、繰り返して処理される部分に対しては、ビタビアルゴリズムを適用して漢字文字列を最適な経路を示す自国語の発音列に変換してもよい。
【0093】
図6において説明されない事項は、図1〜図5の説明を参照して理解してもよい。
【0094】
また、本発明の一実施形態に係る漢字に対するハングルの発音列の変換方法は、コンピュータにより実現される多様な動作を実行するためのプログラム命令を含むコンピュータ読取可能な記録媒体を含む。当該記録媒体は、プログラム命令、データファイル、データ構造などを単独または組み合わせて含むこともでき、記録媒体およびプログラム命令は、本発明の目的のために特別に設計されて構成されたものでもよく、コンピュータソフトウェア分野の技術を有する当業者にとって公知であり使用可能なものであってもよい。コンピュータ読取可能な記録媒体の例としては、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体、CD−ROM、DVDのような光記録媒体、フロプティカルディスクのような磁気−光媒体、およびROM、RAM、フラッシュメモリなどのようなプログラム命令を保存して実行するように特別に構成されたハードウェア装置が含まれる。プログラム命令の例としては、コンパイラによって生成されるような機械語コードだけでなく、インタプリタなどを用いてコンピュータによって実行され得る高級言語コードを含む。
【0095】
上述したように、本発明の好ましい実施形態を参照して説明したが、特許請求の範囲に記載された本発明の思想および領域から逸脱しない範囲内で、本発明を多様に修正および変更できることは当業者にとって明らかである。すなわち、本発明の技術的範囲は、特許請求の範囲に基づいて定められ、発明を実施するための最良の形態により制限されるものではない。
【符号の説明】
【0096】
100:自国語の発音列変換システム
101−1〜101−n:ユーザ
102−1〜102−n:自国語の発音列
103:変換の一例
201:コード正規化部
202:自国語の発音列抽出部
203:統計データ決定部
204:自国語の発音列変換部
208:漢字−自国語の発音列テーブル


【特許請求の範囲】
【請求項1】
漢字文字列に対して自国語の発音列を抽出する自国語の発音列抽出部と、
漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて前記漢字文字列に対する統計データを決定する統計データ決定部と、
前記抽出された自国語の発音列と前記決定した統計データとを用いて前記漢字文字列を最適な自国語の発音列に変換する自国語の発音列変換部と、
を含むことを特徴とする自国語の発音列変換システム。
【請求項2】
前記自国語の発音列抽出部は、複数の漢字に対する自国語の発音列の組で構成された漢字−自国語の発音列テーブルを用いて自国語の発音列を抽出することを特徴とする請求項1に記載の自国語の発音列変換システム。
【請求項3】
形態が同一であり、かつコードが異なる同形異音の漢字を含む漢字文字列に対し、前記漢字文字列のコードを正規化するコード正規化部をさらに含み、
前記自国語の発音列抽出部は、前記コードが正規化された漢字文字列に対し、自国語の発音列を抽出することを特徴とする請求項1に記載の自国語の発音列変換システム。
【請求項4】
前記コード正規化部は、前記同形異音の漢字を代表漢字に変換して前記漢字文字列のコードを正規化することを特徴とする請求項3に記載の自国語の発音列変換システム。
【請求項5】
前記統計データ決定部は、漢字と自国語が共に表現されたデータから抽出され、漢字−自国語の変換に対して意味のある特徴に対応する統計データを用いて、前記漢字文字列に対する統計データを決定することを特徴とする請求項1に記載の自国語の発音列変換システム。
【請求項6】
前記統計データ決定部は、前記漢字文字列と関連する前記自国語の発音列の音節に対して音節確率と転移確率を決定することを特徴とする請求項1に記載の自国語の発音列変換システム。
【請求項7】
前記自国語の発音変換部は、前記漢字文字列に対して変換しようとする自国語の発音列の確率が最大になる自国語の発音列を決定することを特徴とする請求項1に記載の自国語の発音列変換システム。
【請求項8】
前記自国語の発音変換部は、隠れマルコフモデルに基づいて前記漢字文字列を自国語の発音列を変換することを特徴とする請求項7に記載の自国語の発音列変換システム。
【請求項9】
前記自国語の発音変換部は、繰り返して処理される部分に対しては、ビタビアルゴリズムを適用して前記漢字文字列に対して最適な経路を表す自国語の発音列に変換することを特徴とする請求項8に記載の自国語の発音列変換システム。
【請求項10】
漢字文字列に対して自国語の発音列を抽出するステップと、
漢字−自国語の発音列の変換との関連を特徴つける統計データを用いて前記漢字文字列に対する統計データを決定するステップと、
前記抽出された自国語の発音列と前記決定した統計データとを用いて前記漢字文字列を最適な自国語の発音列に変換するステップと、
を含むことを特徴とする自国語の発音列の変換方法。
【請求項11】
前記自国語の発音列を抽出するステップは、複数の漢字に対する自国語の発音列の組で構成された漢字−自国語の発音列テーブルを用いて自国語の発音列を抽出することを特徴とする請求項10に記載の自国語の発音列の変換方法。
【請求項12】
形態が同一であり、かつコードが異なる同形異音の漢字を含む漢字文字列に対して前記漢字文字列のコードを正規化するステップをさらに含み、
前記漢字文字列に対して自国語の発音列を抽出するステップは、前記コードが正規化された漢字文字列に対して自国語の発音列を抽出することを特徴とする請求項10に記載の自国語の発音列の変換方法。
【請求項13】
前記漢字文字列のコードを正規化するステップは、前記同形異音の漢字を代表漢字に変換して前記漢字文字列のコードを正規化することを特徴とする請求項12に記載の自国語の発音列の変換方法。
【請求項14】
前記漢字文字列に対する統計データを決定するステップは、漢字と自国語が共に表現されたデータから抽出され、漢字−自国語の変換に対して意味のある特徴に対応する統計データを用いて前記漢字文字列に対する統計データを決定することを特徴とする請求項10に記載の自国語の発音列の変換方法。
【請求項15】
前記漢字文字列に対する統計データを決定するステップは、前記漢字文字列と関連する前記自国語の発音列の音節に対して音節確率と転移確率を決定することを特徴とする請求項10に記載の自国語の発音列の変換方法。
【請求項16】
前記漢字文字列を最適な自国語の発音列に変換するステップは、前記漢字文字列に対して変換しようとする自国語の発音列の確率が最大になる自国語の発音列を決定することを特徴とする請求項10に記載の自国語の発音列の変換方法。
【請求項17】
前記漢字文字列を最適な自国語の発音列に変換するステップは、隠れマルコフモデルに基づいて前記漢字文字列を自国語の発音列に変換することを特徴とする請求項16に記載の自国語の発音列の変換方法。
【請求項18】
前記漢字文字列を最適な自国語の発音列に変換するステップは、繰り返して処理される部分に対しては、ビタビアルゴリズムを適用して前記漢字文字列に対して最適な経路を表す自国語の発音列に変換することを特徴とする請求項17に記載の自国語の発音列の変換方法。
【請求項19】
請求項10乃至請求項18のいずれか一項に記載の方法を行うためのプログラムが記録されたコンピュータで読み出し可能な記録媒体。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2011−18330(P2011−18330A)
【公開日】平成23年1月27日(2011.1.27)
【国際特許分類】
【出願番号】特願2010−153827(P2010−153827)
【出願日】平成22年7月6日(2010.7.6)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)
【Fターム(参考)】