翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法

【課題】翻字の対象とされる文字列が何語を起源とするか不明な場合でも、翻字された文字列が当該対象を翻字したものであるかを従来よりも精度良く特定できる翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法を提供する。
【解決手段】翻字処理装置１００は、翻字のために原断片が翻字断片に書き換えられる書換確率を複数含む、互いに異なるＫ個の言語に対応した書換表と、Ｋ個の言語に対応した翻字表とを生成する生成部１０５を備える。また翻字処理装置１００は、使用された書換表に対応した言語を起源とする原綴り文字列が目的綴り文字列に翻字される翻字確率を当該言語に対応した翻字表に保存した後に、Ｋ個の翻字表の尤度を算出する尤度関数の期待値を最大化するように、Ｋ個の書換表を更新する更新部１０７を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法に関する。
【背景技術】
【０００２】
従来から、ある言語の文字列ｓ_ｎを他の言語の文字列ｔ_ｎに翻字する翻字モデルを、当該ある言語の文字列ｓ_ｎで表される人名が中国語、日本語、及び英語のいずれを起源とするかに応じて切り替え、切り替えられたモデルを用いて翻字を行う方法が知られている（例えば、非特許文献１）。
【０００３】
また従来から、ある言語の文字列ｓ_ｎを構成する文字列又は文字（以下、断片という）αが、他の言語の文字列ｔ_ｎを構成する断片βに書き換えられる書換確率に基づいて当該ある言語の文字列ｓ_ｎが当該他の言語の文字列ｔ_ｎに翻字される翻字確率を算出するαβ法が知られている（例えば、非特許文献２）。
【先行技術文献】
【非特許文献】
【０００４】
【非特許文献１】ハイゾー・リー（Haizhou Li）、他３名著、「セマンティクトランスリタレーションオブパーソナルネームズ（Semantic Transliteration of Personal Names）」、２００７年６月、ｐ．１２０−１２７
【非特許文献２】エリック・ビル（Eric Brill）、他１名著、「アンアンプルーブドブドエラーモデルフォーノイジーチャネルスペリングコレクション（An improved error model for noisy channel spelling Correction）」、２０００年、ｐ．２８６−２９３
【発明の概要】
【発明が解決しようとする課題】
【０００５】
ここで、非特許文献１の方法では、ある言語の文字列ｓ_ｎで表される人名が何語を起源とするかが不明な場合には、翻字モデルを切り替えることができない。また非特許文献２の方法では、ある文字列ｓ_ｎが言語の起源とするかが不明な場合には、翻字確率を算出できない。このため、これらの方法では、ある言語の文字列ｓ_ｎが他の言語の文字列ｔ_ｎの翻字であるかを精度良く特定できないという問題があった。
【０００６】
本発明は、このような点に鑑みてなされたものであり、その目的とするところは、翻字の対象とされる文字列が何語を起源とするか不明な場合でも、翻字された文字列が当該対象を翻字したものであるかを従来よりも精度良く特定できる翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法を提供することにある。
【課題を解決するための手段】
【０００７】
上記目的を達成するため、本発明の第１の観点に係る翻字処理装置は、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成部、
前記訓練集合に含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
を備えることを特徴とする。
【０００８】
また、第１の観点に係る翻字処理装置において、
前記Ｋ個の翻字表それぞれに対応した起源言語を起源とする原綴り文字列が、前記訓練集合に含まれる複数の原綴り文字列に占める割合をそれぞれ示す、前記Ｋ個の翻字表の重みパラメタを初期化する初期化部、を更に備え、
前記更新部は、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の翻字表に含まれる当該翻字確率の前記重みパラメタによる重み付き平均に基づいて、前記原綴り文字列の起源言語が当該翻字表に対応した起源言語である起源確率をそれぞれ算出した後に、当該起源確率をさらに用いて算出される前記尤度関数の期待値を最大化するように、前記Ｋ個の重みパラメタを更新した後に、前記起源確率の算出と前記重みパラメタの更新とを繰り返す、としても良い。
【０００９】
また、第１の観点に係る翻字処理装置において、
前記生成部は、１個の前記書換表を生成した後に、前記生成された１個の書換表に含まれる書換確率を、前記Ｋ個の言語毎に変化させることにより、前記Ｋ個の言語に対応したＫ個の書換表を生成する、としても良い。
【００１０】
また、第１の観点に係る翻字処理装置において、
前記生成部は、１個の前記書換表を用いたαβ法により１個の前記翻字表を生成した後に、前記生成された１個の翻字表に含まれる翻字確率を変化させることにより、前記Ｋ個の言語に対応したＫ個の翻字表を生成し、
前記更新部は、前記Ｋ個の翻字表のそれぞれに含まれる翻字確率をＥＭアルゴリズムにより更新する、としても良い。
【００１１】
また、第１の観点に係る翻字処理装置において、
前記更新部は、前記更新による前記尤度関数の期待値の変化量が、所定の大きさ未満となるまで前記更新を繰り返す、としても良い。
【００１２】
また、第１の観点に係る翻字処理装置において、
前記任意の起源言語における綴りからなる第１文字列と、前記所定の目的言語における綴りからなる第２文字列と、を受け付ける受付部、
前記Ｋ個の翻字表のそれぞれを用いることにより前記受け付けられた第１文字列が前記受け付けられた第２文字列に翻字される翻字確率を求め、当該求められた翻字確率を出力する確率出力部、
をさらに備える、としても良い。
【００１３】
また、第１の観点に係る翻字処理装置において、
前記任意の起源言語における綴りからなる第１文字列を受け付ける受付部、
前記Ｋ個の翻字表のそれぞれを用いることにより前記受け付けられた第１文字列が翻字されうる前記所定の目的言語における候補文字列と、当該第１文字列が当該候補文字列に翻字される翻字確率を求め、当該求められた翻字確率が高い順に当該求められた候補文字列を出力する候補出力部、
をさらに備える、としても良い。
【００１４】
また、第１の観点に係る翻字処理装置において、
前記受付部は、前記訓練集合に含まれていない第１文字列を受け付ける、としても良い。
【００１５】
上記目的を達成するため、本発明の第２の観点に係る翻字処理プログラムは、
コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする。
【００１６】
上記目的を達成するため、本発明の第３の観点に係るコンピュータ読み取り可能な記録媒体は、
コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする翻字処理プログラムを記録している。
【００１７】
上記目的を達成するため、本発明の第４の観点に係る翻字処理方法は、
生成部及び更新部とを備える翻字処理装置が実行する方法であって、
前記生成部が、任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成ステップ、
前記更新部が、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新ステップ、
を有することを特徴とする。
【発明の効果】
【００１８】
本発明に係る翻字処理装置、翻字処理プログラム、翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体、及び翻字処理方法によれば、翻字の対象とされる文字列が何語を起源とするか不明な場合でも、翻字された文字列が当該対象を翻字したものであるかを従来よりも精度良く特定できる。
【図面の簡単な説明】
【００１９】
【図１】本発明の実施例に係る翻字処理システムの一構成例を表すシステム構成図である。
【図２】（ａ）は、端末装置が表示する入力画面の一例を表す図である。（ｂ）は、端末装置が表示する結果表示画面の一例を表す図である。
【図３】本発明の実施例に係る翻字処理装置の一構成例を表すハードウェア構成図である。
【図４】本発明の実施例に係る翻字処理装置が実行する訓練集合生成処理の一例を表すフローチャートである。
【図５】本発明の実施例に係る翻字処理装置が発揮する機能の一例を表す機能ブロック図である。
【図６】（ａ）は、基礎翻字テーブルの一例を表す図である。（ｂ）は、第１翻字テーブルの一例を表す図である。（ｃ）は、第２翻字テーブルの一例を表す図である。（ｄ）は、第３翻字テーブルの一例を表す図である。
【図７】翻字処理装置が実行する翻字処理の一例を表すフローチャートである。
【図８】（ａ）は、基礎書換テーブルの一例を表す図である。（ｂ）は、第１書換テーブルの一例を表す図である。（ｃ）は、第２書換テーブルの一例を表す図である。（ｄ）は、第３書換テーブルの一例を表す図である。
【図９】書換回数テーブルの一例を表す図である。
【図１０】翻字処理装置が実行する第１生成処理の一例を表すフローチャートである。
【図１１】翻字処理装置が実行する第２生成処理の一例を表すフローチャートである。
【図１２】（ａ）は、ＥＭアルゴリズムに従った処理の実行により生じる翻字確率の変化を説明するための図である。（ｂ）は、重付翻字確率の変化を説明するための図である。（ｃ）は、書換確率の変化を説明するための図である。
【図１３】（ａ）は、本発明の実施例の変形例２に係る端末装置が表示する入力画面の一例を表す図である。（ｂ）は、変形例２に係る端末装置が表示する結果表示画面の一例を表す図である。
【図１４】本発明の実施例の変形例２に係る翻字処理装置が実行する翻字処理の他例を表すフローチャートである。
【図１５】本発明の実施例の変形例２に係る翻字処理装置が発揮する機能の一例を表す機能ブロック図である。
【図１６】本発明の実施例の変形例３に係る翻字処理システムの一構成例を表すシステム構成図である。
【図１７】検索エンジンが返信する検索結果画面の一例を表すシステム構成図である。
【図１８】本発明の実施例の変形例３に係る翻字処理装置が実行する翻字処理の他例を表すフローチャートである。
【発明を実施するための形態】
【００２０】
以下、本発明の実施例について添付図面を参照しつつ説明する。
【００２１】
図１の翻字処理システム１は、コンピュータ通信網１０（以下単に、通信網１０という）と、本発明の翻字処理装置１００と、端末装置２００と、日本語データベースサーバ（以下、日本語ＤＢサーバという）３０１及び外国語データベースサーバ（以下、外国語ＤＢサーバという）３０２とで構成される。
【００２２】
通信網１０は、例えば、インターネットで構成される。通信網１０は、ＬＡＮ（Local Area Network）又は公衆回線網であっても良い。
【００２３】
翻字処理装置１００について説明する前に、端末装置２００と日本語ＤＢサーバ３０１及び外国語ＤＢサーバ３０２について説明する。
端末装置２００は、例えば、ＬＣＤ（Liquid Crystal Display）などの表示部と、キーボードなどの入力部とを備えたパーソナル・コンピュータで構成される。端末装置２００は、図２（ａ）に示すような入力画面ＦＩ１を表示することで、任意の起源言語における綴りからなる第１文字列と、当該第１文字列を所定の目的言語の文字列に翻字した文字列であるとユーザが考える文字列であって、所定の目的言語における綴りからなる第２文字列との対（以下、入力対という）を入力するように促す表示を行う。
【００２４】
尚、翻字とは、例えば、「Barak Obama」を「バラクオバマ」と翻訳するように、表記体系の異なる言語間における音韻的な翻訳をいう。本実施例において、所定の目的言語は日本語であり、任意の起源言語は、例えば、英語、フランス語、スペイン語、ドイツ語、ポーランド語、及びロシア語などの表記にアルファベットを用いる言語であれば何語であっても構わないとして説明を行うが、これに限定される訳ではない。例えば、所定の目的言語は英語であり、任意の起源言語は、例えば、日本語及び中国語などの表記に漢字を用いる言語であっても良い。
【００２５】
また、第１文字列の起源言語とは、当該第１文字列の読み方を定める言語をいう。例えば、第１文字列が「monget」であり、当該文字列が文字商標を構成する場合であって、当該商標の使用者が当該文字商標をフランス語読みで「モンジェ」と称呼するように、当該商標が付された商品の販売者や広告会社等に依頼する場合には、当該第１文字列の起源言語はフランス語である。また、例えば、第１文字列が「Monet」であり、当該文字列がフランス人の名前を表す場合には、第１文字列「Monet」はフランス語読みで「モネ」と読まれるので、当該第１文字列の起源言語はフランス語である。つまり、第１文字列の起源言語は、第１文字列を使用する者が定める言語であってもよいし、第１文字列で表される内容によって必然的に定まるものであっても良い。しかし、起源言語は、例えば、英語「etc」がラテン語「et cetera」を起源とするというような、ある文字列の語源となった言語をいうのではない。
【００２６】
図２（ａ）の入力画面ＦＩ１を表示した後に、端末装置２００は、ユーザの操作に応じた各種の信号を翻字処理システム１に入力し、入力された信号に基づいて入力対を生成し、生成した入力対を表す情報を翻字処理装置１００へ送信する。その後、端末装置２００は、翻字処理装置１００から返信された情報を受信し、受信された情報に基づいて、図２（ｂ）に示すような結果表示画面ＦＯ２に、当該入力対を構成する第１文字列及び第２文字列と、当該第２文字列が当該第１文字列の翻字である確率とを表示する。
【００２７】
日本語ＤＢサーバ３０１及び外国語ＤＢサーバ３０２は、例えば、Ｗｉｋｉｐｅｄｉａ（登録商標）及びＤＢｐｅｄｉａなどの不特定のユーザが編集を許可されたオンライン百科事典の解説頁を表す情報を管理するデータベースを有し、当該データベースで管理される情報をインターネット上に公開する。尚、日本語ＤＢサーバ３０１は、日本語の解説頁を表す情報を管理及び公開し、外国語ＤＢサーバ３０２は、外国語の解説頁を表す情報を管理及び公開する。日本語ＤＢサーバ３０１が公開する日本語の解説頁には、当該日本語の解説頁と同じ物又は人を解説する外国語の解説頁（以下、対応頁という）のＵＲＬ（Uniform Resource Locator）が記載されている。
【００２８】
翻字処理装置１００は、ウェブサーバソフトウェアをインストールされたサーバ機である。翻字処理装置１００は、端末装置２００から、入力対を表す情報を受信し、受信された情報で表される入力対が互いに翻字関係にある確率を算出し、算出された確率を表す情報を端末装置２００へ返信する。
【００２９】
翻字処理装置１００は、図３に示すように、ＣＰＵ（Central Processing Unit）１００ａ、ＲＯＭ（Read Only Memory）１００ｂ、ＲＡＭ（Random Access Memory）１００ｃ、ハードディスク１００ｄ、メディアコントローラ１００ｅ、ＬＡＮカード（Local Area Network）１００ｆ、ビデオカード１００ｇ、ＬＣＤ（Liquid Crystal Display）１００ｈ、キーボード１００ｉ、スピーカ１００ｊ、及びマウス１００ｋで構成される。
【００３０】
ＣＰＵ１００ａは、ＲＯＭ１００ｂ又はハードディスク１００ｄに保存されたプログラムに従ってソフトウェア処理を実行することで、翻字処理装置１００の全体制御を行う。ＲＡＭ１００ｃは、ＣＰＵ１００ａによるプログラムの実行時において、処理対象とする情報（つまり、データ）を一時的に記憶する。
【００３１】
ハードディスク１００ｄは、各種の情報（つまり、データ）を保存した表（つまり、テーブル）を記憶する情報記憶部である。尚、翻字処理装置１００は、ハードディスク１００ｄの代わりに、フラッシュメモリを備えても良い。
【００３２】
メディアコントローラ１００ｅは、フラッシュメモリ、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、及びブルーレイディスク（Blu-ray Disc）（登録商標）を含む記録媒体から各種のデータ及びプログラムを読み出す。
【００３３】
ＬＡＮカード１００ｆは、通信網１０を介して接続する端末装置２００、日本語ＤＢサーバ３０１、及び外国語ＤＢサーバ３０２との間でデータを送受信する。キーボード１００ｉ及びマウス１００ｋは、ユーザの操作に応じた信号又は情報を入力する。ＬＡＮカード１００ｆは、情報取得部、受付部、及び確率出力部を構成する。
【００３４】
ビデオカード１００ｇは、ＣＰＵ１００ａから出力されたデジタル信号に基づいて画像を描画（つまり、レンダリング）すると共に、描画された画像を表す画像信号を出力する。ＬＣＤ１００ｈは、ビデオカード１００ｇから出力された画像信号に従って画像を表示する。なお、翻字処理装置１００は、ＬＣＤ１００ｈの代わりに、ＰＤＰ（Plasma Display Panel）又はＥＬ（Electroluminescence）ディスプレイを備えても良い。スピーカ１００ｊは、ＣＰＵ１００ａから出力された信号に基づいて音声を出力する。
【００３５】
翻字処理装置１００のＣＰＵ１００ａは、図３のハードウェアを用いて、図４の訓練集合生成処理を実行することで、図５に示すような訓練集合生成部１０１として機能する。また、ＣＰＵ１００ａは、ＬＡＮカード１００ｆと協働して情報取得部１０２として機能する。さらに、ＣＰＵ１００ａは、ハードディスク１００ｄと協働して情報記憶部１０３として機能する。
【００３６】
図４の訓練集合生成処理について説明する前に、情報記憶部１０３が記憶するテーブルであって、訓練集合生成処理の実行に用いられるデータが保存されたテーブルについて説明する。
情報記憶部１０３は、図６（ａ）に示すような基礎翻字テーブルを記憶している。図６（ａ）の基礎翻字テーブルは、図６（ｂ）から図６（ｄ）に示す第１翻字テーブルから第３翻字テーブルを生成するために用いられるテーブルである。尚、第１翻字テーブルから第３翻字テーブルについては後述する。
【００３７】
図６（ａ）の基礎翻字テーブルには、任意の起源言語における綴りからなる原綴り文字列ｓ_ｎを表す情報と、当該綴り文字列ｓ_ｎを所定の目的言語に翻字した綴りからなる目的綴り文字列ｔ_ｎを表す情報と、当該原綴り文字列ｓ_ｎと当該目的綴り文字列ｔ_ｎとの対（以下、翻字対という）を識別する番号（以下、翻字対番号という）ｎを表す情報と、当該原綴り文字列ｓ_ｎが当該目的綴り文字列ｔ_ｎに翻字される翻字確率Ｐ_αβ（ｓ_ｎ｜ｔ_ｎ）を表す情報とが対応付けられて保存されている。
【００３８】
具体例としては、翻字対番号「1」で識別される翻字対は、「flextime」という原綴り文字列と、「フレックスタイム」という目的綴り文字列とで構成される。尚、図６（ａ）の基礎翻字テーブルに保存された複数の情報で表される翻字対を要素とする集合を訓練集合という。
【００３９】
図４の訓練集合生成処理を開始すると、訓練集合生成部１０１は、訓練集合を空集合とし、訓練集合に追加された翻字対の数（これは、翻字対番号に一致する）を表す変数ｎに値「1」を代入することで当該変数ｎを初期化する（ステップＳ０１）。次に、図５の情報取得部１０２は、日本語ＤＢサーバ３０１から、日本語のオンライン百科辞典を構成する任意の解説頁を表す情報であって、未だ取得されていない情報を取得する（ステップＳ０２）。次に、訓練集合生成部１０１は、取得された情報で表される解説頁から、当該解説頁の解説項目に記載された日本語の文字列を取得する（ステップＳ０３）。
【００４０】
その後、訓練集合生成部１０１は、取得された日本語の文字列が他の言語（つまり、外国語）の文字列を翻字したものであるか否かを、当該日本語の文字列がカタカナのみで構成されるか否かに基づいて判別する（ステップＳ０４）。日本語では、外来語をカタカナのみで表記するためである。
【００４１】
ステップＳ０４において、取得された日本語の文字列が翻字されたものではないと判別された場合には（ステップＳ０４；Ｎｏ）、訓練集合生成部１０１は、ステップＳ０２に戻り上記処理を繰り返す。これに対して、取得された日本語の文字列が翻字されたものであると判別された場合には（ステップＳ０４；Ｙｅｓ）、訓練集合生成部１０１は、取得された日本語の文字列が固有名詞であるか否かを判別する（ステップＳ０５）。尚、ステップＳ０５の判別方法は、例えば、取得された日本語の文字列が、情報記憶部１０３に予め記憶された情報で表される固有名詞と一致するか否かを判別する方法であっても良いし、他の公知の方法であっても良い。
【００４２】
ステップＳ０５において、取得された日本語の文字列が固有名詞でないと判別されると（ステップＳ０５；Ｎｏ）、訓練集合生成部１０１は、ステップＳ０２から上記処理を繰り返す。通常、解説頁の解説項目には、当該解説頁で解説される物の名称又は人の名前などの固有名詞を表す文字列が記載されるため、解説項目から取得された文字列が固有名詞でない場合には、正しく文字列が取得されなかったと考えられるためである。
【００４３】
ステップＳ０５において、取得された日本語の文字列が固有名詞であると判別されると（ステップＳ０５；Ｙｅｓ）、訓練集合生成部１０１は、ステップＳ０２で取得された日本語の解説頁から、当該日本語の解説頁に対応する対応頁（つまり、外国語のオンライン百科辞典の対応頁）のＵＲＬを抽出し、抽出されたＵＲＬに基づいて当該頁を表す情報を外国語ＤＢサーバ３０２から取得する（ステップＳ０６）。
【００４４】
尚、日本語の解説頁には、当該日本語の解説頁と同じ物又は人を解説する外国語の対応頁のＵＲＬが記載されており、訓練集合生成部１０１は、日本語の解説頁に予め記載された対応頁のＵＲＬを抽出するとして説明したが、これに限定される訳ではない。例えば、訓練集合生成部１０１は、日本語の解説頁のＵＲＬに含まれるサブドメインであって、日本語ＤＢサーバ３０１の設置された国を識別するサブドメインを「jp」から「en」、「de」、及び「fr」などに変更することで、外国語の対応頁のＵＲＬを取得してもよい。次に、訓練集合生成部１０１は、取得された情報で表される解説頁から、当該解説頁の解説項目に記載された外国語の文字列を取得する（ステップＳ０７）。次に、訓練集合生成部１０１は、例えば、山田 ××（お笑い芸人）のように、同じ名前の有名人が複数存在する場合などにおいて、当該名前の後に括弧書きで付される説明書きなどのノイズを除去するために、取得された日本語の文字列及び外国語の文字列から、括弧及び当該括弧で括られた文字列を除去する。
【００４５】
その後、訓練集合生成部１０１は、ステップＳ０３で取得された日本語の文字列を原綴り文字列ｓ_ｎとし、ステップＳ０７で取得された外国語の文字列を目的綴り文字列ｔ_ｎとし、当該原綴り文字列ｓ_ｎと当該目的綴り文字列ｔ_ｎとの対を翻字対とした後に（ステップＳ０８）、当該翻字対を訓練集合に追加する（ステップＳ０９）。次に、訓練集合生成部１０１は、図６（ａ）の基礎翻字テーブルへ、当該翻字対の翻字番号ｎを表す情報と、当該翻字対を構成する原綴り文字列ｓ_ｎを表す情報と、目的綴り文字列ｔ_ｎを表す情報とを対応付けて保存する（ステップＳ１０）。
【００４６】
その後、訓練集合生成部１０１は、翻字番号を表す変数ｎの値を値「1」だけインクリメントした後に（ステップＳ１１）、変数ｎの値が所定値ｍ以上であるか否かを判別する（ステップＳ１２）。尚、所定値ｍを表す情報は、図５の情報記憶部１０３に記憶されている。本実施例において、所定値ｍは「11,000」であるとして説明を行うが、これに限定される訳ではなく、当業者は好適な値を実験により定めることができる。
【００４７】
ステップＳ１２において、変数ｎの値が所定値ｍ未満であると判別されると（ステップＳ１２；Ｎｏ）、訓練集合生成部１０１は、ステップＳ０２から上記処理を繰り返す。これに対して、変数ｎの値が所定値ｍ以上であると判別されると（ステップＳ１２；Ｙｅｓ）、訓練集合生成部１０１は、訓練集合生成処理の実行を終了する。
【００４８】
翻字処理装置１００のＣＰＵ１００ａは、図３のハードウェアを用いて、図７の翻字処理を実行することで、図５に示すような第１生成部１０５ａ及び第２生成部１０５ｂを有する生成部１０５、初期化部１０６、並びに期待値算出部１０７ａ、判定部１０７ｂ、及び最大化部１０７ｃを有する更新部１０７としてさらに機能する。また、ＣＰＵ１００ａは、ＬＡＮカード１００ｆと協働して確率出力部１０８としてさらに機能する。
【００４９】
図７の翻字処理について説明する前に、情報記憶部１０３が記憶するテーブルであって、翻字処理の実行に用いられる情報が保存されたテーブルについて説明を行う。
【００５０】
情報記憶部１０３は、図８（ａ）に示すような基礎書換テーブルを記憶している。図８（ａ）基礎書換テーブルは、図８（ｂ）から図８（ｄ）の第１書換テーブルから第３書換テーブルの作成のために用いられるテーブルである。尚、第１書換テーブルから第３書換テーブルについては後述する。
【００５１】
図８（ａ）の基礎書換テーブルには、図６（ａ）の基礎翻字テーブルに保存された情報で表される原綴り文字列ｓ_ｎの断片（以下、原断片という）αを表す情報と、当該原綴り文字列を翻字した目的綴り文字列ｔ_ｎの断片であって、当該原断片αに対応する断片（以下、翻字断片という）βを表す情報と、当該原断片αと当該翻字断片βとの対（以下、断片対という）を識別する断片対番号ｊを表す情報と、翻字のために当該原断片αが当該翻字断片βに書き換えられる確率（以下、書換確率という）を表す情報と、が対応付けられて保存されている。尚、原断片及び翻字断片は、ともに１文字であっても良いし、２文字以上からなる文字列であっても良い。
【００５２】
具体例としては、断片対番号「1」で識別される断片対は、「^f」という原断片αと、「^フ」という翻字断片βとで構成される。また、断片対番号「5」で識別される断片対は、「get$」という原断片αと、「ジェ$」という翻字断片βとで構成され、断片対番号「6」で識別される断片対は、「get$」という原断片αと、「ゲット$」という翻字断片βとで構成される。このように、同じ原断片「get$」に対して異なる翻字断片「ジェ$」と「ゲット$」とが対応付けられているのは、訓練集合に、末尾が「get$」である原綴り文字列ｓ_ｎと、当該原綴り文字列ｓ_ｎをフランス語読みした音韻に基づいて翻字された目的綴り文字列ｔ_ｎとの翻字対と、末尾が「get$」である原綴り文字列ｓ_ｎと、当該原綴り文字列ｓ_ｎを英語読みした音韻に基づいて翻字された目的綴り文字列ｔ_ｎとの翻字対とが含まれていたからである。尚、「^」は、直後に続く文字が文字列の先頭であることを表す記号であり、「$」は、直前の文字が文字列の末尾であることを表す記号である。
【００５３】
さらに、情報記憶部１０３は、図９に示すような書換回数テーブルを記憶している。図９の書換回数テーブルには、翻字対番号ｎを表す情報と、断片対番号ｊを表す情報と、当該番号ｎで識別される翻字対を構成する原綴り文字列ｓ_ｎを、当該翻字対を構成する目的綴り文字列ｔ_ｎに翻字するために、断片対番号ｊで識別される断片対の原断片αを翻字断片βに書き換えた書換回数ｆ_ｎ（α→β）を表す情報とが対応付けられて保存されている。
【００５４】
具体例としては、翻字対番号「1」で識別される翻字対を構成する原綴り文字列「flextime」を目的綴り文字列「フレックスタイム」に翻字するために、断片対番号「2」で識別される断片対を構成する原断片「le」を翻字断片「レ」に書き換えた書換回数は１回である。これに対して、原綴り文字列「flextime」を目的綴り文字列「フレックスタイム」に翻字するために、断片対番号「3」で識別される断片対の原断片「le」を翻字断片「ル」に書き換えた書換回数は０回である。また、翻字対番号「9」で識別される翻字対の原綴り文字列「mama」を目的綴り文字列「ママ」に翻字するために、断片対番号「100」で識別される断片対の原断片「ma」を翻字断片「マ」に書き換えた書換回数は２回である。
【００５５】
図７の翻字処理が開始されると、図５の受付部１０４は、端末装置２００から送信された情報で表される入力対を受け付ける（ステップＳ３１）。次に、生成部１０５は、受け付けた入力対を翻字対とみなす。その後、生成部１０５は、当該翻字対を訓練集合に追加し、当該翻字対の翻字対番号をｍ＋１とし、訓練集合に属する翻字対の数を表す変数Ｎをｍ＋１とする。次に、生成部１０５は、図６（ａ）の基礎翻字テーブルへ、翻字対番号Ｎを表す情報と、当該翻字対を表す情報とを対応付けて追加保存する（ステップＳ３２）。
【００５６】
その後、生成部１０５が有する第１生成部１０５ａは、図１０に示すような第１生成処理を実行する（ステップＳ３３）。
図１０の第１生成処理を開始すると、第１生成部１０５ａは、図６（ａ）の基礎翻字テーブルを参照することで訓練集合に含まれる翻字対を取得した後に、取得した翻字対を用いて、図９の書換回数テーブルを生成する（ステップＳ５１）。具体的には、第１生成部１０５ａは、訓練集合から全ての翻字対を取り出す。次に、第１生成部１０５ａは、取り出した全ての翻字対に対して、当該翻字対を構成する原綴り文字列ｓ_ｎの先頭に特殊文字「^」を追加し、末尾に特殊文字「$」を追加する。その後、第１生成部１０５ａは、特殊文字が追加された文字列ｓ_ｎを分割することで原断片αを生成する。
【００５７】
ここで、原綴り文字列ｓ_ｎの長さがＡである場合（つまり、原綴り文字列ｓ_ｎがＡ文字の文字列である場合）には、原綴り文字列ｓ_ｎの分割方法Ｓは、２^{（Ａ−１）}−１通り存在する。第１生成部１０５ａは、全通りの分割方法Ｓで原綴り文字列ｓ_ｎを分割することで、全通りの原断片αを生成する。また、第１生成部１０５ａは、上記原綴り文字列ｓ_ｎの全通りの分割方法Ｓを要素とする集合をＰａｒｔ（ｓ_ｎ）とする。同様に、第１生成部１０５ａは、目的綴り文字列ｔ_ｎの全通りの分割方法Ｔを特定した後に、特定された全通りの分割方法Ｔを要素とする集合Ｐａｒｔ（ｔ_ｎ）を生成する。その後、第１生成部１０５ａは、全通りの分割方法Ｔで目的綴り文字列ｔ_ｎを分割することで全通りの翻字断片βを取得する。
【００５８】
その後、第１生成部１０５ａは、原断片αと翻字断片βとの全通りの組合せを生成し、生成された組合せ毎に上記の書換回数ｆ_ｎ（α→β）を算出する。次に、第１生成部１０５ａは、図９の書換回数テーブルへ、算出された書換回数ｆ_ｎ（α→β）を表す情報を、翻字対番号ｎを表す情報と、原断片αと翻字断片βとで構成される断片対の断片対番号ｊを表す情報とに対応付けて保存する。
【００５９】
図１０のステップＳ５１の後に、第１生成部１０５ａは、図９の書換回数テーブルに基づいて、図８（ａ）の基礎書換テーブルを生成する（ステップＳ５２）。具体的には、第１生成部１０５ａは、算出された書換回数ｆ_ｎ（α→β）を、以下の式（１）に用いることで、原断片αが翻字断片βに書き換えられる書換確率Ｐ（α→β）を算出する。
【００６０】
【数１】

【００６１】
その後、第１生成部１０５ａは、算出された書換確率Ｐ（α→β）を表す情報を、原断片αと翻字断片βとで構成される断片対の断片対番号ｊを表す情報に対応付けて、図８（ａ）の基礎書換テーブルに保存する。
【００６２】
図１０のステップＳ５２の後に、第１生成部１０５ａは、図８（ａ）の基礎書換テーブルに基づいて図６（ａ）の基礎翻字テーブルを再生成した後に（ステップＳ５３）、第１生成処理の実行を終了する。具体的には、先ず、第１生成部１０５ａは、訓練集合に属する翻字対の内で、未処理の翻字対に注目する。次に、第１生成部１０５ａは、注目した翻字対（以下、注目翻字対という）を構成する原綴り文字列ｓ_ｎ及び目的綴り文字列ｔ_ｎと、算出された書換確率Ｐ（α→β）とを以下の式（２）に用いることで、注目翻字対についてαβ法を実行する。尚、αβ法の実行方法の詳細ついては、非特許文献２に記載されているため説明を省略する。また、本明細書は、非特許文献２の内容を参照により取り込む。
【００６３】
【数２】

【００６４】
但し、Ｔは、目的綴り文字列ｔ_ｎの分割方法を表し、Ｐａｒｔ（ｔ_ｎ）は、全分割方法Ｔを要素とする集合である。同様に、Ｓは、原綴り文字列ｓ_ｎの分割方法を表し、Ｐａｒｔ（ｓ_ｎ）は、全分割方法Ｓを要素とする集合である。さらに、｜Ｓ｜は、原綴り文字列ｓ_ｎを分割方法Ｓで分割した場合に生成される原断片αの数を表す。またさらに、α_ｉは、原綴り文字列ｓ_ｎを分割方法Ｓで分割した場合に生成される先頭からｉ番目の原断片を表し、β_ｉは、目的綴り文字列ｔ_ｎを分割方法Ｔで分割した場合に生成される先頭からｉ番目の翻字断片を表す。
【００６５】
このαβ法の実行により、第１生成部１０５ａは、注目翻字対を構成する原綴り文字列ｓ_ｎが当該目的綴り文字列ｔ_ｎに翻字される翻字確率Ｐ_αβ（ｓ_ｎ｜ｔ_ｎ）を算出する。次に、第１生成部１０５ａは、図６（ａ）の基礎翻字テーブルへ、算出された翻字確率Ｐ_αβ（ｓ_ｎ｜ｔ_ｎ）を表す情報を、注目翻字対の翻字対番号ｎを表す情報に対応付けて保存する。その後、第１生成部１０５ａは、未処理の翻字対が無くなるまで上記処理を繰り返す。
【００６６】
図７のステップＳ３３の後に、図５の受付部１０４は、端末装置２００から送信された情報で表される言語数Ｋを受け付ける（ステップＳ３４）。この言語数Ｋは、訓練集合に属する複数の翻字対をそれぞれ構成する原綴り文字列ｓ_ｎを、起源言語に応じて幾つのクラスに潜在的に（つまり、明示的ではなく）分類するかを表す値である。具体的には、訓練集合に含まれる複数の原綴り文字列ｓ_ｎが、英語、フランス語、スペイン語、ドイツ語、ポーランド語、及びロシア語のいずれかを起源言語とする場合に、受け付けた言語数Ｋが値「7」であれば、当該複数の原綴り文字列ｓ_ｎは、それぞれ起源言語に応じて、英語のクラス、フランス語のクラス、ドイツ語のクラス、ポーランド語のクラス、及びロシア語のクラスという７つのクラスに潜在的に分類されることが多い。
【００６７】
これに対して、受け付けた言語数Ｋが値「3」であれば、例えば、英語及びドイツ語のクラス、フランス語及びスペイン語のクラス、並びにポーランド語及びロシア語のクラスといった言語学上の語派に潜在的に分類されることが多い。同じ語派に属する起源言語を有する原綴り文字列ｓ_ｎは、他の起源言語を有する文字列ｓ_ｎよりも互いに類似した表記及び表記に対する音韻を用いることが多いためである。
【００６８】
尚、フランス語及びスペイン語のように、同じクラスに潜在的に分類される原綴り文字列ｓ_ｎの起源言語を総称して潜在言語という。本実施例では、潜在言語の数Ｋは「3」個であるとして説明を行うがこれに限定される訳ではない。「3」個の潜在言語は、言語番号「1」、「2」、及び「3」でそれぞれ識別される。この言語番号「1」、「2」、及び「3」でそれぞれ識別される潜在言語を第１言語、第２言語、及び第３言語と称する。本実施例において、言語番号ｚは潜在変数であり、言語番号ｚで識別される潜在言語は、具体的に何語であるかが特定されることはない。
【００６９】
図７のステップＳ３４の後に、図５の第２生成部１０５ｂは、図１１に示すような第２生成処理を実行する。
図１１の第２生成処理を開始すると、第２生成部１０５ｂは、図８（ａ）の基礎書換テーブルを読み込む（ステップＳ６１）。その後、第２生成部１０５ｂは、読み込んだ基礎書換テーブルをＫ個コピーすることで、第１書換テーブルから第Ｋ書換テーブルまでのＫ個の書換テーブルを生成する（ステップＳ６２）。具体的には、第２生成部１０５ｂは、図８（ａ）の基礎書換テーブルに保存された断片対を識別する番号ｊを表す情報と、当該断片対を構成する原断片αを表す情報と、当該断片対を構成する翻字断片βを表す情報と、当該原断片αを含む原綴り文字列ｓ_ｎの起源言語が第１言語である条件の下で当該原断片αが翻字断片βに書き換えられる書換確率Ｐ（α→β｜ｚ＝１）を表す情報とを対応付けて保存された第１書換テーブルを生成する。同様に、第２生成部１０５ｂは、書換確率Ｐ（α→β｜ｚ＝２）を表す情報を保存された第２書換テーブルと、書換確率Ｐ（α→β｜ｚ＝３）を表す情報を保存された第３書換テーブルとを生成する。
【００７０】
ステップＳ６２の後に、第２生成部１０５ｂは、図６（ａ）の基礎翻字テーブルを読み込む（ステップＳ６３）。その後、第２生成部１０５ｂは、読み込んだ基礎翻字テーブルをＫ個コピーすることで、第１翻字テーブルから第Ｋ翻字テーブルまでのＫ個の翻字テーブルを生成した後に（ステップＳ６４）、第２生成処理の実行を終了する。具体的には、第２生成部１０５ｂは、基礎翻字テーブルに保存された翻字対を識別する番号ｎを表す情報と、当該翻字対を構成する原綴り文字列ｓ_ｎを表す情報と、当該翻字対を構成する目的綴り文字列ｔ_ｎを表す情報と、当該原綴り文字列ｓ_ｎの起源言語が第１言語である条件の下で当該原綴り文字列ｓ_ｎの翻字が目的綴り文字列ｔ_ｎである翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）を表す情報とを対応付けて保存された、図６（ｂ）に示すような第１翻字テーブルを生成する。同様に、第２生成部１０５ｂは、図６（ｃ）に示すような翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝２）を表す情報を保存された第２翻字テーブルと、図６（ｄ）に示すような翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝３）を表す情報を保存された第３翻字テーブルとを生成する。
【００７１】
尚、第２生成部１０５ｂは、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝２）、及び翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝３）をそれぞれ所定量以上互いに異なる値に変更する。これらの翻字確率がそれぞれ所定量以上互いに異ならない場合には、後述するＥＭ（Expectation Maximization）アルゴリズムのＥステップ及びＭステップが繰り返し実行されないためである。本実施例では、第２生成部１０５ｂは、同じ翻字対番号ｎを表す情報に対応付ける翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝２）、及び翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝３）を、当該翻字対番号ｎを表す情報に対応付けられた翻字確率Ｐ_αβ（ｔ_ｎ｜ｓ_ｎ）に対して、それぞれランダムな値を加算、減算、乗算、及び除算などした値に設定するとして説明する。しかし、これに限定される訳ではなく、上記の翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）から翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝３）が、Ｋ個の言語毎にそれぞれ翻字確率Ｐ_αβ（ｔ_ｎ｜ｓ_ｎ）と所定量ずつ異なる値に設定されても良い。
【００７２】
図７のステップＳ３５の後に、図５の初期化部１０６は、後述するＥＭアルゴリズムの実行に用いられるパラメタを初期化する初期化処理を実行する（ステップＳ３６）。具体的には、初期化部１０６は、訓練集合に属する翻字対を構成するＮ個の原綴り文字列ｓ_ｎの内で、言語番号ｋで識別される潜在言語を起源言語とする原綴り文字列ｓ_ｎの割合を表す重みパラメタπ_ｋを所定の値「1/K」にそれぞれ初期化する。
【００７３】
尚、所定の値を表す情報は、情報記憶部１０３に記憶されており、当該情報で表される重みパラメタπ_ｋの初期値は「1/K」に限定される訳ではなく、当業者は、実験により好適な値を定めることができる。また、重みパラメタπ_１を、図６（ａ）に示す第１翻字テーブルの重みパラメタといい、同様に、重みパラメタπ_２を、図６（ｂ）に示す第２翻字テーブルの重みパラメタといい、重みパラメタπ_３を、図６（ｃ）に示す第３翻字テーブルの重みパラメタという。
【００７４】
ステップＳ３６の後に、図５の期待値算出部１０７ａは、ＥＭアルゴリズムのＥステップを実行する（ステップＳ３７）。具体的には、Ｅステップは、第１Ｅステップから第３Ｅステップで構成される。期待値算出部１０７ａは、Ｅステップを初回に実行する場合には、Ｅステップを構成する第１Ｅステップから第３Ｅステップとの内で、第２Ｅステップ及び第３Ｅステップのみを実行し、そうでない場合には第１Ｅステップから順に第３Ｅステップまでを実行する。何故ならば、第１Ｅステップは、書換確率Ｐ（α→β｜ｚ＝１）からＰ（α→β｜ｚ＝３）を用いてαβ法を実行することで、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）からＰ（ｔ_ｎ｜ｓ_ｎ，ｚ＝３）を算出する処理であるため、初回の第１Ｅステップに相当する処理は、図１０のステップＳ５３及び図１１のステップＳ６４の処理であり、既に実行されているためである。
【００７５】
期待値算出部１０７ａは、第１Ｅステップを開始すると、言語番号「1」の第１言語に注目し、当該第１言語を注目言語とする。次に、期待値算出部１０７ａは、注目言語に対応した図８（ｂ）の第１書換テーブルから書換確率Ｐ（α→β｜ｚ＝１）を参照する。その後、期待値算出部１０７ａは、図６（ｂ）の第１翻字テーブルに保存された情報で表される未処理の翻字対の１つに注目する。その後、期待値算出部１０７ａは、注目した翻字対（以下、注目翻字対という）を構成する原綴り文字列ｓ_ｎと目的綴り文字列ｔ_ｎと、参照した書換確率Ｐ（α→β｜ｚ＝１）とを以下の式（３）に用いることでαβ法を実行する。
【００７６】
【数３】

【００７７】
但し、Ｓ及びＴ、Ｐａｒｔ（ｓ_ｎ）及びＰａｒｔ（ｔ_ｎ）、｜Ｓ｜、α_ｉ、並びにβ_ｉは、それぞれ上記式（２）で使用したものと同様であるので説明を省略する。
【００７８】
上記式（３）を用いてαβ法を実行することにより、注目翻字対の翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）を算出し、図６（ａ）の第１翻字テーブルを算出された値を表す情報で更新する。その後、期待値算出部１０７ａは、未処理の翻字対が無くなるまで上記処理を繰り返した後に、言語番号「2」で識別される第２言語を注目言語として上記処理を繰り返す。その後、期待値算出部１０７ａは、言語番号「3」で識別される第３言語を注目言語として上記処理を繰り返した後に、第１Ｅステップを終了する。
【００７９】
第２Ｅステップでは、期待値算出部１０７ａは、翻字対番号ｎで識別される翻字対の原綴り文字列ｓ_ｎが言語番号ｋで識別される潜在言語を起源としている場合に値「1」となり、そうでない場合に値「0」となる確率変数ｚ_ｎｋの期待値γ_ｎｋ（つまり、Ｅ［ｚ_ｎｋ］）を、全ての翻字対番号ｎ及び全ての言語番号ｋについて以下の式（４）を用いて算出する。尚、期待値γ_ｎｋは、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）を、重みパラメタπ_ｋで重み付けした重付翻字確率であり、原綴り文字列ｓ_ｎの起源言語が言語番号ｋで識別される潜在言語である確率（以下、起源確率という）でもある。
【００８０】
【数４】

【００８１】
第３Ｅステップでは、期待値算出部１０７ａは、尤度関数Ｌの期待値Ｑを期待値γ_ｎｋを用いて算出する。尚、尤度関数Ｌは、訓練集合が得られた（つまり、観測された）場合に、当該訓練集合の要素である複数の翻字対を言語番号「1」から「3」の３個の潜在言語に基づいて潜在的にクラス分けした翻字モデルにおける、図６（ｂ）から図６（ｄ）にそれぞれ示された第１翻字テーブルから第３翻字テーブルの尤もらしさを表す尤度を算出する関数であり、以下の式（５）で表される。
【００８２】
【数５】

【００８３】
図７のステップＳ３７の後に、図５の判定部１０７ｂは、今回初めて尤度関数Ｌの期待値Ｑが算出されたか（つまり、Ｅステップが初めて実行されたか）否かを判別する（ステップＳ３８）。このとき、更新部１０７は、今回初めて尤度関数Ｌの期待値Ｑが算出されたのではないと判別すると（ステップＳ３８；Ｎｏ）、ステップＳ３７で前回に算出された尤度関数Ｌの期待値Ｑから、今回に算出された尤度関数Ｌの期待値Ｑへの変化量の絶対値を算出する。次に、更新部１０７は、算出された変化量の絶対値が所定値Ｚ以上であるか否かを判別する（ステップＳ３９）。尚、所定値Ｚを表す情報は、図５の情報記憶部１０３に記憶されており、所定値Ｚの好適な値は、当業者が実験により定めることができる。なお、ここでは変化量の絶対値で判別を行っているが、絶対値でなく割合によって判別を行ってもよい。例えば、前回に算出された尤度関数Ｌの期待値Ｑに対する今回に算出された尤度関数Ｌの期待値Ｑの割合が所定値Ｚ以上であるか否かを判別したり、前回に算出された期待値γ_ｎｋに対する今回に算出された期待値γ_ｎｋの割合が所定値Ｚ以上であるか否かを判別したりすることもできる。
【００８４】
ステップＳ３８において、更新部１０７が、今回初めて尤度関数Ｌの期待値Ｑが算出されたと判別した場合（ステップＳ３８；Ｙｅｓ）、又は期待値Ｑの変化量の絶対値が所定値Ｚ以上であると判別した場合に（ステップＳ３９；Ｙｅｓ）、図５の最大化部１０７ｃは、尤度関数Ｌの期待値Ｑを最大化するＭステップを実行する（ステップＳ４０）。
【００８５】
具体的には、最大化部１０７ｃは、図９の書換回数テーブルに保存された情報で表される書換回数ｆ_ｎ（α→β）と、図７のステップＳ３７（つまり、Ｅステップ）で算出された期待値γ_ｎｋを以下の式（６）及び（７）に用いることで、尤度関数Ｌの期待値Ｑを最大化する重みパラメタπ_ｋ^＊と、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）^＊とを、全ての翻字対番号ｎ及び言語番号ｋについてそれぞれ算出する。
【００８６】
【数６】

【００８７】
図７のステップＳ４０の後に、更新部１０７は、ステップＳ３７で尤度関数Ｌの期待値Ｑを算出するために用いられる重みパラメタπ_ｋを、ステップＳ４０で算出された最適な重みパラメタπ_ｋ^＊（つまり、尤度関数Ｌの期待値Ｑを最大にする最適解）に更新し、図６（ｂ）から図６（ｄ）の第１翻字テーブルから第３翻字テーブルにそれぞれ保存された翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）から翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝３）を表す情報を、それぞれ最適な翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）^＊からＰ（ｔ_ｎ｜ｓ_ｎ，ｚ＝３）^＊を表す情報に更新するパラメタ更新処理を実行する（ステップＳ４１）。その後、ステップＳ３７から上記処理が繰り返される。
【００８８】
判定部１０７ｂが、前回算出された尤度関数Ｌの期待値Ｑから、今回算出された尤度関数Ｌの期待値Ｑへの変化量の絶対値が所定値Ｚ未満であると判別した場合に（ステップＳ３９；Ｎｏ）、図５の確率出力部１０８は、入力対を識別する番号Ｎを表す情報に対応付けられた翻字確率Ｐ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝１）からＰ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝３）を表す情報を、図６（ｂ）の第１翻字テーブルないし図６（ｄ）の第３翻字テーブルから参照する。その後、確率出力部１０８は、参照した翻字確率Ｐ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝１）からＰ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝３）の内で最大の翻字確率を表す情報を端末装置２００へ出力（つまり、送信）した後に（ステップＳ４２）、翻字処理の実行を終了する。
【００８９】
次に、ＥＭアルゴリズムの実行に伴う書換確率Ｐ（α→β｜ｚ＝１）、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）、及び重付翻字確率（つまり、確率変数ｚ_ｎｋの期待値であり、起源確率である）γ_ｎｋの変化について説明する。
図１１のステップＳ６２において、図８（ｂ）の第１書換テーブルに保存された断片対番号「5」で識別される断片対を構成する原断片「get$」が翻字断片「ジェ$」に書き換えられる書換確率Ｐ（α→β｜ｚ＝１）が、他の書換確率Ｐ（α→β｜ｚ＝２）及びＰ（α→β｜ｚ＝３）よりも高い値に設定されると、原断片「get$」を含む原綴り文字列ｓ_２「xxaget」が翻字断片「ジェ」を含む目的綴り文字列ｔ_２「△アジェ」に翻字される翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）は、上記の式（３）を用いて算出されるため、図１２（ａ）に示すように、他の翻字確率Ｐ（ｔ_２｜ｓ_２，ｚ＝２）及びＰ（ｔ_２｜ｓ_２，ｚ＝３）よりも高くなる。
【００９０】
翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝１）が他の翻字確率Ｐ（ｔ_２｜ｓ_２，ｚ＝２）及びＰ（ｔ_２｜ｓ_２，ｚ＝３）よりも高くなると、上記の式（４）で算出される重付翻字確率γ_２１が、図１２（ｂ）に示すように、他の重付翻字確率γ_２２及びγ_２３よりも高くなる。
【００９１】
重付翻字確率γ_２１が高くなると、上記の式（６）で算出される最適な重みパラメタπ_１^＊が、他の重みパラメタπ_２^＊及びπ_３^＊よりも大きくなる。このため、上記の式（４）で算出される重付翻字確率γ_２１がさらに高くなる。
【００９２】
重付翻字確率γ_２１がさらに高くなると、図１２（ｃ）に示すように、上記の式（７）で算出される書換確率Ｐ（α→β｜ｚ＝１）が、他の書換確率Ｐ（α→β｜ｚ＝２）及びＰ（α→β｜ｚ＝３）よりも高い値に更新される。このため、翻字確率Ｐ（ｔ_２｜ｓ_２，ｚ＝１）が他の翻字確率Ｐ（ｔ_２｜ｓ_２，ｚ＝２）及びＰ（ｔ_２｜ｓ_２，ｚ＝３）よりもさらに高くなる。
【００９３】
このようにして、潜在言語が何語であるか特定されないにも関わらず、原綴り文字列ｓ_２の末尾を構成する原断片「get$」を翻字断片「ジェ」に書き換える書換確率Ｐ（α→β｜ｚ＝１）が高い、例えば、フランス語のような潜在言語に対応した第１翻字テーブルでは、当該潜在言語を起源言語とする原綴り文字列ｓ_２「xxaget」を当該起源言語の音韻に従って目的綴り文字列ｔ_２「△アジェ」に翻字される翻字確率Ｐ（ｔ_２｜ｓ_２，ｚ＝１）が高い値となる。
【００９４】
これらの構成によれば、書換確率Ｐ（α→β，ｚ＝ｋ）を用いて翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）を算出してから、当該翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）を用いて算出される尤度関数Ｌの期待値Ｑを最大化するように書換確率Ｐ（α→β，ｚ＝ｋ）を更新した後に、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）の算出と書換確率Ｐ（α→β，ｚ＝ｋ）の更新とを繰り返す。このため、書換確率Ｐ（α→β，ｚ＝ｋ）を表す情報が保存された書換テーブルに対応した潜在言語及び翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）を表す情報が保存された翻字テーブルに対応した潜在言語のいずれもが不明であっても（つまり、翻字の対象とされる原綴り文字列ｓ_ｎが何語を起源とするか不明な場合でも）、翻字された目的綴り文字列ｔ_ｎが当該対象を翻字したものであるかを翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）に基づいて従来よりも正確に特定できる。
【００９５】
またこれらの構成によれば、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）と、重みパラメタπ_ｋとを用いて起源確率（つまり、確率変数ｚ_ｎｋの期待値であり、起源確率である）γ_ｎｋを求めた後に、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）だけでなく起源確率γ_ｎｋをさらに用いて算出される尤度関数Ｌの期待値を最大化するように、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）だけでなく重みパラメタπ_ｋをも更新するため、尤度関数Ｌの期待値が従来よりさらに最大化する。このため、翻字の対象とされる原綴り文字列ｓ_ｎが何語を起源とするか不明な場合でも、翻字された目的綴り文字列ｔ_ｎが当該対象を翻字したものであるかを精度良く特定できる。
【００９６】
これらの構成によれば、１個の基礎書換テーブルからαβ法を実行することで生成された１個の基礎翻字テーブルに含まれる翻字確率Ｐ_αβ（ｓ_ｎ｜ｔ_ｎ）を、Ｋ個の言語毎に変化させることによりＫ個の言語に対応したＫ個の翻字表を生成し、生成されたＫ個の翻字テーブルのそれぞれに含まれる翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）をＥＭアルゴリズムにより更新する。このため、Ｋ個の翻字テーブルの生成に要する計算量を削減しつつ、尤度関数Ｌの期待値を従来より確実に最大化できる。
【００９７】
またこれらの構成によれば、尤度関数Ｌの期待値Ｑの変化量が所定の大きさ未満となるまで翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）及び重みパラメタπ_ｋの更新を繰り返すので、尤度関数Ｌの期待値Ｑを従来より確実に最大化できる。
【００９８】
さらにこれらの構成によれば、第１文字列と第２文字列とを受け付けると、受け付けられた第２文字列が、第１文字列を翻字したものである確率を出力するため、第１文字列が何語を起源とするか不明な場合でも、第１文字列と第２文字列とを受け付ければ、第２文字列が第１文字列を翻字したものである確率を従来よりも正確に算出して出力できる。このため、翻字処理装置１００を使用するユーザは、第１文字列の起源言語を知らない場合であっても、第１文字列と、第１文字列の翻字と考えられる第２文字列とを翻字処理装置１００へ入力しさえすれば、第１文字列と第２文字列との翻字確率を知ることができる。このため、ユーザは、翻字確率に基づいて、第２文字列が第１文字列の正しい翻字であるか否かを容易かつ正確に判断できる。
【００９９】
またこれらの構成によれば、訓練集合に含まれていない第１文字列を受け付け、受け付けられた第１文字列と、第２文字列との翻字確率を算出する。このため、予め訓練集合に含まれていない第１文字列と第２文字列との対（つまり、入力対）であっても、第２文字列が第１文字列を翻字したものである確率を従来よりも正確に算出して出力できる。
【０１００】
なお、本実施例において、ステップＳ３４で端末装置２００から送信された情報で表される言語数Ｋを受け付ける、としたが、翻字処理装置１００に予めＫの値が設定されていてもよい。また、設定する言語数Ｋの値は１つではなく、複数であってもよい。例えば、値「3」、「4」、「5」の３つがＫとして設定されていれば、それぞれで求められた翻字確率のうち、最も高い翻字確率に基づいて第２文字列が第１文字列の正しい翻字であるか否かをユーザは判断できる。
【０１０１】
＜変形例１＞
次に、本実施例の変形例１について説明を行う。
本実施例では、図５の生成部１０５が、図１０のステップＳ５３において、翻字確率Ｐ_αβ（ｓ_ｎ｜ｔ_ｎ）を表す情報が保存された図６（ａ）の基礎翻字テーブルを生成してから、図１１のステップＳ６４において、当該基礎翻字テーブルに基づいて第１翻字テーブルから第３翻字テーブルを生成するとして説明した。また、本実施例では、図５の更新部１０７が、図７のステップＳ３７（つまり、Ｅステップ）の初回の実行時において、第１Ｅステップ（つまり、第１書換テーブルから第３書換テーブルを用いたαβ法を実行することで、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）を算出するステップ）を実行しないとして説明した。
【０１０２】
じかし、これに限定される訳ではなく、変形例１では、図５の生成部１０５が、図１０のステップＳ５３において、翻字確率Ｐ_αβ（ｓ_ｎ｜ｔ_ｎ）を表す情報が保存されていない基礎翻字テーブルを生成してから、図１１のステップＳ６２において、基礎書換テーブルに基づいて第１基礎書換テーブルから第３基礎翻字テーブルを生成した後に、図５の更新部１０７が、図７のステップＳ３７の初回の実行時において、第１Ｅステップから順に第３Ｅステップまでを実行する。この変形例１において、生成部１０５は、同じ断片対番号ｊを表す情報に対応付ける書換確率Ｐ（α→β，ｚ＝１）からＰ（α→β，ｚ＝３）を、当該断片対番号ｊを表す情報に対応付けられた書換確率Ｐ（α→β）に対して、それぞれランダムな値を加算、減算、乗算、及び除算などした値に設定しても良いし、Ｋ個の言語毎にそれぞれ所定量ずつ異なる値に設定しても良い。
【０１０３】
これらの構成によれば、１個の基礎書換テーブルに含まれる書換確率Ｐ（α→β）を変化させることにより、Ｋ個の言語に対応したＫ個の書換テーブルを生成しても、翻字確率Ｐ（ｔ_ｎ｜ｓ_ｎ，ｚ＝ｋ）の算出と、書換確率Ｐ（α→β，ｚ＝ｋ）の更新とを繰り返すので、Ｋ個の書換テーブルの生成に要する計算量を削減しながら、尤度関数Ｌの期待値Ｑを従来より確実に最大化できる。
【０１０４】
＜変形例２＞
次に、本実施例の変形例２について説明を行う。
変形例２において、図１の端末装置２００は、図２（ａ）の入力画面ＦＩ２ではなく、図１３（ａ）に示すような入力画面ＦＩ２を表示することで、任意の起源言語における綴りからなる第１文字列を入力するように促す表示を行う。次に、端末装置２００は、ユーザの操作に応じた各種の信号を翻字処理システム１に入力し、入力された信号に基づいて第１文字列を生成し、生成した第１文字列を表す情報を翻字処理装置１００へ送信する。その後、端末装置２００は、翻字処理装置１００から返信された情報を受信し、受信された情報に基づいて、図２（ｂ）の結果表示画面ＦＯ１ではなく、図１３（ｂ）に示すような結果表示画面ＦＯ２に、第１文字列と、当該第１文字列が翻字されうる上記所定の目的言語における候補文字列と、当該第１文字列が当該候補文字列に翻字される確率とを、当該確率が高い順に一覧表示する。尚、端末装置２００は、候補文字列を当該確率が低い順に一覧表示しても良い。また、端末装置２００は、当該確率が最も高い第１文字列と候補文字列と当該確率とを１つだけ表示しても良い。さらに、端末装置２００は、最も高い確率が所定の閾値を超えている場合に限り、当該最高の確率と１文字列と候補文字列と当該確率とを１つだけ表示しても良い。
【０１０５】
変形例２の翻字処理装置１００のＣＰＵ１００ａは、図３のハードウェアを用いて、図７ではなく図１４の翻字処理を実行することで、図５ではなく図１５に示すような各機能部１０１から１０７と、候補出力部１０９として機能する。
【０１０６】
図１４の翻字処理を開始すると、図１５の受付部１０４は、端末装置２００から送信された情報で表される第１文字列を受け付ける（ステップＳ７１）。次に、生成部１０５は、図１０の第１生成処理を実行する（ステップＳ７２）。その後、生成部１０５は、受け付けた第１文字列の候補文字列を複数生成する（ステップＳ７３）。
【０１０７】
具体的には、生成部１０５は、第１文字列に対して任意の分割方法Ｓで分割を行い、全通りの断片文字列又は断片文字（以下、断片という）を取得する。次に、生成部１０５は、図８（ａ）の基礎書換テーブルに保存された情報で表される断片対を構成する原断片αの内で、取得された断片と同じものの全組み合わせ（つまり、全並び）を生成し、生成した全組み合わせの内で、第１文字列となるものを特定する。その後、生成部１０５は、図８（ａ）の基礎書換テーブルから、特定された組み合わせを構成する原断片αで構成される断片対を表す情報を全て取得し、取得した情報で表される断片対を構成する翻字断片βを、当該翻字断片βの対となる原断片αの組み合わせ順（つまり、並び順）に従って組み合わせる。このようにして、生成部１０５は、第１文字列の翻字として考えられる全ての候補文字列を生成する。
【０１０８】
図１４のステップＳ７３の後に、生成部１０５は、生成された複数の候補文字列毎に、ステップＳ７１で受け付けられた第１文字列と、第１文字列の翻字と考えられる当該候補文字列との対（以下、候補対という）を生成する（ステップＳ７４）。その後、生成部１０５は、候補対を翻字対とみなして訓練集合へ追加し、訓練集合に含まれる翻字対の数Ｎの値を、追加した候補対の数だけ増加させる。次に、生成部１０５は、当該候補対を表す情報を、当該候補対を識別する番号ｎを表す情報とを対応付けて、図６（ａ）の基礎翻字テーブルに追加保存する（ステップＳ７５）。
【０１０９】
その後、図７のステップＳ３４からステップＳ４１の処理と同様の処理である、図１４のステップＳ７６からステップＳ８３の処理が実行される。
【０１１０】
上記処理の実行中に、ステップＳ８１において、判定部１０７ｂが、前回算出された尤度関数Ｌの期待値Ｑから、今回算出された尤度関数Ｌの期待値Ｑへの変化量の絶対値が所定値Ｚ未満であると判別した場合に（ステップＳ８１；Ｎｏ）、図１５の候補出力部１０９は、それぞれの候補対を識別する番号ｎを表す情報に対応付けられた翻字確率Ｐ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝１）からＰ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝３）を表す情報を、図６（ｂ）の第１翻字テーブルないし図６（ｄ）の第３翻字テーブルから参照する。その後、候補出力部１０９は、それぞれの候補対を表す情報と、参照された翻字確率Ｐ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝１）からＰ（ｔ_Ｎ｜ｓ_Ｎ，ｚ＝３）の内で最大の翻字確率を表す情報を対応付けた候補リスト情報を生成する。その後、候補出力部１０９は、生成された候補リスト情報で表される候補文字列のリスト（以下、候補リストという）を、上記最大の翻字確率に基づいて昇順又は降順にソートする。その後、候補出力部１０９は、ソートされたリストをリストの先頭から順に端末装置２００へ出力（つまり、送信）した後に（ステップＳ８４）、翻字処理の実行を終了する。
【０１１１】
これらの構成によれば、第１文字列を受け付けると、第１文字列の翻字と考えられる複数の候補文字列を、当該候補文字列が第１文字列の翻字である翻字確率に基づいて出力するため、第１文字列が何語を起源とするか不明な場合でも、第１文字列を受け付ければ、複数の候補文字列を翻字確率の高い又は低い順に出力できる。このため、翻字処理装置１００を使用するユーザは、第１文字列の起源言語を知らない場合であっても、第１文字列を翻字処理装置１００へ入力しさえすれば、第１文字列の翻字と考えられる複数の候補文字列を取得できる。
またこれらの構成によれば、訓練集合に含まれていない第１文字列を受け付け、受け付けられた第１文字列の候補文字列を生成し、生成された候補文字列との翻字確率を算出する。このため、予め訓練集合に含まれていない第１文字列であっても、第１文字列を受け付ければ、複数の候補文字列を翻字確率の高い又は低い順に出力できる。
【０１１２】
＜変形例３＞
次に、本実施例の変形例３について説明を行う。
変形例３の翻字処理システム１は、図１の外国語ＤＢサーバ３０２を有さず、図１６に示すように検索エンジン４００を有する。
検索エンジン４００は、検索キーワードを表す情報と、当該検索キーワードを含む内容が記載されたＷｅｂ（World Wide Web）頁のＵＲＬを表す情報と、当該Ｗｅｂ頁に記載された内容の内で、当該キーワードを含む部分であるスニペットを表す情報とを対応付けて記憶している。検索エンジン４００は、翻字処理装置１００から検索キーワードを表す情報と、検索を求めるリクエストとを受信すると、受信した検索キーワードを表す情報に対応付けて記憶するスニペットを表す情報を複数検索する。その後、検索エンジン４００は、図１７に示すようなスニペットＳＰ１及びＳＰ２を含む検索結果画面ＦＳを表す情報を翻字処理装置１００へ返信する。
【０１１３】
変形例３の翻字処理装置１００は、図４の訓練集合生成処理の実行において、日本語のオンライン百科事典の解説項目から取得した文字列が、固有名詞であると判別すると（ステップＳ０５；Ｙｅｓ）、ステップＳ０６を実行せず、図１８の検索エンジン４００に対して、当該日本語の文字列を検索キーワードとして、当該キーワードと検索リクエストとを出力する（ステップＳ９１）。次に、図５に示した翻字処理装置１００の情報取得部１０２は、検索エンジン４００から、検索キーワードに基づいて検索されたスニペットを表す情報を複数取得する（ステップＳ９２）。
【０１１４】
その後、図５に示した翻字処理装置１００の訓練集合生成部１０１は、スニペットに記載された検索キーワード（つまり、日本語の解説項目に記載された文字列）よりも所定数だけ前又は後の単語を取得する（ステップＳ９３）。その後、訓練集合生成部１０１は、取得された単語がアルファベットで構成された文字列で表記されているか否かに基づいて、当該単語が外国語における綴りからなる文字列で表記されているか否かを判別する（ステップＳ９４）。このとき、取得された単語が外国語における綴りからなる文字列で表記されてないと判別されると（ステップＳ９４；Ｎｏ）、図４のステップＳ０２から処理が繰り返される。
【０１１５】
これに対して、取得された単語が外国語における綴りからなる文字列で表記されていると判別されると（ステップＳ９４；Ｙｅｓ）、訓練集合生成部１０１は、当該取得された外国語の文字列を検索キーワードとして、上記ステップＳ９１及びステップＳ９２と同様の処理を実行する（ステップＳ９５及びステップＳ９６）。
【０１１６】
その後、訓練集合生成部１０１は、取得された単語が日本語における綴りからなる文字列で表記されているか否かを判別する（ステップＳ９８）。具体的には、訓練集合生成部１０１は、取得された単語が漢字、ひらがな、及びカタカナのいずれか１つ以上で構成された文字列で表記されていると判別すると、当該単語が日本語における綴りからなる文字列で表記されていると判別する。これに対して、訓練集合生成部１０１は、取得された単語が漢字、ひらがな、及びカタカナのいずれによっても構成されていない文字列で表記されていると判別すると、当該単語が日本語における綴りからなる文字列で表記されていないと判別する。
【０１１７】
ステップＳ９８において、取得された単語が日本語における綴りからなる文字列で表記されてないと判別されると（ステップＳ９８；Ｎｏ）、図４のステップＳ０２から処理が繰り返される。これに対して、取得された単語が日本語における綴りからなる文字列で表記されていると判別されると（ステップＳ９８；Ｙｅｓ）、訓練集合生成部１０１は、図４のステップＳ０３で日本語の解説項目から取得された文字列と、図１８のステップ９７でスニペットから取得された日本語の文字列とが、一致しているか否かを判別する（ステップＳ９９）。このとき、２つの文字列が一致していないと判別されると（ステップＳ９９；Ｎｏ）、図４のステップＳ０２から処理が繰り返される。
【０１１８】
ステップＳ９９において、２つの文字列が一致していると判別されると（ステップＳ９９；Ｙｅｓ）、日本語の解説項目から取得された日本語の文字列と、当該日本語の文字列に基づいて検索されたスニペットから取得された外国語の文字列とを、翻字対とし（ステップＳ１００）、当該外国語の文字列を原綴り文字列ｓ_ｎとし、当該日本語の文字列を目的綴り文字列ｔ_ｎ（つまり、原綴り文字列ｓ_ｎの翻字）とする。その後、当該翻字対を訓練集合へ追加する、図４のステップＳ０９の処理から、図４の訓練集合生成処理の実行が継続される。
【０１１９】
尚、本変形例４において、翻字処理装置１００は、日本語のオンライン百科事典の解説項目から取得した日本語の文字列に基づいて検索されたスニペットから外国語の文字列を取得し、取得された外国語の文字列に基づいて検索されたスニペットから日本語の文字列を取得し、これら２つの日本語の文字列が一致する場合に、外国語の文字列を原綴り文字列ｓ_ｎとし、日本語の文字列を目的綴り文字列ｔ_ｎとするとして説明した。しかし、これに限定される訳ではなく、翻字処理装置１００は、外国語のオンライン百科事典の解説項目から取得した外国語の文字列に基づいて検索されたスニペットから日本語の文字列を取得し、取得された日本語の文字列に基づいて検索されたスニペットから外国語の文字列を取得し、これら２つの外国語の文字列が一致する場合に、外国語の文字列を原綴り文字列ｓ_ｎとし、日本語の文字列を目的綴り文字列ｔ_ｎとしても良い。
【０１２０】
通常、互いに翻字関係にある原綴り文字列ｓ_ｎと目的綴り文字列ｔ_ｎとは、Ｗｅｂ頁において、互いに前後に位置するように記載されることが多い。このため、これらの構成によれば、原綴り文字列ｓ_ｎの起源言語が不明な場合であっても、従来よりも精度良くかつ簡単に原綴り文字列ｓ_ｎと目的綴り文字列ｔ_ｎとの翻字対を取得できる。また、原綴り文字列ｓ_ｎの起源言語が明確だが、当該起源言語における原綴り文字列ｓ_ｎの音韻が不明な場合であっても、原綴り文字列ｓ_ｎと目的綴り文字列ｔ_ｎとの翻字対を、従来よりも精度良くかつ簡単に取得できる。
【０１２１】
本実施例において、図６（ａ）から図６（ｄ）及び図９に示すように、目的綴り文字列ｔ_ｎは、カタカナで表されるとして図示及び説明したが、これ限定される訳ではなく、例えば、ローマ字や他の文字で表されてもよい。同様に、図８（ａ）から図８（ｄ）及び図９に示すように、翻字断片βは、カタカナで表されるとして図示及び説明したが、これ限定される訳ではなく、例えば、ローマ字で表されてもよい。
【０１２２】
本実施例と、変形例１から３とは、互いに組み合わせることができる。本実施例に係る機能を実現するための構成を備えた翻字処理装置１００として提供できることはもとより、複数の装置で構成される翻字処理システムであって、本実子例に係る機能を実現するための構成をシステム全体として備えた翻字処理システムとして提供することもできる。
【０１２３】
なお、本実施例に係る機能を実現するための構成を予め備えた翻字処理装置１００として提供できることはもとより、プログラムの適用により、既存の翻字処理装置１００を本実施例に係る翻字処理装置１００として機能させることもできる。すなわち、上記実施例で例示した翻字処理装置１００による各機能構成を実現させるための翻字処理プログラムを、既存の翻字処理装置を制御するコンピュータ（ＣＰＵなど）が実行できるように適用することで、本実施例に係る翻字処理装置１００として機能させることができる。
【０１２４】
このようなプログラムの配布方法は任意であり、例えば、メモリカード、ＣＤ−ＲＯＭ、又はＤＶＤ−ＲＯＭなどの記録媒体に格納して配布できる他、インターネットなどの通信媒体を介して配布することもできる。また、本発明に係る翻字処理方法は、本発明に係る翻字処理装置１００を用いて実施できる。
【０１２５】
以上本発明の好ましい実施例について詳述したが、本発明は係る特定の実施例に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形、変更が可能である。
【符号の説明】
【０１２６】
１０：通信網
１００：翻字処理装置
１００ａ：ＣＰＵ
１００ｂ：ＲＯＭ
１００ｃ：ＲＡＭ
１００ｄ：ハードディスク
１００ｅ：メディアコントローラ
１００ｆ：ＬＡＮカード
１００ｇ：ビデオカード
１００ｈ：ＬＣＤ
１００ｉ：キーボード
１００ｊ：スピーカ
１００ｋ：マウス
１０１：訓練集合生成部
１０２：情報取得部
１０３：情報記憶部
１０４：受信部
１０５：生成部
１０５ａ：第１生成部
１０５ｂ：第２生成部
１０６：初期化部
１０７：更新部
１０７ａ：期待値算出部
１０７ｂ：判定部
１０７ｃ：最大化部
１０８：確率出力部
１０９：候補出力部
２００：端末装置
３０１：日本語ＤＢサーバ
３０２：外国語ＤＢサーバ
４００：検索エンジン

【特許請求の範囲】
【請求項１】
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成部、
前記訓練集合に含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
を備えることを特徴とする翻字処理装置。
【請求項２】
請求項１に記載の翻字処理装置であって、
前記Ｋ個の翻字表それぞれに対応した起源言語を起源とする原綴り文字列が、前記訓練集合に含まれる複数の原綴り文字列に占める割合をそれぞれ示す、前記Ｋ個の翻字表の重みパラメタを初期化する初期化部、を更に備え、
前記更新部は、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の翻字表に含まれる当該翻字確率の前記重みパラメタによる重み付き平均に基づいて、前記原綴り文字列の起源言語が当該翻字表に対応した起源言語である起源確率をそれぞれ算出した後に、当該起源確率をさらに用いて算出される前記尤度関数の期待値を最大化するように、前記Ｋ個の重みパラメタを更新した後に、前記起源確率の算出と前記重みパラメタの更新とを繰り返す、
ことを特徴とする翻字処理装置。
【請求項３】
請求項１又は２に記載の翻字処理装置であって、
前記生成部は、１個の前記書換表を生成した後に、前記生成された１個の書換表に含まれる書換確率を、前記Ｋ個の言語毎に変化させることにより、前記Ｋ個の言語に対応したＫ個の書換表を生成する、
ことを特徴とする翻字処理装置。
【請求項４】
請求項１又は２に記載の翻字処理装置であって、
前記生成部は、１個の前記書換表を用いたαβ法により１個の前記翻字表を生成した後に、前記生成された１個の翻字表に含まれる翻字確率を変化させることにより、前記Ｋ個の言語に対応したＫ個の翻字表を生成し、
前記更新部は、前記Ｋ個の翻字表のそれぞれに含まれる翻字確率をＥＭアルゴリズムにより更新する、
ことを特徴とする翻字処理装置。
【請求項５】
請求項１から４のいずれか一項に記載の翻字処理装置であって、
前記更新部は、前記更新による前記尤度関数の期待値の変化量が、所定の大きさ未満となるまで前記更新を繰り返す、
ことを特徴とする翻字処理装置。
【請求項６】
請求項１から５のいずれか一項に記載の翻字処理装置であって、
前記任意の起源言語における綴りからなる第１文字列と、前記所定の目的言語における綴りからなる第２文字列と、を受け付ける受付部、
前記Ｋ個の翻字表のそれぞれを用いることにより前記受け付けられた第１文字列が前記受け付けられた第２文字列に翻字される翻字確率を求め、当該求められた翻字確率を出力する確率出力部、
をさらに備えることを特徴とする翻字処理装置。
【請求項７】
請求項１から５のいずれか一項に記載の翻字処理装置であって、
前記任意の起源言語における綴りからなる第１文字列を受け付ける受付部、
前記Ｋ個の翻字表のそれぞれを用いることにより前記受け付けられた第１文字列が翻字されうる前記所定の目的言語における候補文字列と、当該第１文字列が当該候補文字列に翻字される翻字確率を求め、当該求められた翻字確率が高い順に当該求められた候補文字列を出力する候補出力部、
をさらに備えることを特徴とする翻字処理装置。
【請求項８】
請求項６又は７に記載の翻字処理装置であって、
前記受付部は、前記訓練集合に含まれていない第１文字列を受け付ける、
ことを特徴とする翻字処理装置。
【請求項９】
コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする翻字処理プログラム。
【請求項１０】
コンピュータを、
任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成部、
前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新部、
として機能させることを特徴とする翻字処理プログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項１１】
生成部及び更新部とを備える翻字処理装置が実行する方法であって、
前記生成部が、任意の起源言語における綴りからなる原綴り文字列と、当該原綴り文字列を所定の目的言語に翻字した綴りからなる目的綴り文字列と、の翻字対を複数含む訓練集合から、前記原綴り文字列を構成する原断片と、前記目的綴り文字列を構成する翻字断片と、翻字のために当該原断片が当該翻字断片に書き換えられる書換確率との組を複数含む、互いに異なるＫ個の起源言語に対応したＫ個の書換表と、前記訓練集合に含まれる翻字対を複数含む、前記Ｋ個の起源言語に対応したＫ個の翻字表とを生成する生成ステップ、
前記更新部が、前記訓練集合に複数含まれる翻字対のそれぞれに対して、前記Ｋ個の書換表に含まれる書換確率のそれぞれを用いることにより、当該翻字対の原綴り文字列が当該書換表に対応した起源言語を起源とする場合に当該翻字対の目的綴り文字列に翻字される翻字確率を算出してから、当該翻字確率を当該翻字対と対応付けて当該起源言語に対応した翻字表に保存した後に、前記訓練集合が得られた場合における前記Ｋ個の翻字表の尤もらしさを表す尤度を算出する尤度関数の期待値であって、当該翻字確率を用いて算出される値を最大化するように、前記Ｋ個の書換表のそれぞれに含まれる書換確率を更新した後に、前記翻字確率の算出と前記書換確率の更新とを繰り返す更新ステップ、
を有することを特徴とする翻字処理方法。

【図１】