説明

文書を自動的に現地化及びレイアウトする方法

【課題】原文書の構成乃至見栄えを損なうことなく既存文書を例えば他言語版/他地域版へと適切に自動変換できるようにする。
【解決手段】原文書のコンテンツを1個又は複数個の原文書構造体へとセグメント化し(110)、得られた原文書構造体の中から差替対象構造体を1個又は複数個選択し(120)、差替対象構造体を新たな構造体に差し替え(130)、秀逸外観文書が得られるように文書レイアウトを自動調整する(140)。自動レイアウト調整に際しては例えば1個又は複数個の定量的文書パラメータを含む文書制約条件を用いて制約充足法を実行する。作成した文書は必要に応じてフォーマット変換し(150)受領者に提示する(160)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は例えば文書現地化に関し、より詳細には作成した現地版文書でも原文書同様の美観を保てるようにする方法に関する。
【背景技術】
【0002】
まず、本願でいうところの“文書現地化”とは、文書のコンテンツを特定の受領者又は特定の受領者集団向けに改変することである。文書現地化の類型としては、文書内テキスト表記に使用されている言語を現地語/受領者言語に翻訳することや、特定のテキスト、画像又はその構成素材を特定受領者向けのものに差し替えること(例えば交通安全ガイドで使用する一般道路や高速道路の画像を提示先受領者向けのものに差し替えること)等を、挙げることができる。
【0003】
【特許文献1】米国特許出願公開第2004/205643号明細書(A1)
【特許文献2】米国特許出願公開第2004/19850号明細書(A1)
【特許文献3】米国特許出願公開第2004/19851号明細書(A1)
【特許文献4】米国特許出願公開第2004/25109号明細書(A1)
【特許文献5】米国特許出願公開第2004/24613号明細書(A1)
【特許文献6】米国特許出願公開第2005/154980号明細書(A1)
【発明の開示】
【発明が解決しようとする課題】
【0004】
しかしながら、差替、削除、追加等によって文書構成要素を改変すると、それに伴い文書レイアウトが不適切になったり美観が損なわれたりすることがある。そのため、コンテンツマネージメントアプリケーション及びサービスの利用価値を高めるべく、そのレイアウトの適切さや美観が損なわれないよう文書現地化を実行できる機能が嘱望されている。
【0005】
既存の近縁システムとしては、ユーザが指定したテキストやウェブページを他言語に翻訳する文書自動翻訳システムがある。しかしながら、こうしたシステムにて得られる文書は、原テキストの翻訳文を連ねただけのものや、原ウェブページ中に翻訳版テキストを組み込んだだけのものになっていた。しかも、どのような文書形式(例えばMicrosoft Word、PowerPoint、Quark等の文書形式;Microsoft及びPowerPointは登録商標、Word及びQuarkは商標)で作成された文書からでもまたどのような文書形式でも現地版を作成できるようにする、テキスト及び画像の実質を特定言語/特定地域向けのものに差し替える、レイアウト調整によって原文書同様に良好な体裁の他言語文書/他地域向け文書を作成する、等といった発想は見受けられなかった。
【0006】
本発明にて目的としていることは、自動翻訳に代表される自動現地化技術と文書レイアウト自動調整技術とを新規且つ非自明な形態で併用することによって、原文書の構成乃至見栄えを損なうことなく、既存文書を他言語版/他地域版へと適切に自動変換できるエンド・トゥ・エンド文書現地化サービスを、実現できるようにすることである。
【課題を解決するための手段】
【0007】
ここに、本発明の実施形態に係る文書現地化方法は、文書のコンテンツを現地化するステップと、得られた現地版文書のフォーマットを1個又は複数個の定量的文書制約条件に従い自動調整するステップと、を有する。
【0008】
また、本発明の実施形態に係る方法は、原文書のコンテンツを1個又は複数個の原文書構造体へとセグメント化するステップと、それら原文書構造体の中から現地化対象構造体を決定するステップと、現地化対象構造体のコンテンツを新たなコンテンツに差し替えるステップと、差替済文書が秀逸外観文書になるよう文書レイアウトを自動調整するステップと、を有する。
【発明の効果】
【0009】
本発明の実施形態に係る方法によれば、作成済文書の別版例えば現地版を、受領者が喜ぶ美しい外観となるよう自動作成することができる。また、本方法によれば、その文書形式を問わずまたその構成によらず、例えばテキスト情報、画像情報、レイアウト情報等が含まれる様々な文書を処理し、やはりテキスト情報、画像情報、レイアウト情報等を含む文書へと自動変換することができる。
【発明を実施するための最良の形態】
【0010】
以下、本発明の実施形態について説明するのに先立ち、前提となる事項について説明する。まず、文書現地化の形態としては、原文書内テキストを翻訳版に差し替える処理、原文書内使用用語/使用表現を現地向け/受領者向けの別用語/別表現に差し替える処理、原文書内使用画像を現地向け/受領者向けの別画像に差し替える処理等がある。これらのうち翻訳は文書現地化の代表的形態であるが、原文書内使用言語を他言語へと単純翻訳するだけでは満足な翻訳とはいえず、より立ち入った形態での現地化が望まれるのが普通である。即ち、テキスト翻訳に加え使用用語/使用表現を現地向け/受領者向けの別用語/別表現に差し替える作業等も行わないと、現地化完了とはいえない。用語/表現の現地向け/受領者向け差替の例としては、例えば、文書内で使用する通貨単位を原文書でのそれ(例えばドル)から現地でのそれ(例えばユーロ)に変更する作業や、通貨単位変更に伴い最新為替レートを参照して通貨表記額を換算表記する作業等がある。また、テキストでも画像でもそうであるが、文書内使用コンテンツを現地向け/受領者向けのものに差し替える作業も、別用語/別表現による差替の例といえる。例えば、アメリカ合衆国フロリダ州の学校で使用される地理の教科書には、同州にあるエバグレード沼沢地についてのテキストや画像を含むページを入れることが望まれるであろうが、同国カリフォルニア州の学校で使用される地理の教科書ではそのようなページは望まれず、そのページのテキストや画像を同州にあるアメリカ杉の森についてのテキストや画像に差し替えることが望まれるであろう。
【0011】
従来技術に鑑みるに、文書のコンテンツ的構成要素を自動的に現地化する方法としては、当該コンテンツ的構成要素に関連した言葉をキーワードとして用い既存のコンテンツデータベースに質問することによって、そのデータベースから当該コンテンツ的構成要素の現地版を導き出す、という方法が考えられる。例えば、質問ページに設けられている質問欄に質問内容を入力しそれに対する応答を入手する、というデータベース使用手順と同じデータベース使用手順を用いて、文書現地化を実行することができよう。具体的には、森の画像が記載されている原文書をフロリダ州にいる受領者向けに現地化したい場合、「森」且つ「画像」且つ「フロリダ」なる式によって記述される質問を発することにより、フロリダ州にある森の画像又はその画像の所在を示す情報をデータベースから取り寄せることができ、従ってフロリダ州にある森の画像を現地化後の文書で使用することが可能になる。
【0012】
また、画像に付された表題・字幕・説明文等の付記文を現地化する場合、その画像本体も差し替えられると好都合である。そのための手順としては、その付記文の現地版に見合った新たな画像又はその所在を示す情報を入手して差し替える、という手順が考えられる。例えば、前述の質問事項入力型質問手順を利用し、画像の付記文に含まれている語句をキーワードとして拾って自動質問するようなプロセスとすれば、その語句に見合った画像又はその所在を示す情報をローカルの又はネットワーク上のデータベースから自動的に引き出すことができる。現地版文書で使用する画像はローカルに保持しておくこともできるしネットワーク上に置いておくこともできる。適当なタグさえ使用すれば、原画像に代わる差替画像を現地版文書内に自動挿入することができる。こうしたやり方は、恐らくは、教科書や交通安全ガイドの現地化のような地域対応型コンテンツ変更に向いているであろうが、画像の付記文を現地向けに翻訳するだけで画像は特定の画像とする場合にも、同様の手法を使用できる。
【0013】
更に、文書現地化に当たっては、その文書の一部分だけを現地化すればよいこともあるし、その文書の全体を現地化しなければならないこともある。例えば、受領者使用言語が原文書内使用言語と異なっている場合は、原文書内のあらゆる段落別テキストと表題等の付記文とを翻訳することとなろう。そういった翻訳を行う際、従来型“人力”翻訳サービスにおいては、原文書と同じレイアウトが保たれるよう翻訳者が翻訳文中の語句や文章をいじって“レイアウトにぴったりはまる翻訳文にしてはめこむ”という作業が往々にして行われていたが、そうした作業には時間がかかるし、優れた翻訳力量を持った翻訳者を前提としているため、手順の自動化が難しかった。また、今日実現されている各種の自動テキスト翻訳システム、例えばBabelfish(登録商標)では、翻訳対象テキストが翻訳ソフトウェアに自動的に送り込まれて翻訳され、翻訳版テキストはそのソフトウェアからローカルデバイスに送り返され原テキストに差し替わって文書内に組み込まれる。つまるところ、従来における自動翻訳技術の水準は、一連のテキストラインを読み取って他言語に翻訳して返送する、という水準であり、一般的に、翻訳前後でのテキストの長さの違いを考慮すること無しに翻訳ソフトウェアがテキストを単純翻訳する、というものであった。
【0014】
しかしながら、こうした翻訳手法や画像差替手法を使用するだけでは、文書現地化に伴い例えば不要な余白が発生し或いはテキストや画像が不要に重なり合う等、様々な問題が発生して文書外観が醜悪になりかねない。仮に、作業手順を全面的に自動化し、原テキストを単純に翻訳版テキストに差し替え或いは原画像を単純に現地版画像に差し替えるという手順を実行することとした場合、図1から図2へのページ翻訳例から看取できるように、翻訳版文書の美観が見目心地よいものでなくなるかもしれない。また、文書現地化によってこの例よりひどい問題例えば不要な重なり合いという問題が発生することもある。図3に示した例では翻訳によって既存画像にテキストが重なってしまっている。もっとも、図2や図3に示した翻訳版文書でも実用上は差し支えがない。しかし、もし何らかの調整を施してそれぞれ図4や図5に示すような体裁の文書(に近い体裁の文書)が得られるのであれば、その方が美観上望ましいことである。以上の例から、テキスト翻訳等により文書現地化を実行したときにどのようなことが起こるか、また本発明の実施形態で文書レイアウトを調整するのは何故なのかが、明らかに見て取れるであろう。これと同様のことは、原文書内画像を別画像に差し替えて現地化する場合についても成り立つ。
【0015】
そこで、本発明の実施形態においては、文書現地化と並行して又は文書現地化後にその文書に対して文書自動レイアウト技術を適用することにより、そのレイアウトが完璧に仕上げられその体裁がよく整った現地版文書を完成させられるようにしている。従って、本発明の実施形態によれば、例えば図1及び図2に示した文書を図4及び図5に示した文書に変換すること、即ち余白や重複のある文書をより受け入れられやすくより見目心地よい文書へと変換することができ、しかもそれを人間の関与無しに実行することができる。
【0016】
先に特許文献としてリストアップした複数の文献の中には、セグメントサイズ、余白、対称性等といった文書性質を文書制約条件として充足対象にする手法について述べた文献がある。本発明の実施形態においては、これらの文書性質に代表される各種の性質を定量的に計測し、計測した各種文書性質を制約条件着目型プロセス(constraint-based process)により同時並行的に充足させる。
【0017】
制約条件着目型プロセスの一種である制約充足法(constraint optimization method/constraint optimization formulation;制約最適化法とも呼ばれる)においては、解きたい問題即ち一組の定量的文書制約条件(quantized document constraint)を記述するのに何種類かの変数が使用される。変数として扱われるのは文書パラメータや文書エリアであり、各変数の値域はその変数に割り当て得る値の集合として定義される。例えば変数として扱われる文書パラメータの値域は、1〜M(M:最大値)の範囲に属する離散値の中から、その文書パラメータ(定量的文書パラメータ;quantized document parameter)乃至変数がとり得る値を全て集めた集合である。また、変数として扱われる文書エリア、即ち文書コンテンツにより埋められるべきエリア(図7でいえばAやB)の値域は、そのエリアに組み込める文書コンテンツ断片の集合である。文書テンプレートにてデフォルト設定されている文書エリアの値域(デフォルト値域)には、連携先コンテンツデータベースに登録済のあらゆる文書コンテンツ断片候補が含まれる。
【0018】
制約充足法を実行する際に使用する文書制約条件には必須制約条件(required constraint)と期待制約条件(desired constraint)とがある。必須制約条件とは、最終的に妥当な文書を得るために変数間/値間で成立させなければならない関係を指定する文書制約条件であり、期待制約条件とは、変数間/値間で成立させるのが望ましいが最終的に妥当な文書を得るために成立させなければならないとまではいえない関係を指定する文書制約条件である。また、本発明における文書制約条件は文書テンプレートに従いユーザが指定するものであり、記述するのに何個の値/変数を利用するかによって、ユーナリ(unary:1個の場合)、バイナリ(binary:2個の場合)、…nアリ(n-ary:n個の場合)に分類される。例えば、文書領域中の「エリアA内に森の画像を入れねばならない」という条件はエリアAという1個の変数を使用して記述されたユーナリ必須制約条件であり、「エリアAの高さはエリアBの高さ以下でなければならない」という条件はエリアA及びBという2個の変数を使用して記述されたバイナリ必須制約条件であり、同様に「エリアAとエリアBの合計幅はエリアCの幅より広くなければならない」という条件は3アリ必須制約条件である(第3の変数たるエリアCについては図示せず)。データの入力や設定が可能な部分を含む文書テンプレートを使用する場合等には、文書制約条件に顧客属性等を含めることもできる。例えば、「エリアA内に入れる画像は顧客1向けのものにしなければならない」等の文書制約条件を設定し得る。
【0019】
他方、期待制約条件は最大化又は最小化すべき目的関数(objective function)によって表される。例えば、エリアAの面積を最大化するというバイナリ期待制約条件は、目的関数f=(エリアAの幅)×(エリアAの高さ)を最大化する条件として表される。また、問題を記述するのに複数個の期待制約条件ひいては複数個の目的関数を使用する場合は、それら目的関数による多条件充足問題(multi-criteria optimization problem/multiple constraint satisfaction problem)を解かねばならない。多条件充足問題を解くには、各目的関数のスコア(関数出力値)から全目的関数についての合計スコアを求め、その結果を条件充足度判別/目標達成判別に利用すればよい。更に、複数個の期待制約条件の間に優先度の違いがある場合、優先度に応じた荷重により重み付けを施して全目的関数スコアの加重総和を求め、その結果を条件充足度判別/目標達成判別に利用すればよい。何れの手法を採るにせよ、条件充足度判別/目標達成判別に利用できるスコア等が得られたならば、制約充足法を実行するアルゴリズムを用いて最終的な出力文書を生成することができる。制約充足法アルゴリズムとしては、多々ある既知の制約充足法アルゴリズムの何れも使用できる。
【0020】
更に、文書作成によく用いられると認め得るものだけでも100種類を超える評価プロパティ(value property)がある。評価プロパティの計測値は評価関数(value function)により計算することができ、評価プロパティの計測値が得られれば文書インテンツを定量化することができる。文書インテンツと評価プロパティとの間には近似的に線形と見なせる関数関係があるので、各評価プロパティ値から各インテンツ座標値への寄与を示す荷重行列をAとしたとき、文書インテンツベクトルIと評価プロパティベクトルVとの関数関係は
(数1)
I=AV
と表すことができる。
【0021】
この関数関係は、評価関数を用いた文書インテンツの推論決定の際にも、また制約充足法アプリケーションを用いた文書インテンツの決定の際にも、利用することができる。まず、文書又は文書構成部分に係るインテンツを推論するには、最初に、その文書/文書構成部分に係る評価関数を用いて評価プロパティ値を計算し、その結果得られた評価プロパティベクトルVに荷重行列Aを乗じて文書インテンツベクトルIを定量化すればよい。
【0022】
また、文書セグメント差替後に制約充足法プログラム乃至アプリケーションを実行したとき、差替版セグメント内におけるコンテンツ量や画像寸法等の要因次第で、原文書とは違った外観になることがある。大抵の場合、そのレイアウトを含め原文書にできるだけ近い外観となるよう文書を現地化することが望まれる。そのような場合に、現地版文書を原文書にできるだけ近い外観にするには、例えば、現地版文書のレイアウトが最適になるようにするための文書制約条件を、原文書の評価プロパティを用いて決定すればよい。
【0023】
本発明の実施形態においては、例えば、文書現地化に伴ってその文書の評価プロパティに現れた影響を、その文書のインテンツベクトルIの比較によって判別する。即ち、現地版文書についての評価プロパティベクトルVを適当な荷重行列Aを用いて文書インテンツベクトルIへと変換し、それによって得られた文書インテンツベクトルIを原文書についての文書インテンツベクトルIと比較することによって、現地化の影響を知ることができる。そして、原文書と現地版文書との間の文書インテンツベクトルIの差が最小になるように制約充足法を実行すればよい。
【0024】
また、現地版文書の外観を原文書と同じ外観にしたい場合は、現地化前に原文書をフォーマットする際に用いられた美観最適化目標群と同じ美観最適化目標群に従い文書をフォーマットするプロセスを、現地化中又は現地化後に実行すればよい。
【0025】
そして、文書制約条件は定量化することができるが、最適値/目標値も定量化の対象になるとは限らない。即ち、翻訳版文書作成者/翻訳版文書受領者が違えば、各特徴部分に対する値付けや好みの文書パラメータ最適値/目標値が違い、当該好みの違いによって最適/目標とされる文書も別物となろう。場合によっては、文書パラメータ最適値/目標値は原文書での文書パラメータと大きく違うものになる。
【0026】
図6に、段階を追ってテキスト現地化及び再フォーマット処理の流れを示す。この処理においては、まず現地化(例えば翻訳)に先立ち原文書又はそのコンテンツが1個又は複数個の高次構造体即ち高次構成部分へとセグメント化される(110)。セグメント化によって得られるのは、例えば、段落別テキスト、画像、画像への付記文(例えば表題)といった構造体(即ちセグメント;以下同様)である。原文書の内容によっては、セグメント化によって得られる構造体が1個の場合、即ち文書全体が1個の構造体になる場合もある(例えば1枚の写真をセグメント化したとき)。
【0027】
次に、原文書を構成している1個又は複数個の構造体の中から現地化する構造体(群)(例えば翻訳が必要なテキスト等現地化が必要なコンテンツを有する構造体)が選択決定される(120)。このステップを実行するのは、全ての構造体を現地化する必要があるとはいえず、必要なものだけを現地化すればよいからである(勿論全部を現地化してもよい)。例えば、アメリカ合衆国の南西部における水及び土地の利用形態に関する文書を英語からスペイン語に或いはその逆に翻訳する場合、風景画像の中にはそのまま残しておいてかまわないものもあろう。
【0028】
更に、選択された1個又は複数個の構造体が現地化される(130)。例えば、選択された構造体の翻訳文を含む新たなコンテンツでその構造体が差し替えられる。これによって、例えば、原文書に含まれるテキストの翻訳文が文書内に組み込まれることとなる。現地化手法としては各種の自動方法、半自動方法乃至非自動方法を使用することができる。
【0029】
次に、作成された現地版文書の外観がより美しくなるようその現地版文書における文書レイアウトが調整乃至修復される(140)。図ではこのステップ140をステップ130の後に実行しているが、ステップ130と並行して実行することもできるし、更にはステップ130とステップ140とを単一のステップとして実行することもできる。現地化プロセスは、制約充足法プロセスに組み込んで実行することもできる。制約充足法プロセスにおいては、例えば、原文書内構造体に対する差替の即ち新しいコンテンツをユーナリ制約条件として使用し、また多条件充足問題を記述している条件のうち1個又は複数個によって現地版向けコンテンツを決める。
【0030】
レイアウト調整プロセス実行後における文書フォーマットが所望の文書フォーマットと異なる場合は、更にその文書のフォーマットを当該所望の文書フォーマット(例えばpostscriptやQuarkファイルのフォーマット;postscript及びQuarkは登録商標)へと変換することができる(150)。その結果得られたフォーマット済現地版文書は受領者に提示される(160)。
【0031】
このように、本発明によれば、文書自動現地化及び自動レイアウトサービスを実現できる。
【図面の簡単な説明】
【0032】
【図1】テキスト及び画像を含むページの例を示す図である。
【図2】図1に示したページのうちテキスト部分を翻訳したが余白が発生して望ましい美観にならなかったものを示す図である。
【図3】図1に示したものと類似したページのうちテキスト部分を翻訳したが重複が発生して望ましい美観にならなかったものを示す図である。
【図4】図2に示した翻訳済ページの各部を調整し見目心地よくしたものを示す図である。
【図5】図3に示した翻訳済ページの各部を調整し見目心地よくしたものを示す図である。
【図6】文書現地化方法の例を詳細に示すフローチャートである。
【図7】移動可能且つ寸法変更可能な2個のコンテンツ組込エリアA及びBを含む文書テンプレートを示す図である。
【符号の説明】
【0033】
110 文書セグメント化ステップ、120 現地化対象構造体選択ステップ、130 構造体現地化ステップ、140 文書レイアウト調整ステップ、150 文書フォーマット変換ステップ、160 受領者向け提示ステップ、A,B コンテンツ組込エリア。

【特許請求の範囲】
【請求項1】
原文書のコンテンツを1個又は複数個の原文書構造体へとセグメント化するステップと、
それら原文書構造体の中から差替対象構造体を1個又は複数個選択するステップと、
差替対象構造体を新たな構造体に差し替えるステップと、
差替済文書が秀逸外観文書になるように文書レイアウトを自動調整するステップと、
を有する方法。
【請求項2】
請求項1記載の方法であって、1個又は複数個の定量的文書パラメータを含む文書制約条件を用いて制約充足法を実行することにより上記自動レイアウト調整を実行する方法。
【請求項3】
原文書のコンテンツを1個又は複数個の原文書構造体へとセグメント化するステップと、
それら原文書構造体の中から現地化対象構造体を決定するステップと、
現地化対象構造体のコンテンツを新たなコンテンツに差し替えるステップと、
差替済文書が秀逸外観文書になるように文書レイアウトを自動調整するステップと、
を有する方法。
【請求項4】
請求項3記載の方法であって、1個又は複数個の定量的文書パラメータを含む文書制約条件を用いて制約充足法を実行することにより上記自動レイアウト調整を実行する方法。
【請求項5】
請求項3記載の方法であって、コンテンツ差替が施された文書内に原文書内テキストの翻訳文が組み込まれることとなるよう、現地化対象構造体の翻訳文を上記新たなコンテンツに含める方法。
【請求項6】
文書に含まれるテキストのうち少なくとも一部を翻訳するステップと、
得られた別版文書のレイアウトを1個又は複数個の定量的文書制約条件の充足期待値に従い自動調整するステップと、
を有する文書翻訳方法。
【請求項7】
文書のコンテンツを現地化するステップと、
得られた現地版文書のフォーマットを1個又は複数個の定量的文書制約条件に従い自動調整するステップと、
を有する文書現地化方法。

【図6】
image rotate

【図7】
image rotate

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2006−309758(P2006−309758A)
【公開日】平成18年11月9日(2006.11.9)
【国際特許分類】
【出願番号】特願2006−118551(P2006−118551)
【出願日】平成18年4月21日(2006.4.21)
【出願人】(596170170)ゼロックス コーポレイション (1,961)
【氏名又は名称原語表記】XEROX CORPORATION
【Fターム(参考)】