文書処理装置およびプログラム

【課題】文書の多言語化処理を効率化する装置を提供する。
【解決手段】文書処理装置が、構造化された原文レイアウトデータを取得し、原文印刷物において文章として表現されるテキスト文字列を、翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、識別子付きレイアウトデータに基づいて、原文印刷物の文章を翻訳単位ごとに記述するとともにそれぞれの翻訳単位に対応する識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、翻訳用データに基づいて作成された翻訳文データを取得し、識別子付きレイアウトデータに記述されている原文のテキスト文字列を、翻訳単位ごとに、翻訳文データにおいて同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、構造化文書の多言語化（他言語化）のための技術に関する。
【背景技術】
【０００２】
ある製品が自国内のみならず国外でも販売される場合、当該製品の国内販売用のマニュアルを翻訳して、海外販売用のマニュアルが用意されることがある。こうしたマニュアルなどの文書が、例えばＸＭＬなどのドキュメント記述言語を用いて記述された構造化文書である場合に、その翻訳処理、あるいはさらに、翻訳元の文書の改訂に応じて、翻訳された文書の改訂処理を容易に行える文書処理装置が既に公知である（例えば、特許文献１参照）。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特許第４１４９９４０号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
特許文献１に開示されている技術の場合、ライター（例えばマニュアル作成者）による、翻訳前文書（原文）の構成単位となる文章（単位文書データ）の新規作成こそ、文書処理装置外のワードプロセッサソフトウェアやテキストエディタなどの汎用の文章作成ソフトウェアを用いて行えるものの、その後に行う、各文への識別情報や属性情報の付与処理や、翻訳前文書の構造化処理や、翻訳処理や、原文の改訂に伴う翻訳文の改訂処理などは、専用の文書処理プログラムが読み込まれたコンピュータである文書処理装置を用いて行うようになっている。この場合、ライターあるいは文書のレイアウトを行うＤＴＰオペレータと翻訳処理を行う翻訳者とが異なる場合には、翻訳者も係る文書処理装置を用いるか、文書処理装置にアクセス可能なクライアントコンピュータを用いる必要がある。そのため、汎用のソフトウェアを用いて翻訳業務を行っている翻訳者にとっては、翻訳処理自体は汎用のソフトウェアを用いることによっても可能であるにもかかわらず、上述のような識別情報や属性情報を取り扱う必要のために、そのような処理環境を導入することになるので、導入コストがかかることになる。
【０００５】
また、特許文献１に開示された技術を利用するワークフローの代わりに、ライターが文書作成ソフトウェアを用いて作成したテキスト文書を対象に、ＤＴＰオペレータが市販のＤＴＰソフトウェア（組版ソフトウェアなど）によるレイアウト処理（組版処理）を行って原文の文書データを作成し、該文書データを受け渡された翻訳者が該文書データに記述されている原文のテキストを対応する翻訳文に書き換えるというワークフローも想定される。しかし、この場合、翻訳者が該ＤＴＰソフトウェアを有している必要があるが、そうしたＤＴＰソフトウェアは、比較的高価なものが多く、ＤＴＰレイアウト処理を生業としない翻訳者が所有しているとは限らない。また、翻訳者が翻訳処理の過程で文書のレイアウトを崩してしまった場合、必ずしも組版レイアウトのスキルを有しているわけではない翻訳者には修正が困難であったとすると、ＤＴＰオペレータ側でレイアウト修正する必要が生じる。また、uni-codeに対応している組版ソフトウェアでない場合、多言語化をする場合に手間がかかるという問題もある。
【０００６】
あるいは、原文の文書データが、一般的な翻訳者であれば通常所有しているような汎用の文書作成ソフトウェアを用いて、比較的簡易にレイアウト処理が施されたものであったとしても、翻訳の結果、レイアウトが崩れてしまったり、１バイトフォントと２バイトフォントが混在してしまったような場合は、翻訳後の文書データをそのまま納品用の翻訳文書データとして用いることはできず、やはり、ＤＴＰオペレータ側でレイアウト修正する必要が生じる。
【０００７】
一方、ＤＴＰオペレータが、ＤＴＰソフトウェアによるレイアウト処理を行って作成した原文の文書データから、レイアウト情報のない、文章のみが記述されたテキストデータを抽出し、翻訳者が翻訳処理を行って原文に対応する翻訳文のテキストデータを生成し、ＤＴＰオペレータが、翻訳文のテキストデータを逐一、文書データにおいて対応する原文のレイアウト箇所にコピー＆ペーストすることにより、レイアウト情報を有する翻訳文書データを作成するワークフローも想定される。しかしながらこの場合、コピー＆ペーストのミスの有無をいちいちチェックする必要があるほか、多言語化する場合には原語ごとに同様の処理を繰り返す必要があり、煩雑である。
【０００８】
本発明は上記課題に鑑みてなされたものであり、レイアウトされた文書の多言語化処理を効率化する文書処理装置を提供することを目的とする。
【課題を解決するための手段】
【０００９】
上記課題を解決するため、請求項１の発明は、文書構造を定義する所定の構造化要素を用いて構造化されてなる、翻訳対象文書である原文印刷物のレイアウトを表現する原文レイアウトデータを取得し、前記原文レイアウトデータにおける、前記原文印刷物において文章として表現されるテキスト文字列を、翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき範囲である翻訳単位ごとの記述に書き換えるとともに、当該記述部分を規定する前記構造化要素の属性としてそれぞれの前記翻訳単位を一意に識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、前記識別子付きレイアウトデータに基づいて、前記原文印刷物の文章を前記翻訳単位ごとに記述するとともにそれぞれの前記翻訳単位に対応する前記識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、前記翻訳用データに基づいて作成された、前記翻訳単位ごとの翻訳文に前記識別子を付与してなる翻訳文データを取得し、前記識別子付きレイアウトデータに記述されている原文のテキスト文字列を、前記翻訳単位ごとに、前記翻訳文データにおいて当該翻訳単位と同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、を備えることを特徴とする。
【００１０】
請求項２の発明は、請求項１に記載の文書処理装置であって、前記識別処理手段は、ある前記翻訳単位が書式の異なる文字列を含む場合には、当該文字列が存在することを示す指標を識別子付きレイアウトデータの当該翻訳単位に対応するテキスト文字列中に付加し、前記翻訳用データ作成手段は、前記原文印刷物の文章を前記翻訳単位に記述する際に前記指標も含めて記述する、ことを特徴とする。
【００１１】
請求項３の発明は、請求項１または請求項２に記載の文書処理装置であって、前記原文印刷物の前記翻訳単位のそれぞれに対応する前記識別子を付与した参照用印刷物のデータを生成する参照用データ生成手段、をさらに備えることを特徴とする。
【００１２】
請求項４の発明は、請求項１ないし請求項３のいずれかに記載の文書処理装置であって、同一の前記原文印刷物を表現する前記原文レイアウトデータを異なる記述態様にて記述可能な複数種類のデータ形式のそれぞれに用いられる前記構造化要素の定義を前記データ形式ごとに記述した定義データがあらかじめ記憶されており、前記識別処理手段は、前記原文レイアウトデータに用いられている前記構造化要素の定義を前記定義データにおいて特定したうえで前記識別子付きレイアウトデータを生成する、ことを特徴とする。
【００１３】
請求項５の発明は、請求項１ないし請求項４のいずれかに記載の文書処理装置であって、前記置換手段が、前記翻訳印刷物のレイアウトデータを作成する際に前記前記翻訳単位ごとに前記原文と前記翻訳文とを対比して記述した校正用データを併せて作成する、ことを特徴とする。
【００１４】
請求項６の発明は、請求項１ないし請求項５のいずれかに記載の文書処理装置であって、前記置換手段は、前記翻訳印刷物のレイアウトデータを作成する際に前記識別子付きレイアウトデータに付与されていた識別番号を削除する、ことを特徴とする。
【００１５】
請求項７の発明は、請求項１ないし請求項６のいずれかに記載の文書処理装置であって、構造化されていないレイアウトデータを前記所定の構造化要素を用いて構造化する構造化処理手段、をさらに備え、前記構造化処理手段によって構造化された原文レイアウトデータが前記識別処理手段によって処理される、ことを特徴とする。
【００１６】
請求項８の発明は、請求項１ないし請求項７のいずれかに記載の文書処理装置であって、レイアウトデータを作成するレイアウト作成手段、をさらに備え、前記レイアウト作成手段によって構造化されたレイアウトデータが前記構造化処理手段によって処理される、
ことを特徴とする。
【００１７】
請求項９の発明は、プログラムであって、コンピュータにおいて実行されることにより、前記コンピュータを、請求項１ないし請求項８のいずれかに記載の文書処理装置として機能させることを特徴とする。
【発明の効果】
【００１８】
請求項１ないし請求項９の発明によれば、翻訳者に与えられる翻訳用データには、翻訳対象となる原文と識別番号が付与されているだけとなり、レイアウトに係る情報が含まれないので、翻訳者がレイアウトに係る情報を改変してしまうことがなくなる。また、原文は同じ識別番号の翻訳文と自動的に置換されるので、ＤＴＰオペレータが翻訳文を逐一置換する手間も不要となる。これにより、翻訳文印刷物に係るレイアウトデータの作成が効率化される。すなわち、レイアウトされた文書の多言語化処理の効率化が実現される。
【図面の簡単な説明】
【００１９】
【図１】本実施の形態に係る文書処理装置１の構成を模式的に示す図である。
【図２】文書処理装置１の制御部１１において実現される機能を説明するための図である。
【図３】翻訳印刷物を表現するレイアウトデータを作成する処理の概略的な手順を示す図である。
【図４】原文レイアウトデータＤＬ１によって表現される原文印刷物Ｐ１を例示する図である。
【図５】構造化原文レイアウトデータＤＳ１を例示する図である。
【図６】識別子付き原文レイアウトデータＤＩを例示する図である。
【図７】翻訳用原文データＤＴ１を例示する図である。
【図８】翻訳参照用データＤＲによって表現される参照用印刷物Ｐ２を例示する図である。
【図９】翻訳文データＤＴ２を例示する図である。
【図１０】構造化翻訳文レイアウトデータＤＳ２を例示する図である。
【図１１】構造化翻訳文レイアウトデータＤＳ２に基づいて出力した翻訳文印刷物Ｐ３を例示する図である。
【図１２】翻訳校正用データＤＰを出力することにより得られる校正用印刷物Ｐ４を例示する図である。
【図１３】構造化原文レイアウトデータＤＳ１’の一部を例示する図である。
【図１４】識別子付き原文レイアウトデータＤＩ’の一部を例示する図である。
【図１５】翻訳用原文データＤＴ１’の一部を例示する図である。
【発明を実施するための形態】
【００２０】
＜装置の概略構成＞
図１は、本実施の形態に係る文書処理装置１の構成を模式的に示す図である。文書処理装置１は、ある自然言語（例えば日本語）で記述された文章を含む翻訳対象文書（原文印刷物）のレイアウトデータに基づいて、当該文章を異なる自然言語（例えば英語）に翻訳してなる新たな文書（翻訳印刷物）を表現するレイアウトデータを作成する処理を、効率化に行えるようにする機能を、主に備える。
【００２１】
文書処理装置１は、汎用のパーソナルコンピュータによって実現される。すなわち、文書処理装置１は、ＣＰＵ１１ａ、ＲＯＭ１１ｂ、およびＲＡＭ１１ｃから構成され、後述する各機能を実現する制御部１１と、ハードディスクなどにより構成され、種々のデータや文書処理装置１の動作を実現させるプログラム１２ｐを記憶する記憶部１２と、オペレータが各種の指示を入力するためのマウス１３ａやキーボード１３ｂなどからなる操作部１３と、ディスプレイ等の表示部１４と、ＣＤ−Ｒ、ＤＶＤ−ＲＡＭ、ＵＳＢメモリ、ポータブルＨＤＤなど種々の可搬性の記録媒体との間でデータのリード／ライトを行うためのＲ／Ｗ部１５と、他の装置等との間で有線または無線によってデータの受け渡しを行うためのインターフェースとしての通信部１６とを、主として備えている。また、文書処理装置１には、レイアウトデータ（後述する原文レイアウトデータＤＬ１や翻訳文レイアウトデータＤＬ２）などを大量に蓄積・保存可能な大記憶容量のデータベースサーバ１７が付属していてもよい。
【００２２】
また、図１に示すように、文書処理装置１は、所定のネットワークＮに接続され、該ネットワークＮ上に存在するクライアントコンピュータＣ（Ｃ１、Ｃ２、・・・Ｃｎ）からアクセス可能とされていてもよい。これにより、文書処理装置１とクライアントコンピュータＣとの間で種々のデータの授受が可能となる。ネットワークＮは、ＬＡＮ（Local Area Network）などのイントラネットでも、インターネットでも、両者を共に含む態様でもよい。文書処理装置１がネットワークＮに接続される場合、セキュリティ確保のため、図示しないファイアウォールを適宜に設けるとともに、パスワード設定するなどして、各クライアントコンピュータＣ１〜Ｃｎごとに必要に応じたアクセス制限を設定する態様が好ましい。
【００２３】
図２は、文書処理装置１の制御部１１において実現される機能を説明するための図である。制御部１１においては、記憶部１２に記憶されているプログラム１２ｐが実行されることにより、ＣＰＵ１１ａ、ＲＯＭ１１ｂ、およびＲＡＭ１１ｃの作用によって、レイアウトデータ処理部２０と構造化データ処理部３０とが実現される。
【００２４】
レイアウトデータ処理部２０は、印刷物のレイアウトを表現するレイアウトデータ（組版データ）の作成・編集や、該レイアウトデータを構造化する構造化処理などを担う。レイアウトデータ処理部２０は、レイアウト作成手段２１と、構造化処理手段２２と、レイアウト編集手段２３とを主として備える。
【００２５】
レイアウトデータ処理部２０を構成するレイアウト作成手段２１、構造化処理手段２２、およびレイアウト編集手段２３は、公知のレイアウト処理技術を利用することによって実現可能である。例えば、文書処理装置１に市販のＤＴＰアプリケーションソフトウェアが読み込まれることによって、実現される態様であってもよい。この場合、プログラム１２ｐが該ＤＴＰアプリケーションソフトウェアを含むことになる。
【００２６】
ただし、文書処理装置１においてレイアウトデータ処理部２０は必須ではなく、その全部もしくは一部の機能が文書処理装置１の外部において実現され、その結果得られたデータが文書処理装置１において用いられる態様であってもよい。詳細については後述する。
【００２７】
構造化データ処理部３０は、原文印刷物についての構造化されたレイアウトデータに基づいて、翻訳者４０による翻訳の対象となるデータを生成する処理や、翻訳によって得られた翻訳文が組み込まれた構造化レイアウトデータを生成する処理などを担う。構造化データ処理部３０は、翻訳単位識別処理手段３１と、翻訳用データ抽出手段３２と、参照用データ生成手段３３と、置換手段３４と、を主として備える。
【００２８】
また、文書処理装置１においては、処理対象となるデータなどの内容や種々の処理メニューを表示部１４に表示させつつ、オペレータがマウス１３ａにより所定のメニューボタン等をクリック操作したり、アイコン等をドラッグアンドドロップ操作するなどして実行指示を与えることにより、所定の処理を行うことができる、いわゆるＧＵＩ（Graphical User Interface）が、制御部１１、操作部１３、表示部１４などの機能により実現されている。制御部１１に実現される各部の処理も、このＧＵＩを用いて行われる。
【００２９】
＜翻訳印刷物のレイアウト作成手順＞
図３は、翻訳印刷物を表現するレイアウトデータを作成する処理の概略的な手順を示す図である。
【００３０】
まず最初に、翻訳印刷物の作成元になる原文印刷物のレイアウトが行われる（ステップＳ１）。すなわち、原文印刷物において表現しようとする文章（翻訳前の文章）、線画、画像などの内容、およびそれらの配置態様（位置、サイズ、色など）を記述したレイアウトデータが生成される。
【００３１】
次に、レイアウトデータの記述内容に基づいて、翻訳対象とする文章を記述した翻訳用データが生成され（ステップＳ２）、翻訳者４０に受け渡される。
【００３２】
翻訳者４０は、受け取った翻訳データに基づいて翻訳処理ＴＲを行い（ステップＳ３）、翻訳文データを生成する。
【００３３】
翻訳文データが得られると、原文印刷物のレイアウトデータにおける原文の文章の記述部分を、翻訳文データに記述された、対応する翻訳文と置換する（ステップＳ４）。これにより、翻訳文のレイアウトデータが得られることになる。
【００３４】
＜レイアウトデータの作成＞
以降、本実施の形態に係る文書処理装置１において行われる、上記の手順に沿った処理の詳細を、各部の動作とともに説明する。
【００３５】
まず、図３のステップＳ１の原文印刷物のレイアウトは、レイアウトデータ処理部２０のレイアウト作成手段２１の作用により実現される。
【００３６】
レイアウト作成手段２１は、原文印刷物のレイアウトを記述した原文レイアウトデータＤＬ１を作成する処理を担う。文書処理装置１においては、レイアウト作成手段２１の作用により、オペレータが、レイアウトに使用する文章、線画、画像などのデータを対象とする配置態様の決定つまりはレイアウト処理を、ＧＵＩを用いて試行錯誤しつつ行うことができる。これら文章、線画、画像などのデータは、あらかじめ記憶部１２やデータベースサーバ１７などに記憶されている。あるいは、文章や線画などのデータを入力あるいは作成しつつ、レイアウト処理を行える態様であってもよい。図４は、原文レイアウトデータＤＬ１によって表現される原文印刷物Ｐ１を例示する図である。原文印刷物Ｐ１には、第１レイアウト要素ＬＥ１〜第５レイアウト要素ＬＥ５の５つのレイアウト要素が含まれているものとする。第１レイアウト要素ＬＥ１は見出しである。第２レイアウト要素ＬＥ２は文章が記述された第１番目の段落（第１段落）である。第３レイアウト要素ＬＥ３は文章が記述された第２番目の段落（第２段落）である。なお、第１段落においては文字は全て同じサイズで記述されているが、第２段落では一部に他とは文字サイズおよびフォントが異なる文字列ＳＴ１が存在する。第４レイアウト要素ＬＥ４は画像である。第５レイアウト要素ＬＥ５は表である。なお、原文レイアウトデータＤＬ１においては、図４には図示しない他の箇所において、これらのレイアウト要素に係る書式を規定する記述が含まれる。
【００３７】
なお、レイアウト作成手段２１は、レイアウト微調整用データＤＡを作成できるようになっているのが好ましい。原文と翻訳文の言語の組合せによっては、文字種、字数、文字サイズなどの相違に起因して、原文レイアウトデータＤＬ１において設定された原文印刷物についての文章の配置態様を、翻訳印刷物を表現するレイアウトデータにおける翻訳文の配置にそのまま適用しても、翻訳前後でレイアウトに一貫性のある印刷物が実現されない場合がある。そこで、あらかじめ、用いられる自然言語の違いに起因して必要となる、翻訳後の印刷物についてのレイアウトの微調整内容をレイアウト微調整用データＤＡに記述しておき、翻訳文印刷物のレイアウトデータの生成に際しては係るレイアウト微調整用データＤＡを用いることで、翻訳印刷物の体裁が原文印刷物にできるだけ近似するようにレイアウトを微調整するのが好ましい。例えば、レイアウト作成手段２１がスタイル設定部分と実体内容部分とを分離して記述する形式のレイアウトデータを作成するようになっている場合には、スタイル設定部分を翻訳に用いた自然言語に応じて記述したデータをレイアウト微調整用データＤＡとして作成できるようになっているのが好適な一例である。また、多言語に展開する場合であれば、翻訳対象とされる全ての自然言語について、レイアウト微調整用データＤＡが用意されるのが好ましい。
【００３８】
また、原文レイアウトデータＤＬ１のデータ形式は、印刷物を出力する出力装置で処理可能なものであり、かつ、構造化処理手段２２において後述する構造化処理が可能なものであれば、特段の制限はない。
【００３９】
＜構造化処理＞
原文レイアウトデータＤＬ１は、種々のデータ形式にて作成され得るものであり、必ずしも、レイアウトされた文章がテキスト文字列として記述されているとは限らない。そこで、本実施の形態に係る文書処理装置１においては、図３のステップＳ２の翻訳用データの作成を行うに先立って、原文レイアウトデータＤＬ１の記述内容から文章部分のデータをテキスト文字列として抽出可能とするべく、構造化処理手段２２の作用により構造化処理を行う。
【００４０】
構造化処理とは、原文レイアウトデータＤＬ１における印刷物の表現態様と同じ表現態様を有しつつ、いわゆる構造化文書の記述形式にて記述されてなるデータを、生成する処理である。原文レイアウトデータＤＬ１を構造化することによって得られるデータを、構造化原文レイアウトデータＤＳ１と称することとする。
【００４１】
以下においては、構造化文書を記述する言語の１つであるＸＭＬ（eXtensible Markup Language）を用いて、原文レイアウトデータＤＬ１を構造化する場合を説明する。構造化文書とは、文書内容をテキスト形式で記述するとともに、文書の構造要素およびその属性を、タグと称されるテキスト文字列を用いて規定した文書である。すなわち、構造化処理によって得られる構造化原文レイアウトデータＤＳ１は、原文印刷物のレイアウトを記述した、テキスト形式の構造化文書データとして生成される。構造化原文レイアウトデータＤＳ１においては、構造を規定するタグがテキスト形式で記述されているので、その検索、置換などの処理が容易である。
【００４２】
図５は、図４に示した原文印刷物Ｐ１を表現する原文レイアウトデータＤＬ１を対象とする構造化処理を行うことにより得られる構造化原文レイアウトデータＤＳ１を例示する図である。図５においては、図４において部分Ａとして示す、第１レイアウト要素ＬＥ１ないし第３レイアウト要素ＬＥ３に相当する記述部分を例示している。構造化原文レイアウトデータＤＳ１においては、文章を記述するものとあらかじめ定義された開始タグとこれに対応する終了タグとの間に、当該文章のテキスト文字列が記述される。例えば、図５においては、<pcnt>なる開始タグＴＳ１と</pcnt>なる終了タグＴＥ１との間の部分Ｂに、テキスト文字列が記述されている。なお、部分Ｂにある「c＿」なる記述は文字列の先頭を表す制御記号である。また、「〓」なる記述は改行を表す制御記号である。詳細は省略するが、当該文章の書式や印刷物における配置位置なども、所定のタグを用いて記述される。線画や画像についても同様に、所定の開始タグと終了タグとを用いて、そのデータ内容やＵＲＬなどで表現されるデータの格納箇所や、印刷物における配置位置が記述される。
【００４３】
構造化処理の具体的内容は、対象となる原文レイアウトデータＤＬ１のデータ形式や、用いるＤＴＰアプリケーションソフトウェアの種類などに応じて適宜に定められればよく、結果として、原文レイアウトデータＤＬ１における印刷物の表現態様と同じ表現態様を有するように、構造化原文レイアウトデータＤＳ１が生成されるのであれば、特段の制限はない。
【００４４】
＜翻訳単位の特定と識別番号の付与＞
構造化原文レイアウトデータＤＳ１が生成されると、次に、翻訳単位識別処理手段３１が、構造化原文レイアウトデータＤＳ１のデータ記述を解析して、当該データ記述を翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を一意に識別するための識別番号（識別子）を当該翻訳単位に付与した識別子付き原文レイアウトデータＤＩを生成する処理を行う。
【００４５】
ここで、翻訳単位とは、原文印刷物において翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき文章の範囲のことをいう。また、線画や画像などは翻訳対象とはならないが、これらについても、それぞれが翻訳単位とみなされて識別番号が付与される態様であってもよい。例えば、図４に例示した原文印刷物Ｐ１の場合、第１レイアウト要素ＬＥ１ないし第４レイアウト要素ＬＥ４が翻訳単位となるほか、表である第５レイアウト要素ＬＥ５については、表を構成する各要素が、個別に翻訳単位として特定される。
【００４６】
図５に示すように、構造化原文レイアウトデータＤＳ１はレイアウトされた文章に相当するテキスト文字列を含んでいるが、元々の原文レイアウトデータＤＬ１のデータ形式や構造化処理の態様によっては、構造化原文レイアウトデータＤＳ１において必ずしも翻訳単位ごとにテキスト文字列が記述されている訳ではない。
【００４７】
例えば、図５に示す場合であれば、開始タグＴＳ１と終了タグＴＥ１とで挟まれた部分Ｂにテキスト文字列が記述されているが、図４の部分Ａと図５の部分Ｂとを対比すればわかるように、部分Ｂには部分Ａに含まれる第２レイアウト要素ＬＥ２と第３レイアウト要素ＬＥ３の一部とが含まれている。すなわち、異なる翻訳単位として取り扱われるべき、異なる段落に係る文章が、１組の開始タグＴＳ１と終了タグＴＥ１とで挟まれていることになる。
【００４８】
一方、文字サイズおよびフォントが他と異なる文字列ＳＴ１が開始タグＴＳ２と終了タグＴＥ２とを用いて個別に記述されているために、当該箇所および開始タグＴＳ３と終了タグＴＥ３とで挟まれた箇所は、実際には、部分Ｂの後半も含め、第３レイアウト要素ＬＥ３に対応するにもかかわらず、それぞれ別個にタグで挟まれている。すなわち、１つの翻訳単位として取り扱われるべき箇所が別々に記述されている。
【００４９】
よって、このような記述態様を有する構造化原文レイアウトデータＤＳ１から直接に翻訳用の文章を抜き出そうとすると、原文印刷物との対応関係の把握が難しくなり、翻訳処理あるいはその後の原文の翻訳文への置換処理が効率的に行えないなどの問題が生じることになる。
【００５０】
そこで、本実施の形態に係る文書処理装置１においては、構造化原文レイアウトデータＤＳ１のデータ記述を解析して、当該データ記述を翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を一意に識別するための識別番号（識別子）を当該翻訳単位に付与した識別子付き原文レイアウトデータＤＩを生成する処理を担う。
【００５１】
なお、構造化原文レイアウトデータＤＳ１に用いられているタグの種類および定義、あるいはさらに、改行その他の文章の記述態様を規定する制御記号の種類および定義は、原文レイアウトデータＤＬ１のデータ形式や構造化処理の仕方、あるいは構造化処理手段２２を実現するＤＴＰアプリケーションソフトウェアの種類などによって様々である。すなわち、同じレイアウト要素を表すタグが異なる文字列にて定義されることがあり得る。換言すれば、同一内容の原文印刷物を表現する原文レイアウトデータＤＬ１は複数種類のデータ形式にて記述され得る。そこで、本実施の形態に係る文書処理装置１においては、そうしたタグや制御記号の種類および定義をデータ形式ごとに記述したデータセットである構造化要素定義データＤＥが、あらかじめ記憶部１２に保持されている。翻訳単位識別処理手段３１は、翻訳単位の特定に際して係る構造化要素定義データＤＥを参照することにより、用いられているタグや制御記号の種類に応じた態様にて識別子付き原文レイアウトデータＤＩを生成するようになっている。
【００５２】
図６は、図５に例示した構造化原文レイアウトデータＤＳ１に基づいて得られた識別子付き原文レイアウトデータＤＩを例示する図である。図６においては、第２レイアウト要素ＬＥ２に対応する部分Ｅ１と第３レイアウト要素ＬＥ３に対応する部分Ｅ２とを例示している。それぞれの部分は、<ffx＿text>なる開始タグＴＳ４あるいは開始タグＴＳ５と</ffx＿text>なる終了タグＴＥ４あるいはＴＥ５とに挟まれている。また、開始タグＴＳ４および開始タグＴＳ５においてはいくつかの属性が定義されているが、そのうちの「ffx＿no」なる属性が、図６に示す識別子付き原文レイアウトデータＤＩにおいてそれぞれの翻訳単位の識別番号と表している。開始タグＴＳ４には「ffx＿no="2"」と記述されているので、部分Ｅ１に対応する翻訳単位には２番という識別番号が定められていることになる。同様に、開始タグＴＳ５と終了タグＴＥ５とに挟まれている部分Ｅ２には、３番という識別番号が定められていることになる。
【００５３】
構造化原文レイアウトデータＤＳ１に基づく識別子付き原文レイアウトデータＤＩの生成の具体的態様は、上述したように用いられているタグの種類が様々であるためにどのようなタグが用いられているのかによって異なるが、概略的には、次のような原則に従って行われる。
【００５４】
まず、テキスト文章に対応する開始タグおよび対応する終了タグを検索し、その間に記述されているテキスト文字列の末尾に改行を示す制御記号が存在する場合には、当該テキスト文字列を１つの翻訳単位として定めるようにする。また、テキスト文字列の途中に改行を示す制御記号が存在する場合には、当該制御記号の前後を別の翻訳単位として定めるようにする。
【００５５】
一方、図５の部分Ｂの末尾のように、テキスト文字列の最後に改行記号が存在しない場合は、たとえ終了タグが存在していたとしても、次の開始タグ以降のテキスト文字列についても同じ翻訳単位に属するものと判断する。
【００５６】
ただし、第３レイアウト要素ＬＥ３に存在する文字列ＳＴ１のように、１つの翻訳単位に属するものの他とは異なる書式を有する箇所については、そのことを示す指標となる所定のタグ（これをインラインタグと称する）が用いられる。インラインタグには、構造化原文レイアウトデータＤＳ１の対応箇所において用いられていたタグをそのまま用いても良いが、他の箇所とは書式が異なることが認識されればよいので、その記載は簡潔な方が望ましい。係る考え方に基づき、図６に示す場合においては、<emphasis>なる開始タグＴＳ６と</emphasis>なる終了タグＴＥ６とをインラインタグとして用いられている。なお、識別子付き原文レイアウトデータＤＩにおいては、図示しない他の箇所において、これらのインラインタグが付された箇所についての書式が記述される。
【００５７】
さらには、画像や線画と特定される箇所についても、所定のタグを用いて記述すると共に、識別番号を付与する。
【００５８】
このような処理の結果、個々の翻訳単位に属すると判定されたテキスト文字列がそれぞれ、翻訳単位を定義する開始タグと終了タグの間に挟まれるように記述がなされ、識別番号その他の属性が開始タグに付与されることで、識別子付き原文レイアウトデータＤＩが得られる。
【００５９】
なお、識別子付き原文レイアウトデータＤＩを生成するにあたっては、図６に示す場合のように、構造化原文レイアウトデータＤＳ１においては用いられていなかったタグにて翻訳単位に対応するテキスト文字列を記述する態様であってもよい。ただし、後述するように識別子付き原文レイアウトデータＤＩに記述されている原文のテキスト文字列を翻訳文のテキスト文字列で置換したうえで翻訳文のレイアウトデータを生成する際に、原文印刷物のレイアウトに準じたレイアウトの翻訳文印刷物ができるように、それぞれのデータで用いるタグの対応関係が一義的に定められていることが好ましい。
【００６０】
＜翻訳用データの作成＞
上述のようにして識別子付き原文レイアウトデータＤＩが得られると、これを対象として、図３のステップＳ２の翻訳用データの作成が行われる。
【００６１】
翻訳用データの作成は、翻訳用データ抽出手段３２によって行われる。翻訳用データ抽出手段３２は、識別子付き原文レイアウトデータＤＩの記述内容を解析して、翻訳単位に相当する記述箇所を特定し、その記述内容（テキスト文字列）と、これに付された識別番号とを抽出して、それらを人間が一覧できるデータ形式の翻訳用原文データＤＴ１を作成する。翻訳用原文データＤＴ１は、翻訳者４０が使用しているテキストエディタやワードプロセッサなどの汎用のソフトウェアによって読み書き可能なデータ形式で作成される。
【００６２】
図７は、翻訳用原文データＤＴ１を例示する図である。図７においては、「Ｎo.」欄が識別番号を表している。また、図７においては、図４に示した原文印刷物Ｐ１に含まれる全ての翻訳単位が記述されている。
【００６３】
図６に示したように、識別番号が３番の翻訳単位には、インラインタグで挟まれた箇所が含まれていたが、図７に示す翻訳用原文データＤＴ１においても、対応する箇所にインラインタグはそのまま記述されている。これは、翻訳処理に際して翻訳者４０にその箇所の書式が他とは異なることを認識させる効果がある。ただし、これは必須ではなく、インラインタグを表示させない態様にて翻訳用原文データＤＴ１が作成されてもよい。
【００６４】
なお、識別番号が４番の翻訳単位には、<image/>なるタグのみが記載されているが、これは、第４レイアウト要素ＬＥ４に相当する画像に対して識別番号が付与されていることを意味している。
【００６５】
好ましくは、係る翻訳用原文データＤＴ１の生成と並行して、参照用データ生成手段３３により、翻訳参照用データＤＲが生成される。翻訳参照用データＤＲは、識別子付き原文レイアウトデータＤＩに基づいて生成される、原文印刷物Ｐ１の各翻訳単位にそれぞれの識別番号を付与した印刷物のデータである。翻訳参照用データＤＲは、ＰＤＦ形式のデータとして生成されるのが好適な一例である。図８は、翻訳参照用データＤＲによって表現される参照用印刷物Ｐ２を例示する図である。
【００６６】
＜翻訳処理＞
上述のようにして作成された翻訳用原文データＤＴ１が、翻訳者４０に受け渡される。翻訳者４０への翻訳用原文データＤＴ１の受け渡しは、ネットワークＮを通じて翻訳者４０が有するクライアントコンピュータＣに当該データを転送する態様であってもよいし、Ｒ／Ｗ部１５において所定の記録媒体に翻訳用原文データＤＴ１を書き出した上で、当該記録媒体を翻訳者４０に受け渡す態様であってもよい。
【００６７】
好ましくは、翻訳用原文データＤＴ１と併せて、翻訳参照用データＤＲあるいは参照用印刷物Ｐ２も翻訳者４０に受け渡される。翻訳者４０は、受け取った翻訳用原文データＤＴ１を対象に、図３のステップＳ３の翻訳処理を行うことになる。参照用印刷物Ｐ２が手元にある場合には、翻訳用原文データＤＴ１に記述されているそれぞれの翻訳単位の文章が、原文印刷物のどの箇所に記載されていたものであるかを把握しつつ翻訳処理を行う。
【００６８】
翻訳処理は、翻訳用原文データＤＴ１において翻訳単位ごとに記述されている原文の文章を、対応する翻訳文に書き換えることにより行われる。これにより、翻訳文データＤＴ２が得られる。換言すれば、翻訳文データＤＴ２は、翻訳用原文データＤＴ１と同じデータ形式を有しつつ、その翻訳単位ごとの記述内容が翻訳文に書き換えられたものである。図９は、図７に示す翻訳用原文データＤＴ１に基づいて翻訳処理が行われることで作成された翻訳文データＤＴ２を例示する図である。なお、図９に示す翻訳文データＤＴ２においては、後段の説明の都合上、故意に、翻訳処理が不十分な箇所を存在させてある。
【００６９】
本実施の形態の場合、翻訳者４０に与えられる翻訳用原文データＤＴ１は、レイアウトに関する情報を有していない。よって、翻訳者４０が翻訳処理を行って翻訳用原文データＤＴ１の記述を対応する翻訳文に書き換える際に、原文印刷物Ｐ１について設定されていたレイアウトに対して翻訳者４０が誤って改変してしまうことはないので、そうした不要な変更に付随するレイアウト修正が不要となり、翻訳文印刷物の作成処理が効率化される。
【００７０】
＜翻訳文による原文の置換＞
翻訳者４０によって作成された翻訳文データＤＴ２は、文書処理装置１に与えられる。文書処理装置１においては、翻訳文データＤＴ２を用いて、図３のステップＳ４の置換処理を行う。具体的には、置換手段３４の作用により、構造化原文レイアウトデータＤＳ１における原文の部分が対応する翻訳文と置換された記述内容を有する、構造化翻訳文レイアウトデータＤＳ２が作成される。
【００７１】
具体的には、置換手段３４は、識別子付き原文レイアウトデータＤＩに記述されている原文の文章（テキスト文字列）を、翻訳単位ごとに、翻訳文データＤＴ２において当該翻訳単位と同じ識別番号が付与された翻訳文に置換するとともに、置換後のデータから識別番号の削除を含むタグの書き換えを行い、構造化翻訳文レイアウトデータＤＳ２を作成する。
【００７２】
図１０は、構造化翻訳文レイアウトデータＤＳ２を例示する図である。図１０においては、構造化翻訳文レイアウトデータＤＳ２のうち、図６に示す識別子付き原文レイアウトデータＤＩのうちの部分Ｅ１および部分Ｅ２に対応する箇所を例示している。
【００７３】
すなわち、図１０において開始タグＴＳ７と終了タグＴＥ７とで挟まれた部分Ｆ１には、識別子付き原文レイアウトデータＤＩの部分Ｅ１に記述された原文に対応する翻訳文が記述されている。これは、図４の第２レイアウト要素ＬＥ２の翻訳文に対応する。
【００７４】
一方、第３レイアウト要素ＬＥ３に対応する、識別子付き原文レイアウトデータＤＩの部分Ｅ２に記述された原文に対応する翻訳文は、開始タグＴＳ８と終了タグＴＥ８とで挟まれた部分Ｆ１と、開始タグＴＳ９と終了タグＴＥ９とで挟まれた部分Ｆ２と、開始タグＴＳ１０と終了タグＴＥ１０とで挟まれた部分Ｆ３とに区分して記述されている。ここで、部分Ｆ２は、文字サイズやフォントが前後と異なる第３レイアウト要素ＬＥ３の文字列ＳＴ１に相当する。これは、識別子付き原文レイアウトデータＤＩにおいてはインラインタグにて異なる書式情報を有することのみが省略的に記述されていた箇所に、識別子付き原文レイアウトデータＤＩの他の箇所に記述されていた元の書式情報が適用された結果である。すなわち、構造化翻訳文レイアウトデータＤＳ２においては、当該箇所を含め、翻訳用原文データＤＴ１を得る際には不要であったことから省略した（正確には、抽出対象となる箇所とは異なる箇所に記述されていた）レイアウトに係る情報が、対応する翻訳文の箇所に所定のタグを用いて記述される。
【００７５】
このような処理によって得られた構造化翻訳文レイアウトデータＤＳ２は、構造化文書の形式を有しているものの、それ自体がレイアウトデータであるので、その記述形式に対応した出力装置において出力処理が可能なデータとなっている。図１１は、構造化翻訳文レイアウトデータＤＳ２に基づいて出力した翻訳文印刷物Ｐ３を例示する図である。本実施の形態においては、識別番号の同一性に基づいて置換手段３４が自動的に原文を翻訳文に置換するので、文書処理装置１のオペレータが逐一原文を翻訳文で置換するような処理や、翻訳時の誤ったレイアウト変更に伴うレイアウトの微調整が不要であるので、翻訳文のレイアウトを効率的かつ正確に行うことができる。
【００７６】
なお、翻訳文印刷物Ｐ３において翻訳結果に誤りがある場合、当該箇所について翻訳者４０あるいは文書処理装置１のオペレータなどによって、修正処理が行われることになる。例えば、図１１に示す場合においては原文印刷物Ｐ１の第５レイアウト要素ＬＥ５に対応するレイアウト要素ＬＥ５’において、誤訳の箇所と翻訳漏れの箇所とが存在する。
【００７７】
係る場合において、置換手段３４が、係る構造化翻訳文レイアウトデータＤＳ２の生成と併せて、翻訳校正用データＤＰを生成し、翻訳校正用データＤＰに基づいて翻訳のチェックが行われるようにしてもよい。図１２は、翻訳校正用データＤＰを出力することにより得られる校正用印刷物Ｐ４を例示する図である。
【００７８】
翻訳校正用データＤＰは、翻訳単位ごとに原文と翻訳文とを併記して、識別番号順に一覧できるようにしたものである。校正用印刷物Ｐ４が容易に得られるものであれば、その翻訳校正用データＤＰのデータ形式は限定されない。ｈｔｍｌ形式のデータとして翻訳校正用データＤＰを作成するのが好適な一例である。
【００７９】
翻訳校正用データＤＰに基づいてチェックを行う場合、印刷物のレイアウトに無関係に文章同士を直接に対比して翻訳の妥当性を検証できるので、誤訳の発見や翻訳漏れなどを容易に見つけることができる。例えば、図１１に示す校正用印刷物Ｐ４が得られた場合であれば、翻訳者４０あるいは文書処理装置１のオペレータは、識別番号が４番の翻訳単位について翻訳漏れがあったことを直ちに把握することができる。また、識別番号５〜７の翻訳が誤っていることも確認できる。
【００８０】
あるいはさらに、翻訳校正用データＤＰにおいては、原文と翻訳文との一致度などが併せて示される態様であってもよい。例えば、図１１に示す翻訳文印刷物Ｐ３においては、原文のまま翻訳されていない翻訳単位に「!DBCS」なる警告文字が付与されている。一方、原文がもともとアルファベット表記であり、翻訳文においても変更のない箇所には、「!SAME」なる警告文字が付与されている。
【００８１】
＜レイアウトの微調整と翻訳印刷物の出力＞
以上のように、構造化翻訳文レイアウトデータＤＳ２が得られれば、原文印刷物の原文部分が翻訳された印刷物のレイアウトデータが得られたことになる。ただし、上述したように、原文と翻訳文の言語の組合せによっては、原文レイアウトデータＤＬ１において設定された原文印刷物において配置されている原文の文章を翻訳文で置換したのみでは、翻訳前後でレイアウトに一貫性のある印刷物が実現されない場合がある。そこで、好ましくは、レイアウト編集手段２３が、構造化翻訳文レイアウトデータＤＳ２の記述内容をレイアウト微調整用データＤＡに基づいて修正し、より原文印刷物の表現に近い翻訳文印刷物が得られるようにする。なお、レイアウト作成手段２１がレイアウト編集手段２３の機能を兼ね備える態様であってもよい。
【００８２】
さらに、レイアウト編集手段２３は、構造化翻訳文レイアウトデータＤＳ２を、構造化文書の形式を有さない翻訳文レイアウトデータＤＬ２に書き換えるようになっていてもよい。係る処理は、構造化処理と逆方向の処理に相当する。構造化されたレイアウトデータは、テキスト形式を有するので、上述のようなテキスト文字列の抽出を行うには適しているが、印刷物の出力処理にあたっては、必ずしも最適な形式を有しているとはいえない。そこで、例えば原文レイアウトデータＤＬ１と同様の（構造化文書としての構造を有さない）形式のデータとして翻訳文レイアウトデータＤＬ２を作成し、これを出力処理に供することで、効率的な出力処理が実現される。
【００８３】
以上、説明したように、本実施の形態によれば、原文印刷物のレイアウトデータに基づいて、翻訳対象の原文を翻訳単位ごとに区分するとともにそれぞれに識別番号を付与した翻訳用データを生成して、これを翻訳処理に供する。翻訳者は、翻訳単位ごとに翻訳を行って翻訳用データを書き換えて翻訳文データを生成する。翻訳文データが得られると、原文の文章を、識別番号をキーとして、翻訳文データに記述されている翻訳文に翻訳単位ごとに置換する。これにより、翻訳者に与えられる翻訳用データには、翻訳対象となる原文と識別番号が付与されているだけとなり、レイアウトに係る情報が含まれないので、翻訳者がレイアウトに係る情報を改変してしまうことがなくなり、これに伴うレイアウト修正を行う必要がなくなる。また、原文は同じ識別番号の翻訳文と自動的に置換されるので、ＤＴＰオペレータが翻訳文を逐一置換する手間も不要となる。よって、翻訳文印刷物に係るレイアウトデータの作成が効率化される。すなわち、レイアウトされた文書の多言語化処理の効率化が実現される。
【００８４】
＜他の処理例＞
以降においては、上述の例とは異なる形式のデータが処理対象となっている場合を例示する。図１３、図１４、図１５はそれぞれ、構造化原文レイアウトデータＤＳ１’、識別子付き原文レイアウトデータＤＩ’、および翻訳用原文データＤＴ１’の一部を例示する図である。
【００８５】
図１３に示す構造化原文レイアウトデータＤＳ１’は、図示しない原文レイアウトデータが構造化処理手段２２によって構造化処理された結果得られた、<txt>なる開始タグ（実際には属性が定義されている）と</txt>なる終了タグとが、文章を記述するものと定義されているデータである。そして、翻訳単位識別処理手段３１が係る構造化原文レイアウトデータＤＳ１’を対象として翻訳単位の特定と識別番号の付与とを行うことにより得られたのが、図１４に示す識別子付き原文レイアウトデータＤＩ’である。図１４においては、図１３に示す部分Ｇに対応する部分が例示されている。
【００８６】
図１４に示す識別子付き原文レイアウトデータＤＩ’においても、図６に示す識別子付き原文レイアウトデータＤＩと同じく、<ffx＿text>なる開始タグと</ffx＿text>なる終了タグとに挟まれた部分として、１つの翻訳単位が記述されているとともに、「ffx＿no」なる属性によって識別番号が定められている。これは、構造化要素定義データＤＥにおいて、図５に示した構造化原文レイアウトデータＤＳ１に用いられている<pcnt>なる開始タグおよび</pcnt>なる終了タグのみならず、<txt>なる開始タグおよび</txt>なる終了タグについても、同じく文章を記述するものと定義しておくことによって実現される。
【００８７】
すなわち、元になる構造化原文レイアウトデータのデータ形式（より具体的には用いられているタグの定義）が異なっている場合でも、構造化要素定義データＤＥに当該タグの定義が記述されていさえすれば、翻訳用データが抽出可能な識別子付き原文レイアウトデータを得ることができる。
【００８８】
そして、翻訳用データ抽出手段３２が係る識別子付き原文レイアウトデータＤＩ’を対象として翻訳単位ごとの原文の抽出を行うことにより得られたのが、図１５に示す翻訳用原文データＤＴ１’である。以降、係る翻訳用原文データＤＴ１’に基づく翻訳処理、およびその後の翻訳用レイアウトデータの作成に至る処理までは、上述の場合と同様に行われることになる。
【００８９】
＜レイアウトデータ処理部の別態様＞
文書処理装置１がレイアウト作成手段２１、構造化処理手段２２、およびレイアウト編集手段２３を含むレイアウトデータ処理部２０を備える態様に代えて、上述のような市販のＤＴＰアプリケーションソフトウェアが例えばクライアントコンピュータＣなどの文書処理装置１外のコンピュータにインストールされており、該コンピュータにおいて、レイアウトデータ処理部２０の各部の機能の一部あるいは全部が実現される態様であってもよい。係る場合、原文レイアウトデータＤＬ１が作成された時点、あるいは構造化原文レイアウトデータＤＳ１が作成された時点で、ネットワークＮを通じて、あるいはＲ／Ｗ部１５において所定の記録媒体から読み込まれることにより、原文レイアウトデータＤＬ１あるいは構造化原文レイアウトデータＤＳ１が文書処理装置１に与えられることになる。また、レイアウト編集手段２３の機能が文書処理装置１外のコンピュータにおいて実現されている場合には、ネットワークＮ経由あるいは記録媒体を介して与えられた構造化翻訳文レイアウトデータＤＳ２に対して非構造化処理を行うことになる。
【符号の説明】
【００９０】
１文書処理装置
２０レイアウト処理部
２１レイアウト作成手段
２２構造化処理手段
２３レイアウト編集手段
３０構造化データ処理部
３１翻訳単位識別処理手段
３２翻訳単位抽出手段
３２翻訳用データ抽出手段
３３参照用データ生成手段
３４置換手段
ＬＥ１〜ＬＥ５（第１〜第５）レイアウト要素
Ｎネットワーク
Ｐ１原文印刷物
Ｐ２参照用印刷物
Ｐ３翻訳文印刷物
Ｐ４校正用印刷物
ＴＥ１〜ＴＥ１０終了タグ
ＴＳ１〜ＴＳ１０開始タグ

【特許請求の範囲】
【請求項１】
文書構造を定義する所定の構造化要素を用いて構造化されてなる、翻訳対象文書である原文印刷物のレイアウトを表現する原文レイアウトデータを取得し、前記原文レイアウトデータにおける、前記原文印刷物において文章として表現されるテキスト文字列を、翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき範囲である翻訳単位ごとの記述に書き換えるとともに、当該記述部分を規定する前記構造化要素の属性としてそれぞれの前記翻訳単位を一意に識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、
前記識別子付きレイアウトデータに基づいて、前記原文印刷物の文章を前記翻訳単位ごとに記述するとともにそれぞれの前記翻訳単位に対応する前記識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、
前記翻訳用データに基づいて作成された、前記翻訳単位ごとの翻訳文に前記識別子を付与してなる翻訳文データを取得し、前記識別子付きレイアウトデータに記述されている原文のテキスト文字列を、前記翻訳単位ごとに、前記翻訳文データにおいて当該翻訳単位と同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、
を備えることを特徴とする文書処理装置。
【請求項２】
請求項１に記載の文書処理装置であって、
前記識別処理手段は、ある前記翻訳単位が書式の異なる文字列を含む場合には、当該文字列が存在することを示す指標を識別子付きレイアウトデータの当該翻訳単位に対応するテキスト文字列中に付加し、
前記翻訳用データ作成手段は、前記原文印刷物の文章を前記翻訳単位に記述する際に前記指標も含めて記述する、
ことを特徴とする文書処理装置。
【請求項３】
請求項１または請求項２に記載の文書処理装置であって、
前記原文印刷物の前記翻訳単位のそれぞれに対応する前記識別子を付与した参照用印刷物のデータを生成する参照用データ生成手段、
をさらに備えることを特徴とする文書処理装置。
【請求項４】
請求項１ないし請求項３のいずれかに記載の文書処理装置であって、
同一の前記原文印刷物を表現する前記原文レイアウトデータを異なる記述態様にて記述可能な複数種類のデータ形式のそれぞれに用いられる前記構造化要素の定義を前記データ形式ごとに記述した定義データがあらかじめ記憶されており、
前記識別処理手段は、前記原文レイアウトデータに用いられている前記構造化要素の定義を前記定義データにおいて特定したうえで前記識別子付きレイアウトデータを生成する、
ことを特徴とする文書処理装置。
【請求項５】
請求項１ないし請求項４のいずれかに記載の文書処理装置であって、
前記置換手段が、前記翻訳印刷物のレイアウトデータを作成する際に前記前記翻訳単位ごとに前記原文と前記翻訳文とを対比して記述した校正用データを併せて作成する、
ことを特徴とする文書処理装置。
【請求項６】
請求項１ないし請求項５のいずれかに記載の文書処理装置であって、
前記置換手段は、前記翻訳印刷物のレイアウトデータを作成する際に前記識別子付きレイアウトデータに付与されていた識別番号を削除する、
ことを特徴とする文書処理装置。
【請求項７】
請求項１ないし請求項６のいずれかに記載の文書処理装置であって、
構造化されていないレイアウトデータを前記所定の構造化要素を用いて構造化する構造化処理手段、
をさらに備え、
前記構造化処理手段によって構造化された原文レイアウトデータが前記識別処理手段によって処理される、
ことを特徴とする文書処理装置。
【請求項８】
請求項１ないし請求項７のいずれかに記載の文書処理装置であって、
レイアウトデータを作成するレイアウト作成手段、
をさらに備え、
前記レイアウト作成手段によって構造化されたレイアウトデータが前記構造化処理手段によって処理される、
ことを特徴とする文書処理装置。
【請求項９】
コンピュータにおいて実行されることにより、前記コンピュータを、請求項１ないし請求項８のいずれかに記載の文書処理装置として機能させることを特徴とするプログラム。

【図１】