文書処理装置およびプログラム
【課題】文書の多言語化処理を効率化する装置を提供する。
【解決手段】文書処理装置が、構造化された原文レイアウトデータを取得し、原文印刷物において文章として表現されるテキスト文字列を、翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、識別子付きレイアウトデータに基づいて、原文印刷物の文章を翻訳単位ごとに記述するとともにそれぞれの翻訳単位に対応する識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、翻訳用データに基づいて作成された翻訳文データを取得し、識別子付きレイアウトデータに記述されている原文のテキスト文字列を、翻訳単位ごとに、翻訳文データにおいて同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、を備える。
【解決手段】文書処理装置が、構造化された原文レイアウトデータを取得し、原文印刷物において文章として表現されるテキスト文字列を、翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、識別子付きレイアウトデータに基づいて、原文印刷物の文章を翻訳単位ごとに記述するとともにそれぞれの翻訳単位に対応する識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、翻訳用データに基づいて作成された翻訳文データを取得し、識別子付きレイアウトデータに記述されている原文のテキスト文字列を、翻訳単位ごとに、翻訳文データにおいて同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、を備える。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、構造化文書の多言語化(他言語化)のための技術に関する。
【背景技術】
【0002】
ある製品が自国内のみならず国外でも販売される場合、当該製品の国内販売用のマニュアルを翻訳して、海外販売用のマニュアルが用意されることがある。こうしたマニュアルなどの文書が、例えばXMLなどのドキュメント記述言語を用いて記述された構造化文書である場合に、その翻訳処理、あるいはさらに、翻訳元の文書の改訂に応じて、翻訳された文書の改訂処理を容易に行える文書処理装置が既に公知である(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第4149940号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示されている技術の場合、ライター(例えばマニュアル作成者)による、翻訳前文書(原文)の構成単位となる文章(単位文書データ)の新規作成こそ、文書処理装置外のワードプロセッサソフトウェアやテキストエディタなどの汎用の文章作成ソフトウェアを用いて行えるものの、その後に行う、各文への識別情報や属性情報の付与処理や、翻訳前文書の構造化処理や、翻訳処理や、原文の改訂に伴う翻訳文の改訂処理などは、専用の文書処理プログラムが読み込まれたコンピュータである文書処理装置を用いて行うようになっている。この場合、ライターあるいは文書のレイアウトを行うDTPオペレータと翻訳処理を行う翻訳者とが異なる場合には、翻訳者も係る文書処理装置を用いるか、文書処理装置にアクセス可能なクライアントコンピュータを用いる必要がある。そのため、汎用のソフトウェアを用いて翻訳業務を行っている翻訳者にとっては、翻訳処理自体は汎用のソフトウェアを用いることによっても可能であるにもかかわらず、上述のような識別情報や属性情報を取り扱う必要のために、そのような処理環境を導入することになるので、導入コストがかかることになる。
【0005】
また、特許文献1に開示された技術を利用するワークフローの代わりに、ライターが文書作成ソフトウェアを用いて作成したテキスト文書を対象に、DTPオペレータが市販のDTPソフトウェア(組版ソフトウェアなど)によるレイアウト処理(組版処理)を行って原文の文書データを作成し、該文書データを受け渡された翻訳者が該文書データに記述されている原文のテキストを対応する翻訳文に書き換えるというワークフローも想定される。しかし、この場合、翻訳者が該DTPソフトウェアを有している必要があるが、そうしたDTPソフトウェアは、比較的高価なものが多く、DTPレイアウト処理を生業としない翻訳者が所有しているとは限らない。また、翻訳者が翻訳処理の過程で文書のレイアウトを崩してしまった場合、必ずしも組版レイアウトのスキルを有しているわけではない翻訳者には修正が困難であったとすると、DTPオペレータ側でレイアウト修正する必要が生じる。また、uni-codeに対応している組版ソフトウェアでない場合、多言語化をする場合に手間がかかるという問題もある。
【0006】
あるいは、原文の文書データが、一般的な翻訳者であれば通常所有しているような汎用の文書作成ソフトウェアを用いて、比較的簡易にレイアウト処理が施されたものであったとしても、翻訳の結果、レイアウトが崩れてしまったり、1バイトフォントと2バイトフォントが混在してしまったような場合は、翻訳後の文書データをそのまま納品用の翻訳文書データとして用いることはできず、やはり、DTPオペレータ側でレイアウト修正する必要が生じる。
【0007】
一方、DTPオペレータが、DTPソフトウェアによるレイアウト処理を行って作成した原文の文書データから、レイアウト情報のない、文章のみが記述されたテキストデータを抽出し、翻訳者が翻訳処理を行って原文に対応する翻訳文のテキストデータを生成し、DTPオペレータが、翻訳文のテキストデータを逐一、文書データにおいて対応する原文のレイアウト箇所にコピー&ペーストすることにより、レイアウト情報を有する翻訳文書データを作成するワークフローも想定される。しかしながらこの場合、コピー&ペーストのミスの有無をいちいちチェックする必要があるほか、多言語化する場合には原語ごとに同様の処理を繰り返す必要があり、煩雑である。
【0008】
本発明は上記課題に鑑みてなされたものであり、レイアウトされた文書の多言語化処理を効率化する文書処理装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するため、請求項1の発明は、文書構造を定義する所定の構造化要素を用いて構造化されてなる、翻訳対象文書である原文印刷物のレイアウトを表現する原文レイアウトデータを取得し、前記原文レイアウトデータにおける、前記原文印刷物において文章として表現されるテキスト文字列を、翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき範囲である翻訳単位ごとの記述に書き換えるとともに、当該記述部分を規定する前記構造化要素の属性としてそれぞれの前記翻訳単位を一意に識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、前記識別子付きレイアウトデータに基づいて、前記原文印刷物の文章を前記翻訳単位ごとに記述するとともにそれぞれの前記翻訳単位に対応する前記識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、前記翻訳用データに基づいて作成された、前記翻訳単位ごとの翻訳文に前記識別子を付与してなる翻訳文データを取得し、前記識別子付きレイアウトデータに記述されている原文のテキスト文字列を、前記翻訳単位ごとに、前記翻訳文データにおいて当該翻訳単位と同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、を備えることを特徴とする。
【0010】
請求項2の発明は、請求項1に記載の文書処理装置であって、前記識別処理手段は、ある前記翻訳単位が書式の異なる文字列を含む場合には、当該文字列が存在することを示す指標を識別子付きレイアウトデータの当該翻訳単位に対応するテキスト文字列中に付加し、前記翻訳用データ作成手段は、前記原文印刷物の文章を前記翻訳単位に記述する際に前記指標も含めて記述する、ことを特徴とする。
【0011】
請求項3の発明は、請求項1または請求項2に記載の文書処理装置であって、前記原文印刷物の前記翻訳単位のそれぞれに対応する前記識別子を付与した参照用印刷物のデータを生成する参照用データ生成手段、をさらに備えることを特徴とする。
【0012】
請求項4の発明は、請求項1ないし請求項3のいずれかに記載の文書処理装置であって、同一の前記原文印刷物を表現する前記原文レイアウトデータを異なる記述態様にて記述可能な複数種類のデータ形式のそれぞれに用いられる前記構造化要素の定義を前記データ形式ごとに記述した定義データがあらかじめ記憶されており、前記識別処理手段は、前記原文レイアウトデータに用いられている前記構造化要素の定義を前記定義データにおいて特定したうえで前記識別子付きレイアウトデータを生成する、ことを特徴とする。
【0013】
請求項5の発明は、請求項1ないし請求項4のいずれかに記載の文書処理装置であって、前記置換手段が、前記翻訳印刷物のレイアウトデータを作成する際に前記前記翻訳単位ごとに前記原文と前記翻訳文とを対比して記述した校正用データを併せて作成する、ことを特徴とする。
【0014】
請求項6の発明は、請求項1ないし請求項5のいずれかに記載の文書処理装置であって、前記置換手段は、前記翻訳印刷物のレイアウトデータを作成する際に前記識別子付きレイアウトデータに付与されていた識別番号を削除する、ことを特徴とする。
【0015】
請求項7の発明は、請求項1ないし請求項6のいずれかに記載の文書処理装置であって、構造化されていないレイアウトデータを前記所定の構造化要素を用いて構造化する構造化処理手段、をさらに備え、前記構造化処理手段によって構造化された原文レイアウトデータが前記識別処理手段によって処理される、ことを特徴とする。
【0016】
請求項8の発明は、請求項1ないし請求項7のいずれかに記載の文書処理装置であって、レイアウトデータを作成するレイアウト作成手段、をさらに備え、前記レイアウト作成手段によって構造化されたレイアウトデータが前記構造化処理手段によって処理される、
ことを特徴とする。
【0017】
請求項9の発明は、プログラムであって、コンピュータにおいて実行されることにより、前記コンピュータを、請求項1ないし請求項8のいずれかに記載の文書処理装置として機能させることを特徴とする。
【発明の効果】
【0018】
請求項1ないし請求項9の発明によれば、翻訳者に与えられる翻訳用データには、翻訳対象となる原文と識別番号が付与されているだけとなり、レイアウトに係る情報が含まれないので、翻訳者がレイアウトに係る情報を改変してしまうことがなくなる。また、原文は同じ識別番号の翻訳文と自動的に置換されるので、DTPオペレータが翻訳文を逐一置換する手間も不要となる。これにより、翻訳文印刷物に係るレイアウトデータの作成が効率化される。すなわち、レイアウトされた文書の多言語化処理の効率化が実現される。
【図面の簡単な説明】
【0019】
【図1】本実施の形態に係る文書処理装置1の構成を模式的に示す図である。
【図2】文書処理装置1の制御部11において実現される機能を説明するための図である。
【図3】翻訳印刷物を表現するレイアウトデータを作成する処理の概略的な手順を示す図である。
【図4】原文レイアウトデータDL1によって表現される原文印刷物P1を例示する図である。
【図5】構造化原文レイアウトデータDS1を例示する図である。
【図6】識別子付き原文レイアウトデータDIを例示する図である。
【図7】翻訳用原文データDT1を例示する図である。
【図8】翻訳参照用データDRによって表現される参照用印刷物P2を例示する図である。
【図9】翻訳文データDT2を例示する図である。
【図10】構造化翻訳文レイアウトデータDS2を例示する図である。
【図11】構造化翻訳文レイアウトデータDS2に基づいて出力した翻訳文印刷物P3を例示する図である。
【図12】翻訳校正用データDPを出力することにより得られる校正用印刷物P4を例示する図である。
【図13】構造化原文レイアウトデータDS1’の一部を例示する図である。
【図14】識別子付き原文レイアウトデータDI’の一部を例示する図である。
【図15】翻訳用原文データDT1’の一部を例示する図である。
【発明を実施するための形態】
【0020】
<装置の概略構成>
図1は、本実施の形態に係る文書処理装置1の構成を模式的に示す図である。文書処理装置1は、ある自然言語(例えば日本語)で記述された文章を含む翻訳対象文書(原文印刷物)のレイアウトデータに基づいて、当該文章を異なる自然言語(例えば英語)に翻訳してなる新たな文書(翻訳印刷物)を表現するレイアウトデータを作成する処理を、効率化に行えるようにする機能を、主に備える。
【0021】
文書処理装置1は、汎用のパーソナルコンピュータによって実現される。すなわち、文書処理装置1は、CPU11a、ROM11b、およびRAM11cから構成され、後述する各機能を実現する制御部11と、ハードディスクなどにより構成され、種々のデータや文書処理装置1の動作を実現させるプログラム12pを記憶する記憶部12と、オペレータが各種の指示を入力するためのマウス13aやキーボード13bなどからなる操作部13と、ディスプレイ等の表示部14と、CD−R、DVD−RAM、USBメモリ、ポータブルHDDなど種々の可搬性の記録媒体との間でデータのリード/ライトを行うためのR/W部15と、他の装置等との間で有線または無線によってデータの受け渡しを行うためのインターフェースとしての通信部16とを、主として備えている。また、文書処理装置1には、レイアウトデータ(後述する原文レイアウトデータDL1や翻訳文レイアウトデータDL2)などを大量に蓄積・保存可能な大記憶容量のデータベースサーバ17が付属していてもよい。
【0022】
また、図1に示すように、文書処理装置1は、所定のネットワークNに接続され、該ネットワークN上に存在するクライアントコンピュータC(C1、C2、・・・Cn)からアクセス可能とされていてもよい。これにより、文書処理装置1とクライアントコンピュータCとの間で種々のデータの授受が可能となる。ネットワークNは、LAN(Local Area Network)などのイントラネットでも、インターネットでも、両者を共に含む態様でもよい。文書処理装置1がネットワークNに接続される場合、セキュリティ確保のため、図示しないファイアウォールを適宜に設けるとともに、パスワード設定するなどして、各クライアントコンピュータC1〜Cnごとに必要に応じたアクセス制限を設定する態様が好ましい。
【0023】
図2は、文書処理装置1の制御部11において実現される機能を説明するための図である。制御部11においては、記憶部12に記憶されているプログラム12pが実行されることにより、CPU11a、ROM11b、およびRAM11cの作用によって、レイアウトデータ処理部20と構造化データ処理部30とが実現される。
【0024】
レイアウトデータ処理部20は、印刷物のレイアウトを表現するレイアウトデータ(組版データ)の作成・編集や、該レイアウトデータを構造化する構造化処理などを担う。レイアウトデータ処理部20は、レイアウト作成手段21と、構造化処理手段22と、レイアウト編集手段23とを主として備える。
【0025】
レイアウトデータ処理部20を構成するレイアウト作成手段21、構造化処理手段22、およびレイアウト編集手段23は、公知のレイアウト処理技術を利用することによって実現可能である。例えば、文書処理装置1に市販のDTPアプリケーションソフトウェアが読み込まれることによって、実現される態様であってもよい。この場合、プログラム12pが該DTPアプリケーションソフトウェアを含むことになる。
【0026】
ただし、文書処理装置1においてレイアウトデータ処理部20は必須ではなく、その全部もしくは一部の機能が文書処理装置1の外部において実現され、その結果得られたデータが文書処理装置1において用いられる態様であってもよい。詳細については後述する。
【0027】
構造化データ処理部30は、原文印刷物についての構造化されたレイアウトデータに基づいて、翻訳者40による翻訳の対象となるデータを生成する処理や、翻訳によって得られた翻訳文が組み込まれた構造化レイアウトデータを生成する処理などを担う。構造化データ処理部30は、翻訳単位識別処理手段31と、翻訳用データ抽出手段32と、参照用データ生成手段33と、置換手段34と、を主として備える。
【0028】
また、文書処理装置1においては、処理対象となるデータなどの内容や種々の処理メニューを表示部14に表示させつつ、オペレータがマウス13aにより所定のメニューボタン等をクリック操作したり、アイコン等をドラッグアンドドロップ操作するなどして実行指示を与えることにより、所定の処理を行うことができる、いわゆるGUI(Graphical User Interface)が、制御部11、操作部13、表示部14などの機能により実現されている。制御部11に実現される各部の処理も、このGUIを用いて行われる。
【0029】
<翻訳印刷物のレイアウト作成手順>
図3は、翻訳印刷物を表現するレイアウトデータを作成する処理の概略的な手順を示す図である。
【0030】
まず最初に、翻訳印刷物の作成元になる原文印刷物のレイアウトが行われる(ステップS1)。すなわち、原文印刷物において表現しようとする文章(翻訳前の文章)、線画、画像などの内容、およびそれらの配置態様(位置、サイズ、色など)を記述したレイアウトデータが生成される。
【0031】
次に、レイアウトデータの記述内容に基づいて、翻訳対象とする文章を記述した翻訳用データが生成され(ステップS2)、翻訳者40に受け渡される。
【0032】
翻訳者40は、受け取った翻訳データに基づいて翻訳処理TRを行い(ステップS3)、翻訳文データを生成する。
【0033】
翻訳文データが得られると、原文印刷物のレイアウトデータにおける原文の文章の記述部分を、翻訳文データに記述された、対応する翻訳文と置換する(ステップS4)。これにより、翻訳文のレイアウトデータが得られることになる。
【0034】
<レイアウトデータの作成>
以降、本実施の形態に係る文書処理装置1において行われる、上記の手順に沿った処理の詳細を、各部の動作とともに説明する。
【0035】
まず、図3のステップS1の原文印刷物のレイアウトは、レイアウトデータ処理部20のレイアウト作成手段21の作用により実現される。
【0036】
レイアウト作成手段21は、原文印刷物のレイアウトを記述した原文レイアウトデータDL1を作成する処理を担う。文書処理装置1においては、レイアウト作成手段21の作用により、オペレータが、レイアウトに使用する文章、線画、画像などのデータを対象とする配置態様の決定つまりはレイアウト処理を、GUIを用いて試行錯誤しつつ行うことができる。これら文章、線画、画像などのデータは、あらかじめ記憶部12やデータベースサーバ17などに記憶されている。あるいは、文章や線画などのデータを入力あるいは作成しつつ、レイアウト処理を行える態様であってもよい。図4は、原文レイアウトデータDL1によって表現される原文印刷物P1を例示する図である。原文印刷物P1には、第1レイアウト要素LE1〜第5レイアウト要素LE5の5つのレイアウト要素が含まれているものとする。第1レイアウト要素LE1は見出しである。第2レイアウト要素LE2は文章が記述された第1番目の段落(第1段落)である。第3レイアウト要素LE3は文章が記述された第2番目の段落(第2段落)である。なお、第1段落においては文字は全て同じサイズで記述されているが、第2段落では一部に他とは文字サイズおよびフォントが異なる文字列ST1が存在する。第4レイアウト要素LE4は画像である。第5レイアウト要素LE5は表である。なお、原文レイアウトデータDL1においては、図4には図示しない他の箇所において、これらのレイアウト要素に係る書式を規定する記述が含まれる。
【0037】
なお、レイアウト作成手段21は、レイアウト微調整用データDAを作成できるようになっているのが好ましい。原文と翻訳文の言語の組合せによっては、文字種、字数、文字サイズなどの相違に起因して、原文レイアウトデータDL1において設定された原文印刷物についての文章の配置態様を、翻訳印刷物を表現するレイアウトデータにおける翻訳文の配置にそのまま適用しても、翻訳前後でレイアウトに一貫性のある印刷物が実現されない場合がある。そこで、あらかじめ、用いられる自然言語の違いに起因して必要となる、翻訳後の印刷物についてのレイアウトの微調整内容をレイアウト微調整用データDAに記述しておき、翻訳文印刷物のレイアウトデータの生成に際しては係るレイアウト微調整用データDAを用いることで、翻訳印刷物の体裁が原文印刷物にできるだけ近似するようにレイアウトを微調整するのが好ましい。例えば、レイアウト作成手段21がスタイル設定部分と実体内容部分とを分離して記述する形式のレイアウトデータを作成するようになっている場合には、スタイル設定部分を翻訳に用いた自然言語に応じて記述したデータをレイアウト微調整用データDAとして作成できるようになっているのが好適な一例である。また、多言語に展開する場合であれば、翻訳対象とされる全ての自然言語について、レイアウト微調整用データDAが用意されるのが好ましい。
【0038】
また、原文レイアウトデータDL1のデータ形式は、印刷物を出力する出力装置で処理可能なものであり、かつ、構造化処理手段22において後述する構造化処理が可能なものであれば、特段の制限はない。
【0039】
<構造化処理>
原文レイアウトデータDL1は、種々のデータ形式にて作成され得るものであり、必ずしも、レイアウトされた文章がテキスト文字列として記述されているとは限らない。そこで、本実施の形態に係る文書処理装置1においては、図3のステップS2の翻訳用データの作成を行うに先立って、原文レイアウトデータDL1の記述内容から文章部分のデータをテキスト文字列として抽出可能とするべく、構造化処理手段22の作用により構造化処理を行う。
【0040】
構造化処理とは、原文レイアウトデータDL1における印刷物の表現態様と同じ表現態様を有しつつ、いわゆる構造化文書の記述形式にて記述されてなるデータを、生成する処理である。原文レイアウトデータDL1を構造化することによって得られるデータを、構造化原文レイアウトデータDS1と称することとする。
【0041】
以下においては、構造化文書を記述する言語の1つであるXML(eXtensible Markup Language)を用いて、原文レイアウトデータDL1を構造化する場合を説明する。構造化文書とは、文書内容をテキスト形式で記述するとともに、文書の構造要素およびその属性を、タグと称されるテキスト文字列を用いて規定した文書である。すなわち、構造化処理によって得られる構造化原文レイアウトデータDS1は、原文印刷物のレイアウトを記述した、テキスト形式の構造化文書データとして生成される。構造化原文レイアウトデータDS1においては、構造を規定するタグがテキスト形式で記述されているので、その検索、置換などの処理が容易である。
【0042】
図5は、図4に示した原文印刷物P1を表現する原文レイアウトデータDL1を対象とする構造化処理を行うことにより得られる構造化原文レイアウトデータDS1を例示する図である。図5においては、図4において部分Aとして示す、第1レイアウト要素LE1ないし第3レイアウト要素LE3に相当する記述部分を例示している。構造化原文レイアウトデータDS1においては、文章を記述するものとあらかじめ定義された開始タグとこれに対応する終了タグとの間に、当該文章のテキスト文字列が記述される。例えば、図5においては、<pcnt>なる開始タグTS1と</pcnt>なる終了タグTE1との間の部分Bに、テキスト文字列が記述されている。なお、部分Bにある「c_」なる記述は文字列の先頭を表す制御記号である。また、「〓」なる記述は改行を表す制御記号である。詳細は省略するが、当該文章の書式や印刷物における配置位置なども、所定のタグを用いて記述される。線画や画像についても同様に、所定の開始タグと終了タグとを用いて、そのデータ内容やURLなどで表現されるデータの格納箇所や、印刷物における配置位置が記述される。
【0043】
構造化処理の具体的内容は、対象となる原文レイアウトデータDL1のデータ形式や、用いるDTPアプリケーションソフトウェアの種類などに応じて適宜に定められればよく、結果として、原文レイアウトデータDL1における印刷物の表現態様と同じ表現態様を有するように、構造化原文レイアウトデータDS1が生成されるのであれば、特段の制限はない。
【0044】
<翻訳単位の特定と識別番号の付与>
構造化原文レイアウトデータDS1が生成されると、次に、翻訳単位識別処理手段31が、構造化原文レイアウトデータDS1のデータ記述を解析して、当該データ記述を翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を一意に識別するための識別番号(識別子)を当該翻訳単位に付与した識別子付き原文レイアウトデータDIを生成する処理を行う。
【0045】
ここで、翻訳単位とは、原文印刷物において翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき文章の範囲のことをいう。また、線画や画像などは翻訳対象とはならないが、これらについても、それぞれが翻訳単位とみなされて識別番号が付与される態様であってもよい。例えば、図4に例示した原文印刷物P1の場合、第1レイアウト要素LE1ないし第4レイアウト要素LE4が翻訳単位となるほか、表である第5レイアウト要素LE5については、表を構成する各要素が、個別に翻訳単位として特定される。
【0046】
図5に示すように、構造化原文レイアウトデータDS1はレイアウトされた文章に相当するテキスト文字列を含んでいるが、元々の原文レイアウトデータDL1のデータ形式や構造化処理の態様によっては、構造化原文レイアウトデータDS1において必ずしも翻訳単位ごとにテキスト文字列が記述されている訳ではない。
【0047】
例えば、図5に示す場合であれば、開始タグTS1と終了タグTE1とで挟まれた部分Bにテキスト文字列が記述されているが、図4の部分Aと図5の部分Bとを対比すればわかるように、部分Bには部分Aに含まれる第2レイアウト要素LE2と第3レイアウト要素LE3の一部とが含まれている。すなわち、異なる翻訳単位として取り扱われるべき、異なる段落に係る文章が、1組の開始タグTS1と終了タグTE1とで挟まれていることになる。
【0048】
一方、文字サイズおよびフォントが他と異なる文字列ST1が開始タグTS2と終了タグTE2とを用いて個別に記述されているために、当該箇所および開始タグTS3と終了タグTE3とで挟まれた箇所は、実際には、部分Bの後半も含め、第3レイアウト要素LE3に対応するにもかかわらず、それぞれ別個にタグで挟まれている。すなわち、1つの翻訳単位として取り扱われるべき箇所が別々に記述されている。
【0049】
よって、このような記述態様を有する構造化原文レイアウトデータDS1から直接に翻訳用の文章を抜き出そうとすると、原文印刷物との対応関係の把握が難しくなり、翻訳処理あるいはその後の原文の翻訳文への置換処理が効率的に行えないなどの問題が生じることになる。
【0050】
そこで、本実施の形態に係る文書処理装置1においては、構造化原文レイアウトデータDS1のデータ記述を解析して、当該データ記述を翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を一意に識別するための識別番号(識別子)を当該翻訳単位に付与した識別子付き原文レイアウトデータDIを生成する処理を担う。
【0051】
なお、構造化原文レイアウトデータDS1に用いられているタグの種類および定義、あるいはさらに、改行その他の文章の記述態様を規定する制御記号の種類および定義は、原文レイアウトデータDL1のデータ形式や構造化処理の仕方、あるいは構造化処理手段22を実現するDTPアプリケーションソフトウェアの種類などによって様々である。すなわち、同じレイアウト要素を表すタグが異なる文字列にて定義されることがあり得る。換言すれば、同一内容の原文印刷物を表現する原文レイアウトデータDL1は複数種類のデータ形式にて記述され得る。そこで、本実施の形態に係る文書処理装置1においては、そうしたタグや制御記号の種類および定義をデータ形式ごとに記述したデータセットである構造化要素定義データDEが、あらかじめ記憶部12に保持されている。翻訳単位識別処理手段31は、翻訳単位の特定に際して係る構造化要素定義データDEを参照することにより、用いられているタグや制御記号の種類に応じた態様にて識別子付き原文レイアウトデータDIを生成するようになっている。
【0052】
図6は、図5に例示した構造化原文レイアウトデータDS1に基づいて得られた識別子付き原文レイアウトデータDIを例示する図である。図6においては、第2レイアウト要素LE2に対応する部分E1と第3レイアウト要素LE3に対応する部分E2とを例示している。それぞれの部分は、<ffx_text>なる開始タグTS4あるいは開始タグTS5と</ffx_text>なる終了タグTE4あるいはTE5とに挟まれている。また、開始タグTS4および開始タグTS5においてはいくつかの属性が定義されているが、そのうちの「ffx_no」なる属性が、図6に示す識別子付き原文レイアウトデータDIにおいてそれぞれの翻訳単位の識別番号と表している。開始タグTS4には「ffx_no="2"」と記述されているので、部分E1に対応する翻訳単位には2番という識別番号が定められていることになる。同様に、開始タグTS5と終了タグTE5とに挟まれている部分E2には、3番という識別番号が定められていることになる。
【0053】
構造化原文レイアウトデータDS1に基づく識別子付き原文レイアウトデータDIの生成の具体的態様は、上述したように用いられているタグの種類が様々であるためにどのようなタグが用いられているのかによって異なるが、概略的には、次のような原則に従って行われる。
【0054】
まず、テキスト文章に対応する開始タグおよび対応する終了タグを検索し、その間に記述されているテキスト文字列の末尾に改行を示す制御記号が存在する場合には、当該テキスト文字列を1つの翻訳単位として定めるようにする。また、テキスト文字列の途中に改行を示す制御記号が存在する場合には、当該制御記号の前後を別の翻訳単位として定めるようにする。
【0055】
一方、図5の部分Bの末尾のように、テキスト文字列の最後に改行記号が存在しない場合は、たとえ終了タグが存在していたとしても、次の開始タグ以降のテキスト文字列についても同じ翻訳単位に属するものと判断する。
【0056】
ただし、第3レイアウト要素LE3に存在する文字列ST1のように、1つの翻訳単位に属するものの他とは異なる書式を有する箇所については、そのことを示す指標となる所定のタグ(これをインラインタグと称する)が用いられる。インラインタグには、構造化原文レイアウトデータDS1の対応箇所において用いられていたタグをそのまま用いても良いが、他の箇所とは書式が異なることが認識されればよいので、その記載は簡潔な方が望ましい。係る考え方に基づき、図6に示す場合においては、<emphasis>なる開始タグTS6と</emphasis>なる終了タグTE6とをインラインタグとして用いられている。なお、識別子付き原文レイアウトデータDIにおいては、図示しない他の箇所において、これらのインラインタグが付された箇所についての書式が記述される。
【0057】
さらには、画像や線画と特定される箇所についても、所定のタグを用いて記述すると共に、識別番号を付与する。
【0058】
このような処理の結果、個々の翻訳単位に属すると判定されたテキスト文字列がそれぞれ、翻訳単位を定義する開始タグと終了タグの間に挟まれるように記述がなされ、識別番号その他の属性が開始タグに付与されることで、識別子付き原文レイアウトデータDIが得られる。
【0059】
なお、識別子付き原文レイアウトデータDIを生成するにあたっては、図6に示す場合のように、構造化原文レイアウトデータDS1においては用いられていなかったタグにて翻訳単位に対応するテキスト文字列を記述する態様であってもよい。ただし、後述するように識別子付き原文レイアウトデータDIに記述されている原文のテキスト文字列を翻訳文のテキスト文字列で置換したうえで翻訳文のレイアウトデータを生成する際に、原文印刷物のレイアウトに準じたレイアウトの翻訳文印刷物ができるように、それぞれのデータで用いるタグの対応関係が一義的に定められていることが好ましい。
【0060】
<翻訳用データの作成>
上述のようにして識別子付き原文レイアウトデータDIが得られると、これを対象として、図3のステップS2の翻訳用データの作成が行われる。
【0061】
翻訳用データの作成は、翻訳用データ抽出手段32によって行われる。翻訳用データ抽出手段32は、識別子付き原文レイアウトデータDIの記述内容を解析して、翻訳単位に相当する記述箇所を特定し、その記述内容(テキスト文字列)と、これに付された識別番号とを抽出して、それらを人間が一覧できるデータ形式の翻訳用原文データDT1を作成する。翻訳用原文データDT1は、翻訳者40が使用しているテキストエディタやワードプロセッサなどの汎用のソフトウェアによって読み書き可能なデータ形式で作成される。
【0062】
図7は、翻訳用原文データDT1を例示する図である。図7においては、「No.」欄が識別番号を表している。また、図7においては、図4に示した原文印刷物P1に含まれる全ての翻訳単位が記述されている。
【0063】
図6に示したように、識別番号が3番の翻訳単位には、インラインタグで挟まれた箇所が含まれていたが、図7に示す翻訳用原文データDT1においても、対応する箇所にインラインタグはそのまま記述されている。これは、翻訳処理に際して翻訳者40にその箇所の書式が他とは異なることを認識させる効果がある。ただし、これは必須ではなく、インラインタグを表示させない態様にて翻訳用原文データDT1が作成されてもよい。
【0064】
なお、識別番号が4番の翻訳単位には、<image/>なるタグのみが記載されているが、これは、第4レイアウト要素LE4に相当する画像に対して識別番号が付与されていることを意味している。
【0065】
好ましくは、係る翻訳用原文データDT1の生成と並行して、参照用データ生成手段33により、翻訳参照用データDRが生成される。翻訳参照用データDRは、識別子付き原文レイアウトデータDIに基づいて生成される、原文印刷物P1の各翻訳単位にそれぞれの識別番号を付与した印刷物のデータである。翻訳参照用データDRは、PDF形式のデータとして生成されるのが好適な一例である。図8は、翻訳参照用データDRによって表現される参照用印刷物P2を例示する図である。
【0066】
<翻訳処理>
上述のようにして作成された翻訳用原文データDT1が、翻訳者40に受け渡される。翻訳者40への翻訳用原文データDT1の受け渡しは、ネットワークNを通じて翻訳者40が有するクライアントコンピュータCに当該データを転送する態様であってもよいし、R/W部15において所定の記録媒体に翻訳用原文データDT1を書き出した上で、当該記録媒体を翻訳者40に受け渡す態様であってもよい。
【0067】
好ましくは、翻訳用原文データDT1と併せて、翻訳参照用データDRあるいは参照用印刷物P2も翻訳者40に受け渡される。翻訳者40は、受け取った翻訳用原文データDT1を対象に、図3のステップS3の翻訳処理を行うことになる。参照用印刷物P2が手元にある場合には、翻訳用原文データDT1に記述されているそれぞれの翻訳単位の文章が、原文印刷物のどの箇所に記載されていたものであるかを把握しつつ翻訳処理を行う。
【0068】
翻訳処理は、翻訳用原文データDT1において翻訳単位ごとに記述されている原文の文章を、対応する翻訳文に書き換えることにより行われる。これにより、翻訳文データDT2が得られる。換言すれば、翻訳文データDT2は、翻訳用原文データDT1と同じデータ形式を有しつつ、その翻訳単位ごとの記述内容が翻訳文に書き換えられたものである。図9は、図7に示す翻訳用原文データDT1に基づいて翻訳処理が行われることで作成された翻訳文データDT2を例示する図である。なお、図9に示す翻訳文データDT2においては、後段の説明の都合上、故意に、翻訳処理が不十分な箇所を存在させてある。
【0069】
本実施の形態の場合、翻訳者40に与えられる翻訳用原文データDT1は、レイアウトに関する情報を有していない。よって、翻訳者40が翻訳処理を行って翻訳用原文データDT1の記述を対応する翻訳文に書き換える際に、原文印刷物P1について設定されていたレイアウトに対して翻訳者40が誤って改変してしまうことはないので、そうした不要な変更に付随するレイアウト修正が不要となり、翻訳文印刷物の作成処理が効率化される。
【0070】
<翻訳文による原文の置換>
翻訳者40によって作成された翻訳文データDT2は、文書処理装置1に与えられる。文書処理装置1においては、翻訳文データDT2を用いて、図3のステップS4の置換処理を行う。具体的には、置換手段34の作用により、構造化原文レイアウトデータDS1における原文の部分が対応する翻訳文と置換された記述内容を有する、構造化翻訳文レイアウトデータDS2が作成される。
【0071】
具体的には、置換手段34は、識別子付き原文レイアウトデータDIに記述されている原文の文章(テキスト文字列)を、翻訳単位ごとに、翻訳文データDT2において当該翻訳単位と同じ識別番号が付与された翻訳文に置換するとともに、置換後のデータから識別番号の削除を含むタグの書き換えを行い、構造化翻訳文レイアウトデータDS2を作成する。
【0072】
図10は、構造化翻訳文レイアウトデータDS2を例示する図である。図10においては、構造化翻訳文レイアウトデータDS2のうち、図6に示す識別子付き原文レイアウトデータDIのうちの部分E1および部分E2に対応する箇所を例示している。
【0073】
すなわち、図10において開始タグTS7と終了タグTE7とで挟まれた部分F1には、識別子付き原文レイアウトデータDIの部分E1に記述された原文に対応する翻訳文が記述されている。これは、図4の第2レイアウト要素LE2の翻訳文に対応する。
【0074】
一方、第3レイアウト要素LE3に対応する、識別子付き原文レイアウトデータDIの部分E2に記述された原文に対応する翻訳文は、開始タグTS8と終了タグTE8とで挟まれた部分F1と、開始タグTS9と終了タグTE9とで挟まれた部分F2と、開始タグTS10と終了タグTE10とで挟まれた部分F3とに区分して記述されている。ここで、部分F2は、文字サイズやフォントが前後と異なる第3レイアウト要素LE3の文字列ST1に相当する。これは、識別子付き原文レイアウトデータDIにおいてはインラインタグにて異なる書式情報を有することのみが省略的に記述されていた箇所に、識別子付き原文レイアウトデータDIの他の箇所に記述されていた元の書式情報が適用された結果である。すなわち、構造化翻訳文レイアウトデータDS2においては、当該箇所を含め、翻訳用原文データDT1を得る際には不要であったことから省略した(正確には、抽出対象となる箇所とは異なる箇所に記述されていた)レイアウトに係る情報が、対応する翻訳文の箇所に所定のタグを用いて記述される。
【0075】
このような処理によって得られた構造化翻訳文レイアウトデータDS2は、構造化文書の形式を有しているものの、それ自体がレイアウトデータであるので、その記述形式に対応した出力装置において出力処理が可能なデータとなっている。図11は、構造化翻訳文レイアウトデータDS2に基づいて出力した翻訳文印刷物P3を例示する図である。本実施の形態においては、識別番号の同一性に基づいて置換手段34が自動的に原文を翻訳文に置換するので、文書処理装置1のオペレータが逐一原文を翻訳文で置換するような処理や、翻訳時の誤ったレイアウト変更に伴うレイアウトの微調整が不要であるので、翻訳文のレイアウトを効率的かつ正確に行うことができる。
【0076】
なお、翻訳文印刷物P3において翻訳結果に誤りがある場合、当該箇所について翻訳者40あるいは文書処理装置1のオペレータなどによって、修正処理が行われることになる。例えば、図11に示す場合においては原文印刷物P1の第5レイアウト要素LE5に対応するレイアウト要素LE5’において、誤訳の箇所と翻訳漏れの箇所とが存在する。
【0077】
係る場合において、置換手段34が、係る構造化翻訳文レイアウトデータDS2の生成と併せて、翻訳校正用データDPを生成し、翻訳校正用データDPに基づいて翻訳のチェックが行われるようにしてもよい。図12は、翻訳校正用データDPを出力することにより得られる校正用印刷物P4を例示する図である。
【0078】
翻訳校正用データDPは、翻訳単位ごとに原文と翻訳文とを併記して、識別番号順に一覧できるようにしたものである。校正用印刷物P4が容易に得られるものであれば、その翻訳校正用データDPのデータ形式は限定されない。html形式のデータとして翻訳校正用データDPを作成するのが好適な一例である。
【0079】
翻訳校正用データDPに基づいてチェックを行う場合、印刷物のレイアウトに無関係に文章同士を直接に対比して翻訳の妥当性を検証できるので、誤訳の発見や翻訳漏れなどを容易に見つけることができる。例えば、図11に示す校正用印刷物P4が得られた場合であれば、翻訳者40あるいは文書処理装置1のオペレータは、識別番号が4番の翻訳単位について翻訳漏れがあったことを直ちに把握することができる。また、識別番号5〜7の翻訳が誤っていることも確認できる。
【0080】
あるいはさらに、翻訳校正用データDPにおいては、原文と翻訳文との一致度などが併せて示される態様であってもよい。例えば、図11に示す翻訳文印刷物P3においては、原文のまま翻訳されていない翻訳単位に「!DBCS」なる警告文字が付与されている。一方、原文がもともとアルファベット表記であり、翻訳文においても変更のない箇所には、「!SAME」なる警告文字が付与されている。
【0081】
<レイアウトの微調整と翻訳印刷物の出力>
以上のように、構造化翻訳文レイアウトデータDS2が得られれば、原文印刷物の原文部分が翻訳された印刷物のレイアウトデータが得られたことになる。ただし、上述したように、原文と翻訳文の言語の組合せによっては、原文レイアウトデータDL1において設定された原文印刷物において配置されている原文の文章を翻訳文で置換したのみでは、翻訳前後でレイアウトに一貫性のある印刷物が実現されない場合がある。そこで、好ましくは、レイアウト編集手段23が、構造化翻訳文レイアウトデータDS2の記述内容をレイアウト微調整用データDAに基づいて修正し、より原文印刷物の表現に近い翻訳文印刷物が得られるようにする。なお、レイアウト作成手段21がレイアウト編集手段23の機能を兼ね備える態様であってもよい。
【0082】
さらに、レイアウト編集手段23は、構造化翻訳文レイアウトデータDS2を、構造化文書の形式を有さない翻訳文レイアウトデータDL2に書き換えるようになっていてもよい。係る処理は、構造化処理と逆方向の処理に相当する。構造化されたレイアウトデータは、テキスト形式を有するので、上述のようなテキスト文字列の抽出を行うには適しているが、印刷物の出力処理にあたっては、必ずしも最適な形式を有しているとはいえない。そこで、例えば原文レイアウトデータDL1と同様の(構造化文書としての構造を有さない)形式のデータとして翻訳文レイアウトデータDL2を作成し、これを出力処理に供することで、効率的な出力処理が実現される。
【0083】
以上、説明したように、本実施の形態によれば、原文印刷物のレイアウトデータに基づいて、翻訳対象の原文を翻訳単位ごとに区分するとともにそれぞれに識別番号を付与した翻訳用データを生成して、これを翻訳処理に供する。翻訳者は、翻訳単位ごとに翻訳を行って翻訳用データを書き換えて翻訳文データを生成する。翻訳文データが得られると、原文の文章を、識別番号をキーとして、翻訳文データに記述されている翻訳文に翻訳単位ごとに置換する。これにより、翻訳者に与えられる翻訳用データには、翻訳対象となる原文と識別番号が付与されているだけとなり、レイアウトに係る情報が含まれないので、翻訳者がレイアウトに係る情報を改変してしまうことがなくなり、これに伴うレイアウト修正を行う必要がなくなる。また、原文は同じ識別番号の翻訳文と自動的に置換されるので、DTPオペレータが翻訳文を逐一置換する手間も不要となる。よって、翻訳文印刷物に係るレイアウトデータの作成が効率化される。すなわち、レイアウトされた文書の多言語化処理の効率化が実現される。
【0084】
<他の処理例>
以降においては、上述の例とは異なる形式のデータが処理対象となっている場合を例示する。図13、図14、図15はそれぞれ、構造化原文レイアウトデータDS1’、識別子付き原文レイアウトデータDI’、および翻訳用原文データDT1’の一部を例示する図である。
【0085】
図13に示す構造化原文レイアウトデータDS1’は、図示しない原文レイアウトデータが構造化処理手段22によって構造化処理された結果得られた、<txt>なる開始タグ(実際には属性が定義されている)と</txt>なる終了タグとが、文章を記述するものと定義されているデータである。そして、翻訳単位識別処理手段31が係る構造化原文レイアウトデータDS1’を対象として翻訳単位の特定と識別番号の付与とを行うことにより得られたのが、図14に示す識別子付き原文レイアウトデータDI’である。図14においては、図13に示す部分Gに対応する部分が例示されている。
【0086】
図14に示す識別子付き原文レイアウトデータDI’においても、図6に示す識別子付き原文レイアウトデータDIと同じく、<ffx_text>なる開始タグと</ffx_text>なる終了タグとに挟まれた部分として、1つの翻訳単位が記述されているとともに、「ffx_no」なる属性によって識別番号が定められている。これは、構造化要素定義データDEにおいて、図5に示した構造化原文レイアウトデータDS1に用いられている<pcnt>なる開始タグおよび</pcnt>なる終了タグのみならず、<txt>なる開始タグおよび</txt>なる終了タグについても、同じく文章を記述するものと定義しておくことによって実現される。
【0087】
すなわち、元になる構造化原文レイアウトデータのデータ形式(より具体的には用いられているタグの定義)が異なっている場合でも、構造化要素定義データDEに当該タグの定義が記述されていさえすれば、翻訳用データが抽出可能な識別子付き原文レイアウトデータを得ることができる。
【0088】
そして、翻訳用データ抽出手段32が係る識別子付き原文レイアウトデータDI’を対象として翻訳単位ごとの原文の抽出を行うことにより得られたのが、図15に示す翻訳用原文データDT1’である。以降、係る翻訳用原文データDT1’に基づく翻訳処理、およびその後の翻訳用レイアウトデータの作成に至る処理までは、上述の場合と同様に行われることになる。
【0089】
<レイアウトデータ処理部の別態様>
文書処理装置1がレイアウト作成手段21、構造化処理手段22、およびレイアウト編集手段23を含むレイアウトデータ処理部20を備える態様に代えて、上述のような市販のDTPアプリケーションソフトウェアが例えばクライアントコンピュータCなどの文書処理装置1外のコンピュータにインストールされており、該コンピュータにおいて、レイアウトデータ処理部20の各部の機能の一部あるいは全部が実現される態様であってもよい。係る場合、原文レイアウトデータDL1が作成された時点、あるいは構造化原文レイアウトデータDS1が作成された時点で、ネットワークNを通じて、あるいはR/W部15において所定の記録媒体から読み込まれることにより、原文レイアウトデータDL1あるいは構造化原文レイアウトデータDS1が文書処理装置1に与えられることになる。また、レイアウト編集手段23の機能が文書処理装置1外のコンピュータにおいて実現されている場合には、ネットワークN経由あるいは記録媒体を介して与えられた構造化翻訳文レイアウトデータDS2に対して非構造化処理を行うことになる。
【符号の説明】
【0090】
1 文書処理装置
20 レイアウト処理部
21 レイアウト作成手段
22 構造化処理手段
23 レイアウト編集手段
30 構造化データ処理部
31 翻訳単位識別処理手段
32 翻訳単位抽出手段
32 翻訳用データ抽出手段
33 参照用データ生成手段
34 置換手段
LE1〜LE5 (第1〜第5)レイアウト要素
N ネットワーク
P1 原文印刷物
P2 参照用印刷物
P3 翻訳文印刷物
P4 校正用印刷物
TE1〜TE10 終了タグ
TS1〜TS10 開始タグ
【技術分野】
【0001】
本発明は、構造化文書の多言語化(他言語化)のための技術に関する。
【背景技術】
【0002】
ある製品が自国内のみならず国外でも販売される場合、当該製品の国内販売用のマニュアルを翻訳して、海外販売用のマニュアルが用意されることがある。こうしたマニュアルなどの文書が、例えばXMLなどのドキュメント記述言語を用いて記述された構造化文書である場合に、その翻訳処理、あるいはさらに、翻訳元の文書の改訂に応じて、翻訳された文書の改訂処理を容易に行える文書処理装置が既に公知である(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第4149940号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1に開示されている技術の場合、ライター(例えばマニュアル作成者)による、翻訳前文書(原文)の構成単位となる文章(単位文書データ)の新規作成こそ、文書処理装置外のワードプロセッサソフトウェアやテキストエディタなどの汎用の文章作成ソフトウェアを用いて行えるものの、その後に行う、各文への識別情報や属性情報の付与処理や、翻訳前文書の構造化処理や、翻訳処理や、原文の改訂に伴う翻訳文の改訂処理などは、専用の文書処理プログラムが読み込まれたコンピュータである文書処理装置を用いて行うようになっている。この場合、ライターあるいは文書のレイアウトを行うDTPオペレータと翻訳処理を行う翻訳者とが異なる場合には、翻訳者も係る文書処理装置を用いるか、文書処理装置にアクセス可能なクライアントコンピュータを用いる必要がある。そのため、汎用のソフトウェアを用いて翻訳業務を行っている翻訳者にとっては、翻訳処理自体は汎用のソフトウェアを用いることによっても可能であるにもかかわらず、上述のような識別情報や属性情報を取り扱う必要のために、そのような処理環境を導入することになるので、導入コストがかかることになる。
【0005】
また、特許文献1に開示された技術を利用するワークフローの代わりに、ライターが文書作成ソフトウェアを用いて作成したテキスト文書を対象に、DTPオペレータが市販のDTPソフトウェア(組版ソフトウェアなど)によるレイアウト処理(組版処理)を行って原文の文書データを作成し、該文書データを受け渡された翻訳者が該文書データに記述されている原文のテキストを対応する翻訳文に書き換えるというワークフローも想定される。しかし、この場合、翻訳者が該DTPソフトウェアを有している必要があるが、そうしたDTPソフトウェアは、比較的高価なものが多く、DTPレイアウト処理を生業としない翻訳者が所有しているとは限らない。また、翻訳者が翻訳処理の過程で文書のレイアウトを崩してしまった場合、必ずしも組版レイアウトのスキルを有しているわけではない翻訳者には修正が困難であったとすると、DTPオペレータ側でレイアウト修正する必要が生じる。また、uni-codeに対応している組版ソフトウェアでない場合、多言語化をする場合に手間がかかるという問題もある。
【0006】
あるいは、原文の文書データが、一般的な翻訳者であれば通常所有しているような汎用の文書作成ソフトウェアを用いて、比較的簡易にレイアウト処理が施されたものであったとしても、翻訳の結果、レイアウトが崩れてしまったり、1バイトフォントと2バイトフォントが混在してしまったような場合は、翻訳後の文書データをそのまま納品用の翻訳文書データとして用いることはできず、やはり、DTPオペレータ側でレイアウト修正する必要が生じる。
【0007】
一方、DTPオペレータが、DTPソフトウェアによるレイアウト処理を行って作成した原文の文書データから、レイアウト情報のない、文章のみが記述されたテキストデータを抽出し、翻訳者が翻訳処理を行って原文に対応する翻訳文のテキストデータを生成し、DTPオペレータが、翻訳文のテキストデータを逐一、文書データにおいて対応する原文のレイアウト箇所にコピー&ペーストすることにより、レイアウト情報を有する翻訳文書データを作成するワークフローも想定される。しかしながらこの場合、コピー&ペーストのミスの有無をいちいちチェックする必要があるほか、多言語化する場合には原語ごとに同様の処理を繰り返す必要があり、煩雑である。
【0008】
本発明は上記課題に鑑みてなされたものであり、レイアウトされた文書の多言語化処理を効率化する文書処理装置を提供することを目的とする。
【課題を解決するための手段】
【0009】
上記課題を解決するため、請求項1の発明は、文書構造を定義する所定の構造化要素を用いて構造化されてなる、翻訳対象文書である原文印刷物のレイアウトを表現する原文レイアウトデータを取得し、前記原文レイアウトデータにおける、前記原文印刷物において文章として表現されるテキスト文字列を、翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき範囲である翻訳単位ごとの記述に書き換えるとともに、当該記述部分を規定する前記構造化要素の属性としてそれぞれの前記翻訳単位を一意に識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、前記識別子付きレイアウトデータに基づいて、前記原文印刷物の文章を前記翻訳単位ごとに記述するとともにそれぞれの前記翻訳単位に対応する前記識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、前記翻訳用データに基づいて作成された、前記翻訳単位ごとの翻訳文に前記識別子を付与してなる翻訳文データを取得し、前記識別子付きレイアウトデータに記述されている原文のテキスト文字列を、前記翻訳単位ごとに、前記翻訳文データにおいて当該翻訳単位と同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、を備えることを特徴とする。
【0010】
請求項2の発明は、請求項1に記載の文書処理装置であって、前記識別処理手段は、ある前記翻訳単位が書式の異なる文字列を含む場合には、当該文字列が存在することを示す指標を識別子付きレイアウトデータの当該翻訳単位に対応するテキスト文字列中に付加し、前記翻訳用データ作成手段は、前記原文印刷物の文章を前記翻訳単位に記述する際に前記指標も含めて記述する、ことを特徴とする。
【0011】
請求項3の発明は、請求項1または請求項2に記載の文書処理装置であって、前記原文印刷物の前記翻訳単位のそれぞれに対応する前記識別子を付与した参照用印刷物のデータを生成する参照用データ生成手段、をさらに備えることを特徴とする。
【0012】
請求項4の発明は、請求項1ないし請求項3のいずれかに記載の文書処理装置であって、同一の前記原文印刷物を表現する前記原文レイアウトデータを異なる記述態様にて記述可能な複数種類のデータ形式のそれぞれに用いられる前記構造化要素の定義を前記データ形式ごとに記述した定義データがあらかじめ記憶されており、前記識別処理手段は、前記原文レイアウトデータに用いられている前記構造化要素の定義を前記定義データにおいて特定したうえで前記識別子付きレイアウトデータを生成する、ことを特徴とする。
【0013】
請求項5の発明は、請求項1ないし請求項4のいずれかに記載の文書処理装置であって、前記置換手段が、前記翻訳印刷物のレイアウトデータを作成する際に前記前記翻訳単位ごとに前記原文と前記翻訳文とを対比して記述した校正用データを併せて作成する、ことを特徴とする。
【0014】
請求項6の発明は、請求項1ないし請求項5のいずれかに記載の文書処理装置であって、前記置換手段は、前記翻訳印刷物のレイアウトデータを作成する際に前記識別子付きレイアウトデータに付与されていた識別番号を削除する、ことを特徴とする。
【0015】
請求項7の発明は、請求項1ないし請求項6のいずれかに記載の文書処理装置であって、構造化されていないレイアウトデータを前記所定の構造化要素を用いて構造化する構造化処理手段、をさらに備え、前記構造化処理手段によって構造化された原文レイアウトデータが前記識別処理手段によって処理される、ことを特徴とする。
【0016】
請求項8の発明は、請求項1ないし請求項7のいずれかに記載の文書処理装置であって、レイアウトデータを作成するレイアウト作成手段、をさらに備え、前記レイアウト作成手段によって構造化されたレイアウトデータが前記構造化処理手段によって処理される、
ことを特徴とする。
【0017】
請求項9の発明は、プログラムであって、コンピュータにおいて実行されることにより、前記コンピュータを、請求項1ないし請求項8のいずれかに記載の文書処理装置として機能させることを特徴とする。
【発明の効果】
【0018】
請求項1ないし請求項9の発明によれば、翻訳者に与えられる翻訳用データには、翻訳対象となる原文と識別番号が付与されているだけとなり、レイアウトに係る情報が含まれないので、翻訳者がレイアウトに係る情報を改変してしまうことがなくなる。また、原文は同じ識別番号の翻訳文と自動的に置換されるので、DTPオペレータが翻訳文を逐一置換する手間も不要となる。これにより、翻訳文印刷物に係るレイアウトデータの作成が効率化される。すなわち、レイアウトされた文書の多言語化処理の効率化が実現される。
【図面の簡単な説明】
【0019】
【図1】本実施の形態に係る文書処理装置1の構成を模式的に示す図である。
【図2】文書処理装置1の制御部11において実現される機能を説明するための図である。
【図3】翻訳印刷物を表現するレイアウトデータを作成する処理の概略的な手順を示す図である。
【図4】原文レイアウトデータDL1によって表現される原文印刷物P1を例示する図である。
【図5】構造化原文レイアウトデータDS1を例示する図である。
【図6】識別子付き原文レイアウトデータDIを例示する図である。
【図7】翻訳用原文データDT1を例示する図である。
【図8】翻訳参照用データDRによって表現される参照用印刷物P2を例示する図である。
【図9】翻訳文データDT2を例示する図である。
【図10】構造化翻訳文レイアウトデータDS2を例示する図である。
【図11】構造化翻訳文レイアウトデータDS2に基づいて出力した翻訳文印刷物P3を例示する図である。
【図12】翻訳校正用データDPを出力することにより得られる校正用印刷物P4を例示する図である。
【図13】構造化原文レイアウトデータDS1’の一部を例示する図である。
【図14】識別子付き原文レイアウトデータDI’の一部を例示する図である。
【図15】翻訳用原文データDT1’の一部を例示する図である。
【発明を実施するための形態】
【0020】
<装置の概略構成>
図1は、本実施の形態に係る文書処理装置1の構成を模式的に示す図である。文書処理装置1は、ある自然言語(例えば日本語)で記述された文章を含む翻訳対象文書(原文印刷物)のレイアウトデータに基づいて、当該文章を異なる自然言語(例えば英語)に翻訳してなる新たな文書(翻訳印刷物)を表現するレイアウトデータを作成する処理を、効率化に行えるようにする機能を、主に備える。
【0021】
文書処理装置1は、汎用のパーソナルコンピュータによって実現される。すなわち、文書処理装置1は、CPU11a、ROM11b、およびRAM11cから構成され、後述する各機能を実現する制御部11と、ハードディスクなどにより構成され、種々のデータや文書処理装置1の動作を実現させるプログラム12pを記憶する記憶部12と、オペレータが各種の指示を入力するためのマウス13aやキーボード13bなどからなる操作部13と、ディスプレイ等の表示部14と、CD−R、DVD−RAM、USBメモリ、ポータブルHDDなど種々の可搬性の記録媒体との間でデータのリード/ライトを行うためのR/W部15と、他の装置等との間で有線または無線によってデータの受け渡しを行うためのインターフェースとしての通信部16とを、主として備えている。また、文書処理装置1には、レイアウトデータ(後述する原文レイアウトデータDL1や翻訳文レイアウトデータDL2)などを大量に蓄積・保存可能な大記憶容量のデータベースサーバ17が付属していてもよい。
【0022】
また、図1に示すように、文書処理装置1は、所定のネットワークNに接続され、該ネットワークN上に存在するクライアントコンピュータC(C1、C2、・・・Cn)からアクセス可能とされていてもよい。これにより、文書処理装置1とクライアントコンピュータCとの間で種々のデータの授受が可能となる。ネットワークNは、LAN(Local Area Network)などのイントラネットでも、インターネットでも、両者を共に含む態様でもよい。文書処理装置1がネットワークNに接続される場合、セキュリティ確保のため、図示しないファイアウォールを適宜に設けるとともに、パスワード設定するなどして、各クライアントコンピュータC1〜Cnごとに必要に応じたアクセス制限を設定する態様が好ましい。
【0023】
図2は、文書処理装置1の制御部11において実現される機能を説明するための図である。制御部11においては、記憶部12に記憶されているプログラム12pが実行されることにより、CPU11a、ROM11b、およびRAM11cの作用によって、レイアウトデータ処理部20と構造化データ処理部30とが実現される。
【0024】
レイアウトデータ処理部20は、印刷物のレイアウトを表現するレイアウトデータ(組版データ)の作成・編集や、該レイアウトデータを構造化する構造化処理などを担う。レイアウトデータ処理部20は、レイアウト作成手段21と、構造化処理手段22と、レイアウト編集手段23とを主として備える。
【0025】
レイアウトデータ処理部20を構成するレイアウト作成手段21、構造化処理手段22、およびレイアウト編集手段23は、公知のレイアウト処理技術を利用することによって実現可能である。例えば、文書処理装置1に市販のDTPアプリケーションソフトウェアが読み込まれることによって、実現される態様であってもよい。この場合、プログラム12pが該DTPアプリケーションソフトウェアを含むことになる。
【0026】
ただし、文書処理装置1においてレイアウトデータ処理部20は必須ではなく、その全部もしくは一部の機能が文書処理装置1の外部において実現され、その結果得られたデータが文書処理装置1において用いられる態様であってもよい。詳細については後述する。
【0027】
構造化データ処理部30は、原文印刷物についての構造化されたレイアウトデータに基づいて、翻訳者40による翻訳の対象となるデータを生成する処理や、翻訳によって得られた翻訳文が組み込まれた構造化レイアウトデータを生成する処理などを担う。構造化データ処理部30は、翻訳単位識別処理手段31と、翻訳用データ抽出手段32と、参照用データ生成手段33と、置換手段34と、を主として備える。
【0028】
また、文書処理装置1においては、処理対象となるデータなどの内容や種々の処理メニューを表示部14に表示させつつ、オペレータがマウス13aにより所定のメニューボタン等をクリック操作したり、アイコン等をドラッグアンドドロップ操作するなどして実行指示を与えることにより、所定の処理を行うことができる、いわゆるGUI(Graphical User Interface)が、制御部11、操作部13、表示部14などの機能により実現されている。制御部11に実現される各部の処理も、このGUIを用いて行われる。
【0029】
<翻訳印刷物のレイアウト作成手順>
図3は、翻訳印刷物を表現するレイアウトデータを作成する処理の概略的な手順を示す図である。
【0030】
まず最初に、翻訳印刷物の作成元になる原文印刷物のレイアウトが行われる(ステップS1)。すなわち、原文印刷物において表現しようとする文章(翻訳前の文章)、線画、画像などの内容、およびそれらの配置態様(位置、サイズ、色など)を記述したレイアウトデータが生成される。
【0031】
次に、レイアウトデータの記述内容に基づいて、翻訳対象とする文章を記述した翻訳用データが生成され(ステップS2)、翻訳者40に受け渡される。
【0032】
翻訳者40は、受け取った翻訳データに基づいて翻訳処理TRを行い(ステップS3)、翻訳文データを生成する。
【0033】
翻訳文データが得られると、原文印刷物のレイアウトデータにおける原文の文章の記述部分を、翻訳文データに記述された、対応する翻訳文と置換する(ステップS4)。これにより、翻訳文のレイアウトデータが得られることになる。
【0034】
<レイアウトデータの作成>
以降、本実施の形態に係る文書処理装置1において行われる、上記の手順に沿った処理の詳細を、各部の動作とともに説明する。
【0035】
まず、図3のステップS1の原文印刷物のレイアウトは、レイアウトデータ処理部20のレイアウト作成手段21の作用により実現される。
【0036】
レイアウト作成手段21は、原文印刷物のレイアウトを記述した原文レイアウトデータDL1を作成する処理を担う。文書処理装置1においては、レイアウト作成手段21の作用により、オペレータが、レイアウトに使用する文章、線画、画像などのデータを対象とする配置態様の決定つまりはレイアウト処理を、GUIを用いて試行錯誤しつつ行うことができる。これら文章、線画、画像などのデータは、あらかじめ記憶部12やデータベースサーバ17などに記憶されている。あるいは、文章や線画などのデータを入力あるいは作成しつつ、レイアウト処理を行える態様であってもよい。図4は、原文レイアウトデータDL1によって表現される原文印刷物P1を例示する図である。原文印刷物P1には、第1レイアウト要素LE1〜第5レイアウト要素LE5の5つのレイアウト要素が含まれているものとする。第1レイアウト要素LE1は見出しである。第2レイアウト要素LE2は文章が記述された第1番目の段落(第1段落)である。第3レイアウト要素LE3は文章が記述された第2番目の段落(第2段落)である。なお、第1段落においては文字は全て同じサイズで記述されているが、第2段落では一部に他とは文字サイズおよびフォントが異なる文字列ST1が存在する。第4レイアウト要素LE4は画像である。第5レイアウト要素LE5は表である。なお、原文レイアウトデータDL1においては、図4には図示しない他の箇所において、これらのレイアウト要素に係る書式を規定する記述が含まれる。
【0037】
なお、レイアウト作成手段21は、レイアウト微調整用データDAを作成できるようになっているのが好ましい。原文と翻訳文の言語の組合せによっては、文字種、字数、文字サイズなどの相違に起因して、原文レイアウトデータDL1において設定された原文印刷物についての文章の配置態様を、翻訳印刷物を表現するレイアウトデータにおける翻訳文の配置にそのまま適用しても、翻訳前後でレイアウトに一貫性のある印刷物が実現されない場合がある。そこで、あらかじめ、用いられる自然言語の違いに起因して必要となる、翻訳後の印刷物についてのレイアウトの微調整内容をレイアウト微調整用データDAに記述しておき、翻訳文印刷物のレイアウトデータの生成に際しては係るレイアウト微調整用データDAを用いることで、翻訳印刷物の体裁が原文印刷物にできるだけ近似するようにレイアウトを微調整するのが好ましい。例えば、レイアウト作成手段21がスタイル設定部分と実体内容部分とを分離して記述する形式のレイアウトデータを作成するようになっている場合には、スタイル設定部分を翻訳に用いた自然言語に応じて記述したデータをレイアウト微調整用データDAとして作成できるようになっているのが好適な一例である。また、多言語に展開する場合であれば、翻訳対象とされる全ての自然言語について、レイアウト微調整用データDAが用意されるのが好ましい。
【0038】
また、原文レイアウトデータDL1のデータ形式は、印刷物を出力する出力装置で処理可能なものであり、かつ、構造化処理手段22において後述する構造化処理が可能なものであれば、特段の制限はない。
【0039】
<構造化処理>
原文レイアウトデータDL1は、種々のデータ形式にて作成され得るものであり、必ずしも、レイアウトされた文章がテキスト文字列として記述されているとは限らない。そこで、本実施の形態に係る文書処理装置1においては、図3のステップS2の翻訳用データの作成を行うに先立って、原文レイアウトデータDL1の記述内容から文章部分のデータをテキスト文字列として抽出可能とするべく、構造化処理手段22の作用により構造化処理を行う。
【0040】
構造化処理とは、原文レイアウトデータDL1における印刷物の表現態様と同じ表現態様を有しつつ、いわゆる構造化文書の記述形式にて記述されてなるデータを、生成する処理である。原文レイアウトデータDL1を構造化することによって得られるデータを、構造化原文レイアウトデータDS1と称することとする。
【0041】
以下においては、構造化文書を記述する言語の1つであるXML(eXtensible Markup Language)を用いて、原文レイアウトデータDL1を構造化する場合を説明する。構造化文書とは、文書内容をテキスト形式で記述するとともに、文書の構造要素およびその属性を、タグと称されるテキスト文字列を用いて規定した文書である。すなわち、構造化処理によって得られる構造化原文レイアウトデータDS1は、原文印刷物のレイアウトを記述した、テキスト形式の構造化文書データとして生成される。構造化原文レイアウトデータDS1においては、構造を規定するタグがテキスト形式で記述されているので、その検索、置換などの処理が容易である。
【0042】
図5は、図4に示した原文印刷物P1を表現する原文レイアウトデータDL1を対象とする構造化処理を行うことにより得られる構造化原文レイアウトデータDS1を例示する図である。図5においては、図4において部分Aとして示す、第1レイアウト要素LE1ないし第3レイアウト要素LE3に相当する記述部分を例示している。構造化原文レイアウトデータDS1においては、文章を記述するものとあらかじめ定義された開始タグとこれに対応する終了タグとの間に、当該文章のテキスト文字列が記述される。例えば、図5においては、<pcnt>なる開始タグTS1と</pcnt>なる終了タグTE1との間の部分Bに、テキスト文字列が記述されている。なお、部分Bにある「c_」なる記述は文字列の先頭を表す制御記号である。また、「〓」なる記述は改行を表す制御記号である。詳細は省略するが、当該文章の書式や印刷物における配置位置なども、所定のタグを用いて記述される。線画や画像についても同様に、所定の開始タグと終了タグとを用いて、そのデータ内容やURLなどで表現されるデータの格納箇所や、印刷物における配置位置が記述される。
【0043】
構造化処理の具体的内容は、対象となる原文レイアウトデータDL1のデータ形式や、用いるDTPアプリケーションソフトウェアの種類などに応じて適宜に定められればよく、結果として、原文レイアウトデータDL1における印刷物の表現態様と同じ表現態様を有するように、構造化原文レイアウトデータDS1が生成されるのであれば、特段の制限はない。
【0044】
<翻訳単位の特定と識別番号の付与>
構造化原文レイアウトデータDS1が生成されると、次に、翻訳単位識別処理手段31が、構造化原文レイアウトデータDS1のデータ記述を解析して、当該データ記述を翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を一意に識別するための識別番号(識別子)を当該翻訳単位に付与した識別子付き原文レイアウトデータDIを生成する処理を行う。
【0045】
ここで、翻訳単位とは、原文印刷物において翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき文章の範囲のことをいう。また、線画や画像などは翻訳対象とはならないが、これらについても、それぞれが翻訳単位とみなされて識別番号が付与される態様であってもよい。例えば、図4に例示した原文印刷物P1の場合、第1レイアウト要素LE1ないし第4レイアウト要素LE4が翻訳単位となるほか、表である第5レイアウト要素LE5については、表を構成する各要素が、個別に翻訳単位として特定される。
【0046】
図5に示すように、構造化原文レイアウトデータDS1はレイアウトされた文章に相当するテキスト文字列を含んでいるが、元々の原文レイアウトデータDL1のデータ形式や構造化処理の態様によっては、構造化原文レイアウトデータDS1において必ずしも翻訳単位ごとにテキスト文字列が記述されている訳ではない。
【0047】
例えば、図5に示す場合であれば、開始タグTS1と終了タグTE1とで挟まれた部分Bにテキスト文字列が記述されているが、図4の部分Aと図5の部分Bとを対比すればわかるように、部分Bには部分Aに含まれる第2レイアウト要素LE2と第3レイアウト要素LE3の一部とが含まれている。すなわち、異なる翻訳単位として取り扱われるべき、異なる段落に係る文章が、1組の開始タグTS1と終了タグTE1とで挟まれていることになる。
【0048】
一方、文字サイズおよびフォントが他と異なる文字列ST1が開始タグTS2と終了タグTE2とを用いて個別に記述されているために、当該箇所および開始タグTS3と終了タグTE3とで挟まれた箇所は、実際には、部分Bの後半も含め、第3レイアウト要素LE3に対応するにもかかわらず、それぞれ別個にタグで挟まれている。すなわち、1つの翻訳単位として取り扱われるべき箇所が別々に記述されている。
【0049】
よって、このような記述態様を有する構造化原文レイアウトデータDS1から直接に翻訳用の文章を抜き出そうとすると、原文印刷物との対応関係の把握が難しくなり、翻訳処理あるいはその後の原文の翻訳文への置換処理が効率的に行えないなどの問題が生じることになる。
【0050】
そこで、本実施の形態に係る文書処理装置1においては、構造化原文レイアウトデータDS1のデータ記述を解析して、当該データ記述を翻訳単位ごとの記述に書き換えるとともに、それぞれの翻訳単位を一意に識別するための識別番号(識別子)を当該翻訳単位に付与した識別子付き原文レイアウトデータDIを生成する処理を担う。
【0051】
なお、構造化原文レイアウトデータDS1に用いられているタグの種類および定義、あるいはさらに、改行その他の文章の記述態様を規定する制御記号の種類および定義は、原文レイアウトデータDL1のデータ形式や構造化処理の仕方、あるいは構造化処理手段22を実現するDTPアプリケーションソフトウェアの種類などによって様々である。すなわち、同じレイアウト要素を表すタグが異なる文字列にて定義されることがあり得る。換言すれば、同一内容の原文印刷物を表現する原文レイアウトデータDL1は複数種類のデータ形式にて記述され得る。そこで、本実施の形態に係る文書処理装置1においては、そうしたタグや制御記号の種類および定義をデータ形式ごとに記述したデータセットである構造化要素定義データDEが、あらかじめ記憶部12に保持されている。翻訳単位識別処理手段31は、翻訳単位の特定に際して係る構造化要素定義データDEを参照することにより、用いられているタグや制御記号の種類に応じた態様にて識別子付き原文レイアウトデータDIを生成するようになっている。
【0052】
図6は、図5に例示した構造化原文レイアウトデータDS1に基づいて得られた識別子付き原文レイアウトデータDIを例示する図である。図6においては、第2レイアウト要素LE2に対応する部分E1と第3レイアウト要素LE3に対応する部分E2とを例示している。それぞれの部分は、<ffx_text>なる開始タグTS4あるいは開始タグTS5と</ffx_text>なる終了タグTE4あるいはTE5とに挟まれている。また、開始タグTS4および開始タグTS5においてはいくつかの属性が定義されているが、そのうちの「ffx_no」なる属性が、図6に示す識別子付き原文レイアウトデータDIにおいてそれぞれの翻訳単位の識別番号と表している。開始タグTS4には「ffx_no="2"」と記述されているので、部分E1に対応する翻訳単位には2番という識別番号が定められていることになる。同様に、開始タグTS5と終了タグTE5とに挟まれている部分E2には、3番という識別番号が定められていることになる。
【0053】
構造化原文レイアウトデータDS1に基づく識別子付き原文レイアウトデータDIの生成の具体的態様は、上述したように用いられているタグの種類が様々であるためにどのようなタグが用いられているのかによって異なるが、概略的には、次のような原則に従って行われる。
【0054】
まず、テキスト文章に対応する開始タグおよび対応する終了タグを検索し、その間に記述されているテキスト文字列の末尾に改行を示す制御記号が存在する場合には、当該テキスト文字列を1つの翻訳単位として定めるようにする。また、テキスト文字列の途中に改行を示す制御記号が存在する場合には、当該制御記号の前後を別の翻訳単位として定めるようにする。
【0055】
一方、図5の部分Bの末尾のように、テキスト文字列の最後に改行記号が存在しない場合は、たとえ終了タグが存在していたとしても、次の開始タグ以降のテキスト文字列についても同じ翻訳単位に属するものと判断する。
【0056】
ただし、第3レイアウト要素LE3に存在する文字列ST1のように、1つの翻訳単位に属するものの他とは異なる書式を有する箇所については、そのことを示す指標となる所定のタグ(これをインラインタグと称する)が用いられる。インラインタグには、構造化原文レイアウトデータDS1の対応箇所において用いられていたタグをそのまま用いても良いが、他の箇所とは書式が異なることが認識されればよいので、その記載は簡潔な方が望ましい。係る考え方に基づき、図6に示す場合においては、<emphasis>なる開始タグTS6と</emphasis>なる終了タグTE6とをインラインタグとして用いられている。なお、識別子付き原文レイアウトデータDIにおいては、図示しない他の箇所において、これらのインラインタグが付された箇所についての書式が記述される。
【0057】
さらには、画像や線画と特定される箇所についても、所定のタグを用いて記述すると共に、識別番号を付与する。
【0058】
このような処理の結果、個々の翻訳単位に属すると判定されたテキスト文字列がそれぞれ、翻訳単位を定義する開始タグと終了タグの間に挟まれるように記述がなされ、識別番号その他の属性が開始タグに付与されることで、識別子付き原文レイアウトデータDIが得られる。
【0059】
なお、識別子付き原文レイアウトデータDIを生成するにあたっては、図6に示す場合のように、構造化原文レイアウトデータDS1においては用いられていなかったタグにて翻訳単位に対応するテキスト文字列を記述する態様であってもよい。ただし、後述するように識別子付き原文レイアウトデータDIに記述されている原文のテキスト文字列を翻訳文のテキスト文字列で置換したうえで翻訳文のレイアウトデータを生成する際に、原文印刷物のレイアウトに準じたレイアウトの翻訳文印刷物ができるように、それぞれのデータで用いるタグの対応関係が一義的に定められていることが好ましい。
【0060】
<翻訳用データの作成>
上述のようにして識別子付き原文レイアウトデータDIが得られると、これを対象として、図3のステップS2の翻訳用データの作成が行われる。
【0061】
翻訳用データの作成は、翻訳用データ抽出手段32によって行われる。翻訳用データ抽出手段32は、識別子付き原文レイアウトデータDIの記述内容を解析して、翻訳単位に相当する記述箇所を特定し、その記述内容(テキスト文字列)と、これに付された識別番号とを抽出して、それらを人間が一覧できるデータ形式の翻訳用原文データDT1を作成する。翻訳用原文データDT1は、翻訳者40が使用しているテキストエディタやワードプロセッサなどの汎用のソフトウェアによって読み書き可能なデータ形式で作成される。
【0062】
図7は、翻訳用原文データDT1を例示する図である。図7においては、「No.」欄が識別番号を表している。また、図7においては、図4に示した原文印刷物P1に含まれる全ての翻訳単位が記述されている。
【0063】
図6に示したように、識別番号が3番の翻訳単位には、インラインタグで挟まれた箇所が含まれていたが、図7に示す翻訳用原文データDT1においても、対応する箇所にインラインタグはそのまま記述されている。これは、翻訳処理に際して翻訳者40にその箇所の書式が他とは異なることを認識させる効果がある。ただし、これは必須ではなく、インラインタグを表示させない態様にて翻訳用原文データDT1が作成されてもよい。
【0064】
なお、識別番号が4番の翻訳単位には、<image/>なるタグのみが記載されているが、これは、第4レイアウト要素LE4に相当する画像に対して識別番号が付与されていることを意味している。
【0065】
好ましくは、係る翻訳用原文データDT1の生成と並行して、参照用データ生成手段33により、翻訳参照用データDRが生成される。翻訳参照用データDRは、識別子付き原文レイアウトデータDIに基づいて生成される、原文印刷物P1の各翻訳単位にそれぞれの識別番号を付与した印刷物のデータである。翻訳参照用データDRは、PDF形式のデータとして生成されるのが好適な一例である。図8は、翻訳参照用データDRによって表現される参照用印刷物P2を例示する図である。
【0066】
<翻訳処理>
上述のようにして作成された翻訳用原文データDT1が、翻訳者40に受け渡される。翻訳者40への翻訳用原文データDT1の受け渡しは、ネットワークNを通じて翻訳者40が有するクライアントコンピュータCに当該データを転送する態様であってもよいし、R/W部15において所定の記録媒体に翻訳用原文データDT1を書き出した上で、当該記録媒体を翻訳者40に受け渡す態様であってもよい。
【0067】
好ましくは、翻訳用原文データDT1と併せて、翻訳参照用データDRあるいは参照用印刷物P2も翻訳者40に受け渡される。翻訳者40は、受け取った翻訳用原文データDT1を対象に、図3のステップS3の翻訳処理を行うことになる。参照用印刷物P2が手元にある場合には、翻訳用原文データDT1に記述されているそれぞれの翻訳単位の文章が、原文印刷物のどの箇所に記載されていたものであるかを把握しつつ翻訳処理を行う。
【0068】
翻訳処理は、翻訳用原文データDT1において翻訳単位ごとに記述されている原文の文章を、対応する翻訳文に書き換えることにより行われる。これにより、翻訳文データDT2が得られる。換言すれば、翻訳文データDT2は、翻訳用原文データDT1と同じデータ形式を有しつつ、その翻訳単位ごとの記述内容が翻訳文に書き換えられたものである。図9は、図7に示す翻訳用原文データDT1に基づいて翻訳処理が行われることで作成された翻訳文データDT2を例示する図である。なお、図9に示す翻訳文データDT2においては、後段の説明の都合上、故意に、翻訳処理が不十分な箇所を存在させてある。
【0069】
本実施の形態の場合、翻訳者40に与えられる翻訳用原文データDT1は、レイアウトに関する情報を有していない。よって、翻訳者40が翻訳処理を行って翻訳用原文データDT1の記述を対応する翻訳文に書き換える際に、原文印刷物P1について設定されていたレイアウトに対して翻訳者40が誤って改変してしまうことはないので、そうした不要な変更に付随するレイアウト修正が不要となり、翻訳文印刷物の作成処理が効率化される。
【0070】
<翻訳文による原文の置換>
翻訳者40によって作成された翻訳文データDT2は、文書処理装置1に与えられる。文書処理装置1においては、翻訳文データDT2を用いて、図3のステップS4の置換処理を行う。具体的には、置換手段34の作用により、構造化原文レイアウトデータDS1における原文の部分が対応する翻訳文と置換された記述内容を有する、構造化翻訳文レイアウトデータDS2が作成される。
【0071】
具体的には、置換手段34は、識別子付き原文レイアウトデータDIに記述されている原文の文章(テキスト文字列)を、翻訳単位ごとに、翻訳文データDT2において当該翻訳単位と同じ識別番号が付与された翻訳文に置換するとともに、置換後のデータから識別番号の削除を含むタグの書き換えを行い、構造化翻訳文レイアウトデータDS2を作成する。
【0072】
図10は、構造化翻訳文レイアウトデータDS2を例示する図である。図10においては、構造化翻訳文レイアウトデータDS2のうち、図6に示す識別子付き原文レイアウトデータDIのうちの部分E1および部分E2に対応する箇所を例示している。
【0073】
すなわち、図10において開始タグTS7と終了タグTE7とで挟まれた部分F1には、識別子付き原文レイアウトデータDIの部分E1に記述された原文に対応する翻訳文が記述されている。これは、図4の第2レイアウト要素LE2の翻訳文に対応する。
【0074】
一方、第3レイアウト要素LE3に対応する、識別子付き原文レイアウトデータDIの部分E2に記述された原文に対応する翻訳文は、開始タグTS8と終了タグTE8とで挟まれた部分F1と、開始タグTS9と終了タグTE9とで挟まれた部分F2と、開始タグTS10と終了タグTE10とで挟まれた部分F3とに区分して記述されている。ここで、部分F2は、文字サイズやフォントが前後と異なる第3レイアウト要素LE3の文字列ST1に相当する。これは、識別子付き原文レイアウトデータDIにおいてはインラインタグにて異なる書式情報を有することのみが省略的に記述されていた箇所に、識別子付き原文レイアウトデータDIの他の箇所に記述されていた元の書式情報が適用された結果である。すなわち、構造化翻訳文レイアウトデータDS2においては、当該箇所を含め、翻訳用原文データDT1を得る際には不要であったことから省略した(正確には、抽出対象となる箇所とは異なる箇所に記述されていた)レイアウトに係る情報が、対応する翻訳文の箇所に所定のタグを用いて記述される。
【0075】
このような処理によって得られた構造化翻訳文レイアウトデータDS2は、構造化文書の形式を有しているものの、それ自体がレイアウトデータであるので、その記述形式に対応した出力装置において出力処理が可能なデータとなっている。図11は、構造化翻訳文レイアウトデータDS2に基づいて出力した翻訳文印刷物P3を例示する図である。本実施の形態においては、識別番号の同一性に基づいて置換手段34が自動的に原文を翻訳文に置換するので、文書処理装置1のオペレータが逐一原文を翻訳文で置換するような処理や、翻訳時の誤ったレイアウト変更に伴うレイアウトの微調整が不要であるので、翻訳文のレイアウトを効率的かつ正確に行うことができる。
【0076】
なお、翻訳文印刷物P3において翻訳結果に誤りがある場合、当該箇所について翻訳者40あるいは文書処理装置1のオペレータなどによって、修正処理が行われることになる。例えば、図11に示す場合においては原文印刷物P1の第5レイアウト要素LE5に対応するレイアウト要素LE5’において、誤訳の箇所と翻訳漏れの箇所とが存在する。
【0077】
係る場合において、置換手段34が、係る構造化翻訳文レイアウトデータDS2の生成と併せて、翻訳校正用データDPを生成し、翻訳校正用データDPに基づいて翻訳のチェックが行われるようにしてもよい。図12は、翻訳校正用データDPを出力することにより得られる校正用印刷物P4を例示する図である。
【0078】
翻訳校正用データDPは、翻訳単位ごとに原文と翻訳文とを併記して、識別番号順に一覧できるようにしたものである。校正用印刷物P4が容易に得られるものであれば、その翻訳校正用データDPのデータ形式は限定されない。html形式のデータとして翻訳校正用データDPを作成するのが好適な一例である。
【0079】
翻訳校正用データDPに基づいてチェックを行う場合、印刷物のレイアウトに無関係に文章同士を直接に対比して翻訳の妥当性を検証できるので、誤訳の発見や翻訳漏れなどを容易に見つけることができる。例えば、図11に示す校正用印刷物P4が得られた場合であれば、翻訳者40あるいは文書処理装置1のオペレータは、識別番号が4番の翻訳単位について翻訳漏れがあったことを直ちに把握することができる。また、識別番号5〜7の翻訳が誤っていることも確認できる。
【0080】
あるいはさらに、翻訳校正用データDPにおいては、原文と翻訳文との一致度などが併せて示される態様であってもよい。例えば、図11に示す翻訳文印刷物P3においては、原文のまま翻訳されていない翻訳単位に「!DBCS」なる警告文字が付与されている。一方、原文がもともとアルファベット表記であり、翻訳文においても変更のない箇所には、「!SAME」なる警告文字が付与されている。
【0081】
<レイアウトの微調整と翻訳印刷物の出力>
以上のように、構造化翻訳文レイアウトデータDS2が得られれば、原文印刷物の原文部分が翻訳された印刷物のレイアウトデータが得られたことになる。ただし、上述したように、原文と翻訳文の言語の組合せによっては、原文レイアウトデータDL1において設定された原文印刷物において配置されている原文の文章を翻訳文で置換したのみでは、翻訳前後でレイアウトに一貫性のある印刷物が実現されない場合がある。そこで、好ましくは、レイアウト編集手段23が、構造化翻訳文レイアウトデータDS2の記述内容をレイアウト微調整用データDAに基づいて修正し、より原文印刷物の表現に近い翻訳文印刷物が得られるようにする。なお、レイアウト作成手段21がレイアウト編集手段23の機能を兼ね備える態様であってもよい。
【0082】
さらに、レイアウト編集手段23は、構造化翻訳文レイアウトデータDS2を、構造化文書の形式を有さない翻訳文レイアウトデータDL2に書き換えるようになっていてもよい。係る処理は、構造化処理と逆方向の処理に相当する。構造化されたレイアウトデータは、テキスト形式を有するので、上述のようなテキスト文字列の抽出を行うには適しているが、印刷物の出力処理にあたっては、必ずしも最適な形式を有しているとはいえない。そこで、例えば原文レイアウトデータDL1と同様の(構造化文書としての構造を有さない)形式のデータとして翻訳文レイアウトデータDL2を作成し、これを出力処理に供することで、効率的な出力処理が実現される。
【0083】
以上、説明したように、本実施の形態によれば、原文印刷物のレイアウトデータに基づいて、翻訳対象の原文を翻訳単位ごとに区分するとともにそれぞれに識別番号を付与した翻訳用データを生成して、これを翻訳処理に供する。翻訳者は、翻訳単位ごとに翻訳を行って翻訳用データを書き換えて翻訳文データを生成する。翻訳文データが得られると、原文の文章を、識別番号をキーとして、翻訳文データに記述されている翻訳文に翻訳単位ごとに置換する。これにより、翻訳者に与えられる翻訳用データには、翻訳対象となる原文と識別番号が付与されているだけとなり、レイアウトに係る情報が含まれないので、翻訳者がレイアウトに係る情報を改変してしまうことがなくなり、これに伴うレイアウト修正を行う必要がなくなる。また、原文は同じ識別番号の翻訳文と自動的に置換されるので、DTPオペレータが翻訳文を逐一置換する手間も不要となる。よって、翻訳文印刷物に係るレイアウトデータの作成が効率化される。すなわち、レイアウトされた文書の多言語化処理の効率化が実現される。
【0084】
<他の処理例>
以降においては、上述の例とは異なる形式のデータが処理対象となっている場合を例示する。図13、図14、図15はそれぞれ、構造化原文レイアウトデータDS1’、識別子付き原文レイアウトデータDI’、および翻訳用原文データDT1’の一部を例示する図である。
【0085】
図13に示す構造化原文レイアウトデータDS1’は、図示しない原文レイアウトデータが構造化処理手段22によって構造化処理された結果得られた、<txt>なる開始タグ(実際には属性が定義されている)と</txt>なる終了タグとが、文章を記述するものと定義されているデータである。そして、翻訳単位識別処理手段31が係る構造化原文レイアウトデータDS1’を対象として翻訳単位の特定と識別番号の付与とを行うことにより得られたのが、図14に示す識別子付き原文レイアウトデータDI’である。図14においては、図13に示す部分Gに対応する部分が例示されている。
【0086】
図14に示す識別子付き原文レイアウトデータDI’においても、図6に示す識別子付き原文レイアウトデータDIと同じく、<ffx_text>なる開始タグと</ffx_text>なる終了タグとに挟まれた部分として、1つの翻訳単位が記述されているとともに、「ffx_no」なる属性によって識別番号が定められている。これは、構造化要素定義データDEにおいて、図5に示した構造化原文レイアウトデータDS1に用いられている<pcnt>なる開始タグおよび</pcnt>なる終了タグのみならず、<txt>なる開始タグおよび</txt>なる終了タグについても、同じく文章を記述するものと定義しておくことによって実現される。
【0087】
すなわち、元になる構造化原文レイアウトデータのデータ形式(より具体的には用いられているタグの定義)が異なっている場合でも、構造化要素定義データDEに当該タグの定義が記述されていさえすれば、翻訳用データが抽出可能な識別子付き原文レイアウトデータを得ることができる。
【0088】
そして、翻訳用データ抽出手段32が係る識別子付き原文レイアウトデータDI’を対象として翻訳単位ごとの原文の抽出を行うことにより得られたのが、図15に示す翻訳用原文データDT1’である。以降、係る翻訳用原文データDT1’に基づく翻訳処理、およびその後の翻訳用レイアウトデータの作成に至る処理までは、上述の場合と同様に行われることになる。
【0089】
<レイアウトデータ処理部の別態様>
文書処理装置1がレイアウト作成手段21、構造化処理手段22、およびレイアウト編集手段23を含むレイアウトデータ処理部20を備える態様に代えて、上述のような市販のDTPアプリケーションソフトウェアが例えばクライアントコンピュータCなどの文書処理装置1外のコンピュータにインストールされており、該コンピュータにおいて、レイアウトデータ処理部20の各部の機能の一部あるいは全部が実現される態様であってもよい。係る場合、原文レイアウトデータDL1が作成された時点、あるいは構造化原文レイアウトデータDS1が作成された時点で、ネットワークNを通じて、あるいはR/W部15において所定の記録媒体から読み込まれることにより、原文レイアウトデータDL1あるいは構造化原文レイアウトデータDS1が文書処理装置1に与えられることになる。また、レイアウト編集手段23の機能が文書処理装置1外のコンピュータにおいて実現されている場合には、ネットワークN経由あるいは記録媒体を介して与えられた構造化翻訳文レイアウトデータDS2に対して非構造化処理を行うことになる。
【符号の説明】
【0090】
1 文書処理装置
20 レイアウト処理部
21 レイアウト作成手段
22 構造化処理手段
23 レイアウト編集手段
30 構造化データ処理部
31 翻訳単位識別処理手段
32 翻訳単位抽出手段
32 翻訳用データ抽出手段
33 参照用データ生成手段
34 置換手段
LE1〜LE5 (第1〜第5)レイアウト要素
N ネットワーク
P1 原文印刷物
P2 参照用印刷物
P3 翻訳文印刷物
P4 校正用印刷物
TE1〜TE10 終了タグ
TS1〜TS10 開始タグ
【特許請求の範囲】
【請求項1】
文書構造を定義する所定の構造化要素を用いて構造化されてなる、翻訳対象文書である原文印刷物のレイアウトを表現する原文レイアウトデータを取得し、前記原文レイアウトデータにおける、前記原文印刷物において文章として表現されるテキスト文字列を、翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき範囲である翻訳単位ごとの記述に書き換えるとともに、当該記述部分を規定する前記構造化要素の属性としてそれぞれの前記翻訳単位を一意に識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、
前記識別子付きレイアウトデータに基づいて、前記原文印刷物の文章を前記翻訳単位ごとに記述するとともにそれぞれの前記翻訳単位に対応する前記識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、
前記翻訳用データに基づいて作成された、前記翻訳単位ごとの翻訳文に前記識別子を付与してなる翻訳文データを取得し、前記識別子付きレイアウトデータに記述されている原文のテキスト文字列を、前記翻訳単位ごとに、前記翻訳文データにおいて当該翻訳単位と同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、
を備えることを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置であって、
前記識別処理手段は、ある前記翻訳単位が書式の異なる文字列を含む場合には、当該文字列が存在することを示す指標を識別子付きレイアウトデータの当該翻訳単位に対応するテキスト文字列中に付加し、
前記翻訳用データ作成手段は、前記原文印刷物の文章を前記翻訳単位に記述する際に前記指標も含めて記述する、
ことを特徴とする文書処理装置。
【請求項3】
請求項1または請求項2に記載の文書処理装置であって、
前記原文印刷物の前記翻訳単位のそれぞれに対応する前記識別子を付与した参照用印刷物のデータを生成する参照用データ生成手段、
をさらに備えることを特徴とする文書処理装置。
【請求項4】
請求項1ないし請求項3のいずれかに記載の文書処理装置であって、
同一の前記原文印刷物を表現する前記原文レイアウトデータを異なる記述態様にて記述可能な複数種類のデータ形式のそれぞれに用いられる前記構造化要素の定義を前記データ形式ごとに記述した定義データがあらかじめ記憶されており、
前記識別処理手段は、前記原文レイアウトデータに用いられている前記構造化要素の定義を前記定義データにおいて特定したうえで前記識別子付きレイアウトデータを生成する、
ことを特徴とする文書処理装置。
【請求項5】
請求項1ないし請求項4のいずれかに記載の文書処理装置であって、
前記置換手段が、前記翻訳印刷物のレイアウトデータを作成する際に前記前記翻訳単位ごとに前記原文と前記翻訳文とを対比して記述した校正用データを併せて作成する、
ことを特徴とする文書処理装置。
【請求項6】
請求項1ないし請求項5のいずれかに記載の文書処理装置であって、
前記置換手段は、前記翻訳印刷物のレイアウトデータを作成する際に前記識別子付きレイアウトデータに付与されていた識別番号を削除する、
ことを特徴とする文書処理装置。
【請求項7】
請求項1ないし請求項6のいずれかに記載の文書処理装置であって、
構造化されていないレイアウトデータを前記所定の構造化要素を用いて構造化する構造化処理手段、
をさらに備え、
前記構造化処理手段によって構造化された原文レイアウトデータが前記識別処理手段によって処理される、
ことを特徴とする文書処理装置。
【請求項8】
請求項1ないし請求項7のいずれかに記載の文書処理装置であって、
レイアウトデータを作成するレイアウト作成手段、
をさらに備え、
前記レイアウト作成手段によって構造化されたレイアウトデータが前記構造化処理手段によって処理される、
ことを特徴とする文書処理装置。
【請求項9】
コンピュータにおいて実行されることにより、前記コンピュータを、請求項1ないし請求項8のいずれかに記載の文書処理装置として機能させることを特徴とするプログラム。
【請求項1】
文書構造を定義する所定の構造化要素を用いて構造化されてなる、翻訳対象文書である原文印刷物のレイアウトを表現する原文レイアウトデータを取得し、前記原文レイアウトデータにおける、前記原文印刷物において文章として表現されるテキスト文字列を、翻訳処理に際しひとまとまりの翻訳対象として取り扱うべき範囲である翻訳単位ごとの記述に書き換えるとともに、当該記述部分を規定する前記構造化要素の属性としてそれぞれの前記翻訳単位を一意に識別するための識別子を付与することによって識別子付きレイアウトデータを作成する識別処理手段と、
前記識別子付きレイアウトデータに基づいて、前記原文印刷物の文章を前記翻訳単位ごとに記述するとともにそれぞれの前記翻訳単位に対応する前記識別子を付与してなる翻訳用データを作成する翻訳用データ作成手段と、
前記翻訳用データに基づいて作成された、前記翻訳単位ごとの翻訳文に前記識別子を付与してなる翻訳文データを取得し、前記識別子付きレイアウトデータに記述されている原文のテキスト文字列を、前記翻訳単位ごとに、前記翻訳文データにおいて当該翻訳単位と同じ識別番号が付与された翻訳文のテキスト文字列に置換することによって翻訳印刷物のレイアウトデータを作成する置換手段と、
を備えることを特徴とする文書処理装置。
【請求項2】
請求項1に記載の文書処理装置であって、
前記識別処理手段は、ある前記翻訳単位が書式の異なる文字列を含む場合には、当該文字列が存在することを示す指標を識別子付きレイアウトデータの当該翻訳単位に対応するテキスト文字列中に付加し、
前記翻訳用データ作成手段は、前記原文印刷物の文章を前記翻訳単位に記述する際に前記指標も含めて記述する、
ことを特徴とする文書処理装置。
【請求項3】
請求項1または請求項2に記載の文書処理装置であって、
前記原文印刷物の前記翻訳単位のそれぞれに対応する前記識別子を付与した参照用印刷物のデータを生成する参照用データ生成手段、
をさらに備えることを特徴とする文書処理装置。
【請求項4】
請求項1ないし請求項3のいずれかに記載の文書処理装置であって、
同一の前記原文印刷物を表現する前記原文レイアウトデータを異なる記述態様にて記述可能な複数種類のデータ形式のそれぞれに用いられる前記構造化要素の定義を前記データ形式ごとに記述した定義データがあらかじめ記憶されており、
前記識別処理手段は、前記原文レイアウトデータに用いられている前記構造化要素の定義を前記定義データにおいて特定したうえで前記識別子付きレイアウトデータを生成する、
ことを特徴とする文書処理装置。
【請求項5】
請求項1ないし請求項4のいずれかに記載の文書処理装置であって、
前記置換手段が、前記翻訳印刷物のレイアウトデータを作成する際に前記前記翻訳単位ごとに前記原文と前記翻訳文とを対比して記述した校正用データを併せて作成する、
ことを特徴とする文書処理装置。
【請求項6】
請求項1ないし請求項5のいずれかに記載の文書処理装置であって、
前記置換手段は、前記翻訳印刷物のレイアウトデータを作成する際に前記識別子付きレイアウトデータに付与されていた識別番号を削除する、
ことを特徴とする文書処理装置。
【請求項7】
請求項1ないし請求項6のいずれかに記載の文書処理装置であって、
構造化されていないレイアウトデータを前記所定の構造化要素を用いて構造化する構造化処理手段、
をさらに備え、
前記構造化処理手段によって構造化された原文レイアウトデータが前記識別処理手段によって処理される、
ことを特徴とする文書処理装置。
【請求項8】
請求項1ないし請求項7のいずれかに記載の文書処理装置であって、
レイアウトデータを作成するレイアウト作成手段、
をさらに備え、
前記レイアウト作成手段によって構造化されたレイアウトデータが前記構造化処理手段によって処理される、
ことを特徴とする文書処理装置。
【請求項9】
コンピュータにおいて実行されることにより、前記コンピュータを、請求項1ないし請求項8のいずれかに記載の文書処理装置として機能させることを特徴とするプログラム。
【図1】
【図2】
【図3】
【図5】
【図6】
【図7】
【図9】
【図10】
【図12】
【図13】
【図14】
【図15】
【図4】
【図8】
【図11】
【図2】
【図3】
【図5】
【図6】
【図7】
【図9】
【図10】
【図12】
【図13】
【図14】
【図15】
【図4】
【図8】
【図11】
【公開番号】特開2011−18122(P2011−18122A)
【公開日】平成23年1月27日(2011.1.27)
【国際特許分類】
【出願番号】特願2009−160971(P2009−160971)
【出願日】平成21年7月7日(2009.7.7)
【出願人】(504011575)株式会社テックコミュニケーションズ (1)
【Fターム(参考)】
【公開日】平成23年1月27日(2011.1.27)
【国際特許分類】
【出願日】平成21年7月7日(2009.7.7)
【出願人】(504011575)株式会社テックコミュニケーションズ (1)
【Fターム(参考)】
[ Back to top ]