説明

電子ブックコンテンツ向け自動変換システムと電子ブック共通データベースの構築

【課題】
過去蓄積された膨大なデジタルデータに対して、最も普及している電子文章の形式であるPDFを介しレイアウト情報をXMLとして自動抽出し電子文書の共通データベースとして作成することにより、各社の電子ブック規格に適合できる標準データベースを構築することである。
【解決手段】
PDF形式文章のXML形式のファイルにする段階で、従来の印刷の組版段階で設定されたレイアウト情報を細かく分解し、精細なレイアウト情報を位置情報と内容情報をに分けて抽出する。次に分解されたレイアウト情報をあらかじめ定義したタグ構成に従い自動的にXML形式のデータとして出力し、専用のXMLデータのエディタソフトにより個別にタグの編集を可能とする。更にこの電子ブック用のデータベースは、レイアウトのタグ仕様を公開することで、各社の電子ブックコンテンツ規格にあったデータへの自動変換を可能にする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、各種組版ソフトにより作成された書籍コンテンツデータを各社の電子ブックコンテンツに変換する情報システムに関するものである。
【背景技術】
【0002】
電子ブックの市場は日本が2002年10億円といわれている。これは書籍の市場2兆円に対して非常に小さなシェアにとどまっている。紙の書籍に対して省資源、流通コスト、検索機能、保管スペース、時間経過に対する劣化度において優位性があるにもかかわらず普及していないのが実態である。
【0003】
前項の原因を以下に述べる。第一に既存の出版物の組版データは、最終的なレイアウト情報が組み込まれたものであるが、組版メーカ固有のコマンドと校正の為の特有なタグ情報を付加されて保持されている。また組版メーカ固有のタグ仕様は現実的には限定的にしか公開されていない。そのため電子ブックなどの新たな表示機器やコンテンツの表現力が強化された新しいシステムが開発されても即時に対応ができず、紙の書籍製作における組版工程と同様の組版作業を各社の電子ブックごとに行う必要があり膨大な時間とコストとを要している。これは、既存の組版システム間におけるデータ移行でも同様であり、印刷業界の悩みでもある。
【0004】
また、日本語書籍の組版工程は、読み方を示すルビ、縦書き文書に混在する英文字や数字の表現など多様かつ精緻なレイアウト処理を必要とするのが一般的であり、一層電子ブック化するためのコストを高くしている。このため電子ブックコンテンツは一定の読者が見込める特定の書籍に偏り、電子ブックの普及を妨げてきた。
【0005】
一方で、既存の書籍からのコンテンツ製作コストを下げる方式として、スキャナーによるイメージデータとして取り込む方式が考案・実施されているが、データボリュームがテキスト化されたデータに比較して大きいことによる問題や、電子化のメリットであるコンテンツに含まれる文字列などによる多様な検索を行うためには別途テキストデータとして入力が必要である制約が生じている。漫画などの一部コンテンツでは有効であってもすべての出版物における標準とはなりえない。
【0006】
既存の組版ソフトのほとんどはタグ付のコンテンツ形式のひとつであるAcrobat
PDF(商品名、以下「PDF」とする)への出力が提供されており、校正などのためにレイアウト結果の電子ドキュメント配信に標準的に利用されている。しかしその表示にはPCで稼動する、ビューワーと呼ばれる専用のソフトの利用が前提であり、電子ブックの表現形態にそのままレイアウト情報を適用するには無理がある。
【特許文献1】特開2002−5453(P2004−5453A)号公報
【発明の開示】
【発明が解決しようとする課題】
【0007】
本発明の課題は、過去に蓄積された膨大なデジタルデータに対して、最も普及している電子文章の形式であるPDFを介して、レイアウト情報をXMLとして自動抽出し、このXMLファイルをレイアウト情報の含まれた共通のデータベースとして構築することである。更に、これを基にして各社の電子ブック規格に適合したデータの自動変換ができる標準データベースを構築することである。
【課題を解決するための手段】
【0008】
まず、PDF形式文章のXML形式のタグファイルにする段階で、従来の印刷物印刷の組版段階で細かに設定されたレイアウト情報を細かく分解して取得する方式とする。取得には、既に市場に提供されているPDFのタグ情報を取り出すソフトウェアに機能追加して使用する。この段階で、ページ構成、文字の大きさ、配列、レイアウト位置、フォント、ルビ、縦中横、圏点、表組みなどのレイアウト情報を位置情報と内容情報に分解して抽出する。
【0009】
次に、分解されたレイアウト情報を、あらかじめ定義したタグ構成に従った形式で自動的に編集を行いXML形式のデータとして出力する。出力されたデータは、専用のXMLデータのエディタソフトを利用して、個別にタグの編集やレイアウトチェックを可能とする。チェックされたデータは最終的にXML形式の電子ブック用の元データファイルとしてデータベースに蓄積される。
【0010】
この電子ブック用のXML形式データのデータベースは、レイアウトのタグ仕様を公開することで、各社の電子ブックコンテンツ規格にあったデータへの自動変換が原理的に可能となる。すでに開示されている数種類については検証が終了している。
【0011】
また、蓄積された電子ブック用のXML形式のデータに、書誌情報などを付加する機能を付け、コンテンツを表示するデータビューワーを提供することにより、一般のPC画面から検索と参照を可能とする。
【発明の効果】
【0012】
既存の書籍データから電子ブック用へのコンテンツ変換作業の大幅なコストと時間の短縮が可能となり、一般読者に低価格での過去の膨大なコンテンツ提供ができる。サンプルデータによる計測では約10分の1となる。
【0013】
レイアウト情報中心のPDF形式から、情報の内容ついても表現できるXML形式に変換することで、著作権の管理、書籍データベースとしての管理、ネットワークでの流通サービスの構築などが容易となる。
【発明を実施するための最良の形態】
【0014】
以下、本発明の最適な実施の形態について、図1〜図5を参照して詳細に説明する。
図1は、本発明での実施の電子ブックコンテンツ向け変換サービス全体の説明図である。電子ブックコンテンツ向け変換サービスは、電子ブックの出版権を有する出版社(1.1)が、当該出版物が既にレイアウトされたデジタルデータとして存在する場合(1.2A)、短時間でかつ低コストで各社の電子ブック機器仕様に変換するために活用されるサービスである。
【0015】
実際には、レイアウトされた書籍のデジタルデータは、出版社(1.1)から委託を受けた印刷業者(1.2)により管理されていることが多い。これらのデジタルデータは特定の組版ソフトウェアによりレイアウトされて印刷システムに連動されているが、ほとんどの組版ソフトウェアはデファクトスタンダードであるAcrobat社のPDF形式としてレイアウト済みのコンテンツデータをファイル出力(1.2B)する機能を備えている。本発明のサービスでは、このPDF形式として出力されたデータの入力を前提として、出版社(1.1)または印刷業者(1.2)は、流通させたい書籍コンテンツのPDF形式データのXMLデータへの変換と蓄積および管理を電子ブックコンテンツ向け変換センター(1.3)へ委託する。
【0016】
電子ブックコンテンツ向け変換センター(1.3)では、委託されたPDF形式の書籍コンテンツデータを、XMLの自動変換ツール(1.3A)によりPDFファイルのデータ分解とタグ付けを行い(詳細は後述する)、レイアウト情報を保ったXML形式のデータとして「電子ブック用コンテンツ共有デーベース」(1.3B)として蓄積する。
【0017】
上記の共有データベース(1.3B)にあるXML形式データを入力として、電子ブックメーカにより決められたデータ仕様へ変換するための変換モジュール(1.3C)により流通可能な電子ブック書籍データを作成(1.4A)して、電子ブックコンテンツ流通業者(1.4)へ提供する。
【0018】
既存の方法では、各社電子ブック対応のコンテンツ作成ソフトウェアの入力がテキストまたはCSVなどのレイアウト情報が伴わないデータであるため、組版作業を行う必要があり更に組版ソフトが異なっているため電子ブックのメーカごとに同じ組版作業を行う必要があった。本発明では、レイアウト情報を保持したXML形式のデータとして共有データベース(1.3B)に蓄積するサービスを構築することにより、電子ブックメーカ仕様に変換するモジュールを設定するのみで電子ブックメーカごとの組版作業は不要となる。
【0019】
蓄積された電子ブック用コンテンツに対して、著作者、出版社、出版年、コンテンツ販売社などの書誌情報項目を追加入力した「電子ブック目録データベース」(1.3D)を構築し、一般利用者(1.5)またはコンテンツ流通業者(1.4)にWEBサービスとして検索・照会サービスの提供をして、コンテンツの流通を促進させる。
【0020】
利用者(1.5)は、本発明のサービス内に蓄積された電子ブック目録をインターネットを通じ検索参照を行い(1.5B)、購入したいコンテンツがあれば、コンテンツ流通業者(1.4)からダウンロードして入手する。
【0021】
次に、PDF形式のデータをXML形式のデータ変換する機能について説明する。図2は電子ブックコンテンツ向け変換センター(1.3)におけるシステム構成および機能フロー図である。
【0022】
サービスシステムは、PDF形式のデータをXML形式のデータ変換を行い変換後の書籍データを蓄積管理する「電子ブック用XMLデータ作成サーバ」(2.1)と、蓄積書籍データに対して書誌情報を付加する機能と外部にWEBサービスとしてデータベースの検索・照会を提供する機能を有する「電子ブック目録サービスサーバ」(2.2)と、システム全体で使用されるデータを蓄積および管理する「電子ブック用XMLデータ蓄積サーバ」(2.3)を備える。
【0023】
「電子ブック用XMLデータ作成サーバ」(2.1)において、まず提供されたPDF形式の書籍データ(212)を入力して、PDFのレイアウト情報の分解と中間ファイルの作成プログラム(201)により、PDF形式のレイアウト情報が分解された中間ファイル(213)を出力する。PDF形式の仕様は公開されており、PDF形式のタグ認識ツールとして既に市場に提供されている。本発明においてもその中からPDF形式のタグ分解機能の最適なツールとして既存のソフトウェアXML-Capture(XMLCities,Inc、米国)をSDK
(Software Development Kit)のモジュールとして組み込む。
【0024】
前記のSDKとして組み込んだモジュールは、PDF形式のタグを分解したレイアウト情報から以下の属性を取り出せる機能を備える。(1)対象となるドキュメントに組み込まれた属性情報の「タイトル」、「サブタイトル」を抽出する。(2)基準となるドキュメント外形に関しては、左上を原点として下向きのXYによる絶対座標として抽出し、座標単位は「ポイント」とし、ページサイズ、文字のなどの位置情報は全てこの座標系で表記する。(3)ページはノンブルの番号ではなく物理的な番号を抽出して幅と高さの属性を持つ。(4)行については、「改行」、「タブ」、「段組」などを示す制御文字により、行の範囲を決定し行の開始位置と行幅と行の高さを属性として抽出する。(5)行に含まれる文字は、文字の属性単位に分解し、開始位置、幅、高さ、フォント情報など抽出する。(6)このときに、書籍の組版データ特有な、ルビ、傍点、レテン、圏点に関しては、行内の文字の並び方向に対して、縦方向なら横、横方向なら縦という変化情報と文字サイズの変化情報を文字属性から判断して、ルビ、傍点、レ点、圏点に対応する属性値を設定する。(7)また文字は存在しているが文字コードが検出できない外字フォントに関しては、埋め込まれている外字コード(CID-code)の値を取得すると同時に文字はイゲタ「〓」の表記とする。(8)画像データは、同じくイゲタ「〓」の表記とし、開始位置と幅、高さの属性を持ち、イメージデータ自身はファイルとして出力し、その画像ファイルの存在場所を示す情報を属性として付加する。画像をエレメントの内部に格納することもできるようにする。この場合にはテキストエンコードの種類を属性として設定する。(9)図形データは、SVG
(Scalable Vector Graphics)仕様の「パス」の記述をそのまま取得する。
【0025】
前記で分解したレイアウト情報を本発明におけるXML形式に変換するためのデータ構造であるDTD定義は、「DTD定義の作成プログラム」(図2の202)により入力することができる。DTD定義の要素(エレメント)の階層を図3に、各要素の詳細を表1に示す。本発明においては、書籍データのレイアウトを保持することに目的を絞っているため、出版業界を中心に進められているいくつかの電子ブックのXMLタクソノミー仕様と異なった視点で単純化を行い、変換作業の効率化を図っている。また、入力するドキュメントによって図3、表1に示す定義を変更することもできる。
【0026】
図3の要素(エレメント)の階層は、データ全体は<Book>(301)とし、処理単位の<Pageset>(302)をひとつまたは複数下位にもつ。処理単位の<Pageset>(302)は、複数の物理ページ<Page>(303)を下位に持ち、その下位の構成要素として行<L>(304)または絵<G>(306)をひとつまたは複数持つ。行<L>(304)はひとつまたは複数の文字列<Span>(305)を下位にもつ。絵<G>(306)は、ひとつまたは複数の図形<Path>(307)または画像<Image>(308)を下位に持つ。
【0027】
表1にDTDの各要素の属性も含めた詳細を示す。
表頭欄の「SDKで設定」にある「Yes」の表記は、その属性の値を中間ファイルの作成プログラム(201)の関数を呼び出すことによりその戻り値として取得する意味である。
【0028】
【表1】

【0029】
図2の「DTDのデータ構造を取り出すためのパターン定義プログラム」(203)は、前記で定義したDTD要素データ(214)とPDF形式分解中間ファイルデータ(213)とを関連付ける機能を備える。このパターン定義文により、PDF形式分解中間ファイルデータ(213)に自動的にXMLのタグを挿入することが可能となる。本発明によるパターン定義を図4に示す。また、入力するドキュメントによって図4に示すパターン定義文を変更することもできる。
【0030】
ページタグ<Page>(402)は、ノンブルによるページ番号ではなく、制御文字<page.start>で始まる物理的なページ領域に対して付ける。
【0031】
行のタグ<L>(403)は、以下のパターンの領域に対して付ける。
1)前記のページタグ<Page>ごとに、制御文字の改行<new.line>に続く、空白<one.space>または改行<new.line>
またはタブ<tab>または区切り<region.mark>)の何れでもない文字で始まり、改行<new.line>または図形<path/>または画像<image/>で終わる領域。
2)前記のページタグ<Page>ごとに、制御文字の改行<new.line>またはページ開始<page.start>または図形<path/>または画像<image/>または領域区分<region.mark>または列替<column.break>または行開始<row.star>)の何れでもない文字で始まり、改行<new.line>
で終わる領域。
但し、前記のページタグ<Page>ごとに、制御文字の列替<column.break>または行開始<row.star>の何れかで始まり、空白<
one.space > が続く領域は読み飛ばす。
【0032】
文字列タグ<Span>(404)は、前記の行タグ<L>ごとにその行内に含まれる全ての文字列領域に付ける。
【0033】
絵のタグ<G>(405)は、以下のパターンの領域に対して付ける。
1)文章全体に対して、制御文字<path>で始まる領域。
2)文章全体に対して、制御文字<image>で始まる領域。
【0034】
図形タグ<Path>(406)は、前記の絵タグ<G>ごとに、制御文字<path>で始まるそれ以降の領域に対して付加する。また画像タグ<Image>(407)は、前記の絵タグ<G>ごとに、制御文字<image>で始まるそれ以降の領域に対して付加する。
【0035】
図2の「DTDによるタグ付け、値、要素の属性値の取得プログラム」(204)は、PDF形式分解中間ファイルデータ(213)とDTD要素データ(214)とパターン定義ファイル(215)を入力して、書籍データのテキスト情報およびレイアウト情報に対して前記で定義されたXMLのタグを挿入した「電子ブック用XMLデータ中間ファイル」(216)を出力する機能を備える。
実際に変換した例を図5に示す。
【0036】
図2の「電子ブック用XMLデータの編集プログラム」(205)は、XMLデータビューワー(206)とXMLデータエディター(207)から構成される。XMLデータビューワー(206)は前記で作成した「電子ブック用XMLデータ中間ファイル」(216)のファイルを入力して、変換後のXMLのタグ情報に従いレイアウトされた文章を表示画面上に表示する機能を備える。このビューワにより、元のPDF形式の書籍データ(212)のレイアウトの再現精度の検証を行う。ビューワの画面サンプルを図6に示す。左のサブウィンドウ(601)は、表示されているデータ(インスタンス)の構造と値を階層表示した図であり、右のサブウィンドウ(602)は、実際にレイアウトを再現した画面である。
【0037】
前記のビューワの画面から「XMLデータエディター」(207)機能が利用でき、自動変換では再現できなかった個所について、属性情報の値の修正、追加、削除などの編集が可能である。組版された書籍データにおいては多様な外字が各印刷業者によって組み込まれており、前記でのXMLへの自動変換においてCIDコードと「〓」の表記として出力されている。本エディターにはこのCIDコードに外字フォントを付加する機能も備える。
【0038】
「XMLデータエディター」(207)により検証および修正された最終的なXML形式データファイルは「電子ブック用コンテンツデータベース」(217)へ保存される。保存する時点で、書籍データファイルのインデックス情報として、「ファイルID」「出版者情報」「ISBNコード」「原始PDF形式データID」「書籍タイトル」「著者」「作成日付」などの情報を付加して上で蓄積する。
【0039】
図2の「各社電子ブック仕様のデータ変換プログラム」(208)は、前記で作成した「電子ブック用コンテンツデータベース」(217)から必要なコンテンツファイルを入力して、電子ブック機器の各メーカ仕様に自動変換する機能と、変換後コンテンツファイルの暗号化機能と、変換後コンテンツファイルの提供先の履歴管理機能を備える。電子ブックメーカの仕様はタグ方式による仕様であったり、イメージデータの仕様であったりと多様なため、実際の運用にあたりメーカごとに対応した変換モジュールを順次備える方式とする。
【0040】
電子ブックコンテンツはデジタル情報として流通するため流通先の管理や不正コピー防止などの対策が重要な課題であり、既にいくつかの方式が実用化されている。本発明においても、これらの実用化されているものを活用して、変換後コンテンツの自動暗号化および提供先と履歴管理機能をサービスシステムに組み込む。
【0041】
図2の「電子ブック目録データベース作成プログラム」(209)は、以下の「電子ブック目録データベース閲覧サービス」を外部の利用者に提供するために必要な情報を付加する機能を備える。「電子ブック用コンテンツデータベース」(217)のインデックス情報を取り出し、更に「販売者情報」「販売料金」「簡易な書評」「表紙・目次イメージ」「書籍ジャンル」「対応電子ブック種類」などを付加し、「電子ブック目録データベース」(219)へ保存する。
【0042】
図2の「電子ブック目録データベース閲覧サービスプログラム」(210)は、前記で作成した「電子ブック目録データベース」(219)をインターネット上から検索および照会するための機能を備える。従来の電子ブックのコンテンツ情報の告知は、普及方式ごとや団体が単独で行い共通データベースは存在していない。本発明の「電子ブック目録データベース」(219)のサービスを提供することで、一般書店にある書誌情報の閲覧と同様な感覚で電子ブックコンテンツの縦覧を可能となる。
【実施例1】
【0043】
実際にPDFからレイアウト情報をXMLに変換した例を図5に示す
【産業上の利用可能性】
【0044】
紙による書籍の一部を電子ブックで代替する利点はいくつか挙げられるが、パルプ資源の枯渇防止が最大である。中国、インドに代表される人口が多い国で教育が普及すると、教材として消費される紙の量は膨大に増加することが想定される。これをまかなうには森林資源の枯渇が懸念される。一方で液晶技術の進歩によって、電子ブックの表現力が高まり、違和感なく書籍を読める状態になってきている。既存の出版関係者もこれが悩みであった。本発明により、電子ブックコンテンツ変換が短期間に、かつ低コストで実現することになるため、出版関係者により膨大な既存書籍の、電子ブックコンテンツが進むと想定される。コンテンツの貧弱さが電子ブックの普及を遅らせ、普及していない機器のためにコンテンツを供給できないという悪循環を断ち切ることができる。ブロードバンド通信が進化している環境下、新たなコンテンツの生成・流通産業の活性化が期待できる。
【図面の簡単な説明】
【0045】
【図1】電子ブックコンテンツ向け変換サービス全体図である。
【図2】電子ブックコンテンツ向け自動変換システム構成図である
【図3】DTD定義 :要素(エレメント)階層である
【図4】DTDエレメント(要素)とパターン定義の関係図である
【図5】電子ブック用コンテンツXML変換 サンプルである
【図6】電子ブック用XMLデータビューワ サンプルである
【符号の説明】
【0046】
1.1 コンテンツを所有する出版社
1.2 出版社から委託を受けた印刷業者
1.2A 過去の出版物の組版済みデジタルデータファイル
1.2B 組版データからPDF出力されたデジタルファイル
1.3 電子ブックコンテンツ向け変換センター
1.3A 電子ブック用コンテンツ共有データベースを作成するサービス機能
1.3B 電子ブック用コンテンツ共有データベースサーバ
1.3C 各社の電子ブック仕様のデータ変換サービス機能
1.3D 電子ブック目録データベースサーバ
1.3E 電子ブック目録データベース検索・照会サービス機能
1.4 電子ブック向けコンテンツ流通業者
1.4A 各社電子ブック仕様のコンテンツサーバ
1.5 電子ブック利用者
1.5A 各社電子ブック
1.5B 利用者のパーソナルコンピュータ
2.1 電子ブックXMLデータ作成サーバ
2.2 電子ブック目録データベースサーバ
2.3 電子ブックXMLデータ蓄積サーバ

【特許請求の範囲】
【請求項1】
各種組版ソフトにより作成された書籍コンテンツデータに対して、レイアウト情報を分解する手段と、分解された要素をXMLのデータ構造定義に従い自動的にXMLのタグ付けを行う手段と、タグ付けられたコンテンツデータを表示して修正する手段と、タグ付けられたコンテンツデータをデータベースとして蓄積、検索および参照する手段を備えることを特徴とする、電子ブックデータ作成システム。
【請求項2】
電子ブックコンテンツの元データを提供する出版社とその受託を受けた印刷業者と、上記請求項1に記載したシステムの設備を有し集中して各社の電子ブックに搭載可能なコンテンツデータを作成するセンターと、変換された電子ブックのコンテンツを流通させる業者から構成されることを特徴とする電子ブックコンテンツ流通サービス。
(注)
「組版」「組版ソフト」:書籍の印刷にあたり用紙の向きや、大きさに応じて読みやすさに配慮したタイトル文字や、本文のレイアウト配置職工によって行なわれている。この作業を「組版」という。特に日本では読み方を示すルビ、説明の脚注など多様な表現がこめられており、通常は「組版ソフト」と呼ばれる専用のコンピュータシステムが利用されている。
「XML」(eXtended Markup Language)データの持っている意味を<>に囲まれたタグに記述して表現する言語。従来のCSV,テキストなどに変わり標準様式となりつつある。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate


【公開番号】特開2006−92462(P2006−92462A)
【公開日】平成18年4月6日(2006.4.6)
【国際特許分類】
【出願番号】特願2004−279940(P2004−279940)
【出願日】平成16年9月27日(2004.9.27)
【出願人】(301014465)株式会社データプレイス (2)
【Fターム(参考)】