説明

仏教経典電子画像中の文字領域の特定方法およびそれを用いた仏教経典とテキストとの対応付け方法

【課題】仏教経典の電子画像中の文字領域を明確に特定して、経典画像とテキストとの対応付けを効率よく行い得るようにすることにある。
【解決手段】仏教経典の電子画像をその仏教経典のテキストと対応付けするために、前記電子画像中の文字領域を特定するに際し、前記仏教経典の電子画像1を、その仏教経典に書かれた文字が判別可能なように白黒二値画像3とし、前記二値画像3中の前記書かれた文字を包含する矩形領域を文字領域として抽出し、前記抽出した文字領域を、その文字領域の位置と寸法との少なくとも一方で特定して、文字領域情報D2とすることを特徴とする、仏教経典電子画像中の文字領域の特定方法である。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、仏教経典の電子画像中の文字領域を特定し、その文字領域をその仏教経典のテキスト(判読した文字)と対応付けして、仏教経典の視認性と検索性とを共に高める方法に関するものである。
【背景技術】
【0002】
大正新脩大蔵経は、漢訳の仏教経典(仏典)の最高峰に位置づけられて、仏教学の多くの研究者が参考にしており、その仏典のテキスト(仏典から判読した文字)は電子データ化されて広く公開されている。
【0003】
その一方、本願発明者は、大阪府の天野山金剛寺所収の同経典(金剛寺−切経)を経典画像として電子化する機会を得た。ただし、電子画像としての経典は、パソコン等で表示した場合に視認性に優れているが、その多量の毛筆手書き文字からの特定の文字の検索は困難である。
【0004】
ところで、OCR(光学式文字読取装置)を用いた文字認識手法は多数存在するが、印刷された文字を対象としたものがほとんどであり、何れも、毛筆手書きの仏教経典に適用してもうまくゆかず、実際に確認した限りでは大部分の文字の認識に失敗した。
【0005】
また、木簡を対象とした文字認識支援や文字データベース構築の試みもあるが(非特許文献1、非特許文献2参照)、木簡は1対象当たり数文字〜数十文字であり、1対象あたり数千〜数万文字となる仏教経典では、別のアプローチが必要とされる。
【非特許文献1】平成15年12月17日配布の(社)情報処理学会・人文科学とコンピュータ研究会主催の人文科学とコンピュータシンポジウム論文集(情報処理学会シンポジウムシリーズVol.2003,No.21)中第227〜234頁の論文「歴史文献のための電子スクラップブックシステムの設計」、石川正敏他著
【非特許文献2】平成16年12月9日配布の(社)情報処理学会・人文科学とコンピュータ研究会主催の人文科学とコンピュータシンポジウム論文集(情報処理学会シンポジウムシリーズVol.2004,No.17)「デジタルアーカイブ」中第215〜220頁の論文「木簡解読支援システムの基本設計と試作」、耒代誠仁他著
【発明の開示】
【発明が解決しようとする課題】
【0006】
本発明は、仏教経典の画像中の毛筆手書き文字と、その仏教経典のテキストとの対応付けひいては仏教経典の画像の利用を容易にすることを課題としてなされたものである。
【課題を解決するための手段】
【0007】
請求項1記載の本発明の仏教経典電子画像中の文字領域の特定方法は、仏教経典の電子画像をその仏教経典のテキストと対応付けするために、前記電子画像中の文字領域を特定するに際し、前記仏教経典の電子画像を、その仏教経典に書かれた文字が判別可能なように白黒に二値化し、前記二値化した電子画像中の前記書かれた文字を実質的に包含する矩形領域を文字領域として抽出し、前記抽出した文字領域を、その文字領域の位置と寸法との少なくとも一方で特定することを特徴とするものである。
【0008】
また請求項4記載の本発明の仏教経典とテキストとの対応付け方法は、仏教経典の電子画像とその仏教経典のテキストとを一緒に画面上に表示するとともに、請求項1から3までの何れか記載の仏教経典電子画像中の文字領域の特定方法によって特定した前記仏教経典の文字領域と、前記仏教経典のテキストとの対応付けデータに基づき、前記仏教経典の電子画像と前記テキストとの一方の特定された箇所に対応する他方の箇所を特定して表示することを特徴とするものである。
【0009】
一方請求項5記載の仏教経典とテキストとの対応付け方法は、仏教経典の電子画像とその仏教経典のテキストとを別個に画面上に表示するとともに、請求項1から3までの何れか記載の仏教経典電子画像中の文字領域の特定方法によって特定した前記仏教経典の文字領域と、前記仏教経典のテキストとの対応付けデータに基づき、前記仏教経典の電子画像と前記テキストとの一方の特定された箇所に対応する他方の箇所を特定して表示することを特徴とするものである。
【0010】
ここで、上記特定した文字領域とテキストとの対応付けは、例えば人が文字領域内の文字を読んで行っても良く、あるいは、コントラストのはっきりした部分や文字が単独で読み取れる部分等の比較的判別しやすい部分については、OCR等での文字認識手法を利用するようにしても良い。
【発明の効果】
【0011】
上述した請求項1記載の仏教経典電子画像中の文字領域の特定方法によれば、仏教経典(仏典)の電子画像中の文字領域をその位置と寸法との少なくとも一方によって明確に特定し得て、経典画像とテキスト(仏典から判読した文字)との対応付けを効率よく行うことができる。特に、数万文字あるテキストの中央付近の1文字が仏典画像のどこにあるかを調べるとき、本発明の方法を用いた検索システムがない場合には、およその目星をつけて画像を探し、その画像の中から文字を見つけ、見当たらなかったら前後の画像を調べ直さなければならなかったが、本発明の方法を用いれば、画像とテキストとの対応が取れるので、テキストの所望の1文字と対応する画像およびその画像中の文字の位置を容易に知ることができる。
【0012】
なお、この発明の仏教経典電子画像中の文字領域の特定方法においては請求項2に記載のように、前記文字領域を抽出するに際し、前記二値化した電子画像を左右方向に複数に分割して、上下方向に延在する列を左右方向に複数並べたものとするとともに、前記二値化した電子画像を上下方向に複数に分割して、左右方向に延在する行を上下方向に複数並べたものとし、先ず、前記複数の列の各々の画像中の黒い点の数を数え、その数えた黒い点の数を所定の列用閾値と比較して、その比較結果に基づき文字のある列か否かを判断し、次いで、前記文字のある列について、前記複数の行の各々の画像中の黒い点の数を数え、その数えた黒い点の数を所定の行用閾値と比較して、その比較結果に基づき前記文字領域か否かを判断することとしても良く、このようにすると、電子画像を上下方向と左右方向とにのみ走査すれば足りることから、処理の高速化が図れるので好ましい。
【0013】
また、この発明の仏教経典電子画像中の文字領域の特定方法においては請求項3に記載のように、前記仏教経典の電子画像が少なくとも部分的に重なって複数枚ある場合に、隣り合う前記電子画像について、前記文字領域の位置および寸法の少なくとも一方同士を対比して、それらの文字領域の位置および寸法の少なくとも一方同士の間の誤差が最も小さい文字領域同士を互いに同一のものであると判断し、前記互いに同一と判断した文字領域同士を重ね合わせるものとして前記文字領域を特定することとしても良く、このようにすれば、仏教経典の電子画像を撮影する際に撮影範囲が重ならずかつ離れないように厳密に範囲を区切って撮影するのでなく、撮影範囲を適当にオーバーラップさせて撮影しても、その撮影時のオーバーラップ分を重ね合わせて文字領域を特定するので、仏教経典の電子画像の撮影作業を容易なものとすることができる。
【0014】
そして、上述した請求項4記載のこの発明の仏教経典とテキストとの対応付け方法によれば、仏教経典の電子画像とテキストとの互いに対応する箇所を同時に視認することができるので、仏教経典の画像を容易にテキストと対応させて利用することができ、仏教経典の視認性と検索性とを共に高めることができる。
【0015】
また、上述した請求項5記載のこの発明の仏教経典とテキストとの対応付け方法によれば、表示画面が比較的狭い場合でも仏教経典の電子画像をテキストと対応させて利用することができ、仏教経典の視認性と検索性とを共に高めることができる。
【発明を実施するための最良の形態】
【0016】
以下、本発明の実施の形態を実施例によって、図面に基づき詳細に説明する。ここに、図1は、この発明の仏教経典電子画像中の文字領域の特定方法の一実施例およびその実施例を用いたこの発明の仏教経典とテキストとの対応付け方法の一実施例の実施のための画像処理プログラムの構成を示す説明図、図2は、仏教経典の電子画像としての大阪府の天野山金剛寺所収の金剛寺−切経のデジタルカメラ撮影画像を示す説明図、図3は、そのデジタルカメラ撮影画像からのくり抜き画像を示す説明図、図4は、そのくり抜き画像から得た白黒二値画像を示す説明図、図5は、その白黒二値画像から経過画像Aを得る前段階の画像を示す説明図、図6は、その前段階画像から得た経過画像Aを示す説明図、図7は、その経過画像Aから得た文字領域情報に基づき先の白黒二値画像を重ね合わせた経過画像Bを示す説明図、そして図8および図9は、その経過画像Bにより検証した重ね合わせ情報に基づき上記くり抜き画像を重ね合わせて作成した経過画像Cの互いに隣り合う部分を、数行重複させてそれぞれ示す説明図である。
【0017】
上記実施例の仏教経典電子画像中の文字領域の特定方法は、図示しない通常のパーソナルコンピュータが、あらかじめ与えられた図1に示す如き画像処理を行う画像処理プログラムを実行することで実施し得るものであり、この図1に示す画像処理では先ず、図2に最初の部分を示す如き、仏教経典の電子画像としての大阪府の天野山金剛寺所収の金剛寺−切経をデジタルカメラで撮影した、互いに隣り合う撮影領域を部分的に(例えば文字行で3〜5行程度)オーバーラップさせた複数枚のカラー電子画像1(図2ではモノクロ画像で示す)のデータを準備し、次いでステップS1で、各電子画像1に対しその画像の周辺部を除去して内側の文字のある部分を取り出すように、ユーザが適宜範囲指定して通常の画像処理の一つであるくり抜き処理をして、図3に示す如きくり抜き画像2を得る。なお、各電子画像1についてのくり抜き処理範囲等を示すくり抜き情報D1は、ステップS5の経過出力によって、上記パーソナルコンピュータの画面に随時表示するとともに、そのパーソナルコンピュータのハードディスク等に設定したデータベースに適宜記憶する。
【0018】
次いでここではステップS2で、それらのくり抜き画像2をそれぞれ、例えば256階層のモノクロ画像に変換し、それらのモノクロ画像をそれぞれ、経典の手書き毛筆文字の輪郭ができるだけ良く判るように適宜設定した二値化用閾値を用いて白黒に二値化して、図4に示す如き白黒二値画像3を得る。
【0019】
次いでここではステップS3で、それらの白黒二値画像3の各々について、左右方向に例えば一または複数画素毎に区切ることで複数に分割して、上下方向に延在する列を左右方向に複数並べたものとするとともに、上下方向に例えば一または複数画素毎に区切ることで複数に分割して、左右方向に延在する行を上下方向に複数並べたものとし、先ず、上記複数の列の各々の画像中の黒い点の数を数え、その数えた黒い点の数を、適宜設定した列用閾値と比較して、その列用閾値より大きい場合は文字のある列、そうでない場合は文字のない列と判断する。
【0020】
例えば図示例では、横2000×縦1300画素の白黒二値画像3を左右方向に一画素毎に区切ることで2000列に分割するとともに、列用閾値(第1の列用閾値)として縦画素数1300を50で割った値である26を設定して、各列毎にその26画素を超える画素数分黒い画素があればその列を文字のある列であると仮に判断し、その文字のある列をそれが左右方向に連続する限り一つの文字のある列と判断する。次いで、その文字のある列でも左右方向幅が所定の列用最小幅(第2の列用閾値)、例えば図示例では横2000画素を200で割った10画素と比較して、その列用最小幅より小さければ文字のない列に変更する。このようにして得た文字のある列の領域を黒くし、文字のない列の領域を白くすると、図5に示す如き前段階の画像4となる。
【0021】
続いてここでは、上記各前段階の画像4中の上記各文字のある列について、上記複数の行の各々の画像中の黒い点の数を数え、その数えた黒い点の数を所定の行用閾値と比較して、その行用閾値より大きい場合は文字のある行、そうでない場合は文字のない行と判断する。
【0022】
例えば図示例では、各文字のある列を上下方向に一画素毎に区切ることで1300行に分割するとともに、行用閾値(第1の行用閾値)として、各文字のある列の幅を8で割った値、例えば列の幅が40画素の場合は5を設定して、各行毎にその5画素を超える画素数分黒い画素があればその行を文字のある行であると判断し、その文字のある行をそれが上下方向に連続する限り一つの文字領域と判断するとともに、文字のない行もそれが上下方向に連続する限り一つの文字のない領域と仮に判断する。次いで、その文字のない領域でも上下方向高さが所定の行用最小高さ(第2の行用閾値)、例えば図示例では縦1300画素を130で割った10画素と比較して、その行用最小高さより小さければ文字領域に変更する。このようにして得た文字領域を黒くし、それ以外の領域を白くすると、図6に示す如き経過画像Aの画像5となる。なお、このようにして得た文字領域では、画像中の複数の文字が繋がっていて一つの文字領域に含まれる場合があり、また画像中の一つの文字が複数の文字領域に別れて含まれる場合もある。
【0023】
そしてここでは、上記のようにしてに認識した各経過画像A中の各文字領域(図6中の黒い矩形部分)を例えば、その経過画像Aの画像ファイル名に加えて、その文字領域の例えば左上端の画素についての、経過画像Aの左端からの位置(X座標)と、経過画像Aの上端からの位置(Y座標)と、その文字領域の左右幅寸法と、その文字領域の上下高さ寸法との、四つの整数値によって特定する。なお、各経過画像A(画像5)中の各文字領域を特定する文字領域情報D2も、上記ステップS5の経過出力によって、上記パーソナルコンピュータの画面に随時表示するとともに、そのパーソナルコンピュータのハードディスク等に設定したデータベースに適宜記憶する。
【0024】
次いでここではステップS4で、上記複数枚のカラー電子画像1に対応する複数枚の上記経過画像Aのうち互いに隣り合う画像について、文字列(先の分割時の列とは幅が異なり縦書き文字の行に対応して上下に延在する文字領域の列)毎にその文字列に含まれる一または複数の文字領域の上下高さ寸法の値を配列(数列)にし、上記互いに隣り合う画像の文字列同士についてそれらの配列同士を対比して、それらの文字領域の上下高さ寸法配列同士の間の誤差がもっとも小さい文字列同士について、それらの文字領域同士ひいてはそれらの文字領域を含む文字列同士が互いに同一のものであると判断し、それら互いに同一と判断した文字列の互いに同一と判断した文字領域同士を重ね合わせるものとして文字領域を特定する。このようにして文字領域を特定して、互いに同一と判断した文字領域同士を重ね合わせるように互いに隣り合う経過画像A同士を重ね合わせると、図7にその一部を示す如き、経典全体についての連続した経過画像Bの画像6となる。ここで、同図中矢印で示す接合部は、互いに隣り合う経過画像A同士の重なり合う部分を除いた境目を示している。
【0025】
なお、上記複数枚のカラー電子画像1に対応する複数枚の上記経過画像Aのうちのそれぞれの互いに隣り合う経過画像A同士の互いに重ね合わせる文字列を示す重ね合わせ情報D3も、上記ステップS5の経過出力によって、上記パーソナルコンピュータの画面に随時表示するとともに、そのパーソナルコンピュータのハードディスク等に設定したデータベースに適宜記憶する。
【0026】
そしてこの重ね合わせ情報D3が、上記複数枚のカラー電子画像1に対応する複数枚の上記経過画像Aの全てについて得られると、上記ステップS5の経過出力ではさらに、図8および図9にその互いに隣り合う部分について数行重複させてそれぞれ示す如き、上記複数枚のカラー電子画像1を重ね合わせ情報D3に基づき重ね合わせて経典全体について連続的に繋ぐとともにその電子画像にその経典の各文字領域の輪郭を示す矩形を重ねて表示したカラー電子画像である経過画像Cの画像7を、上記パーソナルコンピュータの画面に表示する(一度に表示するのはディスプレイの範囲に収まる部分である。)とともに、そのパーソナルコンピュータのハードディスク等に設定したデータベースに画像データとして記憶する。
【0027】
このようにして仏教経典電子画像中の文字領域を特定した後、上記実施例の仏教経典とテキストとの対応付け方法では、ユーザが、その仏教経典の特定した各文字領域に包含された毛筆文字を読んで、その仏教経典の既に利用可能となっているテキスト(仏典から判読した文字)との対応付けを行い、それらの対応付けのデータを上記パーソナルコンピュータに入力して記憶させる。そしてこのパーソナルコンピュータは、あらかじめ与えられた対応付けプログラムに従って作動して、上記仏教経典の電子画像C(画像7)の一部と上記テキストの一部とを例えば上下二段に配置して一緒に、そのパーソナルコンピュータの画面上にそれぞれスクロール可能に表示するとともに、上記仏教経典の電子画像Cと上記テキストとの一方の任意の箇所をユーザによって特定されて入力されると、その特定された箇所に対応する他方の箇所を、上記記憶した対応付けのデータに基づき特定して表示する。
【0028】
従って、上述した実施例の仏教経典電子画像中の文字領域の特定方法によれば、仏教経典(仏典)の電子画像1中の文字領域をその文字領域の位置と寸法とにより明確に特定し得て、経典画像1とテキスト(仏典から判読した文字)との対応付けを効率よく行うことができる。特に、数万文字あるテキストの中央付近の1文字が仏典画像のどこにあるかを調べるとき、上記実施例の方法を用いれば、経典画像1とテキストとの対応が取れるので、経典画像1の全体から、テキストの所望の1文字と対応する画像およびその画像中の文字の位置を容易に知ることができる。
【0029】
しかも、上述した実施例の仏教経典電子画像中の文字領域の特定方法によれば、抽出した文字領域を、その文字領域を含む経過画像Aの画像ファイル名に加えて、その文字領域の例えば左上端の画素についての、経過画像Aの左端からの位置(X座標)と、経過画像Aの上端からの位置(Y座標)と、その文字領域の左右幅寸法と、その文字領域の上下高さ寸法との、四つの整数値によって特定することから、経典の縦書きの一行に対応する一つの文字列中の複数の文字領域については、画像ファイル名とX座標と左右幅寸法とが互いに同一となるので、文字領域を特定するデータをソートする際には画像ファイル名とX座標とY座標とをキーとすれば足りる。また各文字列中の複数の文字領域についてX座標と左右幅寸法とを共通化しているので、データベースへの格納データ量を減らすことができる。そして文字領域を特定するデータを画像ファイル名毎に全ての文字領域についてソートし、それらのデータを経典上での画像ファイルの配置順に組合せると、一巻の仏典の画像の文字領域を全て特定するデータが得られる。
【0030】
さらに、上述した実施例の仏教経典電子画像中の文字領域の特定方法によれば、文字領域を抽出するに際し、二値化した電子画像を左右方向に複数に分割して、上下方向に延在する列を左右方向に複数並べたものとするとともに、その二値化した電子画像を上下方向にも複数に分割して、左右方向に延在する行を上下方向に複数並べたものとし、先ず、複数の列の各列の画像中の黒い点の数を数え、その数えた黒い点の数を所定の列用閾値と比較して、その列用閾値より大きい場合は文字のある列、そうでない場合は文字のない列と判断し、次いで、文字のある列について、複数の行の各行の画像中の黒い点の数を数え、その数えた黒い点の数を所定の行用閾値と比較して、その行用閾値より大きい場合は文字のある行、そうでない場合は文字のない行と判断し、文字のある行をそれが上下方向に連続する限り一つの文字領域と判断するので、電子画像としての白黒二値画像3を上下方向と左右方向とにのみ走査すれば足りることから、文字領域を認識して特定する処理の高速化を図ることができる。
【0031】
さらに、上述した実施例の仏教経典電子画像中の文字領域の特定方法によれば、仏教経典の電子画像1が少なくとも部分的に重なって複数枚ある場合に、隣り合う電子画像1同士について、文字領域の上下高さ寸法同士(文字領域の上下高さ寸法の配列同士)を列毎に対比して、それらの文字領域の上下高さ寸法同士の間の誤差が最も小さい文字領域同士を互いに同一のものであると判断し、その互いに同一と判断した文字領域同士を重ね合わせるものとして文字領域を特定することから、仏教経典の電子画像1を撮影する際に撮影範囲が重ならずかつ離れないように厳密に範囲を区切って撮影するのでなく、撮影範囲を適当にオーバーラップさせて撮影しても、その撮影時のオーバーラップ分を重ね合わせて文字領域を特定するので、仏教経典の電子画像1の撮影作業を容易なものとすることができる。
【0032】
そして、上述した実施例の仏教経典とテキストとの対応付け方法によれば、ユーザが、仏教経典の電子画像1を全体的に繋いだ経過画像Cとテキストとの互いに対応する箇所を同時に視認することができるので、仏教経典の電子画像1を容易にテキストと対応させて利用することができる。
【0033】
以上、図示例に基づき説明したが、この発明は上述の例に限定されるものでなく、特許請求の範囲の記載の範囲内で適宜変更可能なものであり、例えば、上記実施例の仏教経典電子画像中の文字領域の特定方法によって特定した仏教経典の文字領域を、ユーザがその仏教経典のテキストと対応付けた後、仏教経典の電子画像とテキストとを別個に画面上に表示するとともに、仏教経典の電子画像とテキストとの一方の特定された箇所に対応する他方の箇所を、上記対応付けのデータに基づき特定して表示するようにしてもよく、このようにすれば、パーソナルコンピュータの表示画面が比較的狭い場合でも、仏教経典の電子画像をテキストと対応させて利用することができる。
【0034】
また、上記実施例ではユーザが、仏教経典の文字領域をその仏教経典のテキストと対応付けているが、この発明においてはその対応付けを、例えば、コントラストのはっきりした部分や文字が単独で読み取れる部分等の比較的判別しやすい部分についてはOCR等で読み取って、画像処理の一種であるパターンマッチング等の文字認識手法を利用して行っても良い。
【産業上の利用可能性】
【0035】
かくしてこの発明の仏教経典電子画像中の文字領域の特定方法によれば、仏教経典(仏典)の電子画像中の文字領域を明確に特定し得て、経典画像とテキスト(仏典から判読した文字)との対応付けを効率よく行うことができる。特に、数万文字あるテキストの中央付近の1文字が仏典画像のどこにあるかを調べるとき、本発明の方法を用いた検索システムがない場合には、およその目星をつけて画像を探し、その画像の中から文字を見つけ、見当たらなかったら前後の画像を調べ直さなければならなかったが、本発明の方法を用いれば、画像とテキストとの対応が取れるので、テキストの所望の1文字と対応する画像およびその画像中の文字の位置を容易に知ることができる。
【0036】
また、上記仏教経典電子画像中の文字領域の特定方法を用いたこの発明の仏教経典とテキストとの対応付け方法によれば、仏教経典の画像をテキストと対応させて利用することができるので、仏教経典の視認性と検索性とを共に高めることができる。
【図面の簡単な説明】
【0037】
【図1】この発明の仏教経典電子画像中の文字領域の特定方法の一実施例およびその実施例を用いたこの発明の仏教経典とテキストとの対応付け方法の一実施例の実施のための画像処理プログラムの構成を示す説明図である。
【図2】仏教経典の電子画像としての大阪府の天野山金剛寺所収の金剛寺−切経のデジタルカメラ撮影画像を示す説明図である。
【図3】上記デジタルカメラ撮影画像から得たくり抜き画像を示す説明図である。
【図4】上記くり抜き画像から得た白黒二値画像を示す説明図である。
【図5】上記白黒二値画像から経過画像Aを得る前段階の画像を示す説明図である。
【図6】上記前段階画像から得た経過画像Aを示す説明図である。
【図7】上記経過画像Aから得た文字領域情報に基づき先の白黒二値画像を重ね合わせた経過画像Bを示す説明図である。
【図8】上記経過画像Bにより検証した重ね合わせ情報に基づき上記くり抜き画像を重ね合わせて作成した経過画像Cの一部を示す説明図である。
【図9】上記経過画像Bにより検証した重ね合わせ情報に基づき上記くり抜き画像を重ね合わせて作成した経過画像Cの図8と隣り合う部分を示す説明図である。
【符号の説明】
【0038】
1 カラー電子画像
2 くり抜き画像
3 白黒二値画像
4 前段階の画像
5 経過画像A
6 経過画像B
7 経過画像C
D1 くり抜き情報
D2 文字領域情報
D3 重ね合わせ情報

【特許請求の範囲】
【請求項1】
仏教経典の電子画像をその仏教経典のテキストと対応付けするために、前記電子画像中の文字領域を特定するに際し、
前記仏教経典の電子画像を、その仏教経典に書かれた文字が判別可能なように白黒に二値化し、
前記二値化した電子画像中の前記書かれた文字を包含する矩形領域を文字領域として抽出し、
前記抽出した文字領域を、その文字領域の位置と寸法との少なくとも一方で特定することを特徴とする、仏教経典電子画像中の文字領域の特定方法。
【請求項2】
前記文字領域を抽出するに際し、前記二値化した電子画像を左右方向に複数に分割して、上下方向に延在する列を左右方向に複数並べたものとするとともに、前記二値化した電子画像を上下方向に複数に分割して、左右方向に延在する行を上下方向に複数並べたものとし、
先ず、前記複数の列の各々の画像中の黒い点の数を数え、
その数えた黒い点の数を所定の列用閾値と比較して、その比較結果に基づき文字のある列か否かを判断し、
次いで、前記文字のある列について、前記複数の行の各々の画像中の黒い点の数を数え、
その数えた黒い点の数を所定の行用閾値と比較して、その比較結果に基づき前記文字領域か否かを判断することを特徴とする、請求項1記載の仏教経典電子画像中の文字領域の特定方法。
【請求項3】
前記仏教経典の電子画像が少なくとも部分的に重なって複数枚ある場合に、
隣り合う前記電子画像について、前記文字領域の位置および寸法の少なくとも一方同士を対比して、それらの文字領域の位置および寸法の少なくとも一方同士の間の誤差が最も小さい文字領域同士を互いに同一のものであると判断し、
前記互いに同一と判断した文字領域同士を重ね合わせるものとして前記文字領域を特定することを特徴とする、請求項1または2記載の仏教経典電子画像中の文字領域の特定方法。
【請求項4】
仏教経典の電子画像とその仏教経典のテキストとを一緒に画面上に表示するとともに、
請求項1から3までの何れか記載の仏教経典電子画像中の文字領域の特定方法によって特定した前記仏教経典の文字領域と、前記仏教経典のテキストとの対応付けデータに基づき、前記仏教経典の電子画像と前記テキストとの一方の特定された箇所に対応する他方の箇所を特定して表示することを特徴とする、仏教経典とテキストとの対応付け方法。
【請求項5】
仏教経典の電子画像とその仏教経典のテキストとを別個に画面上に表示するとともに、
請求項1から3までの何れか記載の仏教経典電子画像中の文字領域の特定方法によって特定した前記仏教経典の文字領域と、前記仏教経典のテキストとの対応付けデータに基づき、前記仏教経典の電子画像と前記テキストとの一方の特定された箇所に対応する他方の箇所を特定して表示することを特徴とする、仏教経典とテキストとの対応付け方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2007−11581(P2007−11581A)
【公開日】平成19年1月18日(2007.1.18)
【国際特許分類】
【出願番号】特願2005−189955(P2005−189955)
【出願日】平成17年6月29日(2005.6.29)
【出願人】(504145283)国立大学法人 和歌山大学 (62)
【Fターム(参考)】