説明

文字認識システムおよび文字認識プログラム

【課題】 旧字体・異字体を含む文字認識結果の文字の訂正を効率よく行える文字認識システムおよび文字認識プログラムを提供する。
【解決手段】実施形態の文字認識システムは、文字認識部と、記憶部と、字体変換辞書記憶部と、訂正部と、字体変換部とを持つ。文字認識部は文字を認識して文字認識結果を記憶部に記憶する。字体変換辞書記憶部は、現在使用されている文字の現字体と過去の文字の旧字体との変換のための字体変換辞書を記憶する。訂正部は、文字認識結果のうち、誤読された文字を訂正し前記記憶部に記憶されている文字認識結果を更新する。字体変換部は、更新された新字体の文字認識結果を前記字体変換辞書を参照して旧字体の文字に変換する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文字認識システムおよび文字認識プログラムに関する。
【背景技術】
【0002】
一般に文字認識装置では、旧字体・異字体を含む文書を文字認識する場合、旧字体・異字体は、現在の字体(現字体または正字という)に置き換えて認識される。
【0003】
例えば「はしごだか」"▲高▼"という異字体の文字画像(口の両側が目状になっている文字画像)を文字認識装置が文字認識した場合に、通常では、現字体(正字)の「くちだか"高"が出力される。
【0004】
旧字体・異字体を直接認識できる文字認識装置も存在するが、これら字体の文字は極めて類似している場合が多く、誤読が多く発生する。従って誤読訂正は必須である。
【0005】
従来、誤読した文字の訂正は、仮名漢字変換機能を使用して訂正する文字をキー入力することにより行っている。
【0006】
ところで、旧字体や異字体などは、仮名漢字変換機能の候補として表示されない場合があり、キーボードから直接入力すること自体が難しい。したがって、手書き文字認識機能などを利用して旧字体や異字体の漢字そのものを特定した上で訂正することになる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平7−239901号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、上記の訂正機能は、あくまで氏名のような、出現頻度の低い旧字体・異字体に対するものであり、例えば明治時代の新聞や書籍などのように旧字体・異字体が文章中に極めて多数存在する場合では、漢字一覧を都度読み出してその中から選択するような操作を行っていたのでは作業効率が悪いという問題があった。
【0009】
本発明が解決しようとする課題は、旧字体・異字体を含む文字認識結果の文字の訂正を効率よく行える文字認識システムおよび文字認識プログラムを提供することにある。
【課題を解決するための手段】
【0010】
実施形態の文字認識システムは、文字認識部と、記憶部と、字体変換辞書記憶部と、訂正部と、字体変換部とを持つ。文字認識部は文書に記録された文字を認識する。記憶部は文字認識結果を記憶する。字体変換辞書記憶部は、現在使用されている文字の現字体と過去の文字の旧字体との変換のための字体変換辞書を記憶する。訂正部は文字認識結果のうち、誤読された文字を訂正し前記記憶部に記憶されている文字認識結果を更新する。字体変換部は更新された新字体の文字認識結果を前記字体変換辞書を参照して旧字体の文字に変換する。
【図面の簡単な説明】
【0011】
【図1】実施形態の文字認識システムの構成を示す図である。
【図2】訂正画面の一例を示す図である。
【図3】字体変換リストの一例を示す図である。
【図4】実施形態の文字認識システムの動作を示すフローチャートである。
【図5】誤認識された文字(誤読文字)を現字体の文字に訂正する様子を示す図である。
【図6】年代を指定する年代指定画面の一例を示す図である。
【図7】現字体で訂正した文字認識結果を旧字体に一括変換する様子を示す図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して実施形態を詳細に説明する。図1は一つの実施形態の文字認識システムの構成を示す図である。
【0013】
図1に示すように、この実施形態の文字認識システムは、スキャナ1、文字認識装置2、訂正端末3をネットワーク4を介して接続して構成されている。
【0014】
スキャナ1は、認識対象の文書を光学的に読み取り、読み取った画像(以下これを「文書画像」という)を文字認識装置2に出力する。認識対象の文書としては、例えば明治、大正、昭和などの年代(時代)の新聞、雑誌、一般書籍などがある。
【0015】
訂正端末3は、文字認識装置2に対してネットワーク4を介して接続され、入力装置(キーボード、マウス)および出力装置(モニタ、プリンタなど)として機能する端末である。
【0016】
文字認識装置2は、例えばCPU、メモリ、ハードディスク装置、CD−ROM、DVD−ROMなどの記録媒体を再生する再生装置としてのディスク再生装置などを有する例えば、パーソナル・コンピュータである。パーソナル・コンピュータでは、ディスク再生装置からハードディスク装置にインストールされた制御ソフトウェアをCPUがメモリ上に読み出し、そのソフトウェアの処理を実行することで、コンピュータが文字認識装置として機能する。
【0017】
文字認識装置2は、受付部20、文字認識結果が記憶される記憶部としてのメモリ21、レイアウト解析部22、文字認識部23、訂正部24、年代特定部25、字体変換部26、年代別の字体変換辞書記憶部としての字体変換リスト記憶部27、出力部28などを有している。
【0018】
受付部20は、スキャナ1が文書を光学的に読み取った文書画像を、ネットワークを介して受信し、メモリ21に記憶する。
【0019】
レイアウト解析部22は、メモリ21に記憶された文書画像を読み出し、文書画像に対してレイアウト解析を行うことで、読み取り元の文書の構造(画像のどの位置に文字または文字列が記載されているかなど)を得る。
【0020】
文字認識部23は、レイアウト解析部22により解析された文書構造に従い文書画像を文字列の単位および文字の単位に切り出し、予め設定された現在の文字認識用の辞書(例えばJIS第1および第2水準相当の文字を認識するための辞書)を参照して文字を認識する。
【0021】
メモリ21には、文字認識部23により文字認識された結果の文字(テキスト)とこの文字に対応する文字画像とが対応して記憶される。
【0022】
訂正部24は、メモリ21から読み出した文字認識結果の文字とこの認識結果に対応する文字画像とを対比して表示する訂正画面30(図2参照)を訂正端末3のモニタに表示させるために、メモリ21から読み出した文字認識結果の文字とこの認識結果に対応する文字画像とをネットワークを介して訂正端末3に転送する。
【0023】
図2に示すように、訂正画面30には、文字認識結果の文字列(テキスト)が表示される訂正欄31と、この文字列(テキスト)に対応する文書画像から切り出した行イメージを表示する表示欄32とが設けられている。
【0024】
この例では、表示欄32に表示されている"學"という旧字体の漢字が、現字体の漢字"吊"として誤読(誤認識)されて訂正欄31に表示されている例を示している。
【0025】
この誤読文字の訂正として、訂正端末3にてユーザが現字体の"学"をキー入力すると、訂正部24はメモリ21の文字認識結果を上書き更新する。具体的には、文字認識結果の"吊"という文字の文字コードを新たに入力された現字体の"学"という文字の文字コードに変更する。
【0026】
字体変換リスト記憶部27には、年代辞書としての年代毎の字体変換リスト(図3参照)29が記憶されている。字体変換リスト29には、年代毎の字体の文字(テキスト)とその文字画像のデータが対応して格納されている。文字画像のデータとしては、例えば文字イメージそのものの他、文字イメージから抽出した特徴ベクトルなどの文字画像に関するデータが含まれる。
【0027】
日本における漢字の使用年代(切り替わり年代)として、例えば1790年〜1946年(昭和21年)の第1年代には康煕字典(文字数:49030文字)が使われ、1946年(昭和21年)〜1981年(昭和56年)の第2年代には当用漢字(文字数:1850文字)が使われ、1981年(昭和56年)以降の第3年代は常用漢字(文字数:1945文字)が使われている。
【0028】
図3に示すように、例えば昭和21年〜昭和56年などの第2年代の字体変換リスト29には、現在の文字(常用漢字)の字体である現字体"高"、"学"、"会"…に、それぞれ対応して昭和21年〜昭和56年の(当用漢字)の旧字体"▲高▼"、"學"、"會"…が格納(記憶)されている。
【0029】
また、一つの現字体に対して複数の旧字体(異字体)が存在する場合は、変換の際の優先順位が設定されている。例えば現字体の"崎"に対して、異字体の"▲崎▼"が優先順位[1]、異字体の"嵜"が優先順位[2]などと設定されている。現字体の"崎"に対しては、異字体の"▲崎▼"が第1候補として優先的に選出されて変換される。
【0030】
すなわち、字体変換リスト記憶部27には、現在使用されている文字の現字体と過去に使われていた文字の旧字体または異字体との変換のための字体変換辞書としての字体変換リストが年代毎(第1年代〜第3年代)に記憶されている。
【0031】
年代特定部25は、文書画像の文字認識結果から得られる日付(年、月、日など)またはグラフィック・ユーザ・インターフェース(図6の年代指定画面参照)からの文書の作成年代(年月の直接入力または年代バーのスライドなど)の指定により旧字体の使用年代(第1年代〜第3年代のどの年代に属すか)を特定する。グラフィック・ユーザ・インターフェースは、例えば訂正端末3に表示され、ユーザによるキー入力などで旧字体の使用年代を直接指定する。
【0032】
字体変換部26は、年代特定部25により特定された年代の字体変換リスト29を参照して、メモリ21に記憶されている文字認識結果のうち、誤読文字が訂正された結果として現字体に訂正された文字を特定された年代の字体(旧字体)に変換してメモリ21に記憶する。
【0033】
出力部28は、字体変換部26により文字の字体が旧字体に変換された文字認識結果の文字をメモリ21から読み出して訂正端末3へ出力する。
【0034】
続いて、図4から図7を参照してこの実施形態の文字認識システムの動作を説明する。
【0035】
この文字認識システムの場合、スキャナ1にセットされた認識対象の文書(例えば旧字体の文字を含む新聞や雑誌など)が光学的に読み取られると、その読み取られ文書画像がネットワーク4を通じて文字認識装置2へ出力される。
【0036】
文字認識装置2では、スキャナ1からの文書画像がネットワーク4を通じて受付部20により受信され(図4のステップS101)、メモリ21に記憶される。
【0037】
例えばこの文字認識装置2に接続されたキーボードなどから、文字訂正装置2に対して、文字認識の実行を指示すると、レイアウト解析部22が、メモリ21に記憶された文書画像に対してレイアウト解析を行い(ステップS102)、レイアウト解析結果を文字認識部23に通知する。文字認識の実行を指示するのは訂正端末3からであってもよい。
【0038】
文字認識部23は、受け取ったレイアウト解析結果を基づいて文書画像に対して文字認識を行い(ステップS103)、テキスト(文字コード)と文字画像とのペアからなる文字認識結果をメモリ21に記憶する。
【0039】
そして、文字認識結果の訂正作業を行う場合、訂正部24は、文字認識結果の文字とこの認識結果に対応する文字画像とをメモリ21から読み出し、ネットワークを介して訂正端末3に転送する。これにより、訂正端末3はモニタに訂正画面30(図2参照)を表示する。
【0040】
ユーザが、訂正端末3に表示された訂正画面30の訂正欄31に表示されている文字の中から誤読文字("吊"など)を見つけた場合、訂正欄31の誤読文字("吊")を、キー入力操作により、図5に示すように、現字体("学"34など)へ訂正すると(ステップS104)、訂正部24は、訂正された文字認識結果をメモリ21に上書き更新する。このように文字認識結果の訂正作業を、1文書の範囲で実施する。
【0041】
続いて、訂正画面30に表示されている字体変換ボタン33またはキー操作による字体変換コマンドを入力すると、年代特定部25は、年代指定画面51(図6参照)を訂正端末3のモニタにホップアップ表示する。この際、年代指定画面51と訂正画面30が同時に見えるようにモニタに表示される。
【0042】
図6に示すように、年代指定画面51には、年代を直接入力するための開始年欄52と終了年欄53と年代バー54が設けられている。開始年欄52と終了年欄53で年代の範囲(幅)を指定することができる。年代バー54は、横軸に年代をとったものであり、年代バー54の下には、おおよその年代(明治、大正、昭和、平成など)が示されている。
【0043】
また年代バー54には、年代をポイントするためのポインタ55がスライド自在に設けられており、ユーザがマウスのドラッグ操作などによりポインタ55を所望の年代の位置に左右にスライドさせることで、開始年欄52と終了年欄53の西暦年数がある幅をもって可変する。年数の可変幅は、各年代の字体変換リスト29にリンクされておりその年代の幅で可変する。
【0044】
年代指定画面51で年代が指定されると(ステップS105)、年代特定部25は年代を特定し(ステップS106)、字体変換リスト記憶部27の中から、該当する年代の字体変換リスト29を特定する。字体変換部26は、特定された年代の字体変換リスト29を参照して、図7に示すようにメモリ21に記憶されている文字認識結果のうち、誤読文字が訂正された結果として現字体に訂正された文字を特定された年代の字体(旧字体)に変換してメモリ21に記憶する。
【0045】
なお、変換対象の現字体1文字に対して字体変換リスト29に複数の旧字体・異字体が存在した場合、予め字体変換リスト29に設定された優先順位に従い、字体が選出されて、変換される。
文字認識結果の文字の字体の一括変換が終了し、訂正画面30にて訂正完了が指示されると(ステップS108)、字体変換部28は、メモリ21の文字認識結果をハードディスク装置の所定の保存領域に保存する(ステップS109)。
【0046】
このようにこの実施形態によれば、文字認識により誤読した文字を現字体で容易に修正できると共に、訂正画面で訂正したい文字が旧字体でありその旧字体の読み方が分からない場合にも、現字体で修正した後、文書の作成年代を指定するだけで、訂正した文字の字体を文書どおりの旧字体へ一括変換できるので、文字認識結果の訂正作業を効率よく行うことができる。
【0047】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【0048】
上記実施形態では、年代毎に字体変換リストを設けたが、日本で現在主に利用される字体変換は、図3に示した第2年代の字体変換リスト29であり、この第2年代の字体変換リスト29を一つだけで用いてもよい。この場合、年代指定は不用になるため、例えば図2の訂正画面30の字体変換ボタン33を旧字体への変換を指示する指示部とし、字体変換ボタン33が操作されたとき、つまり旧字体への変換が指示された場合に、字体変換部26が字体変換リスト29を参照して、メモリ21の文字認識結果の文字の字体を旧字体に一括変換してもよい。
【0049】
また上記実施形態では、文書の作成年代をユーザのキー操作で指定したが、例えば新聞などのように文書のフォーマットが予め決まっている場合、文書画像から日付の欄を文字認識部23が文字認識し、年代特定部25がその文字認識された日付を用いて年代を特定してもよい。
【0050】
さらに上記実施形態では、各構成要素を、コンピュータのハードディスク装置などのストレージにインストールしたプログラムで実現したが、上記プログラムを、コンピュータ読取可能な電子媒体:electronic mediaに記憶しておき、プログラムを電子媒体からコンピュータに読み取らせることで本発明の機能をコンピュータが実現するようにしてもよい。電子媒体としては、例えばCD−ROM,DVD−ROM等の記録媒体やフラッシュメモリ、リムーバブルメディア:Removable media等が含まれる。さらに、ネットワークを介して接続した異なるコンピュータに構成要素を分散して記憶し、各構成要素を機能させたコンピュータ間で通信することで実現してもよい。
【0051】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0052】
1…スキャナ、2…文字訂正装置、3…訂正端末、4…ネットワーク、20…受付部、21…メモリ、22…レイアウト解析部、23…文字認識部、24…訂正部、25…年代特定部、26…字体変換部、27…字体変換リスト記憶部、28…出力部、29…字体変換リスト、30…訂正画面、31…訂正欄、32…表示欄、33…字体変換ボタン、51…年代指定画面、52…開始年欄、53…終了年欄、54…年代バー、55…ポインタ。

【特許請求の範囲】
【請求項1】
文書に記録された文字を認識する文字認識部と、
前記文字認識部により文字認識された文字認識結果を記憶する記憶部と、
現在使用されている文字の現字体と過去の文字の旧字体との変換のための字体変換辞書が記憶された字体変換辞書記憶部と、
前記文字認識結果のうち、誤読された文字を訂正し前記記憶部に記憶されている文字認識結果を更新する訂正部と、
前記記憶部に記憶されている前記更新された新字体の文字認識結果を前記字体変換辞書を参照して旧字体の文字に変換する字体変換部と
を具備する文字認識システム。
【請求項2】
文書に記録された文字を認識する文字認識部と、
前記文字認識部により文字認識された文字認識結果を記憶する記憶部と、
旧字体の使用年代別に現在使用されている文字の現字体と過去の文字の旧字体との変換のための字体変換辞書が記憶された字体変換辞書記憶部と、
前記文字認識結果のうち、誤読された文字を訂正し前記記憶部に記憶されている文字認識結果を更新する訂正部と、
前記文字認識結果から得られる日付または外部からの年代の指定により、前記旧字体の使用年代を特定する年代特定部と、
前記記憶部に記憶されている前記更新された新字体の文字認識結果を前記年代特定部により特定された年代の字体変換辞書を参照して旧字体の文字に変換する字体変換部と
を具備する文字認識システム。
【請求項3】
現在使用されている文字の現字体と過去の文字の旧字体との変換のための字体変換辞書が記憶された字体変換辞書記憶部と、文字認識結果を記憶するための記憶部とを持つコンピュータに処理を実行させる文字認識プログラムにおいて、
前記コンピュータに、
文書に記録された文字を認識して文字認識結果を前記記憶部に記憶する文字認識機能と、
前記文字認識結果のうち、誤読された文字を訂正し前記記憶部に記憶されている文字認識結果を更新する訂正機能と、
前記記憶部に記憶されている前記更新された新字体の文字認識結果を前記字体変換辞書を参照して旧字体の文字に変換する字体変換機能と、
を実現させるための文字認識プログラム。
【請求項4】
旧字体の使用年代別に現在使用されている文字の現字体と過去の文字の旧字体との変換のための字体変換辞書が記憶された字体変換辞書記憶部と、文字認識結果を記憶するための記憶部とを持つコンピュータに処理を実行させる文字認識プログラムにおいて、
前記コンピュータに、
文書に記録された文字を認識して文字認識結果を前記記憶部に記憶する文字認識機能と、
前記文字認識結果のうち、誤読された文字を訂正し前記記憶部に記憶されている文字認識結果を更新する訂正機能と、
前記文字認識結果から得られる日付または外部からの年代の指定により、前記旧字体の使用年代を特定する年代特定機能と、
前記記憶部に記憶されている前記更新された新字体の文字認識結果を前記特定された年代の字体変換辞書を参照して旧字体の文字に変換する字体変換機能と、
を実現させるための文字認識プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate