画像処理装置、画像処理方法及びプログラム

【課題】自然画中の文字を、配置に必要な面積が異なる文字コードに変換しそのまま元の画像に合成すると、変換後の文字の可読性が下がることを防止するため、視認性の保持を図る。
【解決手段】画像中の文字領域を抽出して文字を認識し、文字コードを生成する文字認識手段と、前記文字コードを用いて表示用の表示データを生成する生成手段と、前記表示データに応じて前記文字領域の形状を設定して前記表示データに応じた文字を配置する配置手段と、を備える。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、デジタルカメラ等で撮影された情景画中から抽出した文字を変換し表示する技術に関するものである。
【背景技術】
【０００２】
近年、デジタルカメラは情景を撮影するだけでなく、情景中の文字情報を記録するために用いられるケースが増えてきている。また、記録した画像を活用するために、情景画像から文字情報を抽出し、翻訳等、文字情報をユーザが利用しやすい形態に変換されることも多い。
【０００３】
例えば、特許文献１には、観光案内掲示板、建造物、看板、パンフレット、レストランのメニュー等々に記述されている文字を、カメラ画像データとして取り込み、文字認識して翻訳する技術が開示されている。また、翻訳後の文字情報を元の画像に反映させる場合、原文と訳文の文字数の変化が発生する。このため、特許文献２には、文書を対象とした翻訳装置であって、自動訳文の文字の大きさ等を自動的に変え、元の原文位置に訳文を適切に埋め込む技術が開示されている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開平０９−１３８８０２号公報
【特許文献２】特開平０７−０１３９６９号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
特許文献１に開示される技術は、ユーザに情報を提示するのは文字の翻訳結果だけであるが、結果表示は文字だけより文字と画像と重ね合わせて表示させた方が一覧できるので可読性も高い。しかし、翻訳は言語によって文字数が大幅に変動する。このため単純に翻訳後の単語を画像の文字領域に配置しても、変換後の単語が情景画中の本来の文字があった領域からはみだしてしまう。このようなケースに、特許文献２に開示されている翻訳後の文字サイズを配置領域に合わせて調整する技術を適用させても、情景画像は文書と比べて文字が配置可能な領域の面積が大幅に狭いため、翻訳後の文字が小さくなりすぎる可能性がある。また、デジタルカメラに付属する画像表示装置は撮影画像を等倍率で表示できるほどは大きくないので、表示領域上では撮影画像を縮小した画像を表示する。このような場合、ユーザは見たい被写体があれば、その被写体の領域を拡大する操作をするので、一枚の撮影画像であってもユーザに見えている文字領域の大きさは変化する。このため、見た目の画像表示にあった読みやすい文字情報を提供する必要がある。
【０００６】
そこで、本発明の目的は、画像中の文字に翻訳等の改編処理しても画像中の文字の視認性を保つことにある。
【課題を解決するための手段】
【０００７】
本発明の画像処理装置は、画像中の文字領域を抽出して文字を認識し、文字コードを生成する文字認識手段と、前記文字コードを用いて表示用の表示データを生成する生成手段と、前記表示データに応じて前記文字領域の形状を設定して前記表示データに応じた文字を配置する配置手段と、を備えたことを特徴とする。
【発明の効果】
【０００８】
本発明によれば、画像中の文字に翻訳等の改編処理しても画像中の文字の視認性を保つことができる。
【図面の簡単な説明】
【０００９】
【図１】本発明の実施形態に係る画像処理装置のシステム構成を示す図である。
【図２】本発明の実施形態に係る画像処理装置の機能的な構成を示す図である。
【図３】入力画像、文字領域、配置領域、合成情報の一例を示す図である。
【図４】配置部の処理を示すフローチャートである。
【図５】順次表示データの例を示す図である。
【図６】表示領域をもつ入力機器を示す図である。
【図７】表示領域上の合成情報の例を示す図である。
【図８】表示領域上の合成情報の例を示す図である。
【図９】第２の実施形態における合成情報の例を示す図である。
【図１０】第３の実施形態における配置部の処理を示すフローチャートである。
【図１１】第３の実施形態における合成情報の例を示す図である。
【図１２】第４の実施形態における固定表示データの合成情報の例を示す図である。
【図１３】第４の実施形態における固定表示データの合成情報の例を示す図である。
【発明を実施するための形態】
【００１０】
以下、本発明を適用した好適な実施形態を、添付図面を参照しながら詳細に説明する。なお、以下に説明する実施形態は飽くまでも本発明の適用例であり、本発明の範囲を限定する趣旨のものではない。
【００１１】
先ず、本発明の第１の実施形態について説明する。図１は、本発明の第１の実施形態に係る画像処理装置のシステム構成を示す図である。図１において、１０１は、本実施形態の実行プログラムを実行するＣＰＵである。１０２は、ＲＡＭ（Random Access Memory）である。処理プログラムや入出力データはＲＡＭ上に展開されて処理される。１０６は、処理対象となる画像データや処理済の電子ファイルを記憶する記憶装置である。１１０は、処理データを外部から入力するための入力装置である。１１１は、処理データを外部に表示するための表示装置である。デジタルカメラ等の入力装置１１０から入力された画像データは、ハードディスク等の記憶装置に入力データ１０８として記憶される。記憶装置に記憶されている処理プログラム１０７は、ＲＡＭ１０２上の処理プログラム展開領域１０３に展開され、ＣＰＵ１０１によって実行される。処理プログラムは入力データを記憶装置から呼び出し、ＲＡＭ１０２上の入力データ領域１０４を展開する。処理プログラムは入力データに対して処理を施し、ＲＡＭ１０２上の出力データ領域１０５に処理結果を出力し、記憶装置に出力データ１０９として保存する。出力データはディスプレイ等の表示装置１１１に出力される。なお、ＣＰＵ１０１、ＲＡＭ１０２、記憶装置１０６は入力装置１１０の内部に組み込まれていてもよいし、入力装置１１０の外部装置として存在してもよい。また、表示装置１１１は入力装置１１０に付属していてもよい。例えば、入力装置１１０がデジタルカメラであれば、本体に付属する表示画面が表示装置１１１となる。
【００１２】
図２は、第１の実施形態に係る画像処理装置の機能的な構成を示す図である。本実施形態では、各々の機能ブロックの概略を一通り説明した後、本実施形態の要点となる機能の詳細及び生成したデータの表示例について説明する。
【００１３】
図２の２０１は、入力装置１１０から入力される入力画像である。２０１の具体例を図３（ａ）の３０１に挙げる。図３（ａ）の３０１には風景と交通標識が被写体となっている。本実施形態では３０１を例にその後の処理についての詳細を説明する。図２の２０２は、入力画像から文字が存在する領域、すなわち看板文字の部分を抽出する文字領域抽出部である。ここでは公知技術を用いればよく、例えば特開２００９−１２３２０６号に開示される技術が挙げられる。この本従来技術では以下の方法で文字領域を抽出している。入力画像からエッジ画像を生成し、エッジ画像から連結画素塊（Connected Component、以下ＣＣと称す）を生成する。ＣＣの大きさなどの特徴量から文字らしいと推定される候補ＣＣの座標位置をハフ変換した結果、直線に並ぶ候補ＣＣ群を文字領域と判定する。
【００１４】
図３（ｂ）の３０２は入力画像３０１から抽出した文字領域を示している。図２の２０３は文字領域抽出部２０２によって抽出された文字領域について文字認識を行い、認識された文字を文字コードに変換する文字認識部である。ここでは公知の文字認識技術を用いればよく、本実施形態では文字認識処理で得られた文字に関する情報、すなわち、文字コードが生成されたとする。ほかにも認識処理で得られた文字領域に関する情報、例えば、文字領域の外接矩形の座標情報、文字の色なども先の文字コードと合わせて文字情報として出力する。なお、本実施形態では文字領域３０２から”歩行者優先”の文字コードが得られたとする。
【００１５】
図２の２０４は、文字認識部２０３によって生成された文字コードを、配置に必要な面積が異なる文字コードに変換する変換部である。即ち、他言語への翻訳、漢字を平仮名にする、同等の意味で平易な用語に置き換える等を指す。例えば、日本語の”歩行者優先”を英語に翻訳すると、”Yield to Pedestrians”と配置に必要な面積の異なる文字コードに変換したことになる。また、日本語の”歩行者優先”をすべて平仮名にすると、”ほこうしゃゆうせん”、平易な用語に置き換えると、”あるくひとがさき”となる。本実施形態では日本語の”歩行者優先”を、英語の”Yield to Pedestrians”としたとして説明を進める。
【００１６】
図２の２０５は、入力画像から文字が配置されている配置領域を抽出する配置領域抽出部である。配置領域とは、看板文字の下地部分となる看板本体を指す。配置領域の抽出には、公知のナンバープレート本体を認識する技術を用い、抽出された領域を配置領域とすればよい。例えば、特開２００９−１５１７５９には次のような技術が開示されている。入力画像からエッジ画像を生成し、エッジ強度が規定値以上の画素を抽出する。ここで抽出した画素位置をハフ変換し、変換結果の線分で囲まれた領域をナンバープレート本体の領域としている。
【００１７】
図３（ｃ）の３０３は、入力画像３０１から抽出した配置領域を示している。図２の２０６は、変換部２０４で変換した文字情報を２０５で抽出した配置領域に配置する配置部である。配置部２０６は、判定部２０７、表示データ生成部２０８、合成部２０９から構成される。配置部２０６で最も問題になるのは、入力画像から取り出した文字コードデータと変換部で翻訳、要約等の改編処理、変換した文字コードデータの文字数の変動である。
具体例をあげる。入力画像３０１を入力した場合、文字認識部２０３で認識される文字コードデータは”歩行者優先”の５文字である。しかし、”歩行者優先”を変換部２０４で他言語である英語に変換すると、”Yield to Pedestrians”と空白も入れて２０文字となり、変換前の文字数の４倍になる。このため、変換後の文字情報を、入力画像上の元の文字の大きさのまま配置領域である看板本体の領域に配置すると、文字が看板の形状、領域からはみ出してしまう（図３（ｅ））。また、変換後の文字情報を配置領域に収めようとすると、大幅に文字サイズを小さくしなければならない（図３（ｄ））。しかも、表示装置１１１上に表示される画像は、本来入力された入力画像そのもののサイズに比べて小さいので、本来は十分目視可能な大きさで撮影された文字であっても表示領域上では小さく表示されるため可読性が低下する。
【００１８】
この問題を解決するため、配置部２０６は以下の３つの処理部を内包する。２０７は、変換した文字コードを十分目視可能な大きさで配置領域に配置できるかを判定する判定部である。２０８は表示領域上で読める大きさの文字サイズを確保し、配置領域に収まるようなデータを生成する表示データ生成部２０８である。２０９は表示データを配置領域に合成する合成部である。配置部２０６については、後ほど詳細に説明する。図２の２１０は配置部２０６にて入力画像に変換後の文字情報を合成した合成情報である。合成情報の表示例については、後ほど説明する。
【００１９】
次に、配置部２０６についての詳細を説明する。図４は配置部２０６の処理を示すフローチャートである。Ｓ４０１、Ｓ４０２、Ｓ４０３が判定部２０７に、Ｓ４０４、Ｓ４０５が表示データ生成部２０８に、Ｓ４０６、Ｓ４０７は合成部２０９に該当する。以下、各ステップについて説明する。
【００２０】
Ｓ４０１では、配置領域抽出部２０５で抽出した配置領域が表示装置１１１上に表示される面積Ｓ１を求める。Ｓ４０２では、Ｓ４０１で算出した面積Ｓ１に対し、変換後の文字コードを配置する場合の文字サイズＴ１を算出する。Ｓ４０３では、文字サイズＴ１と予め設定した下限文字サイズと比較する。下限文字サイズとは、表示装置１１１上において、人の目で文字が読める最低の文字サイズである。下限文字サイズより文字サイズＴ１が大きければ変換後の文字コードは配置領域に収まると判断し、Ｓ４０４へ遷移する。文字サイズＴ１が下限文字サイズより小さい場合は配置領域に収まらないと判断し、Ｓ４０５へ遷移する。Ｓ４０４では、Ｓ４０３で算出した文字サイズＴ１で文字コードを一覧表示にした固定表示データを生成し、Ｓ４０６へ遷移する。Ｓ４０５では、文字コードを配置領域に収まるように順次文字を配置する順次表示データを生成し、Ｓ４０６へ遷移する。
具体的な順次表示データの例は後ほど説明する。Ｓ４０６では、表示データを配置する前準備として配置領域にもともと存在していた文字を消す。具体的には、配置領域の文字領域以外の色情報の平均をとり、その色で文字領域を塗りつぶす。なお、塗りつぶす対象は配置領域全体であってもよい。Ｓ４０７では、表示用データを配置領域に配置する。表示データを配置した合成情報の例については後ほど説明する。
【００２１】
次に、表示データ生成部２０８で順次生成される表示データの具体例を説明する。なお、本実施形態では変換後の文字コード”Yield to Pedestrians”を例にして順次表示データを図示する。
【００２２】
図５は、文字コードを配置領域に収まるように順次文字を配置する順次表示データの例を示す図である。図５（ａ）は、文字コード全体”Yield to Pedestrians”を一般的なスクロール表示、すなわち右から左へ連続して文字コード全体を移動させる表示データである。時間軸としては、５０１、５０２、５０３、５０１・・・と遷移する。また、文字コード中の単語単位に分けて順次表示させてもよい。図５（ｂ）では、文字コード全体を”Yield””to””Pedestrians”の３つの単語に分割し、それぞれの単語を順次表示させる。時間軸としては５０４、５０５、５０６、５０４・・・と遷移する。図５（ｂ）の発展形として、図５（ｃ）のように分割した単語の前後の合わせても配置領域に収まるならば、２つ以上の単語を同時に配置して表示してもよい。図５（ｃ）では、”Yield””to”と合わせて配置した５０７と”Pedestrians”５０８を交互に表示する。また、配置領域が小さい場合などには、１文字単位で順次表示させてもよい。図５（ｄ）は”Y”，”i”，”e”と１文字ごとに表示させた例である。時間軸としては５０９、５１０、５１１と遷移し、５１１の後も文字コードの次の文字を１文字ごとに表示させる。
【００２３】
今まで例示した（ａ）〜（ｄ）では、文字サイズは一定とし、配置する位置を変更させて順次表示させていたが、文字サイズ或いは表示領域の大きさ等の形状も変化させてもよい。例えば、図５（ｅ）の５１２は文字コードを配置領域に収まるサイズとし、次に文字サイズを下限文字サイズまで大きくさせる。５１３は文字サイズ拡大の途中経過であり、５１５は目視可能な下限文字サイズまで拡大した例である。５１５以降の文字表示は先に説明した図５（ａ）、（ｂ）、（ｃ）、（ｄ）のいずれかに準じる。なお、図５に挙げたパターンのうち、どのパターンを用いるかはユーザの指示で予め決めておく。
【００２４】
次に、順次表示データを配置領域に配置した合成情報の表示例について説明する。なお、順次表示データは図５（ａ）に挙げたような文字コードを連続してスクロール移動させたものを代表例として図示するが、順次表示データのどのパターンでも適用できる。合成情報は図６に挙げるような一般的なデジタルカメラの表示領域６０２に表示する。ユーザが操作をする際は、表示領域６０２上に表示されるアイコンをタップする、もしくは、６０３にあるボタン群のうちいずれか１つ、もしくは２つ以上の組み合わせを順次押下して実行指示を出す。なお、ボタン群６０３はあくまで一例であり、何らかの操作ができるユーザインタフェースであれば何でもよい。表示領域６０２上における入力画像３０１と順次表示データを合成した場合の表示状態について、表示データ静止、表示データ動作、拡大の順で説明する。なお、データ表示時の初期状態は表示データ静止／動作どちらでもよい。
【００２５】
図７（ａ）は順次表示データが静止している例である。順次表示データは少なくとも下限文字サイズと同等、もしくはそれより大きい文字サイズで提示されている。また、７０１はこの近辺の配置領域上に表示データが存在することを示すアイコンである。このアイコンの図例はあくまで一例であり、何らかの表示がある旨がユーザに理解できる図例であればなんでもよい。図７（ａ）の表示データはスクロール動作をしていないものとする。表示データを順次表示させるには、図７（ａ）の状態からアイコン７０１をタップする。次に、６０３の操作ボタンのうちいずれかを押下し、６０３の操作ボタンのうちいずれかを押下してアイコン７０１を選択し、６０３の操作ボタンのうちいずれかを押下する操作のいずれかで実行される。
【００２６】
図７（ｂ）、（ｃ）、（ｄ）は順次表示データが表示されている様子を示している。３つの図の時系列関係は、（ｂ）、（ｃ）、（ｄ）、（ｂ）、（ｃ）、（ｄ）・・・となり、文字コード”Yield to Pedestrians”が右から左へ連続して移動して表示されている。図７（ｂ）、（ｃ）、（ｄ）には図７（ａ）の７０１と同じく、この近辺の配置領域上に表示データが存在することを示すアイコン７０２、７０３、７０４が存在している。なお、現在表示データが動作中である旨がユーザに理解できる図例であればなんでもよい。表示データの順次表示を停止するには、アイコン７０２、７０３、７０４のいずれかをタップする、６０３の操作ボタンのうちいずれかを押下する、６０３の操作ボタンのうちいずれかを押下してアイコン７０２、７０３，７０４のいずれかを選択し、６０３の操作ボタンのうちいずれかを押下する、の操作のいずれかで実行される。
【００２７】
図７（ｅ）、（ｆ）は表示領域上の画像を拡大した場合の表示データの様子を示している。表示領域の拡大は、ユーザが６０３の操作ボタンのうちいずれかを押下することで実行される。文字コードを順次表示するか否かの判定は、判定部２０７で実行する表示領域上の配置領域に配置できる文字サイズの大きさによって決定する。このとき、拡大操作で表示領域上の配置領域の面積は変化するので、判定部２０７が動作し、文字コードの配置の可否を判定する。
【００２８】
図７（ｅ）は目視可能な下限文字サイズですべての文字コードを配置領域内で収めることができると判定されたため、固定表示データが配置されている。さらに拡大をした図７（ｆ）でも固定表示データが配置されている。文字サイズは拡大した配置領域に合わせて拡大されている。なお、図７（ｅ）、（ｆ）のような拡大状態から、再度縮小し配置領域に文字が収まらないと判定された時点で、図７（ａ）、（ｂ）、（ｃ）、（ｄ）のいずれかに遷移する。
【００２９】
次に、配置領域の一部が表示領域上に表示されている場合における表示データ例を説明する。具体的には、図８（ａ）のような拡大率を上げた場合、図８（ｃ）のような表示範囲を動かしたために配置領域が表示領域の中心から外れた場合が挙げられる。先に述べたように、配置部２０６の処理ステップＳ４０１では、表示領域上における配置領域の面積Ｓ１を求める。よって、配置領域の一部が表示領域上に表示されている場合では、配置領域の面積のうち表示領域上に表示されている部分領域のみがＳ１となる。これを踏まえて図８（ａ）、図８（ｃ）から合成情報を生成する例の詳細を説明する。
【００３０】
図８（ａ）では表示領域上に表示されている文字配置領域の面積Ｓ１は元の画像の配置領域の一部分ではあるが、Ｓ１に文字を配置した場合の文字サイズＴ１は下限文字サイズより十分大きい。よって、文字サイズＴ１で文字コードを一覧表示にした固定表示データを生成し、合成する。図８（ｂ）は図８（ａ）の合成情報である。
【００３１】
図８（ｃ）における文字配置領域の面積Ｓ１に文字を配置した場合の文字サイズＴ１は下限文字サイズを下回る。このため、順次表示データを生成する。図８（ｄ）、（ｅ）は図８（ｃ）の合成情報の一例である。本実施形態では１文字単位で順次表示させるパターン（図５（ｄ）に該当）で表示データを生成した。図８（ｄ）は表示データ静止状態、図８（ｅ）は表示データ動作状態となる。
【００３２】
なお、拡大率をさらに上げた場合もしくは、配置領域がさらに表示領域の中心から外れた場合など、配置領域が表示領域上に存在するが文字領域は存在しないケースも想定される。こういった例では、例外処理として配置部２０６をスキップする処理を追加してもよい。
【００３３】
以上のように、本実施形態によれば、情景画像中の文字領域を抽出し変換した後の合成において、変換後の文字コードが表示領域上の配置領域に配置する際の文字サイズに基づいて表示データを生成し、配置することで、変換後の文字の視認性が確保できる。
【００３４】
次に、本発明の第２の実施形態について説明する。先ず、第１の実施形態に挙げた順次表示データおよび合成情報の派生例について図９を用いて説明する。
【００３５】
図７では、認識部２０３で認識した文字および変換部２０４で変換した文字の文字組み方向はともに横であった。しかし、認識部２０３で文字領域の文字コードの文字組み方向が縦、変換後の文字組み方向は横と、２つの文字組み方向が異なる場合がありえる。このような場合、変換後の文字コードを回転させてから配置判定をするか否かの判断が必要になる。変換後の文字コードの回転判定には、下記の方法が考えられる。
【００３６】
変換前後の文字方向の組み合わせによって予め変換後の文字コードの回転方向を決めておく。具体的には、文字組み方向が変換前は縦、変換後は横であれば、変換後の文字を９０度回転させてから配置部２０６へ遷移すると定義しておく。変換後の文字コードを回転前、回転後についてそれぞれ配置判定を行い、文字サイズの大きい方を採用する。配置領域の縦横の長さの比率を算出し、横の方が縦に比べて長ければ横書きを採用、縦の方が長ければ、横書きを９０度回転させたものを採用する。この際、横書きを配置する場合には配置領域が縦に長い構成であっても、十分な横の長さがあれば横書きにする等の考慮も加える。変換後の文字コードのうち、最も文字数の多い単語が折り返しなく横書きで配置できれば横書きを採用、そうでなければ横書きを９０度回転させたものを採用する。
【００３７】
以上に挙げた方法のいずれかで変換後の文字コードの回転が必要かを判定する。実際の処理では以下の通りになる。図９（ａ）を入力し、認識部において縦書きで”立入禁止”と文字が認識できたとする。これを英語に変換させた文字コード”DO NOT ENTER”の文字組み方向は横方向となる。つまり、文字組み方向が変換前は縦、変換後は横となる。このため先にあげた回転判定のいずれかを実施する。その結果、”DO NOT ENTER”は９０度回転させる、かつ、配置領域に収まらないと判定され、９０度回転させた文字コードから順次表示データを生成する。
【００３８】
合成情報の例が図９（ｂ）、（ｃ）となる。図９（ｂ）、（ｃ）は変換した文字コード”DO NOT ENTER”を横書きのまま９０度回転させ、下から上へスクロール表示している。図７では、画像上に表示データがある旨はアイコンを表示していたが、図９（ｂ）、（ｃ）のように、配置領域境界の色を変える、フラッシュさせるなどの強調処理をして提示してもよい。この場合の順次表示データの動作／停止は配置領域上をタップする、６０３の操作ボタンのうちいずれかを押下する、６０３の操作ボタンのうちいずれかを押下して配置領域を選択し、６０３の操作ボタンのうちいずれかを押下する、の操作のいずれかで実行される。
【００３９】
次に、本発明の第３の実施形態について説明する。第１の実施形態での配置部２０６内の判定部２０７において、表示領域上の配置面積に換後の文字コードを配置する場合の文字サイズと、予め設定した下限文字サイズと比較して配置の可否判定をしていた。しかし、配置後の文字サイズが目視可能かを判定できるのであれば他の方法でもよい。また、配置後の文字サイズが目視できないと判定された場合に表示データ生成部２０８で生成される表示データは、順次表示データ以外であってもよい。第３の実施形態の配置部２０６について、図１０を用いて説明する。なお、図４と同一の番号の処理は第１の実施形態と同じであるため、説明は省く。
【００４０】
Ｓ１００１では、変換部２０４で変換後の文字コードの表示領域上での配置面積Ｓ２を求める。配置面積Ｓ２の算出は、元の画像の文字サイズと変換後の文字コードの文字数を積算すればよい。また、変換後の文字のサイズを予め設定しておき、その設定した文字サイズと文字コードの文字数を掛け合わせてもよい。Ｓ１００２では、表示領域上の配置領域の面積Ｓ１と変換後の文字コードの配置面積Ｓ２を比較し、変換後の文字コードが配置領域に収まるかを判定する。Ｓ１よりＳ２が小さい場合（Ｓ１≧Ｓ２）は変換後の文字コードは目視可能なサイズで配置領域に収まると判断し、Ｓ４０４へ遷移する。Ｓ１よりＳ２が大きい場合（Ｓ１＜Ｓ２）は、変換後の文字コードは現在の配置領域に収まらないと判断し、Ｓ１００３へ遷移する。Ｓ１００３では、配置領域に収まるように文字コードを要約した表示データを生成する。例えば、入力画像が図１１（ａ）から抽出された文字領域から”自転車通行可ここから”の文字コードが得られ、”Passable bicycle lane”、”From here”と変換されたとする。しかし、これを配置領域に収めることはできないため、公知の文書要約技術を用いて元の内容として同一な”Bike OK”、”Here”に要約された表示データが生成される。図１１（ｂ）は本実施形態で生成された合成情報の一例である。
【００４１】
次に、本発明の第４の実施形態について説明する。以上の実施形態では順次表示データおよび要約表示データについて説明した。本実施形態では配置部２０６のＳ４０４で生成する固定表示データの派生例について説明する。
【００４２】
第１の実施形態で説明した固定表示データ（図７（ｅ））は、元の文字領域の配置と同じ１行で配置していた。しかし、固定表示データの文字の配置は必ずしも元の文字領域の配置と同一でなくてもよく、公知の文字再配置技術を用いて再レイアウトしてもよい。
【００４３】
第２の実施形態で挙げたように、固定表示データであっても、変換前後の文字コードの文字組み方向が異なる場合がありえる。このような場合、変換後の文字コードを回転させてから配置判定をするか否かの判断が必要になる。例えば、図１３（ａ）は縦書きの日本語だが、これを横書き言語の英語に変換するとなると、変換後の文字コードを回転させてから配置判定をするか否かの判断を実行する。変換後の文字コードの回転判定には、下記の方法が考えられる。変換前後の文字方向の組み合わせによって予め変換後の文字コードの回転方向を決めておく。具体的には、文字組み方向が変換前は縦、変換後は横であれば、変換後の文字を９０度回転させてから配置部２０６へ遷移すると定義しておく。変換後の文字コードを回転前、回転後についてそれぞれ配置判定を行い、文字サイズの大きい方を採用する。配置領域の縦横の長さの比率を算出し、横の方が縦に比べて長ければ横書きを採用、縦の方が長ければ、横書きを９０度回転させたものを採用する。この際、横書きを配置する場合には配置領域が縦に長い構成であっても、十分な横の長さがあれば横書きにする等の考慮も加える。変換後の文字コードのうち、最も文字数の多い単語が折り返しなく横書きで配置できれば横書きを採用、そうでなければ横書きを９０度回転させたものを採用する。
【００４４】
以上に挙げた方法のいずれかもしくは組み合わせて変換後の文字コードの回転判定を行う。図１３（ｂ）は、図１３（ａ）の文字領域を示していて、１３０１、１３０２の文字の大きさが異なる２つの文字領域の集合がある。これらの文字領域は、文字コードの回転判定の結果、横書きのまま配置すると判定される。複数の文字領域の相対的な大きさの差を考慮して、変換後の文字コードは元の文字サイズの相対的な大きさの差を考慮して設定してもよい。変換後の文字コードは、元の文字領域の位置にこだわることなく、公知の文字再配置技術を用いて再レイアウトしてもよい。
【００４５】
図１２は、１行で文字が配置されていた入力画像（図３（ａ））を２行に段組み変更した合成情報の例、図１３は文字組み方向の判定で横書きのままで配置可能と判定され、文字サイズの相対的な差を考慮しおよび文字レイアウトを再構成した例である。
【００４６】
以上、本発明の実施形態について説明をしてきたが、実施にあたって下記に挙げる形態であってもなんら問題ない。
【００４７】
本実施形態では、判定部２０７の判定と表示データ生成部２０８でのデータ生成は、拡大、縮小の実行時に逐次行うとしている。しかし、画像表示の高速化のため、拡大率ごとの合成情報を予めキャッシュしておき、ユーザから表示指示があった際にはキャッシュしたデータを切り替える方法をとってもよい。
【００４８】
文字が配置領域に収まりきれない場合、まず他の前景がない範囲に配置領域を拡大し、固定表示データを配置する方法もある。しかし、配置領域の拡大ができなかった場合、例えば、図８のように配置領域の周囲にオブジェクト（この場合は金網）があった場合には本実施形態で説明した表示データ生成部に遷移し、配置領域に収まるような表示データを生成してもよい。
【００４９】
また、本発明は、以下の処理を実行することによっても実現される。即ち、上述した実施形態の機能を実現するソフトウェア（プログラム）を、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ（またはＣＰＵやＭＰＵ等）がプログラムを読み出して実行する処理である。
【符号の説明】
【００５０】
２０１：入力画像、２０２：文字領域抽出部、２０３：文字認識部、２０４：変換部、２０５：配置領域抽出部、２０６：配置部、２０７：判定部、２０８：表示データ生成部、２０９：合成部、２１０：合成情報

【特許請求の範囲】
【請求項１】
画像中の文字領域を抽出して文字を認識し、文字コードを生成する文字認識手段と、
前記文字コードを用いて表示用の表示データを生成する生成手段と、
前記表示データに応じて前記文字領域の形状を設定して前記表示データに応じた文字を配置する配置手段と、
を備えたことを特徴とする画像処理装置。
【請求項２】
前記表示データに基づく表示領域は、前記文字領域とは異なる面積の領域であることを特徴とする請求項１に記載の画像処理装置。
【請求項３】
前記表示データは、前記文字を翻訳したデータであることを特徴とする請求項２に記載の画像処理装置。
【請求項４】
前記生成手段は、文字コードの内容を要約したデータにすることを特徴とする請求項１に記載の画像処理装置。
【請求項５】
前記生成手段は、文字コードの配置を変更したデータにすることを特徴とする請求項１に記載の画像処理装置。
【請求項６】
画像中の文字領域を抽出して文字を認識し、文字コードを生成する文字認識工程と、
前記文字コードを用いて表示用の表示データを生成する生成工程と、
前記表示データに応じて前記文字領域の形状を設定して前記表示データに応じた文字を配置する配置工程と、
を備えたことを特徴とする画像処理方法。
【請求項７】
請求項６に記載の方法の各工程をコンピュータにて実行させるプログラム。

【図１】