説明

判定装置及び方法及びプログラム

【課題】 どのような非文字領域が存在するか既知でない書籍内の部分領域を撮影した画像が、文字領域かどうか判定する
【解決手段】 本発明は、入力された判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された未知語の数及び該領域に含まれる文字数の割合に基づいて文字領域か非文字領域かを判定する。また、判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された単語の長さ及び該領域に含まれる文字数の割合に基づいて文字領域か非文字領域かを判定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、判定装置及び方法及びプログラムに係り、特に、改ページや改行位置が確定しているドキュメント内の部分領域の撮影画像を検索クエリとして、該領域が出現するドキュメント及び該ドキュメント内における位置を取得する検索要求に応えるための、ドキュメント及びドキュメント内の各位置のインデックスの作成を支援する判定装置及び方法及びプログラムに関する。
【0002】
詳しくは、改ページや改行位置が確定しているドキュメント内の該領域を含む可能性があるドキュメント及びドキュメント内における位置を網羅的に取得するのではなく、位置を一意に特定したい場合に適用される判定装置及び方法及びプログラムに関する。
【背景技術】
【0003】
ドキュメントの一部領域から、該領域がどのドキュメントに含まれているか、あるいは、どのドキュメントのどの位置に含まれているか一意に特定することが必要なシーンは少なくない。例えば、手元に雑誌の切り抜きがある場合、切り抜いた元の雑誌を探して、切り抜きの続きを読みたいことがある。この場合、該切り抜きがどの雑誌の一部であったか一意に特定できる必要がある。
【0004】
上記の事例は、ドキュメントの一部領域をクエリとし、膨大な量のドキュメント群の中から、該領域を含むドキュメント名、あるいはドキュメント名及びドキュメントにおける位置を問い合わせる検索システムと捉えることができる。
【0005】
そして、ドキュメント群の中から情報を取得する検索要求に応えるシステムを構築するためには、ドキュメント群を事前に分析して検索インデックスを作成する必要がある。
【0006】
例えば、一般技術である形態素解析を用いてドキュメント内の文章から名詞を抽出しておき、図23のように各名詞を検索インデックスのキーとし、該名詞の出現位置(ドキュメント名、ページ)を検索インデックスの値とする方式が挙げられる。
【0007】
上記方式は、図24のように、書籍内で文字が存在する領域(以降「文字領域」とする)をカメラ付き携帯電話で撮影すると、撮影領域がどの位置(書籍名・ページ)か特定し、その領域に予め既定されたコンテンツを提示するシステムに適用できる。
【0008】
本発明では、このシステムを視覚障がい者(全盲、もしくは弱視等により書籍内の文字領域を知覚できない者。以降、「ユーザ」とする。)支援システムに適用するものである。すなわち、ユーザがカメラ付き携帯電話で書籍内の文字領域を撮影すると、その領域を読み上げた音声ファイルを提示するという仕組みである。
【0009】
このとき、ユーザは書籍内のどこに文字があるか知覚できないため、文字領域ではなく、非文字領域、すなわち、書籍内の図・写真が存在する領域や何も印刷されていない領域を撮影してしまうかもしれない。この場合、システムは撮影領域が非文字領域であることを判定し、ユーザに「撮影領域は非文字領域である」と通知する必要がある。
【0010】
しかしながら、どのような非文字領域が存在するか既知でない書籍内の部分領域を撮影した画像が文字領域かどうか判定することは容易ではない。
【0011】
撮影対象が自動車や本棚であれば、文字領域がナンバープレート、背表紙といった矩形内に出現することを利用して、文字領域を推定する方法がある(例えば、非特許文献1、非特許文献2参照)。しかし、書籍内の文字領域が矩形で囲まれていることは少ないため、書籍内について文字領域を推定することは困難である。
【0012】
また、撮影対象が景観中の看板等であれば、文字領域は背景色と文字色の濃淡差が大きいことを利用して、文字領域を特定する技術がある(例えば、非特許文献3参照)。しかし、書籍内には線画や罫線のように背景色との濃淡差が大きい非文字領域がある。
【先行技術文献】
【非特許文献】
【0013】
【非特許文献1】田邊勝義,川島晴美,丸林栄作,仲西正,塩昭夫,大塚作一部分文字列の配置規則を考慮したナンバープレート領域抽出電子情報通信学会論文誌,D-II,情報・システム,II-情報処理 J81-D-2(10),pp.2280-2287.
【非特許文献2】澤木美奈子,村瀬洋,萩田紀博 「劣化推定に基づいた辞書の自動選択による本棚画像中の文字認識」映像情報メディア学会誌,映像情報メディア54(6),pp.881-886.
【非特許文献3】劉詠梅,山村毅,大西昇,杉江昇,「シーン内の文字列領域の抽出について」電子情報通信学会論文誌,D-II,情報・システム,II-情報処理,J81-D-2(4),pp.641-650.
【発明の開示】
【発明が解決しようとする課題】
【0014】
上記のように、書籍には様々な種類があり、出現する非文字領域も様々であるため、文字領域抽出方法を事前に1つに決定することは難しい。仮に単一の種類の非文字領域だけに対応する方法を用いると、想定していない種類の非文字領域を含む書籍に対しては判定精度が低下してしまう。複数の文字領域抽出を併用することも考えられるが、これらの方法は単独でも処理コストが高いため、複数併用することは処理速度の面から実用的とは言い難い。そもそも、今回は画像内に文字領域が含まれるかどうかさえ分かればよく、画像中から文字領域を精度良く抽出することを目的としている上述の従来手法はオーバースペックである。
【0015】
本発明は、上記の点に鑑みなされたもので、どのような非文字領域が存在するか既知でない書籍内の部分領域を撮影した画像が、文字領域かどうか判定することが可能な判定装置及び方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0016】
上記の課題を解決するために、本発明(請求項1)は、文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定装置であって、
判定対象の領域の入力を受け付ける領域入力手段と、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された未知語の数及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定手段と、
前記文字領域判定手段の判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力手段と、を有する。
【0017】
また、本発明(請求項2)は、請求項1の前記文字領域判定手段が、
前記検出された未知語の数が所定値A未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する手段を含む。
【0018】
また、本発明(請求項3)は、請求項1の前記文字領域判定手段が、
前記検出された未知語の数が所定値A未満で、かつ、検出された単語の長さが所定値C以下である単語数の前記領域に含まれる割合が、所定値D未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する手段を含む。
【0019】
また、本発明(請求項4)は、文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定装置であって、
判定対象の領域の入力を受け付ける領域入力手段と、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された単語の長さ及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定手段と、
前記文字領域判定手段の判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力手段と、を有する。
【0020】
また、本発明(請求項5)は、請求項4の前記文字領域判定手段が、
前記検出された単語の長さが所定値C以下の単語数が、所定値D未満であり、前記該領域に所定値B以上の単語を含む場合に文字領域と判定する手段を含む。
【0021】
また、本発明(請求項6)は、請求項3または請求項5の文字領域判定手段における、前記単語の長さの所定値Cを1文字とする。
【0022】
また、本発明(請求項7)は、文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定方法であって、
判定対象の領域の入力を受け付ける領域入力ステップと、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された未知語の数及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定ステップと、
前記文字領域判定ステップの判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力ステップと、を行う。
【0023】
また、本発明(請求項8)は、請求項7の前記文字領域判定ステップにおいて、
前記検出された未知語の数が所定値A未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する。
【0024】
また、本発明(請求項9)は、請求項7の前記文字領域判定ステップにおいて、
前記検出された未知語の数が所定値A未満で、かつ、検出された単語の長さが所定値C以下である単語数の前記領域に含まれる割合が、所定値D未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する。
【0025】
また、本発明(請求項10)は、文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定方法であって、
判定対象の領域の入力を受け付ける領域入力ステップと、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された単語の長さ及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定ステップと、
前記文字領域判定ステップの判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力ステップと、を行う。
【0026】
また、本発明(請求項11)は、請求項10の前記文字領域判定ステップにおいて、
前記検出された単語の長さが所定値C以下の単語数が、所定値D未満であり、前記該領域に所定値B以上の単語を含む場合に文字領域と判定する。
【0027】
また、本発明(請求項12)は、請求項6、または、11の文字領域判定ステップにおいて、前記単語の長さの所定値Cを1文字とする。
【0028】
また、本発明(請求項13)は、請求項1乃至6のいずれか1項に記載の判定装置を構成する各手段としてコンピュータを機能させるためのプログラムである。
【発明の効果】
【0029】
画像が文字領域かどうか判定する際に、従来手法は画像がどのような種類であるか(自動車や本棚の画像か、看板を含む景観画像か等)を既定し、その画像に適した文字領域抽出方法をとることが多く、どのような非文字領域が存在するか既知でない書籍内の部分領域を撮影した画像を分析対象とすることは困難であった。単一種類の画像しか既定しないと文字領域かどうかの判定精度は落ちるし、複数種類の画像を既定し複数種類の文字領域抽出方法を用いると処理コストが大幅に増加してしまう。
【0030】
これに対し、本発明は、画像がどのような種類であるか考慮することなく光学文字認識を実行してしまい、その結果を分析することで文字領域であるかどうかを判定している非常に処理コストの低いシンプルな方法である。
【0031】
本発明により、特に、どのような非文字領域が存在するか既知でない書籍内の部分領域を撮影した画像が、文字領域かどうかシンプルな方法で判定することができる。
【図面の簡単な説明】
【0032】
【図1】本発明の第1の実施の形態におけるシステム構成図である。
【図2】本発明の第1の実施の形態における入力されるドキュメントの例である。
【図3】本発明の第1の実施の形態における単語DBの例である。
【図4】本発明の第1の実施の形態における動作のシーケンスチャートである。
【図5】本発明の第1の実施の形態におけるドキュメントの文字領域抽出の例である。
【図6】本発明の第1の実施の形態における画像ファイルからテキストデータへの変換の例である。
【図7】本発明の第1の実施の形態における単語抽出部での形態素解析の例である。
【図8】本発明の第1の実施の形態における文字領域判定のフローチャートである。
【図9】本発明の第2の実施の形態におけるシステム構成図である。
【図10】本発明の第2の実施の形態における位置DBの例である。
【図11】本発明の第2の実施の形態におけるコンテンツDBの例である。
【図12】本発明の第2の実施の形態における動作のシーケンスチャートである。
【図13】本発明の第2の実施の形態におけるドキュメントの文字領域抽出の例である。
【図14】本発明の第2の実施の形態における画像ファイルからテキストデータへの変換の例である。
【図15】本発明の第2の実施の形態における単語抽出部での形態素解析の例である。
【図16】本発明の第2の実施の形態における文字領域判定のフローチャートである。
【図17】本発明の第2の実施の形態におけるコンテンツ問い合わせの処理のフローチャートである。
【図18】本発明の第3の実施の形態における動作のシーケンスチャートである。
【図19】本発明の第3の実施の形態における各名詞の位置の集計結果である。
【図20】本発明の第4の実施の形態におけるシステム構成図である。
【図21】本発明の第4の実施の形態における動作のシーケンスチャートである。
【図22】本発明の第4の実施の形態における広域の文字領域を撮影した図である。
【図23】名詞の出現位置をインデックスする例である。
【図24】書籍内の文字領域に基づいてコンテンツを提供する例である。
【発明を実施するための形態】
【0033】
以下図面と共に、本発明の実施の形態を説明する。
【0034】
[第1の実施の形態]
本実施の形態では、撮影した領域の文字認識を行い、当該領域に含まれる未知語の数に基づいて文字領域か否かを判定する。
【0035】
図1は、本発明の第1の実施の形態におけるシステム構成を示す。
【0036】
同図に示すシステムは、サーバ部300、クライアント部400、サーバ部300に接続される単語DB201、光学文字認識装置200から構成される。
【0037】
同図におけるサーバ部300は、PCサーバ等の機器で実現でき、サーバ側データ送受信部301、単語抽出部302、文字領域判定部303から構成され、単語抽出部302には単語DB201が、サーバ側データ送受信部301には光学文字認識装置200が接続される。
【0038】
同図におけるクライアント部400は、カメラ付き携帯電話等で実現でき、ドキュメント撮影部401、クライアント側データ送受信部402、判定結果提示部403から構成され、ドキュメント撮影部401にはドキュメント100が入力される。
【0039】
同図におけるドキュメント100は、図2のような文字領域と非文字領域を含む紙媒体書籍の1ページである。
【0040】
図1における光学文字認識装置200は、一般的なOCRソフトウェア等の外部装置であり、文字が写っている画像ファイルを入力とし、写っている文字を電子的なテキストデータに変換したものを出力とする。単語DB201は、一般的なOCRソフトウェア、あるいは形態素解析ソフトウェアが利用する単語辞書であり、我々が常用する単語はほぼすべて網羅されて図3の形式で格納されているとする。光学文字認識装置200は、一般的なOCRソフトウェア同様に、単語DB201を用いなくても文字単位の識別はできるが、単語DB201を用いた方が単語単位の識別が可能になり、結果として全体の識別精度が向上する。
【0041】
次に、上記の構成における、本実施の形態における処理を説明する。
【0042】
図4は、本発明の第1の実施の形態における処理のシーケンスチャートである。
【0043】
ステップ100:入力ステップ) クライアント部400のドキュメント撮影部401は、判定対象となるドキュメントの部分画像を撮影し、クライアント側データ送受信部402を介してサーバ部300に送信する。詳細な処理については、以下のステップ101〜103で説明する。
【0044】
ステップ110:単語抽出ステップ) サーバ部300のサーバ側データ送受信部301は、クライアント部400からのドキュメントの部分画像を取得し、文字領域判定部303において、撮影領域から単語を抽出する。詳細な処理については、以下のステップ104で説明する。
【0045】
ステップ120:文字領域判定ステップ) 文字領域判定部303は、撮影領域が文字領域であるかどうか判定する。詳細な処理については、以下のステップ105で説明する。
【0046】
ステップ130:出力ステップ) 文字領域判定部303は、撮影領域が文字領域であるかどうかの判定結果を出力する。詳細な処理については、以下のステップ106〜108で説明する。
【0047】
以下に上記の処理の詳細を示す。
【0048】
ステップ101) ドキュメント撮影部401は、ドキュメント100の文字領域を撮影して図5のように画像ファイルとして出力する。
【0049】
ステップ102) クライアント側データ送受信部402は、ステップ101の出力を入力として受け付け、画像ファイルのままネットワーク等を通じてサーバ部300に出力する。
【0050】
ステップ103) サーバ側データ送受信部301は、ステップ102の出力を入力として受け付け、光学文字認識装置200を用いて画像ファイル中のテキストを認識してテキストデータに変換したものを、図6のように出力する。前述のとおり、光学文字認識装置200は識別時に単語DB201を用い、単語DB201に登録されている単語は精度良く認識できるが、登録されていない単語・文字の認識精度は低下する。また、このとき、撮影状況がよくないため、正しくは「タイプ」である文字列が「タイフ」と誤認識されたとする。なお、本実施の形態では画像ファイルに写っているのが文字領域であったが、写っている対象が文字領域であるか非文字領域であるかは一切考慮しない。
【0051】
ステップ104) 単語抽出部302は、ステップ103の出力を入力として受け付け、単語を抽出して出力する。ここでは一般技術である形態素解析を用いて単語抽出を行う。形態素解析とは単語辞書を情報源として文を形態素に分割し、各形態素の品詞を判別する一般的な自然言語処理技術である。新語や誤記等、単語辞書に格納されていない語は品詞を判別できないため未知語となる。本実施の形態では単語辞書は単語DB201を用い、ここに格納されておらず品詞を判別できない語は未知語と判定される。ステップ103の入力から単語を抽出すると図7のようになり、これを出力する。例えば、ステップ103で誤認識された「タイフ」や、撮影領域の端で「アンテナ」という語が途切れて生じた「テナ」は存在しない語であるため未知語になる。
【0052】
ステップ105) 文字領域判定部303は、ステップ104の出力を入力として受け付け、撮影領域が文字領域か非文字領域か判定した結果を出力する。
【0053】
判定の際には、図8に示すように、単語抽出部302から入力された未知語と判定された単語の割合が規定値X未満であるかを判定し(ステップ1051)、規定値X未満であれば(ステップ1051、Yes)、判定結果は文字領域であるとし(ステップ1052)、規定値X以上であれば(ステップ1051、No)、判定結果は非文字領域であるとする(ステップ1053)。このように、入力の中で未知語と判定された単語の割合が規定値を下回った場合には文字領域、規定値を上回った場合には非文字領域と判定する。本実施の形態では規定値を50%とし、図7において未知語と判定されている語は50%以下なので「文字領域」と判定される。
【0054】
ステップ106) サーバ側データ送受信部301は、ステップ105の判定結果を入力として受け付け、ネットワークを通じてクライアント部400に出力する。
【0055】
ステップ107) クライアント側データ送受信部402は、ステップ105の判定結果を入力として受け付け、出力する。
【0056】
ステップ108) 判定結果提示部403は、判定結果が文字領域なら「文字領域です」、非文字領域なら「非文字領域です」と音声でアナウンスする。
【0057】
[第2の実施の形態]
本実施の形態は、文字領域を判定する際に、撮影された領域について文字認識を行い、認識結果の未知語の数と1文字の単語の数が規定値未満の場合に文字領域と判定する。
【0058】
本実施の形態は、第1の実施の形態と背景技術で述べた方式を用いて、書籍にカメラ付き携帯電話をかざすとその位置を音声で読み上げる視覚障がい者支援システムの例を示す。
【0059】
図9は、本発明の第2の実施の形態におけるシステム構成を示す。同図において、図1と同一構成部分には同一符号を付し、その説明を省略する。
【0060】
図9におけるサーバ部300は、PCサーバ等の機器で実現でき、サーバ側データ送受信部301、単語抽出部302、文字領域判定部303、検索問い合わせ部304、コンテンツ検索部305、位置DB306、コンテンツDB307から構成される。なお、位置DB306内には背景技術で述べた方法で図10に示すようなデータが作成・格納されている。また、コンテンツDB307内には、書籍内の各領域に対して、各領域を読み上げた音声ファイルが図11のように格納されているとする。
【0061】
図9におけるクライアント部400はカメラ付き携帯電話等で実現でき、ドキュメント撮影部401、クライアント側データ送受信部402、コンテンツ提示部403から構成される。
【0062】
同図におけるドキュメント100、光学文字認識装置200、単語DB201は第1の実施の形態と同様である。
【0063】
以下、上記の構成における動作を説明する。
【0064】
図12は、本発明の第2の実施の形態における動作のシーケンスチャートである。
【0065】
ステップ200:入力ステップ) クライアント部400のドキュメント撮影部401は、判定対象となるドキュメントの部分画像を撮影し、クライアント側データ送受信部402を介してサーバ部300に送信する。詳細な処理については、以下のステップ201〜203で説明する。
【0066】
ステップ210:単語抽出ステップ) サーバ部300のサーバ側データ送受信部301は、クライアント部400からのドキュメントの部分画像を取得し、文字領域判定部303において、撮影領域から単語を抽出する。詳細な処理については、以下のステップ204で説明する。
【0067】
ステップ220:文字領域判定ステップ) 文字領域判定部303は、撮影領域が文字領域であるかどうか判定する。詳細な処理については、以下のステップ205で説明する。
【0068】
ステップ230:出力ステップ) 文字領域判定部303は、撮影領域が文字領域であるかどうかの判定結果に基づいて、コンテンツを出力する。詳細な処理については、以下のステップ206〜209で説明する。
【0069】
以下に上記の処理の詳細を示す。
【0070】
ステップ201) 前述のステップ101と同様の処理を行い、図13のように画像ファイルとして出力する。
【0071】
ステップ202) 前述のステップ102と同様の処理を行う。
【0072】
ステップ203) ステップ103と同様の処理を行う。写っている対象が文字領域であるか非文字領域であるかは一切考慮しないため、出力は図14のようになる。これは、一般的なOCRソフトウェアで文字が記載されていない図領域を文字とみなして認識処理すると、未知語と認識してしまったり、「。」や「・」や「1」といった1文字から構成される単語の羅列として認識してしまったりするためである。
【0073】
ステップ204) 単語抽出部302は、ステップ203の認識を入力として受け付け、単語を抽出して出力する。ここではステップ103と同様に形態素解析を用いて単語抽出を行う。本実施の形態においても単語辞書は図3の形式で単語DB201に格納されており、ここに格納されておらず品詞を判別できない語は未知語と判定される。ステップ203の入力から単語を抽出すると図15のようになり、これを文字領域判定部303に出力する。
【0074】
ステップ205) 文字領域判定部303は、ステップ204の出力を入力として受け付け、撮影領域が文字領域か非文字領域か判定した結果とステップ204で抽出した単語群を出力する。判定の際は図16のフローチャートに従い決定する。まず、入力された単語のうち、未知語と判定された単語の割合が規定値X未満である場合には(ステップ2051、Yes)文字領域(暫定)、規定値X以上である場合には(ステップ2051、No)非文字領域と判定する。本実施の形態では規定値Xを50%とし、図15において未知語と判定されている語は50%未満である。次に、1文字からなる単語の割合が規定値Y未満である場合は(ステップ2052、Yes)文字領域とし(ステップ2053)、規定値Y以上の場合は(ステップ2052、No)非文字領域と判定する(ステップ2054)。本実施の形態では規定値Yを80%とし、図15において1文字からなる単語と判定されている語は80%以上であるため、「非文字領域」と判定される。
【0075】
ステップ206) 検索問い合わせ部304は、ステップ205の判定結果を入力として受け付け、図17のフローチャートに従いコンテンツの問い合わせを行う。入力された判定結果が「文字領域」であれば(ステップ2061、Yes)、同じく入力された単語群をコンテンツ検索部305に入力してコンテンツ(撮影領域を読み上げた音声ファイル)を取得し、該コンテンツを出力する(ステップ2062)。一方、入力された判定結果が「非文字領域」であれば(ステップ2061、No)、「そこには文字はありません」と読み上げた音声ファイル(コンテンツ)を出力する(ステップ2063)。ここでは、ステップ206の入力の判定結果は「非文字領域」なので、コンテンツとして、「そこには文字はありません」と読み上げた音声ファイルが出力されることになる。
【0076】
ステップ207) サーバ側データ送受信部301は、ステップ206の検索されたコンテンツまたは非文字領域を示すコンテンツを受け付け、ネットワークを通じてクライアント部400に出力する。
【0077】
ステップ208) クライアント側データ送受信部402は、ステップ207のコンテンツを受け付け、コンテンツ提示部403に出力する。
【0078】
ステップ209) コンテンツ提示部403は、ステップ208の出力を入力として受け付け、コンテンツである音声ファイルを再生する。ここでは、「そこには文字はありません」という音声ファイルが再生されるので、ユーザは他の領域を撮影するという判断を行うことができる。
【0079】
[第3の実施の形態]
本実施の形態では、第2の実施の形態で文字領域と判定された場合に、当該文字領域に含まれる単語(名詞)を用いてコンテンツ検索を行う。
【0080】
本実施の形態は第2の実施の形態と同一の構成で、文字領域を撮影した場合を説明する。
【0081】
図18は、本発明の第3の実施の形態における動作のシーケンスチャートである。
【0082】
ステップ301) 前述の第2の実施の形態におけるステップ201と同様の処理を行うが、ここでは文字領域を撮影したため図5のような出力を行ったとする。
【0083】
ステップ302) ステップ202と同様の処理を行う。
【0084】
ステップ303) ステップ203と同様の処理を行う。出力は図6のようになる。
【0085】
ステップ304) ステップ204と同様の処理を行う。出力は図7のようになる。
【0086】
ステップ305) ステップ205と同様の処理を行う。本実施の形態では規定値Xを50%、規定値Yを80%とし、図7において未知語と判定されている語は50%未満、1文字からなる単語と判定されている語は80%未満であるため、「文字領域」と判定される。
【0087】
ステップ306) ステップ305の入力の判定結果は「文字領域」なので、同じく入力された単語群をコンテンツ検索部305に入力する。コンテンツ検索部305は、入力された単語群に含まれる各名詞をキーとして位置DB306に問い合わせを行い、得られた結果(各名詞の位置)を図18のように集計し、件数が最多の位置を特定する(この場合は書籍A3ページ)。
【0088】
ステップ307) 次に、特定した位置をキーとしてコンテンツDB307に問い合わせを行い、得られた結果(この場合は「書籍A3ページを読み上げた音声ファイル」)を出力する。
【0089】
ステップ308) ステップ207と同様の処理を行う。
【0090】
ステップ309) ステップ208と同様の処理を行う。ここでは、撮影した領域を読み上げた音声ファイルが再生されるので、ユーザはその領域の内容を理解することができる。
【0091】
[第4の実施の形態]
本実施の形態は、第2の実施の形態を一部変更し、文献1「間野一則,水野秀之,中嶋秀治,宮崎昇,吉田明弘:顧客へのリアルな音声応答を実現するテキスト音声合成技術「Cralinet」電気通信協会 NTT技術ジャーナル 18(11),pp.19-22,2006年11月.」等の技術を用いて、書籍にカメラ付き携帯電話をかざすとその位置を音声で読み上げる視覚障がい者支援システムである。
【0092】
図20は、本発明の第4の実施の形態におけるシステム構成を示す。同図において、図9と同一構成部分には、同一符号を付し、その説明を省略する。
【0093】
図21は、本発明の第4の実施の形態における動作のシーケンスチャートである。
【0094】
ステップ401) 前述の第2の実施の形態におけるステップ201と同様の処理を行うが、ここでは広域の文字領域を撮影したため図22のような出力を行ったとする。
【0095】
ステップ402) ステップ202と同様の処理を行う。
【0096】
ステップ403) ステップ203と同様の処理を行う。
【0097】
ステップ404) ステップ204と同様の処理を行う。
【0098】
ステップ405) ステップ205と同様の処理を行う。本実施の形態では「文字領域」と判定される。
【0099】
ステップ406) コンテンツ作成部306は、ステップ405の出力を入力として受け付け、該入力に基づいて作成したコンテンツを出力する。入力された判定結果が「文字領域」であれば、同じく入力された単語群を連結したテキストの内容を、上記の文献1等の技術を用いて音声として読み上げた音声ファイルに変換する。一方、入力された判定結果が「非文字領域」であれば、「そこには文字はありません」と読み上げた音声ファイルを出力する。
【0100】
ステップ407) ステップ207と同様の処理を行う。
【0101】
ステップ408) ステップ208と同様の処理を行う。ここでは、撮影した領域を読み上げた音声ファイルが再生されるので、ユーザはその領域の内容を理解することができる。
【0102】
なお、上記の第1〜第4の実施の形態における各構成要素の動作をプログラムとして構築し、判定装置として利用されるコンピュータにインストールする、または、ネットワークを介して流通させることが可能である。
【0103】
また、構築されたプログラムをハードディスクや、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
【0104】
なお、本発明は、上記の実施の形態に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
【符号の説明】
【0105】
100 ドキュメント
200 光学文字認識装置
201 単語DB
300 サーバ部
301 サーバ側データ送受信部
302 単語抽出部
303 文字認識判定部
304 コンテンツ問い合わせ部
306 コンテンツ作成部
305 コンテンツ検索部
400 クライアント部
401 ドキュメント撮影部
402 クライアント側データ送受信部
403 判定結果提示部

【特許請求の範囲】
【請求項1】
文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定装置であって、
判定対象の領域の入力を受け付ける領域入力手段と、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された未知語の数及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定手段と、
前記文字領域判定手段の判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力手段と、
を有することを特徴とする判定装置。
【請求項2】
前記文字領域判定手段は、
前記検出された未知語の数が所定値A未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する手段を含む、
請求項1記載の判定装置。
【請求項3】
前記文字領域判定手段は、
前記検出された未知語の数が所定値A未満で、かつ、検出された単語の長さが所定値C以下である単語数の前記領域に含まれる割合が、所定値D未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する手段を含む、
請求項1記載の判定装置。
【請求項4】
文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定装置であって、
判定対象の領域の入力を受け付ける領域入力手段と、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された単語の長さ及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定手段と、
前記文字領域判定手段の判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力手段と、
を有することを特徴とする判定装置。
【請求項5】
前記文字領域判定手段は、
前記検出された単語の長さが所定値C以下の単語数が、所定値D未満であり、前記該領域に所定値B以上の単語を含む場合に文字領域と判定する手段を含む
請求項4記載の判定装置。
【請求項6】
前記単語の長さの所定値Cを1文字とする
請求項3または5記載の判定装置。
【請求項7】
文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定方法であって、
判定対象の領域の入力を受け付ける領域入力ステップと、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された未知語の数及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定ステップと、
前記文字領域判定ステップの判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力ステップと、
を行うことを特徴とする判定方法。
【請求項8】
前記文字領域判定ステップにおいて、
前記検出された未知語の数が所定値A未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する、
請求項7記載の判定方法。
【請求項9】
前記文字領域判定ステップにおいて、
前記検出された未知語の数が所定値A未満で、かつ、検出された単語の長さが所定値C以下である単語数の前記領域に含まれる割合が、所定値D未満で、かつ、該領域に所定値B以上の単語を含む場合に文字領域と判定する、
請求項7記載の判定方法。
【請求項10】
文字、あるいは、写真、あるいは、図、あるいは、表、あるいは、罫線、あるいは、その他の文字ではないものが記載されたドキュメントの全領域、もしくは部分領域を入力として、該領域が文字を一定割合以上含む文字領域であるかどうか判定する判定方法であって、
判定対象の領域の入力を受け付ける領域入力ステップと、
判定対象の領域に文字が記載されているとみなして光学文字認識処理を行った結果、少なくとも、検出された単語の長さ及び該領域に含まれる単語数の割合に基づいて文字領域か非文字領域かを判定する文字領域判定ステップと、
前記文字領域判定ステップの判定結果に基づいて、文字領域または非文字領域のいずれかを出力する判定結果出力ステップと、
を行うことを特徴とする判定方法。
【請求項11】
前記文字領域判定ステップにおいて、
前記検出された単語の長さが所定値C以下の単語数が、所定値D未満であり、前記該領域に所定値B以上の単語を含む場合に文字領域と判定する
請求項10記載の判定方法。
【請求項12】
前記単語の長さの所定値Cを1文字とする
請求項6または11記載の判定方法。
【請求項13】
請求項1乃至6のいずれか1項に記載の判定装置を構成する各手段としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate


【公開番号】特開2011−257952(P2011−257952A)
【公開日】平成23年12月22日(2011.12.22)
【国際特許分類】
【出願番号】特願2010−131356(P2010−131356)
【出願日】平成22年6月8日(2010.6.8)
【新規性喪失の例外の表示】特許法第30条第1項適用申請有り 平成22年2月22日 社団法人情報処理学会発行の「情報処理学会シンポジウムシリーズ Vol.2010.No.4 インタラクション2010 論文集」に発表
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】