文書リンク情報取得システム
【課題】
携帯情報端末で取得した文書の一部を含む画像から文書に関連付けられたリンク情報を得る。
【解決手段】
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各単語の配置情報を関連付けて保持する翻訳辞書を格納する記憶装置と、画像撮影部で撮影された画像から利用者により指定された着目単語パターンとその着目単語パターンの周辺の単語パターンを対象として文字認識処理を行い、単語パターンの文字コードを出力する文字認識部と、利用者により指定された着目単語パターンと着目単語パターンの周辺の単語パターンに関して相対的な配置情報を抽出する抽出部と、着目単語パターンとその着目単語パターンの周辺の単語パターンに関して、文字認識部より得られた文字コードと、抽出部より得られた相対的な配置情報を用いて文に関連するリンク情報を対応付けて保持したデータベースを検索する検索部とを有し、検索部より得られたリンク情報を参照した結果を表示部に表示する。
携帯情報端末で取得した文書の一部を含む画像から文書に関連付けられたリンク情報を得る。
【解決手段】
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各単語の配置情報を関連付けて保持する翻訳辞書を格納する記憶装置と、画像撮影部で撮影された画像から利用者により指定された着目単語パターンとその着目単語パターンの周辺の単語パターンを対象として文字認識処理を行い、単語パターンの文字コードを出力する文字認識部と、利用者により指定された着目単語パターンと着目単語パターンの周辺の単語パターンに関して相対的な配置情報を抽出する抽出部と、着目単語パターンとその着目単語パターンの周辺の単語パターンに関して、文字認識部より得られた文字コードと、抽出部より得られた相対的な配置情報を用いて文に関連するリンク情報を対応付けて保持したデータベースを検索する検索部とを有し、検索部より得られたリンク情報を参照した結果を表示部に表示する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は文書リンク情報システムに係り、特に携帯情報端末で撮影した画像に含まれる文字を認識してその関連リンク情報を得る文書リンク情報システム及び関連リンク情報の取得処理方法に関するものである。
【背景技術】
【0002】
カメラを搭載した携帯電話等の携帯端末で撮影した画像に含まれる文字列の文字を認識して、その認識結果である文字テキストを翻訳する技術が種々提案されている。例えば、特許文献1(特開平09−138802号公報)には、携帯端末内部に文字認識機能と翻訳機能を持ち、これらの機能を利用して、カメラで撮影した画像内の文字列を認識、翻訳処理する翻訳システムが開示されている。
【0003】
また、カメラを搭載した携帯電話等の携帯端末で撮影した画像に対する認識技術応用サービスとして、紙面上に印刷された2次元コードをカメラで読取り、コードに含まれるURL等のリンク情報を取得してリンク先のWEBサイトにアクセスしたり、サイトからデータを取得できることが知られている。特に日本のカメラ付き携帯電話機では2次元コードの認識ソフトが搭載され、雑誌や広告などの紙面上に印刷された2次元コードを電話機搭載のカメラで読取り、そのコードの中に格納されたURL等のリンク情報を取得してWEBサーバに接続するサービスが一般的に行われている。
【0004】
あるいは、OCR(Optical Character Reader、光学文字読取り装置)のソフトをカメラ付き携帯電話機に搭載し、URL文字列の画像をカメラで撮影した後に文字認識してWEBサーバにアクセスする機能が電話機に搭載されている。
【0005】
【特許文献1】特開平09−138802号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
このように2次元コードを紙面に印刷することにより、カメラ付き情報端末を介して紙面の情報とWEBというインターネットの情報を結びつけることが可能になる。しかし、2次元コードを紙面に印刷しようとすると、紙面上で印刷スペースを確保できなかったり、2次元コードの独特なパターンとその大きさから紙面レイアウトを損ねるとして、その印刷が敬遠される傾向があった。
【0007】
URL文字列が紙面に印刷されている時には、そのURLを手入力することで紙面の関連WEBサイトを参照することができるが、URLの文字列を入力するのは利用者の負担が非常に大きい。一方、URLをカメラ撮影して画像を文字認識することで、利用者のURL入力負担を減らすことは可能である。しかし、カメラ解像度の関係上、URL認識時は手ぶれの影響が大きい接写モードで撮影する必要があり、カメラをURL文字列に安定して合わせることが困難であり利用者に対してなお多大な負担を強いていた。
【0008】
加えて、撮影後も電話機の利用者が認識した文字列を目視確認した上で誤読文字を発見した場合にそれを修正する必要がある。誤読文字を修正しないままURLをアクセスすると、正しくそのサイトに行くことができないので注意して確認する必要があり、この作業も利用者の負担を大きくしていた。
【0009】
本発明の目的は、携帯情報端末で文書の一部をカメラで撮影し、撮影された画像に含まれる文字列が文書中のどの場所に存在するかを特定し、その場所に関連付けられているURL等のリンク情報を取得することができる文書リンク情報取得システム、およびリンク情報取得方法を提供することにある。すなわち、2次元コード等の特別なコードやURL等のリンク情報を表す文字列を紙面に印刷することなしに、紙面で文字が印刷された任意の場所にリンク情報を付加することができるシステムと方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明は、画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各単語の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、該画像撮影部で撮影された画像から利用者により指定された着目単語パターンとその着目単語パターンの周辺の単語パターンを対象として文字認識処理を行い、該単語パターンの文字コードを出力する文字認識部と、利用者により指定された着目単語パターンと該着目単語パターンの周辺の単語パターンに関して相対的な配置情報を抽出する抽出部と、該着目単語パターンと該着目単語パターンの周辺の単語パターンに関して、該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システムである。
好ましくは、前記文書リンク情報データベース部は、英文とそのリンクデータを対応付けて格納する。
【0011】
また、他の好ましい例では、文書リンク情報データベース部は、スペースで区切られた単語からなる文と該文に関連するリンク情報を対応付けて格納する。
【0012】
上記相対的な配置情報は、一例によれば、利用者により指定された着目単語パターンの矩形重心から着目単語パターンの各周辺単語パターンの矩形重心に線分を引きその線分間の角度である。
【0013】
また、他の例では、上記相対的な配置情報は、利用者により指定された着目単語パターンが含まれる行、および、着目単語パターンの各周辺単語パターンが含まれる行の相対的な配置情報である。
【0014】
また、他の好ましい例における、本発明に係る文書リンク情報取得システムは、画像撮影部と、利用者に操作されて情報を入力する入力部と、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得るための処理を行うリンク情報取得部と、該リンク情報取得部により得られたリンク情報を参照してリンク先のデータを表示する表示部を有する携帯情報端末を用いた文書リンク情報取得システムにおいて、文書中の各文に関連するリンク情報を対応付けて格納すると共に、
各文に含まれる各形態素の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、該画像撮影部で撮影された画像から利用者により指定された着目形態素パターンとその着目形態素パターンの周辺の形態素パターンに関して文字認識処理を行い、各形態素の文字コードを出力する文字認識部と、
利用者により指定された着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して相対的な配置情報を抽出する抽出部と、該着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して、該文字認識部より得られた文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システムである。
【0015】
また、更に他の好ましい例における、本発明に係る文書リンク情報取得システムは、画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力する文字認識部と、利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出する抽出部と、該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示するする文書リンク情報取得システムである。
【0016】
本発明はまた、上記文書リンク情報取得システムに関する他の例として、前記文書リンク情報データベースを格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、該携帯情報端末の該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を、ネットワークを介して該サーバに送信し、該サーバにおいて該検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、該ネットワークを介して該携帯情報端末に送信する。
【0017】
更に、他の例として、前記文字認識部、前記抽出部、前記翻訳辞書を格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、携帯情報端末の画像撮影部より得られた画像をネットワークを介してサーバに送信し、サーバにおいて検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、ネットワークを介して携帯情報端末に送信する。
【0018】
好ましい例では、この文書リンク情報取得システムにおける前記文書リンク情報データベースは、単語が含まれる文を検索するための単語インデックス部と、該文に含まれる単語の幾何学情報と単語の文字コードを格納した文データ格納部と、各文に関連するリンク情報を格納したリンク情報格納部を有する。
【0019】
本発明は、また上記文書リンク情報取得システムにおいて使用される特徴的な携帯情報端末、又はサーバとして把握される。
更に本発明は、上記文書リンク情報取得システムにおいて、前記抽出部の機能を実現するためのコンピュータ上で実行可能なプログラムとして把握される。
【0020】
更に本発明は、文書リンク情報取得方法として把握される。例えば、画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得方法において、単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを記憶装置内に予め用意するステップと、該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力するステップと、利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出するステップと、該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索するステップと、該検索の結果得られたリンク情報を参照してリンク先のデータを該表示部に表示するステップと、を有する文書リンク情報取得方法である。
好ましい例では、該文書リンク情報データベースの検索の結果、該着目文字パターンを含む1又は複数のリンク情報の候補となる文を該表示部に表示するステップと、複数の候補の場合、該複数の候補の中から利用者により該入力部を介して指定された候補に対応するリンク情報を参照してリンク先のデータを該文書リンク情報データベースから得るステップと、を更に有し、該文書リンク情報データベースから得られたリンク先のデータと該文とを対応させて該表示部に表示するする。
【発明の効果】
【0021】
本発明によれば、2次元コード等の特別なコードやURL等のリンク情報を表す文字列を紙面に印刷することなしに、紙面上の文書に関連付けられたリンク情報を取得して、さらに、取得したリンク情報を参照してリンク先のデータを得ることが可能である。また、リンク情報の参照対象とする文全体をカメラで撮影する必要がなく、文の一部を撮影した部分画像に含まれる単語と単語の配置情報を利用して、該文に関連するリンク情報、および、リンク情報を参照してリンク先のデータを得ることができる。
これにより、従来のように2次元コード等の特別なコードやURL等のリンク情報を表す文字列を紙面に印刷する場合に比べて紙面のレイアウトの自由度が大きくなる。さらに、文全体を撮影する場合に比べて、撮影された画像はリンク情報参照対象文の任意の一部を含んでいれば良いので、撮影の自由度が大きくなり、利用者の使い勝手が大幅に向上する。
【発明を実施するための最良の形態】
【0022】
以下、図面を参照して本発明の実施形態について、説明する。
【0023】
第1の実施形態では、英文に関連付けられたリンク情報取得システムについて示す。予め紙面に印刷された文書と同じ内容の文書データベースを電子的に保持しておき、参照したい文のテキストを用いて文書データベースを全文検索して参照文の記載場所を特定することは可能である。そして、検索して特定された文に対してリンクを付与してあれば、すなわち、文書データベースがハイパーテキスト化されていれば、検索された文に対応するリンクを参照してリンク先のデータを取得することが可能になる。そこで、参照したい文全体をカメラで撮影して文字認識し認識結果のテキストを用いて文書データベースを検索しようとすると、画像歪み等の諸要因により誤読が発生し、正しくテキストを入力することは困難である。
【0024】
そこで、利用者が、参照対象とする英文全体或いは任意の複数の文章全体ではなく、参照対象に含まれる一部の単語を含む画像(部分画像)をカメラで撮影すると、その部分画像に含まれる単語は文字認識された後、その単語をキーにしてデータベースに格納されているリンク参照対象の英文を検索する。さらに、検索結果の英文と対応付けられているリンク情報を検索してリンク先のデータを画面に表示することで、文単位のリンク情報を取得するものである。
【0025】
また、本実施形態においては、その部分画像をキーにしてデータベースに格納されている参照対象の英文を検索するために、英文に含まれる各文字の配置情報も併せてデータベースに予め格納される。その後、撮影された部分画像に含まれる単語の文字コードと配置情報を文字認識処理によって抽出する。その抽出された単語の文字コードと配置情報に関して、データベースに格納されている英文の単語の文字コードと配置情報を検索する。その検索の結果、抽出された英文の単語の配置情報に最も類似した配置の単語を含む英文テキストをデータベースから検索して取得する。そしてその後、検索された英文に対応付けて格納されているリンク情報を取得する。
【0026】
使用される配置情報は、撮影の角度やスケールになるべく依存しない情報が望ましい。例えば、各単語が含まれる行の相対的な配置情報や角度情報である。あるいは、文字や背景の色情報や文字サイズ、さらに、罫線レイアウトや罫線と文字との相対配置関係等も使用することも可能である。
単語の配置情報の例として、部分画像に含まれる単語の相対的な位置関係を表す角度情報を抽出する手順に関しては、例えば、利用者が指定する着目単語”as”と着目単語の上下左右など周りに存在する複数の単語(以下では周辺単語と呼ぶ)に関して文字認識処理により単語の文字コードと各単語の矩形重心座標をそれぞれ抽出する。その後、着目単語の矩形重心から各周辺単語の矩形重心に線分1101〜1105を引きその線分間の角度1106〜1110を計算する。この角度計算は任意の周辺単語重心間について計算してよい。この重心間角度は画像のスケールに依存しないので安定した配置情報となりうる。(これらについては、図11を参照して詳しく後述される。)
以下、図1〜14を参照して第1の実施形態について詳細に説明する。
【0027】
第1の実施形態は、上記の機能乃至構成を携帯情報端末において実現するシステムの例である。
【0028】
図1は、携帯情報端末の構成例を示すブロック図である。
【0029】
携帯情報端末100は例えば携帯電話であり、その本体は、認識対象となる英語の教科書等を光学的に入力するカメラやスキャナなどの画像撮影部110と、認識対象の画像や文字認識結果、カーソル172等を表示する液晶などの表示部120と、利用者がキー操作して情報を入力するキー174〜179を配置した入力部130を備えている。更にその内部の構成として、携帯情報端末の全体の制御を行なう端末制御部140、画像撮影部110から得られた画像に含まれる単語等の認識を行なう文字認識部150、文字認識結果を用いて英文に対応するリンクデータを検索するためのリンクDB検索部160、様々な処理結果データやデータベースを格納するためのメモリ180を有する。
【0030】
端末制御部140は、通信制御部141、画像撮影部110を制御するためのカメラ制御部142、入力部130を制御するためのキー入力制御部143、表示部120を制御するための表示制御部144、文字認識部150やリンクDB検索部160を制御するための文字認識/リンクDB検索制御部145から構成される。文字認識部150は入力された画像から各単語の矩形座標を抽出するための単語矩形座標抽出部151、単語矩形座標抽出部151の出力に基づいて入力画像の矩形座標内の単語認識を行う単語認識部152を有して構成される。
【0031】
メモリ180は、入力部130の操作により取り込まれた画像データ181、文字認識部150による認識結果を格納する単語認識結果データ182、リンクDB検索部160の出力を格納するリンク参照候補文検索結果データ183、及び撮影対象とする英文の文書と各英文に対応したリンクデータを格納するリンクDB(データベース)184、リンクデータを参照した結果を格納するリンク参照データ185を格納する。リンクDB184には英文に含まれる各単語の配置情報も併せて格納される。
【0032】
尚、ここで、文字認識部150、リンクDB検索部160はソフトウェアの実行により実現される機能であってもよい。
【0033】
リンクDB184は、リンクDBがプレインストールされたROMが携帯情報端末100に実装されたことを前提にしてもよい。またはこのリンクDBを格納したSD(Secure Digital)カードなどのメモリ媒体を購入して、そのSDカードからリンクDBをメモリ180のリンクDB184にインストールすることを想定してもよい。また、リンクDB184は半導体メモリのような静的記憶装置に限らず、ハードディスク装置のような記憶装置に格納されてもよい。
【0034】
図2は携帯端末とリンクデータ参照先のデータが格納されているWEBサーバ202がネットワーク201で接続されている構成を示している。WEBサーバ202をアクセスして得られたデータはリンク参照データ185に格納される。
【0035】
次に、図3に示す一連の処理フローを参照して、各英文に関連付けられたリンクデータをアクセス・参照する動作について説明する。
【0036】
なお、図3による全体的な処理動作の説明において、各動作の詳細な説明については更に図4以降の図を参照することがある。
【0037】
まず、利用者は携帯情報端末100の画像撮影部110を用いて文字認識対象となる雑誌や本等の画像を撮影する。撮影された画像はメモリ180中の画像データ181の領域にデジタル画像として格納される(301)。
【0038】
図4にリンクデータ参照対象の英文文書の例を示す。右上に「P24」とページ番号が付されている。401で囲まれた部分は、画像撮影部110で撮影された画像の範囲を示し、画像データ181に格納される。この画像データ181が文字認識部150に入力される画像の範囲である。なお、この例では3行目の”To meet”で始まり5行目の”quality products.”で終わる2番目の文に関するリンク情報を参照するために画像を取り込むことを仮定する。この文書のリンク情報参照のために、本実施形態では2番目の英文を構成する任意の単語が着目対象となり得る。ここでは図1の表示部120に示すように、着目対象を示す「+」のマーク172は、”as”に重なっていると想定する。
【0039】
次に、単語矩形座標抽出部151にて、入力された画像から英単語の場所を示す矩形座標が抽出される(302)。ここでは、図5に示すように、着目している”as”501だけでなく、縦方向に見たときに”as”501の矩形とオーバーラップがある上下の行の単語パターン502、503、506、及び横方向に見たときに”as”の矩形とオーバーラップがあり、”as”に隣接している単語パターン504、505についても近傍の単語パターンとして一緒に矩形座標が抽出される。
【0040】
この矩形座標抽出処理302の動作の詳細について、図6を用いて説明する。
【0041】
画像データ181に格納されている画像401が単語矩形座標抽出部151に入力されると、最初に2値画像が生成される(601)。次に、文字行の大雑把な位置を検出するために、画像の横方向に黒画素を加算して投影分布を求める(602)。
【0042】
図7は画像情報として含まれる文字行の黒画素投影の算出の原理を示す図である。画像の原点は左上であり、702は画像縦方向の座標軸に相当し、703は横方向の投影分布を表す。この投影分布の算出後、文字行の存在する縦方向座標の範囲を求めるため、非零値の範囲704〜708を計算する(603)。求められた文字行の存在する縦方向座標の範囲で、黒画素が連結した塊である連結成分を求めると共にその外接矩形座標もあわせて計算する。そして、連結成分の外接矩形同士の隙間等を参照しながら距離が近い矩形を横方向に統合し(604)、統合された矩形の座標は単語の矩形座標として単語認識結果データ182に格納される(605)。
【0043】
図8は単語認識結果データ182の構成例を示す。
【0044】
817から822は各単語のデータレコードを示しており、810は単語の文字コード格納領域、811は矩形左上X座標、812は矩形左上Y座標、813は矩形右下X座標、814は矩形右下Y座標、815は単語が含まれる行の行番号を表す。816は周辺単語と着目単語を区別するための着目単語フラグであり、着目単語に対しては“1”、それ以外の周辺単語は“0”を格納する。ステップ605の処理では、811から816のデータが格納される。
【0045】
次に、単語認識部152は、抽出された英単語矩形座標501から506に対して抽出された矩形座標内に存在する英単語パターンに関して文字認識処理を行う。具体的には、単語認識結果データ182の811から814の矩形座標データと画像データ181を入力し、認識結果である単語の文字コードを同じ単語認識結果データ182の単語の文字コード格納領域810に出力する(303)。
【0046】
リンクDB検索部160は、単語認識結果データ182の内容を読み出し、リンクDB184に対して、”as”が含まれる英文と対応するリンクデータの検索を行う(304)。”as”など特定の単語が含まれる英文は、一般的に共通のリンクDB184に複数箇所存在する。そのため、複数の英文候補からリンク検索対象英文を絞り込むために、ここでは図5における”as”501の周りに存在する502から506の英単語と”as”501との幾何学的な相対関係を用いる。
【0047】
図9はリンクDB184に格納されるデータの構造を示す。
【0048】
900は当該単語が含まれる英文を検索するための英単語インデックス部、901は英文に含まれる英単語の幾何学情報と英単語の文字コードを格納した英文データ格納部、902は各英文に対応するリンクデータを格納したリンクデータ格納部である。英単語インデックス部900は高速にリンク参照対象の英文データ901を検索するためのインデックステーブルであり、903は単語の文字コードデータ、904は当該単語が文書中に現れる数、905、906は当該単語が含まれる英文データ格納部901へのポインタである。
【0049】
英文データ格納部901において、一つの英文を構成する単語データのレコード916から922の各カラムの内容について説明する。910は英文を構成する英単語データである。911、912は英文が含まれる当該ページの左上を原点とした場合の当該英単語の矩形重心座標であり、911はX座標の値、912はY座標の値を示す。これら座標値は任意の解像度、あるいは、適当なスケールを仮定して決定してよい。913、914はそれぞれ当該単語が含まれるページ数、行番号である。915は単語が含まれる行中において左から数えて何番目の単語であるかを示す。922のレコードは英文の終りを示す”.”(ピリオド)とリンクデータ格納部902へのポインタからなっている。リンクデータ格納部902において、923から925は各英文に対応するリンクデータを示す。リンクデータ格納部902へのポインタは文単位に存在し、一つの英文が一つのリンクデータ、本実施例の場合はURL文字列に対応するようにポインタが張られている。
【0050】
次に、図10を参照してリンク参照候補文の選択処理動作304の詳細について説明する。
【0051】
まず、ステップ303にて抽出された着目単語”as”501の矩形重心から、近傍単語”we”502、”have”503、”resulting”504、”high”505、”create”506の各矩形重心座標に線を引き、その線分間の角度、あるいは、余弦を測定する(1001)。
【0052】
図11を用いてこの処理の詳細を説明する。着目単語”as”の矩形重心から、各近傍単語の矩形重心に引いた線分は1101、1102、1103、1104、1105で示される。例えば、近傍単語”we”、”have”に引かれた線分間の角度は1106で示される。以下、同様に各近傍単語の重心に引かれた線分間の角度を計算する。ここで角度を計算するのは、カメラで撮影した画像のスケールや撮影角度と辞書登録時に単語の位置を表すために使用したスケールや撮影角度が一般には異なるため、これらが変わっても変化しにくい幾何学的相対関係を記述する量を抽出するためである。変化しにくい量に相当すれば任意の量を用いることができ、例えば、各単語が属する相対的な行番号でもよい。”we”、”have”は1行目、”resulting”、”as”、”high”は2行目、”create”3行目等である。あるいは、文字や背景の色情報や文字サイズ、さらに、罫線レイアウトや罫線と文字との相対配置関係等も使用することが可能である。
【0053】
次に、リンクDB184の英文インデックス部900の”as”レコード908を参照して、英文データ格納部901の”as”が含まれる英文データを検索し、さらにその近傍単語が存在するかを検索する(1002)。具体的には、最初に”as”が含まれるレコード919のデータを参照した後、カラム914の行番号の情報を参照しながら”as”が含まれる行の前後の行に存在する単語の中に入力画像から得られた近傍単語を検索する。検索の結果、近傍単語の数が閾値以上か否かを判定する(1003)。判定の結果、近傍単語の数が閾値以上存在すれば、近傍単語が存在したと見なしてステップ1004に進む。一方、閾値以上でなければ、ステップ1007に進む。ここで、近傍単語を全数見つけるのではなく閾値以上としたのは、誤認識により正しい単語が得られない場合を考慮している。
【0054】
次に、得られた近傍単語について、ステップ1001と同様な処理により着目単語”as”の矩形重心から近傍単語の矩形重心に引いた線分間の角度を計算する(1004)。具体的には、近傍単語の矩形重心X座標の値911、および、Y座標の値912を参照して、得られた各近傍単語の矩形重心間の角度とステップ1001で得られた角度との差分を取る。ここでは、計算コストを減らすため角度差分の代わりに角度の余弦差分のことを相違度と定義する。
【0055】
例えば、辞書データに格納された単語矩形座標を用いて、”as”の矩形重心を基点とした単語”we”、”have”の矩形重心座標間の角度余弦計算は以下の通りである。
“as”から“we”への矩形重心ベクトル :a=(x、y)=(330-400、225-300)=(-70、-75)
“as”から“have”への矩形重心ベクトル:b=(x、y)=(470-400、225-300)=(+70、-75)
ベクトルa、b間の余弦=a・b/(‖a‖‖b‖)=0.07
次に、相違度が閾値以下かどうかを判断し(1005)、閾値以下であればステップ1006に進み、閾値を超えていればステップ1007に進む。ステップ1006では、英文データ格納部901において”as”レコード919以降の単語データを検索し、文末の記号である”.”(ピリオド)を含むレコード922を検索する。そして、ピリオドの後ろに格納されているリンクデータへのポインタを取得して、リンク参照候補文検索結果データ183に格納する。
【0056】
この検索結果データ183にはリンクデータへのポインタのみならず、リンク参照対象の英文に含まれる全単語とその単語に付随するレイアウト情報や着目単語を表すフラグ値が格納されている。
【0057】
図12にリンク参照候補文検索結果データ183の構成例を示す。
【0058】
1200はリンク参照候補の英文を構成する単語数であり、1201から1205は当該英文に含まれる各単語の属性データである。1201は単語の文字コード格納領域であり、1202から1204はそれぞれ図9のカラム913から915のデータをコピーして格納しており、各データは単語が存在するページ番号、行番号、行内の左から数えた単語番号である。1205は着目単語を表すフラグであり、着目単語であれば、“1”、それ以外は“0”が格納されており、本フラグは表示部の画面表示制御に用いる。1206から1213はリンク参照英文候補を構成する単語レコードであり、1200で示された数だけレコードが存在する。1214は当該英文に対応するリンクデータへのポインタであり、図9のレコード922のポインタデータをコピーして格納している。
【0059】
上記ステップ1002から1006までの処理をレコード908に格納されている905以降のポインタがなくなるまで、すなわち、”as”という単語へのポインタが無くなるまで繰り返す(1007)。このようにして得られたリンクデータの候補ポインタと英文データをリンク参照候補文検索結果データ183から読み出し、さらに、”as”近傍画像と矩形座標をそれぞれ画像データ181、単語認識結果データ182から読み出し、それらを表示部120上に表示する(1008)。
【0060】
図13にリンク参照英文候補の表示の例を示す。
1300は入力画像の着目単語である”as”を含む行画像を示し、1301は着目単語であることを示す矩形である。1302はリンクDB184を検索した結果、着目単語”as”が存在する位置を示しており、この例では24ページ、5行目の左から3単語目に着目単語”as”が存在することを示している。また、ここでアンダーラインが表示されているが、このアンダーラインが引かれた文字を選択すると、対応するリンク(URL)データをアクセスした結果を表示することができるというハイパーリンクを表しており、このリンクを選択すると図12の1214に格納されているポインタを参照してリンクデータをアクセスした結果が表示できるようになっている。
【0061】
1303は1302の単語を含む英文の表示例であり、表示スペースを節約するために、ここでは英文の先頭・末尾単語、および、着目単語の前後の近傍単語のみを表示している。また、着目単語を明示するために”as”はボールド体で表示されている。1302と1303は対になっており、以下、1304から1307は同様に着目単語の存在位置と着目単語が含まれる英文が対になって表示されている。
【0062】
以上のように図10のステップ1001から1008の処理により、着目単語”as”が含まれる英文と対応するリンクデータ候補を検索し、結果が表示部に表示される。
【0063】
利用者は、図13に表示されたリンク参照英文候補の内から、該当する対象のもの(この例では1302)を入力部130の操作により選択する。その時、検索部160は対応するリンクデータポインタを参照して図9に示すリンクデータ924を検索し(305)、リンクデータであるURLを参照してWEBサーバ202をアクセスして結果をリンク参照データ185に格納すると共に表示部120に表示する(306)。
【0064】
図14にリンクデータのアクセス結果の表示例を示す。
【0065】
1400、1401は図13における1300、1301と同様であり、1402は1303の英文に対応するリンクデータをアクセスした結果であり、図12における1214のポインタを参照した上で、リンクDB184における924(図9)のリンクデータを取得して当該URLをアクセスした結果が表示されている。ここではアクセスしたURLには”Product manufacture Process”の画像データが格納されていることを想定し、そのデータが画面上に表示されている。
【0066】
以上説明したように、図3に示す処理により利用者は英文の一部を撮影することで、文書中でどこを撮影しているかを特定し、該当する英文のリンクデータのアクセス結果を得ることができる。
【0067】
次に、図15〜17、図26を参照して第2の実施形態について説明する。
【0068】
第2の実施形態は、図26に示すように、上述したリンクDB及びその検索手段をリンクデータベース(DB)サーバ203に保持させ、必要に応じて通信ネットワーク201を介してリンクDBサーバ203からデータを携帯情報端末100にダウンロードする例である。202は図2と同様にWEBサーバを表す。即ち、携帯情報端末100では取得された画像から単語認識を行い、その認識結果をサーバ202に送信して、リンクDBサーバ203において認識結果である文字コードを用いてリンクDBを検索し、検索結果を携帯情報端末100に返送して表示するシステム構成とその処理手順について、以下説明する。
【0069】
図15は、第2の実施形態における携帯情報端末のブロック図である。
【0070】
この例も第1の実施形態と同様に英文に関連付けられたリンク情報を取得する例である。図1の構成との主な相違点は、リンクDB184に代わって、リンクデータそのものを格納するリンクデータ186の格納部が設けられること、文字認識/リンクDB検索制御部145による処理手順が変わること等である。
【0071】
図16はリンクDBサーバ203の概略的な構成を示す。
【0072】
リンクDBサーバ203では、通信制御部1601、中央演算装置1602、メモリ1603がバス1600を介して接続されている。メモリ1603にはリンクDB検索プログラム1604が格納されている。このプログラムは図1におけるリンクDB検索部160と同様にリンクDBの検索処理を行うためのプログラムである。単語認識結果データ1605、リンク参照候補文検索結果データ1606、リンクDB1607は、それぞれ図1における単語認識結果データ182、リンク参照候補文検索結果データ183、リンクDB184と同等のデータを格納する領域である。
【0073】
図17は、第2の実施例における携帯情報端末100とリンクDBサーバ203のそれぞれの処理を示すフローチャートである。
【0074】
図において、実線の矢印は処理のフローを示し、点線の矢印はデータの流れを示す。
【0075】
画像入力処理(1701)から英単語認識処理(1703)は、図3におけるステップ301から303と同様であり、画像撮影部110により撮影されたリンク参照対象の文を部分的に含む画像から英単語を認識し、認識結果を単語認識結果データ182に格納する。次に文字認識/リンクDB検索制御部145は単語認識結果データ182に格納された英単語認識結果データを、通信制御部141を介してリンクDBサーバ203に送信する(1704)。
【0076】
リンクDBサーバ203では、携帯情報端末100から送信された単語認識結果データを受信して、そのデータを単語認識結果データ1605に格納する(1710)。その後、リンクDB検索プログラム1604を実行してリンクDB1607を検索してリンク参照候補文の検索を行なう(1711)。この処理は、単語認識結果データ1605を用いて図10のステップ1001から1007と同様な処理手順でリンクDB1607を検索し、検索結果をメモリ1603のリンク参照候補文検索結果データ1606に格納する処理である。
【0077】
次に、サーバ202は、メモリ1603に格納されたリンク参照候補文検索結果データ1606を携帯情報端末100に送信し(1712)、携帯情報端末100ではそのデータを受信して、リンク参照候補文検索結果データ183に格納する(1705)。
【0078】
そして携帯情報端末100では、リンク参照候補文検索結果データ183を参照して、図13に示すようなリンク参照候補検索結果を表示部120に表示する。利用者は、表示部に表示されたリンク候補から1つを選択する(1706)。選択結果として図12における英文に対応するリンクデータへのポインタ1214のデータのみをサーバ202に対して送信する(1707)。
【0079】
リンクDBサーバ203では、携帯情報端末100から送信されたリンクデータへのポインタを受信し(1713)、受信したポインタを参照して対応するリンクデータを検索する(1714)。そして、その検索の結果得られたリンクデータを携帯情報端末100に送信する(1715)。携帯情報端末100では、検索されたリンクデータを受信して、メモリ180のリンクデータ186に格納し(1708)、そのリンクデータであるURLを参照してWEBサーバ203をアクセスして参照データをリンク参照データ185に格納すると共に表示部120に表示する(1709)。表示部120の表示画面の内容は、図12と同様である。
【0080】
以上のように図17に示す処理動作により、利用者はリンク参照とする英文全体を撮影する必要がなく、リンクDBサーバ203に備えられたリンクDB1607、及びそのDBを検索する検索手段を利用してネットワークを介して目的のリンクデータを得ることができる。第1、第2の実施例ではリンクDB184、リンクDB1607におけるリンクデータ格納部902にはリンク情報であるURLの文字列を格納したが、リンク情報の代わりに画像等の実際に参照されるデータを格納してもよい。
【0081】
次に、図18〜図25を参照して第3の実施形態について説明する。
【0082】
この例は和文に埋め込まれたリンクデータを参照する例である。英文の場合には単語と単語の間に空白が在る(第1、2の実施形態の場合)。しかし本実施形態における和文の場合には、文字認識対象となる和文は空白による単語の区切れ目のない文である。和文の場合、英単語に相当するのは和文の構成要素である「形態素」に着目するものであり、「形態素」に対する文字認識と、それを用いたリンク候補文検索に特徴がある。以下、図面を参照して説明する。
【0083】
図18は、携帯情報端末の構成を示すブロック図である。
【0084】
図1に示した携帯情報端末100の構成との主な相違点は、文字認識部150の構成及び処理動作にある。即ち、図18に示す形態情報端末100の文字認識部150の文字行座標抽出部1501、形態素認識部1502は、それぞれ図1の単語矩形座標抽出部151、単語認識部152に対応する。メモリ180では文字行座標データ1804が新たに追加された。形態素認識結果データ1805、リンク参照候補文検索結果データ1806、リンクDB1807、リンク参照データ1808は、それぞれ図1の182、183、184、185に対応する。
【0085】
図19は第3の実施形態のリンク処理フローを示す。以下、図19を用いて図18の携帯情報端末の処理動作について説明する。
【0086】
まず、画像撮影部110で撮影された文字認識対象画像が入力される(1901)。
【0087】
図20に、認識対象となる和文の文書の例を示す。右上に「P24」とページ番号の表示がある。2001は、画像撮影部110で撮影されて取り込まれた画像の範囲を示し、この範囲の画像が文字認識部150に入力される。この例では、3行目の「これに応える・・・」で始まり、5行目の「・・・努めています。」で終わる2番目の文に張られたリンクデータにアクセスするために画像を取り込むことを仮定する。この文書からリンク情報を抽出するために、この実施形態では2番目の和文を構成する任意の形態素が着目対象となり得る。ここでは着目対象を示す「+」のマークは5行目の「製品」に重なっていると想定する。
【0088】
文字認識部150の文字行抽出部1501にて、入力された画像から文字行の場所を示す矩形座標を抽出する(1902)。この処理は、図3のステップ302と同様な処理である。ここで、着目している「製品」を含む文字行座標だけでなく、上下の文字行座標も合わせて出力される。ステップ302では単語単位の矩形座標を抽出したが、日本語の場合は単語の区切れ目に相当する空白は存在しない。そこで、図7に示すような行方向の黒画素射影を取って行の位置を計算した後は、その中に含まれる近接した連結成分を統合して文字行の矩形座標を計算し、文字行座標データ1804に格納する。
【0089】
抽出された文字行の矩形座標に対して形態素認識部1502は抽出された矩形座標内に存在する文字パターンに対して文字認識処理を行うと共に形態素解析を行い、文字認識結果として各形態素の文字コードと形態素に対応する矩形の重心座標を形態素認識結果データ1805に出力する(1903)。ここで、図21に示すように「製品」2101の矩形座標と横方向にオーバーラップがある上下の文字行の形態素パターン、および、「製品」の隣接形態素パターン2102〜2109に対する文字コードと矩形重心座標が抽出される。
【0090】
図22に形態素認識結果データ1805の構成を示す。
【0091】
2216から2224は各形態素のデータレコードを示す。また2210は形態素の文字コード格納領域を示し、2211から2214はそれぞれ形態素矩形の左上X座標、左上Y座標、右下X座標、右下Y座標を示す。2215は形態素が含まれる行の行番号を示す。2216は周辺形態素と着目形態素を区別するための着目形態素フラグであり、着目形態素に対しては“1”、それ以外の周辺形態素は“0”を格納する。
【0092】
文字認識結果はリンクDB1807に渡され、実施例1で説明した処理と同様な方法により、文字認識結果をキーとして「製品」が含まれる和文と対応するリンクデータ候補の検索を行う(1904)。
【0093】
図23にリンクDB1807に格納されるデータの構造を示す。2300は当該形態素が含まれる和文を検索するための形態素インデックス部、2301は和文データ格納部、2302はリンクデータ格納部である。形態素インデックス部2300において、2303は形態素データ、2304は当該形態素が文書中に現れる数、2305、2306は当該形態素が含まれる和文データ格納部2301へのポインタである。
【0094】
和文データ格納部2301において、一つの和文を構成する形態素データのレコード2316から2322の各カラムの内容について説明する。2310は和文を構成する形態素データである。2311、2312は和文が含まれる当該ページの左上を原点とした場合の当該形態素の矩形重心座標であり、2311はX座標の値、2312はY座標の値を示す。2313、2314はそれぞれ当該形態素が含まれるページ数、行番号である。2315は形態素が含まれる行中において左から数えて何番目の形態素であるかを示す。2322のレコードは和文の終りを示す”。”(読点)とリンクデータ格納部2302へのポインタからなっている。リンクデータ格納部2302において、2323から2325は各和文に対応するリンクデータを示す。
【0095】
ステップ1904では、第1の実施例と同様に形態素間の相対的な配置情報を用いてリンクデータポインタとそれに対応する和文データをリンクDBから検索し表示部上に表示し、利用者は該当すると思われる参照候補のリンクデータポインタを選択する。
【0096】
図24を参照してステップ1904の詳細を説明する。
【0097】
まず、ステップ1903で抽出された着目形態素「製品」の矩形重心から図21に示す近傍形態素2102から2109への各矩形銃身座標に線を引き、図10のステップ1001と同様にその線分間の角度、あるいは、余弦を測定する(2401)。
【0098】
次に、リンクDB1807の形態素インデックス部2300の「製品」レコード2308を参照して和文データ格納部2301の「製品」が含まれる和文データを検索し、さらに、その近傍形態素が存在するかをステップ1002と同様な処理手順により検索する(2402)。検索の結果、近傍形態素の数が閾値以上であるか否かを判定する。閾値以上であれば、近傍形態素が存在したと見なしてステップ2404に進む。これに対して、閾値以上でなければステップ2407に進む(2403)。
【0099】
近傍形態素の数が閾値以上である場合、得られた近傍形態素について、ステップ2401と同様な処理により着目形態素「製品」の矩形重心から近傍形態素の矩形重心に引いた線分間の角度を計算し、相違度を計算する(2404)。この計算はステップ1004と同様な計算処理である。その後、相違度が閾値以下かどうかを判断し(2405)、閾値以下であればステップ2406に進み、閾値を超えていればステップ2407に進む。
【0100】
相違度が閾値以下の場合、和文データ格納部2301において「製品」レコード2319以降の単語データを検索し、文末の記号である「。」(読点)を含むレコード2322を検索する。そして、読点の後ろに格納されているリンクデータへのポインタを取得して、リンク参照候補文検索結果データ1806に格納する(2406)。
【0101】
図25にリンク参照候補文検索結果データ1806の構成例を示す。
【0102】
2501はリンク参照候補の和文を構成する形態素数であり、2502から2506はこの和文に含まれる各形態素の属性データである。2502は形態素の文字コード格納領域であり、2503から2505はそれぞれ図23のカラム2313から2315のデータをコピーして格納しており、各データは形態素が存在するページ番号、行番号、行内の左から数えた形態素番号である。2306は着目形態素を表すフラグであり、着目形態素であれば、“1”、それ以外は“0”が格納されており、本フラグは表示部の画面表示制御に用いる。
【0103】
2507から2513はリンク参照候補の和文を構成する形態素レコードであり、2501で示された数だけレコードが存在する。2514は当該和文に対応するリンクデータへのポインタであり、図23のレコード2322のポインタデータをコピーして格納している。
【0104】
上記ステップ2402から2406までの処理をレコード2308に格納されている2305以降のポインタがなくなるまで、すなわち、「製品」という形態素へのポインタが無くなるまで繰り返す(2407)。このようにして得られたリンクデータの候補ポインタと和文データをリンク参照候補文検索結果データ1806から読み出し、さらに、「製品」近傍画像と矩形座標をそれぞれ画像データ181、形態素認識結果データ1804から読み出し、それらを表示部120に表示する(2408)。
【0105】
以上のように、図24に示す処理により、着目形態素「製品」が含まれる和文と対応するリンクデータ候補を検索し、結果が表示部に表示される。参照候補リンクデータの内、該当するリンクデータに関係するポインタを利用者が選択すると、対応するリンクデータをリンクDB1807から検索する(1905)。そして、リンクデータであるURLを参照してWEBサーバ202をアクセスして、結果をリンク参照データ1808に格納すると共に表示部120に表示する(1906)。
【0106】
以上のように図19に示す処理により、利用者は和文の一部を撮影することで、文書中でどこを撮影しているかを特定し、該当する和文のリンクデータのアクセス結果を得ることができる。
【0107】
上記実施例では形態素を単位として説明したが、ここでは表示部上の「+」印がどのリンク参照対象の和文を指しているかが分ればよい。従って、代替例においては、形態素を単位にして文字認識や検索処理を行なわないで、任意の文字長、例えば1文字や2文字と設定した文字列を形態素の代わりに処理を行ってもよい。
【0108】
更に、他の変形例について説明する。図9のリンクDBでは文単位にリンクデータへのポインタを設けた。しかし、これは文単位にする必要はなく、単語単位にリンクデータへのポインタを設けることは可能である。図27、図28が単語単位にポインタを格納した場合の変更箇所であり、それぞれ、図9のリンクDB、図12の参照対象候補文検索結果データに対応する。930のカラムは図9の922に格納されているようなリンクデータ格納部902へのポインタであり、931から938で示すように単語毎にポインタが格納されている。939から941は単語毎に関連付けられたリンク情報である。図28ではカラム1205の右側に1220で示すようなポインタが単語毎に挿入されており、例えば1224から1226のカラム1220のポインタは、図27における933から935のカラム930に格納されたポインタをコピーして保存している。本実施例では着目単語として1225レコードの1205のカラムに”1”のフラグが立っているので、1225のレコードのポインタを参照して940のリンクデータを取得する。同様な構成を設けることにより単語単位の他、和文の場合は形態素単位、あるいは、文字単位にリンクデータと関連付けることが可能である。さらに、文単位の他、節単位、章単位など、任意の単位でリンクデータへのポインタを設けることも可能である。
【図面の簡単な説明】
【0109】
【図1】第1実施形態による携帯情報端末を用いた文書リンクシステムの構成を示す図、
【図2】第1実施形態による携帯情報端末及びWEBサーバを含む文書リンクシステムを示す図。
【図3】第1実施形態におけるリンクデータ参照処理フローを示す図。
【図4】第1実施形態におけるリンク参照対象の英文の例を示す図。
【図5】第1実施形態における単語矩形座標の抽出例を示す図
【図6】第1実施形態における英単語矩形座標抽出302の処理フローを示す図。
【図7】第1実施形態における英単語矩形座標抽出302のための黒画素投影処理の原理を説明するための図。
【図8】第1実施形態における単語認識結果データ182の構成例を示す図。
【図9】第1実施形態における英文に関連付けられたリンクデータを格納するリンクDB184の構成を示す図。
【図10】第1実施形態における英文に関連付けられたリンク情報を検索するためのリンクDB検索処理フローを示す図。
【図11】第1実施形態における着目単語を基準として周辺単語間の角度測定の説明図。
【図12】第1実施形態における英文の参照対象候補文検索結果データの構成例を示す図。
【図13】第1実施形態におけるリンク参照対象英文候補の表示例を示す図。
【図14】第1実施形態におけるリンクデータの参照結果の表示例を示す図。
【図15】第2実施形態による携帯情報端末の構成を示す図。
【図16】第2実施形態によるリンクDBサーバの構成を示す図。
【図17】第2実施形態におけるリンクデータ参照処理フローを示す図。
【図18】第3実施形態による携帯情報端末の構成を示す図。
【図19】第3実施形態におけるリンクデータ参照処理フローを示す図。
【図20】第3実施形態における文字認識・リンク参照対象の和文の例を示す図。
【図21】第3実施形態における形態素矩形座標の抽出例を示す図。
【図22】第3実施形態における形態素認識結果データの構成例を示す図。
【図23】第3実施形態における和文に関連付けられたリンクデータを格納するリンクDB1807の構成を示す図。
【図24】第3実施形態における和文に関連付けられたリンクデータを検索するためのリンクDBの検索処理フローを示す図。
【図25】第3実施形態における和文のリンク参照候補文検索結果データ1806の構成例を示す図。
【図26】第2実施形態による携帯情報端末及びWEBサーバ、リンクデータベースサーバを含む文書リンクシステムを示す図。
【図27】第1実施形態における英単語に関連付けられたリンクデータを格納するリンクDB184の構成を示す図。
【図28】第1実施形態における単語単位のポインタを格納した参照対象候補文検索結果データの構成例を示す図。
【符号の説明】
【0110】
100・・・携帯情報端末、110・・・画像撮影部、120・・・表示部、130・・・キー入力部、140・・・端末制御部、150・・・文字認識部、160・・・リンクDB検索部、180・・・メモリ、184・・・リンクDB、202・・・サーバ
【技術分野】
【0001】
本発明は文書リンク情報システムに係り、特に携帯情報端末で撮影した画像に含まれる文字を認識してその関連リンク情報を得る文書リンク情報システム及び関連リンク情報の取得処理方法に関するものである。
【背景技術】
【0002】
カメラを搭載した携帯電話等の携帯端末で撮影した画像に含まれる文字列の文字を認識して、その認識結果である文字テキストを翻訳する技術が種々提案されている。例えば、特許文献1(特開平09−138802号公報)には、携帯端末内部に文字認識機能と翻訳機能を持ち、これらの機能を利用して、カメラで撮影した画像内の文字列を認識、翻訳処理する翻訳システムが開示されている。
【0003】
また、カメラを搭載した携帯電話等の携帯端末で撮影した画像に対する認識技術応用サービスとして、紙面上に印刷された2次元コードをカメラで読取り、コードに含まれるURL等のリンク情報を取得してリンク先のWEBサイトにアクセスしたり、サイトからデータを取得できることが知られている。特に日本のカメラ付き携帯電話機では2次元コードの認識ソフトが搭載され、雑誌や広告などの紙面上に印刷された2次元コードを電話機搭載のカメラで読取り、そのコードの中に格納されたURL等のリンク情報を取得してWEBサーバに接続するサービスが一般的に行われている。
【0004】
あるいは、OCR(Optical Character Reader、光学文字読取り装置)のソフトをカメラ付き携帯電話機に搭載し、URL文字列の画像をカメラで撮影した後に文字認識してWEBサーバにアクセスする機能が電話機に搭載されている。
【0005】
【特許文献1】特開平09−138802号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
このように2次元コードを紙面に印刷することにより、カメラ付き情報端末を介して紙面の情報とWEBというインターネットの情報を結びつけることが可能になる。しかし、2次元コードを紙面に印刷しようとすると、紙面上で印刷スペースを確保できなかったり、2次元コードの独特なパターンとその大きさから紙面レイアウトを損ねるとして、その印刷が敬遠される傾向があった。
【0007】
URL文字列が紙面に印刷されている時には、そのURLを手入力することで紙面の関連WEBサイトを参照することができるが、URLの文字列を入力するのは利用者の負担が非常に大きい。一方、URLをカメラ撮影して画像を文字認識することで、利用者のURL入力負担を減らすことは可能である。しかし、カメラ解像度の関係上、URL認識時は手ぶれの影響が大きい接写モードで撮影する必要があり、カメラをURL文字列に安定して合わせることが困難であり利用者に対してなお多大な負担を強いていた。
【0008】
加えて、撮影後も電話機の利用者が認識した文字列を目視確認した上で誤読文字を発見した場合にそれを修正する必要がある。誤読文字を修正しないままURLをアクセスすると、正しくそのサイトに行くことができないので注意して確認する必要があり、この作業も利用者の負担を大きくしていた。
【0009】
本発明の目的は、携帯情報端末で文書の一部をカメラで撮影し、撮影された画像に含まれる文字列が文書中のどの場所に存在するかを特定し、その場所に関連付けられているURL等のリンク情報を取得することができる文書リンク情報取得システム、およびリンク情報取得方法を提供することにある。すなわち、2次元コード等の特別なコードやURL等のリンク情報を表す文字列を紙面に印刷することなしに、紙面で文字が印刷された任意の場所にリンク情報を付加することができるシステムと方法を提供することにある。
【課題を解決するための手段】
【0010】
本発明は、画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各単語の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、該画像撮影部で撮影された画像から利用者により指定された着目単語パターンとその着目単語パターンの周辺の単語パターンを対象として文字認識処理を行い、該単語パターンの文字コードを出力する文字認識部と、利用者により指定された着目単語パターンと該着目単語パターンの周辺の単語パターンに関して相対的な配置情報を抽出する抽出部と、該着目単語パターンと該着目単語パターンの周辺の単語パターンに関して、該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システムである。
好ましくは、前記文書リンク情報データベース部は、英文とそのリンクデータを対応付けて格納する。
【0011】
また、他の好ましい例では、文書リンク情報データベース部は、スペースで区切られた単語からなる文と該文に関連するリンク情報を対応付けて格納する。
【0012】
上記相対的な配置情報は、一例によれば、利用者により指定された着目単語パターンの矩形重心から着目単語パターンの各周辺単語パターンの矩形重心に線分を引きその線分間の角度である。
【0013】
また、他の例では、上記相対的な配置情報は、利用者により指定された着目単語パターンが含まれる行、および、着目単語パターンの各周辺単語パターンが含まれる行の相対的な配置情報である。
【0014】
また、他の好ましい例における、本発明に係る文書リンク情報取得システムは、画像撮影部と、利用者に操作されて情報を入力する入力部と、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得るための処理を行うリンク情報取得部と、該リンク情報取得部により得られたリンク情報を参照してリンク先のデータを表示する表示部を有する携帯情報端末を用いた文書リンク情報取得システムにおいて、文書中の各文に関連するリンク情報を対応付けて格納すると共に、
各文に含まれる各形態素の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、該画像撮影部で撮影された画像から利用者により指定された着目形態素パターンとその着目形態素パターンの周辺の形態素パターンに関して文字認識処理を行い、各形態素の文字コードを出力する文字認識部と、
利用者により指定された着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して相対的な配置情報を抽出する抽出部と、該着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して、該文字認識部より得られた文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システムである。
【0015】
また、更に他の好ましい例における、本発明に係る文書リンク情報取得システムは、画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力する文字認識部と、利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出する抽出部と、該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示するする文書リンク情報取得システムである。
【0016】
本発明はまた、上記文書リンク情報取得システムに関する他の例として、前記文書リンク情報データベースを格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、該携帯情報端末の該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を、ネットワークを介して該サーバに送信し、該サーバにおいて該検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、該ネットワークを介して該携帯情報端末に送信する。
【0017】
更に、他の例として、前記文字認識部、前記抽出部、前記翻訳辞書を格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、携帯情報端末の画像撮影部より得られた画像をネットワークを介してサーバに送信し、サーバにおいて検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、ネットワークを介して携帯情報端末に送信する。
【0018】
好ましい例では、この文書リンク情報取得システムにおける前記文書リンク情報データベースは、単語が含まれる文を検索するための単語インデックス部と、該文に含まれる単語の幾何学情報と単語の文字コードを格納した文データ格納部と、各文に関連するリンク情報を格納したリンク情報格納部を有する。
【0019】
本発明は、また上記文書リンク情報取得システムにおいて使用される特徴的な携帯情報端末、又はサーバとして把握される。
更に本発明は、上記文書リンク情報取得システムにおいて、前記抽出部の機能を実現するためのコンピュータ上で実行可能なプログラムとして把握される。
【0020】
更に本発明は、文書リンク情報取得方法として把握される。例えば、画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得方法において、単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを記憶装置内に予め用意するステップと、該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力するステップと、利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出するステップと、該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索するステップと、該検索の結果得られたリンク情報を参照してリンク先のデータを該表示部に表示するステップと、を有する文書リンク情報取得方法である。
好ましい例では、該文書リンク情報データベースの検索の結果、該着目文字パターンを含む1又は複数のリンク情報の候補となる文を該表示部に表示するステップと、複数の候補の場合、該複数の候補の中から利用者により該入力部を介して指定された候補に対応するリンク情報を参照してリンク先のデータを該文書リンク情報データベースから得るステップと、を更に有し、該文書リンク情報データベースから得られたリンク先のデータと該文とを対応させて該表示部に表示するする。
【発明の効果】
【0021】
本発明によれば、2次元コード等の特別なコードやURL等のリンク情報を表す文字列を紙面に印刷することなしに、紙面上の文書に関連付けられたリンク情報を取得して、さらに、取得したリンク情報を参照してリンク先のデータを得ることが可能である。また、リンク情報の参照対象とする文全体をカメラで撮影する必要がなく、文の一部を撮影した部分画像に含まれる単語と単語の配置情報を利用して、該文に関連するリンク情報、および、リンク情報を参照してリンク先のデータを得ることができる。
これにより、従来のように2次元コード等の特別なコードやURL等のリンク情報を表す文字列を紙面に印刷する場合に比べて紙面のレイアウトの自由度が大きくなる。さらに、文全体を撮影する場合に比べて、撮影された画像はリンク情報参照対象文の任意の一部を含んでいれば良いので、撮影の自由度が大きくなり、利用者の使い勝手が大幅に向上する。
【発明を実施するための最良の形態】
【0022】
以下、図面を参照して本発明の実施形態について、説明する。
【0023】
第1の実施形態では、英文に関連付けられたリンク情報取得システムについて示す。予め紙面に印刷された文書と同じ内容の文書データベースを電子的に保持しておき、参照したい文のテキストを用いて文書データベースを全文検索して参照文の記載場所を特定することは可能である。そして、検索して特定された文に対してリンクを付与してあれば、すなわち、文書データベースがハイパーテキスト化されていれば、検索された文に対応するリンクを参照してリンク先のデータを取得することが可能になる。そこで、参照したい文全体をカメラで撮影して文字認識し認識結果のテキストを用いて文書データベースを検索しようとすると、画像歪み等の諸要因により誤読が発生し、正しくテキストを入力することは困難である。
【0024】
そこで、利用者が、参照対象とする英文全体或いは任意の複数の文章全体ではなく、参照対象に含まれる一部の単語を含む画像(部分画像)をカメラで撮影すると、その部分画像に含まれる単語は文字認識された後、その単語をキーにしてデータベースに格納されているリンク参照対象の英文を検索する。さらに、検索結果の英文と対応付けられているリンク情報を検索してリンク先のデータを画面に表示することで、文単位のリンク情報を取得するものである。
【0025】
また、本実施形態においては、その部分画像をキーにしてデータベースに格納されている参照対象の英文を検索するために、英文に含まれる各文字の配置情報も併せてデータベースに予め格納される。その後、撮影された部分画像に含まれる単語の文字コードと配置情報を文字認識処理によって抽出する。その抽出された単語の文字コードと配置情報に関して、データベースに格納されている英文の単語の文字コードと配置情報を検索する。その検索の結果、抽出された英文の単語の配置情報に最も類似した配置の単語を含む英文テキストをデータベースから検索して取得する。そしてその後、検索された英文に対応付けて格納されているリンク情報を取得する。
【0026】
使用される配置情報は、撮影の角度やスケールになるべく依存しない情報が望ましい。例えば、各単語が含まれる行の相対的な配置情報や角度情報である。あるいは、文字や背景の色情報や文字サイズ、さらに、罫線レイアウトや罫線と文字との相対配置関係等も使用することも可能である。
単語の配置情報の例として、部分画像に含まれる単語の相対的な位置関係を表す角度情報を抽出する手順に関しては、例えば、利用者が指定する着目単語”as”と着目単語の上下左右など周りに存在する複数の単語(以下では周辺単語と呼ぶ)に関して文字認識処理により単語の文字コードと各単語の矩形重心座標をそれぞれ抽出する。その後、着目単語の矩形重心から各周辺単語の矩形重心に線分1101〜1105を引きその線分間の角度1106〜1110を計算する。この角度計算は任意の周辺単語重心間について計算してよい。この重心間角度は画像のスケールに依存しないので安定した配置情報となりうる。(これらについては、図11を参照して詳しく後述される。)
以下、図1〜14を参照して第1の実施形態について詳細に説明する。
【0027】
第1の実施形態は、上記の機能乃至構成を携帯情報端末において実現するシステムの例である。
【0028】
図1は、携帯情報端末の構成例を示すブロック図である。
【0029】
携帯情報端末100は例えば携帯電話であり、その本体は、認識対象となる英語の教科書等を光学的に入力するカメラやスキャナなどの画像撮影部110と、認識対象の画像や文字認識結果、カーソル172等を表示する液晶などの表示部120と、利用者がキー操作して情報を入力するキー174〜179を配置した入力部130を備えている。更にその内部の構成として、携帯情報端末の全体の制御を行なう端末制御部140、画像撮影部110から得られた画像に含まれる単語等の認識を行なう文字認識部150、文字認識結果を用いて英文に対応するリンクデータを検索するためのリンクDB検索部160、様々な処理結果データやデータベースを格納するためのメモリ180を有する。
【0030】
端末制御部140は、通信制御部141、画像撮影部110を制御するためのカメラ制御部142、入力部130を制御するためのキー入力制御部143、表示部120を制御するための表示制御部144、文字認識部150やリンクDB検索部160を制御するための文字認識/リンクDB検索制御部145から構成される。文字認識部150は入力された画像から各単語の矩形座標を抽出するための単語矩形座標抽出部151、単語矩形座標抽出部151の出力に基づいて入力画像の矩形座標内の単語認識を行う単語認識部152を有して構成される。
【0031】
メモリ180は、入力部130の操作により取り込まれた画像データ181、文字認識部150による認識結果を格納する単語認識結果データ182、リンクDB検索部160の出力を格納するリンク参照候補文検索結果データ183、及び撮影対象とする英文の文書と各英文に対応したリンクデータを格納するリンクDB(データベース)184、リンクデータを参照した結果を格納するリンク参照データ185を格納する。リンクDB184には英文に含まれる各単語の配置情報も併せて格納される。
【0032】
尚、ここで、文字認識部150、リンクDB検索部160はソフトウェアの実行により実現される機能であってもよい。
【0033】
リンクDB184は、リンクDBがプレインストールされたROMが携帯情報端末100に実装されたことを前提にしてもよい。またはこのリンクDBを格納したSD(Secure Digital)カードなどのメモリ媒体を購入して、そのSDカードからリンクDBをメモリ180のリンクDB184にインストールすることを想定してもよい。また、リンクDB184は半導体メモリのような静的記憶装置に限らず、ハードディスク装置のような記憶装置に格納されてもよい。
【0034】
図2は携帯端末とリンクデータ参照先のデータが格納されているWEBサーバ202がネットワーク201で接続されている構成を示している。WEBサーバ202をアクセスして得られたデータはリンク参照データ185に格納される。
【0035】
次に、図3に示す一連の処理フローを参照して、各英文に関連付けられたリンクデータをアクセス・参照する動作について説明する。
【0036】
なお、図3による全体的な処理動作の説明において、各動作の詳細な説明については更に図4以降の図を参照することがある。
【0037】
まず、利用者は携帯情報端末100の画像撮影部110を用いて文字認識対象となる雑誌や本等の画像を撮影する。撮影された画像はメモリ180中の画像データ181の領域にデジタル画像として格納される(301)。
【0038】
図4にリンクデータ参照対象の英文文書の例を示す。右上に「P24」とページ番号が付されている。401で囲まれた部分は、画像撮影部110で撮影された画像の範囲を示し、画像データ181に格納される。この画像データ181が文字認識部150に入力される画像の範囲である。なお、この例では3行目の”To meet”で始まり5行目の”quality products.”で終わる2番目の文に関するリンク情報を参照するために画像を取り込むことを仮定する。この文書のリンク情報参照のために、本実施形態では2番目の英文を構成する任意の単語が着目対象となり得る。ここでは図1の表示部120に示すように、着目対象を示す「+」のマーク172は、”as”に重なっていると想定する。
【0039】
次に、単語矩形座標抽出部151にて、入力された画像から英単語の場所を示す矩形座標が抽出される(302)。ここでは、図5に示すように、着目している”as”501だけでなく、縦方向に見たときに”as”501の矩形とオーバーラップがある上下の行の単語パターン502、503、506、及び横方向に見たときに”as”の矩形とオーバーラップがあり、”as”に隣接している単語パターン504、505についても近傍の単語パターンとして一緒に矩形座標が抽出される。
【0040】
この矩形座標抽出処理302の動作の詳細について、図6を用いて説明する。
【0041】
画像データ181に格納されている画像401が単語矩形座標抽出部151に入力されると、最初に2値画像が生成される(601)。次に、文字行の大雑把な位置を検出するために、画像の横方向に黒画素を加算して投影分布を求める(602)。
【0042】
図7は画像情報として含まれる文字行の黒画素投影の算出の原理を示す図である。画像の原点は左上であり、702は画像縦方向の座標軸に相当し、703は横方向の投影分布を表す。この投影分布の算出後、文字行の存在する縦方向座標の範囲を求めるため、非零値の範囲704〜708を計算する(603)。求められた文字行の存在する縦方向座標の範囲で、黒画素が連結した塊である連結成分を求めると共にその外接矩形座標もあわせて計算する。そして、連結成分の外接矩形同士の隙間等を参照しながら距離が近い矩形を横方向に統合し(604)、統合された矩形の座標は単語の矩形座標として単語認識結果データ182に格納される(605)。
【0043】
図8は単語認識結果データ182の構成例を示す。
【0044】
817から822は各単語のデータレコードを示しており、810は単語の文字コード格納領域、811は矩形左上X座標、812は矩形左上Y座標、813は矩形右下X座標、814は矩形右下Y座標、815は単語が含まれる行の行番号を表す。816は周辺単語と着目単語を区別するための着目単語フラグであり、着目単語に対しては“1”、それ以外の周辺単語は“0”を格納する。ステップ605の処理では、811から816のデータが格納される。
【0045】
次に、単語認識部152は、抽出された英単語矩形座標501から506に対して抽出された矩形座標内に存在する英単語パターンに関して文字認識処理を行う。具体的には、単語認識結果データ182の811から814の矩形座標データと画像データ181を入力し、認識結果である単語の文字コードを同じ単語認識結果データ182の単語の文字コード格納領域810に出力する(303)。
【0046】
リンクDB検索部160は、単語認識結果データ182の内容を読み出し、リンクDB184に対して、”as”が含まれる英文と対応するリンクデータの検索を行う(304)。”as”など特定の単語が含まれる英文は、一般的に共通のリンクDB184に複数箇所存在する。そのため、複数の英文候補からリンク検索対象英文を絞り込むために、ここでは図5における”as”501の周りに存在する502から506の英単語と”as”501との幾何学的な相対関係を用いる。
【0047】
図9はリンクDB184に格納されるデータの構造を示す。
【0048】
900は当該単語が含まれる英文を検索するための英単語インデックス部、901は英文に含まれる英単語の幾何学情報と英単語の文字コードを格納した英文データ格納部、902は各英文に対応するリンクデータを格納したリンクデータ格納部である。英単語インデックス部900は高速にリンク参照対象の英文データ901を検索するためのインデックステーブルであり、903は単語の文字コードデータ、904は当該単語が文書中に現れる数、905、906は当該単語が含まれる英文データ格納部901へのポインタである。
【0049】
英文データ格納部901において、一つの英文を構成する単語データのレコード916から922の各カラムの内容について説明する。910は英文を構成する英単語データである。911、912は英文が含まれる当該ページの左上を原点とした場合の当該英単語の矩形重心座標であり、911はX座標の値、912はY座標の値を示す。これら座標値は任意の解像度、あるいは、適当なスケールを仮定して決定してよい。913、914はそれぞれ当該単語が含まれるページ数、行番号である。915は単語が含まれる行中において左から数えて何番目の単語であるかを示す。922のレコードは英文の終りを示す”.”(ピリオド)とリンクデータ格納部902へのポインタからなっている。リンクデータ格納部902において、923から925は各英文に対応するリンクデータを示す。リンクデータ格納部902へのポインタは文単位に存在し、一つの英文が一つのリンクデータ、本実施例の場合はURL文字列に対応するようにポインタが張られている。
【0050】
次に、図10を参照してリンク参照候補文の選択処理動作304の詳細について説明する。
【0051】
まず、ステップ303にて抽出された着目単語”as”501の矩形重心から、近傍単語”we”502、”have”503、”resulting”504、”high”505、”create”506の各矩形重心座標に線を引き、その線分間の角度、あるいは、余弦を測定する(1001)。
【0052】
図11を用いてこの処理の詳細を説明する。着目単語”as”の矩形重心から、各近傍単語の矩形重心に引いた線分は1101、1102、1103、1104、1105で示される。例えば、近傍単語”we”、”have”に引かれた線分間の角度は1106で示される。以下、同様に各近傍単語の重心に引かれた線分間の角度を計算する。ここで角度を計算するのは、カメラで撮影した画像のスケールや撮影角度と辞書登録時に単語の位置を表すために使用したスケールや撮影角度が一般には異なるため、これらが変わっても変化しにくい幾何学的相対関係を記述する量を抽出するためである。変化しにくい量に相当すれば任意の量を用いることができ、例えば、各単語が属する相対的な行番号でもよい。”we”、”have”は1行目、”resulting”、”as”、”high”は2行目、”create”3行目等である。あるいは、文字や背景の色情報や文字サイズ、さらに、罫線レイアウトや罫線と文字との相対配置関係等も使用することが可能である。
【0053】
次に、リンクDB184の英文インデックス部900の”as”レコード908を参照して、英文データ格納部901の”as”が含まれる英文データを検索し、さらにその近傍単語が存在するかを検索する(1002)。具体的には、最初に”as”が含まれるレコード919のデータを参照した後、カラム914の行番号の情報を参照しながら”as”が含まれる行の前後の行に存在する単語の中に入力画像から得られた近傍単語を検索する。検索の結果、近傍単語の数が閾値以上か否かを判定する(1003)。判定の結果、近傍単語の数が閾値以上存在すれば、近傍単語が存在したと見なしてステップ1004に進む。一方、閾値以上でなければ、ステップ1007に進む。ここで、近傍単語を全数見つけるのではなく閾値以上としたのは、誤認識により正しい単語が得られない場合を考慮している。
【0054】
次に、得られた近傍単語について、ステップ1001と同様な処理により着目単語”as”の矩形重心から近傍単語の矩形重心に引いた線分間の角度を計算する(1004)。具体的には、近傍単語の矩形重心X座標の値911、および、Y座標の値912を参照して、得られた各近傍単語の矩形重心間の角度とステップ1001で得られた角度との差分を取る。ここでは、計算コストを減らすため角度差分の代わりに角度の余弦差分のことを相違度と定義する。
【0055】
例えば、辞書データに格納された単語矩形座標を用いて、”as”の矩形重心を基点とした単語”we”、”have”の矩形重心座標間の角度余弦計算は以下の通りである。
“as”から“we”への矩形重心ベクトル :a=(x、y)=(330-400、225-300)=(-70、-75)
“as”から“have”への矩形重心ベクトル:b=(x、y)=(470-400、225-300)=(+70、-75)
ベクトルa、b間の余弦=a・b/(‖a‖‖b‖)=0.07
次に、相違度が閾値以下かどうかを判断し(1005)、閾値以下であればステップ1006に進み、閾値を超えていればステップ1007に進む。ステップ1006では、英文データ格納部901において”as”レコード919以降の単語データを検索し、文末の記号である”.”(ピリオド)を含むレコード922を検索する。そして、ピリオドの後ろに格納されているリンクデータへのポインタを取得して、リンク参照候補文検索結果データ183に格納する。
【0056】
この検索結果データ183にはリンクデータへのポインタのみならず、リンク参照対象の英文に含まれる全単語とその単語に付随するレイアウト情報や着目単語を表すフラグ値が格納されている。
【0057】
図12にリンク参照候補文検索結果データ183の構成例を示す。
【0058】
1200はリンク参照候補の英文を構成する単語数であり、1201から1205は当該英文に含まれる各単語の属性データである。1201は単語の文字コード格納領域であり、1202から1204はそれぞれ図9のカラム913から915のデータをコピーして格納しており、各データは単語が存在するページ番号、行番号、行内の左から数えた単語番号である。1205は着目単語を表すフラグであり、着目単語であれば、“1”、それ以外は“0”が格納されており、本フラグは表示部の画面表示制御に用いる。1206から1213はリンク参照英文候補を構成する単語レコードであり、1200で示された数だけレコードが存在する。1214は当該英文に対応するリンクデータへのポインタであり、図9のレコード922のポインタデータをコピーして格納している。
【0059】
上記ステップ1002から1006までの処理をレコード908に格納されている905以降のポインタがなくなるまで、すなわち、”as”という単語へのポインタが無くなるまで繰り返す(1007)。このようにして得られたリンクデータの候補ポインタと英文データをリンク参照候補文検索結果データ183から読み出し、さらに、”as”近傍画像と矩形座標をそれぞれ画像データ181、単語認識結果データ182から読み出し、それらを表示部120上に表示する(1008)。
【0060】
図13にリンク参照英文候補の表示の例を示す。
1300は入力画像の着目単語である”as”を含む行画像を示し、1301は着目単語であることを示す矩形である。1302はリンクDB184を検索した結果、着目単語”as”が存在する位置を示しており、この例では24ページ、5行目の左から3単語目に着目単語”as”が存在することを示している。また、ここでアンダーラインが表示されているが、このアンダーラインが引かれた文字を選択すると、対応するリンク(URL)データをアクセスした結果を表示することができるというハイパーリンクを表しており、このリンクを選択すると図12の1214に格納されているポインタを参照してリンクデータをアクセスした結果が表示できるようになっている。
【0061】
1303は1302の単語を含む英文の表示例であり、表示スペースを節約するために、ここでは英文の先頭・末尾単語、および、着目単語の前後の近傍単語のみを表示している。また、着目単語を明示するために”as”はボールド体で表示されている。1302と1303は対になっており、以下、1304から1307は同様に着目単語の存在位置と着目単語が含まれる英文が対になって表示されている。
【0062】
以上のように図10のステップ1001から1008の処理により、着目単語”as”が含まれる英文と対応するリンクデータ候補を検索し、結果が表示部に表示される。
【0063】
利用者は、図13に表示されたリンク参照英文候補の内から、該当する対象のもの(この例では1302)を入力部130の操作により選択する。その時、検索部160は対応するリンクデータポインタを参照して図9に示すリンクデータ924を検索し(305)、リンクデータであるURLを参照してWEBサーバ202をアクセスして結果をリンク参照データ185に格納すると共に表示部120に表示する(306)。
【0064】
図14にリンクデータのアクセス結果の表示例を示す。
【0065】
1400、1401は図13における1300、1301と同様であり、1402は1303の英文に対応するリンクデータをアクセスした結果であり、図12における1214のポインタを参照した上で、リンクDB184における924(図9)のリンクデータを取得して当該URLをアクセスした結果が表示されている。ここではアクセスしたURLには”Product manufacture Process”の画像データが格納されていることを想定し、そのデータが画面上に表示されている。
【0066】
以上説明したように、図3に示す処理により利用者は英文の一部を撮影することで、文書中でどこを撮影しているかを特定し、該当する英文のリンクデータのアクセス結果を得ることができる。
【0067】
次に、図15〜17、図26を参照して第2の実施形態について説明する。
【0068】
第2の実施形態は、図26に示すように、上述したリンクDB及びその検索手段をリンクデータベース(DB)サーバ203に保持させ、必要に応じて通信ネットワーク201を介してリンクDBサーバ203からデータを携帯情報端末100にダウンロードする例である。202は図2と同様にWEBサーバを表す。即ち、携帯情報端末100では取得された画像から単語認識を行い、その認識結果をサーバ202に送信して、リンクDBサーバ203において認識結果である文字コードを用いてリンクDBを検索し、検索結果を携帯情報端末100に返送して表示するシステム構成とその処理手順について、以下説明する。
【0069】
図15は、第2の実施形態における携帯情報端末のブロック図である。
【0070】
この例も第1の実施形態と同様に英文に関連付けられたリンク情報を取得する例である。図1の構成との主な相違点は、リンクDB184に代わって、リンクデータそのものを格納するリンクデータ186の格納部が設けられること、文字認識/リンクDB検索制御部145による処理手順が変わること等である。
【0071】
図16はリンクDBサーバ203の概略的な構成を示す。
【0072】
リンクDBサーバ203では、通信制御部1601、中央演算装置1602、メモリ1603がバス1600を介して接続されている。メモリ1603にはリンクDB検索プログラム1604が格納されている。このプログラムは図1におけるリンクDB検索部160と同様にリンクDBの検索処理を行うためのプログラムである。単語認識結果データ1605、リンク参照候補文検索結果データ1606、リンクDB1607は、それぞれ図1における単語認識結果データ182、リンク参照候補文検索結果データ183、リンクDB184と同等のデータを格納する領域である。
【0073】
図17は、第2の実施例における携帯情報端末100とリンクDBサーバ203のそれぞれの処理を示すフローチャートである。
【0074】
図において、実線の矢印は処理のフローを示し、点線の矢印はデータの流れを示す。
【0075】
画像入力処理(1701)から英単語認識処理(1703)は、図3におけるステップ301から303と同様であり、画像撮影部110により撮影されたリンク参照対象の文を部分的に含む画像から英単語を認識し、認識結果を単語認識結果データ182に格納する。次に文字認識/リンクDB検索制御部145は単語認識結果データ182に格納された英単語認識結果データを、通信制御部141を介してリンクDBサーバ203に送信する(1704)。
【0076】
リンクDBサーバ203では、携帯情報端末100から送信された単語認識結果データを受信して、そのデータを単語認識結果データ1605に格納する(1710)。その後、リンクDB検索プログラム1604を実行してリンクDB1607を検索してリンク参照候補文の検索を行なう(1711)。この処理は、単語認識結果データ1605を用いて図10のステップ1001から1007と同様な処理手順でリンクDB1607を検索し、検索結果をメモリ1603のリンク参照候補文検索結果データ1606に格納する処理である。
【0077】
次に、サーバ202は、メモリ1603に格納されたリンク参照候補文検索結果データ1606を携帯情報端末100に送信し(1712)、携帯情報端末100ではそのデータを受信して、リンク参照候補文検索結果データ183に格納する(1705)。
【0078】
そして携帯情報端末100では、リンク参照候補文検索結果データ183を参照して、図13に示すようなリンク参照候補検索結果を表示部120に表示する。利用者は、表示部に表示されたリンク候補から1つを選択する(1706)。選択結果として図12における英文に対応するリンクデータへのポインタ1214のデータのみをサーバ202に対して送信する(1707)。
【0079】
リンクDBサーバ203では、携帯情報端末100から送信されたリンクデータへのポインタを受信し(1713)、受信したポインタを参照して対応するリンクデータを検索する(1714)。そして、その検索の結果得られたリンクデータを携帯情報端末100に送信する(1715)。携帯情報端末100では、検索されたリンクデータを受信して、メモリ180のリンクデータ186に格納し(1708)、そのリンクデータであるURLを参照してWEBサーバ203をアクセスして参照データをリンク参照データ185に格納すると共に表示部120に表示する(1709)。表示部120の表示画面の内容は、図12と同様である。
【0080】
以上のように図17に示す処理動作により、利用者はリンク参照とする英文全体を撮影する必要がなく、リンクDBサーバ203に備えられたリンクDB1607、及びそのDBを検索する検索手段を利用してネットワークを介して目的のリンクデータを得ることができる。第1、第2の実施例ではリンクDB184、リンクDB1607におけるリンクデータ格納部902にはリンク情報であるURLの文字列を格納したが、リンク情報の代わりに画像等の実際に参照されるデータを格納してもよい。
【0081】
次に、図18〜図25を参照して第3の実施形態について説明する。
【0082】
この例は和文に埋め込まれたリンクデータを参照する例である。英文の場合には単語と単語の間に空白が在る(第1、2の実施形態の場合)。しかし本実施形態における和文の場合には、文字認識対象となる和文は空白による単語の区切れ目のない文である。和文の場合、英単語に相当するのは和文の構成要素である「形態素」に着目するものであり、「形態素」に対する文字認識と、それを用いたリンク候補文検索に特徴がある。以下、図面を参照して説明する。
【0083】
図18は、携帯情報端末の構成を示すブロック図である。
【0084】
図1に示した携帯情報端末100の構成との主な相違点は、文字認識部150の構成及び処理動作にある。即ち、図18に示す形態情報端末100の文字認識部150の文字行座標抽出部1501、形態素認識部1502は、それぞれ図1の単語矩形座標抽出部151、単語認識部152に対応する。メモリ180では文字行座標データ1804が新たに追加された。形態素認識結果データ1805、リンク参照候補文検索結果データ1806、リンクDB1807、リンク参照データ1808は、それぞれ図1の182、183、184、185に対応する。
【0085】
図19は第3の実施形態のリンク処理フローを示す。以下、図19を用いて図18の携帯情報端末の処理動作について説明する。
【0086】
まず、画像撮影部110で撮影された文字認識対象画像が入力される(1901)。
【0087】
図20に、認識対象となる和文の文書の例を示す。右上に「P24」とページ番号の表示がある。2001は、画像撮影部110で撮影されて取り込まれた画像の範囲を示し、この範囲の画像が文字認識部150に入力される。この例では、3行目の「これに応える・・・」で始まり、5行目の「・・・努めています。」で終わる2番目の文に張られたリンクデータにアクセスするために画像を取り込むことを仮定する。この文書からリンク情報を抽出するために、この実施形態では2番目の和文を構成する任意の形態素が着目対象となり得る。ここでは着目対象を示す「+」のマークは5行目の「製品」に重なっていると想定する。
【0088】
文字認識部150の文字行抽出部1501にて、入力された画像から文字行の場所を示す矩形座標を抽出する(1902)。この処理は、図3のステップ302と同様な処理である。ここで、着目している「製品」を含む文字行座標だけでなく、上下の文字行座標も合わせて出力される。ステップ302では単語単位の矩形座標を抽出したが、日本語の場合は単語の区切れ目に相当する空白は存在しない。そこで、図7に示すような行方向の黒画素射影を取って行の位置を計算した後は、その中に含まれる近接した連結成分を統合して文字行の矩形座標を計算し、文字行座標データ1804に格納する。
【0089】
抽出された文字行の矩形座標に対して形態素認識部1502は抽出された矩形座標内に存在する文字パターンに対して文字認識処理を行うと共に形態素解析を行い、文字認識結果として各形態素の文字コードと形態素に対応する矩形の重心座標を形態素認識結果データ1805に出力する(1903)。ここで、図21に示すように「製品」2101の矩形座標と横方向にオーバーラップがある上下の文字行の形態素パターン、および、「製品」の隣接形態素パターン2102〜2109に対する文字コードと矩形重心座標が抽出される。
【0090】
図22に形態素認識結果データ1805の構成を示す。
【0091】
2216から2224は各形態素のデータレコードを示す。また2210は形態素の文字コード格納領域を示し、2211から2214はそれぞれ形態素矩形の左上X座標、左上Y座標、右下X座標、右下Y座標を示す。2215は形態素が含まれる行の行番号を示す。2216は周辺形態素と着目形態素を区別するための着目形態素フラグであり、着目形態素に対しては“1”、それ以外の周辺形態素は“0”を格納する。
【0092】
文字認識結果はリンクDB1807に渡され、実施例1で説明した処理と同様な方法により、文字認識結果をキーとして「製品」が含まれる和文と対応するリンクデータ候補の検索を行う(1904)。
【0093】
図23にリンクDB1807に格納されるデータの構造を示す。2300は当該形態素が含まれる和文を検索するための形態素インデックス部、2301は和文データ格納部、2302はリンクデータ格納部である。形態素インデックス部2300において、2303は形態素データ、2304は当該形態素が文書中に現れる数、2305、2306は当該形態素が含まれる和文データ格納部2301へのポインタである。
【0094】
和文データ格納部2301において、一つの和文を構成する形態素データのレコード2316から2322の各カラムの内容について説明する。2310は和文を構成する形態素データである。2311、2312は和文が含まれる当該ページの左上を原点とした場合の当該形態素の矩形重心座標であり、2311はX座標の値、2312はY座標の値を示す。2313、2314はそれぞれ当該形態素が含まれるページ数、行番号である。2315は形態素が含まれる行中において左から数えて何番目の形態素であるかを示す。2322のレコードは和文の終りを示す”。”(読点)とリンクデータ格納部2302へのポインタからなっている。リンクデータ格納部2302において、2323から2325は各和文に対応するリンクデータを示す。
【0095】
ステップ1904では、第1の実施例と同様に形態素間の相対的な配置情報を用いてリンクデータポインタとそれに対応する和文データをリンクDBから検索し表示部上に表示し、利用者は該当すると思われる参照候補のリンクデータポインタを選択する。
【0096】
図24を参照してステップ1904の詳細を説明する。
【0097】
まず、ステップ1903で抽出された着目形態素「製品」の矩形重心から図21に示す近傍形態素2102から2109への各矩形銃身座標に線を引き、図10のステップ1001と同様にその線分間の角度、あるいは、余弦を測定する(2401)。
【0098】
次に、リンクDB1807の形態素インデックス部2300の「製品」レコード2308を参照して和文データ格納部2301の「製品」が含まれる和文データを検索し、さらに、その近傍形態素が存在するかをステップ1002と同様な処理手順により検索する(2402)。検索の結果、近傍形態素の数が閾値以上であるか否かを判定する。閾値以上であれば、近傍形態素が存在したと見なしてステップ2404に進む。これに対して、閾値以上でなければステップ2407に進む(2403)。
【0099】
近傍形態素の数が閾値以上である場合、得られた近傍形態素について、ステップ2401と同様な処理により着目形態素「製品」の矩形重心から近傍形態素の矩形重心に引いた線分間の角度を計算し、相違度を計算する(2404)。この計算はステップ1004と同様な計算処理である。その後、相違度が閾値以下かどうかを判断し(2405)、閾値以下であればステップ2406に進み、閾値を超えていればステップ2407に進む。
【0100】
相違度が閾値以下の場合、和文データ格納部2301において「製品」レコード2319以降の単語データを検索し、文末の記号である「。」(読点)を含むレコード2322を検索する。そして、読点の後ろに格納されているリンクデータへのポインタを取得して、リンク参照候補文検索結果データ1806に格納する(2406)。
【0101】
図25にリンク参照候補文検索結果データ1806の構成例を示す。
【0102】
2501はリンク参照候補の和文を構成する形態素数であり、2502から2506はこの和文に含まれる各形態素の属性データである。2502は形態素の文字コード格納領域であり、2503から2505はそれぞれ図23のカラム2313から2315のデータをコピーして格納しており、各データは形態素が存在するページ番号、行番号、行内の左から数えた形態素番号である。2306は着目形態素を表すフラグであり、着目形態素であれば、“1”、それ以外は“0”が格納されており、本フラグは表示部の画面表示制御に用いる。
【0103】
2507から2513はリンク参照候補の和文を構成する形態素レコードであり、2501で示された数だけレコードが存在する。2514は当該和文に対応するリンクデータへのポインタであり、図23のレコード2322のポインタデータをコピーして格納している。
【0104】
上記ステップ2402から2406までの処理をレコード2308に格納されている2305以降のポインタがなくなるまで、すなわち、「製品」という形態素へのポインタが無くなるまで繰り返す(2407)。このようにして得られたリンクデータの候補ポインタと和文データをリンク参照候補文検索結果データ1806から読み出し、さらに、「製品」近傍画像と矩形座標をそれぞれ画像データ181、形態素認識結果データ1804から読み出し、それらを表示部120に表示する(2408)。
【0105】
以上のように、図24に示す処理により、着目形態素「製品」が含まれる和文と対応するリンクデータ候補を検索し、結果が表示部に表示される。参照候補リンクデータの内、該当するリンクデータに関係するポインタを利用者が選択すると、対応するリンクデータをリンクDB1807から検索する(1905)。そして、リンクデータであるURLを参照してWEBサーバ202をアクセスして、結果をリンク参照データ1808に格納すると共に表示部120に表示する(1906)。
【0106】
以上のように図19に示す処理により、利用者は和文の一部を撮影することで、文書中でどこを撮影しているかを特定し、該当する和文のリンクデータのアクセス結果を得ることができる。
【0107】
上記実施例では形態素を単位として説明したが、ここでは表示部上の「+」印がどのリンク参照対象の和文を指しているかが分ればよい。従って、代替例においては、形態素を単位にして文字認識や検索処理を行なわないで、任意の文字長、例えば1文字や2文字と設定した文字列を形態素の代わりに処理を行ってもよい。
【0108】
更に、他の変形例について説明する。図9のリンクDBでは文単位にリンクデータへのポインタを設けた。しかし、これは文単位にする必要はなく、単語単位にリンクデータへのポインタを設けることは可能である。図27、図28が単語単位にポインタを格納した場合の変更箇所であり、それぞれ、図9のリンクDB、図12の参照対象候補文検索結果データに対応する。930のカラムは図9の922に格納されているようなリンクデータ格納部902へのポインタであり、931から938で示すように単語毎にポインタが格納されている。939から941は単語毎に関連付けられたリンク情報である。図28ではカラム1205の右側に1220で示すようなポインタが単語毎に挿入されており、例えば1224から1226のカラム1220のポインタは、図27における933から935のカラム930に格納されたポインタをコピーして保存している。本実施例では着目単語として1225レコードの1205のカラムに”1”のフラグが立っているので、1225のレコードのポインタを参照して940のリンクデータを取得する。同様な構成を設けることにより単語単位の他、和文の場合は形態素単位、あるいは、文字単位にリンクデータと関連付けることが可能である。さらに、文単位の他、節単位、章単位など、任意の単位でリンクデータへのポインタを設けることも可能である。
【図面の簡単な説明】
【0109】
【図1】第1実施形態による携帯情報端末を用いた文書リンクシステムの構成を示す図、
【図2】第1実施形態による携帯情報端末及びWEBサーバを含む文書リンクシステムを示す図。
【図3】第1実施形態におけるリンクデータ参照処理フローを示す図。
【図4】第1実施形態におけるリンク参照対象の英文の例を示す図。
【図5】第1実施形態における単語矩形座標の抽出例を示す図
【図6】第1実施形態における英単語矩形座標抽出302の処理フローを示す図。
【図7】第1実施形態における英単語矩形座標抽出302のための黒画素投影処理の原理を説明するための図。
【図8】第1実施形態における単語認識結果データ182の構成例を示す図。
【図9】第1実施形態における英文に関連付けられたリンクデータを格納するリンクDB184の構成を示す図。
【図10】第1実施形態における英文に関連付けられたリンク情報を検索するためのリンクDB検索処理フローを示す図。
【図11】第1実施形態における着目単語を基準として周辺単語間の角度測定の説明図。
【図12】第1実施形態における英文の参照対象候補文検索結果データの構成例を示す図。
【図13】第1実施形態におけるリンク参照対象英文候補の表示例を示す図。
【図14】第1実施形態におけるリンクデータの参照結果の表示例を示す図。
【図15】第2実施形態による携帯情報端末の構成を示す図。
【図16】第2実施形態によるリンクDBサーバの構成を示す図。
【図17】第2実施形態におけるリンクデータ参照処理フローを示す図。
【図18】第3実施形態による携帯情報端末の構成を示す図。
【図19】第3実施形態におけるリンクデータ参照処理フローを示す図。
【図20】第3実施形態における文字認識・リンク参照対象の和文の例を示す図。
【図21】第3実施形態における形態素矩形座標の抽出例を示す図。
【図22】第3実施形態における形態素認識結果データの構成例を示す図。
【図23】第3実施形態における和文に関連付けられたリンクデータを格納するリンクDB1807の構成を示す図。
【図24】第3実施形態における和文に関連付けられたリンクデータを検索するためのリンクDBの検索処理フローを示す図。
【図25】第3実施形態における和文のリンク参照候補文検索結果データ1806の構成例を示す図。
【図26】第2実施形態による携帯情報端末及びWEBサーバ、リンクデータベースサーバを含む文書リンクシステムを示す図。
【図27】第1実施形態における英単語に関連付けられたリンクデータを格納するリンクDB184の構成を示す図。
【図28】第1実施形態における単語単位のポインタを格納した参照対象候補文検索結果データの構成例を示す図。
【符号の説明】
【0110】
100・・・携帯情報端末、110・・・画像撮影部、120・・・表示部、130・・・キー入力部、140・・・端末制御部、150・・・文字認識部、160・・・リンクDB検索部、180・・・メモリ、184・・・リンクDB、202・・・サーバ
【特許請求の範囲】
【請求項1】
画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各単語の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、
該画像撮影部で撮影された画像から利用者により指定された着目単語パターンとその着目単語パターンの周辺の単語パターンを対象として文字認識処理を行い、該単語パターンの文字コードを出力する文字認識部と、
利用者により指定された着目単語パターンと該着目単語パターンの周辺の単語パターンに関して相対的な配置情報を抽出する抽出部と、
該着目単語パターンと該着目単語パターンの周辺の単語パターンに関して、該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システム。
【請求項2】
前記文書リンク情報データベース部は、英文とそのリンクデータを対応付けて格納することを特徴とする請求項1の文書リンク情報取得システム。
【請求項3】
前記文書リンク情報データベース部は、スペースで区切られた単語からなる文と該文に関連するリンク情報を対応付けて格納することを特徴とする請求項1の文書リンク情報取得システム。
【請求項4】
該相対的な配置情報は、利用者により指定された着目単語パターンの矩形重心から着目単語パターンの各周辺単語パターンの矩形重心に線分を引きその線分間の角度であることを特徴とする請求項1の文書リンク情報取得システム。
【請求項5】
該相対的な配置情報は、利用者により指定された着目単語パターンが含まれる行、および、着目単語パターンの各周辺単語パターンが含まれる行の相対的な配置情報であることを特徴とする請求項1の文書リンク情報取得システム。
【請求項6】
画像撮影部と、利用者に操作されて情報を入力する入力部と、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得るための処理を行うリンク情報取得部と、該リンク情報取得部により得られたリンク情報を参照してリンク先のデータを表示する表示部を有する携帯情報端末を用いた文書リンク情報取得システムにおいて、
文書中の各文に関連するリンク情報を対応付けて格納すると共に、
各文に含まれる各形態素の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、
該画像撮影部で撮影された画像から利用者により指定された着目形態素パターンとその着目形態素パターンの周辺の形態素パターンに関して文字認識処理を行い、各形態素の文字コードを出力する文字認識部と、
利用者により指定された着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して相対的な配置情報を抽出する抽出部と、
該着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して、該文字認識部より得られた文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システム。
【請求項7】
画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、
該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力する文字認識部と、
利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出する抽出部と、
該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システム。
【請求項8】
前記文書リンク情報データベースを格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、
該携帯情報端末の該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を、ネットワークを介して該サーバに送信し、該サーバにおいて該検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、該ネットワークを介して該携帯情報端末に送信することを特徴とする請求項1乃至7のいずれかの文書リンク情報取得システム。
【請求項9】
前記文字認識部、前記抽出部、前記文書リンク情報データベースを格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、
該携帯情報端末の該画像撮影部より得られた画像をネットワークを介して該サーバに送信し、該サーバにおいて該検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、該ネットワークを介して該携帯情報端末に送信することを特徴とする請求項1乃至7のいずれかの文書リンク情報取得システム。
【請求項10】
前記文書リンク情報データベースは、単語が含まれる文を検索するための単語インデックス部と、該文に含まれる単語の幾何学情報と単語の文字コードを格納した文データ格納部と、各文に関連するリンク情報を格納したリンク情報格納部を有することを特徴とする請求項1乃至9のいずれかの文書リンク情報取得システム。
【請求項11】
請求項1乃至10のいずれかのシステムにおいて使用される携帯情報端末。
【請求項12】
請求項8又は9のシステムにおいて使用されるサーバ。
【請求項13】
請求項1乃至10のいずれかのシステムにおいて、前記抽出部の機能を実現するためのコンピュータ上で実行可能なプログラム。
【請求項14】
画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得方法において、
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを記憶装置内に予め用意するステップと、
該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力するステップと、
利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出するステップと、
該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索するステップと、
該検索の結果得られたリンク情報を参照してリンク先のデータを該表示部に表示するステップと、
を有する文書リンク情報取得方法。
【請求項15】
該文書リンク情報データベースの検索の結果、該着目文字パターンを含む1又は複数のリンク情報の候補となる文を該表示部に表示するステップと、
複数の候補の場合、該複数の候補の中から利用者により該入力部を介して指定された候補に対応するリンク情報を参照してリンク先のデータを該文書リンク情報データベースから得るステップと、を更に有し、
該文書リンク情報データベースから得られたリンク先のデータと該文とを対応させて該表示部に表示することを特徴とする請求項14の文書リンク情報取得方法。
【請求項1】
画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各単語の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、
該画像撮影部で撮影された画像から利用者により指定された着目単語パターンとその着目単語パターンの周辺の単語パターンを対象として文字認識処理を行い、該単語パターンの文字コードを出力する文字認識部と、
利用者により指定された着目単語パターンと該着目単語パターンの周辺の単語パターンに関して相対的な配置情報を抽出する抽出部と、
該着目単語パターンと該着目単語パターンの周辺の単語パターンに関して、該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システム。
【請求項2】
前記文書リンク情報データベース部は、英文とそのリンクデータを対応付けて格納することを特徴とする請求項1の文書リンク情報取得システム。
【請求項3】
前記文書リンク情報データベース部は、スペースで区切られた単語からなる文と該文に関連するリンク情報を対応付けて格納することを特徴とする請求項1の文書リンク情報取得システム。
【請求項4】
該相対的な配置情報は、利用者により指定された着目単語パターンの矩形重心から着目単語パターンの各周辺単語パターンの矩形重心に線分を引きその線分間の角度であることを特徴とする請求項1の文書リンク情報取得システム。
【請求項5】
該相対的な配置情報は、利用者により指定された着目単語パターンが含まれる行、および、着目単語パターンの各周辺単語パターンが含まれる行の相対的な配置情報であることを特徴とする請求項1の文書リンク情報取得システム。
【請求項6】
画像撮影部と、利用者に操作されて情報を入力する入力部と、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得るための処理を行うリンク情報取得部と、該リンク情報取得部により得られたリンク情報を参照してリンク先のデータを表示する表示部を有する携帯情報端末を用いた文書リンク情報取得システムにおいて、
文書中の各文に関連するリンク情報を対応付けて格納すると共に、
各文に含まれる各形態素の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、
該画像撮影部で撮影された画像から利用者により指定された着目形態素パターンとその着目形態素パターンの周辺の形態素パターンに関して文字認識処理を行い、各形態素の文字コードを出力する文字認識部と、
利用者により指定された着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して相対的な配置情報を抽出する抽出部と、
該着目形態素パターンと該着目形態素パターンの周辺に存在する形態素パターンに関して、該文字認識部より得られた文字コードと、該抽出部より得られた該相対的な配置情報を用いて該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システム。
【請求項7】
画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得システムにおいて、
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを格納する記憶装置と、
該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力する文字認識部と、
利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出する抽出部と、
該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索する検索部と、
を有し、該検索部より得られたリンク情報を参照してリンク先のデータを該表示部に表示することを特徴とする文書リンク情報取得システム。
【請求項8】
前記文書リンク情報データベースを格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、
該携帯情報端末の該文字認識部より得られた該文字コードと、該抽出部より得られた該相対的な配置情報を、ネットワークを介して該サーバに送信し、該サーバにおいて該検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、該ネットワークを介して該携帯情報端末に送信することを特徴とする請求項1乃至7のいずれかの文書リンク情報取得システム。
【請求項9】
前記文字認識部、前記抽出部、前記文書リンク情報データベースを格納する記憶装置、及び前記検索部を備えるサーバを有する文書リンク情報取得システムであって、
該携帯情報端末の該画像撮影部より得られた画像をネットワークを介して該サーバに送信し、該サーバにおいて該検索部により該文書リンク情報データベースを検索した結果得られたリンク情報を、該ネットワークを介して該携帯情報端末に送信することを特徴とする請求項1乃至7のいずれかの文書リンク情報取得システム。
【請求項10】
前記文書リンク情報データベースは、単語が含まれる文を検索するための単語インデックス部と、該文に含まれる単語の幾何学情報と単語の文字コードを格納した文データ格納部と、各文に関連するリンク情報を格納したリンク情報格納部を有することを特徴とする請求項1乃至9のいずれかの文書リンク情報取得システム。
【請求項11】
請求項1乃至10のいずれかのシステムにおいて使用される携帯情報端末。
【請求項12】
請求項8又は9のシステムにおいて使用されるサーバ。
【請求項13】
請求項1乃至10のいずれかのシステムにおいて、前記抽出部の機能を実現するためのコンピュータ上で実行可能なプログラム。
【請求項14】
画像撮影部と、利用者に操作されて情報を入力する入力部と、表示部を有する携帯情報端末を用いて、該画像撮影部で撮影された画像に含まれる文字に関連付けられたリンク情報を得て、そのリンク情報を参照してリンク先のデータを該表示部に表示する文書リンク情報取得方法において、
単語からなる文と該文に関連するリンク情報を対応付けて保持すると共に、該文に含まれる各文字の配置情報を関連付けて保持する文書リンク情報データベースを記憶装置内に予め用意するステップと、
該画像撮影部で撮影された画像から利用者により指定された着目文字パターンとその着目文字パターンの周辺の文字パターンを対象として文字認識処理を行い、該文字パターンの文字コードを出力するステップと、
利用者により指定された着目文字パターンと該着目文字パターンの周辺の文字パターンに関して相対的な配置情報を抽出するステップと、
該着目文字パターンと該着目文字パターンの周辺の文字パターンに関して、該文字認識部より得られた該文字コードと該抽出部より得られた該相対的な配置情報を用いて、該文書リンク情報データベースを検索するステップと、
該検索の結果得られたリンク情報を参照してリンク先のデータを該表示部に表示するステップと、
を有する文書リンク情報取得方法。
【請求項15】
該文書リンク情報データベースの検索の結果、該着目文字パターンを含む1又は複数のリンク情報の候補となる文を該表示部に表示するステップと、
複数の候補の場合、該複数の候補の中から利用者により該入力部を介して指定された候補に対応するリンク情報を参照してリンク先のデータを該文書リンク情報データベースから得るステップと、を更に有し、
該文書リンク情報データベースから得られたリンク先のデータと該文とを対応させて該表示部に表示することを特徴とする請求項14の文書リンク情報取得方法。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図18】
【図19】
【図20】
【図21】
【図22】
【図23】
【図24】
【図25】
【図26】
【図27】
【図28】
【公開番号】特開2006−53622(P2006−53622A)
【公開日】平成18年2月23日(2006.2.23)
【国際特許分類】
【出願番号】特願2004−232891(P2004−232891)
【出願日】平成16年8月10日(2004.8.10)
【出願人】(504373093)日立オムロンターミナルソリューションズ株式会社 (1,225)
【Fターム(参考)】
【公開日】平成18年2月23日(2006.2.23)
【国際特許分類】
【出願日】平成16年8月10日(2004.8.10)
【出願人】(504373093)日立オムロンターミナルソリューションズ株式会社 (1,225)
【Fターム(参考)】
[ Back to top ]