説明

サーバ装置、サーバ装置の制御方法、プログラム、及び、記録媒体

【課題】WEBページ内の画像の文字をリアルタイムで翻訳するのに好適なサーバ装置等を提供する。
【解決手段】要求受信部101は、画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する。画像処理部102は、受信された要求に指定された識別情報に基づいて画像を取得し、当該画像に対して、受信された要求に指定されたパラメータを用いて画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する。応答送信部103は、画像処理部102により出力された抽出情報が指定される応答を、端末へ送信する。受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、画像処理部102は、画像の取得ならびに画像処理の適用にかえて、キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、サーバ装置、サーバ装置の制御方法、プログラム、及び、記録媒体に関し、特に、画像内の文字列の翻訳に関するものである。
【背景技術】
【0002】
従来から、様々な翻訳ツールが知られているが、それらの翻訳ツールを用いて、文字が含まれた画像を含むWEBページの翻訳が要求されることがある。画像に含まれる文字を翻訳するためには、まず、画像に含まれる文字について文字認識を行う必要がある。そして、文字認識により文字が特定された後、当該文字を目的の言語へ翻訳する。しかし、文字認識の処理には、ある程度の時間を要するため、リアルタイムでの翻訳は難しいという問題があった。このような問題に対応するため、種々の手法が提案されている。例えば、特許文献1には、文字を含む画像と、翻訳用の文字列とを対応付けて記憶しておき、文字を含む画像を翻訳する際に、当該文字列の翻訳結果を提示する機械翻訳システムが開示されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許4658236号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
一方、翻訳用の文字列を用意せず、できるだけ、画像内の文字をそのまま翻訳したいという要望もある。
【0005】
本発明は、上記のような課題を解決するもので、WEBページ内の画像の文字をリアルタイムで翻訳するのに好適なサーバ装置、サーバ装置の制御方法、プログラム、及び、記録媒体を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の第1の観点に係るサーバ装置は、
画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信部、
前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理部、
前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信部
を備え、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ことを特徴とする。
【0007】
上記観点に係るサーバ装置において、
前記要求に指定されるパラメータは、指定領域を含み、
前記画像処理部による画像処理には、前記画像内の前記パラメータに含まれる指定領域について文字認識を行うことにより、当該画像内の当該指定領域から認識された認識済文字列を出力する抽出処理が含まれ、
前記画像処理部は、前記認識済文字列が抽出されると、当該認識済文字列に対する画像の識別情報ならびに指定領域に対応付けて、当該認識済文字列をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに含まれる指定領域に対応付けられる認識済文字列がキャッシュされている場合、前記画像処理部は、前記文字認識にかえて、前記キャッシュされている認識済文字列を得て、当該得られた認識済文字列を出力し、
前記抽出情報は、前記認識済文字列を含む
ことを特徴とする。
【0008】
また、上記観点に係るサーバ装置において、
前記画像処理部は、前記認識済文字列がキャッシュされた際に対応付けられた識別情報と、前記受信された要求に指定された識別情報と、が一致し、前記認識済文字列がキャッシュされた際に対応付けられた指定領域と、前記受信された要求に指定されるパラメータに含まれる指定領域と、が、重複する場合、前記受信された要求に指定される識別情報ならびにパラメータに含まれる指定領域に対応付けられる抽出情報がキャッシュされていると判定する
ことを特徴とする。
【0009】
また、上記観点に係るサーバ装置において、
前記画像処理部は、前記認識済文字列が抽出されると、前記指定領域を前記指定領域内において当該認識済文字列が認識された認識領域に補正してから、当該認識済文字列をキャッシュする
ことを特徴とする。
【0010】
また、上記観点に係るサーバ装置において、
前記要求に指定されるパラメータは、認識用言語を含み、
前記画像処理部による文字認識は、認識用言語により行われる
ことを特徴とする。
【0011】
また、上記観点に係るサーバ装置において、
前記要求に指定されるパラメータは、変換情報を含み、
前記画像処理部による画像処理には、前記出力された認識済文字列に対して、前記受信された要求に指定されたパラメータに含まれる変換情報を用いて変換処理を行うことにより、当該認識済文字列から変換された変換済文字列を出力する変換処理が含まれ、
前記抽出情報は、前記変換済文字列を含む
ことを特徴とする。
【0012】
また、上記観点に係るサーバ装置において、
前記画像処理部は、前記変換済文字列が抽出されると、当該変換済文字列に対する画像の識別情報、指定領域、認識用言語、認識済文字列、ならびに、変換情報に対応付けて、当該変換済文字列をキャッシュし、
前記受信された要求に指定される識別情報、指定領域、認識用言語、ならびに、変換情報に対する変換済文字列がキャッシュされている場合、前記画像処理部は、前記変換処理にかえて、前記キャッシュされている変換済文字列を得て、当該得られた変換済文字列を出力する
ことを特徴とする。
【0013】
また、上記観点に係るサーバ装置において、
前記変換処理は、前記変換情報に指定される翻訳先言語に前記認識済文字列を翻訳することにより、前記変換済文字列を得る
ことを特徴とする。
【0014】
また、上記観点に係るサーバ装置において、
画像の識別情報が指定された問合せを、前記端末から受信する問合受信部、
前記受信された問合せに指定される識別情報に対応付けられる抽出情報がキャッシュされていない場合、画像の識別情報と、画像処理のパラメータと、が指定された要求の送信を促すメッセージが指定された回答を、前記端末へ送信し、前記受信された問合せに指定される識別情報に対応付けられる抽出情報がキャッシュされている場合、当該抽出情報が指定された回答を、前記端末へ送信する回答送信部
をさらに備えることを特徴とする。
【0015】
また、上記観点に係るサーバ装置において、
画像の識別情報と、当該画像内の位置と、が指定された問合せを、前記端末から受信する問合受信部、
前記受信された問合せに指定される識別情報、ならびに、前記受信された問合せに指定される位置を含む指定領域に対応付けられる認識済文字列が、前記画像処理部によりキャッシュされている場合、当該キャッシュされている認識済文字列が指定された回答を、前記端末へ送信する回答送信部
をさらに備えることを特徴とする。
【0016】
また、上記観点に係るサーバ装置において、
画像の識別情報と、当該画像内の位置と、変換情報と、が指定された問合せを、前記端末から受信する問合受信部、
前記受信された問合せに指定される識別情報、変換情報、ならびに、前記受信された問合せに指定される位置を含む指定領域に対応付けられる変換済文字列が、前記画像処理部によりキャッシュされている場合、前記回答に当該キャッシュされている変換済文字列が指定された回答を、前記端末へ送信する回答送信部
をさらに備えることを特徴とする。
【0017】
識別情報により識別される画像を画面に表示する表示部を備え、上記観点に係るサーバ装置と通信可能なコンピュータが実行するプログラムであって、当該プログラムは、当該コンピュータを、
前記画面に表示された画像内の位置の選択を検出する位置検出部、
前記位置の選択が検出されると、前記識別情報と、当該選択された位置と、が指定された問合せを、前記サーバ装置へ送信する問合送信部、
前記サーバ装置から、回答を受信する回答受信部
として機能させ、当該プログラムは、当該コンピュータを、
前記表示部が、前記受信された回答に指定される抽出情報を、前記画面にさらに表示する
ように機能させ、当該プログラムは、当該コンピュータを、
前記画面に表示された画像内の領域の選択を検出する領域検出部、
画像処理用のパラメータの設定を促す設定部、
前記領域の選択が検出されると、前記識別情報と、前記設定されたパラメータと、当該選択された領域と、が指定された要求を、前記サーバ装置へ送信する要求送信部、
前記サーバ装置から、応答を受信する応答受信部
として機能させ、当該プログラムは、当該コンピュータを、
前記表示部が、前記受信された応答に指定される抽出情報を、前記画面にさらに表示する
ように機能させることを特徴とする。
【0018】
本発明の第2の観点に係るサーバ装置の制御方法は、
要求受信部と、画像処理部と、応答送信部と、を備えるサーバ装置が実行する制御方法であって、
前記要求受信部が、画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信工程、
前記画像処理部が、前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理工程、
前記応答送信部が、前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信工程
を備え、
前記画像処理工程において、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ことを特徴とする。
【0019】
本発明の第3の観点に係るプログラムは、
コンピュータを、
画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信部、
前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理部、
前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信部
として機能させ、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ように機能させることを特徴とする。
【0020】
本発明の第4の観点に係るコンピュータ読み取り可能な記録媒体は、
コンピュータを、
画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信部、
前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理部、
前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信部
として機能させ、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ように機能させることを特徴とするプログラムを記録する。
【0021】
上記プログラムは、プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記記録媒体は、コンピュータとは独立して配布・販売することができる。
【発明の効果】
【0022】
本発明によれば、WEBページ内の画像の文字をリアルタイムで翻訳するのに好適なサーバ装置、サーバ装置の制御方法、プログラム、及び、記録媒体を提供することができる。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態に係るサーバ装置と、WEBサーバ装置と、端末装置との関係を示す図である。
【図2】本発明の実施形態に係るサーバ装置又は端末装置が実現される典型的な情報処理装置の概要構成を示す図である。
【図3】端末装置が表示するWEBページの例を説明するための図である。
【図4】実施形態1のサーバ装置の概要構成を説明するための図である。
【図5】WEBページ内の画像の例を説明するための図である。
【図6】抽出情報テーブルを説明するための図である。
【図7】WEBページ内の画像の例を説明するための図である。
【図8】実施形態1に係るサーバ装置の各部が行う制御処理を説明するためのフローチャート図である。
【図9】指定領域を説明するための図である。
【図10】抽出情報テーブルを説明するための図である。
【図11】認識領域を説明するための図である。
【図12】抽出情報テーブルを説明するための図である。
【図13】指定領域の重複を説明するための図である。
【図14】実施形態2に係るサーバ装置の各部が行う制御処理を説明するためのフローチャート図である。
【図15】WEBページ内の画像の例を説明するための図である。
【図16】抽出情報テーブルを説明するための図である。
【図17】WEBページ内の画像の例を説明するための図である。
【図18】実施形態3に係るサーバ装置の各部が行う制御処理を説明するためのフローチャート図である。
【図19】実施形態4のサーバ装置の概要構成を説明するための図である。
【図20】WEBページ内の画像の例を説明するための図である。
【図21】実施形態4に係るサーバ装置の各部が行う制御処理を説明するためのフローチャート図である。
【図22】WEBページ内の画像の例を説明するための図である。
【図23】実施形態5に係るサーバ装置の各部が行う制御処理を説明するためのフローチャート図である。
【図24】抽出情報テーブルを説明するための図である。
【図25】WEBページ内の画像の例を説明するための図である。
【図26】実施形態6に係るサーバ装置の各部が行う制御処理を説明するためのフローチャート図である。
【図27】実施形態7のプログラムが動作する端末装置の概要構成を説明するための図である。
【図28】実施形態7に係る端末装置の各部が行う制御処理を説明するためのフローチャート図である。
【発明を実施するための形態】
【0024】
本発明の実施形態に係るサーバ装置100は、図1に示すように、インターネット300に接続される。インターネット300には、ユーザが操作する複数の端末装置211、212〜21n(以下、これらを総称して「端末装置200」という。)と、WEBサーバ400とが接続されている。WEBサーバ400は、端末装置200からの要求に応じて、所定のWEBページを端末装置200に提供するものである。そして、サーバ装置100は、端末装置200の要求に応じて、WEBページの翻訳を行い、翻訳結果を端末装置200に提供するものである。なお、以下に示す実施形態では、サーバ装置100とWEBサーバ装置400とは、図1に示すようにインターネット300を解して接続されるが、この例に限らない。例えば、サーバ装置100とWEBサーバ装置とが同じ装置により実現されてもよい。あるいは、サーバ装置100とWEBサーバ装置400とは直接接続されてもよい。
【0025】
以下、本発明の実施形態に係るサーバ装置100又は端末装置200が実現される典型的な情報処理装置500について説明する。
【0026】
(1.情報処理装置の概要構成)
情報処理装置500は、図2に示すように、CPU(Central Processing Unit)501と、ROM(Read only Memory)502と、RAM(Random Access Memory)503と、NIC(Network Interface Card)504と、画像処理部505と、音声処理部506と、DVD−ROM(Digital Versatile Disc ROM)ドライブ507と、インターフェース508と、外部メモリ509と、コントローラ510と、モニタ511と、スピーカ512と、を備える。
【0027】
CPU 501は、情報処理装置500全体の動作を制御し、各構成要素と接続され制御信号やデータをやりとりする。
【0028】
ROM 502には、電源投入直後に実行されるIPL(Initial Program Loader)が記録され、これが実行されることにより、所定のプログラムをRAM 503に読み出してCPU 501による当該プログラムの実行が開始される。また、ROM 502には、情報処理装置500全体の動作制御に必要なオペレーティングシステムのプログラムや各種のデータが記録される。
【0029】
RAM 503は、データやプログラムを一時的に記憶するためのもので、DVD−ROMから読み出したプログラムやデータ、その他、通信に必要なデータ等が保持される。
【0030】
NIC 504は、情報処理装置500をインターネット300等のコンピュータ通信網に接続するためのものであり、LAN(Local Area Network)を構成する際に用いられる10BASE−T/100BASE−T規格にしたがうものや、電話回線を用いてインターネットに接続するためのアナログモデム、ISDN(Integrated Services Digital Network)モデム、ADSL(Asymmetric Digital Subscriber Line)モデム、ケーブルテレビジョン回線を用いてインターネットに接続するためのケーブルモデム等と、これらとCPU 501との仲立ちを行うインターフェース(図示せず)により構成される。
【0031】
画像処理部505は、DVD−ROM等から読み出されたデータをCPU 501や画像処理部505が備える画像演算プロセッサ(図示せず)によって加工処理した後、これを画像処理部505が備えるフレームメモリ(図示せず)に記録する。フレームメモリに記録された画像情報は、所定の同期タイミングでビデオ信号に変換され、モニタ511に出力される。これにより、各種のページ表示が可能となる。
【0032】
音声処理部506は、DVD−ROM等から読み出した音声データをアナログ音声信号に変換し、これに接続されたスピーカ512から出力させる。また、CPU 501の制御の下、情報処理装置500が行う処理の進行の中で発生させるべき音を生成し、これに対応した音声をスピーカ512から出力させる。
【0033】
DVD−ROMドライブ507に装着されるDVD−ROMには、例えば、実施形態に係るサーバ装置100を実現するためのプログラムが記憶される。CPU 501の制御によって、DVD−ROMドライブ507は、これに装着されたDVD−ROMに対する読み出し処理を行って、必要なプログラムやデータを読み出し、これらはRAM 503等に一時的に記憶される。
【0034】
インターフェース508には、外部メモリ509、コントローラ510、モニタ511、及びスピーカ512が、着脱可能に接続される。
【0035】
外部メモリ509には、ユーザの個人情報に関するデータなどが書き換え可能に記憶される。
【0036】
コントローラ510は、情報処理装置500の各種の設定時などに行われる操作入力を受け付ける。情報処理装置500のユーザは、コントローラ510を介して指示入力を行うことにより、これらのデータを適宜外部メモリ509に記録することができる。
【0037】
モニタ511は、画像処理部505により出力されたデータを情報処理装置500のユーザに提示する。
【0038】
スピーカ512は、音声処理部506により出力された音声データを情報処理装置500のユーザに提示する。
【0039】
この他、情報処理装置500は、ハードディスク等の大容量外部記憶装置を用いて、ROM 502、RAM 503、外部メモリ509、DVD−ROMドライブ507に装着されるDVD−ROM等と同じ機能を果たすように構成してもよい。
【0040】
以下、上記情報処理装置500において実現される実施形態に係るサーバ装置100又は端末装置200について、図1乃至28を参照して説明する。情報処理装置500の電源を投入することにより、実施形態に係るサーバ装置100又は端末装置200として機能させるプログラムが実行され、実施形態に係るサーバ装置100又は端末装置200が実現される。
【0041】
以下の実施形態において、WEBサーバ装置400により端末装置200に提供されるWEBページの例を図3に示す。WEBページ600は、画像601、602、603と、テキスト604、605、606と、から構成される。画像601、603は、文字を含む画像であり、画像602は、文字を含まない画像であるとする。また、画像601、602、603の画像URLを、“http://xxx.601.jpg”、“http://xxx.602.jpg”、“http://xxx.603.jpg”、であるとする。
【0042】
(2.実施形態1のサーバ装置の概要構成)
実施形態1のサーバ装置100は、画像内に含まれる文字列の翻訳に際し、当該画像について既に文字認識の処理が行われている場合、画像の取得及び文字認識の処理を省略することを可能にするものである。
【0043】
本実施形態に係るサーバ装置100は、図4に示すように、要求受信部101と、画像処理部102と、応答送信部103と、から構成される。
【0044】
要求受信部101は、画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末装置200から受信する。
【0045】
画像の識別情報とは、例えば、画像URLである。また、画像処理とは、例えば、画像内の文字を認識するための文字認識の処理である。そして、画像処理に対するパラメータとは、例えば、画像内の文字がどの言語であるかを示す認識用言語である。画像内の文字は、指定された認識用言語であるとして、文字認識が行われる。
【0046】
以下、ユーザがWEBページ600の画像601について、サーバ装置100に翻訳を求める場合を例に説明する。例えば、ユーザが、端末装置200において表示された画像601にカーソル701を重ねると(マウスオーバすると)、図5(a)に示すように、認識用言語の指定を求めるポップアップ801が表示される。図5(b)に示すように、ユーザがカーソル701でボタン802をクリックすると、プルダウンメニューが表示される。ユーザは、メニューの中から画像601内の文字列の言語(認識用言語)を選択する。そして、図5(c)に示すように、認識用言語“英語”が指定されると、画像601の画像URL“http://xxx.601.jpg”と、認識用言語“英語”とが指定された要求が、サーバ装置100に送信される。サーバ装置100の要求受信部101は、当該要求を受信する。
【0047】
本実施形態では、CPU 501及びNIC 504が協働して、要求受信部101として機能する。なお、以下の実施形態2乃至6においても同様である。
【0048】
画像処理部102は、受信された要求に指定された識別情報に基づいて画像を取得し、取得された画像に対して、受信された要求に指定されたパラメータを用いて画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する。
【0049】
ここで、抽出情報とは、例えば、文字認識の結果、得られる画像内の文字列(以下、「認識済文字列」という)である。例えば、画像URL“http://xxx.601.jpg”及び認識用言語“英語”が指定された要求が受信されたとすると、画像処理部102は、まず当該画像URLに基づいて、WEBサーバ400から画像601を取得する。そして、画像処理部102は、取得した画像601内に含まれる文字は、英語であるとして、文字認識を行う。文字認識の結果、画像601内の文字が、“Sale Water Best bang for the buck”であると判断されると、画像処理部102は、これらの文字列を画像601内から抽出された認識済文字列として出力する。
【0050】
また、画像処理部102は、抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュする。
【0051】
例えば、RAM 503には、図6に示すような抽出情報テーブル101aが格納されているとする。抽出情報テーブル101には、画像の識別情報(画像URL)101a1と、パラメータ(認識用言語)101a2と、抽出情報(認識済文字列)101a3と、が対応付けて登録される。画像処理部102は、文字認識により認識済文字列“Sale Water Best bang for the buck”を得ると、当該認識済文字列と、画像601の画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、を対応付けて、抽出情報テーブル101aに登録する。
【0052】
本実施形態では、CPU 501及び画像処理部505が協働して、画像処理部102として機能する。なお、以下の実施形態2乃至6においても同様である。
【0053】
応答送信部103は、画像処理部102により出力された抽出情報が指定される応答を、端末装置200へ送信する。
【0054】
例えば、応答送信部103は、認識済文字列“Sale Water Best bang for the buck”が指定された応答を、端末装置200へ送信する。ここで、当該応答は、例えば、端末装置200に表示されているWEBページ内の文字認識が終了した画像に、任意の図形を重ねて表示させるためのタグを追加する命令も含むものであるとする。例えば、端末装置200が当該応答を受信すると、図7に示すように、文字認識が終了した画像601に半透明の矩形901が重ねて表示される。
【0055】
本実施形態では、CPU 501及びNIC 504が協働して、応答送信部103として機能する。なお、以下の実施形態2乃至6においても同様である。
【0056】
そして、画像処理部102は、受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、画像の取得ならびに画像処理の適用にかえて、キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する。
【0057】
例えば、要求受信部101が、画像601の画像URLと認識用言語“英語”とを指定された要求を受信すると、画像処理部102は、図6の抽出情報テーブル101aを参照する。画像601の識別情報及び認識用言語“英語”に対応する認識済文字列“Sale Water Best bang for the buck”が登録されているので、画像処理部102は、画像601の取得及び文字認識の処理を省略して、当該認識済文字列を応答送信部103へ出力する。
【0058】
(3.実施形態1のサーバ装置の動作)
次に、本実施形態のサーバ装置100の各部が行う動作について図8のフローチャートを用いて説明する。サーバ装置100に電源が入れられると、CPU 501は図8のフローチャートに示す制御処理を開始する。
【0059】
要求受信部101は、画像の識別情報(画像URL)と、画像処理に対するパラメータ(認識用言語)と、が指定された要求を、端末装置200から受信する(ステップS101)。例えば、ユーザが、画像601にカーソル701を重ね、図5(a)〜(c)に示す手順で認識用言語“英語”を指定すると、要求受信部101は、画像URL“http://xxx.601.jpg”と、認識用言語“英語”とが指定された要求を受信する。
【0060】
画像処理部102は、受信された要求に指定される識別情報ならびに認識用言語に対応付けられる抽出情報(認識済文字列)がキャッシュされているか否かを判断する(ステップS102)。
【0061】
画像処理部102は、当該認識済文字列がキャッシュされていると判断した場合(ステップS102;Yes)、キャッシュされている認識済文字列を出力する(ステップS103)。例えば、図6に示す抽出情報テーブル101aがRAM 503に格納されている場合、画像処理部102は、画像URL“http://xxx.601.jpg”と、認識用言語“英語”とに対応付けられた認識済文字列“Sale Water Best bang for the buck”を応答送信部103に出力する。
【0062】
一方、画像処理部102は、当該認識済文字列がキャッシュされていないと判断した場合(ステップS102;No)、受信された要求に指定される画像URLの画像を取得する(ステップS105)。例えば、画像URL“http://xxx.601.jpg”と、認識用言語“英語”とに対応付けられた認識済文字列の情報が抽出情報テーブル101aに登録されていなかった場合、画像処理部102は、WEBサーバ400にアクセスし、画像URL“http://xxx.601.jpg”に対応する画像601を取得する。
【0063】
画像処理部102は、画像を取得すると、次に、要求に指定された認識用言語を用いて文字認識を行い、画像内から文字列(認識済文字列)を抽出する(ステップS106)。例えば、画像処理部102は、画像601内の文字は“英語”であるとして、画像601に対して文字認識を行い、“Sale Water Best bang for the buck”の認識済文字列を得る。
【0064】
画像処理部102は、画像の識別情報と、認識用言語と、認識済文字列を対応付けてキャッシュする(ステップS107)。例えば、画像処理部102は、図6に示すように、画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、認識済文字列“Sale Water Best bang for the buck”と、を対応付けて、抽出情報テーブル101aに登録する。
【0065】
そして、画像処理部102は、抽出された認識済文字列を出力する(ステップS108)。例えば、画像処理部102は、文字認識の結果として認識済文字列“Sale Water Best bang for the buck”を応答送信部103へ出力する。
【0066】
応答送信部103は、ステップS103又はステップS108において出力された認識済文字列が指定される応答を、端末装置200へ送信する(ステップS104)。例えば、応答送信部103は、認識済文字列“Sale Water Best bang for the buck”が指定された応答を端末装置200へ送信する。
【0067】
本実施形態によれば、画像について、既に文字認識の結果が得られている場合、画像の取得及び文字認識の処理を省略することができる。そして、文字認識の結果得られた文字列について翻訳することにより、画像内の文字列の翻訳に要する時間を短縮することができる。
【0068】
(4.実施形態2のサーバ装置の概要構成)
実施形態2のサーバ装置100は、画像内に含まれる文字列の翻訳に際し、当該画像内の指定された領域について既に文字認識の処理が行われている場合、画像の取得及び文字認識の処理を省略することを可能にするものである。
【0069】
本実施形態に係るサーバ装置100は、実施形態1と同様に、要求受信部101と、画像処理部102と、応答送信部103と、から構成されるが(図4)、各部の機能や扱う情報は、実施形態1と異なる。以下、詳細に説明する。
【0070】
要求受信部101は、画像の識別情報と、当該画像内の指定領域とが指定された要求を、端末装置200から受信する。
【0071】
ここで、指定領域とは、例えば、端末装置200を操作するユーザにより指定される、WEBページの画像内の領域である。例えば、指定領域は長方形により定められ、長方形の左上の角及び右下の角の座標により特定されるものとする。
【0072】
例えば、図9(a)に示すように、ユーザが、端末装置200において、カーソル701をドラッグして画像601内の領域902を選択したとする。ここで、画像601の左上の角911の座標(“(縦座標、横座標)”とする)が“(0、0)”、右下の角912の座標が(200、300)と設定されているとする。また、領域902の左上の角の座標が(5、100)、右下の角の座標が(48、200)であるとする。ユーザにより領域902が指定されると、端末装置200は、画像601の画像URL“http://xxx.601.jpg”と、指定領域“(5、100):(48、200)”とが指定された要求をサーバ装置100に送信する。サーバ装置100の要求受信部101は、当該要求を受信する。
【0073】
なお、指定領域を指定する手法は、上記に限られない。例えば、図9(b)に示すように、画像内にカーソル701を重ねると、カーソル701を中心として所定の大きさの長方形903が表示され、長方形903の領域を指定領域とするようにしてもよい。また、指定領域は長方形に限らず、円形等であってもよい。
【0074】
画像処理部102は、受信された要求に指定された識別情報に基づいて画像を取得し、取得された画像内の指定領域について文字認識を行うことにより、当該画像内の当該指定領域から認識された認識済文字列を出力する。
【0075】
画像処理部102は、例えば、画像URL“http://xxx.601.jpg”、及び、指定領域“(5、100):(48、200)”が指定された要求が受信されたとすると、画像処理部102は、まず当該画像URLに基づいて、WEBサーバ400から画像601を取得する。次に、画像処理部102は、文字認識のための認識用言語を推定する。例えば、WEBページ600のURLに、国を示すドメインコードが含まれる場合、当該ドメインコードから画像内に含まれる文字の言語を推定する。例えば、ドメインコードに“.UK”が含まれれば、認識用言語を“英語”と推定する。あるいは、html内に言語を指定するタグが存在するか判断し、存在する場合はその言語を認識用言語とする。例えば、html内に“<html lang=“en”>”のタグが存在した場合、認識用言語を“英語”とする。本実施形態では、認識用言語は“英語”と推定されたとする。画像処理部102は、取得した画像601の指定領域“(5、100):(48、200)”に含まれる文字は、“英語”であるとして、文字認識を行う。文字認識の結果、当該指定領域内の文字が、“Sale”であると判断されると、画像処理部102は、この文字列を認識済文字列として出力する。
【0076】
画像処理部102は、認識済文字列が抽出されると、当該認識済文字列に対する画像の識別情報ならびに指定領域に対応付けて、当該認識済文字列をキャッシュする。
【0077】
例えば、画像処理部102は、図10に示すように、画像601の画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、指定領域“(5、100):(48、200)”と認識済文字列“Sale”と、を対応付けて、抽出情報テーブル101aに登録する。
【0078】
ここで、画像処理部102は、認識済文字列が抽出されると、指定領域を指定領域内において当該認識済文字列が認識された認識領域に補正してから、当該認識済文字列をキャッシュするようにしてもよい。
【0079】
認識領域とは、例えば、認識済文字列を含む長方形であって、長方形の縦方向及び横方向の長さを最小にした長方形により特定される領域であるとする。例えば、 “Sale”の認識領域(図11の領域921)は、“(8、110):(45、170)”、“Water”の認識領域(図11の領域922)は、“(60、120):(90、180)”、“Best bang for the buck”の認識領域(図11の領域923)は、“(110、25):(190、270)”とする。
【0080】
例えば、図9(a)に示すように、領域902が指定領域として指定され、指定領域“(5、100):(48、200)”と指定された要求が受信されたとする。この場合、画像処理部102は、当該指定領域について文字認識をし、“Sale”の文字列を抽出した後、当該文字列が含まれる認識領域を求める。そして、画像処理部102は、図12に示すように、画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、指定領域(認識領域)“(8、110):(45、170)”と、認識済文字列“Sale”と、を対応付けて抽出情報テーブル101aに登録する。
【0081】
また、例えば、図9(c)に示すように、画像601からはみ出した領域904が指定領域として指定され、指定領域“(52、−20):(98、320)”と指定された要求が受信されたとする。この場合、画像処理部102は、図12に示すように、画像601の画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、指定領域(認識領域)“(60、120):(90、180)”と、認識済文字列“Water”とを対応付けて、抽出情報テーブル101aに登録する。
【0082】
また、例えば、図9(d)に示すように、画像601内の文字列を横切るような領域905が指定領域として指定され、指定領域“(85、15):(210、285)”と指定された要求が受信されたとする。この場合、画像処理部102は、図12に示すように、画像601の画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、指定領域(認識領域)“(110、25):(190、270)”と、認識済文字列“Best bang for the buck”と、を対応付けて、抽出情報テーブル101aに登録する。
【0083】
応答送信部103は、画像処理部102により出力された認識済文字列が指定される応答を、端末装置200へ送信する。
【0084】
例えば、認識済文字列“Sale”が指定された応答が端末装置200に受信されると、図13(a)に示すように、文字認識が終了した認識済文字列“Sale”の認識領域に半透明の矩形931が重ねて表示される。同様に、図13(b)乃至図13(d)に示すように、認識領域に半透明の矩形932、933が重ねて表示される。
【0085】
そして、画像処理部102は、受信された要求に指定される識別情報ならびにパラメータに含まれる指定領域に対応付けられる認識済文字列がキャッシュされている場合、画像処理部102は、画像の取得及び文字認識にかえて、キャッシュされている認識済文字列を得て、当該得られた認識済文字列を出力する。
【0086】
ここで、画像処理部102は、認識済文字列がキャッシュされた際に対応付けられた識別情報と、受信された要求に指定された識別情報と、が一致し、認識済文字列がキャッシュされた際に対応付けられた指定領域と、受信された要求に指定され指定領域と、が、重複する場合、受信された要求に指定される識別情報ならびにパラメータに含まれる指定領域に対応付けられる抽出情報がキャッシュされていると判定する。
【0087】
例えば、ユーザが、図13(a)に示すように、領域906を指定すると、要求受信部101が、画像601の画像URLと、指定領域“(5、35):(52、200)”とを指定した要求を受信する。当該要求が受信されると、画像処理部102は、図12の抽出情報テーブル101aを参照する。抽出情報テーブル101aには、画像601の画像URLは一致し、要求に指定された指定領域“(5、35):(52、200)”とキャッシュされている指定領域“(8、110):(45、170)”とが重複する認識済文字列が登録されている。したがって、画像処理部102は、画像の取得及び文字認識の処理を省略して、認識済文字列“Sale”を応答送信部103に出力する。
【0088】
なお、要求に指定された指定領域とキャッシュされた指定領域とが重複するか否かの判断は、適宜設定することができる。
【0089】
例えば、図13(a)及び図13(b)に示すように、要求に指定された指定領域(領域906、907)がキャッシュされた指定領域(認識領域、矩形931、932)の全部を含む場合は、重複すると判断する。一方、図13(c)に示すように、要求に指定された指定領域(領域908)とキャッシュされた指定領域(認識領域、矩形933)とが一部のみ重なる場合、重複しないと判断するようにしてもよい。あるいは、認識領域と要求に指定された指定領域とが認識領域の面積の所定の割合だけ重なる場合、重複すると判断するようにしてもよい。また、あるいは、図13(d)に示すように、認識領域(矩形933)にカーソル701が重なった場合に、重複すると判断するようにしてもよい。
【0090】
(5.実施形態2のサーバ装置の動作)
次に、本実施形態のサーバ装置100の各部が行う動作について図14のフローチャートを用いて説明する。サーバ装置100に電源が入れられると、CPU 501は図14のフローチャートに示す制御処理を開始する。
【0091】
要求受信部101は、画像の識別情報と、指定領域と、が指定された要求を、端末装置200から受信する(ステップS201)。例えば、ユーザが図9(a)の領域902を指定すると、要求受信部101は、画像URL“http://xxx.601.jpg”と、指定領域“(5、100):(48、200)”とが指定された要求を受信する。
【0092】
画像処理部102は、受信された要求に指定される識別情報(画像URL)ならびに指定領域に対応付けられる抽出情報(認識済文字列)がキャッシュされているか否かを判断する(ステップS202)。
【0093】
画像処理部102は、当該認識済文字列がキャッシュされていると判断した場合(ステップS202;Yes)、キャッシュされている認識済文字列を出力する(ステップS203)。例えば、画像処理部102は、図12に示す抽出情報テーブル101aを参照して、画像URLは一致し、要求に指定された指定領域“(5、100):(48、200)”とキャッシュされた指定領域(認識領域)“(8、110):(45、170)”とが重複すると判断する。この場合、画像処理部102は、画像URL及び認識領域に対応付けられた認識済文字列“Sale”を応答送信部103に出力する。
【0094】
一方、画像処理部102は、当該認識済文字列がキャッシュされていないと判断した場合(ステップS202;No)、受信された要求に指定される画像URLの画像を取得する(ステップS205)。例えば、画像URL“http://xxx.601.jpg”が一致しない場合、あるいは、要求に指定された指定領域とキャッシュされた指定領域が重複しなかった場合、画像処理部102は、WEBサーバ400にアクセスし、画像URL“http://xxx.601.jpg”に対応する画像601を取得する。
【0095】
画像処理部102は、画像を取得すると、次に、認識用言語を推定し、当該認識用言語を用いて文字認識を行って、画像内から認識済文字列を抽出する(ステップS206)。例えば、画像処理部102は、画像601の指定領域(領域902)の文字は英語であるとして、領域902に対して文字認識を行い、“Sale”の認識済文字列を得る。
【0096】
画像処理部102は、画像の識別情報と、認識用言語と、指定領域と、認識済文字列とを対応付けてキャッシュする(ステップS207)。例えば、画像処理部102は、図10に示すように、画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、指定領域“(5、100):(48、200)”と、認識済文字列“Sale”と、を対応付けて、抽出情報テーブル101aに登録する。なお、登録する前に、当該指定領域を認識領域“(8、110):(45、170)”に補正して、図12に示すように登録してもよい。
【0097】
そして、画像処理部102は、抽出された認識済文字列を出力する(ステップS208)。例えば、画像処理部102は、文字認識の結果として認識済文字列“Sale”を応答送信部103へ出力する。
【0098】
応答送信部103は、ステップS203又はステップS208において出力された認識済文字列が指定される応答を、端末装置200へ送信する(ステップS204)。例えば、応答送信部103は、認識済文字列“Sale”が指定された応答を端末装置200へ送信する。
【0099】
本実施形態によれば、ユーザが指定した画像内の領域について、既に文字認識の結果が得られている場合、画像の取得及び文字認識の処理を省略することができる。そして、文字認識の結果得られた文字列について翻訳することにより、画像内の文字列の翻訳に要する時間を短縮することができる。
【0100】
(6.実施形態3のサーバ装置の概要構成)
実施形態3のサーバ装置100は、画像内に含まれる文字列の翻訳に際し、当該画像内の指定された領域について既に文字認識及び翻訳の処理が行われている場合、画像の取得、文字認識及び翻訳の処理の省略を可能にするものである。
【0101】
本実施形態に係るサーバ装置100は、実施形態2と同様に、要求受信部101と、画像処理部102と、応答送信部103と、から構成されるが(図4)、各部の機能や扱う情報は、実施形態2と異なる。以下、詳細に説明する。
【0102】
要求受信部101は、画像の識別情報と、認識用言語と、指定領域と、変換情報と、が指定された要求を、端末装置200から受信する。
【0103】
変換情報とは、例えば、画像に含まれる文字列の翻訳後の言語(以下、「翻訳先言語」という)である。認識用言語を用いて画像内から抽出された認識済文字列は、翻訳先言語に翻訳される。
【0104】
以下、ユーザがWEBページ600の画像601内の指定領域(領域909、座標は“(100、20):(200、280)”とする)について、サーバ装置100に翻訳を求める場合を例に説明する。例えば、ユーザが、端末装置200においてカーソル701をドラッグして画像601内の領域909を選択すると、図15(a)に示すように、認識用言語及び翻訳先言語の指定を求めるポップアップ803が表示される。図15(b)に示すように、ユーザがカーソル701でボタン804をクリックすると、プルダウンメニューが表示される。ユーザは、メニューの中から領域909内の文字列の言語(認識用言語)を選択する。同様に、翻訳先言語についてボタン805をクリックして、メニューの中から領域909内の文字列を何語(翻訳先言語)に翻訳するかを選択する。図15(c)に示すように、認識用言語“英語”及び翻訳先言語“日本語”が指定されると、画像601の画像URL“http://xxx.601.jpg”と、指定領域“(100、20):(200、280)”と、認識用言語“英語”と、翻訳先言語“日本語”と、が指定された要求が、サーバ装置100に送信される。サーバ装置100の要求受信部101は、当該要求を受信する。
【0105】
画像処理部102は、受信された要求に指定された識別情報に基づいて画像を取得し、取得された画像内の指定領域について文字認識を行うことにより、当該画像内の当該指定領域から認識された認識済文字列を出力する。そして、画像処理部102は、出力された認識済文字列に対して、受信された要求に指定された変換情報(翻訳先言語)を用いて変換処理を行うことにより、当該認識済文字列から変換された変換済文字列を出力する。
【0106】
例えば、画像処理部102は、要求に指定された画像URL“http://xxx.601.jpg”に対応する画像601をWEBサーバ400から取得する。次に、画像処理部102は、指定領域“(100、20):(200、280)”について認識用言語“英語”を用いて認識済文字列“Best bang for the buck”を抽出する。そして、画像処理部102は、当該認識済文字列を、翻訳先言語“日本語”に変換し、変換済文字列“お買い得”を応答送信部103へ出力する。
【0107】
画像処理部102は、変換済文字列が抽出されると、当該変換済文字列に対する画像の識別情報、指定領域、認識用言語、認識済文字列、ならびに、変換情報に対応付けて、当該変換済文字列をキャッシュする。なお、本実施形態では、キャッシュされる指定領域は、認識領域とする。
【0108】
例えば、画像処理部102は、図16に示すように、画像601の画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、指定領域“(110、25):(190、270)”と、翻訳先言語“日本語”と、認識済文字列“Best bang for the buck”と、変換済文字列“お買い得”と、を対応付けて、抽出情報テーブル101aに登録する。なお、登録する情報はこれらの組み合わせに限らず、例えば、翻訳先言語及び変換済文字列を登録しないことも可能である。
【0109】
そして、画像処理部102は、受信された要求に指定される識別情報(画像URL)、指定領域、認識用言語、ならびに、変換情報(翻訳先言語)に対する変換済文字列がキャッシュされている場合、画像処理部102は、変換処理にかえて、キャッシュされている変換済文字列を得て、当該得られた変換済文字列を出力する。
【0110】
例えば、ユーザが図17(a)に示すように、領域910(座標を“(90、0):(200、290)”とする)を指定し、ポップアップ806において、認識用言語“英語”と、翻訳先言語“日本語”とを選択したとする。この場合、要求受信部101は、画像601の画像URLと、指定領域“(90、0):(200、290)”と、認識用言語“英語”と、翻訳先言語“日本語”と、を指定した要求を受信する。画像処理部102は、図16の抽出情報テーブル101aを参照し、当該要求に指定された画像URL、認識用言語、及び翻訳先言語と、キャッシュされたこれらの情報とは一致し、要求に指定された指定領域“(90、0):(200、290)”とキャッシュされている指定領域“(110、25):(190、270)”とは重複すると判断する。したがって、画像処理部102は、画像の取得、文字認識、及び、変換処理の処理を省略して、変換済文字列“お買い得”を応答送信部103へ出力する。
【0111】
なお、画像URL及び認識用言語が一致し、要求に指定された指定領域とキャッシュされている指定領域が重複した場合、画像処理部102は、画像の取得及び文字認識の処理のみを省略して、抽出情報テーブル101aに登録された認識済文字列を用いて翻訳先言語に変換し、変換済文字列を得るようにしてもよい。例えば、要求受信部101が、画像601の画像URLと、指定領域“(90、0):(200、290)”と、認識用言語“英語”と、翻訳先言語“ドイツ語”と、を指定した要求を受信する。この場合、図16の抽出情報テーブル101aには、対応する変換済文字列は登録されていないので、認識済文字列“Best bang for the buck”をドイツ語に翻訳する変換処理を行い、変換済文字列を出力する。
【0112】
応答送信部103は、画像処理部102により出力された変換済文字列が指定された応答を、端末装置200へ送信する。
【0113】
例えば、変換済文字列“お買い得”が指定された応答が端末装置200に受信されると、図17(c)に示すように、変換済文字列“お買い得”が記されたポップアップ807がWEBページ600内に表示される。あるいは、図17(d)に示すように、認識領域に変換済文字列が記された矩形941を重ねて表示するようにしてもよい。
【0114】
(7.実施形態3のサーバ装置の動作)
次に、本実施形態のサーバ装置100の各部が行う動作について図18のフローチャートを用いて説明する。サーバ装置100に電源が入れられると、CPU 501は図18のフローチャートに示す制御処理を開始する。
【0115】
要求受信部101は、画像の識別情報(画像URL)と、指定領域と、認識用言語と、変換情報(翻訳先言語)と、が指定された要求を、端末装置200から受信する(ステップS301)。例えば、ユーザが、図15(a)の領域909を指定し、図15(c)に示すようにポップアップ803で認識用言語及び翻訳先言語を指定すると、要求受信部101は、画像URL“http://xxx.601.jpg”と、指定領域“(100、20):(200、280)”と、認識用言語“英語”と、翻訳先言語“日本語”とが指定された要求を受信する。
【0116】
画像処理部102は、受信された要求に指定される識別情報と、指定領域と、認識用言語と、翻訳先言語とに対応付けられる変換済文字列がキャッシュされているか否かを判断する(ステップS302)。
【0117】
画像処理部102は、当該変換済文字列がキャッシュされていると判断した場合(ステップS302;Yes)、キャッシュされている変換済文字列を出力する(ステップS303)。例えば、画像処理部102は、図16に示す抽出情報テーブル101aを参照して、画像URL、認識用言語、及び翻訳先言語は一致し、要求に指定された指定領域“(100、20):(200、280)”とキャッシュされた指定領域(認識領域)“(110、25):(190、270)”とが重複すると判断する。この場合、画像処理部102は、画像URL、指定領域、認識用言語、及び翻訳先言語に対応付けられた変換済文字列“お買い得”を応答送信部103に出力する。
【0118】
一方、画像処理部102は、当該変換済文字列がキャッシュされていないと判断した場合(ステップS302;No)、画像URLと、指定領域と、認識用言語とに対応付けられる認識済文字列がキャッシュされているか否かを判断する(ステップS305)。
【0119】
画像処理部102は、当該認識済文字列がキャッシュされていると判断した場合(ステップS305;Yes)、キャッシュされている認識済文字列を翻訳先言語に変換して、変換済文字列を取得する(ステップS306)。例えば、図16の抽出情報テーブル101aにおいて、翻訳先言語“日本語”及び変換済文字列“お買い得”が登録されていなかった場合、画像処理部102は、認識済文字列“Best bang for the buck”を翻訳先言語“日本語”に変換し、変換済文字列“お買い得”を得る。
【0120】
一方、画像処理部102は、当該認識済文字列がキャッシュされていないと判断した場合(ステップS305;No)、受信された要求に指定される画像URLの画像を取得する(ステップS309)。そして、画像処理部102は、当該画像内の指定領域について文字認識を行い、認識済文字列を抽出する(ステップS310)。例えば、画像URL“http://xxx.601.jpg”が一致しない場合、あるいは、要求に指定された指定領域とキャッシュされた指定領域が重複しなかった場合、画像処理部102は、WEBサーバ400にアクセスし、画像URL“http://xxx.601.jpg”に対応する画像601を取得する。そして、要求に指定される認識用言語“英語”を用いて指定領域について文字認識を行い、認識済文字列“Best bang for the buck”を抽出する。
【0121】
ステップS310において、認識済文字列が抽出されると、画像処理部102は当該認識済文字列に対して変換処理を行う(ステップS306)。
【0122】
画像処理部102は、画像の識別情報と、認識用言語と、翻訳先言語と、指定領域と、認識済文字列と、変換済文字列と、を対応付けてキャッシュする(ステップS307)。そして、取得した変換済文字列を応答送信部103へ出力する(ステップS308)。例えば、画像処理部102は、図16に示すように、画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、翻訳先言語“日本語”と、指定領域(認識領域)“(110、25):(190、270)”と、認識済文字列“Best bang for the buck”と、変換済文字列“お買い得”と、を対応付けて、抽出情報テーブル101aに登録する。そして、変換済文字列“お買い得”を応答送信部103へ出力する。
【0123】
そして、画像処理部102は、ステップS303又はステップS308において出力された変換済文字列が指定される応答を、端末装置200へ送信する(ステップS304)。例えば、応答送信部103は、変換済文字列“お買い得”が指定された応答を端末装置200へ送信する。
【0124】
本実施形態によれば、ユーザが指定した画像内の領域について、既に変換処理の結果(翻訳結果)が得られている場合、画像の取得、文字認識の処理、及び、変換処理を省略することができる。これにより、画像内の文字列の翻訳に要する時間を短縮することができる。
【0125】
(8.実施形態4のサーバ装置の概要構成)
実施形態4のサーバ装置100は、画像について文字認識の処理が終了しているか否かをユーザに提示するものである。
【0126】
本実施形態に係るサーバ装置100は、図19に示すように、要求受信部101と、画像処理部102と、応答送信部103と、問合受信部104と、回答送信部105と、から構成される。本実施形態の要求受信部101、画像処理部102、及び、応答送信部103は、実施形態1と同様の機能を有する。以下、異なる機能を有する問合受信部104及び回答送信部105について説明する。
【0127】
問合受信部104は、画像の識別情報が指定された問合せを、端末装置200から受信する。
【0128】
例えば、図20(a)に示すように、ユーザが画像601内にカーソル701を重ねると(マウスオーバをすると)、端末装置200は、画像601の画像URLが指定された問合せをサーバ装置100に送信する。サーバ装置100の問合受信部104は、当該問合せを受信する。
【0129】
本実施形態では、CPU 501及びNIC 504が協働して、問合受信部104として機能する。なお、以下の実施形態5及び6においても同様である。
【0130】
回答送信部105は、受信された問合せに指定される識別情報に対応付けられる抽出情報がキャッシュされていない場合、画像の識別情報と、画像処理のパラメータと、が指定された要求の送信を促すメッセージが指定された回答を、端末装置200へ送信し、受信された問合せに指定される識別情報に対応付けられる抽出情報がキャッシュされている場合、当該抽出情報が指定された回答を、端末装置200へ送信する。
【0131】
ここで、画像処理のパラメータとは、文字認識のための認識用言語であり、抽出情報とは、認識済文字列であるとする。サーバ装置100には、図6に示す抽出情報テーブル101aが格納されているとする。当該抽出情報テーブル101aには、要求に指定された画像601の画像URL“http://xxx.601.jpg”に対応する認識済文字列“Sale Water Best bang for the buck”が登録されている。したがって、回答送信部105は、認識済文字列が指定された回答を端末装置200に送信する。端末装置200が当該回答を受信すると、端末装置200に表示されるWEBページには、図20(a)に示すように、認識済文字列を含むポップアップ809が表示される。
【0132】
なお、認識済文字列がキャッシュされている場合に送信される回答には、認識済文字列が得られている旨のメッセージが指定されるようにしてもよい。端末装置200が当該回答を受信すると、図20(b)に示すように、認識済文字列が得られている旨のメッセージを含むポップアップ810が表示される。
【0133】
一方、サーバ装置100に、画像601の画像URLに対応する認識済文字列がキャッシュされていない場合、回答送信部105は、画像601の画像URL及び認識用言語が指定された要求を送信するよう促すメッセージが指定された回答を、端末装置200に送信する。端末装置200が当該回答を受信すると、端末装置200に表示されるWEBページには、図5(a)に示すように、認識用言語の入力を求めるポップアップ801が表示される。
【0134】
本実施形態では、CPU 501及びNIC 504が協働して、回答送信部105として機能する。なお、以下の実施形態5及び6においても同様である。
【0135】
(9.実施形態4のサーバ装置の動作)
次に、本実施形態のサーバ装置100の各部が行う動作について図21のフローチャートを用いて説明する。サーバ装置100に電源が入れられると、CPU 501は図21のフローチャートに示す制御処理を開始する。
【0136】
問合受信部104は、画像の識別情報が指定された問合せを、端末装置200から受信する(ステップS401)。例えば、画像601の画像URLが指定された問合せを受信する。
【0137】
回答送信部105は、当該問合せに指定される識別情報に対応付けられる認識済文字列がキャッシュされているか否かを判断する(ステップS402)。
【0138】
回答送信部105は、当該認識済文字列がキャッシュされていると判断すると(ステップS402;Yes)、キャッシュされている認識済文字列が指定された回答を、端末装置200に送信する(ステップS403)。例えば、画像601の画像URLに対応する認識済文字列“Sale Water Best bang for the buck”が、サーバ装置100に格納される抽出情報テーブル101aに登録されている場合(図6)、回答送信部104は、端末装置200に、当該認識済文字列を指定した回答を端末装置200に送信する。
【0139】
一方、回答送信部105は、当該認識済文字列がキャッシュされていないと判断すると(ステップS402;No)、認識用言語の指定を促すメッセージが指定された回答を、端末装置200に送信する(ステップS404)。例えば、画像601の画像URLに対応する認識済文字列が、サーバ装置100に格納される抽出情報テーブル101aに登録されていない場合、回答送信部104は、画像601の画像URL及び認識用言語が指定された要求を送信するよう促すメッセージが指定された回答を、端末装置200に送信する。
【0140】
この後、端末装置200から画像601の画像URL及び認識用言語が指定された要求を受け付けると、サーバ装置100は、例えば、図8のフローチャートに示す制御処理を開始する。
【0141】
本実施形態によれば、画像にマウスオーバ等するだけで、ユーザに、画像について文字認識の処理が終了しているか否かを知らせることができる。
【0142】
(10.実施形態5のサーバ装置の概要構成)
実施形態5のサーバ装置100は、画像内の領域について文字認識の処理が終了しているか否かをユーザに提示するものである。
【0143】
本実施形態に係るサーバ装置100は、図19に示すように、要求受信部101と、画像処理部102と、応答送信部103と、問合受信部104と、回答送信部105と、から構成される。本実施形態の要求受信部101、画像処理部102、及び、応答送信部103は、実施形態2と同様の機能を有する。以下、異なる機能を有する問合受信部104及び回答送信部105について説明する。
【0144】
問合受信部104は、画像の識別情報と、当該画像内の位置と、が指定された問合せを、端末装置200から受信する。
【0145】
例えば、図22(a)に示すように、ユーザが画像601内にカーソル701を重ねると(マウスオーバをすると)、端末装置200は、画像601の画像URLと、当該カーソル701の位置の座標(“(75:175)”とする)とが指定された問合せをサーバ装置100に送信する。サーバ装置100の問合受信部104は、当該問合せを受信する。
【0146】
回答送信部105は、受信された問合せに指定される識別情報、ならびに、受信された問合せに指定される位置を含む指定領域に対応付けられる認識済文字列が、画像処理部102によりキャッシュされている場合、当該キャッシュされている認識済文字列が指定された回答を、端末装置200へ送信する。
【0147】
例えば、サーバ装置100には、図12に示す抽出情報テーブル101aが格納されているとする。図22(a)に示すように、要求に指定された位置の座標“(75:175)”は、認識領域922に含まれる。当該抽出情報テーブル101aには、要求に指定された画像601の画像URL“http://xxx.601.jpg”と、要求に指定された位置の座標を含む指定領域(認識領域922)とに対応する認識済文字列“Water”が登録されている。したがって、回答送信部105は、当該認識済文字列が指定された回答を端末装置200に送信する。端末装置200が当該回答を受信すると、端末装置200に表示されるWEBページには、図22(a)に示すように、認識済文字列“Water”を含むポップアップ811が表示される。
【0148】
なお、認識済文字列がキャッシュされている場合に送信される回答には、翻訳先言語が指定された要求の送信を促すメッセージが指定されるようにしてもよい。端末装置200が当該回答を受信すると、図22(b)に示すように、翻訳先言語の指定を求めるポップアップ812が表示される。
【0149】
一方、サーバ装置100に、画像601の画像URL及び指定された位置が含まれる指定領域に対応する認識済文字列がキャッシュされていない場合、回答送信部105は、当該指定領域について画像601の画像URL、画像内の位置及び認識用言語が指定された要求を送信するよう促すメッセージが指定された回答を、端末装置200に送信する。端末装置200が当該回答を受信すると、端末装置200に表示されるWEBページには、例えば、図22(c)に示すように、認識用言語の入力を求めるポップアップ813が表示される。
【0150】
(11.実施形態5のサーバ装置の動作)
次に、本実施形態のサーバ装置100の各部が行う動作について図23のフローチャートを用いて説明する。サーバ装置100に電源が入れられると、CPU 501は図23のフローチャートに示す制御処理を開始する。
【0151】
問合受信部104は、画像の識別情報と、当該画像内の位置と、が指定された問合せを、端末装置200から受信する(ステップS501)。例えば、画像601の画像URL及び位置“(75:175)”が指定された問合せを受信する。
【0152】
回答送信部105は、当該問合せに指定される識別情報及び位置を含む指定領域に対応付けられる認識済文字列がキャッシュされているか否かを判断する(ステップS502)。
【0153】
回答送信部105は、当該認識済文字列がキャッシュされていると判断すると(ステップS502;Yes)、キャッシュされている認識済文字列が指定された回答を、端末装置200に送信する(ステップS503)。例えば、画像601の画像URL及び指定された位置“(75:175)”を含む指定領域に対応する認識済文字列“Water”が、サーバ装置100に格納される抽出情報テーブル101aに登録されている場合(図12)、回答送信部104は、端末装置200に、当該認識済文字列を指定した回答を端末装置200に送信する。
【0154】
一方、回答送信部105は、当該認識済文字列がキャッシュされていないと判断すると(ステップS502;No)、当該画像の指定領域について認識用言語の指定を促すメッセージが指定された回答を、端末装置200に送信する(ステップS504)。例えば、画像601の画像URL及び指定された位置を含む指定領域に対応する認識済文字列が、サーバ装置100に格納される抽出情報テーブル101aに登録されていない場合、回答送信部104は、画像601の画像URL、当該指定領域及び認識用言語が指定された要求を送信するよう促すメッセージが指定された回答を、端末装置200に送信する。
【0155】
本実施形態によれば、画像内の領域にマウスオーバ等するだけで、ユーザに、当該領域について文字認識の処理が終了しているか否かを知らせることができる。
【0156】
(12.実施形態6のサーバ装置の概要構成)
実施形態6のサーバ装置100は、画像内の領域について変換処理が終了しているか否かをユーザに提示するものである。
【0157】
本実施形態に係るサーバ装置100は、図19に示すように、要求受信部101と、画像処理部102と、応答送信部103と、問合受信部104と、回答送信部105と、から構成される。本実施形態の要求受信部101、画像処理部102、及び、応答送信部103は、実施形態3と同様の機能を有する。以下、異なる機能を有する問合受信部104及び回答送信部105について説明する。
【0158】
問合受信部104は、画像の識別情報と、当該画像内の位置と、変換情報と、が指定された問合せを、端末装置200から受信する。
【0159】
例えば、図22(a)に示すように、ユーザが画像601内にカーソル701を重ねると、図22(b)に示すように、翻訳先言語(変換情報)の指定を求めるポップアップ812が表示される。そして、ユーザが任意の翻訳先言語(例えば“スペイン語”)を選択すると、端末装置200は、画像601の画像URLと、当該カーソル701の位置の座標“(75:175)”と、翻訳先言語“スペイン語”が指定された問合せをサーバ装置100に送信する。サーバ装置100の問合受信部104は、当該問合せを受信する。
【0160】
回答送信部105は、受信された問合せに指定される識別情報、変換情報、ならびに、前記受信された問合せに指定される位置を含む指定領域に対応付けられる変換済文字列が、前記画像処理部によりキャッシュされている場合、前記回答に当該キャッシュされている変換済文字列が指定された回答を送信する。
【0161】
例えば、サーバ装置100には、図24に示す抽出情報テーブル101aが格納されているとする。当該抽出情報テーブル101aには、要求に指定された画像601の画像URL“http://xxx.601.jpg”と、要求に指定された位置の座標を含む指定領域(認識領域922)と、翻訳先言語“スペイン語”に対応する変換済文字列“Agua”が登録されている。したがって、回答送信部105は、当該変換済文字列が指定された回答を端末装置200に送信する。端末装置200が当該回答を受信すると、端末装置200に表示されるWEBページには、図25(a)に示すように、変換済文字列“Agua”を含むポップアップ814が表示される。
【0162】
一方、サーバ装置100に、画像601の画像URL、指定された位置が含まれる指定領域、及び翻訳先言語に対応する変換済文字列がキャッシュされていない場合、回答送信部105は、当該変換済文字列がキャッシュされていない旨のメッセージが指定された回答を、端末装置200に送信する。端末装置200が当該回答を受信すると、端末装置200に表示されるWEBページには、例えば、図25(b)に示すように、変換済文字列がキャッシュされていない旨のメッセージを含むポップアップ815が表示される。
【0163】
(13.実施形態6のサーバ装置の動作)
次に、本実施形態のサーバ装置100の各部が行う動作について図26のフローチャートを用いて説明する。サーバ装置100に電源が入れられると、CPU 501は図26のフローチャートに示す制御処理を開始する。
【0164】
問合受信部104は、画像の識別情報と、当該画像内の位置と、変換情報と、が指定された問合せを、端末装置200から受信する(ステップS601)。例えば、画像601の画像URL、位置“(75:175)”、及び翻訳先言語“スペイン語”が指定された問合せを受信する。
【0165】
回答送信部105は、当該問合せに指定される識別情報、位置を含む指定領域、及び翻訳先言語に対応付けられる変換済文字列がキャッシュされているか否かを判断する(ステップS602)。
【0166】
回答送信部105は、当該変換済文字列がキャッシュされていると判断すると(ステップS602;Yes)、キャッシュされている変換済文字列が指定された回答を、端末装置200に送信する(ステップS603)。例えば、画像601の画像URL、指定された位置“(75:175)”を含む指定領域、及び翻訳先言語“スペイン語”に対応する変換済文字列“Agua”が、サーバ装置100に格納される抽出情報テーブル101aに登録されている場合(図24)、回答送信部104は、端末装置200に、当該変換済文字列を指定した回答を端末装置200に送信する。
【0167】
一方、回答送信部105は、当該変換済文字列がキャッシュされていないと判断すると(ステップS602;No)、当該変換済文字列がキャッシュされていない旨のメッセージが指定された回答を、端末装置200に送信する(ステップS604)。例えば、画像601の画像URL、指定された位置を含む指定領域、及び翻訳先言語“スペイン語”に対応する変換済文字列が、サーバ装置100に格納される抽出情報テーブル101aに登録されていない場合、回答送信部104は、当該変換済文字列がキャッシュされていない旨のメッセージが指定された回答を、端末装置200に送信する。
【0168】
なお、本実施形態において、問合受信部104は、画像URL及び位置が指定された問合せを受信し、回答送信部105は、当該画像URL及び当該位置が含まれる指定領域に対応する変換済文字列が指定された回答を送信するようにしてもよい。
【0169】
例えば、画像601の画像URL及び指定された位置“(75:175)”が指定された問合せを受信した場合、回答送信部105は、図24の抽出情報テーブル101aを参照し、当該画像URL及び当該位置が含まれる指定領域に対応する変換済文字列“水”、“Agua”、“L’eau”を取得する。そして、回答送信部105は、これらすべての変換済文字列が指定された回答を端末装置200に送信する。当該回答を端末装置200が受信すると、端末装置200において、例えば、図25(c)に示すようなポップアップ816が表示される。あるいは、回答送信部105は、これまでに要求において指定された頻度の最も高い翻訳先言語に対応する変換済文字列を選択し、当該変換済文字列を指定した回答を送信するようにしてもよい。また、あるいは、回答送信部105は、抽出情報テーブル101aに登録されている変換済文字列からランダムに選択して、当該変換済文字列を指定した回答を送信するようにしてもよい。
【0170】
本実施形態によれば、画像内の領域にマウスオーバ等するだけで、ユーザに、当該領域について変換処理(翻訳処理)が終了しているか否かを知らせることができる。
【0171】
(14.実施形態7の端末装置の概要構成)
実施形態7のプログラムは、サーバ装置と通信可能な端末装置に、サーバ装置で行った文字認識又は変換処理の結果を表示させるように機能させるものである。
【0172】
本実施形態に係るプログラムが動作する端末装置200は、図27に示すように、表示部201と、位置検出部202と、問合送信部203と、回答受信部204と、領域検出部205と、設定部206と、要求送信部207と、応答受信部208と、から構成される。
【0173】
表示部201は、識別情報により識別される画像を画面に表示する。
【0174】
例えば、表示部201は、図22(a)に示すように、画像URL“http://xxx.601.jpg”と指定される画像601を表示する。
【0175】
本実施形態では、CPU 501及び画像処理部505が協働して、表示部201として機能する。
【0176】
位置検出部202は、画面に表示された画像内の位置の選択を検出する。
【0177】
例えば、位置検出部202は、図22(a)に示すように、画像内にカーソル701を重ねると、当該カーソル701の位置の座標を検出する。
【0178】
本実施形態では、CPU 501及び画像処理部505が協働して、位置検出部202として機能する。
【0179】
問合送信部203は、位置の選択が検出されると、識別情報と、当該選択された位置と、が指定された問合せを、サーバ装置100へ送信する。
【0180】
例えば、図22(a)の場合、問合送信部203は、画像601の画像URLと、位置の座標“(75:175)”とが指定された問合せをサーバ装置100に送信する。
【0181】
本実施形態では、CPU 501及びNIC 504が協働して、問合送信部203として機能する。
【0182】
回答受信部204は、サーバ装置100から、回答を受信する。そして、表示部201が、受信された回答に指定される抽出情報を、画面にさらに表示する。
【0183】
例えば、回答受信部204は、認識済文字列“Water”が指定された回答を受信する。この場合、表示部201は、図22(a)に示すように、当該認識済文字列が含まれるポップアップ811を表示する。
【0184】
本実施形態では、CPU 501及びNIC 504が協働して、回答受信部204として機能する。
【0185】
領域検出部205は、画面に表示された画像内の領域の選択を検出する。
【0186】
例えば、領域検出部205は、図9(a)に示すように、画像内でカーソル701がドラッグされると、ドラッグされた領域(領域902)の座標を検出する。
【0187】
本実施形態では、CPU 501及び画像処理部505が協働して、領域検出部205として機能する。
【0188】
設定部206は、画像処理用のパラメータの設定を促す。
【0189】
例えば、設定部206は、文字認識に使用する認識用言語の設定を促す。
【0190】
本実施形態では、CPU 501が設定部206として機能する。
【0191】
要求送信部207は、領域の選択が検出されると、識別情報と、設定されたパラメータと、当該選択された領域と、が指定された要求を、サーバ装置100へ送信する。
【0192】
例えば、図9(a)のように領域が指定されて、当該領域の座標が検出されると、要求送信部207は、画像URL“http://xxx.601.jpg”と、認識用言語“英語”と、選択された領域の座標“(5、100):(48、200)”と、が指定された要求を、サーバ装置100へ送信する。
【0193】
本実施形態では、CPU 501及びNIC 504が協働して、要求送信部207として機能する。
【0194】
応答受信部208は、サーバ装置100から、応答を受信する。そして、表示部201が、受信された応答に指定される抽出情報を、画面にさらに表示する。
【0195】
例えば、応答受信部208は、認識済文字列“Sale”が指定された応答を受信する。この場合、表示部201は、例えば、図13(a)に示すように、認識済文字列“Sale”に半透明の矩形931が重ねて表示する。
【0196】
本実施形態では、CPU 501及びNIC 504が協働して、応答受信部208として機能する。
(15.実施形態7の端末装置の動作)
【0197】
次に、本実施形態の端末装置200の各部が行う動作について図28のフローチャートを用いて説明する。端末装置200に電源が入れられると、CPU 501は図28のフローチャートに示す制御処理を開始する。
【0198】
表示部201は、識別情報により識別される画像を画面に表示する(ステップS701)。位置検出部202は、当該画面に表示された画像内の位置の選択を検出したか否かを判断する(ステップS702)。
【0199】
例えば、表示部201は、画像URL“http://xxx.601.jpg”と指定される画像601を表示し、画像601にカーソル701を重ねると、位置検出部202は、カーソル701の位置の座標“(75:175)”を検出する(図22(a))。
【0200】
位置検出部202により、位置の選択を検出したと判断されると(ステップS702;Yes)、問合送信部203は、識別情報と、当該選択された位置と、が指定された問合せを、サーバ装置100へ送信する(ステップS703)。そして、回答受信部204は、サーバ装置100から、応答に対する回答を受信する(ステップS704)。表示部201は、受信された回答に指定される抽出情報を、画面にさらに表示する(ステップS705)。
【0201】
例えば、問合送信部203は、画像601の画像URLと、位置の座標“(75:175)”とが指定された問合せをサーバ装置100に送信する。そして、回答受信部204は、当該位置の座標が含まれる領域において、文字認識により得られた認識済文字列“Water”が指定された回答を受信する。当該回答を受信すると、表示部201は、図22(a)に示すように、当該認識済文字列が含まれるポップアップ811を表示する。
【0202】
一方、位置検出部202により、位置の選択を検出したと判断されなかった場合(ステップS702;No)、領域検出部205は、画面に表示された画像内の領域の選択を検出したか否かを判断する(ステップS706)。
【0203】
例えば、ユーザにより、図9(a)に示すように、画像内でカーソル701がドラッグされると、領域検出部205は、ドラッグされた領域(領域902)の座標“(5、100):(48、200)”を検出する。
【0204】
領域検出部205により、領域の選択を検出したと判断されると(ステップS706;Yes)、設定部206は、画像処理用のパラメータの設定を促す(ステップS707)。要求送信部207は、識別情報と、設定されたパラメータと、当該選択された領域と、が指定された要求を、サーバ装置100へ送信する(ステップS708)。そして、応答受信部208は、サーバ装置100から、当該要求に対応する応答を受信する(ステップS709)。表示部201は、受信された応答に指定される抽出情報を、画面にさらに表示する(ステップS710)。
【0205】
例えば、設定部206は、文字認識に使用する認識用言語の設定を促し、認識用言語“英語”が設定されると、要求送信部207は、画像601の画像URLと、認識用言語“英語”と、領域の座標“(5、100):(48、200)”と、が指定された要求を、サーバ装置100へ送信する。そして、応答受信部208は、当該領域と重複する領域において、文字認識により得られた認識済文字列“Sale”が指定された応答を受信する。当該応答を受信すると、表示部201は、例えば、図13(a)に示すように、認識済文字列“Sale”に半透明の矩形931が重ねて表示する。
【0206】
一方、領域検出部205により、領域の選択を検出したと判断されなかった場合(ステップS706;No)、あるいは、ステップS705、S710の処理が終了すると、ステップS701に戻る。
【0207】
なお、本実施形態において、回答受信部204が受信する回答には、抽出情報が画像のどの領域から抽出されたかを示す領域情報がさらに指定されるようにしてもよい。そして、本実施形態のプログラムは、画像の識別情報と、抽出情報と、領域情報と、を対応付けて端末装置200にキャッシュさせるようにしてもよい。この場合、ユーザが、当該画像と識別情報が同じ画像に対して、キャッシュされた領域情報に含まれる領域にマウスオーバすると、表示部201は、当該領域情報に対応する抽出情報を画面に表示する。
【0208】
また、応答受信部208が受信する応答には、抽出情報が画像のどの領域から抽出されたかを示す領域情報がさらに指定されるようにしてもよい。そして、本実施形態のプログラムは、画像の識別情報と、抽出情報と、領域情報と、を対応付けて端末装置200にキャッシュさせるようにしてもよい。この場合、ユーザが、当該画像と識別情報が同じ画像に対して、キャッシュされた領域情報が示す領域と重複するように領域を選択すると、表示部201は当該領域情報に対応する抽出情報を画面に表示する。領域が重複するか否かの判断は、例えば、実施形態2の場合と同様に行うことができる。
【0209】
また、本実施形態のプログラムは、ブラウザが実行する各種のスクリプト言語等により記述される。
【0210】
本実施形態によれば、サーバ装置と通信可能な端末装置に、サーバ装置で行った文字認識や変換処理の結果を表示させることができ、端末装置においてWEBページ内の画像の文字をリアルタイムで表示させることができる。
【産業上の利用可能性】
【0211】
本発明によれば、WEBページ内の画像の文字をリアルタイムで翻訳するのに好適なサーバ装置、サーバ装置の制御方法、プログラム、及び、記録媒体を提供することができる。
【符号の説明】
【0212】
100 サーバ装置
101 要求受信部
102 画像処理部
103 応答送信部
104 問合受信部
105 回答送信部
211、212〜21n、200 端末装置
201 表示部
202 位置検出部
203 問合送信部
204 回答受信部
205 領域検出部
206 設定部
207 要求送信部
208 応答受信部
300 インターネット
400 WEBサーバ装置
500 情報処理装置
501 CPU
502 ROM
503 RAM
504 NIC
505 画像処理部
506 音声処理部
507 DVD−ROMドライブ
508 インターフェース
509 外部メモリ
510 コントローラ
511 モニタ
512 スピーカ
600 WEBページ
601、602、603 画像
604、605、606 テキスト
701 カーソル
801、803、806、807、809、810、811、812、813、814、815、816 ポップアップ
802、804、805 ボタン
901、931、932、933、941 矩形
902、903、904、905、906、907、908、909、910 領域
911、912 角
921、922、923 認識領域


【特許請求の範囲】
【請求項1】
画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信部、
前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理部、
前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信部
を備え、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ことを特徴とするサーバ装置。
【請求項2】
請求項1に記載のサーバ装置であって、
前記要求に指定されるパラメータは、指定領域を含み、
前記画像処理部による画像処理には、前記画像内の前記パラメータに含まれる指定領域について文字認識を行うことにより、当該画像内の当該指定領域から認識された認識済文字列を出力する抽出処理が含まれ、
前記画像処理部は、前記認識済文字列が抽出されると、当該認識済文字列に対する画像の識別情報ならびに指定領域に対応付けて、当該認識済文字列をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに含まれる指定領域に対応付けられる認識済文字列がキャッシュされている場合、前記画像処理部は、前記文字認識にかえて、前記キャッシュされている認識済文字列を得て、当該得られた認識済文字列を出力し、
前記抽出情報は、前記認識済文字列を含む
ことを特徴とするサーバ装置。
【請求項3】
請求項2に記載のサーバ装置であって、
前記画像処理部は、前記認識済文字列がキャッシュされた際に対応付けられた識別情報と、前記受信された要求に指定された識別情報と、が一致し、前記認識済文字列がキャッシュされた際に対応付けられた指定領域と、前記受信された要求に指定されるパラメータに含まれる指定領域と、が、重複する場合、前記受信された要求に指定される識別情報ならびにパラメータに含まれる指定領域に対応付けられる抽出情報がキャッシュされていると判定する
ことを特徴とするサーバ装置。
【請求項4】
請求項2または3に記載のサーバ装置であって、
前記画像処理部は、前記認識済文字列が抽出されると、前記指定領域を前記指定領域内において当該認識済文字列が認識された認識領域に補正してから、当該認識済文字列をキャッシュする
ことを特徴とするサーバ装置。
【請求項5】
請求項2から4のいずれか1項に記載のサーバ装置であって、
前記要求に指定されるパラメータは、認識用言語を含み、
前記画像処理部による文字認識は、認識用言語により行われる
ことを特徴とするサーバ装置。
【請求項6】
請求項5に記載のサーバ装置であって、
前記要求に指定されるパラメータは、変換情報を含み、
前記画像処理部による画像処理には、前記出力された認識済文字列に対して、前記受信された要求に指定されたパラメータに含まれる変換情報を用いて変換処理を行うことにより、当該認識済文字列から変換された変換済文字列を出力する変換処理が含まれ、
前記抽出情報は、前記変換済文字列を含む
ことを特徴とするサーバ装置。
【請求項7】
請求項6に記載のサーバ装置であって、
前記画像処理部は、前記変換済文字列が抽出されると、当該変換済文字列に対する画像の識別情報、指定領域、認識用言語、認識済文字列、ならびに、変換情報に対応付けて、当該変換済文字列をキャッシュし、
前記受信された要求に指定される識別情報、指定領域、認識用言語、ならびに、変換情報に対する変換済文字列がキャッシュされている場合、前記画像処理部は、前記変換処理にかえて、前記キャッシュされている変換済文字列を得て、当該得られた変換済文字列を出力する
ことを特徴とするサーバ装置。
【請求項8】
請求項6または7に記載のサーバ装置であって、
前記変換処理は、前記変換情報に指定される翻訳先言語に前記認識済文字列を翻訳することにより、前記変換済文字列を得る
ことを特徴とするサーバ装置。
【請求項9】
請求項1に記載のサーバ装置であって、
画像の識別情報が指定された問合せを、前記端末から受信する問合受信部、
前記受信された問合せに指定される識別情報に対応付けられる抽出情報がキャッシュされていない場合、画像の識別情報と、画像処理のパラメータと、が指定された要求の送信を促すメッセージが指定された回答を、前記端末へ送信し、前記受信された問合せに指定される識別情報に対応付けられる抽出情報がキャッシュされている場合、当該抽出情報が指定された回答を、前記端末へ送信する回答送信部
をさらに備えることを特徴とするサーバ装置。
【請求項10】
請求項2から8のいずれか1項に記載のサーバ装置であって、
画像の識別情報と、当該画像内の位置と、が指定された問合せを、前記端末から受信する問合受信部、
前記受信された問合せに指定される識別情報、ならびに、前記受信された問合せに指定される位置を含む指定領域に対応付けられる認識済文字列が、前記画像処理部によりキャッシュされている場合、当該キャッシュされている認識済文字列が指定された回答を、前記端末へ送信する回答送信部
をさらに備えることを特徴とするサーバ装置。
【請求項11】
請求項6から8のいずれか1項に記載のサーバ装置であって、
画像の識別情報と、当該画像内の位置と、変換情報と、が指定された問合せを、前記端末から受信する問合受信部、
前記受信された問合せに指定される識別情報、変換情報、ならびに、前記受信された問合せに指定される位置を含む指定領域に対応付けられる変換済文字列が、前記画像処理部によりキャッシュされている場合、前記回答に当該キャッシュされている変換済文字列が指定された回答を、前記端末へ送信する回答送信部
をさらに備えることを特徴とするサーバ装置。
【請求項12】
識別情報により識別される画像を画面に表示する表示部を備え、請求項10に記載のサーバ装置と通信可能なコンピュータが実行するプログラムであって、当該プログラムは、当該コンピュータを、
前記画面に表示された画像内の位置の選択を検出する位置検出部、
前記位置の選択が検出されると、前記識別情報と、当該選択された位置と、が指定された問合せを、前記サーバ装置へ送信する問合送信部、
前記サーバ装置から、回答を受信する回答受信部
として機能させ、当該プログラムは、当該コンピュータを、
前記表示部が、前記受信された回答に指定される抽出情報を、前記画面にさらに表示する
ように機能させ、当該プログラムは、当該コンピュータを、
前記画面に表示された画像内の領域の選択を検出する領域検出部、
画像処理用のパラメータの設定を促す設定部、
前記領域の選択が検出されると、前記識別情報と、前記設定されたパラメータと、当該選択された領域と、が指定された要求を、前記サーバ装置へ送信する要求送信部、
前記サーバ装置から、応答を受信する応答受信部
として機能させ、当該プログラムは、当該コンピュータを、
前記表示部が、前記受信された応答に指定される抽出情報を、前記画面にさらに表示する
ように機能させることを特徴とするプログラム。
【請求項13】
要求受信部と、画像処理部と、応答送信部と、を備えるサーバ装置が実行する制御方法であって、
前記要求受信部が、画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信工程、
前記画像処理部が、前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理工程、
前記応答送信部が、前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信工程
を備え、
前記画像処理工程において、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ことを特徴とするサーバ装置の制御方法。
【請求項14】
コンピュータを、
画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信部、
前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理部、
前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信部
として機能させ、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ように機能させることを特徴とするプログラム。
【請求項15】
コンピュータを、
画像の識別情報と、画像処理に対するパラメータと、が指定された要求を、端末から受信する要求受信部、
前記受信された要求に指定された識別情報に基づいて画像を取得し、前記取得された画像に対して、前記受信された要求に指定されたパラメータを用いて前記画像処理を適用することにより、当該画像内から抽出された抽出情報を出力する画像処理部、
前記画像処理部により出力された抽出情報が指定される応答を、前記端末へ送信する応答送信部
として機能させ、
前記画像処理部は、前記抽出情報が抽出されると、当該抽出情報に対する画像の識別情報ならびにパラメータに対応付けて、当該抽出された抽出情報をキャッシュし、
前記受信された要求に指定される識別情報ならびにパラメータに対応付けられる抽出情報がキャッシュされている場合、前記画像処理部は、前記画像の取得ならびに前記画像処理の適用にかえて、前記キャッシュされている抽出情報を得て、当該得られた抽出情報を出力する
ように機能させることを特徴とするプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate

【図27】
image rotate

【図28】
image rotate


【公開番号】特開2012−234287(P2012−234287A)
【公開日】平成24年11月29日(2012.11.29)
【国際特許分類】
【出願番号】特願2011−101534(P2011−101534)
【出願日】平成23年4月28日(2011.4.28)
【出願人】(399037405)楽天株式会社 (416)
【Fターム(参考)】