説明

文字変換装置、文字変換システム、文字変換方法及びプログラム

【課題】文字変換に用いるファイルによって特定の文字列の出力を制御する。
【解決手段】情報処理端末は、看板等を含む画像を撮影し(S1)、画像データをサーバ装置に送信する(S2)。サーバ装置は、画像データに対してOCR処理を実行して文字を認識し(S3)、その文字から辞書ファイルに記憶されている登録文字列を抽出する(S4)。なお、辞書ファイルは、複数の登録文字列をカテゴリ毎に分類したデータである。サーバ装置は、フィルタリングすべきカテゴリとして選択されているカテゴリがある場合には、抽出した登録文字列から当該カテゴリの登録文字列を除外して情報処理端末に送信する(S5〜S7)。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、入力文字列に対応する文字列を選択的に提示するための技術に関する。
【背景技術】
【0002】
特定の文字列が含まれるコンテンツを判定することなどを目的に、かかる文字列が含まれているか否かを判定してその出力を制御する技術がある。ここでいう特定の文字列としては、例えば、卑わいな表現、暴力的な表現、他人を不快にさせるおそれがある表現などが代表的である。
【0003】
特許文献1には、公序良俗に反する単語を検査するテキストデータ検査システムにおいて、種々の分野の判断基準に適合させることを目的として、公序良俗に適合する用語を格納した複数の用語辞書を分野に応じて切り替えて用いることが記載されている。特許文献1に記載された用語辞書は、いわゆるホワイトリストに相当するといえる。一方、いわゆるブラックリストは、ホワイトリストとは異なり、除外すべき文字列(用語)が登録されたものである。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開平8−153106号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、何らかの文字変換(かな漢字変換、画像からテキストデータへの変換など)を行う場合において、上記のような特定の文字列の判定を行うときには、通常、文字変換用の辞書とホワイトリスト又はブラックリストの双方が必要である。このとき、判定用の文字列をホワイトリスト又はブラックリストに新たに追加したり、あるいは削除したりする場合には、文字変換用の辞書とホワイトリスト又はブラックリストの双方を変更しないと、両者に齟齬が生じる。
本発明は、かかる事情にかんがみ、文字変換に用いるファイルによって特定の文字列の出力を制御することを目的とするものである。
【課題を解決するための手段】
【0006】
本発明の一態様に係る文字変換装置は、入力文字列を取得する文字列取得部と、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字列取得部により取得された入力文字列に対応する登録文字列を抽出する抽出部と、1又は複数の前記カテゴリを選択する選択部と、前記選択部により選択されたカテゴリ以外のカテゴリに分類され、かつ、前記抽出部により抽出された登録文字列を出力する出力部とを備える。
【0007】
好ましい態様において、前記文字変換装置は、前記選択部による選択の態様を特定するための情報を取得する情報取得部を備え、前記選択部は、前記情報取得部により取得された情報に応じた態様で選択を行う。
別の好ましい態様において、前記出力部は、前記登録文字列と、当該登録文字列が分類されるカテゴリに応じた付加情報とを対応付けて出力する。
この態様において、前記付加情報は、対応する前記登録文字列がユーザに選択されたときに実行される処理を特定するための情報であると、より望ましい。
さらに別の好ましい態様において、前記辞書ファイルが複数あり、前記選択部は、前記辞書ファイルを選択するとともに、当該選択した辞書ファイルの前記カテゴリを選択する。
さらに別の好ましい態様において、前記辞書ファイルは、2以上の前記カテゴリに分類された前記登録文字列を含み、前記選択部は、複数の前記カテゴリを選択し、前記出力部は、前記抽出部により抽出された前記登録文字列が前記2以上のカテゴリに分類される場合において、その全部のカテゴリが前記選択部により選択されるとき、当該登録文字列を出力しない。
さらに別の好ましい態様において、前記文字変換装置は、前記辞書ファイルの前記登録文字列又は前記カテゴリを変更する編集部を備える。
【0008】
本発明の他の態様に係る文字変換システムは、画像から文字を認識する文字認識部と、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字認識部により認識された文字に対応する登録文字列を抽出する抽出部と、1又は複数の前記カテゴリを選択する選択部と、前記選択部により選択されたカテゴリ以外のカテゴリに分類され、かつ、前記抽出部により抽出された登録文字列を表示する表示部とを備える。
【0009】
本発明の他の態様に係るプログラムは、コンピュータに、入力文字列を取得する第1のステップと、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第2のステップと、1又は複数の前記カテゴリを選択する第3のステップと、前記第3のステップにおいて選択されたカテゴリ以外のカテゴリに分類され、かつ、前記第2のステップにおいて抽出された登録文字列を出力する第4のステップとを実行させる。
【0010】
本発明の他の態様に係る文字変換方法は、入力文字列を取得する第1のステップと、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第2のステップと、1又は複数の前記カテゴリを選択する第3のステップと、前記第3のステップにおいて選択されたカテゴリ以外のカテゴリに分類され、かつ、前記第2のステップにおいて抽出された登録文字列を出力する第4のステップとを有する。
【発明の効果】
【0011】
本発明によれば、文字変換に用いるファイルによって特定の文字列の出力を制御することが可能となる。
【図面の簡単な説明】
【0012】
【図1】情報処理システムの全体構成を示す図
【図2】サーバ装置のハードウェア構成を示すブロック図
【図3】情報処理端末のハードウェア構成を示すブロック図
【図4】辞書ファイルのデータ構造を例示する模式図
【図5】サーバ装置の機能的構成を示す機能ブロック図
【図6】情報処理端末の機能的構成を示す機能ブロック図
【図7】文字変換処理を示すシーケンスチャート
【図8】文字変換装置の機能的構成を示す機能ブロック図
【発明を実施するための形態】
【0013】
[実施形態]
図1は、本発明の一実施形態である情報処理システムの全体構成を示す図である。図1に示すように、本実施形態の情報処理システム10は、サーバ装置100と、複数の情報処理端末200とを備え、これらをネットワーク900を介して通信可能に接続した構成である。情報処理端末200は、撮影機能を有し、文字を表示することができる通信端末である。以下においては、情報処理端末200は、いわゆるカメラ付き携帯電話であるとともに、電子メールの送受信やWebサイトの閲覧(ブラウズ)が可能であるものとする。サーバ装置100は、情報処理端末200により撮影された画像から文字列を認識する機能を有するコンピュータ装置である。ネットワーク900は、例えば、インターネットや移動体通信網である。
【0014】
図2は、サーバ装置100のハードウェア構成を示すブロック図である。サーバ装置100は、図2に示すように、制御部110と、記憶部120と、通信部130とを備える。制御部110は、サーバ装置100の各部の動作を制御する手段である。制御部110は、CPU(Central Processing Unit)等の演算処理装置と主記憶装置に相当するメモリとを備え、プログラムを実行することによって各部の制御を行う。記憶部120は、補助記憶装置に相当する記憶手段を備え、制御部110により用いられるデータを記憶する。記憶部120は、OCR(Optical Character Recognition:光学文字認識)処理を実行するためのプログラムや文字列を抽出するためのプログラムに加え、後述する辞書ファイルを記憶している。通信部130は、ネットワーク900に接続してデータを送受信する手段である。
【0015】
図3は、情報処理端末200のハードウェア構成を示すブロック図である。情報処理端末200は、図3に示すように、制御部210と、記憶部220と、通信部230と、表示部240と、UI(User Interface)部250と、撮影部260とを備える。制御部210は、情報処理端末200の各部の動作を制御する手段である。制御部210は、サーバ装置200の制御部210と同様に、演算処理装置やメモリを備え、各種のプログラムを実行する。
【0016】
記憶部220は、制御部210により用いられるデータを記憶する手段である。記憶部220は、典型的には、ハードディスクやフラッシュメモリであるが、リムーバブルメディア(着脱可能な記憶手段)を含んでいてもよい。例えば、携帯電話機である情報処理端末200は、SIM(Subscriber Identity Module)カード又はUIM(User Identity Module)カードを記憶部220の一部に含み得る。記憶部220は、ユーザの属性を表す属性情報を記憶している。ここでいうユーザの属性は、例えば、ユーザの年齢(年代)や性別などである。あるいは、ユーザの属性は、当該ユーザの趣味・嗜好や職業などであってもよい。
【0017】
通信部230は、ネットワーク900に接続してデータを送受信する手段である。表示部240は、文字、画像等の情報を表示する手段である。表示部240は、液晶ディスプレイや有機EL(Electroluminescence)ディスプレイにより構成される表示面を有する。UI部250は、ユーザによる入力を受け付ける手段であり、キーパッド(キーボード)や各種のボタンを備える。また、UI部250は、表示部240の表示面に重ねて設けられたタッチスクリーン(タッチパネル)であってもよい。撮影部260は、被写体を撮影して画像データを生成する手段である。本実施形態における被写体は、看板、ポスター、文書など、文字が表記されたものを含んでいる。
【0018】
情報処理システム10の概略的な構成は、以上のとおりである。かかる情報処理システム10において、情報処理端末200は、撮影により得られた画像データをサーバ装置100に送信することによって、画像データが表す画像に含まれている文字のテキストデータを取得することができる。ここにおいて、テキストデータとは、文字列を文字コード(ASCII、Unicode、Shift_JIS等)によって記述したデータをいう。なお、ここでいう文字列は、1又は複数の文字により構成されるものである。サーバ装置100は、情報処理端末200が送信した画像データから文字列を抽出し、当該端末にテキストデータを送信する。
【0019】
サーバ装置100は、画像データから文字列を抽出するために、OCR処理及び形態素解析を実行する。このとき、サーバ装置100は、辞書ファイルを用いて、辞書ファイルにあらかじめ登録されている文字列(以下「登録文字列」という。)をテキストデータに含める一方、抽出された文字列が登録文字列でない場合には、当該文字列をテキストデータに含めないようにする。また、サーバ装置100は、必要に応じて、特定の登録文字列をテキストデータに含めないように除外する。
【0020】
図4は、辞書ファイルのデータ構造を例示する模式図である。本実施形態の辞書ファイルは、登録文字列を複数のカテゴリによって分類して記憶したものである。カテゴリには、より詳細な分類であるサブカテゴリを設定可能なものが含まれ得る。例えば、図4に例示する「固有名詞」というカテゴリには、「地名」、「人名」、「企業名」、「商品名」といったサブカテゴリが設定され、それぞれのサブカテゴリに応じた登録文字列が分類されている。また、「性的表現」というカテゴリは、サブカテゴリによって「レベル1」〜「レベル3」に細分化されている。ここにおいては、卑わいさの程度が高い登録文字列ほど高いレベルに分類されるものとする。なお、登録文字列は、同一の文字列が複数のカテゴリに分類されていてもよいものとする。
【0021】
また、登録文字列は、特定の文字列ではなく、パターンマッチによって表現されてもよい。例えば、「電話番号」というカテゴリには、既知の電話番号のすべてが登録されている必要はなく、所定の規則で並んだ文字列(ここでは、数字とハイフン等の記号の所定の文字数の組み合わせ)が電話番号であると認識されるデータ構造の登録文字列があればよい。かかる登録文字列としては、例えば、正規表現で記述した文字列を用いることができる。なお、「メールアドレス」というカテゴリについても同様に、例えば、英数字とともに「@」や「.」などの記号を含む文字列がメールアドレスであると認識されるようになっていればよい。
【0022】
なお、辞書ファイルは、各ユーザに共通のものであってもよいし、ユーザ毎に異なるものであってもよい。あるいは、辞書ファイルは、例えば子供用の辞書ファイルと大人用の辞書ファイルといった具合に、ユーザの属性毎に異なるものであってもよい。このような場合には、サーバ装置100は、ユーザから取得した属性情報に応じて辞書ファイルを切り替え、当該ユーザに適した辞書ファイルを選択することができる。
【0023】
図5は、サーバ装置100の機能的構成を示す機能ブロック図である。サーバ装置100の制御部110は、プログラムを実行することによって、図5に示す画像取得部111、情報取得部112、文字認識部113、抽出部114、選択部115、出力部116及び編集部117の各部に相当する機能を実現する。出力部116は、フィルタリング部116a及びデータ加工部116bを含む。
【0024】
画像取得部111は、情報処理端末200から送信された画像データを通信部130を介して取得する機能を有する。情報取得部112は、画像取得部111により取得される画像データに対応する情報であって、選択部115による選択の態様を特定するための情報(以下「選択情報」という。)を通信部130を介して取得する機能を有する。選択情報は、例えば、情報処理端末200のユーザの属性情報であるが、ユーザが情報処理端末200を操作して入力するものであってもよい。選択情報は、画像データの受信時に画像データとともに受信されてもよいが、画像データとは独立に受信されてもよい。また、ユーザの選択情報は、当該ユーザ以外の者(例えば、情報処理システム10の管理者や、ユーザが子供の場合にあってはその保護者など)によって送信されることも可能である。
【0025】
文字認識部113は、画像取得部111により取得された画像データに対してOCR処理を実行し、文字を認識する機能を有する。なお、文字認識部113により認識された時点の文字は、それぞれの文字が独立した関係にあり、意味を有するまとまりのある単位ではない。抽出部114は、文字認識部113により認識された複数の文字を組み合わせ、文字列を抽出する機能を有する。抽出部114は、形態素解析や、辞書ファイルとのパターンマッチを実行することによって隣接する文字同士を適当に組み合わせ、文字列(すなわち、意味に基づくまとまりのある文字の集合)を抽出する。
【0026】
選択部115は、情報取得部112により取得された選択情報に基づき、辞書ファイルに含まれる1又は複数のカテゴリを選択する。選択されるカテゴリと選択情報の対応付けは、例えば、ユーザの属性情報を選択情報として用いる場合には、ユーザが所定の年齢以下の子供であれば「性的表現」が選択される、といったように、サーバ装置100にあらかじめ設定されている。また、選択情報は、例えばユーザが出力対象から除外したいカテゴリを自ら選択する場合には、カテゴリそのものが記述された形態で送信されてもよい。
【0027】
出力部116は、抽出部114により抽出された文字列を含むデータ(以下「出力データ」という。)を出力する機能を有する。出力部116は、本実施形態においては、文字列をテキストデータとして含み、マークアップ言語で記述された出力データを生成し、これを通信部130を介して情報処理端末200に送信する。ここにおいて、マークアップ言語は、HTML(HyperText Markup Language)であってもよいし、そのサブセット(Compact HTML)やXML(Extensible Markup Language)などであってもよい。また、出力データは、マークアップ言語で記述されたものに限定されるわけではない。
【0028】
フィルタリング部116aは、抽出部114により辞書ファイルに基づいて抽出された登録文字列から、選択部115により選択されたカテゴリに分類される登録文字列を出力対象から除外する機能を有する。ゆえに、出力部116は、抽出部114により抽出された登録文字列のうち、選択部115により選択されたカテゴリ以外のカテゴリに分類された登録文字列を出力対象とする。このように、特定のカテゴリの登録文字列を出力対象から除外することを、以下においては「フィルタリング」という。
【0029】
データ加工部116bは、出力データに含まれる登録文字列のテキストデータに対して、必要に応じて、当該登録文字列が分類されるカテゴリに応じた付加情報を対応付ける機能を有する。本実施形態における付加情報は、対応する登録文字列がユーザに選択されたときに実行される処理を特定するための情報であり、マークアップ言語のタグである。すなわち、データ加工部116bは、マークアップ言語で記述された登録文字列のテキストデータに対して、当該登録文字列のカテゴリに応じたタグを付与する。
【0030】
例えば、出力データがCHTMLで記述される場合において、登録文字列のカテゴリが「電話番号」であるとき、データ加工部116bは、電話番号のテキストデータに対していわゆるphoneto機能を実現するためのタグを付加する。具体的には、データ加工部116bは、電話番号として「09012345678」という文字列が抽出された場合には、これにアンカータグを付加し、「<A href ="tel:09012345678">09012345678</A>」というテキストデータに変換する。この場合、情報処理端末200においては、文字列「09012345678」がリンクとして選択できる状態になり、このリンクを選択すると、「09012345678」あてに発呼することが可能になる。なお、データ加工部116bは、登録文字列のカテゴリが「メールアドレス」である場合には、同様の要領で、いわゆるmailto機能を実現するためのタグを付加する。
【0031】
また、データ加工部116bは、登録文字列に関連するWebサイトへのリンクを付加するようにしてもよい。例えば、データ加工部116bは、企業名が当該企業のWebサイトのトップページへのリンクとして機能するようにしたり、固有名詞が当該固有名詞を検索ワードとして検索を実行した場合の検索結果のページへのリンクとして機能するようにしたりすることが可能である。データ加工部116bがどのようなリンクを付加するかについては、登録文字列毎に決められていてもよいし、カテゴリ毎に決められていてもよい。また、データ加工部116bは、例えば、ユーザの年齢に応じて検索に用いるWebサイト(サーチエンジン)を異ならせる、といったように、ユーザの属性情報に応じて加工の態様を異ならせてもよい。
【0032】
なお、出力部116は、文字認識部113により認識されたが抽出部114により抽出されなかった文字(例えば、登録文字列でない文字など)については、出力データに含めても含めなくてもよいが、出力データに含まれる文字列が登録文字列のみである方が望ましい。なぜならば、このようにすると、辞書ファイルに記述されていない文字列がユーザの意図に反して閲覧可能な状態になることを防ぐことができるからである。
【0033】
編集部117は、辞書ファイルを編集する機能を有する。ここにおいて、編集とは、辞書ファイルに含まれる登録文字列又はカテゴリを変更することをいい、登録文字列又はカテゴリの追加又は削除を含む。辞書ファイルの編集は、典型的には情報処理システム10の管理者が行うが、ユーザが行えるようにしてもよい。特に、辞書ファイルがユーザ毎に存在する場合であれば、各ユーザが各自の辞書ファイルを編集できるようにすることが望ましい。
【0034】
なお、制御部110は、図5に示す機能を複数のプログラムによって実現してもよい。例えば、文字認識部113に相当するプログラムは、文字列の抽出やフィルタリングを行うためのプログラムとは別のプログラムとして構成されていてもよい。あるいは、サーバ装置100は、OCRを実行するモジュールや文字列の抽出・フィルタリングを行うモジュールなどといった具合にモジュール化され、モジュール間でデータを授受することで図5に示す機能を実現してもよい。このような構成の場合、各モジュールは、他のモジュールとの間でデータを取得ないし供給する手段をさらに含む。
【0035】
図6は、情報処理端末200の機能的構成を示す機能ブロック図である。情報処理端末200の制御部210は、プログラムを実行することによって、図6に示す画像供給部211、テキスト取得部212及び表示制御部213の各部に相当する機能を実現する。
【0036】
画像供給部211は、通信部230を介して画像データを情報処理端末200(の制御部110)に供給する機能を有する。画像供給部211は、撮影部260を用いて撮影をするようにユーザを促し、撮影部260により生成された画像データを供給してもよいが、記憶部220に記憶された画像データ(例えば、電子メールの添付ファイルとして情報処理端末200が受信した画像データ)を供給してもよい。テキスト取得部212は、情報処理端末200から送信された出力データ(すなわち登録文字列に対応するテキストデータを含むデータ)を通信部230を介して取得する機能を有する。表示制御部213は、テキスト取得部212により取得された出力データに応じた文字や画像を表示部240に表示させる機能を有する。
【0037】
図7は、情報処理システム10において実行される文字変換処理を示すシーケンスチャートである。図7に示す文字変換処理は、情報処理端末200が撮影を行い(ステップS1)、画像データをサーバ装置100に送信する(ステップS2)ことによって開始されるものである。なお、情報処理端末200は、必要に応じて、属性情報等の選択情報を画像データとともに(あるいは事前に)送信する。
【0038】
サーバ装置100は、画像データを受信すると、まずはOCR処理を実行する(ステップS3)。サーバ装置100は、OCR処理を実行することによって画像データから文字を認識すると、そこから登録文字列を抽出する(ステップS4)。ここで、サーバ装置100は、フィルタリングすべきカテゴリがあるか否かを判断する(ステップS5)。このとき、サーバ装置100は、画像データを送信してきた情報処理端末200のユーザの属性を特定したりすることによって、フィルタリングの要否を判断する。
【0039】
サーバ装置100は、フィルタリングすべきカテゴリがあると判断した場合には、ステップS4において抽出された登録文字列からフィルタリングすべきカテゴリに分類されている登録文字列を除外し(ステップS6)、残りの登録文字列をテキストデータとして含む出力データを生成して情報処理端末200に送信する(ステップS7)。一方、サーバ装置100は、フィルタリングすべきカテゴリがないと判断した場合には、ステップS6の処理を省略(スキップ)して出力データの生成及び送信を行う。情報処理端末200は、サーバ装置100から送信された出力データを受信すると、出力データに応じた文字や画像を表示する(ステップS8)。このとき、情報処理端末200の表示部240には、登録文字列が表示される。この登録文字列は、発呼、電子メールの送信、Webサイトの閲覧などといった処理を実行するためのリンクとして機能し得る。
【0040】
なお、画像データや出力データは、Webブラウザを介して送受信されてもよいし、電子メールの添付ファイルとして送受信されてもよい。あるいは、情報処理端末200は、画像の撮影から出力データの表示までを司るアプリケーションを実行することでかかる文字変換処理を実行可能にしてもよい。
【0041】
以上のように、本実施形態によれば、登録文字列の抽出及びフィルタリングを辞書ファイルによって行うことが可能である。すなわち、本実施形態によれば、登録文字列の抽出用の辞書とフィルタリング用の辞書(ブラックリスト又はホワイトリスト)とを別個に用意することが不要である。このようにすると、出力対象から除外したい文字列の追加や削除の手間を少なくするとともに、例えば、かかる文字列を一方の辞書には登録したものの他方の辞書に登録し忘れることによる出力の不具合を防ぐことも可能である。
【0042】
また、本実施形態の辞書ファイルによれば、選択するカテゴリを変更するだけで出力対象から除外したい文字列を変更することが可能であるため、かかる文字列の変更が容易である。例えば、本実施形態の辞書ファイルによれば、同一の辞書ファイルを複数のユーザが共通に用いても、選択するカテゴリをユーザ毎に異ならせるだけで、出力対象から除外される文字列をユーザ毎に変化させることが可能である。例えば、図4に例示した辞書ファイルによれば、あるユーザに対しては登録商標を提示する一方、別のユーザに対しては登録商標を提示しない、といったことが容易に可能になる。また、図4に例示した辞書ファイルによれば、他人を不快にさせるおそれがある表現のような個人の主観に依存する用語のフィルタリングについても、カテゴリ毎、さらにはカテゴリ内のサブカテゴリ毎(レベル毎)に取捨選択することが可能になる。
【0043】
さらに、本実施形態の構成によれば、辞書ファイルをサーバ装置100が記憶し、サーバ装置100が文字列の抽出やフィルタリングを実行するため、辞書ファイルの編集をユーザ毎に行う必要がない。このようにすることで、各ユーザが個別に辞書ファイルを編集する場合に比べ、新語(新造語)への対応などをより簡便かつ確実に行うことが可能である。
【0044】
[変形例]
本発明は、上述した実施形態に限らず、さまざまな形態での実施が可能である。本発明は、例えば、以下に示す変形例に従った実施も可能である。なお、これらの変形例は、必要に応じて、適宜組み合わせて実施されてもよいものである。
【0045】
(変形例1)
本発明のフィルタリングは、サーバ装置側ではなく情報処理端末側で実行されてもよい。例えば、本発明は、サーバ装置側においてOCR処理を実行し、OCR処理によって認識された文字を情報処理端末が取得して文字列の抽出やフィルタリングを実行する態様でも実施可能である。また、本発明は、辞書ファイルや必要なプログラムを情報処理端末が備えることにより、サーバ装置を用いずに情報処理端末単独で実行することも可能なものである。
【0046】
図8は、本発明に係る文字変換装置の機能的構成を示す機能ブロック図である。図3に示す文字変換装置310は、OCR処理や形態素解析が実行された文字列を入力文字列として取得する文字列取得部311と、辞書ファイル320を用いて、文字列取得部311により取得された入力文字列から登録文字列を抽出する抽出部312と、出力対象から除外するカテゴリを選択する選択部313と、選択部313により選択されたカテゴリ以外のカテゴリに分類され、かつ、抽出部312により抽出された登録文字列を出力する出力部314とを備えるものである。なお、辞書ファイル320は、文字変換装置310の外部にあってもよいが、文字変換装置310が備える記憶手段に記憶されていてもよい。
【0047】
情報処理端末は、図8に示す文字変換装置310を備えることにより、サーバ装置から送信された入力文字列に対して登録文字列の抽出及びフィルタリングを実行することが可能である。あるいは、情報処理端末は、文字変換装置310に相当する機能に加え、画像から文字列を認識する機能を有することにより、画像データに基づいて必要な登録文字列を選択的に出力する処理を情報処理端末単独で実現することも可能である。
【0048】
なお、文字列取得部311が取得する文字列、すなわち入力文字列は、OCR処理によって得られる文字列である必要はない。例えば、入力文字列は、ユーザによって入力され文字列であってもよい。このようにした場合、文字変換装置310は、かな漢字変換等の文字変換に適用することが可能である。この場合においては、入力文字列がひらがなであり、登録文字列が漢字(又は漢字混じり)である、といったように、入力文字列と登録文字列とが意味上の対応関係を有していれば、文字コードとしては一致していなくてもよい。
【0049】
(変形例2)
上述した実施形態において、制御部110は、抽出部114により全カテゴリの登録文字列を抽出してから、フィルタリング部116aにより一部のカテゴリの登録文字列を除外するように動作する。かかる動作においては、抽出する必要がないカテゴリの登録文字列までもがいったん抽出されている。そこで、制御部110は、抽出部114において、全カテゴリの登録文字列ではなく、選択部115により選択されたカテゴリ以外のカテゴリに分類された登録文字列のみを抽出するようにしてもよい。
【0050】
つまり、本発明は、入力文字列に対応する登録文字列をすべて抽出してから除外すべきカテゴリの登録文字列を除外するようにしてもよく、入力文字列に対応する登録文字列のうち、除外すべきカテゴリ以外のカテゴリの登録文字列のみを選択的に抽出してもよいものである。
【0051】
(変形例3)
本発明の登録文字列は、例えば、図4の例において「商品名」であると同時に「登録商標」でもあるといったように、2以上のカテゴリに分類されるものを含んでもよい。このような登録文字列は、当該登録文字列が分類されるカテゴリの全部が選択される場合に限り出力されないようになっていてもよいが、当該登録文字列が分類されるカテゴリの少なくともいずれかが選択されていれば出力されないようになっていてもよい。
【0052】
(変形例4)
本発明は、同一のユーザに対して複数の辞書ファイルが対応付けられ、ユーザが自らの操作によって使用する辞書ファイルを切り替えるように構成されていてもよい。あるいは、本発明は、使用する辞書ファイルが時間帯に応じて切り替わるように構成することも可能である。このようにすれば、使用する辞書ファイルを勤務時間とそれ以外の時間とで異ならせることができる。また、本発明は、情報処理端末がGPS(Global Positioning System)等による測位機能を有する場合にあっては、情報処理端末の位置(すなわちユーザの位置)を表す位置情報に応じて使用する辞書ファイルが切り替わるようにしてもよい。
【0053】
なお、同様のことは、辞書ファイルそのものだけではなく、辞書ファイルのカテゴリについても当てはまる。すなわち、本発明は、選択されるカテゴリ(出力対象から除外されるカテゴリ)が時間帯やユーザの位置に応じて変化してもよいものである。
【0054】
(変形例5)
本発明は、選択部により選択されたカテゴリに分類される登録文字列を出力対象から除外するのではなく、選択部により選択されたカテゴリ以外のカテゴリに分類される登録文字列を出力対象から除外するものであってもよい。かかる場合の本発明に係る文字変換装置は、入力文字列を取得する文字列取得部と、複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字列取得部により取得された入力文字列に対応する登録文字列を抽出する抽出部と、1又は複数の前記カテゴリを選択する選択部と、前記選択部により選択されたカテゴリに分類され、かつ、前記抽出部により抽出された登録文字列を出力する出力部とを備える構成である。
【0055】
(変形例6)
本発明は、文字変換装置だけでなく、文字変換装置を含むサーバ装置(又は情報処理端末)や、これを含む文字変換システムのいずれとしても特定され得るものである。また、本発明は、入力文字列に対応する登録文字列を出力するための文字変換方法や、コンピュータを文字変換装置として機能させるためのプログラムとしても特定され得るものである。かかるプログラムは、光ディスク等の記録媒体に記録した形態で提供されたり、インターネット等のネットワークを介して、コンピュータにダウンロードさせ、これをインストールして利用可能にするなどの形態で提供されたりすることも可能である。
【符号の説明】
【0056】
10…情報処理システム、100…サーバ装置、110…制御部、111…画像取得部、112…情報取得部、113…文字認識部、114…抽出部、115…選択部、116…出力部、117…編集部、120…記憶部、130…通信部、200…情報処理端末、210…制御部、220…記憶部、230…通信部、240…表示部、250…UI部、260…撮影部、310…文字変換装置、311…文字列取得部、312…抽出部、313…選択部、314…出力部、320…辞書ファイル

【特許請求の範囲】
【請求項1】
入力文字列を取得する文字列取得部と、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字列取得部により取得された入力文字列に対応する登録文字列を抽出する抽出部と、
1又は複数の前記カテゴリを選択する選択部と、
前記選択部により選択されたカテゴリ以外のカテゴリに分類され、かつ、前記抽出部により抽出された登録文字列を出力する出力部と
を備えることを特徴とする文字変換装置。
【請求項2】
前記選択部による選択の態様を特定するための情報を取得する情報取得部を備え、
前記選択部は、前記情報取得部により取得された情報に応じた態様で選択を行う
ことを特徴とする請求項1に記載に文字変換装置。
【請求項3】
前記出力部は、前記登録文字列と、当該登録文字列が分類されるカテゴリに応じた付加情報とを対応付けて出力する
ことを特徴とする請求項1又は2に記載に文字変換装置。
【請求項4】
前記付加情報は、対応する前記登録文字列がユーザに選択されたときに実行される処理を特定するための情報である
ことを特徴とする請求項3に記載に文字変換装置。
【請求項5】
前記辞書ファイルが複数あり、
前記選択部は、前記辞書ファイルを選択するとともに、当該選択した辞書ファイルの前記カテゴリを選択する
ことを特徴とする請求項1ないし4のいずれかに記載に文字変換装置。
【請求項6】
前記辞書ファイルは、2以上の前記カテゴリに分類された前記登録文字列を含み、
前記選択部は、複数の前記カテゴリを選択し、
前記出力部は、前記抽出部により抽出された前記登録文字列が前記2以上のカテゴリに分類される場合において、その全部のカテゴリが前記選択部により選択されるとき、当該登録文字列を出力しない
ことを特徴とする請求項1ないし5のいずれかに記載に文字変換装置。
【請求項7】
前記辞書ファイルの前記登録文字列又は前記カテゴリを変更する編集部を備えることを特徴とする請求項1ないし6のいずれかに記載に文字変換装置。
【請求項8】
画像から文字を認識する文字認識部と、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記文字認識部により認識された文字に対応する登録文字列を抽出する抽出部と、
1又は複数の前記カテゴリを選択する選択部と、
前記選択部により選択されたカテゴリ以外のカテゴリに分類され、かつ、前記抽出部により抽出された登録文字列を表示する表示部と
を備えることを特徴とする文字変換システム。
【請求項9】
コンピュータに、
入力文字列を取得する第1のステップと、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第2のステップと、
1又は複数の前記カテゴリを選択する第3のステップと、
前記第3のステップにおいて選択されたカテゴリ以外のカテゴリに分類され、かつ、前記第2のステップにおいて抽出された登録文字列を出力する第4のステップと
を実行させるためのプログラム。
【請求項10】
入力文字列を取得する第1のステップと、
複数の登録文字列を複数のカテゴリにより分類して記憶する辞書ファイルを用いて、前記第1のステップにおいて取得された入力文字列に対応する登録文字列を抽出する第2のステップと、
1又は複数の前記カテゴリを選択する第3のステップと、
前記第3のステップにおいて選択されたカテゴリ以外のカテゴリに分類され、かつ、前記第2のステップにおいて抽出された登録文字列を出力する第4のステップと
を有することを特徴とする文字変換方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2012−103750(P2012−103750A)
【公開日】平成24年5月31日(2012.5.31)
【国際特許分類】
【出願番号】特願2010−248918(P2010−248918)
【出願日】平成22年11月5日(2010.11.5)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【出願人】(000002945)オムロン株式会社 (3,542)
【Fターム(参考)】