画像処理装置およびプログラム

【課題】原稿の読者が理解可能な特徴文字列を生成可能な画像処理装置を提供する。
【解決手段】読者言語登録部３２０は読者言語を登録し、原稿言語登録部３２２は原稿言語を登録する。切替部３２６は、言語組合せ情報に基づいて、特徴文字列生成部４０において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。特徴文字列生成部４０は、切替部３２６によって特徴文字列の生成に使用される特徴文字列生成手段が切り替えられ、切り替わった特徴文字列生成手段を使用して、特徴文字列を生成する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、画像処理装置およびプログラムに関する。
【背景技術】
【０００２】
特許文献１は、予め記憶部に保存したキーデータを組み合わせて生成したファイル名候補をタッチパネルに表示させ、ユーザーが、タッチパネルに表示されたファイル名候補から読み取った電子ファイルに相応しいファイル名を選択する画像処理装置を開示する。
特許文献２は、送信原稿の所定領域に記録されている図形文字を読み取ってファイル名を作成するネットワーク画像通信装置を開示する。
【先行技術文献】
【特許文献】
【０００３】
【特許文献１】特開２００６−７２８９２号公報
【特許文献２】特開２００４−１４０５５１号公報
【発明の概要】
【発明が解決しようとする課題】
【０００４】
本発明の目的は、原稿の読者が理解可能な特徴文字列を生成可能な画像処理装置を提供することである。
【課題を解決するための手段】
【０００５】
請求項１にかかる本発明は、原稿の読者が認識可能な第１の言語と前記原稿の言語である第２の言語とを登録する登録手段と、前記原稿を読み取って得られた読取情報から１つ以上の文字列を抽出する文字列抽出手段と、前記文字列抽出手段によって抽出された文字列に基づいて前記原稿に関する特徴文字列を生成する複数の特徴文字列生成手段と、前記登録された第１の言語と第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記特徴文字列生成手段を切り替える切替手段とを有する画像処理装置である。
【０００６】
請求項２にかかる本発明は、前記特徴文字列生成手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、前記抽出された１つ以上の文字列から、前記原稿の特徴文字列を構成する１つ以上の構成要素を選択するための処理を行う複数の選択手段と、前記選択手段によって選択された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段とを有し、前記切替手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える請求項１に記載の画像処理装置である。
【０００７】
請求項３にかかる本発明は、前記特徴文字列生成手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、前記文字列抽出手段によって抽出された文字列の１つ以上を変換する複数の変換手段と、前記変換手段によって変換された文字列を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段とを有し、前記切替手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、前記複数の変換手段を切り替え、特徴文字列の生成に使用される前記複数の特徴文字列決定手段を切り替える請求項１に記載の画像処理装置である。
【０００８】
請求項４にかかる本発明は、前記特徴文字列生成手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、前記抽出された１つ以上の文字列から、前記原稿の特徴文字列を構成する１つ以上の構成要素を選択するための処理を行う複数の選択手段と、前記第１の言語と前記第２の言語との組み合わせに基づいて、前記選択手段によって選択された構成要素の１つ以上を変換する複数の変換手段と、前記変換手段によって変換された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段とを有し、前記切替手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記変換手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える請求項１に記載の画像処理装置である。
【０００９】
請求項５にかかる本発明は、前記複数の選択手段の１つは、前記抽出された１つ以上の文字列の前記原稿における出現頻度に基づいて構成要素を選択するための処理を行う請求項２または４に記載の画像処理装置である。
【００１０】
請求項６にかかる本発明は、前記複数の選択手段の１つは、前記抽出された１つ以上の文字列のうち所定の位置または規模である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする請求項２または４に記載の画像処理装置である。
【００１１】
請求項７にかかる本発明は、前記複数の選択手段の１つは、原稿内に配置され原稿を構成する配置要素であって文字列以外のものに対応する文字列を、構成要素として選択するための処理を行う請求項２または４に記載の画像処理装置である。
【００１２】
請求項８にかかる本発明は、前記複数の選択手段の１つは、前記抽出された１つ以上の文字列のうち前記第１の言語である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする請求項２または４に記載の画像処理装置である。
【００１３】
請求項９にかかる本発明は、前記複数の変換手段の１つは、前記抽出された文字列のうちの１つ以上を、前記第１の言語に翻訳する請求項３または４に記載の画像処理装置である。
【００１４】
請求項１０にかかる本発明は、前記複数の変換手段の１つは、前記抽出された文字列のうちの１つ以上を、これらの文字列の発音を表記する文字列に変換する請求項３または４に記載の画像処理装置である。
【００１５】
請求項１１にかかる本発明は、前記複数の変換手段の１つは、前記抽出された文字列のうちの１つ以上の文字コードを、対応する別の文字コードの文字列に変換する請求項３または４に記載の画像処理装置である。
【００１６】
請求項１２にかかる本発明は、原稿の読者が認識可能な第１の言語と前記原稿の言語である第２の言語とを登録する登録ステップと、前記原稿を読み取って得られた読取情報から１つ以上の文字列を抽出する文字列抽出ステップと、前記登録された第１の言語と第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される特徴文字列生成手段を切り替える切替ステップと、前記文字列抽出ステップにおいて抽出された文字列に基づいて、前記切り替えられた特徴文字列生成手段を用いて、前記原稿に関する特徴文字列を生成する複数の特徴文字列生成ステップとをコンピュータに実行させる画像処理プログラムである。
【発明の効果】
【００１７】
請求項１に係る本発明によれば、原稿の読者が理解可能な特徴文字列を生成可能な画像処理装置を提供することができる。
【００１８】
請求項２に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語と原稿の言語との組み合わせに応じて、特徴文字列の構成要素を選択できる。
【００１９】
請求項３に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語と原稿の言語との組み合わせに応じて変換された特徴文字列を生成できる
【００２０】
請求項４に係る本発明によれば、請求項１に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語と原稿の言語との組み合わせに応じて、選択された特徴文字列の構成要素を変換できる。
【００２１】
請求項５に係る本発明によれば、請求項２または４に係る本発明により得られる効果に加えて、原稿において出現頻度の高い文字列を含む特徴文字列を生成できる。
【００２２】
請求項６に係る本発明によれば、請求項２または４に係る本発明により得られる効果に加えて、原稿において他の文字列よりも目立つ文字列を含む特徴文字列を生成できる。
【００２３】
請求項７に係る本発明によれば、請求項２または４に係る本発明により得られる効果に加えて、原稿に文字列が含まれない場合または判別不能な文字列のみを含む場合であっても特徴文字列を生成できる。
【００２４】
請求項８に係る本発明によれば、請求項２または４に係る本発明により得られる効果に加えて、後の処理内容を削減できる。
【００２５】
請求項９に係る本発明によれば、請求項３または４に係る本発明により得られる効果に加えて、原稿の読者が認識可能な言語に翻訳された特徴文字列を生成できる。
【００２６】
請求項１０に係る本発明によれば、請求項３または４に係る本発明により得られる効果に加えて、原稿の読者の環境において判別可能な特徴文字列を生成できる。
【００２７】
請求項１１に係る本発明によれば、請求項３または４に係る本発明により得られる効果に加えて、原稿の読者の環境において判別可能な特徴文字列を生成できる。
【００２８】
請求項１２に係る本発明によれば、原稿の読者が理解可能な特徴文字列を生成可能な画像処理プログラムを提供することができる。
【図面の簡単な説明】
【００２９】
【図１】本実施形態にかかる画像処理装置のハードウェア構成を例示する図である。
【図２】図１に示した画像処理装置において動作する処理プログラムである。
【図３】図２に示した特徴文字列生成部の構成を示す図である。
【図４】図２に示した抽出文字列管理部が格納する文字列リストを例示する図である。
【図５】切替テーブルを例示する図である。
【図６】処理プログラムの処理を示すフローチャートである。
【図７】本実施形態に係る画像処理装置の処理対象である原稿の例および文字列の抽出結果の例を示す図である。
【図８】図７に例示した原稿について読者言語が日本語である場合の特徴文字列生成部の処理を例示する図である。
【図９】図７に例示した原稿について読者言語が中国語である場合の特徴文字列生成部の処理を例示する図である。
【図１０】図７に例示した原稿について読者言語が韓国語である場合の特徴文字列生成部の処理を例示する図である。
【図１１】図７に例示した原稿について読者言語が中国語である場合の特徴文字列生成部の処理を例示する図である。
【発明を実施するための形態】
【００３０】
図１は、本実施形態にかかる画像処理装置２のハードウェア構成を例示する図である。
図１に例示するように、画像処理装置２は、ＣＰＵ等の演算部２１２およびメモリ等の記憶部２１４などを含む制御装置２１と、通信装置２２と、記録装置２４と、ユーザインターフェース装置（ＵＩ装置）２５と、印刷装置２６と、画像読取装置２７とから構成される。
【００３１】
ＵＩ装置２５は、ＬＣＤ（Liquid Crystal Display）表示装置あるいはＣＲＴ（Cathode Ray Tube）表示装置等の表示装置およびキーボード・タッチパネルなどを含む。
印刷装置２６は、例えばプリンタ等であって、文字データまたは画像データ等を用紙等の記録媒体に印刷する。
画像読取装置２７は、例えばスキャナ等であって、原稿等の記録媒体から画像等を読み取って、例えばビットマップ形式の読取情報に変換する。
つまり、画像処理装置２は、情報処理および他の画像処理装置又は端末との通信が可能なコンピュータとしてのハードウェア構成部分を有している。
また、以下の各図において、実質的に同じ構成部分および処理には同じ番号が付される。
なお、本実施形態において、画像処理装置２は印刷装置２６および画像読取装置２７を有するとしたが、画像処理装置は、印刷装置および画像読取装置を有さない例えばＰＣであってもよく、この場合、画像処理装置は、画像読取装置とＬＡＮ（Local Area Network）等を介して接続されていてもよい。
【００３２】
図２は、図１に示した画像処理装置２において動作する処理プログラム３の構成を示す図である。
図２に示すように、処理プログラム３は、原稿読取情報受付部３０２、配置解析部３０４、文字認識部３０６、形態素解析部３０８、文字列抽出部３１０、抽出文字列管理部３１２、読者言語登録部３２０、原稿言語登録部３２２、言語組合せ判定部３２４、切替部３２６および特徴文字列生成部４０から構成される。
処理プログラム３は、たとえば、記憶媒体２４０（図１）を介して画像処理装置２に供給され、記憶部２１４にロードされ、画像処理装置２にインストールされたＯＳ（図示せず）上で、画像処理装置２のハードウェア資源を具体的に利用して実行される。
なお、本実施形態においては、処理プログラム３の機能は、ソフトウェアで実現されるとしているが、処理プログラム３の機能の全部又は一部は、例えばＦＰＧＡ（Field Programmable Gate Array）などのハードウェアで実現されてもよい。
【００３３】
図３は、図２に示した特徴文字列生成部４０の構成を示す図である。
ここで、「特徴文字列」とは、人間が原稿を識別するための文字列であって、例えば、原稿を電子データ（電子ファイル）等に変換した場合に、その電子データまたはその電子データを保管するパスフォルダ（ディレクトリ）等の名前である。
図３に示すように、特徴文字列生成部４０は、構成要素選択部４２、構成要素変換部４４および特徴文字列決定部４６から構成される。
【００３４】
構成要素選択部４２は、出現頻度優先選択部４２０、読者言語優先選択部４２２、複合文字列優先選択部４２４、位置／規模優先選択部４２６、配置要素優先選択部４２８および手動選択部４３０から構成される。
構成要素変換部４４は、翻訳部４４０、発音表記部４４２、文字コード変換部４４４、無変換部４４６および手動変換部４４８から構成される。
特徴文字列決定部４６は、接続記号挿入結合部４６０、先頭文字変換結合部４６２、無変換結合部４６４、順序変更結合部４６６および手動結合部４６８から構成される。
【００３５】
なお、以下、特徴文字列生成部４０を構成する構成要素選択部４２、構成要素変換部４４および特徴文字列決定部４６を、「特徴文字列生成手段」と総称することがある。
同様に、構成要素選択部４２を構成する出現頻度優先選択部４２０、読者言語優先選択部４２２、複合文字列優先選択部４２４、位置／規模優先選択部４２６、配置要素優先選択部４２８および手動選択部４３０、構成要素変換部４４を構成する翻訳部４４０、発音表記部４４２、文字コード変換部４４４、無変換部４４６および手動変換部４４８、および、特徴文字列決定部４６を構成する接続記号挿入結合部４６０、先頭文字変換結合部４６２、無変換結合部４６４、順序変更結合部４６６および手動結合部４６８を、「特徴文字列生成手段」と総称することがある。
【００３６】
処理プログラム３（図２）において、原稿読取情報受付部３０２は、画像読取装置２７から得られた読取情報（原稿読取情報）を受け付け、受け付けた原稿読取情報を、配置解析部３０４による処理のために提供可能に格納する。
配置解析部３０４は、原稿読取情報を解析して、原稿に含まれる文字、表、写真等の自然画、ＣＧ（Computer Graphics）又は絵画等を分類（オブジェクト分類）し、分類されたオブジェクト（文字、表、写真等の自然画、ＣＧ又は絵画等。以下「配置要素」と称する）それぞれの原稿における領域を特定し、配置要素それぞれについて位置情報を対応付ける。
さらに、配置解析部３０４は、解析結果を示す情報を、配置情報として、文字認識部３０６および特徴文字列生成部４０に対して出力する。
ここで、配置情報は、原稿読取情報に対応する原稿において、どの位置にどれだけの規模でどのオブジェクトが含まれるかを示す情報である。
この「配置情報」は、例えば、各配置要素の位置を示す位置情報と、各配置要素の規模（寸法又は面積等）を示す規模情報とを含む。
【００３７】
ここで、位置情報は、例えば、位置座標等の絶対的な位置を示すものであってもよいし、他の文字列等との相対的な位置関係を示すものであってもよい。
同様に、規模情報は、例えば、フォント又は占有面積等の、その配置要素の絶対的な規模を示すものであってもよいし、他の配置要素との間の相対的な規模を示すものであってもよく、あるいは、配置要素の規模の平均値との差を示すものであってもよい。
また、上述した配置解析部３０４による配置要素の分類は、例えば、原稿に含まれる各種の線、枠線、罫線又は色情報の検出と、エッジ検出と、パターンマッチングとによって行われる。しかし、これらの手法に限られない。
【００３８】
文字認識部３０６は、配置情報から文字が記載された領域を特定し、その領域（文字領域）について、例えばＯＣＲ（Optical Character Recognition：光学文字認識）機能を使用することによって、文字認識を行う。
ここで、文字認識とは、読み取って得られた文字の画像データを、前もって記憶されたパターンと照合することによって、その文字を特定して、文字データを生成することをいう。
さらに、文字認識部３０６は、生成された文字データを、形態素解析部３０８に対して出力する。
【００３９】
ここで、文字データ（および後述する文字列）は、例えば、シフトＪＩＳコード、ＡＳＣＩＩ（American Standard Code for Information Interchange）コードまたはＵｎｉｃｏｄｅ等の文字コードで表現されうる。
ここで、文字コードとは、コンピュータなどの電子媒体において、文字を、文章を画像などの図形データとして扱わずに、テキストの形式で扱う場合に、その各文字を表現するためのコード（対応関係を表したもの）である。
【００４０】
形態素解析部３０８は、文字認識部３０６によって認識された文字データに対して形態素解析を行うことによって、文字データが示す文章を形態素（文字列）に分割し、分割された各形態素に対して属性情報を付与する。
また、形態素解析部３０８は、属性情報が付与された文字列の群（文字列群）を、文字列抽出部３１０に対して出力する。
ここで、形態素解析とは、例えば、予め記憶されている文法の規則に関する情報と単語が登録された辞書とに基づいて、文章を形態素（意味を持つ最小の言語単位）である文字列に分割し、分割された形態素（文字列）の品詞を判別する処理をいう。
【００４１】
また、この形態素解析の処理において、文字列の言語も判別（例えば、その文字列が日本語か英語か中国語か韓国語かまたはその他の言語かが判別）される。
さらに、この形態素解析の処理において、ある文字列が複合文字列であるか否かが判別される。
ここで、複合文字列とは、複数の語から構成される文字列である。
例えば、文字列「市場規模」は、２つの語「市場」および「規模」を包含するので、複合文字列と判断される。
また、属性情報とは、その文字列の品詞（名詞、動詞等）および文字列の言語等、文字列の属性を示す情報であって、その文字列の品詞を示す文字列品詞情報およびその文字列の言語を示す文字列言語情報を含む。
また、文字列が複合文字列である場合、属性情報は、その旨を示す情報（複合文字列情報）を含む。
【００４２】
文字列抽出部３１０は、形態素解析部３０８から受け入れた文字列群から、予め定められた特定の属性情報が付与された文字列を抽出する。
また、文字列抽出部３１０は、抽出した文字列を、予め定められた基準に従って順序付けし、その順序に基づいて列挙する。
さらに、文字列抽出部３１０は、列挙した各文字列のリスト（文字列リスト）を、抽出文字列管理部３１２に対して出力する。
抽出文字列管理部３１２は、文字列抽出部３１０からの文字列リストを格納し、特徴文字列生成部４０による処理のために提供可能に管理する。
【００４３】
図４は、図２に示した抽出文字列管理部３１２が格納する文字列リストを例示する図である。
図４に示すように、文字列リストは、各文字列と、その文字列の出現頻度の順位と、出現数と、属性情報とを含み、属性情報は、文字列品詞情報と、文字列言語情報と、複合文字列情報とを含む。
図４の例において、例えば、文字列「複合機」については、順位が１位であり、出現数が５であり、品詞が「名詞」であり、言語が「日本語」であり、複合文字列ではないことが、示されている。
また、文字列「ＦｕｊｉＸｅｒｏｘ」については、順位が３位であり、出現数が３であり、品詞が「名詞」であり、言語が「英語」であり、複合文字列であることが、示されている。
【００４４】
文字列抽出部３１０（図２）は、例えば、名詞を示す文字列品詞情報を含む属性情報が付与された文字列を、文字列群から抽出してもよい。
また、例えば、文字列抽出部３１０は、文字列が原稿において出現する頻度（出現頻度）が高いものから順に、文字列を列挙してもよい。
ここで、文字列抽出部３１０は、出現頻度が所定数以下の文字列または出現頻度の順序が所定順位よりも低い文字列については、列挙せずに省略してもよい。
【００４５】
なお、文字列抽出部３１０は、文字列を列挙する際に、各文字列の出現頻度または順序に応じた重み付けを示す重み付け係数を、各文字列に付与してもよい。
例えば、文字列「複合機」の出現頻度が１番目に高く、文字列「販売」の出現頻度が２番目に高く、文字列「伝票」の出現頻度が３番目に高い場合、文字列抽出部３１０は、文字列「複合機」に重み付け係数１０．０を付与し、文字列「販売」に重み付け係数８．０を付与し、文字列「伝票」に重み付け係数６．０を付与してもよい。
なお、文字列抽出部３１０は、文法ルールに基づく方法で文字列を列挙してもよいし、予め規定された単語の属性に基づいて文字列を列挙してもよい。
例えば、文字列抽出部３１０は、普通名詞または固有名詞等の名詞の種類に基づいて文字列を列挙してもよいし、文章において主語となる文字列を上位に列挙してもよい。
なお、文字列抽出部３１０が文字列を順序付けするための基準は、後述する切替部３２６によって変更されてもよい。
【００４６】
読者言語登録部３２０は、原稿の読者が認識可能な言語（読者言語）を登録し、登録した読者言語を示す情報（読者言語情報）を、言語組合せ判定部３２４に対して出力する。
例えば、原稿の読者が日本語を認識可能である場合、読者言語は日本語であり、原稿の読者が中国語を認識可能である場合、読者言語は中国語である。
読者言語登録部３２０は、例えば、使用者がＵＩ装置２５を操作することによって得られた読者言語情報をＵＩ装置２５から受け入れることによって、読者言語を登録してもよい。
【００４７】
また、読者言語登録部３２０は、使用者がＵＩ装置２５を操作することなしに、読者言語を登録してもよい。
例えば、読者言語登録部３２０は、読者の識別情報と読者言語とを対応付けた読者言語テーブルを予め記憶し、その読者言語テーブルと、識別カード読取装置（図示せず）が読者の識別カードを読み取ることによって得られた読者の識別情報とを照合させることによって、読者言語を登録するようにしてもよい。
また、原稿の読者と画像処理装置２の使用者とが同じ場合等、読者の環境に画像処理装置２が設置されている場合は、画像処理装置２が予め読者言語情報を記憶し、記憶された読者言語情報によって、読者言語を登録するようにしてもよい。
また、原稿にその原稿の読者の名前等が記載されている場合等、原稿に読者の識別情報が予め埋め込まれている場合は、埋め込まれた読者の識別情報を、例えば文字認識部３０６が文字認識することによって読者の識別情報に対応する文字列を得、読者言語登録部３２０が、得られた読者の識別情報に対応する文字列と読者言語テーブルとを照合させることによって、読者言語を登録するようにしてもよい。
また、読者言語登録部３２０は、複数の読者がその原稿を読む場合のため、読者言語を複数登録してもよい。
【００４８】
原稿言語登録部３２２は、原稿の言語（原稿言語）を登録し、登録した原稿言語を示す情報（原稿言語情報）を、言語組合せ判定部３２４に対して出力する。
例えば、原稿に出現する文字列のうち、言語が日本語である文字列の割合が最も大きい場合、原稿言語は日本語であり、言語が中国語である文字列の割合が最も大きい場合、原稿言語は中国語である。
原稿言語登録部３２２は、例えば、使用者がＵＩ装置２５を操作することによって得られた原稿言語情報をＵＩ装置２５から受け入れることによって、原稿言語を登録してもよい。
また、原稿言語登録部３２２は、使用者がＵＩ装置２５を操作することなしに、原稿言語を登録してもよい。
例えば、形態素解析部３０８が原稿に出現する各文字列の言語を判別し、原稿言語登録部３２２が、どの言語の文字列の出現する割合が最も大きいかを判断することによって、原稿言語を登録してもよい。
【００４９】
言語組合せ判定部３２４は、読者言語登録部３２０からの読者言語情報と、原稿言語登録部３２２からの原稿言語情報とから、読者言語と原稿言語との組合せを判定する。
また、言語組合せ判定部３２４は、読者言語と原稿言語との組合せを示す情報（言語組合せ情報）を、切替部３２６に対して出力する。
切替部３２６は、言語組合せ判定部３２４からの言語組合せ情報に基づいて、特徴文字列生成部４０において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。
具体的には、切替部３２６は、言語組合せ情報と切替テーブル（図５を用いて後述する）とに基づいて、特徴文字列生成部４０を構成する構成要素選択部４２、構成要素変換部４４および特徴文字列決定部４６それぞれについて、どの特徴文字列生成手段を使用して特徴文字列を生成させるかを制御する。
【００５０】
図５は、切替テーブルを例示する図である。
切替テーブルは、どの言語組合せの場合に、特徴文字列生成部４０の構成要素選択部４２、構成要素変換部４４および特徴文字列決定部４６それぞれについて、どの特徴文字列生成手段を使用して特徴文字列を生成させるかを示す。
この切替テーブルは、画像処理装置２に予め記憶されていてもよく、使用者がＵＩ装置２５を操作することによって、適宜、修正するようにしてもよい。
【００５１】
例えば、図５に示した例において、切替部３２６は、読者言語が日本語であり原稿言語が日本語である組合せである場合（事例（ａ））、特徴文字列生成部４０の構成要素選択部４２を出現頻度優先選択部４２０と複合文字列優先選択部４２４とに切り替え、構成要素変換部４４を無変換部４４６に切り替え、特徴文字列決定部４６を接続記号挿入結合部４６０に切り替える。
また、図５に示した例において、切替部３２６は、読者言語が中国語であり原稿言語が日本語である組合せである場合（事例（ｂ））、特徴文字列生成部４０の構成要素選択部４２を出現頻度優先選択部４２０に切り替え、構成要素変換部４４を翻訳部４４０に切り替え、特徴文字列決定部４６を接続記号挿入結合部４６０に切り替える。
また、図５の事例（ａ）、（ｅ）、（ｆ）、（ｇ）のように、切替部３２６は、構成要素選択部４２において複数の特徴文字列生成手段が使用されるように、特徴文字列生成部４０を制御してもよい。
同様に、切替部３２６は、図５の事例（ｃ）、（ｆ）のように、事例構成要素変換部４４において複数の特徴文字列生成手段が使用されるように特徴文字列生成部４０を制御してもよく、図５の事例（ｅ）のように、特徴文字列決定部４６において複数の特徴文字列生成手段が使用されるように特徴文字列生成部４０を制御してもよい。
【００５２】
特徴文字列生成部４０（図２、図３）は、切替部３２６によって特徴文字列の生成に使用される特徴文字列生成手段が切り替えられ、切り替わった特徴文字列生成手段を使用して、特徴文字列を生成する。
構成要素選択部４２は、抽出文字列管理部３１２から文字列リストを取り出し、文字列リストに含まれる文字列から、特徴文字列の構成要素となる文字列（以下、単に「構成要素」と称する）を１つ以上選択し、選択した構成要素を構成要素変換部４４に対して出力する。
具体的には、構成要素選択部４２は、構成要素選択部４２を構成する特徴文字列生成手段のうち切替部３２６によって切り替わった１つ以上の特徴文字列生成手段によって文字列に付与された重み付け係数の大きなものから順に、所定数（構成要素数）の文字列を選択する。
なお、構成要素選択部４２が選択する文字列の数は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、構成要素選択部４２は、選択した構成要素のうち、後述する構成要素変換部４４において切り替えられた特徴文字列生成手段によって変換できない構成要素がある場合（例えば構成要素が特殊な中国語である場合）に、その変換できない構成要素の代わりに、選択されなかった文字列のうちで重み付け係数が最も大きなものを構成要素として選択してもよい
【００５３】
出現頻度優先選択部４２０は、文字列リストに含まれる各文字列に対し、出現頻度の高い文字列から順に高い重み付け係数を付与する。
例えば、文字列「複合機」の出現頻度が１番目に高く、文字列「販売」の出現頻度が２番目に高く、文字列「伝票」の出現頻度が３番目に高い場合、出現頻度優先選択部４２０は、文字列「複合機」に重み付け係数１０．０を付与し、文字列「販売」に重み付け係数８．０を付与し、文字列「伝票」に重み付け係数６．０を付与する。
なお、出現頻度優先選択部４２０は、文字列の出現頻度の順序ではなく、文字列の出現頻度（出現数）に基づいて、文字列に重み付け係数を付与してもよい。
また、文字列抽出部３１０が重み付け係数を付与する場合には、出現頻度優先選択部４２０は、文字列抽出部３１０によって付与された重み付け係数を、所定の基準に基づいて変更してもよい。
なお、出現頻度優先選択部４２０が重み付け係数を付与する基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
【００５４】
読者言語優先選択部４２２は、文字列リストに含まれる各文字列のなかで、読者言語と同じ言語を示す文字列言語情報が付与されたものが存在する場合は、その文字列の重み付け係数を、所定量増加させる。
例えば、読者言語優先選択部４２２は、読者言語と同じ言語を示す文字列言語情報が付与された文字列の重み付け係数を所定量乗算（例えば２倍）してもよいし、所定量加算（例えば２．０加算）してもよい。
また、読者言語優先選択部４２２は、各文字列が読者言語と同じ言語でなくとも、例えば、読者言語が英語であり原稿言語が日本語である場合、英語をカタカナ文字で表わした文字列（例えば、英語「program」のカタカナ表現である文字列「プログラム」）を英語として処理してもよい。
【００５５】
複合文字列優先選択部４２４は、文字列リストに含まれる各文字列のなかで、複合文字列である旨を示す複合文字列情報が付与されたものが存在する場合は、その文字列の重み付け係数を、所定量増加させる。
例えば、複合文字列優先選択部４２４は、複合文字列情報が付与された文字列の重み付け係数を所定量乗算（例えば５倍）してもよいし、所定量加算（例えば５．０加算）してもよい。
なお、複合文字列の重み付け係数が、複合文字列を構成する各文字列の重み付け係数以上である場合、複合文字列優先選択部４２４は、複合文字列を構成する各文字列を、構成要素として選択されないように削除してもよい。
【００５６】
位置／規模優先選択部４２６は、原稿において所定の位置に存在する文字列または所定の規模である文字列の重み付け係数を、読者言語優先選択部４２２と同様に、所定量増加させる。
例えば、位置／規模優先選択部４２６は、文字列の位置が、縦方向が原稿の所定位置よりも上であり、横方向が原稿の中央から所定範囲以内である場合に、その文字列の重み付け係数を所定量増加させる。
また、例えば、位置／規模優先選択部４２６は、文字列の規模が所定量以上である場合に、その文字列の重み付け係数を所定量増加させる。
また、位置／規模優先選択部４２６は、文字列の位置または規模に応じて、段階的に、重み付け係数を増加させてもよい。
【００５７】
配置要素優先選択部４２８は、配置解析部３０４によって原稿に所定の配置要素が含まれると判断された場合に、その配置要素を示す文字列（配置要素文字列）を選択して、配置要素文字列に所定の重み付け係数を付与する。
例えば、配置要素優先選択部４２８は、原稿に配置要素「写真」が含まれる場合、（文字列抽出部３１０によって文字列「写真」が抽出されなかった場合であっても）配置要素文字列「写真」を選択して所定の重み付け係数を付与する。
なお、配置要素優先選択部４２８がどの配置要素についてどれだけの重み付け係数を付与するかの基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、配置要素文字列は、読者言語の文字列であってもよい。
【００５８】
手動選択部４３０は、ＵＩ装置２５に対し、使用者に構成要素を選択させる旨の表示をさせ、使用者がＵＩ装置２５を操作して選択（または入力）された文字列を受け入れる。
なお、手動選択部４３０は、文字列リストにない任意の文字列を入力できるように、ＵＩ装置２５を制御してもよい。この場合、手動選択部４３０は、読者言語の文字列を入力できるように、ＵＩ装置２５を制御してもよい。
【００５９】
なお、読者言語優先選択部４２２、複合文字列優先選択部４２４および位置／規模優先選択部４２６が重み付け係数を所定量増加させる基準は、言語の組合せに関わらず一定であってもよいし、言語の組合せに応じて適宜切り替わってもよい。
また、上記実施形態においては、出現頻度優先選択部４２０が各文字列に付与した重み付け係数を、読者言語優先選択部４２２、複合文字列優先選択部４２４および位置／規模優先選択部４２６が増加させるとしたが、読者言語優先選択部４２２、複合文字列優先選択部４２４および位置／規模優先選択部４２６は、出現頻度優先選択部４２０とは独立に処理してもよい。
つまり、例えば、読者言語の文字列が構成要素数以上存在する場合には、読者言語優先選択部４２２は、出現頻度に関わらず読者言語の文字列のみを構成要素として選択してもよい。
また、例えば、読者言語の文字列が構成要素数未満しか存在しない場合には、読者言語優先選択部４２２は、存在した読者言語の文字列に最大の重み付け係数を付与して構成要素として選択し、残りの構成要素については、出現頻度優先選択部４２０が選択するようにしてもよい。
【００６０】
構成要素変換部４４は、構成要素選択部４２によって選択された各構成要素を、構成要素変換部４４を構成する特徴文字列生成手段のうち切替部３２６によって切り替わった１つ以上の特徴文字列生成手段を用いて、変換する。
さらに、構成要素変換部４４は、変換された各構成要素を、特徴文字列決定部４６に対して出力する。
翻訳部４４０は、例えば予め記憶された翻訳辞書を用いて、構成要素を読者言語に翻訳する。
ここで、翻訳辞書は、原稿言語を読者言語に翻訳するために使用される情報（データベース）であって、原稿言語の文字列と、その原稿言語の文字列に対応する（その原稿言語と同じ意味である）読者言語とを、対応付けて記憶している。
例えば、読者言語が英語であり原稿言語が日本語であって、選択された構成要素が「合計」であって、翻訳辞書において日本語の文字列「合計」と英語の文字列「ｔｏｔａｌ」とが対応付けられている場合、翻訳部４４０は、構成要素「合計」を「ｔｏｔａｌ」と翻訳する。
【００６１】
発音表記部４４２は、例えば予め記憶された発音辞書を用いて、構成要素の発音を、例えば欧文文字（英数文字および所定の記号）等を表現する所定の文字コード（発音文字コード）に変換して、その構成要素をその文字コードによって表現される文字で表記する。
ここで、発音文字コードとは、例えば、ＡＳＣＩＩ等の、文字を１バイト（コンピュータが扱う最小単位のデータ量）で表現する文字コードである。
ここで、発音辞書は、原稿言語を発音文字コードに対応する発音で表記するために使用される情報（データベース）であって、原稿言語の文字列と、その原稿言語の文字列に対応する発音を発音文字コードで表記した文字列とを、対応付けて記憶している。
例えば、選択された構成要素が「合計」である場合、発音表記部４４２は、その構成要素「合計」をローマ字（欧文文字）の「goukei」と表記する。
【００６２】
文字コード変換部４４４は、例えば予め記憶された変換テーブルを用いて、構成要素を表現する文字コードを、読者の環境で認識し得る、対応する別の文字コードに変換し、変換された文字コードで表現された文字で構成要素を表記する。
ここで、変換テーブルは、例えば構成要素が漢字である場合に、その漢字の中国語、日本語および韓国語における文字コード（互いに意味が同じであるが表記が異なる漢字を表記する文字コード）それぞれとの対応関係を示す。
例えば、変換テーブルは、ある漢字を、中国語であればＢｉｇ５の文字コードで表現したものと、日本語であればシフトＪＩＳで表現したものとの対応関係を示す。
また、変換テーブルは、構成要素にかかる文字列の文字コードと、その文字列に対応する、Ｕｎｉｃｏｄｅ等の世界中の言語の文字列を統一して表現する文字コードとの対応関係を示してもよい。
【００６３】
無変換部４４６は、例えば読者言語と原稿言語とが同じ場合に、構成要素に対して何らの変換処理をせずに、構成要素を特徴文字列決定部４６に対して出力する。
手動変換部４４８は、ＵＩ装置２５に対し、使用者に構成要素を変換させる旨の表示をさせ、使用者がＵＩ装置２５を操作して変換された文字列を受け入れて構成要素とし、その構成要素を特徴文字列決定部４６に対して出力する。
【００６４】
特徴文字列決定部４６は、構成要素変換部４４によって変換された各構成要素（無変換部４４６によって変換されなかった構成要素も含む）を、特徴文字列決定部４６を構成する特徴文字列生成手段のうち切替部３２６によって切り替わった１つ以上の特徴文字列生成手段を用いて結合することによって、特徴文字列を決定する。
さらに、特徴文字列決定部４６は、決定した特徴文字列を、ＵＩ装置２５に表示させるための処理を行う。
なお、特徴文字列決定部４６は、決定した特徴文字列をＵＩ装置２５に表示させる際に、ＵＩ装置２５を用いて使用者が特徴文字列を修正できるように処理してもよい。
【００６５】
順序変更結合部４６６は、読者言語と原稿言語との組合せに基づいて、変換後の各構成要素の順序を読者言語の文法に合わせた順序に並べ替え、並び替えた順序で各構成要素を結合するための処理を行う。
例えば、順序変更結合部４６６は、形態素解析により、変換後の各構成要素の順序を読者言語の文法に合わせた順序に並べ替える。
なお、順序変更結合部４６６を使用しない場合、特徴文字列における構成要素の順序は、構成要素選択部４２によって選択された順序（つまり重み付け係数が大きい順）と同じであってもよい。
【００６６】
接続記号挿入結合部４６０は、変換後の各構成要素を結合する際に、各構成要素の間に「_」（アンダーバー）等の接続記号を挿入するための処理を行う。
先頭文字変換結合部４６２は、変換後の各構成要素を結合する際に、各構成要素の先頭の文字をその先頭文字に対応する文字に変換するための処理を行う。
例えば、変換後の各構成要素が欧文である場合、先頭文字変換結合部４６２は、各構成要素の先頭文字を小文字から大文字に変換する。
無変換結合部４６４は、変換後の各構成要素を結合する際に、構成要素に対して何らの変換処理をせずに、各構成要素を結合するための処理を行う。
手動結合部４６８は、ＵＩ装置２５に対し、使用者に、各構成要素の間に任意の記号を挿入させて任意の順序で結合させる旨の表示をさせ、使用者がＵＩ装置２５を操作して決定された文字列を特徴文字列として決定する。
【００６７】
図５の例における特徴文字列生成部４０の処理を、各事例について説明する。
原稿言語が日本語であり、読者言語が日本語、中国語および韓国語である場合（事例（ａ）〜（ｄ））については、図７〜図１１を用いて具体的に後述する。
読者言語が英語であり原稿言語が日本語である場合（事例（ｅ））、切替部３２６によって、構成要素選択部４２は出現頻度優先選択部４２０と読者言語優先選択部４２２とに切り替わり、構成要素変換部４４は翻訳部４４０に切り替わり、特徴文字列決定部４６は先頭文字変換結合部４６２と順序変更結合部４６６とに切り替わる。
【００６８】
出現頻度優先選択部４２０は、文字列リストに含まれる各文字列に対し、出現頻度の高い文字列から順に高い重み付け係数を付与する。
読者言語優先選択部４２２は、読者言語である英語の文字列が文字列リストに存在する場合、出現頻度優先選択部４２０によって英語の文字列に対して付与された重み付け係数を所定量増加させる。
構成要素選択部４２は、上記の処理によって重み付け係数が付与された文字列のうち、重み付け係数の大きいものから順に、所定の構成要素数の文字列を、構成要素として選択する。
【００６９】
翻訳部４４０は、構成要素選択部４２によって選択された各構成要素を、日本語から英語に翻訳する。
なお、翻訳部４４０は、言語が元々英語である構成要素については、翻訳をしなくてもよい。
先頭文字変換結合部４６２は、英語に翻訳された各構成要素の先頭の文字を小文字から大文字に変換する。
順序変更結合部４６６は、英語に翻訳された各構成要素を、英語の文法に合わせた順序に並べ替える。
特徴文字列決定部４６は、先頭の文字が大文字に変換され、英語の文法に合わせて並び替えられた各構成要素を結合して、特徴文字列を決定する。
【００７０】
読者言語が日本語であり原稿言語が中国語である場合（事例（ｆ））、切替部３２６によって、構成要素選択部４２は出現頻度優先選択部４２０と位置／規模優先選択部４２６とに切り替わり、構成要素変換部４４は文字コード変換部４４４と発音表記部４４２とに切り替わり、特徴文字列決定部４６は接続記号挿入結合部４６０に切り替わる。
出現頻度優先選択部４２０は、文字列リストに含まれる各文字列に対し、出現頻度の高い文字列から順に高い重み付け係数を付与する。
位置／規模優先選択部４２６は、文字列の位置が、縦方向が原稿の所定位置よりも上であり、横方向が原稿の中央から所定範囲以内である場合であって、文字列の規模が、所定量以上である場合に、その文字列の重み付け係数を所定量増加させる。
構成要素選択部４２は、上記の処理によって重み付け係数が付与された文字列のうち、重み付け係数の大きいものから順に、所定の構成要素数の文字列を、構成要素として選択する。
【００７１】
文字コード変換部４４４は、中国語の文字コードで表現された構成要素の文字コードを、日本語の文字コードに変換し、変換された文字コードで表現された文字で構成要素を表記する。
発音表記部４４２は、対応する日本語の文字コードがない構成要素に対して、中国語の構成要素の発音を発音文字コードに変換して、その構成要素を発音文字コードで表現される文字で表記する。
接続記号挿入結合部４６０は、構成要素選択部４２によって選択された順序（つまり重み付け係数が大きい順）に並べられた変換後の各構成要素を、これらの間に接続記号を挿入して結合し、特徴文字列を決定する。
【００７２】
読者言語が日本語であり原稿言語が言語Ｘ（どの言語であるか判別不能）である場合（事例（ｇ））、切替部３２６によって、構成要素選択部４２は配置要素優先選択部４２０と手動選択部４３０とに切り替わり、構成要素変換部４４は手動変換部４４８に切り替わり、特徴文字列決定部４６は手動結合部４６８に切り替わる。
配置要素優先選択部４２８は、原稿に所定の配置要素（例えば写真）が含まれる場合に、配置要素文字列（例えば文字列「写真」）を選択して、配置要素文字列に所定の重み付け係数を付与する。
また、手動選択部４３０は、任意の文字列を入力できるように、ＵＩ装置２５を制御する。
構成要素選択部４２は、配置要素優先選択部４２０によって選択された文字列（配置要素文字列）と、ＵＩ装置２５に対する操作によって得られ手動選択部４３０が受け入れた文字列とを、構成要素として選択する。
【００７３】
手動変換部４４８は、ＵＩ装置２５に対し、使用者に構成要素を変換させる旨の表示をさせ、使用者がＵＩ装置２５を操作して変換された文字列を受け入れて構成要素とする。
なお、使用者は、構成要素選択部４２によって選択された各構成要素が読者言語で表現されている場合、ＵＩ装置２５を操作して変換処理を行う必要はない。
手動結合部４６８は、ＵＩ装置２５に対し、使用者に、各構成要素の間に任意の記号を挿入させて任意の順序で結合させる旨の表示をさせ、使用者がＵＩ装置２５を操作して決定された文字列を特徴文字列として決定する。
【００７４】
図６は、処理プログラム３の処理を示すフローチャート（Ｓ１０）である。
ステップ１００（Ｓ１００）において、読者言語登録部３２０は、読者言語を登録する。
ステップ１０２（Ｓ１０２）において、原稿言語登録部３２２は、原稿言語を登録する。
ステップ１０４（Ｓ１０４）において、原稿読取情報受付部３０２は、画像読取装置２７から得られた原稿読取情報を受け付ける。
【００７５】
ステップ１０６（Ｓ１０６）において、配置解析部３０４は、原稿読取情報を解析して、配置要素それぞれの原稿における領域を特定し、配置情報を生成する。
ステップ１０８（Ｓ１０８）において、文字認識部３０６は、配置情報から特定した文字領域について、文字認識を行い、文字データを生成する。
ステップ１１０（Ｓ１１０）において、形態素解析部３０８は、文字認識部３０６によって認識された文字データに対して形態素解析を行い、各形態素（文字列）に対して属性情報を付与する。
ステップ１１２（Ｓ１１２）において、文字列抽出部３１０は、形態素解析部３０８から受け入れた文字列群から、予め定められた特定の属性情報が付与された文字列を抽出する。
【００７６】
ステップ１１４（Ｓ１１４）において、切替部３２６は、言語組合せ情報に基づいて、特徴文字列生成部４０において特徴文字列を生成させるために使用される特徴文字列生成手段を切り替える。
ステップ１１６（Ｓ１１６）において、構成要素選択部４２は、文字列リストに含まれる文字列に、切替部３２６によって切り替わった１つ以上の特徴文字列生成手段を使用して重み付け係数を付与し、付与された重み付け係数の大きな文字列ものから順に、構成要素数の文字列を、構成要素として選択する。
ステップ１１８（Ｓ１１８）において、構成要素変換部４４は、選択された各構成要素を、構成要素変換部４４を構成する特徴文字列生成手段のうち切替部３２６によって切り替わった１つ以上の特徴文字列生成手段を用いて、変換する。
ステップ１２０（Ｓ１２０）において、特徴文字列決定部４６は、変換された各構成要素を、特徴文字列決定部４６を構成する特徴文字列生成手段のうち切替部３２６によって切り替わった１つ以上の特徴文字列生成手段を用いて結合することによって、特徴文字列を決定し、処理を終了する。
【００７７】
以下、本実施形態に係る画像処理装置２の処理を、具体的に例を挙げて説明する。
図７は、本実施形態に係る画像処理装置２の処理対象である原稿の例および文字列の抽出結果の例を示す図であり、（Ａ）は原稿の例を示し、（Ｂ）は文字列の抽出結果の例を示す。
図７（Ａ）に例示した原稿は主に日本語で記載されているので、原稿言語は日本語である。
この原稿に基づいて、文字列抽出部３１０の処理によって、図７（Ｂ）に例示するような順で文字列が抽出される。
【００７８】
図８は、図７に例示した原稿について読者言語が日本語である場合の特徴文字列生成部４０の処理を例示する図である。
図８に例示した事例は、図５に例示した事例（ａ）に対応する。
本事例においては、切替部３２６によって、構成要素選択部４２は出現頻度優先選択部４２０と複合文字列優先選択部４２４とに切り替わり、構成要素変換部４４は無変換部４４６に切り替わり、特徴文字列決定部４６は接続記号挿入結合部４６０に切り替わる。
【００７９】
出現頻度優先選択部４２０は、図７（Ｂ）に例示した各文字列に対し、図８に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
複合文字列優先選択部４２４は、複合文字列である「富士ゼロックス」と「販売金額」とについて、図８に示すように、重み付け係数を５倍にする。
なお、文字列「販売」の重み付け係数は９．０であり、「金額」の重み付け係数は６．０であったが、これよりも重み付け係数の大きな複合文字列「販売金額」に文字列「販売」および「金額」が包含されるので、文字列「販売」および「金額」は削除される。
構成要素選択部４２は、構成要素数が４の場合、重み付け係数が上位４個の文字列「富士ゼロックス」、「販売金額」、「複合機」および「伝票」を、構成要素として選択する。
【００８０】
無変換部４４６は、構成要素「富士ゼロックス」、「販売金額」、「複合機」および「伝票」に対し、変換処理を行わない。
接続記号挿入結合部４６０は、各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図８に示す特徴文字列を生成する。
ここで、文字列「富士ゼロックス_販売金額_複写機_伝票」が、読者言語が中国語および韓国語の読者の所有するＰＣ等で表示される場合、日本語の文字コードがそのＰＣ等に設定されていないことが多いので、正しく表示されず、いわゆる「文字化け」が生じる。
【００８１】
図９は、図７に例示した原稿について読者言語が中国語である場合の特徴文字列生成部４０の処理を例示する図である。
図９に例示した事例は、図５に例示した事例（ｂ）に対応する。
本事例においては、切替部３２６によって、構成要素選択部４２は出現頻度優先選択部４２０に切り替わり、構成要素変換部４４は翻訳部４４０に切り替わり、特徴文字列決定部４６は接続記号挿入結合部４６０に切り替わる。
【００８２】
出現頻度優先選択部４２０は、図７（Ｂ）に例示した各文字列に対し、図９に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
構成要素選択部４２は、構成要素数が４の場合、重み付け係数が上位４個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
翻訳部４４０は、構成要素「複合機」、「販売」、「伝票」、「富士ゼロックス」それぞれを中国語に翻訳する。
接続記号挿入結合部４６０は、翻訳後の各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図９に示す特徴文字列を生成する。
【００８３】
図１０は、図７に例示した原稿について読者言語が韓国語である場合の特徴文字列生成部４０の処理を例示する図である。
図１０に例示した事例は、図５に例示した事例（ｄ）に対応する。
本事例においては、切替部３２６によって、構成要素選択部４２は出現頻度優先選択部４２０に切り替わり、構成要素変換部４４は発音表記部４４２に切り替わり、特徴文字列決定部４６は先頭文字変換結合部４６２に切り替わる。
【００８４】
出現頻度優先選択部４２０は、図７（Ｂ）に例示した各文字列に対し、図１０に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
構成要素選択部４２は、構成要素数が４の場合、重み付け係数が上位４個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
発音表記部４４２は、構成要素「複合機」、「販売」、「伝票」、「富士ゼロックス」それぞれについて、図１０に示すように、これらの発音を表記する文字（ローマ字）に変換する。
先頭文字変換結合部４６２は、変換後の各構成要素の先頭文字を大文字に変換した上で、各構成要素を結合し、図１０に示す特徴文字列を生成する。
【００８５】
図１１は、図７に例示した原稿について読者言語が中国語である場合の特徴文字列生成部４０の処理を例示する図である。
図１１に例示した事例は、図５に例示した事例（ｃ）に対応する。
本事例においては、切替部３２６によって、構成要素選択部４２は出現頻度優先選択部４２０に切り替わり、構成要素変換部４４は発音表記部４４２と文字コード変換部４４４とに切り替わり、特徴文字列決定部４６は接続記号挿入結合部４６０に切り替わる。
【００８６】
出現頻度優先選択部４２０は、図７（Ｂ）に例示した各文字列に対し、図１１に示すように、出現頻度の高い文字列から順に高い重み付け係数を付与する。
構成要素選択部４２は、構成要素数が４の場合、重み付け係数が上位４個の文字列「複合機」、「販売」、「伝票」、「富士ゼロックス」を、構成要素として選択する。
文字コード変換部４４４は、図１１に示すように、各構成要素の漢字を表現する文字コード（例えばシフトＪＩＳ）を、中国語の対応する文字コード（例えばＢｉｇ５）に変換し、変換された文字コードで表現された文字で構成要素を表記する。
発音表記部４４２は、中国語の対応する漢字の文字コードがない文字列「ゼロックス」について、図１１に示すように、これらの発音を表記する文字に変換する。
接続記号挿入結合部４６０は、変換後の各構成要素の間に接続記号「_」を挿入して、各構成要素を結合し、図１１に示す特徴文字列を生成する。
【符号の説明】
【００８７】
２・・・画像処理装置，
３・・・処理プログラム，
３０２・・・原稿読取情報受付部，
３０４・・・配置解析部，
３０６・・・文字認識部，
３０８・・・形態素解析部，
３１０・・・文字列抽出部，
３１２・・・抽出文字列管理部，
３２０・・・読者言語登録部，
３２２・・・原稿言語登録部，
３２４・・・言語組合せ判定部，
３２６・・・切替部，
４０・・・特徴文字列生成部，
４２・・・構成要素選択部，
４２０・・・出現頻度優先選択部，
４２２・・・読者言語優先選択部，
４２４・・・複合文字列優先選択部，
４２６・・・位置／規模優先選択部，
４２８・・・配置要素優先選択部，
４３０・・・手動選択部，
４４・・・構成要素変換部，
４４０・・・翻訳部，
４４２・・・発音表記部，
４４４・・・文字コード変換部，
４４６・・・無変換部，
４４８・・・手動変換部，
４６・・・特徴文字列決定部，
４６０・・・接続記号挿入結合部，
４６２・・・先頭文字変換結合部，
４６４・・・無変換結合部，
４６６・・・順序変更結合部，
４６８・・・手動結合部，

【特許請求の範囲】
【請求項１】
原稿の読者が認識可能な第１の言語と前記原稿の言語である第２の言語とを登録する登録手段と、
前記原稿を読み取って得られた読取情報から１つ以上の文字列を抽出する文字列抽出手段と、
前記文字列抽出手段によって抽出された文字列に基づいて前記原稿に関する特徴文字列を生成する複数の特徴文字列生成手段と、
前記登録された第１の言語と第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記特徴文字列生成手段を切り替える切替手段と
を有する画像処理装置。
【請求項２】
前記特徴文字列生成手段は、
前記第１の言語と前記第２の言語との組み合わせに基づいて、前記抽出された１つ以上の文字列から、前記原稿の特徴文字列を構成する１つ以上の構成要素を選択するための処理を行う複数の選択手段と、
前記選択手段によって選択された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段と
を有し、
前記切替手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える
請求項１に記載の画像処理装置。
【請求項３】
前記特徴文字列生成手段は、
前記第１の言語と前記第２の言語との組み合わせに基づいて、前記文字列抽出手段によって抽出された文字列の１つ以上を変換する複数の変換手段と、
前記変換手段によって変換された文字列を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段と
を有し、
前記切替手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、前記複数の変換手段を切り替え、特徴文字列の生成に使用される前記複数の特徴文字列決定手段を切り替える
請求項１に記載の画像処理装置。
【請求項４】
前記特徴文字列生成手段は、
前記第１の言語と前記第２の言語との組み合わせに基づいて、前記抽出された１つ以上の文字列から、前記原稿の特徴文字列を構成する１つ以上の構成要素を選択するための処理を行う複数の選択手段と、
前記第１の言語と前記第２の言語との組み合わせに基づいて、前記選択手段によって選択された構成要素の１つ以上を変換する複数の変換手段と、
前記変換手段によって変換された構成要素を用いて特徴文字列を決定するための処理を行う複数の特徴文字列決定手段と
を有し、
前記切替手段は、前記第１の言語と前記第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される前記選択手段を切り替え、特徴文字列の生成に使用される前記変換手段を切り替え、特徴文字列の生成に使用される前記特徴文字列決定手段を切り替える
請求項１に記載の画像処理装置。
【請求項５】
前記複数の選択手段の１つは、前記抽出された１つ以上の文字列の前記原稿における出現頻度に基づいて構成要素を選択するための処理を行う
請求項２または４に記載の画像処理装置。
【請求項６】
前記複数の選択手段の１つは、前記抽出された１つ以上の文字列のうち所定の位置または規模である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする
請求項２または４に記載の画像処理装置。
【請求項７】
前記複数の選択手段の１つは、原稿内に配置され原稿を構成する配置要素であって文字列以外のものに対応する文字列を、構成要素として選択するための処理を行う
請求項２または４に記載の画像処理装置。
【請求項８】
前記複数の選択手段の１つは、前記抽出された１つ以上の文字列のうち前記第１の言語である文字列について、当該文字列以外の他の前記抽出された文字列よりも構成要素として選択される指標となる重み付け係数を所定量高くする
請求項２または４に記載の画像処理装置。
【請求項９】
前記複数の変換手段の１つは、前記抽出された文字列のうちの１つ以上を、前記第１の言語に翻訳する
請求項３または４に記載の画像処理装置。
【請求項１０】
前記複数の変換手段の１つは、前記抽出された文字列のうちの１つ以上を、これらの文字列の発音を表記する文字列に変換する
請求項３または４に記載の画像処理装置。
【請求項１１】
前記複数の変換手段の１つは、前記抽出された文字列のうちの１つ以上の文字コードを、対応する別の文字コードの文字列に変換する
請求項３または４に記載の画像処理装置。
【請求項１２】
原稿の読者が認識可能な第１の言語と前記原稿の言語である第２の言語とを登録する登録ステップと、
前記原稿を読み取って得られた読取情報から１つ以上の文字列を抽出する文字列抽出ステップと、
前記登録された第１の言語と第２の言語との組み合わせに基づいて、特徴文字列の生成に使用される特徴文字列生成手段を切り替える切替ステップと、
前記文字列抽出ステップにおいて抽出された文字列に基づいて、前記切り替えられた特徴文字列生成手段を用いて、前記原稿に関する特徴文字列を生成する複数の特徴文字列生成ステップと
をコンピュータに実行させる画像処理プログラム。

【図１】