正式名称判定システム及び正式名称判定プログラム
【課題】
コンピュータで認識した文字に関連する情報の判定において、認識した略称に対応する正式名称を判定することを目的とする。
【解決手段】
略称取得部12は、読み取った文書データの中から固有名詞の略称を取得する。候補名称抽出部14は、固有名詞を記憶する固有名詞記憶部13から、取得した略称を構成する文字情報を含んでいる固有名詞を候補名称として抽出する。判定部15は、略称を構成する文字情報が、候補名称の中においてどの位置で使用されているかを検出し、その使用されている位置に応じて、その候補名称が略称に対応する正式名称かどうかを判定する。
コンピュータで認識した文字に関連する情報の判定において、認識した略称に対応する正式名称を判定することを目的とする。
【解決手段】
略称取得部12は、読み取った文書データの中から固有名詞の略称を取得する。候補名称抽出部14は、固有名詞を記憶する固有名詞記憶部13から、取得した略称を構成する文字情報を含んでいる固有名詞を候補名称として抽出する。判定部15は、略称を構成する文字情報が、候補名称の中においてどの位置で使用されているかを検出し、その使用されている位置に応じて、その候補名称が略称に対応する正式名称かどうかを判定する。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンピュータで認識した文字に関連する情報の判定に関し、特に認識した略称に対応する正式名称を判定する技術に関する。
【背景技術】
【0002】
学校や会社など、一般的に長い正式名称を持つ対象を指し示す場合、その正式名称を省略した略称を用いて指し示すということがよく行われている。その際に用いられる略称は、特定の地域内でのみ通じるものあったり、会社の部署内などの特定グループに属する人のみに通じるものあったり、又は特定の世代の人にのみ通じるものであったりと、使用される略称は状況によって様々なものがある。このため、略称と正式名称との関係を把握していない人にとっては、略称を用いてある対象を指し示された場合、何のことなのか理解することができないという問題がたびたび発生する。
【0003】
上記の問題を解決する手段として、医療分野では、診療報酬明細書に記載された文字情報を光学的に読み取り、読み取った文字情報と予め登録しておいた単語(医薬品名)とを照合させて、一致する単語を特定するという技術がある。この技術において、予め登録しておいた単語の構成文字から照合の対象とすべき文字を限定することにより、当該単語の略称についても、認識照合が可能となるという手段が用いられている。これにより、診療報酬明細書に略称が記載されていたとしても、その略称に対応する単語を特定することができる。(特許文献1参照)
【0004】
また、郵便分野では、配達物に記載された文字情報を光学的に読み取り、読み取った文字に関する情報と予め登録しておいた宛先情報とを照合させて、郵便物の宛先を複数の候補の中から特定するという技術がある。この技術において、予め登録しておいた宛先情報に、会社か個人か、一軒家か集合住宅かなどの属性情報を付加して設定しておくことで、より確実な宛先特定が可能となるという手段が用いられている。これにより、配達物に記載された宛先に誤りがあったり、記載された宛先がうまく読み取れなかったりしても、登録しておいた宛先情報の中からその記載された宛先に一致する可能性の高い宛先候補を特定することができる。(特許文献2参照)
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−275510号公報(第4−7頁、第2−6図)
【特許文献2】特開2000−298701号公報(第5・6頁、第4・5図)
【発明の概要】
【発明が解決しようとする課題】
【0006】
学校教育分野では、名簿や連絡文書等の様々な文書の中において、特定の学校名を指し示す際に、慣用されている略称を使用して指し示すことがある。この略称は、学校名の正式名称に使用されている文字が用いられるが、正式名称の最初の数文字を用いたり、最後の数文字を用いたり、又はその両方を組み合わせたりなど、様々な方法で作られており、生成ルールは一様ではない。
【0007】
特許文献1の技術では、略称に対応する正式名称を特定する際に、予め登録しておいた単語の構成文字から、照合の対象とすべき文字(照合対象文字)を所定のルールに基づいて限定し、その限定した照合対象文字と略称とが一致するか否かを判定する。しかし、上記の学校名に関する略称の例のように、必ずしも略称が一定のルールに基づいていない場合、照合対象文字を決める所定のルールを用いた方法では、略称に対応する正式名称を特定することができないという問題がある。
【0008】
特許文献2の技術では、複数の候補(宛先候補)の中から一つを特定する際に、予め登録された宛先情報に設定された属性情報という宛先情報を構成する文字情報とは別の付加情報を利用して、複数の候補の中から一つを特定する。このため、予めすべての宛先情報毎に付加情報を設定しておく必要があり、手間がかかるという問題がある。
【0009】
本発明は、上記従来技術の問題点を解消することを課題とする。具体的には、一定のルールに基づかずに作成される略称に対応する正式名称の判定において、略称を構成する文字情報を利用して判定するシステムを提供することを課題とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、本発明の正式名称判定システムは、文書データ中から固有名詞の略称を取得する略称取得部と、固有名詞を示す情報を記憶する固有名詞記憶部と、固有名詞記憶部から略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出部と、候補名称に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する判定部と、を備えている。
【0011】
本発明のように構成することにより、略称に対応する正式名称の判定は、略称に使用されている文字が、抽出した固有名詞の中のどの位置に含まれているかに応じて行うことができる。よって、記憶している固有名詞に予め付加情報を定義することなく、また、一様な判定ルールを予め設定する必要もなく、略称を構成する文字情報のみを判定要素として利用し、対応する正式名称を判定することが可能となる。
【0012】
本発明における文書データとは、文書を構成する一連の文字情報をデータ化したもののことをいう。
【0013】
本発明における固有名詞とは、特定の対象を他とは区別して指し示す際に用いる名称のことをいう。具体的には、学校名・会社名などの施設名や住所・地域名などの地名といったものがあるが、それらに加えて、製品を識別する製品コードやコンピュータ端末を識別する端末識別情報といったものも含まれることとする。これに限らず、特定の対象を指し示す情報であればいかなるものでもよい。
【0014】
本発明の正式名称判定システムにおける判定部は更に、候補名称を単語に分割する手段と、単語中に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する手段と、を有するという構成としてもよい。
【0015】
上記のように構成することにより、略称を生成する際の一般的な傾向を利用して判定することができるため、正式名称の判定精度を向上させることができる。略称を生成する際の一般的な傾向には、例えば、「単語を構成する文字情報のうち、前の方の文字情報を優先的につなげて略称が生成されることが多い」といったものが考えられる。
【0016】
本発明の正式名称判定システムは更に、予め定めた文字情報を特別文字情報として記憶する特別文字情報記憶部を備え、判定部は、候補名称中に含まれている特別文字情報に応じて、略称に対応する正式名称を判定する、という構成としてもよい。
【0017】
上記のように構成することにより、略称を生成する際によく使用される文字情報を利用して判定することができるため、正式名称の判定精度を向上させることができる。
【0018】
本発明における特別文字情報とは、略称を生成する際によく使用される文字として予め登録しておいた文字情報のことをいう。具体的には、東・西・南・北などの方角を示す文字や一・二・三などの順番を示す文字など、特定の対象を他の対象と区別する際に慣用的に用いられる情報のことをいう。これに限らず、特定の対象を区別する際に用いられる文字であればいかなるものでもよい。
【0019】
また、本発明のプログラムを端末に読み込ませて実行することで、上述の本発明を実現させることも可能である。つまり、固有名詞を示す情報を記憶する固有名詞記憶部を備える正式名称判定システムのための正式名称判定プログラムであって、文書データ中から固有名詞の略称を取得する略称取得機能と、固有名詞記憶部から略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出機能と、候補名称に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する判定機能と、をコンピュータに実現させる正式名称判定プログラムとして構成してもよい。
【0020】
この正式名称判定プログラムも、上述の正式名称判定システムと同様の作用効果を伴うものであり、上述した種々の特徴構成を備えることもできる。
【発明の効果】
【0021】
上述のように構成された本発明によれば、略称を構成する文字情報の有無から候補名称を抽出し、さらに略称を構成する文字情報が候補名称中のどの位置に含まれているかに応じて、略称に対応する正式名称を判定することができる。これにより、予め定められた一定の略称生成ルールのようなものが存在しない場合であっても、対応する正式名称の判定を行うことが可能になるという効果を得ることができる。
【図面の簡単な説明】
【0022】
【図1】本発明のシステム構成の一例を示す概念図。
【図2】本発明の端末のハードウェア構成の一例を示す概念図。
【図3】本発明の実施例1におけるシステム構成の一例を示す機能ブロック図。
【図4】本発明における処理プロセスの一例を示すフローチャート。
【図5】本発明の読取装置が読み取る原稿の一例を示す図。
【図6】本発明において固有名詞として記憶されている情報の一例を示す図。
【図7】本発明の端末の表示装置で表示する画像の一例を示すイメージ図。
【図8】本発明の端末の表示装置で表示する画像の一例を示すイメージ図。
【図9】本発明の実施例1における処理内容の一例を示すイメージ図。
【図10】本発明の文字位置に基づいて設定されたポイントの一例を示す図。
【図11】本発明の単語内の文字位置に基づいて設定されたポイントの一例を示す図。
【図12】本発明の単語の位置に基づいて設定されたポイントの一例を示す図。
【図13】本発明の実施例2におけるシステム構成の一例を示す機能ブロック図。
【図14】本発明において特別文字情報として記憶されている情報の一例を示す図。
【図15】本発明の実施例3におけるシステム構成の一例を示す機能ブロック図。
【図16】本発明の実施例4におけるシステム構成の一例を示す概念図。
【図17】本発明の実施例4におけるシステム構成の一例を示す機能ブロック図。
【発明を実施するための形態】
【実施例1】
【0023】
〔実施例1−構成〕
以下、図面を用いて本発明の実施形態を説明する。図1は、本発明の正式名称判定システムの全体構成の一例を概念的に示す。本発明は図1に示すように、コンピュータ端末A(以下、「端末A」という)が、読取装置Bと直接接続又はネットワークNを介して接続されるという形で構成されている。端末Aと読取装置Bとの接続形式は、直接接続でもネットワークNを介した接続でも、そのどちらであっても構わない。
【0024】
読取装置Bは、情報を読み取るための入力装置である。具体的には、原稿から写真や図形などを光学的に読み取り、画像データとしてコンピュータ端末に転送するスキャナーがある。他にも、原稿の文字に光を当てて反射光を読み取るOCR等があるが、これらに限らず、読み取った情報をデータ化して端末に転送する装置であれば、いかなるものであってもよい。
【0025】
ネットワークNは、企業や学校等の限られた施設内において情報を物理的に送るケーブルと、LANスイッチやハブ等でなる中継機器を備えたCSMA/CD(Carrier Sense Multiple Access With Collision Detection)方式のイーサネット(Ethernet)(商標)型のLANとして構成されたものであるが、このネットワークNとしてイーサネット型のLAN以外に、インターネットの技術を用いたイントラネットで構築されたものや、WAN(Wide Area Network)の技術によって構築されるものでもよい。
【0026】
図2は、端末Aのハードウェア構成の一例を概念的に示す。
【0027】
端末Aは、プログラムの演算処理を実行するCPU等の演算装置1と、情報を記憶するRAMやハードディスク等の記憶装置2と、演算装置1の処理結果や記憶装置2に記憶する情報を直接接続された機器又はインターネットやLAN等のネットワークを介して送受信する通信装置3と、キーボード、マウス又はテンキー等の入力装置4と、ディスプレイ(画面)等の表示装置5とを少なくとも有している。
【0028】
端末A上で実現する各機能(各手段)は、その処理を実行する手段(プログラムやモジュール等)が演算装置1に読み込まれることでその処理が実行される。各機能は、記憶装置2に記憶した情報をその処理において使用する場合には、該当する情報を当該記憶装置2から読み出し、読み出した情報を適宜、演算装置1における処理に用いる。
【0029】
図3は、本発明の正式名称判定システムを構成する端末Aと読取装置Bとの機能ブロック図を示す。本発明における各構成部及び各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上同一の領域を為していてもよい。
【0030】
また、図3は、本発明において必要となる最小限度の機器、構成及び手段等のみを記載しており、その他の機器、構成部及び手段等についてはその記載を省略する。
【0031】
端末Aは、取得したデータから文書を構成する一連の文字情報を認識して文書データとして取得する文字情報認識部11、取得した文書データから固有名詞の略称を抽出して取得する略称取得部12、複数の固有名詞の名称情報を記憶する固有名詞記憶部13、取得した略称を構成する文字情報を含む固有名詞を抽出する候補名称抽出部14、抽出した候補名称に含まれている略称を構成する文字情報の位置に応じて正式名称を判定する判定部15、判定した結果に応じて制御を行う制御部16、を備えている。
【0032】
読取装置Bは、原稿に記載された情報を読み取る読取部23、読み取った情報を元にデータを生成するデータ生成部22、生成したデータを端末Aに送信する通信部21、を備えている。
【0033】
以下、図3に記載した本発明を構成する機能ブロック図に基づいて、各構成部の動作について説明する。
【0034】
読取部23は、ユーザの操作に応じて、紙等の原稿に記載された文章・図表等の情報を光学的に読み取り、読み取った情報をデータ生成部22に送信する。データ生成部22は、受信した情報を基にデータ化を行う。
【0035】
上記のデータとは、読み取った情報をコンピュータ端末が認識できる形式に変換したもののことをいい、画像データや文字データなど様々な形式があるが、コンピュータ端末が認識できるものあればその形式は問わない。
【0036】
通信部21は、データ生成部22によって生成されたデータを、接続している端末Aに対して送信する。
【0037】
文字情報認識部11は、接続されている読取装置Bから通信装置3を介してデータを取得する。さらに、取得したデータから文書を構成する一連の文字情報を認識手段により認識して文書データを生成し、生成した文書データを略称取得部12に送信する。
【0038】
上記のほか、文字情報認識部11は、通信装置3を介して取得したデータ全てに対して文書データを生成するのではなく、取得したデータのうち、入力装置4によって指定された特定のデータについてのみ文書データを生成し、生成した文書データを略称取得部12に送信するという構成としてもよい。また、読取装置Bから文書データを取得する以外に、すでに文書データとなったデータを略称取得部12に送信することも当然に可能である。
【0039】
略称取得部12は、文字情報認識部11から受け取った文書データの内容を解析し、文書データ内に含まれている固有名詞の略称を抽出して取得し、候補名称抽出部14に送信する。略称の抽出方法は様々なものを用いることができる。例えば、(1)所定領域の情報を全て略称として抽出する方法、(2)特定の文字情報を含む一連の文字情報を略称として抽出する方法、(3)特定の条件に当てはまる一連の文字情報を略称として抽出する方法、という三つの方法が考えられる。
【0040】
〔略称の抽出方法(1)〕
文書データの所定領域の情報を全て略称として抽出する方法について説明する。この方法は、予め文書データ内における所定領域を抽出対象領域として設定しておき、その領域に記載されている情報は全て略称として抽出するという方法である。例えば、図5「連絡先一覧表」のような、予めフォーマットが定められ、特定の箇所(「所属学校」の欄)に固有名詞が列挙されることが決まっているような原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
【0041】
〔略称の抽出方法(2)〕
文書データの内容を解析し、特定の文字情報を含む一連の文字情報を略称として抽出する方法について説明する。この方法は、受け取った文書データを一連の文字情報に分割し、分割したそれぞれの一連の文字情報の中に予め登録しておいた略称を示す文字情報(例えば、「校」・「社」・「線」など)が含まれているか否かを判定し、含まれている一連の文字情報を略称として抽出するという方法である。特に、学校名や会社名など慣用的に略されることが多い固有名詞を含む原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
【0042】
〔略称の抽出方法(3)〕
文書データの内容を解析し、特定の条件に当てはまる一連の文字情報を略称として抽出する方法について説明する。この方法は、受け取った文書データを単語に分割し、分割したそれぞれの一連の文字情報が予め登録しておいた条件(例えば、「漢字四字の名詞」などといった条件)を満たすかどうかを判定し、条件を満たした一連の文字情報を略称として抽出するという方法である。特に、どういった略称が含まれるか予測ができない原稿や、多様な固有名詞が含まれる可能性のある原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
【0043】
上述の略称の抽出方法(1)から(3)について、いずれか一つの方法で抽出された略称を取得してもよいが、複数の方法の組み合わせによって抽出された略称を取得するとしてもよい。例えば、略称の抽出方法(1)から(3)を組み合わせて、文書データの所定領域に含まれる情報で、「校」という文字情報を含み、漢字四字で構成されている一連の文字情報を略称として抽出するということができる。
【0044】
固有名詞記憶部13は、予め登録された複数の固有名詞を記憶する。この固有名詞については、正式名称を判定したい分野に関する固有名詞を選択して登録しておいてもよいし、各種分野における固有名詞を広く登録しておいてもよい。例えば、本システムを学校名の正式名称判定に使用する場合には、学校の正式名称を事前に登録しておくとよい。また、各種分野における固有名詞を広く登録する場合には、インターネットの各種サイト等から固有名詞を選択して取得し、データベース化して記憶しておくなどの方法も考えられる。
【0045】
候補名称抽出部14は、略称取得部12から取得した略称に基づき、その略称を構成する文字情報(以下、「略称構成文字情報」という)を含む固有名詞を、固有名詞記憶部13から候補名称として抽出し、判定部15に送信する。略称構成文字情報を含む固有名詞が複数ある場合には、複数の固有名詞をそれぞれ候補名称として判定部15に送信する。
【0046】
上記の候補名称の抽出について、例えば、本システムを学校名の正式名称判定に使用する場合には、取得した略称が「明学小」だった場合、略称構成文字情報「小」を含むことから小学校の名称に対する略称であると判定し、固有名詞記憶部13に記憶しておいた小学校の正式名称を全て候補名称として抽出するという方法が考えられる。
【0047】
また、上記の候補名称の抽出において、略称または固有名詞に旧漢字が使用されていた場合については、同じの意味内容を示す旧漢字と新漢字は予め同一の文字であると関連付けておき、旧漢字に対応する新漢字(又は新漢字に対応する旧漢字)を含む固有名詞を全て抽出するとしておくとよい。
【0048】
判定部15は、略称取得部12から受け取った略称と、候補名称抽出部14から受け取った候補名称とを比較して、略称に対応する正式名称の可能性を判定し、判定結果を制御部16に送信する。
【0049】
上記の正式名称の判定は、候補名称中に含まれる略称構成文字情報の位置を利用して行われ、その判定には様々な方法を用いることができる。例えば、(1)所定位置における略称構成文字情報の有無で判定する方法、(2)略称構成文字情報の位置に応じた重要度で判定する方法、(3)単語中における略称構成文字情報の位置に応じた重要度で判定する方法、(4)略称構成文字情報を含む単語の位置に応じた重要度で判定する方法、という四つの方法が考えられる。
【0050】
〔正式名称の判定方法(1)〕
候補名称中において、所定位置における略称構成文字情報の有無で判定する方法について説明する。この方法は、略称における一文字目の略称構成文字情報が候補名名称中のどの位置に含まれているかを判定し、その位置と予め定められている所定位置とを比較することによって、その候補名称が正式名称である可能性を判定するという方法である。例えば、所定位置が「一文字目」と定められている場合であれば、まず、各候補名称中に含まれている略称構成文字情報の位置を抽出する。そして、その位置が所定位置の「一文字目」である候補名称を特定し、当該候補名称を正式名称である可能性が高いと判定する。
【0051】
〔正式名称の判定方法(2)〕
候補名称中において、略称構成文字情報の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称と略称構成文字情報とを比較し、一致する文字情報の位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が5文字で構成されており、その1文字目と3文字目が略称構成文字情報と一致した場合、1文字目と3文字目に対応するポイントの合計を算出し、その算出した値に応じて正式名称である可能性を判定する。
【0052】
〔正式名称の判定方法(3)〕
候補名称を単語に分割し、その分割した単語中における略称構成文字情報の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称を単語に分割する。そして、候補名称と略称構成文字情報とを比較し、一致する文字情報の単語中における位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が二つの単語で構成されており、それぞれの単語中の1文字目が略称構成文字情報と一致した場合、各単語の1文字目に対応するポイントの合計を算出し、その算出した値に応じて正式名称である可能性を判定する。
【0053】
〔正式名称の判定方法(4)〕
候補名称を単語に分割し、略称構成文字情報を含んだ単語の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称を単語に分割する。そして、候補名称と略称構成文字情報とを比較し、一致する文字情報を含む単語の位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が二つの単語で構成されており、それぞれの単語中に略称構成も自我含まれていた場合、各単語の位置に対応するポイントの合計値を算出し、その算出した値に応じて正式名称である可能性を判定する。
【0054】
上述の正式名称の判定方法(1)から(4)について、いずれか一つの方法で正式名称の可能性を判定しても良いし、複数の方法の組み合わせによって判定するようにしてもかまわない。
【0055】
制御部16は、判定部15から受け取った判定結果に基づいて各種制御を行い、端末Aの表示装置5にその結果を表示させる。
【0056】
上記の制御とは、例えば、判定部15から受け取った判定結果において正式名称である可能性が一番高い候補名称を正式名称であると特定し、読取装置Bから取得したデータを端末Aの表示装置5で表示させる際に、略称を当該判定した正式名称に変換して表示装置5に表示させるという制御が考えられる。
【0057】
その他、略称を正式名称に変換せず、候補名称とその候補名称が正式名称である可能性をそのまま表示装置5に表示させるという制御も考えられる。例えば、判定部15から候補名称とその候補名称が正式名称である可能性を示す値を受け取り、表示装置5上において、略称の箇所に変換候補として、正式名称である可能性が高いものから順に、候補名称をランキング表示させるという制御を行ってもよい。
【0058】
〔実施例1−処理プロセス(1)〕
次に、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、以下の説明では学校教育分野における学校名の略称とそれに対応する正式名称を判定する場合を例に説明する。また、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用い、正式名称の判定方法では、(1)所定位置における略称構成文字情報の有無で判定する方法を用いた場合について説明する。
【0059】
読取装置Bのデータ生成部22は、読取部23が読み取った原稿の情報を取得し、データを生成して通信部21に渡す。通信部21は受け取ったデータを端末Aに送信する。読取部23が読み取った原稿の一例を図5に示す。
【0060】
端末Aの通信装置3は、接続されている読取装置Bからデータを取得する(S101)。そして、取得したデータを端末A内の文字情報認識部11に送信する。
【0061】
文字情報認識部11は、通信装置3から受け取ったデータから、原稿「連絡先一覧表」を構成する一連の文字情報を認識手段により認識して文書データを生成する(S102)。本実施例で説明すると、原稿「連絡先一覧表」を構成する文字情報を認識して文書データを生成する。そして、生成した文書データを略称取得部12に送信する。
【0062】
略称取得部12は、文字情報認識部11から受け取った文書データのうち、予め定められた所定の位置(又は項目等)に記載されている一連の文字情報を、略称として抽出する(S103)。本実施例で説明すると、原稿「連絡先一覧表」を構成する文書データのうち、所定の位置「所属学校」の列に記載されている一連の文字情報を、略称としてそれぞれ抽出する。以下、本実施例では、略称として「明学小」を抽出した場合について説明する。
【0063】
固有名詞記憶部13は、予め登録された複数の固有名詞を記憶する。本実施例においては、小学校の正式名称が固有名詞として予め記憶されているものとする。固有名詞記憶部13に記憶されている情報の一例を図6に示す。
【0064】
候補名称抽出部14は、略称取得部12から取得した略称の略称構成文字情報を含む固有名詞を、固有名詞記憶部13から候補名称として抽出する(S104)。そして、抽出した候補名称を判定部15に送信する。
【0065】
上記の処理を本実施例で説明する。まず、候補名称抽出部14は、略称構成文字情報「明」・「学」・「小」のうち二つ以上の略称構成文字情報を含む固有名詞を固有名詞記憶部13から取得する。次に、固有名詞記憶部13に記憶されている情報が図6の通りであった場合、候補名称抽出部14は、第一候補名称「大阪市立高明東小学校」・第二候補名称「私立明治学園付属小学校」・第候補名称「私立清明大学付属小学校」の三つの候補名称を抽出する。
【0066】
上記の候補名称の抽出方法以外に、略称構成文字情報を一文字でも有する固有名詞であれば全て抽出するという方法を用いても良い。例えば、略称の最後に略称構成文字情報「小」を含む略称は小学校を示すと判定し、小学校の正式名称を示す固有名詞であれば全て候補名称として抽出するとしてもよい。この方法を用いることにより、固有名詞記憶部13に小学校以外の正式名称(例えば、中学校、高等学校又は専門学校など)が記憶されていた場合にも対応することが可能となる。
【0067】
判定部15は、候補名称抽出部14から受け取った候補名称中において、予め定めた所定位置に略称取得部12から受け取った略称の一文字目の略称構成文字情報が含まれているか否かによって、正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0068】
上記の処理を具体的に説明する。まず、ユーザによって予め設定された比較条件を判定部15が読み取る。ここでは、比較条件として所定位置が「一文字目」と設定されていたとする。さらに、この判定の際に、「大阪市立」・「私立」・「小学校」といった定型文字情報は判定対象に含まないという判定除外設定も併せて行っておくと好適である。本実施例では、この判定除外設定も行っておくものとする。
【0069】
上記の除外文字設定について、例えば、「私立」・「府立」・「県立」・「市立」・「町立」といった文字情報を除外特定文字情報として、予め除外特定文字情報記憶部(図示せず)に記憶しておき、除外特定文字情報より前に記載されている文字情報を全て判定対象に含まないという判定除外設定を行うと好適である。この方法を用いることにより、「大阪府立」や「兵庫県立」といった判定に必要ない文字情報を効率的に除外することが可能となる。
【0070】
また、「小学校」・「中学校」・「高等学校」のような、各候補名称に共通して含まれているような文字情報については、予め除外特定文字情報として除外特定文字情報記憶部(図示せず)に記憶しておいても良い。この方法を用いることにより、本発明の正式名称判定システムにおける処理速度を向上させることが可能となる。
【0071】
次に、判定部15は、候補名称抽出部14から受け取った三つの候補名称において、その判定対象中において略称構成文字情報「明」が含まれている位置を判定する。第一候補名称「大阪市立高明東小学校」の場合、判定除外設定を行った後の判定対象は「高明東」であり、略称構成文字情報「明」の含まれている位置は二文字目と判定する。同様に、第二候補名称「私立明治学園付属小学校」の場合、判定対象は「明治学園付属」であり、略称構成文字情報「明」の含まれている位置は一文字目と判定する。さらに、第三候補名称「私立清明大学付属小学校」の場合、判定対象は「清明大学付属」であり、略称構成文字情報「明」の含まれている位置は二文字目と判定する。
【0072】
そして、判定部15は、略称構成文字情報が候補名称中に含まれている位置と、予め定めておいた所定位置とを比較し、一致した候補名称を正式名称である可能性が高いと判定する。本実施例の場合、第二候補名称において略称構成文字情報が含まれている位置(一文字目)と、予め定められた所定位置である「一文字目」とが一致しているため、第二候補名称「私立明治学園付属小学校」が略称に対応する正式名称である可能性が高いと判定する。判定部15は、この判定結果を制御部16に送信する。
【0073】
制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。
【0074】
上記の処理を具体的に説明する。制御部16は、判定部15の結果に基づき、正式名称である可能性が一番高い第二候補名称「私立明治学園付属小学校」を正式名称であると特定する。さらに、文書データ中において略称「明学小」に対応する箇所を、正式名称「私立明治学園付属小学校」に変換する。
【0075】
さらに、制御部16は、本発明の正式名称判定システムにおいて処理されたほかの略称に対する情報を取得し、同様に上記の処理を他の略称に対しても行うことによって、取得した文書データを自動的に再編集した上で表示装置5に表示させる。表示装置5における表示の一例を図7に示す。
【0076】
上記以外の制御として、制御部16は、略称を正式名称に変換せず、判定部15において判定された正式名称である可能性に基づいて、候補名称を略称の変換候補としてランキング形式で表示させるという制御も考えられる。本実施例で説明すると、正式名称である可能性が一番高い候補名称は第二候補名称「私立明治学園付属小学校」であるので、変換候補の最上位に表示し、残りの候補名称をそれに続く形で表示させるという形になる。本制御による表示装置5における表示の一例を図8に示す。
【0077】
上述の実施形態とすることにより、判定要素として利用するのは略称を構成する文字情報のみであっても、対応する正式名称を判定することが可能となる。
【0078】
上述の実施形態では、判定部15における比較条件として、所定位置を「一文字目」と設定された場合について説明したが、それ以外にも、「予め定めた文字情報の直後」としたり、「予め定めた文字情報の直前」としたりする方法も考えられる。また、予め定められた文字情報の直前・直後の一文字だけで判定するのではなく、予め定められた文字情報の直前・直後の「連続する文字情報の一致」によって判定する方法も可能である。これらの処理について、以下に詳細に説明する。
【0079】
所定位置を「予め定めた文字情報の直後」とする方法については、例えば、学校名「私立青山大学付属西岡小学校」という正式名称の場合、略称として「西岡小」というように、「付属」の直後に続く文字情報を用いて略称を生成するということもある。このような場合には、予め定める文字情報を「付属」とすることによって、略称構成文字情報と正式名称「付属」の直後に続く文字情報とを比較して、正式名称か否かの判定を行うことができ好適である。
【0080】
所定位置を「予め定めた文字情報の直前」とする方法については、例えば、学校名「大東市立大山城西小学校」という正式名称の場合、略称として「城西小」というように、「小学校」の直前の文字情報を用いて略称を生成するということもある。このような場合には、予め定める文字情報「小学校」とすることによって、略称構成文字情報と正式名称「小学校」の直前の文字情報とを比較して、正式名称か否かの判定を行うことができ好適である。
【0081】
また、「連続する文字情報の一致」によって判定する方法については、例えば、上述の学校名「私立青山大学付属西岡小学校」と略称「西岡小」を判定する場合であれば、予め定められた文字情報「付属」の後に続く連続した文字情報が、略称を構成する連続した略称構成文字情報と一致するかを判定することによって、正式名称か否かの判定を行うことができる。上述の学校名「大東市立大山城西小学校」と略称「城西小」の場合であっても同様の処理を行うことができる。処理内容のイメージを図9に示す。
【0082】
〔実施例1−処理プロセス(2)〕
次に、正式名称の判定方法について、(2)略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
【0083】
図4のフローチャートにおける(S101)から(S104)の動作については〔実施例1−処理プロセス(1)〕と同様のため、その説明を省略する。
【0084】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称中においてどの位置に含まれているかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0085】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図10に示す。
【0086】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0087】
そして、判定部15は、候補名称抽出部14から受け取った各候補名称に対して、何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。
【0088】
上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、略称構成文字情報「明」が判定対象文字中の2文字目に含まれているので、ポイントは「35」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、略称構成文字情報「明」が判定対象文字中の1文字目に含まれており、さらに、略称構成文字情報「学」が判定対象文字中の3文字目に含まれているため、合計ポイントは「40+30」で「70」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、略称構成文字情報「明」が判定対象文字中の2文字目、略称構成文字情報「学」が判定対象文字中の4文字目に含まれているため、合計ポイントは「35+25」で「60」となる。
【0089】
上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、70ポイントの第二候補名称「私立明治学園付属小学校」、次いで正式名称である可能性があるのは、60ポイントの第三候補名称「私立清明大学付属小学校」、最後に正式名称である可能性が一番低いのは、35ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。そして、導き出した判定結果を制御部16に送信する。
【0090】
制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。制御の内容については、〔実施例1−処理プロセス(1)〕と同様である。
【0091】
上記以外の本実施例特有の制御として、制御部16は、略称を正式名称に変換せず、判定部15において判定された正式名称である可能性に基づいて、候補名称を略称の変換候補として、判定部15で算出したポイントと併せてランキング形式で表示させるという制御を行ってもよい。
【0092】
上述の実施形態とすることにより、予め比較条件などを特に設定する必要もなく正式名称判定を行うことができ、さらに、各候補名称について、略称に対応する正式名称である可能性をより詳細に把握することが可能となる。
【0093】
〔実施例1−処理プロセス(3)〕
次に、正式名称の判定方法について、(3)単語中における略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
【0094】
図4のフローチャートにおける(S101)から(S104)、並びに(S106)の動作については〔実施例1−処理プロセス(1)〕及び〔実施例1−処理プロセス(2)〕と同様のため、その説明を省略する。
【0095】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称を単語に分割した各単語中においてどの位置に含まれているかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0096】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図11に示す。
【0097】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0098】
そして、判定部15は、候補名称抽出部14から受け取った候補名称の判定対象となる文字を単語に分割する。続いて、分割した単語中において何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。
【0099】
上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、判定対象となる文字を単語に分割すると「高明」・「東」となる。次に、分割した各単語に対して略称構成文字情報を含んでいるか否かの判定を行う。この場合、略称構成文字情報「明」が最初の単語の2文字目に含まれているので、ポイントは「20」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、判定対象となる文字を単語に分割すると「明治」・「学園」・「付属」となる。この場合、略称構成文字情報「明」が最初の単語の1文字目に含まれ、略称構成文字情報「学」が2番目の単語の1文字目に含まれているので、合計ポイントは「40+40」で「80」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、判定対象となる文字を単語に分割すると「清明」・「大学」・「付属」となる。この場合、略称構成文字情報「明」が最初の単語の2文字目に含まれ、略称構成文字情報「学」が2番目の単語の2文字目に含まれているので、合計ポイントは「20+20」で「40」となる。
【0100】
上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、80ポイントの第二候補名称「私立明治学園付属小学校」、次いで正式名称である可能性があるのは、40ポイントの第三候補名称「私立清明大学付属小学校」、最後に正式名称である可能性が一番低いのは、20ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。導き出した判定結果は、制御部16に送信する。
【0101】
上述の実施形態とすることにより、「単語を構成する先頭の文字情報をつなげて略称が生成されることが多い」というような、略称を生成する際の一般的な傾向を利用した判定を行うことができ、正式名称の判定精度を向上させることができる。
【0102】
〔実施例1−処理プロセス(4)〕
次に、正式名称の判定方法について、(4)略称構成文字情報を含んだ単語の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
【0103】
図4のフローチャートにおける(S101)から(S104)、並びに(S106)の動作については〔実施例1−処理プロセス(1)〕及び〔実施例1−処理プロセス(2)〕と同様のため、その説明を省略する。
【0104】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称を単語に分割した各単語中においてどの単語の中に含まれているかを特定する。また、特定した単語が候補名称中において何番目の位置にあるかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0105】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、単語位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字を有する単語の位置に応じてポイントが予め定められている。単語位置ポイントテーブルに記憶されている情報の一例を図12に示す。
【0106】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0107】
そして、判定部15は、候補名称抽出部14から受け取った候補名称の判定対象となる文字を単語に分割する。続いて、略称構成文字情報を含んでいる単語を特定し、その単語が判定対象中の何番目に位置しているのかを判定し、前述の単語位置ポイントテーブル(図示せず)から、判定した単語の位置に対応するポイントを抽出し、名称毎に合計ポイントを算出する。
【0108】
上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、判定対象となる文字を単語に分割すると「高明」・「東」となる。次に、略称構成文字情報を含んでいる単語の位置の判定を行う。この場合、略称構成文字情報「明」が1単語目に含まれているので、ポイントは「40」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、判定対象となる文字を単語に分割すると「明治」・「学園」・「付属」となる。この場合、略称構成文字情報「明」が1単語目に含まれ、略称構成文字情報「学」が2単語目に含まれているので、合計ポイントは「40+40」で「80」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、判定対象となる文字を単語に分割すると「清明」・「大学」・「付属」となる。この場合、略称構成文字情報「明」が1単語目に含まれ、略称構成文字情報「学」が2単語目に含まれているので、合計ポイントは「40+40」で「80」となる。
【0109】
上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が高い候補名称は、80ポイントの第二候補名称「私立明治学園付属小学校」と第三候補名称「私立清明大学付属小学校」、正式名称である可能性が低いのは、20ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。導き出した判定結果は、制御部16に送信する。
【0110】
上述の実施形態とすることにより、「各単語に含まれる文字情報抽出して略称が生成されることが多い」というような、略称を生成する際の一般的な傾向を利用した判定を行うことができる。
【実施例2】
【0111】
〔実施例2−構成〕
次に、図13の機能ブロック図を用いて、本発明の正式名称判定システムの第2実施形態を説明する。なお、実施例1と同じ構成部には同一の符号を付している。さらに、その同一構成部に関して同一の動作を行う場合は、その詳細な説明を省略する。
【0112】
本発明の正式名称判定システムの第2実施形態は、端末Aの内部に、予め定められた特別文字情報を記憶しておく特別文字情報記憶部17を備えているという点において、実施例1の実施形態と異なっている。
【0113】
本実施例では、実施例1のように候補名称中に含まれている略称構成文字情報の位置に応じて判定することに加えて、予め定められた特別文字情報が候補名称中に含まれているかという要素も加味して判定を行うという点に特徴がある。
【0114】
以下、各構成部の動作について説明する。なお、実施例1と同様の構成部又は動作については、その詳細な説明を省略する。
【0115】
特別文字情報記憶部17は、予め登録された複数の特別文字情報を記憶する。この特別文字情報とは、略称を生成する際に一般的によく用いられる文字情報のことである。例えば、「東」・「西」・「南」・「北」等の方角を示す文字情報や、「一」・「二」・「三」等の数字を示す文字情報などがある。また、特別文字情報は必ずしも一文字とは限らず、二文字以上で構成される一連の文字情報を特別文字情報として記憶するという形式でもよい。
【0116】
判定部15は、略称取得部12から受け取った略称中に、特別文字情報記憶部17に記憶された特別文字情報が含まれているかどうかを検索する。検索の結果、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように判定結果を補正する。そして、判定部15は、この補正が加えられた判定結果を制御部16に送信する。
【0117】
〔実施例2−処理プロセス〕
次に、本発明の正式名称判定システムにおける処理プロセスの一例を、図13の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、以下の説明では教育分野における学校名の名称とそれに対応する正式名称を判定する場合を例に説明する。また、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用い、正式名称の判定方法では、(2)略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合について説明する。
【0118】
図4のフローチャートにおける(S101)から(S104)の動作については〔実施例1−処理プロセス(1)〕と同様のため、その説明を省略する。以下、本実施例では、原稿「連絡先一覧表」を構成する文書データのうち、所定の位置「所属学校」の列に記載されている一連の文字情報のうち、略称として「教学三小」を抽出した場合について説明する。
【0119】
候補名称抽出部14は、略称取得部12から取得した略称の略称構成文字情報を含む固有名詞を、固有名詞記憶部13から候補名称として抽出する(S104)。そして、抽出した候補名称を判定部15に送信する。
【0120】
上記の処理を本実施例で説明する。まず、候補名称抽出部14は、略称構成文字情報「教」・「学」・「三」・「小」を二つ以上含む固有名詞を固有名詞記憶部13から取得する。次に、固有名詞記憶部13に記憶されている情報が図6の通りであった場合、候補名称抽出部14は、第一候補名称「私立教育大学付属第三小学校」・第二候補名称「私立教生学園小学校」の二つの候補名称を抽出する。
【0121】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称中においてどの位置に含まれているかによってポイントを算出する。さらに、略称の中に特別文字情報記憶部17に記憶した特別文字情報が含まれているかを検索し、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように算出したポイントを補正する。そして、補正されたポイントに応じて正式名称である可能性を判定し(S105)、判定結果を制御部16に送信する。
【0122】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図10に示す。
【0123】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0124】
そして、判定部15は、候補名称抽出部14から受け取った各候補名称に対して、何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。
【0125】
上記の処理を具体的に説明する。まず、第一候補名称「私立教育大学付属第三小学校」の場合、略称構成文字情報「教」が判定対象文字中の1文字目に含まれており、略称構成文字情報「学」が判定対象文字中の4文字目に含まれており、略称構成文字情報「三」が判定対象文字中の8文字目に含まれているため、合計ポイントは「40+25+5」で「70」となる。同様に、第二候補名称「私立教生学園小学校」の場合、略称構成文字情報「教」が判定対象文字中の1文字目、略称構成文字情報「学」が判定対象文字中の3文字目に含まれているため、合計ポイントは「40+30」で「70」となる。
【0126】
次に、判定部15は、略称取得部12から受け取った略称中に特別文字情報記憶部17に記憶された特別文字情報が含まれているかどうかを検索する。特別文字情報記憶部17に記憶されている情報の一例を、図14に示す。そして、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように、算出したポイントに対して補正を加える。
【0127】
上記の処理を具体的に説明する。まず、略称「教学三小」の中に特別文字情報が含まれているかどうかを検索すると、特別文字情報「三」が含まれていることが検出される。そして、この特別文字情報「三」を含んでいるのは第一候補名称「私立教育大学付属第三小学校」であるので、第一候補名称のポイントに補正ポイントを加える。ここでは、補正ポイント「30」を加えることとする。この補正を行った結果、第一候補名称「私立教育大学付属第三小学校」の合計ポイントは、「40+25+5+30」で「100」となる。
【0128】
上記の補正処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、100ポイントの第一候補名称「私立教育大学付属第三小学校」、次いで正式名称である可能性があるのは、70ポイントの第二候補名称「私立教生学園小学校」であるとする判定結果を導き出す。そして、導き出した判定結果を制御部16に送信する。
【0129】
制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。制御の内容については、〔実施例1−処理プロセス(1)〕と同様である。
【0130】
上述の実施形態とすることにより、一般的に略称に用いられる傾向が高い文字情報を、正式名称判定の要素に組み込むことにより、より精度の高い正式名称判定を実現することができる。
【実施例3】
【0131】
次に、図15の機能ブロック図を用いて、本発明の正式名称判定システムの第3実施形態を説明する。なお、実施例1と同じ構成部には同一の符号を付している。
【0132】
本発明の正式名称判定システムの第3実施形態は、端末Aの通信装置3と読取装置Bとを必要としないという点において、実施例1の実施形態と異なっている。
【0133】
本実施例では、実施例1のように読取装置Bによって原稿を読み取って取得したデータを用いるのではなく、表示装置5によって表示された内容から取得したデータを用いるという点に特徴がある。データの取得から文書データ生成までの処理以外は、実施例1と同様の処理が行われる。
【0134】
以下、文字情報認識部11の動作について説明する。なお、その他の構成部に関する動作及び処理フローは実施例1と同様のため、詳細な説明を省略する。
【0135】
文字情報認識部11は、表示装置5に表示された情報を取得し、取得した情報から文書を構成する一連の文字情報を認識手段により認識して文書データを生成し、生成した文書データを略称取得部12に送信する。
【0136】
上記の文書データ生成方法としては、様々な方法を用いることができる。例えば、(1)表示された全ての情報を取得する方法、(2)指定された範囲の情報を取得する方法、(3)指定された対象に関連する情報を取得する方法、(4)文字変換の対象となっている情報を取得する方法、という四つの方法が考えられる。また、上記の(2)と(3)の方法における範囲・対象を指定する方法については、予め定められた範囲・対象を自動的に指定するとしてもよいし、ユーザが任意の範囲・対象を指定するとしてもよい。
【0137】
〔文書データ生成方法(1)〕
表示装置5に表示された全ての情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報を画像データとして取得し、取得した画像データの中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している画像内の文字情報に関して、略称を全て正式名称に変換する場合、この方法を用いると好適である。
【0138】
〔文書データ生成方法(2)〕
表示装置5に表示された情報のうち、指定された範囲の情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが指定した範囲の中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している情報において、ユーザがマウス等の入力装置4を用いて指定した任意の範囲の文字情報に関して、その中に含まれている略称を正式名称に変換する場合、この方法を用いると好適である。
【0139】
〔文書データ生成方法(3)〕
表示装置5に表示された情報のうち、指定された対象に関連する情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが指定した対象が指し示すデータを検索し、その中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している情報において、ユーザがマウス等の入力装置4を用いて指定したファイルやフォルダ等を示すアイコンにおいて、そのアイコンが指し示すデータ内に含まれている文字情報に関して、略称を正式名称に変換する場合、この方法を用いると好適である。
【0140】
〔文書データ生成方法(4)〕
表示装置5に表示された情報のうち、文字変換の対象となっている情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが変換候補として指定した範囲の中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、ユーザがキーボード等の入力装置4を用いて略称を直接入力し、ユーザが変換指示を行った際にその略称を正式名称に変換するという場合、この方法を用いると好適である。
【0141】
上述の文書データ生成方法(1)から(4)について、いずれか一つの方法で文書データを生成しても良いし、複数の方法の組み合わせによって文書データを生成するようにしてもかまわない。
【0142】
上述の実施形態とすることにより、スキャナー等の読取装置を用いない場合であっても、本発明の正式名称判定システムを実行させることが可能となる。
【実施例4】
【0143】
次に、図16及び図17を用いて、本発明の正式名称判定システムの第4実施形態について説明する。
【0144】
図16は、本発明の正式名称判定システムの第4実施形態における全体構成の一例を概念的に示す。本発明は図16に示すように、端末Aと読取装置Bとが直接接続され、端末Aと管理サーバCとがネットワークNを介して接続されるという形で構成されている。端末Aと読取装置Bとの接続形式は、直接接続でもネットワークNを介した接続でも、そのどちらであっても構わない。本発明は、このようなサーバ・クライアントシステム形式で構成することもできる。
【0145】
図17は、本発明の正式名称判定システムを構成する端末A、読取装置B及び管理サーバCの機能ブロック図を示す。本発明における各構成部及び各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上同一の領域を為していてもよい。なお、実施例1と同様の処理を行う構成部には、実施例1と同一の符号を付している。
【0146】
端末Aは、ネットワークNを通じて管理サーバCと情報を送受信するネットワークI/F20、取得したデータから文書を構成する一連の文字情報を認識して文書データとして取得し管理サーバCに送信する文字情報認識部11、管理サーバCから受信した判定結果に応じて端末の制御を行う制御部16、を備えている。
【0147】
読取装置Bは、原稿に記載された情報を読み取る読取部23、読み取った情報を元にデータを生成するデータ生成部22、生成したデータを端末Aに送信する通信部21、を備えている。
【0148】
管理サーバCは、ネットワークNを通じて端末Aと情報を送受信するネットワークI/F19、端末Aより取得した文書データから固有名詞の略称を抽出して取得する略称取得部12、複数の固有名詞の名称情報を記憶する固有名詞記憶部13、取得した略称を構成する文字情報を含む固有名詞を抽出する候補名称抽出部14、抽出した候補名称に含まれている略称を構成する文字情報の位置に応じて正式名称を判定する判定部15、判定した結果に応じて端末Aを制御する情報を送信する制御指示部16、を備えている。
【0149】
上述の実施形態とすることにより、ネットワークを介して接続された複数の端末に対して、本発明の正式名称判定システムによる制御を行うことが可能となる。
【符号の説明】
【0150】
A:端末
B:読取装置
C:管理サーバ
N:ネットワーク
1:演算装置
2:記憶装置
3:通信装置
4:入力装置
5:表示装置
11:文字情報認識部
12:略称取得部
13:固有名詞記憶部
14:候補名称抽出部
15:判定部
16:制御部
17:特別文字情報記憶部
18:制御指示部
20:ネットワークI/F
21:通信部
22:データ生成部
23:読取部
【技術分野】
【0001】
本発明は、コンピュータで認識した文字に関連する情報の判定に関し、特に認識した略称に対応する正式名称を判定する技術に関する。
【背景技術】
【0002】
学校や会社など、一般的に長い正式名称を持つ対象を指し示す場合、その正式名称を省略した略称を用いて指し示すということがよく行われている。その際に用いられる略称は、特定の地域内でのみ通じるものあったり、会社の部署内などの特定グループに属する人のみに通じるものあったり、又は特定の世代の人にのみ通じるものであったりと、使用される略称は状況によって様々なものがある。このため、略称と正式名称との関係を把握していない人にとっては、略称を用いてある対象を指し示された場合、何のことなのか理解することができないという問題がたびたび発生する。
【0003】
上記の問題を解決する手段として、医療分野では、診療報酬明細書に記載された文字情報を光学的に読み取り、読み取った文字情報と予め登録しておいた単語(医薬品名)とを照合させて、一致する単語を特定するという技術がある。この技術において、予め登録しておいた単語の構成文字から照合の対象とすべき文字を限定することにより、当該単語の略称についても、認識照合が可能となるという手段が用いられている。これにより、診療報酬明細書に略称が記載されていたとしても、その略称に対応する単語を特定することができる。(特許文献1参照)
【0004】
また、郵便分野では、配達物に記載された文字情報を光学的に読み取り、読み取った文字に関する情報と予め登録しておいた宛先情報とを照合させて、郵便物の宛先を複数の候補の中から特定するという技術がある。この技術において、予め登録しておいた宛先情報に、会社か個人か、一軒家か集合住宅かなどの属性情報を付加して設定しておくことで、より確実な宛先特定が可能となるという手段が用いられている。これにより、配達物に記載された宛先に誤りがあったり、記載された宛先がうまく読み取れなかったりしても、登録しておいた宛先情報の中からその記載された宛先に一致する可能性の高い宛先候補を特定することができる。(特許文献2参照)
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−275510号公報(第4−7頁、第2−6図)
【特許文献2】特開2000−298701号公報(第5・6頁、第4・5図)
【発明の概要】
【発明が解決しようとする課題】
【0006】
学校教育分野では、名簿や連絡文書等の様々な文書の中において、特定の学校名を指し示す際に、慣用されている略称を使用して指し示すことがある。この略称は、学校名の正式名称に使用されている文字が用いられるが、正式名称の最初の数文字を用いたり、最後の数文字を用いたり、又はその両方を組み合わせたりなど、様々な方法で作られており、生成ルールは一様ではない。
【0007】
特許文献1の技術では、略称に対応する正式名称を特定する際に、予め登録しておいた単語の構成文字から、照合の対象とすべき文字(照合対象文字)を所定のルールに基づいて限定し、その限定した照合対象文字と略称とが一致するか否かを判定する。しかし、上記の学校名に関する略称の例のように、必ずしも略称が一定のルールに基づいていない場合、照合対象文字を決める所定のルールを用いた方法では、略称に対応する正式名称を特定することができないという問題がある。
【0008】
特許文献2の技術では、複数の候補(宛先候補)の中から一つを特定する際に、予め登録された宛先情報に設定された属性情報という宛先情報を構成する文字情報とは別の付加情報を利用して、複数の候補の中から一つを特定する。このため、予めすべての宛先情報毎に付加情報を設定しておく必要があり、手間がかかるという問題がある。
【0009】
本発明は、上記従来技術の問題点を解消することを課題とする。具体的には、一定のルールに基づかずに作成される略称に対応する正式名称の判定において、略称を構成する文字情報を利用して判定するシステムを提供することを課題とする。
【課題を解決するための手段】
【0010】
上記の課題を解決するために、本発明の正式名称判定システムは、文書データ中から固有名詞の略称を取得する略称取得部と、固有名詞を示す情報を記憶する固有名詞記憶部と、固有名詞記憶部から略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出部と、候補名称に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する判定部と、を備えている。
【0011】
本発明のように構成することにより、略称に対応する正式名称の判定は、略称に使用されている文字が、抽出した固有名詞の中のどの位置に含まれているかに応じて行うことができる。よって、記憶している固有名詞に予め付加情報を定義することなく、また、一様な判定ルールを予め設定する必要もなく、略称を構成する文字情報のみを判定要素として利用し、対応する正式名称を判定することが可能となる。
【0012】
本発明における文書データとは、文書を構成する一連の文字情報をデータ化したもののことをいう。
【0013】
本発明における固有名詞とは、特定の対象を他とは区別して指し示す際に用いる名称のことをいう。具体的には、学校名・会社名などの施設名や住所・地域名などの地名といったものがあるが、それらに加えて、製品を識別する製品コードやコンピュータ端末を識別する端末識別情報といったものも含まれることとする。これに限らず、特定の対象を指し示す情報であればいかなるものでもよい。
【0014】
本発明の正式名称判定システムにおける判定部は更に、候補名称を単語に分割する手段と、単語中に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する手段と、を有するという構成としてもよい。
【0015】
上記のように構成することにより、略称を生成する際の一般的な傾向を利用して判定することができるため、正式名称の判定精度を向上させることができる。略称を生成する際の一般的な傾向には、例えば、「単語を構成する文字情報のうち、前の方の文字情報を優先的につなげて略称が生成されることが多い」といったものが考えられる。
【0016】
本発明の正式名称判定システムは更に、予め定めた文字情報を特別文字情報として記憶する特別文字情報記憶部を備え、判定部は、候補名称中に含まれている特別文字情報に応じて、略称に対応する正式名称を判定する、という構成としてもよい。
【0017】
上記のように構成することにより、略称を生成する際によく使用される文字情報を利用して判定することができるため、正式名称の判定精度を向上させることができる。
【0018】
本発明における特別文字情報とは、略称を生成する際によく使用される文字として予め登録しておいた文字情報のことをいう。具体的には、東・西・南・北などの方角を示す文字や一・二・三などの順番を示す文字など、特定の対象を他の対象と区別する際に慣用的に用いられる情報のことをいう。これに限らず、特定の対象を区別する際に用いられる文字であればいかなるものでもよい。
【0019】
また、本発明のプログラムを端末に読み込ませて実行することで、上述の本発明を実現させることも可能である。つまり、固有名詞を示す情報を記憶する固有名詞記憶部を備える正式名称判定システムのための正式名称判定プログラムであって、文書データ中から固有名詞の略称を取得する略称取得機能と、固有名詞記憶部から略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出機能と、候補名称に含まれている略称を構成する文字情報の位置に応じて、略称に対応する正式名称を判定する判定機能と、をコンピュータに実現させる正式名称判定プログラムとして構成してもよい。
【0020】
この正式名称判定プログラムも、上述の正式名称判定システムと同様の作用効果を伴うものであり、上述した種々の特徴構成を備えることもできる。
【発明の効果】
【0021】
上述のように構成された本発明によれば、略称を構成する文字情報の有無から候補名称を抽出し、さらに略称を構成する文字情報が候補名称中のどの位置に含まれているかに応じて、略称に対応する正式名称を判定することができる。これにより、予め定められた一定の略称生成ルールのようなものが存在しない場合であっても、対応する正式名称の判定を行うことが可能になるという効果を得ることができる。
【図面の簡単な説明】
【0022】
【図1】本発明のシステム構成の一例を示す概念図。
【図2】本発明の端末のハードウェア構成の一例を示す概念図。
【図3】本発明の実施例1におけるシステム構成の一例を示す機能ブロック図。
【図4】本発明における処理プロセスの一例を示すフローチャート。
【図5】本発明の読取装置が読み取る原稿の一例を示す図。
【図6】本発明において固有名詞として記憶されている情報の一例を示す図。
【図7】本発明の端末の表示装置で表示する画像の一例を示すイメージ図。
【図8】本発明の端末の表示装置で表示する画像の一例を示すイメージ図。
【図9】本発明の実施例1における処理内容の一例を示すイメージ図。
【図10】本発明の文字位置に基づいて設定されたポイントの一例を示す図。
【図11】本発明の単語内の文字位置に基づいて設定されたポイントの一例を示す図。
【図12】本発明の単語の位置に基づいて設定されたポイントの一例を示す図。
【図13】本発明の実施例2におけるシステム構成の一例を示す機能ブロック図。
【図14】本発明において特別文字情報として記憶されている情報の一例を示す図。
【図15】本発明の実施例3におけるシステム構成の一例を示す機能ブロック図。
【図16】本発明の実施例4におけるシステム構成の一例を示す概念図。
【図17】本発明の実施例4におけるシステム構成の一例を示す機能ブロック図。
【発明を実施するための形態】
【実施例1】
【0023】
〔実施例1−構成〕
以下、図面を用いて本発明の実施形態を説明する。図1は、本発明の正式名称判定システムの全体構成の一例を概念的に示す。本発明は図1に示すように、コンピュータ端末A(以下、「端末A」という)が、読取装置Bと直接接続又はネットワークNを介して接続されるという形で構成されている。端末Aと読取装置Bとの接続形式は、直接接続でもネットワークNを介した接続でも、そのどちらであっても構わない。
【0024】
読取装置Bは、情報を読み取るための入力装置である。具体的には、原稿から写真や図形などを光学的に読み取り、画像データとしてコンピュータ端末に転送するスキャナーがある。他にも、原稿の文字に光を当てて反射光を読み取るOCR等があるが、これらに限らず、読み取った情報をデータ化して端末に転送する装置であれば、いかなるものであってもよい。
【0025】
ネットワークNは、企業や学校等の限られた施設内において情報を物理的に送るケーブルと、LANスイッチやハブ等でなる中継機器を備えたCSMA/CD(Carrier Sense Multiple Access With Collision Detection)方式のイーサネット(Ethernet)(商標)型のLANとして構成されたものであるが、このネットワークNとしてイーサネット型のLAN以外に、インターネットの技術を用いたイントラネットで構築されたものや、WAN(Wide Area Network)の技術によって構築されるものでもよい。
【0026】
図2は、端末Aのハードウェア構成の一例を概念的に示す。
【0027】
端末Aは、プログラムの演算処理を実行するCPU等の演算装置1と、情報を記憶するRAMやハードディスク等の記憶装置2と、演算装置1の処理結果や記憶装置2に記憶する情報を直接接続された機器又はインターネットやLAN等のネットワークを介して送受信する通信装置3と、キーボード、マウス又はテンキー等の入力装置4と、ディスプレイ(画面)等の表示装置5とを少なくとも有している。
【0028】
端末A上で実現する各機能(各手段)は、その処理を実行する手段(プログラムやモジュール等)が演算装置1に読み込まれることでその処理が実行される。各機能は、記憶装置2に記憶した情報をその処理において使用する場合には、該当する情報を当該記憶装置2から読み出し、読み出した情報を適宜、演算装置1における処理に用いる。
【0029】
図3は、本発明の正式名称判定システムを構成する端末Aと読取装置Bとの機能ブロック図を示す。本発明における各構成部及び各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上同一の領域を為していてもよい。
【0030】
また、図3は、本発明において必要となる最小限度の機器、構成及び手段等のみを記載しており、その他の機器、構成部及び手段等についてはその記載を省略する。
【0031】
端末Aは、取得したデータから文書を構成する一連の文字情報を認識して文書データとして取得する文字情報認識部11、取得した文書データから固有名詞の略称を抽出して取得する略称取得部12、複数の固有名詞の名称情報を記憶する固有名詞記憶部13、取得した略称を構成する文字情報を含む固有名詞を抽出する候補名称抽出部14、抽出した候補名称に含まれている略称を構成する文字情報の位置に応じて正式名称を判定する判定部15、判定した結果に応じて制御を行う制御部16、を備えている。
【0032】
読取装置Bは、原稿に記載された情報を読み取る読取部23、読み取った情報を元にデータを生成するデータ生成部22、生成したデータを端末Aに送信する通信部21、を備えている。
【0033】
以下、図3に記載した本発明を構成する機能ブロック図に基づいて、各構成部の動作について説明する。
【0034】
読取部23は、ユーザの操作に応じて、紙等の原稿に記載された文章・図表等の情報を光学的に読み取り、読み取った情報をデータ生成部22に送信する。データ生成部22は、受信した情報を基にデータ化を行う。
【0035】
上記のデータとは、読み取った情報をコンピュータ端末が認識できる形式に変換したもののことをいい、画像データや文字データなど様々な形式があるが、コンピュータ端末が認識できるものあればその形式は問わない。
【0036】
通信部21は、データ生成部22によって生成されたデータを、接続している端末Aに対して送信する。
【0037】
文字情報認識部11は、接続されている読取装置Bから通信装置3を介してデータを取得する。さらに、取得したデータから文書を構成する一連の文字情報を認識手段により認識して文書データを生成し、生成した文書データを略称取得部12に送信する。
【0038】
上記のほか、文字情報認識部11は、通信装置3を介して取得したデータ全てに対して文書データを生成するのではなく、取得したデータのうち、入力装置4によって指定された特定のデータについてのみ文書データを生成し、生成した文書データを略称取得部12に送信するという構成としてもよい。また、読取装置Bから文書データを取得する以外に、すでに文書データとなったデータを略称取得部12に送信することも当然に可能である。
【0039】
略称取得部12は、文字情報認識部11から受け取った文書データの内容を解析し、文書データ内に含まれている固有名詞の略称を抽出して取得し、候補名称抽出部14に送信する。略称の抽出方法は様々なものを用いることができる。例えば、(1)所定領域の情報を全て略称として抽出する方法、(2)特定の文字情報を含む一連の文字情報を略称として抽出する方法、(3)特定の条件に当てはまる一連の文字情報を略称として抽出する方法、という三つの方法が考えられる。
【0040】
〔略称の抽出方法(1)〕
文書データの所定領域の情報を全て略称として抽出する方法について説明する。この方法は、予め文書データ内における所定領域を抽出対象領域として設定しておき、その領域に記載されている情報は全て略称として抽出するという方法である。例えば、図5「連絡先一覧表」のような、予めフォーマットが定められ、特定の箇所(「所属学校」の欄)に固有名詞が列挙されることが決まっているような原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
【0041】
〔略称の抽出方法(2)〕
文書データの内容を解析し、特定の文字情報を含む一連の文字情報を略称として抽出する方法について説明する。この方法は、受け取った文書データを一連の文字情報に分割し、分割したそれぞれの一連の文字情報の中に予め登録しておいた略称を示す文字情報(例えば、「校」・「社」・「線」など)が含まれているか否かを判定し、含まれている一連の文字情報を略称として抽出するという方法である。特に、学校名や会社名など慣用的に略されることが多い固有名詞を含む原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
【0042】
〔略称の抽出方法(3)〕
文書データの内容を解析し、特定の条件に当てはまる一連の文字情報を略称として抽出する方法について説明する。この方法は、受け取った文書データを単語に分割し、分割したそれぞれの一連の文字情報が予め登録しておいた条件(例えば、「漢字四字の名詞」などといった条件)を満たすかどうかを判定し、条件を満たした一連の文字情報を略称として抽出するという方法である。特に、どういった略称が含まれるか予測ができない原稿や、多様な固有名詞が含まれる可能性のある原稿を読み取って本発明を動作させる場合、この方法を用いると好適である。
【0043】
上述の略称の抽出方法(1)から(3)について、いずれか一つの方法で抽出された略称を取得してもよいが、複数の方法の組み合わせによって抽出された略称を取得するとしてもよい。例えば、略称の抽出方法(1)から(3)を組み合わせて、文書データの所定領域に含まれる情報で、「校」という文字情報を含み、漢字四字で構成されている一連の文字情報を略称として抽出するということができる。
【0044】
固有名詞記憶部13は、予め登録された複数の固有名詞を記憶する。この固有名詞については、正式名称を判定したい分野に関する固有名詞を選択して登録しておいてもよいし、各種分野における固有名詞を広く登録しておいてもよい。例えば、本システムを学校名の正式名称判定に使用する場合には、学校の正式名称を事前に登録しておくとよい。また、各種分野における固有名詞を広く登録する場合には、インターネットの各種サイト等から固有名詞を選択して取得し、データベース化して記憶しておくなどの方法も考えられる。
【0045】
候補名称抽出部14は、略称取得部12から取得した略称に基づき、その略称を構成する文字情報(以下、「略称構成文字情報」という)を含む固有名詞を、固有名詞記憶部13から候補名称として抽出し、判定部15に送信する。略称構成文字情報を含む固有名詞が複数ある場合には、複数の固有名詞をそれぞれ候補名称として判定部15に送信する。
【0046】
上記の候補名称の抽出について、例えば、本システムを学校名の正式名称判定に使用する場合には、取得した略称が「明学小」だった場合、略称構成文字情報「小」を含むことから小学校の名称に対する略称であると判定し、固有名詞記憶部13に記憶しておいた小学校の正式名称を全て候補名称として抽出するという方法が考えられる。
【0047】
また、上記の候補名称の抽出において、略称または固有名詞に旧漢字が使用されていた場合については、同じの意味内容を示す旧漢字と新漢字は予め同一の文字であると関連付けておき、旧漢字に対応する新漢字(又は新漢字に対応する旧漢字)を含む固有名詞を全て抽出するとしておくとよい。
【0048】
判定部15は、略称取得部12から受け取った略称と、候補名称抽出部14から受け取った候補名称とを比較して、略称に対応する正式名称の可能性を判定し、判定結果を制御部16に送信する。
【0049】
上記の正式名称の判定は、候補名称中に含まれる略称構成文字情報の位置を利用して行われ、その判定には様々な方法を用いることができる。例えば、(1)所定位置における略称構成文字情報の有無で判定する方法、(2)略称構成文字情報の位置に応じた重要度で判定する方法、(3)単語中における略称構成文字情報の位置に応じた重要度で判定する方法、(4)略称構成文字情報を含む単語の位置に応じた重要度で判定する方法、という四つの方法が考えられる。
【0050】
〔正式名称の判定方法(1)〕
候補名称中において、所定位置における略称構成文字情報の有無で判定する方法について説明する。この方法は、略称における一文字目の略称構成文字情報が候補名名称中のどの位置に含まれているかを判定し、その位置と予め定められている所定位置とを比較することによって、その候補名称が正式名称である可能性を判定するという方法である。例えば、所定位置が「一文字目」と定められている場合であれば、まず、各候補名称中に含まれている略称構成文字情報の位置を抽出する。そして、その位置が所定位置の「一文字目」である候補名称を特定し、当該候補名称を正式名称である可能性が高いと判定する。
【0051】
〔正式名称の判定方法(2)〕
候補名称中において、略称構成文字情報の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称と略称構成文字情報とを比較し、一致する文字情報の位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が5文字で構成されており、その1文字目と3文字目が略称構成文字情報と一致した場合、1文字目と3文字目に対応するポイントの合計を算出し、その算出した値に応じて正式名称である可能性を判定する。
【0052】
〔正式名称の判定方法(3)〕
候補名称を単語に分割し、その分割した単語中における略称構成文字情報の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称を単語に分割する。そして、候補名称と略称構成文字情報とを比較し、一致する文字情報の単語中における位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が二つの単語で構成されており、それぞれの単語中の1文字目が略称構成文字情報と一致した場合、各単語の1文字目に対応するポイントの合計を算出し、その算出した値に応じて正式名称である可能性を判定する。
【0053】
〔正式名称の判定方法(4)〕
候補名称を単語に分割し、略称構成文字情報を含んだ単語の位置に応じた重要度で判定する方法について説明する。ここでは、重要度として重要性に応じたポイントを設定し、その設定されたポイントを用いて判定する方法について説明する。この方法は、予め位置に応じたポイントを設定しており、候補名称を単語に分割する。そして、候補名称と略称構成文字情報とを比較し、一致する文字情報を含む単語の位置を特定する。そして、特定した位置に対応したポイントの合計値に応じて、その候補名称が正式名称である可能性を判定するという方法である。例えば、候補名称が二つの単語で構成されており、それぞれの単語中に略称構成も自我含まれていた場合、各単語の位置に対応するポイントの合計値を算出し、その算出した値に応じて正式名称である可能性を判定する。
【0054】
上述の正式名称の判定方法(1)から(4)について、いずれか一つの方法で正式名称の可能性を判定しても良いし、複数の方法の組み合わせによって判定するようにしてもかまわない。
【0055】
制御部16は、判定部15から受け取った判定結果に基づいて各種制御を行い、端末Aの表示装置5にその結果を表示させる。
【0056】
上記の制御とは、例えば、判定部15から受け取った判定結果において正式名称である可能性が一番高い候補名称を正式名称であると特定し、読取装置Bから取得したデータを端末Aの表示装置5で表示させる際に、略称を当該判定した正式名称に変換して表示装置5に表示させるという制御が考えられる。
【0057】
その他、略称を正式名称に変換せず、候補名称とその候補名称が正式名称である可能性をそのまま表示装置5に表示させるという制御も考えられる。例えば、判定部15から候補名称とその候補名称が正式名称である可能性を示す値を受け取り、表示装置5上において、略称の箇所に変換候補として、正式名称である可能性が高いものから順に、候補名称をランキング表示させるという制御を行ってもよい。
【0058】
〔実施例1−処理プロセス(1)〕
次に、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、以下の説明では学校教育分野における学校名の略称とそれに対応する正式名称を判定する場合を例に説明する。また、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用い、正式名称の判定方法では、(1)所定位置における略称構成文字情報の有無で判定する方法を用いた場合について説明する。
【0059】
読取装置Bのデータ生成部22は、読取部23が読み取った原稿の情報を取得し、データを生成して通信部21に渡す。通信部21は受け取ったデータを端末Aに送信する。読取部23が読み取った原稿の一例を図5に示す。
【0060】
端末Aの通信装置3は、接続されている読取装置Bからデータを取得する(S101)。そして、取得したデータを端末A内の文字情報認識部11に送信する。
【0061】
文字情報認識部11は、通信装置3から受け取ったデータから、原稿「連絡先一覧表」を構成する一連の文字情報を認識手段により認識して文書データを生成する(S102)。本実施例で説明すると、原稿「連絡先一覧表」を構成する文字情報を認識して文書データを生成する。そして、生成した文書データを略称取得部12に送信する。
【0062】
略称取得部12は、文字情報認識部11から受け取った文書データのうち、予め定められた所定の位置(又は項目等)に記載されている一連の文字情報を、略称として抽出する(S103)。本実施例で説明すると、原稿「連絡先一覧表」を構成する文書データのうち、所定の位置「所属学校」の列に記載されている一連の文字情報を、略称としてそれぞれ抽出する。以下、本実施例では、略称として「明学小」を抽出した場合について説明する。
【0063】
固有名詞記憶部13は、予め登録された複数の固有名詞を記憶する。本実施例においては、小学校の正式名称が固有名詞として予め記憶されているものとする。固有名詞記憶部13に記憶されている情報の一例を図6に示す。
【0064】
候補名称抽出部14は、略称取得部12から取得した略称の略称構成文字情報を含む固有名詞を、固有名詞記憶部13から候補名称として抽出する(S104)。そして、抽出した候補名称を判定部15に送信する。
【0065】
上記の処理を本実施例で説明する。まず、候補名称抽出部14は、略称構成文字情報「明」・「学」・「小」のうち二つ以上の略称構成文字情報を含む固有名詞を固有名詞記憶部13から取得する。次に、固有名詞記憶部13に記憶されている情報が図6の通りであった場合、候補名称抽出部14は、第一候補名称「大阪市立高明東小学校」・第二候補名称「私立明治学園付属小学校」・第候補名称「私立清明大学付属小学校」の三つの候補名称を抽出する。
【0066】
上記の候補名称の抽出方法以外に、略称構成文字情報を一文字でも有する固有名詞であれば全て抽出するという方法を用いても良い。例えば、略称の最後に略称構成文字情報「小」を含む略称は小学校を示すと判定し、小学校の正式名称を示す固有名詞であれば全て候補名称として抽出するとしてもよい。この方法を用いることにより、固有名詞記憶部13に小学校以外の正式名称(例えば、中学校、高等学校又は専門学校など)が記憶されていた場合にも対応することが可能となる。
【0067】
判定部15は、候補名称抽出部14から受け取った候補名称中において、予め定めた所定位置に略称取得部12から受け取った略称の一文字目の略称構成文字情報が含まれているか否かによって、正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0068】
上記の処理を具体的に説明する。まず、ユーザによって予め設定された比較条件を判定部15が読み取る。ここでは、比較条件として所定位置が「一文字目」と設定されていたとする。さらに、この判定の際に、「大阪市立」・「私立」・「小学校」といった定型文字情報は判定対象に含まないという判定除外設定も併せて行っておくと好適である。本実施例では、この判定除外設定も行っておくものとする。
【0069】
上記の除外文字設定について、例えば、「私立」・「府立」・「県立」・「市立」・「町立」といった文字情報を除外特定文字情報として、予め除外特定文字情報記憶部(図示せず)に記憶しておき、除外特定文字情報より前に記載されている文字情報を全て判定対象に含まないという判定除外設定を行うと好適である。この方法を用いることにより、「大阪府立」や「兵庫県立」といった判定に必要ない文字情報を効率的に除外することが可能となる。
【0070】
また、「小学校」・「中学校」・「高等学校」のような、各候補名称に共通して含まれているような文字情報については、予め除外特定文字情報として除外特定文字情報記憶部(図示せず)に記憶しておいても良い。この方法を用いることにより、本発明の正式名称判定システムにおける処理速度を向上させることが可能となる。
【0071】
次に、判定部15は、候補名称抽出部14から受け取った三つの候補名称において、その判定対象中において略称構成文字情報「明」が含まれている位置を判定する。第一候補名称「大阪市立高明東小学校」の場合、判定除外設定を行った後の判定対象は「高明東」であり、略称構成文字情報「明」の含まれている位置は二文字目と判定する。同様に、第二候補名称「私立明治学園付属小学校」の場合、判定対象は「明治学園付属」であり、略称構成文字情報「明」の含まれている位置は一文字目と判定する。さらに、第三候補名称「私立清明大学付属小学校」の場合、判定対象は「清明大学付属」であり、略称構成文字情報「明」の含まれている位置は二文字目と判定する。
【0072】
そして、判定部15は、略称構成文字情報が候補名称中に含まれている位置と、予め定めておいた所定位置とを比較し、一致した候補名称を正式名称である可能性が高いと判定する。本実施例の場合、第二候補名称において略称構成文字情報が含まれている位置(一文字目)と、予め定められた所定位置である「一文字目」とが一致しているため、第二候補名称「私立明治学園付属小学校」が略称に対応する正式名称である可能性が高いと判定する。判定部15は、この判定結果を制御部16に送信する。
【0073】
制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。
【0074】
上記の処理を具体的に説明する。制御部16は、判定部15の結果に基づき、正式名称である可能性が一番高い第二候補名称「私立明治学園付属小学校」を正式名称であると特定する。さらに、文書データ中において略称「明学小」に対応する箇所を、正式名称「私立明治学園付属小学校」に変換する。
【0075】
さらに、制御部16は、本発明の正式名称判定システムにおいて処理されたほかの略称に対する情報を取得し、同様に上記の処理を他の略称に対しても行うことによって、取得した文書データを自動的に再編集した上で表示装置5に表示させる。表示装置5における表示の一例を図7に示す。
【0076】
上記以外の制御として、制御部16は、略称を正式名称に変換せず、判定部15において判定された正式名称である可能性に基づいて、候補名称を略称の変換候補としてランキング形式で表示させるという制御も考えられる。本実施例で説明すると、正式名称である可能性が一番高い候補名称は第二候補名称「私立明治学園付属小学校」であるので、変換候補の最上位に表示し、残りの候補名称をそれに続く形で表示させるという形になる。本制御による表示装置5における表示の一例を図8に示す。
【0077】
上述の実施形態とすることにより、判定要素として利用するのは略称を構成する文字情報のみであっても、対応する正式名称を判定することが可能となる。
【0078】
上述の実施形態では、判定部15における比較条件として、所定位置を「一文字目」と設定された場合について説明したが、それ以外にも、「予め定めた文字情報の直後」としたり、「予め定めた文字情報の直前」としたりする方法も考えられる。また、予め定められた文字情報の直前・直後の一文字だけで判定するのではなく、予め定められた文字情報の直前・直後の「連続する文字情報の一致」によって判定する方法も可能である。これらの処理について、以下に詳細に説明する。
【0079】
所定位置を「予め定めた文字情報の直後」とする方法については、例えば、学校名「私立青山大学付属西岡小学校」という正式名称の場合、略称として「西岡小」というように、「付属」の直後に続く文字情報を用いて略称を生成するということもある。このような場合には、予め定める文字情報を「付属」とすることによって、略称構成文字情報と正式名称「付属」の直後に続く文字情報とを比較して、正式名称か否かの判定を行うことができ好適である。
【0080】
所定位置を「予め定めた文字情報の直前」とする方法については、例えば、学校名「大東市立大山城西小学校」という正式名称の場合、略称として「城西小」というように、「小学校」の直前の文字情報を用いて略称を生成するということもある。このような場合には、予め定める文字情報「小学校」とすることによって、略称構成文字情報と正式名称「小学校」の直前の文字情報とを比較して、正式名称か否かの判定を行うことができ好適である。
【0081】
また、「連続する文字情報の一致」によって判定する方法については、例えば、上述の学校名「私立青山大学付属西岡小学校」と略称「西岡小」を判定する場合であれば、予め定められた文字情報「付属」の後に続く連続した文字情報が、略称を構成する連続した略称構成文字情報と一致するかを判定することによって、正式名称か否かの判定を行うことができる。上述の学校名「大東市立大山城西小学校」と略称「城西小」の場合であっても同様の処理を行うことができる。処理内容のイメージを図9に示す。
【0082】
〔実施例1−処理プロセス(2)〕
次に、正式名称の判定方法について、(2)略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
【0083】
図4のフローチャートにおける(S101)から(S104)の動作については〔実施例1−処理プロセス(1)〕と同様のため、その説明を省略する。
【0084】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称中においてどの位置に含まれているかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0085】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図10に示す。
【0086】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0087】
そして、判定部15は、候補名称抽出部14から受け取った各候補名称に対して、何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。
【0088】
上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、略称構成文字情報「明」が判定対象文字中の2文字目に含まれているので、ポイントは「35」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、略称構成文字情報「明」が判定対象文字中の1文字目に含まれており、さらに、略称構成文字情報「学」が判定対象文字中の3文字目に含まれているため、合計ポイントは「40+30」で「70」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、略称構成文字情報「明」が判定対象文字中の2文字目、略称構成文字情報「学」が判定対象文字中の4文字目に含まれているため、合計ポイントは「35+25」で「60」となる。
【0089】
上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、70ポイントの第二候補名称「私立明治学園付属小学校」、次いで正式名称である可能性があるのは、60ポイントの第三候補名称「私立清明大学付属小学校」、最後に正式名称である可能性が一番低いのは、35ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。そして、導き出した判定結果を制御部16に送信する。
【0090】
制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。制御の内容については、〔実施例1−処理プロセス(1)〕と同様である。
【0091】
上記以外の本実施例特有の制御として、制御部16は、略称を正式名称に変換せず、判定部15において判定された正式名称である可能性に基づいて、候補名称を略称の変換候補として、判定部15で算出したポイントと併せてランキング形式で表示させるという制御を行ってもよい。
【0092】
上述の実施形態とすることにより、予め比較条件などを特に設定する必要もなく正式名称判定を行うことができ、さらに、各候補名称について、略称に対応する正式名称である可能性をより詳細に把握することが可能となる。
【0093】
〔実施例1−処理プロセス(3)〕
次に、正式名称の判定方法について、(3)単語中における略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
【0094】
図4のフローチャートにおける(S101)から(S104)、並びに(S106)の動作については〔実施例1−処理プロセス(1)〕及び〔実施例1−処理プロセス(2)〕と同様のため、その説明を省略する。
【0095】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称を単語に分割した各単語中においてどの位置に含まれているかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0096】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図11に示す。
【0097】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0098】
そして、判定部15は、候補名称抽出部14から受け取った候補名称の判定対象となる文字を単語に分割する。続いて、分割した単語中において何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。
【0099】
上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、判定対象となる文字を単語に分割すると「高明」・「東」となる。次に、分割した各単語に対して略称構成文字情報を含んでいるか否かの判定を行う。この場合、略称構成文字情報「明」が最初の単語の2文字目に含まれているので、ポイントは「20」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、判定対象となる文字を単語に分割すると「明治」・「学園」・「付属」となる。この場合、略称構成文字情報「明」が最初の単語の1文字目に含まれ、略称構成文字情報「学」が2番目の単語の1文字目に含まれているので、合計ポイントは「40+40」で「80」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、判定対象となる文字を単語に分割すると「清明」・「大学」・「付属」となる。この場合、略称構成文字情報「明」が最初の単語の2文字目に含まれ、略称構成文字情報「学」が2番目の単語の2文字目に含まれているので、合計ポイントは「20+20」で「40」となる。
【0100】
上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、80ポイントの第二候補名称「私立明治学園付属小学校」、次いで正式名称である可能性があるのは、40ポイントの第三候補名称「私立清明大学付属小学校」、最後に正式名称である可能性が一番低いのは、20ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。導き出した判定結果は、制御部16に送信する。
【0101】
上述の実施形態とすることにより、「単語を構成する先頭の文字情報をつなげて略称が生成されることが多い」というような、略称を生成する際の一般的な傾向を利用した判定を行うことができ、正式名称の判定精度を向上させることができる。
【0102】
〔実施例1−処理プロセス(4)〕
次に、正式名称の判定方法について、(4)略称構成文字情報を含んだ単語の位置に応じたポイントで判定する方法を用いた場合における、本発明の正式名称判定システムにおける処理プロセスの一例を、図3の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用いるものとする。
【0103】
図4のフローチャートにおける(S101)から(S104)、並びに(S106)の動作については〔実施例1−処理プロセス(1)〕及び〔実施例1−処理プロセス(2)〕と同様のため、その説明を省略する。
【0104】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称を単語に分割した各単語中においてどの単語の中に含まれているかを特定する。また、特定した単語が候補名称中において何番目の位置にあるかによってポイントを算出し、算出したポイントに応じて正式名称である可能性を判定する(S105)。そして、判定した結果を制御部16に送信する。
【0105】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、単語位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字を有する単語の位置に応じてポイントが予め定められている。単語位置ポイントテーブルに記憶されている情報の一例を図12に示す。
【0106】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0107】
そして、判定部15は、候補名称抽出部14から受け取った候補名称の判定対象となる文字を単語に分割する。続いて、略称構成文字情報を含んでいる単語を特定し、その単語が判定対象中の何番目に位置しているのかを判定し、前述の単語位置ポイントテーブル(図示せず)から、判定した単語の位置に対応するポイントを抽出し、名称毎に合計ポイントを算出する。
【0108】
上記の処理を具体的に説明する。まず、第一候補名称「大阪市立高明東小学校」の場合、判定対象となる文字を単語に分割すると「高明」・「東」となる。次に、略称構成文字情報を含んでいる単語の位置の判定を行う。この場合、略称構成文字情報「明」が1単語目に含まれているので、ポイントは「40」となる。次に、第二候補名称「私立明治学園付属小学校」の場合、判定対象となる文字を単語に分割すると「明治」・「学園」・「付属」となる。この場合、略称構成文字情報「明」が1単語目に含まれ、略称構成文字情報「学」が2単語目に含まれているので、合計ポイントは「40+40」で「80」となる。同様に、第三候補名称「私立清明大学付属小学校」の場合、判定対象となる文字を単語に分割すると「清明」・「大学」・「付属」となる。この場合、略称構成文字情報「明」が1単語目に含まれ、略称構成文字情報「学」が2単語目に含まれているので、合計ポイントは「40+40」で「80」となる。
【0109】
上記の処理の結果、判定部15は、略称に対応する正式名称である可能性が高い候補名称は、80ポイントの第二候補名称「私立明治学園付属小学校」と第三候補名称「私立清明大学付属小学校」、正式名称である可能性が低いのは、20ポイントの第一候補名称「大阪市立高明東小学校」であるとする判定結果を導き出す。導き出した判定結果は、制御部16に送信する。
【0110】
上述の実施形態とすることにより、「各単語に含まれる文字情報抽出して略称が生成されることが多い」というような、略称を生成する際の一般的な傾向を利用した判定を行うことができる。
【実施例2】
【0111】
〔実施例2−構成〕
次に、図13の機能ブロック図を用いて、本発明の正式名称判定システムの第2実施形態を説明する。なお、実施例1と同じ構成部には同一の符号を付している。さらに、その同一構成部に関して同一の動作を行う場合は、その詳細な説明を省略する。
【0112】
本発明の正式名称判定システムの第2実施形態は、端末Aの内部に、予め定められた特別文字情報を記憶しておく特別文字情報記憶部17を備えているという点において、実施例1の実施形態と異なっている。
【0113】
本実施例では、実施例1のように候補名称中に含まれている略称構成文字情報の位置に応じて判定することに加えて、予め定められた特別文字情報が候補名称中に含まれているかという要素も加味して判定を行うという点に特徴がある。
【0114】
以下、各構成部の動作について説明する。なお、実施例1と同様の構成部又は動作については、その詳細な説明を省略する。
【0115】
特別文字情報記憶部17は、予め登録された複数の特別文字情報を記憶する。この特別文字情報とは、略称を生成する際に一般的によく用いられる文字情報のことである。例えば、「東」・「西」・「南」・「北」等の方角を示す文字情報や、「一」・「二」・「三」等の数字を示す文字情報などがある。また、特別文字情報は必ずしも一文字とは限らず、二文字以上で構成される一連の文字情報を特別文字情報として記憶するという形式でもよい。
【0116】
判定部15は、略称取得部12から受け取った略称中に、特別文字情報記憶部17に記憶された特別文字情報が含まれているかどうかを検索する。検索の結果、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように判定結果を補正する。そして、判定部15は、この補正が加えられた判定結果を制御部16に送信する。
【0117】
〔実施例2−処理プロセス〕
次に、本発明の正式名称判定システムにおける処理プロセスの一例を、図13の機能ブロック図及び図4のフローチャート等を用いて説明する。なお、以下の説明では教育分野における学校名の名称とそれに対応する正式名称を判定する場合を例に説明する。また、略称の抽出方法では、(1)所定領域の情報を全て略称として抽出する方法を用い、正式名称の判定方法では、(2)略称構成文字情報の位置に応じたポイントで判定する方法を用いた場合について説明する。
【0118】
図4のフローチャートにおける(S101)から(S104)の動作については〔実施例1−処理プロセス(1)〕と同様のため、その説明を省略する。以下、本実施例では、原稿「連絡先一覧表」を構成する文書データのうち、所定の位置「所属学校」の列に記載されている一連の文字情報のうち、略称として「教学三小」を抽出した場合について説明する。
【0119】
候補名称抽出部14は、略称取得部12から取得した略称の略称構成文字情報を含む固有名詞を、固有名詞記憶部13から候補名称として抽出する(S104)。そして、抽出した候補名称を判定部15に送信する。
【0120】
上記の処理を本実施例で説明する。まず、候補名称抽出部14は、略称構成文字情報「教」・「学」・「三」・「小」を二つ以上含む固有名詞を固有名詞記憶部13から取得する。次に、固有名詞記憶部13に記憶されている情報が図6の通りであった場合、候補名称抽出部14は、第一候補名称「私立教育大学付属第三小学校」・第二候補名称「私立教生学園小学校」の二つの候補名称を抽出する。
【0121】
判定部15は、略称取得部12から受け取った略称の略称構成文字情報が、候補名称抽出部14から受け取った候補名称中においてどの位置に含まれているかによってポイントを算出する。さらに、略称の中に特別文字情報記憶部17に記憶した特別文字情報が含まれているかを検索し、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように算出したポイントを補正する。そして、補正されたポイントに応じて正式名称である可能性を判定し(S105)、判定結果を制御部16に送信する。
【0122】
上記の処理を本実施例で説明する。まず、本発明の正式名称判定システムは、文字位置ポイントテーブル(図示せず)を有しており、候補名称において判定対象となる文字の位置に応じてポイントが予め定められている。文字位置ポイントテーブルに記憶されている情報の一例を図10に示す。
【0123】
次に、判定部15における比較条件を設定する。ここでは、比較条件として「大阪市立」・「私立」・「小学校」といった定型文字は判定対象に含まないという判定除外文字設定も併せて行っておくと好適である。本実施例では、この判定除外文字設定を行うものとする。
【0124】
そして、判定部15は、候補名称抽出部14から受け取った各候補名称に対して、何文字目に略称構成文字情報が含まれているかを判定し、前述の文字位置ポイントテーブル(図示せず)から、判定した文字数に対応するポイントを抽出し、候補名称毎に合計ポイントを算出する。
【0125】
上記の処理を具体的に説明する。まず、第一候補名称「私立教育大学付属第三小学校」の場合、略称構成文字情報「教」が判定対象文字中の1文字目に含まれており、略称構成文字情報「学」が判定対象文字中の4文字目に含まれており、略称構成文字情報「三」が判定対象文字中の8文字目に含まれているため、合計ポイントは「40+25+5」で「70」となる。同様に、第二候補名称「私立教生学園小学校」の場合、略称構成文字情報「教」が判定対象文字中の1文字目、略称構成文字情報「学」が判定対象文字中の3文字目に含まれているため、合計ポイントは「40+30」で「70」となる。
【0126】
次に、判定部15は、略称取得部12から受け取った略称中に特別文字情報記憶部17に記憶された特別文字情報が含まれているかどうかを検索する。特別文字情報記憶部17に記憶されている情報の一例を、図14に示す。そして、特別文字情報が略称中から検出された場合、その検出された特別文字情報を含んでいる候補名称の正式名称である可能性が高くなるように、算出したポイントに対して補正を加える。
【0127】
上記の処理を具体的に説明する。まず、略称「教学三小」の中に特別文字情報が含まれているかどうかを検索すると、特別文字情報「三」が含まれていることが検出される。そして、この特別文字情報「三」を含んでいるのは第一候補名称「私立教育大学付属第三小学校」であるので、第一候補名称のポイントに補正ポイントを加える。ここでは、補正ポイント「30」を加えることとする。この補正を行った結果、第一候補名称「私立教育大学付属第三小学校」の合計ポイントは、「40+25+5+30」で「100」となる。
【0128】
上記の補正処理の結果、判定部15は、略称に対応する正式名称である可能性が一番高い候補名称は、100ポイントの第一候補名称「私立教育大学付属第三小学校」、次いで正式名称である可能性があるのは、70ポイントの第二候補名称「私立教生学園小学校」であるとする判定結果を導き出す。そして、導き出した判定結果を制御部16に送信する。
【0129】
制御部16は、判定部15から受け取った判定結果に基づいて制御を行い、端末Aの表示装置5にその結果を表示させる(S106)。制御の内容については、〔実施例1−処理プロセス(1)〕と同様である。
【0130】
上述の実施形態とすることにより、一般的に略称に用いられる傾向が高い文字情報を、正式名称判定の要素に組み込むことにより、より精度の高い正式名称判定を実現することができる。
【実施例3】
【0131】
次に、図15の機能ブロック図を用いて、本発明の正式名称判定システムの第3実施形態を説明する。なお、実施例1と同じ構成部には同一の符号を付している。
【0132】
本発明の正式名称判定システムの第3実施形態は、端末Aの通信装置3と読取装置Bとを必要としないという点において、実施例1の実施形態と異なっている。
【0133】
本実施例では、実施例1のように読取装置Bによって原稿を読み取って取得したデータを用いるのではなく、表示装置5によって表示された内容から取得したデータを用いるという点に特徴がある。データの取得から文書データ生成までの処理以外は、実施例1と同様の処理が行われる。
【0134】
以下、文字情報認識部11の動作について説明する。なお、その他の構成部に関する動作及び処理フローは実施例1と同様のため、詳細な説明を省略する。
【0135】
文字情報認識部11は、表示装置5に表示された情報を取得し、取得した情報から文書を構成する一連の文字情報を認識手段により認識して文書データを生成し、生成した文書データを略称取得部12に送信する。
【0136】
上記の文書データ生成方法としては、様々な方法を用いることができる。例えば、(1)表示された全ての情報を取得する方法、(2)指定された範囲の情報を取得する方法、(3)指定された対象に関連する情報を取得する方法、(4)文字変換の対象となっている情報を取得する方法、という四つの方法が考えられる。また、上記の(2)と(3)の方法における範囲・対象を指定する方法については、予め定められた範囲・対象を自動的に指定するとしてもよいし、ユーザが任意の範囲・対象を指定するとしてもよい。
【0137】
〔文書データ生成方法(1)〕
表示装置5に表示された全ての情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報を画像データとして取得し、取得した画像データの中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している画像内の文字情報に関して、略称を全て正式名称に変換する場合、この方法を用いると好適である。
【0138】
〔文書データ生成方法(2)〕
表示装置5に表示された情報のうち、指定された範囲の情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが指定した範囲の中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している情報において、ユーザがマウス等の入力装置4を用いて指定した任意の範囲の文字情報に関して、その中に含まれている略称を正式名称に変換する場合、この方法を用いると好適である。
【0139】
〔文書データ生成方法(3)〕
表示装置5に表示された情報のうち、指定された対象に関連する情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが指定した対象が指し示すデータを検索し、その中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、端末Aのディスプレイで表示している情報において、ユーザがマウス等の入力装置4を用いて指定したファイルやフォルダ等を示すアイコンにおいて、そのアイコンが指し示すデータ内に含まれている文字情報に関して、略称を正式名称に変換する場合、この方法を用いると好適である。
【0140】
〔文書データ生成方法(4)〕
表示装置5に表示された情報のうち、文字変換の対象となっている情報を取得して文書データを生成する方法について説明する。この方法は、表示装置5に表示された情報のうち、ユーザが変換候補として指定した範囲の中から文書を構成する一連の文字情報を文書データとして抽出するという方法である。例えば、ユーザがキーボード等の入力装置4を用いて略称を直接入力し、ユーザが変換指示を行った際にその略称を正式名称に変換するという場合、この方法を用いると好適である。
【0141】
上述の文書データ生成方法(1)から(4)について、いずれか一つの方法で文書データを生成しても良いし、複数の方法の組み合わせによって文書データを生成するようにしてもかまわない。
【0142】
上述の実施形態とすることにより、スキャナー等の読取装置を用いない場合であっても、本発明の正式名称判定システムを実行させることが可能となる。
【実施例4】
【0143】
次に、図16及び図17を用いて、本発明の正式名称判定システムの第4実施形態について説明する。
【0144】
図16は、本発明の正式名称判定システムの第4実施形態における全体構成の一例を概念的に示す。本発明は図16に示すように、端末Aと読取装置Bとが直接接続され、端末Aと管理サーバCとがネットワークNを介して接続されるという形で構成されている。端末Aと読取装置Bとの接続形式は、直接接続でもネットワークNを介した接続でも、そのどちらであっても構わない。本発明は、このようなサーバ・クライアントシステム形式で構成することもできる。
【0145】
図17は、本発明の正式名称判定システムを構成する端末A、読取装置B及び管理サーバCの機能ブロック図を示す。本発明における各構成部及び各手段は、その機能が論理的に区別されているのみであって、物理上あるいは事実上同一の領域を為していてもよい。なお、実施例1と同様の処理を行う構成部には、実施例1と同一の符号を付している。
【0146】
端末Aは、ネットワークNを通じて管理サーバCと情報を送受信するネットワークI/F20、取得したデータから文書を構成する一連の文字情報を認識して文書データとして取得し管理サーバCに送信する文字情報認識部11、管理サーバCから受信した判定結果に応じて端末の制御を行う制御部16、を備えている。
【0147】
読取装置Bは、原稿に記載された情報を読み取る読取部23、読み取った情報を元にデータを生成するデータ生成部22、生成したデータを端末Aに送信する通信部21、を備えている。
【0148】
管理サーバCは、ネットワークNを通じて端末Aと情報を送受信するネットワークI/F19、端末Aより取得した文書データから固有名詞の略称を抽出して取得する略称取得部12、複数の固有名詞の名称情報を記憶する固有名詞記憶部13、取得した略称を構成する文字情報を含む固有名詞を抽出する候補名称抽出部14、抽出した候補名称に含まれている略称を構成する文字情報の位置に応じて正式名称を判定する判定部15、判定した結果に応じて端末Aを制御する情報を送信する制御指示部16、を備えている。
【0149】
上述の実施形態とすることにより、ネットワークを介して接続された複数の端末に対して、本発明の正式名称判定システムによる制御を行うことが可能となる。
【符号の説明】
【0150】
A:端末
B:読取装置
C:管理サーバ
N:ネットワーク
1:演算装置
2:記憶装置
3:通信装置
4:入力装置
5:表示装置
11:文字情報認識部
12:略称取得部
13:固有名詞記憶部
14:候補名称抽出部
15:判定部
16:制御部
17:特別文字情報記憶部
18:制御指示部
20:ネットワークI/F
21:通信部
22:データ生成部
23:読取部
【特許請求の範囲】
【請求項1】
文書データ中から固有名詞の略称を取得する略称取得部と、
固有名詞を示す情報を記憶する固有名詞記憶部と、
前記固有名詞記憶部から前記略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出部と、
前記候補名称に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する判定部と、
を備えることを特徴とする正式名称判定システム。
【請求項2】
前記判定部は、
前記候補名称を単語に分割する手段と、
前記単語中に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する手段と、
を有することを特徴とする請求項1に記載の正式名称判定システム。
【請求項3】
前記正式名称判定システムは、更に、
予め定めた文字情報を特別文字情報として記憶する特別文字情報記憶部を備え、
前記判定部は、
前記候補名称中に含まれている前記特別文字情報に応じて、前記略称に対応する正式名称を判定する
ことを特徴とする請求項1から請求項2に記載の名称判定システム。
【請求項4】
固有名詞を示す情報を記憶する固有名詞記憶部を備える正式名称判定システムのための正式名称判定プログラムであって、
文書データ中から固有名詞の略称を取得する略称取得機能と、
前記固有名詞記憶部から前記略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出機能と、
前記候補名称に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する判定機能と、
をコンピュータに実現させる正式名称判定プログラム。
【請求項1】
文書データ中から固有名詞の略称を取得する略称取得部と、
固有名詞を示す情報を記憶する固有名詞記憶部と、
前記固有名詞記憶部から前記略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出部と、
前記候補名称に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する判定部と、
を備えることを特徴とする正式名称判定システム。
【請求項2】
前記判定部は、
前記候補名称を単語に分割する手段と、
前記単語中に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する手段と、
を有することを特徴とする請求項1に記載の正式名称判定システム。
【請求項3】
前記正式名称判定システムは、更に、
予め定めた文字情報を特別文字情報として記憶する特別文字情報記憶部を備え、
前記判定部は、
前記候補名称中に含まれている前記特別文字情報に応じて、前記略称に対応する正式名称を判定する
ことを特徴とする請求項1から請求項2に記載の名称判定システム。
【請求項4】
固有名詞を示す情報を記憶する固有名詞記憶部を備える正式名称判定システムのための正式名称判定プログラムであって、
文書データ中から固有名詞の略称を取得する略称取得機能と、
前記固有名詞記憶部から前記略称を構成する文字情報を有する固有名詞を候補名称として抽出する候補名称抽出機能と、
前記候補名称に含まれている前記略称を構成する文字情報の位置に応じて、前記略称に対応する正式名称を判定する判定機能と、
をコンピュータに実現させる正式名称判定プログラム。
【図1】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【図2】
【図3】
【図4】
【図5】
【図6】
【図7】
【図8】
【図9】
【図10】
【図11】
【図12】
【図13】
【図14】
【図15】
【図16】
【図17】
【公開番号】特開2010−211256(P2010−211256A)
【公開日】平成22年9月24日(2010.9.24)
【国際特許分類】
【出願番号】特願2009−53346(P2009−53346)
【出願日】平成21年3月6日(2009.3.6)
【出願人】(599108242)Sky株式会社 (257)
【Fターム(参考)】
【公開日】平成22年9月24日(2010.9.24)
【国際特許分類】
【出願日】平成21年3月6日(2009.3.6)
【出願人】(599108242)Sky株式会社 (257)
【Fターム(参考)】
[ Back to top ]