説明

入力誤り警告装置

【課題】聞き取り間違いや読み取り間違いに基づく誤入力を検出してユーザに警告する。
【解決手段】入力誤り警告装置は、定められた文字情報である正解語と、パターン認識処理により文字情報を検出する処理対象である処理対象データに含まれる正解語の数を示す第1の出現数と、ユーザに入力された文字情報に含まれる正解語の数を示す第2の出現数と、正解語が誤読された結果である誤り語と、パターン認識処理によって正解語が誤り語として誤読された数を示す第1の誤り数と、ユーザによって正解語が誤り語として誤読された数を示す第2の誤り数と、第1の誤り数に対する第2の誤り数の信頼性の度合いを示す重み係数とに基づいて、正解語が誤り語として誤読される誤り率を算出し、ユーザから入力される文字情報が誤り語として記憶されており、かつ誤り語に応じて算出した誤り率が予め定められた閾値を超えていると判定すると、誤り語に対応する正解語を出力する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザから入力される入力語に応じて入力誤りを警告する入力誤り警告装置に関する。
【背景技術】
【0002】
コンピュータ装置がユーザからの文字入力を受け付ける際、誤入力を防ぐための入力支援を行なう技術が提案されている。例えば、特許文献1には、文字入力を受け付けるキーボードの文字配列とユーザ毎のタイプミスの癖とに基づいて、入力文字と、この入力文字に対応する補正文字との組み合わせを補正ルールとして記憶し、記憶した補正ルールに基づいて入力文字の補正を行なう技術が提案されている。特許文献2には、記憶された補正ルールが利用される毎に、補正ルール毎の重み付けを更新することでユーザの誤り癖を学習し、更新した重み付けに応じてユーザから入力された入力文字を補正する技術が記載されている。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開平4−245319号公報
【特許文献2】特開平5−252799号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上述の技術は、キーボード操作の際のタイプミスに基づいて生成された補正ルールによって誤入力の補正を行なうものである。ここで、例えばオペレータが企業製品に関する問い合わせ等を電話で受け付けてコンピュータ装置に入力したり、紙媒体に印刷または記載された文を読み取ってコンピュータ装置に入力したりする場合には、タイプミスによる誤入力の他に、ユーザの聞き取り間違いや読み取り間違いに基づく誤入力が発生する場合があると考えられる。上述のようなタイプミスに基づく補正ルールによっては、このような誤入力を適切に検出することができない。ここで、コンピュータ装置がオペレータからの文字入力を受け付ける際には、聞き取り間違いや読み取り間違いに基づく誤入力をオペレータに警告することが望ましい。
【0005】
本発明は、このような状況に鑑みてなされたもので、聞き取り間違いや読み取り間違いに基づく誤入力を、より精度良く検出してユーザに警告する入力誤り警告装置を提供することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決するために、本発明は、定められた文字情報である正解語と、パターン認識処理により文字情報を検出する処理対象である処理対象データに含まれる正解語の数を示す第1の出現数と、ユーザに入力された文字情報に含まれる正解語の数を示す第2の出現数とが対応付けられて記憶される出現数記憶部と、正解語と、正解語が誤読された結果である誤り語と、パターン認識処理によって正解語が誤り語として誤読された数を示す第1の誤り数と、ユーザによって正解語が誤り語として誤読された数を示す第2の誤り数とが対応付けられて記憶される誤り数記憶部と、第1の誤り数に対する第2の誤り数の信頼性の高さの度合いを示す重み係数が記憶される重み係数記憶部と、正解語に対応する第1の出現数と、第2の出現数と、第1の誤り数と、第2の誤り数と、重み係数とに基づいて、正解語が誤り語として誤読される誤り率を算出する誤り率算出部と、ユーザから入力される文字情報を受付ける入力部と、入力部に入力された文字情報が、誤り語として誤り数記憶部に記憶されており、かつ、誤り語に応じて誤り率算出部が算出した誤り率が予め定められた閾値を超えていると判定すると、誤り語に対応する正解語を出力する警告部と、を備えることを特徴とする。
【0007】
また、本発明は、入力部に入力された文字情報についての修正入力を受け付ける修正入力部と、修正入力部に入力された文字情報に含まれる正解語の数を算出し、算出した数を出現数記憶部に記憶された第2の出現数に加算して記憶させる出現数算出部と、入力部に入力された文字情報と、修正入力部に入力された文字情報とを比較して差分を検出し、差分が存在する文字について、入力部に入力された文字を誤り語とし、修正入力部に入力された文字を正解語とする数を算出し、算出した数を誤り数記憶部に記憶された第2の誤り数に加算して記憶させる誤り数算出部と、正解語に対応する第1の出現数と、第2の出現数と、第1の誤り数と、第2の誤り数とに基づいて、重み係数を算出し、重み係数記憶部に記憶させる重み係数算出部と、を備えることを特徴とする。
【0008】
また、本発明は、パターン認識処理は、処理対象データである画像データから文字情報を検出する文字認識処理と、処理対象データである音声データから文字情報を検出する音声認識処理とのいずれかであることを特徴とする。
【0009】
また、本発明は、ユーザの属性を示すユーザ情報が記憶されるユーザ属性情報記憶部を備え、出現数記憶部には、ユーザの属性毎に第2の出現数が記憶され、誤り数記憶部には、ユーザの属性毎に第2の誤り数が記憶され、重み係数記憶部には、ユーザの属性毎に重み係数が記憶され、誤り率算出部は、ユーザの属性毎に誤り率を算出することを特徴とする。
【0010】
また、本発明は、誤り率算出部は、正解語に対応する第1の出現数をnとし、第2の出現数をnとし、第1の誤り数をeとし、第2の誤り数をeとし、重み係数をTとして、正解語が誤り語として誤読される誤り率Pを以下式(a)
【0011】
【数1】

【0012】
によって算出することを特徴とする。
【0013】
また、本発明は、修正入力部は、複数回の段階に亘って修正入力を受付け、重み係数算出部は、複数段階のうち最後の段階において誤り率算出部によって算出された誤り率をPとし、正解語に対応する第1の出現数をnとし、第2の出現数をnとし、第1の誤り数をeとし、第2の誤り数をeとして、重み係数Tを以下式(b)
【0014】
【数2】

【0015】
によって算出することを特徴とする。
【発明の効果】
【0016】
以上説明したように、本発明によれば、入力誤り警告装置は、定められた文字情報である正解語と、パターン認識処理により文字情報を検出する処理対象である処理対象データに含まれる正解語の数を示す第1の出現数と、ユーザに入力された文字情報に含まれる正解語の数を示す第2の出現数と、正解語が誤読された結果である誤り語と、パターン認識処理によって正解語が誤り語として誤読された数を示す第1の誤り数と、ユーザによって正解語が誤り語として誤読された数を示す第2の誤り数と、第1の誤り数に対する第2の誤り数の信頼性の度合いを示す重み係数とに基づいて、正解語が誤り語として誤読される誤り率を算出し、ユーザから入力される文字情報が誤り語として記憶されており、かつ、誤り語に応じて算出した誤り率が予め定められた閾値を超えていると判定すると、誤り語に対応する正解語を出力するようにしたので、パターン認識処理による検出された文字情報についての誤り数と、ユーザにより入力された文字情報についての誤り数との間に存在する相関関係に基づいてユーザから入力される文字情報の誤り率を算出することができ、ユーザの聞き取り間違いや読み取り間違いに基づく誤入力を、より精度良く検出してユーザに警告することが可能となる。
【図面の簡単な説明】
【0017】
【図1】本発明の一実施形態による入力システムの構成例を示すブロック図である。
【図2】本発明の一実施形態による入力項目の表示例を示す図である。
【図3】本発明の一実施形態による入力項目の表示例を示す図である。
【図4】本発明の一実施形態により記憶される入力情報のデータ例を示す図である。
【図5】本発明の一実施形態により記憶される出現数のデータ例を示す図である。
【図6】本発明の一実施形態により記憶される誤り数のデータ例を示す図である。
【図7】本発明の一実施形態により記憶される重み係数のデータ例を示す図である。
【図8】本発明の一実施形態により出現数と誤り数とを記憶させる動作例を示す図である。
【図9】本発明の一実施形態により警告情報を出力する動作例を示す図である。
【発明を実施するための形態】
【0018】
以下、本発明の一実施形態について、図面を参照して説明する。
図1は、本実施形態による入力システム1の構成を示すブロック図である。入力システム1は、オペレータ入力端末100と、入力装置200と、修正入力端末300と、入力誤り警告装置400とのコンピュータ装置を備えており、それぞれのコンピュータ装置はネットワークを介して接続される。
【0019】
オペレータ入力端末100は、ディスプレイなどの表示部やキーボードやマウス等の入力部を備えたコンピュータ端末であり、オペレータから入力される入力情報を受け付ける。オペレータ入力端末100は、例えば、企業製品等への顧客からの問い合わせ内容に応じた入力項目が含まれる入力画面を表示部に表示させ、表示させた入力項目に応じてオペレータから入力される入力情報を受け付ける。本実施形態では、オペレータは、顧客によって紙媒体に手書きで記載された顧客の氏名、住所、電話番号、問い合わせ内容などの文字を読み取り、読み取った文字を入力情報としてオペレータ入力端末100に入力する。オペレータ入力端末100は、オペレータから入力された入力情報を、入力装置200に送信する。
【0020】
ここで、オペレータ入力端末100に入力される入力情報は、顧客によって紙媒体に手書きで記載された文字がオペレータによって読み取られて入力される情報であり、氏名や住所などに誤読による表記の誤りや揺れがある場合があると考えられる。これにより、同一の情報が異なる情報として入力されている場合があると考えられる。例えば、顧客により紙媒体に手書きで記載された顧客の氏名を示す「青田」の文字が、オペレータによって「青井」と誤読されて入力されるような場合があると考えられる。
【0021】
入力装置200は、オペレータ入力端末100または修正入力端末300に入力された入力情報が送信されて記憶されるコンピュータ装置であり、入力制御部210と、オペレータ情報記憶部220と、入力情報記憶部230とを備えている。
入力制御部210は、問い合わせ内容の入力画面をオペレータ入力端末100または修正入力端末300に送信し、送信した入力画面に応じてオペレータ入力端末100または修正入力端末300に入力されて送信される入力情報を受信する。ここでは、入力装置200はウェブサーバの機能を備えており、HTTP(HyperText Transfer Protocol)通信等によりオペレータ入力端末100または修正入力端末300と通信を行う。入力制御部210がオペレータ入力端末100または修正入力端末300に送信する入力画面は、例えばHTML(HyperText Markup Language)により記述されたウェブページである。
【0022】
ここで、入力制御部210が問い合わせ内容の入力画面を送信する際には、予めログイン処理のためのオペレータ情報入力画面を送信し、ログイン処理が成功した場合に問い合わせ内容の入力画面をオペレータ入力端末100に送信する。ここでは、入力制御部210は、オペレータ入力端末100または修正入力端末300に、オペレータを識別するオペレータID(Identifier)と、オペレータIDに対応する定められたパスワードとの入力項目が含まれるオペレータ情報入力画面を送信し、送信したオペレータ情報入力画面に応じてオペレータ入力端末100または修正入力端末300から送信されるオペレータ情報を受け付ける。入力制御部210は、オペレータ入力端末100から受信したオペレータIDとパスワードとの組み合わせに一致するオペレータ情報がオペレータ情報記憶部220に記憶されているか否かを判定し、記憶されていると判定した場合にはログイン成功と判定し、記憶されていないと判定した場合にはログイン失敗と判定する。入力制御部210は、このようなログイン処理により、ログイン成功と判定した場合には、ログインしたオペレータのオペレータIDを自身の記憶領域に記憶するとともに、問い合わせ内容入力画面をオペレータ入力端末100に送信する。一方、ログイン失敗と判定した場合には、問い合わせ内容入力画面をオペレータ入力端末100に送信せず、入力情報の送信を受け付けずに処理を終了する。本実施形態における入力システム1では、このようなオペレータ情報に対応付けて入力情報を記憶しておくことにより、入力情報を入力したオペレータの履歴情報を記憶することができる。
【0023】
また、入力制御部210は、送信した問い合わせ内容入力画面に応じてオペレータ入力端末100に文字が入力される毎に入力情報を受信して、入力誤り警告装置400に送信する。入力制御部210は、入力情報に含まれる文字が、一定以上の割合で誤って入力される文字である場合に入力誤り警告装置400から送信される警告情報に含まれる正解語を、オペレータ入力端末100に送信して表示させる。例えば、図2、図3は、オペレータ入力端末100に正解語が送信され、送信された正解語がオペレータ入力端末100における入力画面に表示された場合の表示例を示す図である。例えば、図2(a)は、符号a1が示すテキストボックスにユーザから文字「犬」が入力された場合に、符号a2に示すように、ドロップダウン形式にて入力された文字に対応する正解語である「大」が表示された例である。ここでは、例えばAjaxの技術を適用することにより、このようなリアルタイムの情報表示を行うことができる。図2(b)は、符号2に示されるように、ドロップダウン形式で表示された正解語である「大」が選択された表示例を示す図である。例えば、この状態でキーボードのエンターキーが押下されると、選択された正解語「大」が、テキストボックスb1に入力される。図3は、「氏名」の入力項目に対応するテキストボックスa1に、「青田」の文字が入力され、入力された文字に応じた正解語「青井」が表示されている例である。
【0024】
図1に戻り、オペレータ情報記憶部220には、予め登録されたオペレータに対応するオペレータ情報が記憶されている。オペレータ情報には、例えば、オペレータを識別するオペレータIDに対応付けられて、氏名、年齢、性別、作業経験年数、ログインを行なうためのパスワードなどを示す属性情報が含まれる。作業経験年数は、対応するオペレータが、紙媒体に記載された文字を読み取り、オペレータ入力端末100に入力する作業を行っている経験年数を示す情報である。このような作業経験年数が記憶されていることにより、作業経験年数毎の入力誤り数の統計値などを算出することが可能となる。また、オペレータ情報記憶部220に記憶されたオペレータ情報は、上述したように、入力制御部210によってオペレータのログイン処理が行われる際に読み出される。
【0025】
入力情報記憶部230には、オペレータ入力端末100から送信された入力情報が記憶される。図4は、入力情報記憶部230に記憶される入力情報のデータ例を示す図である。入力情報記憶部230には、入力情報IDと、入力番号と、オペレータIDとに対応付けられて入力情報が記憶される。入力情報IDは、入力情報を識別する識別情報である。入力番号は、入力情報が修正者により修正されて入力される際に付与される情報である。ここでは、入力番号が「1」であれば、対応する入力情報は初回の入力情報であることを示し、入力番号が「2」であれば、対応する入力情報は、既に入力された入力情報が修正者により修正され修正入力端末300に入力された入力情報であることを示している。オペレータIDは、対応する入力情報を入力したオペレータを識別する情報である。例えば、図4のデータ例では、入力情報IDが「1」であり、入力番号が「1」である入力情報がオペレータID「1」のオペレータによって入力され、記憶されている。また、入力情報IDが「1」である入力情報に対し、オペレータID「2」のオペレータによって氏名「青田」が「青井」に修正され、入力番号「2」に対応付けられて記憶されている。このように、入力情報記憶部230には、オペレータ入力端末100から送信される入力情報と、入力情報が記憶された後に修正入力端末300から送信される修正された入力情報とが記憶される。
【0026】
図1に戻り、修正入力端末300は、オペレータ入力端末100と同様の構成であり、入力装置200に記憶された入力情報を読み出して表示し、表示した入力情報に応じて修正者であるオペレータから入力される修正済の入力情報を受け付ける。修正入力端末300に修正済の入力情報を入力するオペレータは、修正入力端末300によって入力装置200から読み出され表示される入力情報と、他の入力情報や予め登録された顧客情報などとを比較して、誤り語を正解語として修正したり、同一の顧客の情報についての表記揺れを修正したりして、修正済の入力情報を修正入力端末300に入力する。修正入力端末300は、入力された修正済の入力情報を入力装置200に送信する。修正入力端末300が送信した入力情報は、読み出した入力情報の入力情報IDに対応付けられ、入力番号に「2」が付与されて入力情報記憶部230に記憶される。
【0027】
ここで、顧客からの問い合わせ内容に関する入力情報について、例えば顧客毎、顧客の属性毎に入力情報を管理しようとする場合、入力情報に誤りや表記揺れが存在すれば、コンピュータ処理によって情報を一元管理し、有用な統計等を算出することは困難である。このため、入力情報に含まれる情報は、他の入力情報に含まれる情報と実質的に同一である場合には、同一の表記により記憶されていることが望ましい。例えば、上述したように、同一の人物が「青田」と「青井」との氏名に対応付けられて異なる問い合わせ内容が記憶されている場合には、異なる人物として統計が算出されることになり、またいずれの氏名が正しいものであるかを機械的に判定することはできない。そこで、修正者であるオペレータが、修正入力端末300に表示される入力情報を参照して、複数の入力情報のうち、同一人物に対応する入力情報の氏名等の表記が同一となるように修正した修正済入力情報を、修正入力端末300に入力する。
【0028】
入力誤り警告装置400は、オペレータから入力される入力情報に応じて、入力情報を誤り語とする場合に対応する正解語を検出して出力するコンピュータ装置である。入力誤り警告装置400は、処理対象データ入力部410と、パターン認識処理部420と、文字情報入力部430と、誤りパターン記憶部440と、出現数算出部450と、誤り数算出部460と、誤り率算出部470と、重み係数算出部480と、警告部490とを備えている。
【0029】
処理対象データ入力部410には、パターン認識処理部420により文字情報が検出される処理対象である処理対象データが入力される。本実施形態では、処理対象データ入力部410に入力される処理対象データは、文字が含まれる画像データを適用して説明する。画像データは、文字認識(OCR(Optical Character Recognition))処理によって文字入力の誤り率を算出するためのサンプルとして用いられる。例えば、画像データは、特定の文字コードにおいて定められた全ての文字が含まれる文字コード表が印刷された紙媒体をスキャナなどにより読み取った情報が適用できる。
【0030】
パターン認識処理部420は、処理対象データ入力部410に入力された処理対象データについてパターン認識処理を行い、処理対象データに含まれる文字情報を検出する。本実施形態では、パターン認識処理部420は、処理対象データ入力部410に入力される画像データを読み込んでパターン認識処理を行い、画像データに含まれる文字の形態に基づいて解析した文字情報が含まれるパターン認識処理結果を生成し、自身の記憶領域に記憶する。ここで、パターン認識処理結果に含まれる文字情報には、画像データにおける文字の歪みや汚れなどによって、誤って解析された文字情報が含まれる場合があると考えられる。例えば、パターン認識処理によって「大」の文字が誤読され、「犬」の文字として出力されるような場合がある。
【0031】
文字情報入力部430には、処理対象データ入力部410に入力された画像データに対応する文字情報が入力され、記憶される。ここでは、例えば、ユーザは、コンピュータ装置のテキストエディタなどに、画像データに対応する文字情報を入力して文書ファイルを生成させ、生成された文書ファイルを画像変換することよって処理対象データ入力部410に入力する処理対象データを生成させる。これにより、処理対象データがパターン認識処理部420によって解析され記憶されたパターン認識処理結果と、文字情報入力部430に記憶された文字情報とを比較することで、文字認識処理による読み取り間違いを検出することが可能である。
【0032】
誤りパターン記憶部440は、出現数記憶部441と、誤り数記憶部442と、重み係数記憶部443とを備えており、入力情報の誤りパターンを示す情報が記憶される。
出現数記憶部441には、定められた正解語毎に、文字情報入力部430に入力された文字情報に含まれる文字と、入力情報記憶部230に記憶された入力情報に含まれる文字とが正解語として記憶され、正解語毎に、文字情報入力部430に入力された文字情報または入力情報記憶部230に記憶された入力情報から正解語が検出された数が出現数として対応付けられて記憶される。
【0033】
図5は、出現数記憶部441に記憶される出現数のデータ例を示す図である。出現数記憶部441には、正解語と、OCR出現数と、人手による総合出現数と、作業経験年数1年未満出現数と、作業経験年数1年以上出現数とが対応付けられて記憶される。正解語には、文字情報入力部430に入力された文字情報に含まれる文字と、入力情報記憶部230に記憶された入力情報に含まれる文字との全てが含まれる。OCR出現数は、対応する正解語が文字情報入力部430に入力された文字情報から検出された数である。人手による総合出現数は、対応する正解語が入力情報記憶部230に記憶された入力情報に含まれる数である。作業経験年数1年未満出現数は、対応する正解語が、人手による総合出現数のうち作業経験年数1年未満のオペレータにより入力された入力情報に含まれる数である。作業経験年数1年以上出現数は、対応する正解語が、人手による総合出現数のうち作業経験年数1年以上のオペレータにより入力された入力情報に含まれる数である。
【0034】
例えば、この例では、文字情報入力部430に入力された文字情報に、「大」の文字が20000文字、「小」の文字が15000文字、「ほ」の文字が60000文字含まれていることが検出され、入力情報記憶部230に記憶された入力情報に、「大」の文字が5000文字、「小」の文字が4000文字、「ほ」の文字が10000文字含まれていることが検出されたことを示している。
【0035】
出現数記憶部441には、出現数算出部450によって算出された出現数が記憶される。出現数算出部450は、入力情報記憶部230に記憶された入力情報に含まれる文字と、文字情報入力部430に入力される文字情報に含まれる文字とのそれぞれについて出現数を算出し、出現数記憶部441に記憶させる。この際、出現数算出部450は、入力情報記憶部230に記憶されたオペレータIDに対応付けられた作業経験年数をオペレータ情報記憶部220から読み出す。出現数算出部450は、作業経験年数が1年未満であるか1年以上であるかを判定し、判定結果に基づいて出現数を算出し、出現数記憶部441に記憶させる。
【0036】
誤り数記憶部442には、出現数記憶部441に記憶された正解語と、その正解語が誤読された誤り語と、誤読された回数とを示す誤り数とが対応付けられて記憶される。図6は、誤り数記憶部442に記憶される誤り数のデータ例を示す図である。誤り数記憶部442には、正解語と、誤り語と、OCR誤り数と、人手による総合誤り数と、作業経験年数1年未満誤り数と、作業経験年数1年以上誤り数とが対応付けられて記憶されている。
【0037】
OCR誤り数は、出現数記憶部441に記憶されたOCR出現数のうち、正解語がパターン認識処理部420によって対応する誤り語に誤読された数を示す。人手による総合誤り数は、出現数記憶部441に記憶された人手による総合出現数のうち、正解語がオペレータによって対応する誤り語に誤読された数を示す。作業経験年数1年未満誤り数は、人手による総合出現数のうち作業経験年数1年未満のオペレータにより誤読され入力された入力情報に含まれる数を示す。作業経験年数1年以上誤り数は、人手による総合出現数のうち作業経験年数1年以上のオペレータにより誤読され入力された入力情報に含まれる数を示す。
【0038】
誤り数記憶部442には、誤り数算出部460によって算出された誤り数が記憶される。例えば、誤り数算出部460は、パターン認識処理部420に記憶されたパターン認識処理結果と、文字情報入力部430に記憶された文字情報とを比較し、OCRにより正解語が誤り語として誤読された数であるOCR誤り数を算出し、誤り数記憶部442に記憶させる。また、誤り数算出部460は、入力情報記憶部230に記憶された入力情報のうち、入力番号「1」として記憶された入力情報と、入力番号「2」として記憶された入力情報とを比較し、入力番号が「1」である入力情報に含まれる文字と、入力番号が「2」である入力情報に含まれる文字との差分を検出する。そして、差分を検出した文字について、入力番号が「1」である入力情報に含まれる文字を誤り語とし、入力番号が「2」である入力情報に含まれる文字を正解語として、人手による総合誤り数を算出して、誤り数記憶部442に記憶させる。この際、誤り数算出部460は、入力情報記憶部230に記憶されたオペレータIDに対応付けられた作業経験年数をオペレータ情報記憶部220から読み出す。誤り数算出部460は、作業経験年数が1年未満であるか1年以上であるかを判定し、判定結果に基づいて誤り数を算出し、誤り数記憶部442に記憶させる。
【0039】
重み係数記憶部443には、OCR誤り数に対する人手による誤り数の信頼性の高さの度合いを示す重み係数が記憶される。重み係数は、正解語の誤り率が算出される際に参照される。また、重み係数は、定められた1以上の数値であり、初期値としては予め定められた値が記憶されており、重み係数算出部480によって算出された重み係数によって更新されて記憶される。
【0040】
誤り率算出部470は、出現数記憶部441に記憶された出現数と、誤り数記憶部442に記憶された誤り数と、重み係数記憶部443に記憶された重み係数とに基づいて、誤り数記憶部442に記憶された正解語が誤り語として誤読される確率を示す誤り率を算出する。ここでは、誤り率算出部470は、正解語に対応するOCR出現数をnとし、人手による総合出現数をnとし、OCR誤り数をeとし、人手による総合誤り数をeとし、重み係数をTとして、正解語が誤り語として誤読される誤り率Pを以下式(1)によって算出する。
【0041】
【数3】

【0042】
ここで、オペレータ入力端末100や修正入力端末300には、入力情報が複数回の段階に亘って入力されることとなる。各段階における誤り率の算出式は、より具体的には、出現数記憶部441に記憶されたOCR出現数をnとし、入力情報記憶部230に記憶された入力番号が1である入力情報に基づいて出現数記憶部441に記憶された人手による総合出現数をnとし、入力情報記憶部230に記憶された入力番号が2である入力情報に基づいて出現数記憶部441に記憶された人手による総合出現数をnとする。以降、入力情報記憶部230に記憶された入力番号をiとすると、出現数記憶部441に記憶された人手による総合出現数をnとする。
【0043】
また、誤り数記憶部442に記憶されるOCR誤り数をeとし、入力情報記憶部230に記憶された入力番号が1である入力情報に基づいて誤り数記憶部442に記憶された人手による総合誤り数をeとし、入力情報記憶部230に記憶された入力番号が2である入力情報に基づいて誤り数記憶部442に記憶された人手による総合出現数をeとする。以降、入力情報記憶部230に記憶された入力番号をiとすると、誤り数記憶部442に記憶された人手による総合誤り数をeとする。また、重み係数記憶部443に記憶された重み係数をTとする。
【0044】
ここで、パターン認識処理に基づく誤り数と、人手による修正処理に基づく誤り数とにおいては、人手による修正処理に基づく誤り数の方がより信頼性が高いと仮定して、誤り率算出部470は、人手による修正処理に基づく誤り数に対して1以上の重み係数を乗算して誤り率を算出する。例えば、誤り率算出部470は、段階2における誤り率P(Step2)を、以下式(2)によって算出する。
【0045】
【数4】

【0046】
同様に、段階3における誤り率P(Step3)を、以下式(3)によって算出する。
【0047】
【数5】

【0048】
ここで、誤り率算出部470は、入力情報を入力したオペレータのオペレータIDに対応する属性毎に異なる重み係数を適用して誤り率を算出するようにしても良い。例えば、作業経験年数が少ない場合には大きい値を、作業経験年数が多い場合には小さい値を重み係数として算出する。また、例えば、入力情報を入力したオペレータのオペレータIDに対応する年齢が高い場合には小さい値を、年齢が低い場合には大きい値を重み係数として算出する。
【0049】
重み係数算出部480は、出現数記憶部441に記憶された出現数と、誤り数記憶部442に記憶された誤り数とに基づいて、重み係数を算出する。ここで、重み係数算出部480は、複数段階のうち最後の段階において誤り数記憶部442によって算出された誤り率をPとし、正解語に対応するOCR出現数をnとし、人手による総合出現数をnとし、OCR誤り数をeとし、人手による総合誤り数をeとして、重み係数Tを以下式(4)によって算出する。
【数6】

ここでは、入力情報記憶部230に同一の入力情報IDに対応付けられた複数の入力番号に応じた入力情報が記憶されている場合には、より後の段階における入力情報に基づいて算出された誤り率の方がより信頼性が高いと考えられる。そこで、最後の段階での誤り率がより正しいとして、誤り率算出部470は、一つ前の段階において算出した誤り率が、最後の段階において算出した誤り率となるような重み係数Tを算出し、算出した重み係数を、重み係数記憶部443に記憶させる。
【0050】
例えば、重み係数算出部480が重み係数を算出する時点で、段階3が最後の段階であるとすると、段階2における誤り率が、段階3における誤り率と一致するようなTの値を算出する。このような条件を満たすTをTnewとすると、誤り率P(Step3)とTnewとの関係は以下式(5)のように表すことができる。
【0051】
【数7】

【0052】
これをTnewについて解くと、以下式(6)のように表すことができる。
【0053】
【数8】

【0054】
重み係数算出部480は、上記式(6)により算出した重み係数Tnewを、重み係数記憶部443に記憶させる。
【0055】
同様に、段階4が最後の段階であれば、段階4における誤り率が、段階3における誤り率となるようなTの値を算出する。このような条件を満たすTをTnewとすると、誤り率P(Step4)とTnewとの関係は以下式(7)のように表すことができる。
【0056】
【数9】

【0057】
これをTnewについて解くと、以下式(8)のように表すことができる。
【0058】
【数10】

【0059】
ここで、重み係数算出部480は、出現数記憶部441に記憶された出現数や、誤り数記憶部442に記憶された誤り数が、作業経験年数などの属性毎に記憶されている場合には、属性毎に重み係数を算出する。
【0060】
警告部490は、入力装置200から送信される、オペレータ入力端末100に入力された入力情報を受信する。警告部490は、受信した入力情報に含まれる文字情報が、誤り語として誤り数記憶部442に記憶されているか否かを判定する。警告部490は、受信した入力情報に含まれる文字情報が、誤り語として誤り数記憶部442に記憶されていないと判定すれば、警告情報を送信しない。一方、警告部490は、受信した入力情報に含まれる文字情報が、誤り語として誤り数記憶部442に記憶されていると判定すれば、その誤り語に応じて誤り率算出部470が算出した誤り率が、予め定められた閾値を超えているか否かを判定する。警告部490は、誤り語に応じて誤り率算出部470が算出した誤り率が、予め定められた閾値を超えていると判定すると、その誤り語に対応する正解語を、警告情報として入力装置200に送信する。ここで、警告部490は、入力情報に含まれる文字情報に対応する複数の正解語を誤り数記憶部442から検出し、検出した複数の正解語のうち、対応する誤り率が閾値を超えるものが複数存在すれば、複数の正解語を、例えば誤り率の降順に並べて、入力装置200に送信する。一方、警告部490は、誤り語に応じて誤り率算出部470が算出した誤り率が、予め定められた閾値を超えていないと判定すれば、警告情報を送信しない。
【0061】
次に、本実施形態による入力システム1の動作例を説明する。図8は、入力システム1が、入力誤り警告装置400の誤りパターン記憶部440に情報を記憶させる動作例を示すフローチャートである。
出現数算出部450は、修正入力端末300に入力され入力制御部210に送信された
正解語が、出現数記憶部441に記憶されているか否かを判定する(ステップS1)。出現数算出部450は、正解語が出現数記憶部441に記憶されていると判定すると(ステップS1:YES)、出現数記憶部441に記憶された正解語に対応する出現数に1を加算した値を記憶させる(ステップS2)。ここでは、人手による総合出現数と、オペレータの属性情報に応じた経験年数別の出現数との双方の値を増加させる。
【0062】
誤り数算出部460は、修正された正解語と誤り語との組み合わせが、誤り数記憶部442に記憶されているか否かを判定する(ステップS4)。誤り数算出部460によって、正解語と誤り語との組み合わせが誤り数記憶部442に記憶されていると判定されると(ステップS4:YES)、誤り数記憶部442に記憶された正解語と誤り語との組み合わせに対応する誤り数に1を増加した値を記憶させる(ステップS5)。重み係数算出部480は、誤りパターン記憶部440に記憶された出現数と、誤り数記憶部442に記憶された誤り数とに基づいて重み係数を算出し、算出した重み係数を重み係数記憶部443に記憶させ(ステップS7)、処理を終了する。
【0063】
一方、ステップS1において、出現数算出部450が、正解語は出現数記憶部441に記憶されていないと判定すると(ステップS1:NO)、出現数記憶部441に、その正解語についてのデータを新たに追加し、出現数「1」を対応付けて記憶させる(ステップS3)。また、ステップS4において、誤り数算出部460によって正解語と誤り語との組み合わせが誤り数記憶部442に記憶されていると判定されると(ステップS4:NO)、誤り数記憶部442に、正解語と誤り語との組み合わせのデータを新たに追加し、誤り数「1」を対応付けて記憶させ(ステップS6)、ステップS7に進む。
【0064】
次に、図9を参照して、オペレータから入力される入力情報に応じて、入力システム1が警告情報を出力する動作例を説明する。
ここでは、オペレータ入力端末100に入力されたオペレータ情報に応じたログイン処理が成功すると、入力制御部210は、ログインされたオペレータIDに対応する尾オペレータの属性情報をオペレータ情報記憶部220から読み出す(ステップS11)。オペレータ入力端末100に、入力装置200から送信された問合せ内容の入力画面が表示されると、オペレータは、入力項目毎に入力情報を入力する。オペレータ入力端末100は、オペレータから入力された入力情報を、入力誤り警告装置400に送信する。警告部490は、オペレータ入力端末100から送信された入力情報に含まれる文字(入力語)を誤り語とする誤り数が、誤り数記憶部442に記憶されているか否かを判定する(ステップS12)。
【0065】
警告部490が、オペレータ入力端末100から送信された入力語を誤り語とする誤り数が誤り数記憶部442に記憶されていると判定すると(ステップS12:YES)、誤り率算出部470は、ステップS11で読み出されたオペレータの属性情報に含まれる作業経験年数を、入力装置200のオペレータ情報記憶部220から読み出し、読み出した経験年数に応じた誤り数を誤り数記憶部442から読み出す。また、誤り率算出部470は、オペレータIDに対応する経験年数に応じた重み係数を、重み係数記憶部443から読み出す(ステップS13)。
【0066】
誤り率算出部470は、読み出した出現数と、誤り数と、重み係数とに基づいて、誤り率を算出する(ステップS14)。警告部490は、算出した誤り率と、予め定められた閾値とを比較し、誤り率が閾値を超えると判定すると、入力情報に対応する正解語が含まれる警告情報を、オペレータ入力端末100に送信する(ステップS15)。ここで、誤り率が閾値を超えない場合は、警告部490は警告情報を送信しない。そして、オペレータ入力端末100に表示された警告情報に応じて、オペレータが警告された正解語を選択すると、オペレータ入力端末100は、選択された正解語を入力誤り警告装置400に送信する(ステップS16)。
【0067】
誤り数算出部460は、オペレータ入力端末100から送信された正解語を受信すると(ステップS16)、誤り数記憶部442に記憶された誤り数を更新して記憶させる(ステップS17)。一方、ステップS12において、警告部490が、オペレータ入力端末100から送信された入力情報に含まれる文字を誤り語とする誤り数が誤り数記憶部442に記憶されていないと判定すると(ステップS12:NO)、警告部490は警告処理を終了する。また、ステップS16において、警告情報に応じた修正入力が送信されなかった場合(ステップS16:NO)、警告部490は警告処理を終了する。
【0068】
なお、本実施形態では、処理対象データ入力部410に入力されるサンプルの画像データは、特定の文字コードにおいて定められた全ての文字が含まれる文字コード表が印刷された紙媒体をスキャナなどにより読み取った情報であるとしたが、例えば、顧客によって問い合わせ内容が記載された紙媒体がスキャナなどによって電子化された画像データなどを適用しても良い。
【0069】
また、本実施形態では、オペレータ入力端末100と修正入力端末300とを異なるコンピュータ端末として説明したが、同一のオペレータが、同一のコンピュータ端末を用いて、紙媒体からの読み取り入力と、入力情報の修正入力との双方を行っても良い。
また、本実施形態では、入力装置200がウェブサーバの機能を備え、HTTP通信等によるオペレータ入力端末100から送信される入力情報を受信することとしたが、オペレータ入力端末100と入力装置200とは、他の通信方法によって情報の送受信を行なうようにしても良い。また、例えばオペレータ入力端末100と入力装置200とが備える機能部を単一のコンピュータ装置が備えるように構成したり、入力装置200と修正入力端末300とが備える機能部を単一のコンピュータ装置が備えるように構成したり、オペレータ入力端末100と入力装置200と修正入力端末300との全てが備える機能部を単一のコンピュータ装置が備えるように構成するようにしても良い。
【0070】
また、本実施形態では、オペレータ情報記憶部220に記憶されたオペレータの属性情報のうち、作業経験年数毎に誤り率等を算出する例を示したが、年齢毎に誤り率等を算出するようにしても良いし、性別毎に誤り率等を算出するようにしても良い。入力システム1の管理者は、入力情報の内容などに応じて、誤り率を算出するために有用な属性毎に誤り率等を算出するようにしても良い。
【0071】
また、本実施形態では、処理対象データ入力部410には処理対象データとして画像データが入力され、パターン認識処理部420は文字認識処理を行って処理対象データに含まれる文字情報を検出する例を示したが、処理対象データ入力部410には処理対象データとして音声データが入力され、パターン認識処理部420は音声認識処理を行って処理対象データに含まれる文字情報を検出してパターン認識処理結果を出力するようにしても良い。
【0072】
また、本実施形態では、例えば、作業経験年数のようなオペレータの属性毎に、誤り率や重み係数を算出するようにしたが、例えば、入力項目(例えば、氏名、住所、電話番号など)毎に異なる誤り率や重み係数を算出するようにしても良いし、字種(例えば、漢字・平仮名混じり、漢字のみ、平仮名のみ、カタカナのみ、数字・記号のみなど)毎に異なる誤り率や重み係数を算出するようにしても良い。
【0073】
以上説明したように、本実施形態の入力システム1によれば、パターン認識処理による誤読と、オペレータにより文字が読み取られる際の誤読とに相関関係があることを利用して入力誤りを検出して警告するため、オペレータによる実際の入力誤りが蓄積される前にも、より精度の高い正解語と誤り語との組み合わせに基づいて入力誤りの警告を行うことが可能となる。また、オペレータにより実際に入力された入力情報と、修正済の入力情報とに基づいて入力語の誤り率を再算出し、オペレータの入力誤りを学習することで、より正確に入力誤りの警告を行うことが可能となる。
【0074】
さらに、入力情報を入力するオペレータの作業経験年数や年齢、性別などの属性に基づいて誤り率を算出することが可能であるため、より正確な誤り推定を行うことが可能である。また、出現数と誤り数との比に基づいて誤り率を算出するため、記憶された件数が少ない入力語や、複数の入力項目に同時に誤りが発生しているような場合にも、入力誤りを推定することが可能である。
【0075】
なお、本発明における処理部の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより入力誤りの警告を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
【0076】
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであっても良い。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であっても良い。
【符号の説明】
【0077】
1 入力システム
100 オペレータ入力端末
200 入力装置
210 入力制御部
220 オペレータ情報記憶部
230 入力情報記憶部
300 修正入力端末
400 入力誤り警告装置
410 処理対象データ入力部
420 パターン認識処理部
430 文字情報入力部
440 誤りパターン記憶部
441 出現数記憶部
442 誤り数記憶部
443 重み係数記憶部
450 出現数算出部
460 誤り数算出部
470 誤り率算出部
480 重み係数算出部
490 警告部

【特許請求の範囲】
【請求項1】
定められた文字情報である正解語と、パターン認識処理により文字情報を検出する処理対象である処理対象データに含まれる前記正解語の数を示す第1の出現数と、ユーザに入力された文字情報に含まれる前記正解語の数を示す第2の出現数とが対応付けられて記憶される出現数記憶部と、
前記正解語と、前記正解語が誤読された結果である誤り語と、前記パターン認識処理によって前記正解語が前記誤り語として誤読された数を示す第1の誤り数と、前記ユーザによって前記正解語が前記誤り語として誤読された数を示す第2の誤り数とが対応付けられて記憶される誤り数記憶部と、
前記第1の誤り数に対する前記第2の誤り数の信頼性の高さの度合いを示す重み係数が記憶される重み係数記憶部と、
前記正解語に対応する前記第1の出現数と、前記第2の出現数と、前記第1の誤り数と、前記第2の誤り数と、前記重み係数とに基づいて、前記正解語が前記誤り語として誤読される誤り率を算出する誤り率算出部と、
ユーザから入力される文字情報を受付ける入力部と、
前記入力部に入力された前記文字情報が、前記誤り語として前記誤り数記憶部に記憶されており、かつ、当該誤り語に応じて前記誤り率算出部が算出した前記誤り率が予め定められた閾値を超えていると判定すると、当該誤り語に対応する前記正解語を出力する警告部と、
を備えることを特徴とする入力誤り警告装置。
【請求項2】
前記入力部に入力された前記文字情報についての修正入力を受け付ける修正入力部と、
前記修正入力部に入力された前記文字情報に含まれる前記正解語の数を算出し、算出した数を前記出現数記憶部に記憶された前記第2の出現数に加算して記憶させる出現数算出部と、
前記入力部に入力された文字情報と、前記修正入力部に入力された文字情報とを比較して差分を検出し、差分が存在する文字について、前記入力部に入力された文字を誤り語とし、前記修正入力部に入力された文字を正解語とする数を算出し、算出した数を前記誤り数記憶部に記憶された前記第2の誤り数に加算して記憶させる誤り数算出部と、
前記正解語に対応する前記第1の出現数と、前記第2の出現数と、前記第1の誤り数と、前記第2の誤り数とに基づいて、前記重み係数を算出し、前記重み係数記憶部に記憶させる重み係数算出部と、
を備えることを特徴とする請求項1に記載の入力誤り警告装置。
【請求項3】
前記パターン認識処理は、前記処理対象データである画像データから文字情報を検出する文字認識処理と、前記処理対象データである音声データから文字情報を検出する音声認識処理とのいずれかである
ことを特徴とする請求項1または請求項2に記載の入力誤り警告装置。
【請求項4】
前記ユーザの属性を示すユーザ情報が記憶されるユーザ属性情報記憶部を備え、
前記出現数記憶部には、前記ユーザの属性毎に前記第2の出現数が記憶され、
前記誤り数記憶部には、前記ユーザの属性毎に前記第2の誤り数が記憶され、
前記重み係数記憶部には、前記ユーザの属性毎に前記重み係数が記憶され、
前記誤り率算出部は、前記ユーザの属性毎に前記誤り率を算出する
ことを特徴とする請求項1から請求項3のいずれか1項に記載の入力誤り警告装置。
【請求項5】
前記誤り率算出部は、前記正解語に対応する前記第1の出現数をnとし、前記第2の出現数をnとし、前記第1の誤り数をeとし、前記第2の誤り数をeとし、前記重み係数をTとして、前記正解語が前記誤り語として誤読される誤り率Pを以下式(a)
【数1】

によって算出する
ことを特徴とする請求項1から請求項4のいずれか1項に記載の入力誤り警告装置。
【請求項6】
前記修正入力部は、複数回の段階に亘って前記修正入力を受付け、
前記重み係数算出部は、前記複数段階のうち最後の段階において前記誤り率算出部によって算出された前記誤り率をPとし、前記正解語に対応する前記第1の出現数をnとし、前記第2の出現数をnとし、前記第1の誤り数をeとし、前記第2の誤り数をeとして、重み係数Tを以下式(b)
【数2】

によって算出する
ことを特徴とする請求項2から請求項5のいずれか1項に記載の入力誤り警告装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate


【公開番号】特開2010−266965(P2010−266965A)
【公開日】平成22年11月25日(2010.11.25)
【国際特許分類】
【出願番号】特願2009−115927(P2009−115927)
【出願日】平成21年5月12日(2009.5.12)
【出願人】(000102728)株式会社エヌ・ティ・ティ・データ (438)
【Fターム(参考)】