説明

音認識装置

【課題】両手がふさがった状態でも、正解文字列と実際に記載されている文字列との照合作業を音声により行うことを可能とする音認識装置の提供。
【解決手段】装着者の音声を検出するマイクロフォンと、装着者に音声情報を伝達するスピーカと、正解文字列を読み取るための読取装置と、処理装置と、を備えるハンズフリー型の音声認識装置であって、処理装置が、装着者の読み上げた文字列を音声認識処理し、読取装置で読み取った正解文字列とのマッチングを行い、マッチングの判定結果を出力することを特徴とする音声認識装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、装着者の音声を検出し、音声情報と対象情報の一致を判定する音認識装置に関し、例えば、作業対象車の車台番号の照合検査で利用可能なハンズフリー型の音認識装置に関する。
【背景技術】
【0002】
自動車の登録手続においては、作業対象車の車台番号の確認が行われる。車台番号の刻印は、車体の主要骨格部分に設けられているが、メーカ、車種等により、エンジンルームや座席付近のフロア部分など車台番号の刻印場所が異なっている。そのため、自動車検査場では、自動車検査証(以下、「車検証」という場合がある。)と車体に記された車台番号の一致確認を人手により行わなくてはならない。
【0003】
車台番号で一意に特定される作業対象車は、自動車検査場で所定の検査を経ることにより車両登録され、自動車検査証が発行される。陸運支局長が発行する自動車検査証には、自動車登録番号又は車両番号(ナンバープレート情報)、登録年月日、自動車の種別、用途、自家用・事業用の別、車体の形状、車名、型式、車両重量、幅、高さ、車台番号、原動機の型式、所有者の氏名、住所、使用者の氏名、住所、自動車検査証番号、有効期限の満了する日、発行日、備考等の情報が記載されている。近時の自動車検査証には、二次元バーコードが付されており、バーコードを読み取ることにより、一部の情報を取得することが可能となっている(図2参照)。
【0004】
特許文献1では、車両登録事務処理を簡素化し、登録申請者の手間も軽減するためのシステムであって、登録申請に必要な情報を保持するDSRC車載器から陸運支局システムへ登録申請すると共に保存している登録申請情報を送付すると、陸運支局システムが登録処理を実行する、車両登録システムが提案されている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2002−99681号公報
【発明の開示】
【発明が解決しようとする課題】
【0006】
車台番号の刻印は、例えば開放したボンネットの運転席前のパネル部分に設けられており、作業車が上半身をエンジンルーム内に突っ込んだ体勢で、懐中電灯で照らすなどして車台番号を確認し、照合する必要があった。自動車検査場の多くは屋外にあるため天候や気温によっては過酷な条件となり、また両手がふさがった状態で車台番号の確認を行わなくてはならない場合もあり、作業条件ないし作業効率の改善が求められていた。
【0007】
そこで、本発明は、上記課題を解決することのできる音認識装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
[1]装着者の音声を検出するマイクロフォンと、装着者に音声情報を伝達するスピーカと、正解文字列を読み取るための読取装置と、処理装置と、を備えるハンズフリー型の音声認識装置であって、処理装置が、装着者の読み上げた文字列を音声認識処理し、読取装置で読み取った正解文字列とのマッチングを行い、マッチングの判定結果を出力することを特徴とする音声認識装置。
[2]処理装置が、装着者の読み上げた文字列の音声認識処理を複数回行い、各音声認識処理で得られた文字列について読取装置で読み取った正解文字列とのマッチングを行い、一の音声認識処理で得られた文字列と正解文字列との相違部分がある場合に、相違部分から想定される文字列の組み合わせに対し再度マッチングを行い、正解率および正解精度が最も高い組み合わせを選択することを特徴とする[1]の音声認識装置。
[3]処理装置が、装着者の読み上げた文字列を音声認識し、音声認識した文字列をスピーカから復唱する機能を有することを特徴とする[1]または[2]の音声認識装置。
[4]読取装置が、バーコードリーダであり、正解文字列がバーコードリーダで自動車検査証のバーコードを読み取り得られた車台番号であることを特徴とする[1]ないし[3]のいずれかの音声認識装置。
[5][1]ないし[4]のいずれかの音声認識装置としてコンピュータを機能させるためのプログラム。
【発明の効果】
【0009】
本発明によれば、両手がふさがった状態でも、正解文字列と実際に記載されている文字列との照合作業を音声により行うことが可能となる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施形態に係る音声認識装置の全体構成図である。
【図2】二次元バーコードが付された自動車検査証の模式図である。
【図3】本発明における音声認識処理のイメージ図である。
【発明を実施するための形態】
【0011】
図1に示す本発明の音声認識装置は、処理部1と、ヘッドセット部2と、操作部3とを主要な構成要素とし、ユーザの発話内容を音声認識し、認識した音声信号と正解文とを照合し、その判定結果を合成音等によりヘッドセット部2に出力する機能を有する。
【0012】
処理部1は、演算装置11、オンチップデバイス12、入力装置13、無線通信モジュール14および電源15を有する。以下では処理部1は、マイクロコンピュータを用いた組み込みシステムにより構築した場合の例で説明するが、処理部1の構成はこれに限定されず、汎用計算機(携帯用パソコン、ノートパソコン等)、PDA、携帯電話、スマートフォンなどの広義のコンピュータにより構成することができる。
演算装置11は、中央演算処理装置(CPU)であり、音声認識を行うための演算等を行う。オンチップデバイス12は、制御・通信I/O、内蔵メモリ等の要素である。用途に応じてEthernet(登録商標)、RS232C、CAN、USB、1-Wire(登録商標)等の有線通信ポートを筐体に設けてもよく、またmicroSD等の外部記憶装置を設ける仕様としてもよい。入力装置13は、音声認識装置に対する指令を入力するためのものであり、処理部1に一体的に設けられた入力用ボタンである。無線通信モジュール14は、外部のコンピュータシステムと無線LAN等により情報連係を可能とするためのものである。電源15は、市販の一次または二次電池である。
【0013】
ヘッドセット部2は、片耳タイプまたは両耳タイプのヘッドセットであって、マイクロフォン21とスピーカ22を有している。ヘッドセット部2と処理部1とは有線または無線で接続されており、無線通信を行う場合には、ヘッドセット部2はBluetooth(登録商標。以下省略)等の通信規格に対応した無線通信モジュールと電源を備える必要がある。ユーザが、マイクロフォン21から音声信号を入力すると、処理部1の記憶装置(メモリ)に記憶された正解文との対比が行われ、判定結果がスピーカ22から効果音や合成音声により通知される。
【0014】
操作部3は、処理部1の筐体に設けられ、或いは処理部1と有線または無線で接続された機器から構成される。読取装置31には、バーコードリーダ、ICカードリーダ、OCRリーダ、カメラなどの種々の読取装置を用いることができ、USB等の有線ケーブルやBluetooth等の無線通信により筐体に接続される。携帯電話、スマートフォン等で音声認識装置を構成する場合には、そのカメラを読取装置31として利用してもよい。表示装置32は、例えば液晶ディスプレイである。表示装置32にタッチパネルディスプレイを用いる場合には、個別の入力装置13を設けなくともよい。
【0015】
本発明における音声認識処理について説明する。
本発明では、音声認識における評価メジャーである認識率および単語正解精度を用いて、有意水準である認識精度を評価する。これにより、必ずしも正解文を完全に読み上げる必要はない。加えて、動的計画法を用いたマッチングから挿入誤りなどの検出も期待できることから、複数の認識結果を合成し、下記の例1に示すような正解文を推定する手法を有するものとしている。
【0016】

【0017】
本発明の判定基準としては、例えば、以下のように基準が考えられる。
基準1:1回の認識で単純に90%を超えたら正解
基準2:2回の認識で各80%でかつ、例1のように共通分として比較した結果の総
合判定
基準1が適用できる場合には問題はない。
基準2を適用する手順は次のとおりである。例1において、基準2により正解列と各認識結果を比較するとアンダーラインが確認できる。そこで、ここで得られた差分部分の組み合わせを考えると、WBAGLに対して数字部分の組み合わせが4通り想定される。
すなわち、前半部{77}{62}、後半部{010}{312}であるところ、想定される単語列は{77010}{77312}{62010}{62312}が生成される。よって、これを正解候補とすると既に共通分で認識が確定している"WBAGL"に4つの組み合わせと正解を再度DPマッチングで比較すると、"WBAGL62010"の3番目が正解率(Correct rate)と正解精度(Accuracy rate)が100%で総合的に認識判定できる。これを3回(3C2)、4回(4C2)とデータと候補を増やしながら正解文を生成していくことで90〜100%に近い認識ができ、これを総合判定とすることが例示される。
【0018】
ところで、複数の音声認識結果の共通部分を用いて高信頼度部分を推定する手法が知られている(宇津呂武仁、西崎博光、小玉康広、中川聖一、“複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定”、電子情報通信学会論文誌,D-II, Vol.J86-D-II, No.7, pp.974-987, 2003年7月)。しかし、この手法は共通部分を正解部分と仮定する点で、本発明の手法と相違する。すなわち、本発明の手法によれば、正解文と認識文の相違を確認し、他の認識で相違部分を確認できたときに認識完了とすることが可能である。一般的に音声認識は正解文が無い場合で用いられるが、本発明は正解文と認識文を照合するため、一般的な手法とアプローチが相違するのである。
【0019】
以下では、本発明を実施するための形態を、車体に刻印された車台番号の照合検査を支援するための音声認識装置の例で使用方法を説明する。なお、車台番号は、英文字およびアラビア数字より構成される数桁から十数桁の表記であって、ナンバープレートや所有者が変わっても、車両が廃棄されるまで変更されることのない固有の番号である。
【0020】
まず、ユーザは、バーコードリーダ(読取装置31)で車検証に記された二次元バーコード(QRコード(登録商標))から読み込むことにより、作業対象となる車両の車台番号(正解英数字列)を音声認識装置に取得させる。次にユーザが照合開始指示を出し、車体に刻印された車台番号を読み上げると、マイクロフォン21より入力された音声に対し、演算装置11が連続英数字認識を行う。演算装置11は、得られた音声認識結果と二次元バーコードから読み込んだ車台番号を比較し、一定水準以上の認識精度(例えば、85%以上)が得られたときには一致と判定し、判定結果をユーザに通知する。より詳細には、演算装置11は、音声認識結果と二次元バーコードから読み出した車台番号を動的計画法(DPマッチング)によるマッチングを行い、正解率(Correct rate)および正解精度(Accuracy rate)を演算し、これらのパラメータが有意水準を満たす認識性能があると確認されたときは‘確認’と判定し、条件を満たさずに‘未確認’と判定された場合は再度認識処理を行う。この処理のイメージ図を図3に示す。
【0021】
この音声認識装置は、ユーザが車台番号を読み上げた際の音声信号に基づき、実車の車台番号と車検証に記載される車台番号が一致するかを判定することができるので、両手がふさがった状態でも車台番号の照合を行うことが可能である。従来は、ユーザが書類を見ながら車台番号を付き合わせる作業が必要であったが、本発明によればかかる作業は不要となる。また、処理部1により、車台番号の一致の判定が得られた場合には、車検証情報を管理する外部のコンピュータシステムに無線で判定結果を自動送信すれば、更に効率よく車両登録作業を行うことが可能である。
また、ユーザが入力した音声信号の認識結果を合成音声により出力する手段(復唱機能)を設けてもよい。これにより、ユーザは自己が読み上げた車台番号が正確に音声認識されていることを確認することが可能となる。
さらには、正解文を合成音声により出力する手段を設け、ユーザ側で判定を行い、判定結果を送信させ、或いは記憶装置に記憶させるようにしてもよい。
【0022】
以上に説明した本発明の音声認識装置では、正解英数字列を二次元バーコード等で読み込み、音声認識システムのタスクをリアルタイムで切り替えることも可能である。すなわち、バーコードやICカードをかざすだけで簡単に正解文を切り替えることも可能である。
【0023】
上記では、車台番号の照合検査での利用を説明したが、車検証の二次元バーコードにはナンバープレートの情報も含まれているので、ナンバープレートの照合検査に本発明の音声認識装置を利用することも可能である。
【符号の説明】
【0024】
1 処理部
2 ヘッドセット部
3 操作部
11 演算装置
12 オンチップデバイス
13 入力装置
14 無線通信モジュール
15 電源
21 マイクロフォン
22 スピーカ
31 読取装置
32 表示装置
41 車台番号
42 二次元バーコード

【特許請求の範囲】
【請求項1】
装着者の音声を検出するマイクロフォンと、装着者に音声情報を伝達するスピーカと、正解文字列を読み取るための読取装置と、処理装置と、を備えるハンズフリー型の音声認識装置であって、
処理装置が、装着者の読み上げた文字列を音声認識処理し、読取装置で読み取った正解文字列とのマッチングを行い、マッチングの判定結果を出力することを特徴とする音声認識装置。
【請求項2】
処理装置が、装着者の読み上げた文字列の音声認識処理を複数回行い、各音声認識処理で得られた文字列について読取装置で読み取った正解文字列とのマッチングを行い、一の音声認識処理で得られた文字列と正解文字列との相違部分がある場合に、相違部分から想定される文字列の組み合わせに対し再度マッチングを行い、正解率および正解精度が最も高い組み合わせを選択することを特徴とする請求項1の音声認識装置。
【請求項3】
処理装置が、装着者の読み上げた文字列を音声認識し、音声認識した文字列をスピーカから復唱する機能を有することを特徴とする請求項1または2の音声認識装置。
【請求項4】
読取装置が、バーコードリーダであり、正解文字列がバーコードリーダで自動車検査証のバーコードを読み取り得られた車台番号であることを特徴とする請求項1ないし3のいずれかの音声認識装置。
【請求項5】
請求項1ないし4のいずれかの音声認識装置としてコンピュータを機能させるためのプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2012−230208(P2012−230208A)
【公開日】平成24年11月22日(2012.11.22)
【国際特許分類】
【出願番号】特願2011−97730(P2011−97730)
【出願日】平成23年4月26日(2011.4.26)
【出願人】(504237050)独立行政法人国立高等専門学校機構 (656)
【Fターム(参考)】