説明

入力支援システム

【課題】高いセキュリティを求められるアプリケーションに対して高精度な音声入力機能を簡単に追加することができる入力支援システムを提供すること。
【解決手段】アプリケーションソフトウェアを含む情報処理装置200と、音声認識処理を行う音声認識サーバ600とを有し、アプリケーションソフトウェアに対する入力作業を支援する入力支援システム100であって、公共通信網500を介して音声認識サーバ600に接続する網通信部と、公共通信網500とは別の通信経路により情報処理装置200に接続する装置通信部と、音声を入力する音声入力部と、入力した音声の音声認識サーバ600への送信と、音声認識サーバ600から受信した音声認識処理の結果を表す情報の情報処理装置200への送信とを、交互に行う音声認識管理部とを有する無線通信端末400を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、電子カルテなどのアプリケーションソフトウェアに対して音声入力機能を追加する、入力支援システムに関する。
【背景技術】
【0002】
データベースに大量のデータ入力を行うためのアプリケーションソフトウェア(以下、単に「アプリケーション」という)は、通常、データベースごと、あるいは用途ごとに、独自のものが用意されている。病院の電子カルテは、その代表的なものである。近年の音声認識技術の向上により、このようなアプリケーションに、高精度な音声入力機能を採り入れたいというニーズが高まっている。
【0003】
そこで、入力音声に対する音声認識処理を、音声認識サーバで行う技術が存在する(例えば特許文献1参照)。
【0004】
特許文献1に記載の技術(以下「従来技術」という)において、アプリケーションが稼動する情報処理装置は、入力された音声を、公共通信網を介して、音声認識サーバへ送信する。音声認識サーバは、受信した音声に対して高精度な音声認識処理を行い、その結果を、情報処理装置へ返信する。これにより、特許文献1に記載の技術は、アプリケーションに、高精度な音声入力機能を追加することができる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2007−328659号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、特許文献1に記載の技術は、アプリケーションが稼動する情報処理装置を、公共通信網に接続された状態にしておかなければならないため、高いセキュリティを求められるアプリケーションには適用し難いという課題を有する。
【0007】
本発明の目的は、高いセキュリティを求められるアプリケーションに対して高精度な音声入力機能を簡単に追加することができる入力支援システムを提供することである。
【課題を解決するための手段】
【0008】
本発明の入力支援システムは、アプリケーションソフトウェアを含む情報処理装置と、音声認識処理を行う音声認識サーバとを有し、前記アプリケーションソフトウェアに対する入力作業を支援する入力支援システムであって、公共通信網を介して前記音声認識サーバに接続する網通信部と、前記公共通信網とは別の通信経路により前記情報処理装置に接続する装置通信部と、音声を入力する音声入力部と、入力した前記音声の前記音声認識サーバへの送信と、前記音声認識サーバから受信した前記音声認識処理の結果を表す情報の前記情報処理装置への送信とを、交互に行う音声認識管理部とを有する無線通信端末を有する。
【発明の効果】
【0009】
本発明によれば、高いセキュリティを求められるアプリケーションに対して高精度な音声入力機能を簡単に追加することができる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施の形態に係る入力支援システムの構成を示すシステム構成図
【図2】本実施の形態に係る情報処理装置の構成の一例を示すブロック図
【図3】本実施の形態におけるテーブル作成ルールの内容の一例を示す図
【図4】本実施の形態における操作変換ルールの一例を示す図
【図5】本実施の形態における無線通信端末の構成の一例を示すブロック図
【図6】本実施の形態における音声認識サーバの構成の一例を示すブロック図
【図7】本実施の形態における装置情報の内容の一例を示す図
【図8】本実施の形態におけるクラーク情報の内容の一例を示す図
【図9】本実施の形態におけるクラーク決定ルールの内容の一例を示す図
【図10】本実施の形態における情報処理装置の動作の一例を示すフローチャート
【図11】本実施の形態における入力画面の一例を示す平面図
【図12】本実施の形態におけるテーブル生成処理の一例を示すフローチャート
【図13】本実施の形態における画面構成テーブルの内容の一例を示す図
【図14】本実施の形態における辞書用情報の内容の一例を示す図
【図15】本実施の形態におけるIDテキスト対応情報の内容の一例を示す図
【図16】本実施の形態における情報処理装置から無線通信端末への送信データの構成の一例を示す図
【図17】本実施の形態における無線通信端末の動作の一例を示すフローチャート
【図18】本実施の形態における無線通信端末から音声認識サーバへの第1の送信データの構成の一例を示す図
【図19】本実施の形態における無線通信端末から音声認識サーバへの第2の送信データの構成の一例を示す図
【図20】本実施の形態における音声認識装置の動作の一例を示すフローチャート
【図21】本実施の形態におけるID読み対応テーブルの内容の一例を示す図
【図22】本実施の形態における音声認識サーバから校正端末への送信データの構成の一例を示す図
【図23】本実施の形態における校正端末から音声認識サーバへの送信データの構成の一例を示す図
【図24】本実施の形態における音声認識サーバから情報処理装置への送信データの構成の一例を示す図
【図25】本実施の形態における情報表示装置による操作変換処理の一例を示すフローチャート
【発明を実施するための形態】
【0011】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、本発明を、病院の電子カルテに音声入力機能を追加する入力支援システムに適用した例である。
【0012】
まず、本発明に係る入力支援システムの概要について説明する。
【0013】
図1は、本発明の一実施の形態に係る入力支援システムの構成を示すシステム構成図である。
【0014】
図1において、入力支援システム100は、情報処理装置200と、情報処理装置200が接続する院内LAN300と、無線通信端末400とを有する。情報処理装置200および院内LAN300は、病院内に配置されている。無線通信端末400は、情報処理装置200のユーザ(医師)に携帯され、当該ユーザが情報処理装置200を操作するときには病院内に位置している。
【0015】
なお、院内LAN300、情報処理装置200、および無線通信端末400は、図示しないが、実際には複数配置されている。
【0016】
また、入力支援システム100は、公共通信網500と、公共通信網500に接続された音声認識サーバ600および第1〜第Nの校正端末700−1〜700−Nとを有する。公共通信網500、音声認識サーバ600、および第1〜第Nの校正端末700−1〜700−Nは、病院外に配置されている。
【0017】
情報処理装置200は、電子カルテのアプリケーション(以下「電子カルテ」という)が搭載されたパーソナルコンピュータである。電子カルテに入力された情報は、例えば、院内LAN300に配置された情報サーバ(図示せず)に送信される。情報処理装置200は、無線通信端末400、公共通信網500、音声認識サーバ600、および第1〜第Nの校正端末700−1〜700−Nを用いて、電子カルテに対する音声入力操作を実現する。
【0018】
本実施の形態において、電子カルテは、位置および大きさが可変のウィンドウにより入力画面を表示する、既存のアプリケーションソフトウェアである。入力画面は、テキストボックスなどの複数の入力エリアおよび複数のラベルテキストを配置している。入力エリア(コンポーネント)は、テキスト入力および項目選択の少なくとも1つを受け付ける画像の領域であり、例えば、テキストボックスや選択ボタンである。ラベルテキストは、入力画面に表示される、音声入力などによりユーザによって入力されたテキスト(以下「入力テキスト」という)以外のテキストであり、例えば、入力エリアの属性として表示される文字列である。また、本実施の形態における電子カルテは、各入力エリアに対する読みの設定がされておらず、かつ、高いセキュリティを求められるアプリケーションである。
【0019】
院内LAN300は、患者情報など、秘匿性の高い各種情報をやり取りする通信ネットワークである。
【0020】
無線通信端末400は、例えば、情報処理装置200のユーザ(医師)が携帯する、無線LAN機能とインターネット通信機能とを備えた携帯電話機である。無線通信端末400は、病院内に位置しているとき、情報処理装置200および公共通信網500のそれぞれと、無線通信により接続可能となっている。
【0021】
また、無線通信端末400は、ユーザの発話音声を入力する。無線通信端末400は、公共通信網500、音声認識サーバ600、および第1〜第Nの校正端末700−1〜700−Nを用いて、入力した音声(以下、単に「端末入力音声」という)に対する音声認識結果を取得する。そして、無線通信端末400は、取得した音声認識結果を、情報処理装置200へ転送する。
【0022】
公共通信網500は、インターネットなど、不特定多数の端末が接続可能な通信ネットワークである。
【0023】
音声認識サーバ600は、端末入力音声に対して高精度な音声認識処理を行う。また、音声認識サーバ600は、公共通信網500および第1〜第Nの校正端末700−1〜700−Nを用いて、更に高精度な音声認識結果を得る。
【0024】
第1〜第Nの校正端末700−1〜700−Nは、音声認識サーバ600が行った音声認識処理の結果(以下、適宜、「未校正音声認識結果」という)に対する校正作業を受け付ける。以下、第1〜第Nの校正端末700−1〜700−Nを用いて校正作業を行う人は、「クラーク」という。また、校正作業の結果は、適宜、「校正済音声認識結果」という。
【0025】
このような入力支援システム100は、クラークによる校正作業を取り入れることにより、高精度な音声認識結果を得ることができる。そして、公共通信網500に接続する複数の校正端末700での校正作業を可能にすることにより、活用可能な人的リソースを増やすことができ、より高精度な音声認識結果を、しかも短時間で得ることが可能となる。
【0026】
ところが、電子カルテおよび院内LAN300のセキュリティ確保の観点からみると、情報処理装置200は、公共通信網500と直接に接続すべきではない。
【0027】
そこで、入力支援システム100は、上述の通り、情報処理装置200と公共通信網500との接続を、無線通信端末400との無線通信を介した間接的なものにする。また、入力支援システム100は、音声入力を無線通信端末400で行うことにより、基本的には音声認識結果の1方向転送が行われるのみとすることができ、情報処理装置200と公共通信網500との間の通信頻度を大幅に低減することができる。
【0028】
これにより、入力支援システム100は、電子カルテおよび院内LAN300のセキュリティを確保しつつ、高精度な音声入力機能を電子カルテに追加することができる。
【0029】
また、本実施の形態における電子カルテは、上述の通り既存のアプリケーションであり、そのまま使用したいというニーズがある。
【0030】
ところが、本実施の形態における電子カルテの各入力エリアには、上述の通り、予め読みが設定されているものではない。
【0031】
そこで、入力支援システム100は、情報処理装置200において、入力画面を解析し、入力エリアの表示位置(以下「入力エリア位置」という)とラベルテキストの表示位置(以下「ラベルテキスト位置」という)との相対関係に基づいて、入力エリア位置に対するラベルテキストの対応付けを行う。そして、入力支援システム100は、情報処理装置200において、ラベルテキストに対応する音声認識結果が得られたとき、そのラベルテキストに対応する入力エリア位置を選択する操作情報(入力エリア位置に対する選択操作を示す操作情報)を、電子カルテに入力する。
【0032】
これにより、入力支援システム100は、電子カルテを改変せずに、音声入力機能を電子カルテに追加することができる。すなわち、入力支援システム100は、高いセキュリティを求められる既存のアプリケーションである電子カルテに対して、高精度な音声入力機能を簡単に追加することができる。
【0033】
なお、入力支援システム100は、情報処理装置200において、入力エリア位置を取得し、取得した入力エリア位置に対して、ユーザから手動でラベルテキストの対応付けを行うようにしてもよい。
【0034】
以上で、入力支援システム100の概要についての説明を終える。
【0035】
次に、各装置の構成について説明する。
【0036】
図2は、情報処理装置200の構成の一例を示すブロック図である。
【0037】
図2において、情報処理装置200は、LAN通信部201、端末通信部202、電子カルテ部203、画像出力部204、および操作入力部205を有する。また、情報処理装置200は、テーブル作成ルール格納部206、画面構成解析部207、画面構成テーブル格納部208、操作変換ルール格納部209、および入力情報生成部210を有する。
【0038】
なお、例えば、これら機能部のうち、テーブル作成ルール格納部206、画面構成解析部207、および画面構成テーブル格納部208は、入力エリア位置とラベルテキストとの対応付けの設定を行うアプリケーションを構成する。
【0039】
また、操作変換ルール格納部209および入力情報生成部210は、設定された対応付けに基づいて音声認識結果を電子カルテに入力するアプリケーションを構成する。
【0040】
LAN通信部201は、例えばLANインタフェースであり、院内LAN300と通信可能に接続する。
【0041】
端末通信部202は、例えば無線LANインタフェースであり、無線通信端末400と無線通信を行う。
【0042】
電子カルテ部203は、上述の電子カルテを実現する機能部である。電子カルテ部203は、例えば、LAN通信部201を介して、院内LAN300の情報サーバと通信を行う。
【0043】
画像出力部204は、例えば液晶ディスプレイ(図示せず)であり、電子カルテ部203が生成する入力画面を表示する。
【0044】
操作入力部205は、例えばマウスおよびキーボード(図示せず)であり、ユーザから電子カルテ部203に対する手入力操作を受け付ける。
【0045】
テーブル作成ルール格納部206は、テーブル作成ルールを予め格納する。テーブル作成ルールは、入力エリア位置に対するラベルテキストの対応付けの条件を、入力エリア位置とラベルテキスト位置との相対関係によって規定するルールである。なお、この相対関係は、配置方向および距離を少なくとも含む。
【0046】
図3は、テーブル作成ルールの内容の一例を示す図である。
【0047】
図3に示すように、テーブル作成ルール810は、タイプ811ごとに優先順位812が設定された、対応付けの対象813を記述している。タイプ811は、入力エリアの入力形態のタイプ(以下、単に「タイプ」という)を示し、ここでは、「タブ」、「テキストボックス」、「選択ボタン」、および「選択メニュー」を含むものとする。優先順位812は、より高い優先順位812の対応付けの対象が存在する場合において、より低い優先順位812の対応付けの対象を無視すべきであるということを示す。対応付けの対象813は、入力エリアに対して対応付けるべきラベルテキストの条件を示す。
【0048】
ここで、記号Dは、入力エリアとラベルテキストとの間のx軸方向の離隔距離を表し、記号Dは、入力エリアとラベルテキストとの間のy軸方向の離隔距離を表すものとする。また、記号|Δx|は、入力エリアのx軸座標とラベルテキストのx軸座標との差を表し、記号|Δy|は、入力エリアのy軸座標とラベルテキストのy軸座標との差を表す。
【0049】
例えば、「テキストボックス」というタイプ811の「1」という優先順位812に対応付けて、「左側に位置し、D<Pかつ|Δy|<Pのラベルテキスト」と記述されている。これは、テキストボックスの左側に位置し、D<Pかつ|Δy|<Pを満たすラベルテキストが存在する場合、当該テキストボックスに当該ラベルテキストを対応付けるべきであるということを示す。
【0050】
なお、ここで、Pは、ユーザが、通常の感覚において、入力エリアの左側に位置するラベルテキストを入力エリアの属性を示す情報と感じるx軸方向の離隔距離の、上限値である。また、Pは、ユーザが、通常の感覚において、入力エリアの左側に位置するラベルテキストを入力エリアの属性を示す情報と感じるy軸座標の差分の、上限値である。
【0051】
したがって、テキストボックスの左側に位置し、D<Pかつ|Δy|<Pを満たすラベルテキストを、当該テキストボックスに対応付ける対応付けは、入力画面を見たときのユーザの感覚に適合する。なお、テーブル作成ルール810の他の対応付けも、同様にユーザの感覚に適合した内容となっている。
【0052】
したがって、このようなテーブル作成ルール810に基づいて入力エリアに対するラベルテキストの対応付けを行うことにより、各入力エリアに対するラベルテキストの設定を、ユーザの感覚に適合した内容で行うことが可能となる。
【0053】
図2の画面構成解析部207は、電子カルテ部203に問い合わせて、入力エリア位置およびラベルテキスト位置を取得する。そして、画面構成解析部207は、取得した、入力エリア位置およびラベルテキスト位置から、テーブル作成ルールに基づいて、画面構成テーブルを生成する。画面構成テーブルは、入力エリア位置に対するラベルテキストの対応付けと、対応付けごとのIDとを記述したテーブルである。画面構成テーブルに記述されるIDは、言い換えると、入力エリアを表す読みを特定する情報(第1の情報)であり、かつ、ラベルテキストの読みを特定する情報(第3の情報)である。
【0054】
また、画面構成解析部207は、画面構成テーブルに記述された対応付けごとに、IDとラベルテキストとの組を、端末通信部202を介して無線通信端末400へ送信する。
【0055】
また、画面構成解析部207は、選択メニューが存在するとき、選択メニューのIDと複数のメニュー項目テキストとを組み付けた辞書用情報を、端末通信部202を介して無線通信端末へ送信する。選択メニューとは、予め用意された複数のメニュー項目テキストに対する選択を受け付ける入力エリアであり、例えばプルダウンメニューである。
【0056】
画面構成テーブル格納部208は、画面構成解析部207により生成された画面構成テーブルを記憶する。
【0057】
なお、画面構成解析部207は、上述の通り、入力エリア位置に対して、ユーザから手動でラベルテキストの対応付けを行うようにしてもよい。
【0058】
この場合、情報処理装置200は、必ずしもテーブル作成ルール格納部206を備えなくてもよい。また、この場合のメリットは、例えば、ユーザが発話し易い読み(例えば略語や外国語)、あるいは覚え易い読みを、自由に設定することができる点である。
【0059】
操作変換ルール格納部209は、操作変換ルールを予め格納する。操作変換ルールは、音声認識処理の結果を表す情報(第2の情報)を、画面構成テーブルを用いて操作情報に変換するためのルールである。
【0060】
図4は、操作変換ルールの内容の一例を示す図である。
【0061】
図4に示すように、操作変換ルール820は、タイプ821に対応付けて、操作情報の内容822を記述している。
【0062】
操作情報の内容822は、音声認識処理の結果に対応するラベルテキストが画面構成テーブルに存在するとき、そのラベルテキストに対応する入力エリア(以下「操作対象入力エリア」という)に関して出力すべき操作情報の内容を示す。
【0063】
例えば、「テキストボックス」というタイプ821に対応付けて、「取得された絶対座標でワンクリック+入力テキスト」という操作情報の内容822が記述されている。これは、音声認識処理の結果が示す入力エリアの基準点(例えば左上端部)の絶対座標の位置においてワンクリックする操作と、音声認識処理の結果に含まれる入力テキストを続けて入力する操作とを示す操作情報を、出力すべきであるといいうことを示す。
【0064】
図2の入力情報生成部210は、端末入力音声に対する音声認識処理の結果を表す情報が、画面構成テーブルにおいていずれかの入力エリアの表示位置に対応付けられているとき、当該表示位置に対する操作情報を、電子カルテ部203に入力する。
【0065】
より具体には、入力情報生成部210は、無線通信端末400から送られてきた音声認識処理の結果を表す情報を、画面構成テーブルにおいて検索する。そして、入力情報生成部210は、当該IDが画面構成テーブルに記述されたIDと一致するとき、当該IDに対応する入力エリアの表示位置に対する選択操作を示す操作情報を、電子カルテ部203に入力する。
【0066】
また、入力情報生成部210は、音声認識処理の結果を表す情報が、選択メニューのIDと入力テキストとを示すとき、当該IDに該当する入力エリアの表示位置に対する選択操作を示す操作情報を、まず電子カルテ部203に入力する。そして、これに続けて、入力情報生成部210は、テキストの入力操作を示す操作情報を、電子カルテ部203に入力する。
【0067】
なお、入力情報生成部210は、これらの操作情報を、操作変換ルール(図4参照)を用いて、音声認識処理の結果を変換することにより取得する。
【0068】
図5は、無線通信端末400の構成の一例を示すブロック図である。
【0069】
図5において、無線通信端末400は、網通信部401、装置通信部402、音声入力部403、および音声認識管理部404を有する。
【0070】
網通信部401は、例えば、公共通信網500に接続された携帯電話網(図示せず)と無線通信を行うための無線通信インタフェースである。網通信部401は、携帯電話網および公共通信網500を介して、音声認識サーバ600および第1〜第Nの校正端末700−1〜700−Nのそれぞれと、通信可能に接続する。
【0071】
装置通信部402は、例えば無線LANインタフェースであり、公共通信網500とは別の通信経路(ここでは無線LAN)により、情報処理装置200に接続する。
【0072】
音声入力部403は、ユーザの発話音声を入力する。
【0073】
音声認識管理部404は、音声入力部403により入力された音声である端末入力音声を、音声認識処理の対象として、網通信部401を介して音声認識サーバ600へ送信する。
【0074】
また、音声認識管理部404は、校正作業の結果(校正済音声認識結果)を、網通信部401を介して第1〜第Nの校正端末700−1〜700−Nから受信する。そして、音声認識管理部404は、受信した校正作業の結果を、電子カルテ部203に対する操作情報として、装置通信部402を介して情報処理装置200へ送信する。
【0075】
また、音声認識管理部404は、情報処理装置200から装置通信部402を介して受信したIDとラベルテキストとの組を、網通信部401を介して音声認識サーバ600へ送信する。
【0076】
図6は、音声認識サーバ600の構成の一例を示すブロック図である。
【0077】
図6において、音声認識サーバ600は、網通信部601、音声認識データベース602、逆認識処理部603、対応テーブル格納部604、および音声認識処理部605を有する。また、音声認識サーバ600は、装置情報格納部606、クラーク情報格納部607、クラーク決定ルール格納部608、および校正管理部609を有する。
【0078】
網通信部601は、例えば、公共通信網500に接続されたプロバイダ網(図示せず)と有線通信を行うためのLANインタフェースである。網通信部601は、プロバイダ網および公共通信網500を介して、音声認識サーバ600および第1〜第Nの校正端末700−1〜700−Nのそれぞれと、通信可能に接続する。
【0079】
音声認識データベース602は、音声認識処理に用いられる音響モデル、言語モデル、および辞書などのデータを格納する。
【0080】
逆認識処理部603は、無線通信端末400から受信したIDとラベルテキストとの組ごとに、ラベルテキストの読みをラベルテキストに対する逆認識処理により取得する。そして、逆認識処理部603は、取得した読みとIDとを対応付けたID読み対応テーブルを生成する。
【0081】
対応テーブル格納部604は、逆認識処理部603により生成されたID読み対応テーブルを格納する。
【0082】
音声認識処理部605は、音声認識データベース602を用いて、無線通信端末400から受信した端末入力音声に対する音声認識処理を行う。
【0083】
装置情報格納部606は、装置情報を格納する。装置情報は、情報処理装置200、音声入力の対象となっているアプリケーション(ここでは電子カルテ部203)、および当該アプリケーションのユーザの少なくとも1つの属性情報を含む。
【0084】
図7は、装置情報の内容の一例を示す図である。
【0085】
図7に示すように、装置情報830は、端末ID831、装置ID832、分野833、希望レベル834、および希望単価835を、対応付けて記述する。
【0086】
端末ID831は、無線通信端末(他の無線通信端末を含む)のIDである。装置IDは、端末ID831が示す無線通信端末を利用して音声認識機能が追加される情報処理装置(他の情報処理装置を含む)のIDである。分野833は、装置IDが示す情報処理装置において音声入力の対象となるアプリケーションの分野を示す。希望レベル834は、装置IDが示す情報処理装置のユーザが希望する、上記アプリケーションに対する音声認識結果の校正の精度のレベル(以下、単に「レベル」という)を示す。希望単価835は、上記ユーザが希望する、上記アプリケーションに対する音声認識の単価(例えば音声1分当たりの金額。以下、単に「単価」という)を示す。
【0087】
例えば、「T1」という端末ID831には、「M1」という装置ID832が対応付けられている。これは、端末IDが「T1」である無線通信端末から受信した端末入力音声については、その音声認識結果を、装置IDが「M1」である情報処理装置に送信すべきであるということを示す。ここでは、無線通信端末400の端末IDが、「T1」であるものとする。また、情報処理装置200の装置IDが、「M1」であるものとする。また、「T1」という端末IDに対応付けて、「医療」という分野833が記述されている。これは、対応する情報処理装置200において音声入力の対象となるアプリケーション(ここでは電子カルテ部203)は、医療分野のアプリケーションであるということを示す。また、「T1」という端末IDに対応付けて、「2以上」という希望レベル834、および、「100円/分以下」という希望単価835が記述されている。これは、校正作業の精度の希望レベルが2以上であり、その希望単価が1分当たり100円以下であるということを示す。
【0088】
装置情報830は、例えば、オペレータにより事前に手入力により設定されてもよいし、校正管理部609が情報処理装置および無線通信端末に必要な情報を問い合わせて作成してもよい。
【0089】
図6のクラーク情報格納部607は、クラーク情報を格納する。クラーク情報は、校正端末のオペレータの属性情報を含む。本実施の形態において、クラーク情報は、現在、校正端末において校正作業が可能か否かを示す情報と、オペレータの校正作業の対象の得意範囲を示す情報を含むものとする。
【0090】
図8は、クラーク情報の内容の一例を示す図である。
【0091】
図8に示すように、クラーク情報840は、校正端末ID841、クラークID842、作業ステータス843、不得意分野844、得意分野845、レベル846、および単価847を記述する。
【0092】
校正端末ID841は、校正端末700のIDである。クラークID842は、校正端末ID841が示す校正端末700を使用するクラークのIDである。作業ステータス843は、クラークID842が示すクラークが、現在、校正作業を即時に行うことができる状態か否かを示す。不得意分野844は、上記クラークが校正作業を不得意とする分野を示す。得意分野844は、上記クラークが校正作業を得意とする分野を示す。レベル846は、上記クラークのレベルを示す。単価847は、上記クラークにより校正作業が行われた場合の単価を示す。
【0093】
例えば、「P1」という校正端末ID841に対応付けて、「C1」というクラークID842が記述されている。これは、「P1」という校正端末ID841に送信した未校正音声認識結果は、「C1」というクラークID842により校正作業を受けるということを示す。また、「C1」というクラークID842に対応付けて、「作業可」という作業ステータス843、「文学」という不得意分野844、および、「医療」という得意分野845が記述されている。これは、クラークIDが「C1」であるクラークが、現在、即時の校正作業が可能であり、不得意分野は文学であり、得意分野は医療であるということを示す。また、「C1」というクラークID842に対応付けて、「1」というレベル846、および、「90円/分」という単価847が記述されている。これは、当該クラークのレベルは1であるということ、および、当該クラークが校正作業を行った場合の単価が1分あたり90円であるということを示す。
【0094】
図6のクラーク決定ルール格納部608は、クラーク決定ルールを予め格納する。クラーク決定ルールは、音声認識処理の結果に対する校正端末700の選択の条件を、装置情報と、クラーク情報との関係によって規定するルールである。本実施の形態において、クラーク決定ルールは、現在、校正作業が可能である校正端末を選択することを少なくとも規定するものとする。また、クラーク決定ルールは、音声入力の対象となっているアプリケーション(ここでは電子カルテ部203)およびユーザを得意範囲に含むオペレータが存在するとき、当該オペレータの校正端末700を選択することを少なくとも規定するものとする。
【0095】
図9は、クラーク決定ルールの内容の一例を示す図である。
【0096】
図9に示すように、クラーク決定ルール850は、優先順位851が設定された条件852を記述する。
【0097】
優先順位851は、より高い優先順位851の条件が満たされるようなクラークをより優先的に選択すべきことを示す。条件852は、校正作業を行わせるべきクラークの条件を示す。
【0098】
例えば、「1」という優先順位に対応付けて、「作業可である」という条件852が記述されている。これは、作業可となっていることが、校正作業を行わせるべきクラークの最優先の条件であるということを示す。
【0099】
図6の校正管理部609は、音声認識処理部605による音声認識処理の結果(未校正音声認識結果)ごとに、対応する装置情報を取得する。校正管理部609は、クラーク決定ルールに基づいて、第1〜第Nの校正端末700−1〜700−Nの中から1つまたは複数の校正端末700を選択する。そして、校正管理部609は、選択した校正端末700に音声認識処理の結果に対する校正作業を行わせる。その後、校正管理部609は、校正端末700から受信した校正作業の結果(校正済音声認識結果)が示す読みを、ID読み対応テーブルで検索する。そして、校正管理部609は、当該読みがID読み対応テーブルに存在するとき、当該読みに対応するIDを、無線通信端末400へ送信する。
【0100】
以上の情報処理装置200、無線通信端末400、および音声認識サーバ600は、例えば、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)などの記憶媒体、およびRAM(Random Access Memory)などの作業用メモリをそれぞれ有する。この場合、上記した各構成部の機能は、CPUが制御プログラムを実行することにより実現される。
【0101】
以上のような構成を有する情報処理装置200、無線通信端末400、および音声認識サーバ600により、図1で説明したそれぞれの機能が実現される。すなわち、入力支援システム100は、これらの装置と第1〜第Nの校正端末700−1〜700−Nとを備えることにより、高いセキュリティを求められる既存のアプリケーションである電子カルテに対して、高精度な音声入力機能を簡単に追加することができる。
【0102】
以上で、各装置の構成についての説明を終える。
【0103】
以下、各装置の動作について説明する。但し、電子カルテへの音声認識機能の追加に関する処理のみに着目して説明を行う。
【0104】
図10は、情報処理装置200の動作の一例を示すフローチャートである。
【0105】
まず、ステップS1100において、画面構成解析部207は、電子カルテ部203が新たな入力画面を表示したか否かを判断する。
【0106】
新たな入力画面とは、解析済みの(つまり対応する画面構成テーブルを生成済みの)入力画面と内容が異なる入力画面だけでなく、内容が同じであっても大きさおよび配置の少なくとも1つが異なる入力画面を含む。
【0107】
図11は、入力画面の一例を示す平面図である。
【0108】
図11に示すように、入力画面861は、情報処理装置200のデスクトップ画面862に表示されるウィンドウである。入力画面861は、例えば、操作入力部205を介してユーザにより行われるカーソル863の操作により、デスクトップ画面862における位置および大きさが可変となっている。
【0109】
本実施の形態において、入力画面861は、内部に「患者情報」というラベルテキスト864が配置されたタブ865と、内部に「病院情報」というラベルテキスト866が配置されたタブ867とを有する。入力画面861は、左側近傍に「氏名」というラベルテキスト868が配置されたテキストボックス869を有する。入力画面861は、左側近傍に「性別」というラベルテキスト870が配置され、右側近傍に「男」というラベルテキスト871が配置された選択ボタン872を有する。入力画面861は、左側近傍に「性別」というラベルテキスト870が配置され、右側近傍に「女」というラベルテキスト873が配置された選択ボタン874を有する。入力画面861は、左側近傍に「診療科目」というラベルテキスト875が配置された選択メニュー876を有する。選択メニュー876は、「内科」、「外科」、「整形外科」、・・・というメニュー項目テキスト群877を有する。
【0110】
なお、後述するが、画面構成解析部207は、デスクトップ画面862の座標系である絶対座標系878と、入力画面861の座標系である相対座標系879とを用いて、入力画面861の解析(以下、適宜、「画面構成解析」という)を行う。絶対座標系878は、X軸とY軸とから成るものとする。相対座標系879は、x軸とy軸とから成るものとする。なお、図11に示す絶対座標系878および相対座標系879は、デスクトップ画面862および入力画面861には表示されない。
【0111】
なお、絶対座標系における位置のみが異なるものは、新たな入力画面として扱ってもよいが、本実施の形態に係る情報処理装置200は、新たな入力画面として取り扱わないものとする。但し、情報処理装置200は、絶対座標系における入力画面の(相対座標系の)位置を逐次取得し、操絶対座標系を用いた内容で操作情報を生成するものとする。
【0112】
画面構成解析部207は、電子カルテ部203が新たな入力画面を表示した場合(図10のS1100:YES)、ステップS1200へ進む。また、画像構成解析部207は、電子カルテ部203が新たな入力画面を表示していない場合(S1100:NO)、ステップS1300へ進む。
【0113】
ステップS1200において、画面構成解析部207は、ステップS1100において、テーブル生成処理を行って、ステップS1300へ進む。テーブル生成処理は、入力画面を解析して画面構成テーブルを生成する処理である。テーブル生成処理の詳細については後述する。
【0114】
そして、ステップS1300において、入力情報生成部210は、新たな音声認識結果を受信したか否かを判断する。入力情報生成部210は、新たな音声認識結果を受信した場合(S1300:YES)、ステップS1400へ進む。また、入力情報生成部210は、新たな音声認識結果を受信していない場合(S1300:NO)、ステップS1500へ進む。
【0115】
ステップS1400において、入力情報生成部210は、操作変換処理を行って、ステップS1500へ進む。操作変換処理は、端末入力音声に対する音声認識処理の結果を、操作情報に変換して電子カルテ部203へ渡す処理である。操作変換処理の詳細については後述する。
【0116】
そして、ステップS1500において、入力情報生成部210は、ユーザ操作などにより処理の終了を指示されたか否かを判断する。入力情報生成部210は、処理の終了を指示されていない場合(S1500:NO)、ステップS1100へ戻る。また、入力情報生成部210は、処理の終了を指示された場合(S1500:YES)、一連の処理を終了する。
【0117】
このような動作により、情報処理装置200は、新たな入力画面が表示されるごとに、その入力画面に対応した画面構成テーブルを生成することができる。そして、情報処理装置200は、新たな音声認識結果が受信されるごとに、その音声認識結果の操作情報への変換を行うことができる。
【0118】
図12は、テーブル生成処理(図10のステップS1200)の一例を示すフローチャートである。
【0119】
まず、ステップS1201において、画面構成解析部207は、電子カルテ部203から、入力画面の画面情報を取得する。画面情報は、入力画面を構成する各入力エリアのタイプおよび表示位置と、入力画面を構成する各ラベルテキストと、その表示位置およびサイズを含む。画面情報の取得は、入力画面がマイクロソフト社のウィンドウズ(登録商標)におけるウィンドウである場合、対応するウィンドウズメッセージを電子カルテ部203へ渡すことにより、可能である。
【0120】
そして、ステップS1202において、画面構成解析部207は、取得した入力エリアのうち1つを選択する。
【0121】
そして、ステップS1203において、画面構成解析部207は、テーブル作成ルール(図3参照)に従って、選択中の入力エリアにラベルテキストを対応付ける。
【0122】
例えば、図11に示す入力画面861において、テキストボックス869が選択されている場合、画面構成解析部207は、「氏名」というラベルテキスト868を、テキストボックス869に対応付ける。
【0123】
そして、ステップS1204において、画面構成解析部207は、ステップS1203において行った対応付けと、コンポーネットのタイプおよび相対座標などを、画面構成テーブルに登録する。後述のステップS1207の処理により、このような画面構成テーブルへの登録は、全ての入力エリアについて行われる。
【0124】
図13は、図11に示す入力画面から図3に示すテーブル作成ルールに基づいて生成された、画面構成テーブルの内容の一例を示す図である。
【0125】
図13に示すように、画面構成テーブル880は、フィールドID881ごとに、親ID882、タイプ883、相対座標884、プロパティ885、およびラベルテキスト886を記述する。
【0126】
フィールドID881は、入力エリアのIDである。親ID882は、入力エリアの親に位置づける親入力エリアのIDである。タイプ883は、フィールドID881が示す入力エリアのタイプである。相対座標884は、入力画面861の相対座標系829における、フィールドID881が示す入力エリアの基準点の座標(図11参照)である。プロパティ885は、フィールドID881が示す入力エリアがタブである場合のタブインデックスである。ラベルテキスト886は、フィールドID881が示す入力エリアに対応付けられたラベルテキスト886である。
【0127】
例えば、「2」というフィールドID881に対応付けて、「1」という親ID882、「テキストボックス」というタイプ883、および「x,y」という相対座標884が記述されている。これは、フィールドID881が「2」である入力エリアは、フィールドID881が「1」である入力エリアを親とし、テキストボックスであり、その基準点の相対座標が(x,y)であるということを示す。また、「2」というフィールドID881に対応付けて、「氏名」というラベルテキスト886が記述されている。これは、フィールドID881が「2」である入力エリアに、「氏名」というラベルテキスト886が対応付けられたことを示す。
【0128】
そして、図12のステップS1205において、画面構成解析部207は、選択中の入力エリアのタイプが選択メニューであるか否かを判断する。画面構成解析部207は、選択中の入力エリアが選択メニューである場合(S1205:YES)、ステップS1206へ進む。また、画面構成解析部207は、選択中の入力エリアが選択メニューではない場合(S1205:NO)、ステップS1207へ進む。
【0129】
ステップS1206において、画面構成解析部207は、選択メニューのメニュー項目テキストから辞書用情報を生成して、ステップS1207へ進む。
【0130】
図14は、図11に示す入力画面から生成される辞書用情報の内容の一例を示す図である。
【0131】
図14に示すように、辞書用情報890は、フィールドID891に対応付けて、メニュー項目テキスト892のリストを記述する。メニュー項目テキスト892は、フィールドID891が示す入力エリア(選択メニュー)における選択の対象であるメニュー項目テキストを示す。
【0132】
そして、図12のステップS1207において、画面構成解析部207は、入力画面を構成する全ての入力エリアを処理したか否かを判断する。画面構成解析部207は、未処理の入力エリアが存在する場合(S1207:NO)、ステップS1202へ戻る。また、画面構成解析部207は、全ての入力エリアを処理した場合(S1207:YES)、ステップS1208へ進む。
【0133】
ステップS1208において、画面構成解析部207は、画面構成テーブルから、IDテキスト対応情報を生成する。IDテキスト対応情報は、フィールドIDとラベルテキストとの対応付けを示す情報である。
【0134】
図15は、図13に示す画面構成テーブルから生成されるIDテキスト対応情報の内容の一例を示す図である。
【0135】
図15に示すように、IDテキスト対応情報900は、フィールドID901とラベルテキスト902との組およびタイプ903を記述する。ラベルテキスト902は、フィールドID901が示す入力エリアに対応付けられたラベルテキストを示す。タイプ903は、フィールドID901が示す入力エリアのタイプを示す。
【0136】
そして、図12のステップS1209において、画面構成解析部207は、生成したIDテキスト対応情報を、無線通信端末400へ送信する。また、画面構成解析部207は、辞書用情報を生成した場合には、これについても、無線通信端末400へ送信する。そして、画面構成解析部207は、図10の処理へ戻る。
【0137】
図16は、情報処理装置200から無線通信端末400への送信データの構成の一例を示す図である。
【0138】
図16に示すように、情報処理装置200から無線通信端末400への送信データ910は、例えば、IDテキスト対応情報911を含み、更に、適宜、辞書用情報912を含む。
【0139】
このようなテーブル生成処理により、情報処理装置200は、電子カルテ部203の入力画面から、入力エリア位置に対するラベルテキストの対応付けを決定することができる。そして、情報処理装置200は、その対応付けを、画面構成データとして保持すると共に、IDテキスト対応情報として無線通信端末400へ送信することができる。
【0140】
図17は、無線通信端末400の動作の一例を示すフローチャートである。
【0141】
まず、音声認識管理部404は、IDテキスト対応情報および辞書用情報の少なくとも一方を、情報処理装置200から受信したか否かを判断する。音声認識管理部404は、IDテキスト対応情報および辞書用情報の少なくとも一方を受信した場合(S2010:YES)、ステップS2020へ進む。また、音声認識管理部404は、IDテキスト対応情報および辞書用情報のいずれも受信していない場合(S2010:NO)、ステップS2030へ進む。
【0142】
ステップS2020において、音声認識管理部404は、IDテキスト対応情報および辞書用情報のうち受信したものを、音声認識サーバ600へ転送して、ステップS2030へ進む。この際、音声認識管理部404は、送信元のIDとして、無線通信端末400の端末IDを、転送する情報に付与する。
【0143】
図18は、無線通信端末400から音声認識サーバ600への第1の送信データの構成の一例を示す図である。
【0144】
図18に示すように、無線通信端末400から音声認識サーバ600への第1の送信データ920は、例えば、端末ID921およびIDテキスト対応情報922を含み、更に、適宜、辞書用情報923を含む。端末ID921は、第1の送信データ920の送信元である無線通信端末400の端末IDを示す。IDテキスト対応情報922および辞書用情報923は、図16のIDテキスト対応情報911および辞書用情報912に対応している。
【0145】
そして、図17のステップS2030において、音声認識管理部404は、音声入力部403を介してユーザの音声入力があったか否かを判断する。音声認識管理部404は、音声入力があった場合(S2030:YES)、ステップS2040へ進む。また、音声認識管理部404は、音声入力がない場合(S2030:NO)、ステップS2050へ進む。
【0146】
ステップS2040において、音声認識管理部404は、端末入力音声の音声データを含む音声情報を、音声認識サーバ600へ送信して、ステップS2050へ進む。この際、音声認識管理部404は、送信元として無線通信端末400の端末IDを、送信する情報に付与する。
【0147】
図19は、無線通信端末400から音声認識サーバ600への第2の送信データの構成の一例を示す図である。
【0148】
図19に示すように、無線通信端末400から音声認識サーバ600への第2の送信データ930は、例えば、端末ID931および音声情報932を含む。端末ID931は、第2の送信データ930の送信元である無線通信端末400の端末IDを示す。音声情報932は、端末入力音声の音声データを含む情報である。
【0149】
そして、図17のステップS2050において、音声認識管理部404は、音声認識サーバ600から音声認識結果を受信したか否かを判断する。音声認識管理部404は、音声認識結果を受信した場合(S2050:YES)、ステップS2060へ進む。また、音声認識管理部404は、音声認識結果を受信していない場合(S2050:NO)、ステップS2070へ進む。
【0150】
ステップS2060において、音声認識管理部404は、受信した音声認識結果を、情報処理装置200へ転送して、ステップS2070へ進む。IDテキスト対応情報および辞書用情報のうち受信したものを、音声認識サーバ600へ転送して、ステップS2030へ進む。この転送されるデータの詳細については後述する。
【0151】
そして、ステップS2070において、音声認識管理部404は、ユーザ操作などにより処理の終了を指示されたか否かを判断する。音声認識管理部404は、処理の終了を指示されていない場合(S2070:NO)、ステップS2010へ戻る。また、音声認識管理部404は、処理の終了を指示された場合(S2070:YES)、一連の処理を終了する。
【0152】
このような動作により、無線通信端末400は、情報処理装置200から送られてきたIDテキスト対応情報を、音声認識サーバ600へ転送し、端末入力音声の音声情報を、音声認識サーバ600へ送信することができる。また、無線通信端末400は、音声認識サーバ600から送られてきた音声認識結果を、情報処理装置200へ転送することができる。
【0153】
図20は、音声認識装置600の動作の一例を示すフローチャートである。
【0154】
まず、ステップS3010において、逆認識処理部603は、無線通信端末400からIDテキスト対応情報(図15参照)を受信したか否かを判断する。逆認識処理部603は、IDテキスト対応情報を受信していない場合(S3010:NO)、後述のステップS3030へ進む。また、逆認識処理部603は、IDテキスト対応情報を受信した場合(S3010:YES)、ステップS3020へ進む。また、逆認証処理部603は、逆認識処理部603は、IDテキスト対応情報に含まれるラベルテキストを読みに逆変換して、ID読み対応テーブルを生成する。
【0155】
図21は、図15に示すIDテキスト対応情報から生成されるID読み対応テーブルの内容の一例を示す図である。
【0156】
図21に示すように、ID読み対応テーブル940は、フィールドID941に対応付けて、読み942を記述する。読み942は、フィールドID941が示す入力エリアに対応付けられていたラベルテキストの読みを示す。
【0157】
例えば、「2」というフィールドID941に対応付けて、「しめい」という読み942が記述されている。これは、フィールドID941が「2」である入力エリアに対応付けられたラベルテキストの読みが、「しめい」であるということを示す。
【0158】
なお、逆認識処理部603は、受信したIDテキスト対応情報に記述された入力エリアのタイプおよびラベルテキストと、逆変換処理により得られた読みとから、言語モデルを構築または再構築し、音声認識データベース602に登録する。
【0159】
例えば、逆認識処理部603は、「しめい」という読みがテキストボックスに対応すること、および、その基のラベルテキストが「氏名」であることから、「しめい」という読みの直後には名前が配置されるとする内容を、言語モデルに追加する。また、例えば、「しんりょうかもく」という読みが、選択メニューに対応している。このことから、逆認識処理部603は、「しんりょうかもく」という読みの直後には、対応して受信した辞書用情報に記述されたメニュー項目テキストが配置されるとする内容を、言語モデルに追加する。
【0160】
なお、音声認識サーバ600は、端末IDを用いて、ID読み対応テーブル940、言語モデル、辞書用情報などを、無線通信端末400ごとに管理するものとする。
【0161】
そして、図20のステップS3030において、逆認識処理部603は、無線通信端末400から辞書用情報(図14参照)を受信したか否かを判断する。逆認識処理部603は、辞書用情報を受信した場合(S3030:YES)、ステップS3040へ進む。また、逆認識処理部603は、辞書用辞書を受信していない場合(S3030:NO)、ステップS3050へ進む。
【0162】
ステップS3040において、逆認識処理部603は、辞書用情報に含まれるメニュー項目テキストのリストを、辞書用情報に含まれるフィールドIDについての音声認識結果候補(辞書)として、音声認識データベース602に登録する。
【0163】
なお、音声認識サーバ600は、端末IDを用いて、音声認識結果候補(辞書)を、無線通信端末400ごとに管理するものとする。
【0164】
そして、ステップS3050において、音声認識処理部605は、無線通信端末400から音声情報を受信したか否かを判断する。音声認識処理部605は、音声情報を受信した場合(S3050:YES)、ステップS3060へ進む。また、音声認識処理部605は、音声情報を受信していない場合(S3050:NO)、ステップS3070へ進む。
【0165】
ステップS3060において、音声認識処理部605は、音声認識データベース6020を用いて、受信した音声情報に含まれる音声データに対する音声認識処理を行う。音声認識処理の結果、端末入力音声を仮名に変換した読みと、その読みを仮名漢字変換した仮名漢字テキストとが得られる。
【0166】
そして、ステップS3080において、校正管理部609は、装置情報(図7参照)およびクラーク情報(図8参照)に基づき、クラーク決定ルール(図9参照)に従って、校正作業を行わせるクラークを決定する。そして、校正管理部609は、音声認識処理の結果(未校正音声認識結果)を、決定したクラークに対応する校正端末700へ送信して、ステップS3070へ進む。
【0167】
図22は、音声認識サーバ600から校正端末700への送信データの構成の一例を示す図である。
【0168】
図22に示すように、音声認識サーバ600から校正端末700への送信データ950は、端末ID951、音声情報952、および未校正音声認識結果953を含む。
【0169】
端末ID951は、音声情報952の送信元の無線通信端末400の端末IDを示す。未校正音声認識結果953は、音声情報952に対する音声認識結果である。
【0170】
この未校正音声認識結果953は、校正端末700における校正作業を経て、校正済音声認識結果として返信される。
【0171】
図23は、校正端末700から音声認識サーバ600への送信データの構成の一例を示す図である。
【0172】
図23に示すように、校正端末700から音声認識サーバ600への送信データ960は、端末ID961および校正済音声認識結果962を含む。端末ID961は、校正済音声認識結果962の基となった音声情報952の送信元の無線通信端末400の端末IDを示す。
【0173】
図20のステップS3070において、校正管理部609は、校正端末700から校正結果(校正済音声認識結果)を受信したか否かを判断する。校正管理部609は、校正結果を受信した場合(S3070:YES)、ステップS3090へ進む。また、校正管理部609は、校正結果を受信していない場合(S3070:NO)、ステップS3100へ進む。
【0174】
ステップS3090において、校正管理部609は、ID読み対応テーブル(図21参照)において、受信した校正済音声認識結果に対応するフィールドIDを取得する。そして、校正管理部609は、取得したフィールドIDを、校正済音声認識結果として、無線通信端末400へ送信する。また、校正済音声認識結果が、「しめい、やまだはなこ」および「氏名、山田花子」というように、ID読み対応テーブルに記述された読みと入力テキストとから成る場合がある。この場合、校正管理部609は、フィールドIDと入力テキストとを、校正済音声認識結果として、無線通信端末400へ送信する。この際、入力テキストとしては、仮名漢字変換されたテキスト(上述の例では、「やまだはなこ」ではなく「山田花子」)が送信される。そして、校正管理部609は、ステップS3100へ進む。
【0175】
音声認識サーバ600から無線通信端末400への送信データは、上述の通り、無線通信端末400により、情報処理装置200へと転送される。
【0176】
図24は、音声認識サーバ600から情報処理装置200への送信データの構成の一例を示す図である。
【0177】
図24に示すように、音声認識サーバ600から情報処理装置200への送信データ970は、フィールドID971を含み、更に、適宜、入力テキスト972を含む。入力テキスト972が含まれるのは、フィールドID971が示す入力エリアの種類が、例えば、テキストボックスあるいは選択メニューのときである。
【0178】
そして、図20のステップS3100において、校正管理部609は、オペレータ操作などにより処理の終了を指示されたか否かを判断する。校正管理部609は、処理の終了を指示されていない場合(S3100:NO)、ステップS3010へ戻る。また、校正管理部609は、処理の終了を指示された場合(S3100:YES)、一連の処理を終了する。
【0179】
このような動作により、音声認識サーバ600は、入力画面の属性や構成を反映させて精度の高い音声認識処理を行うことができ、更に、適切なクラークを選択し校正作業を行わせて、更に高い音声認識処理を行うことができる。
【0180】
図25は、情報表示装置200による操作変換処理(図10のステップS1400)の一例を示すフローチャートである。
【0181】
まず、ステップS1401において、入力情報生成部210は、入力画面861の絶対座標(例えば、相対座標系879の原点oの絶対座標、図11参照)を、電子カルテ部203から取得する。入力画面861の絶対座標の取得は、入力画面がマイクロソフト社のウィンドウズ(登録商標)におけるウィンドウである場合、対応するウィンドウズメッセージを電子カルテ部203へ渡すことにより、可能である。
【0182】
そして、ステップS1402において、入力情報生成部210は、受信した校正済認識結果に含まれるフィールドIDに対応する入力エリアの相対座標を、画面構成テーブルから取得する。そして、入力エリアの相対座標を、入力画面の絶対座標に基づいて、絶対座標に変換する。例えば、相対座標系と絶対座標系とが同一スケールである場合には、入力情報生成部210は、入力エリアの相対座標の値と入力画面の絶対座標の値との加算することにより、入力エリアの絶対座標を取得する。
【0183】
そして、ステップS1403において、入力情報生成部210は、操作変換ルール(図4参照)に従って、校正済認識結果に対応する操作情報を生成する。そして、入力情報生成部210は、生成した操作情報を電子カルテ部203に入力して、図10の処理へ戻る。
【0184】
例えば、「2」というフィールドIDと「山田花子」という入力テキストとを含む校正済認識結果が受信されたとする。この場合、入力情報生成部210は、まず、画面構成テーブル(図13参照)から、対応する入力エリアのタイプがテキストボックスであり、その相対座標が(x、y)であるということを取得する。この結果、入力情報生成部210は、操作変換ルール820から、対応する入力エリアの絶対座標でワンクリックの操作と、続けて入力テキストの入力操作とを示す操作情報を生成することを決定する。そして、入力情報生成部210は、相対座標(x、y)を絶対座標に変換し、決定した内容の操作情報を生成し、電子カルテ部203に入力する。
【0185】
このような操作変換処理により、情報処理装置200は、入力画面の大きさ、位置、構成が可変であるような電子カルテ部203に対しても、これを改変することなく、音声認識結果に対応する操作を行うことを可能にする。
【0186】
また、以上のような動作により、情報処理装置200は、搭載する電子アプリを改変することなく、無線通信端末400などの外部装置を用いて、しかも電子アプリのセキュリティを確保した状態で、電子カルテに音声入力機能を追加することができる。
【0187】
以上説明したように、本実施の形態に係る入力支援システム100は、入力エリア位置とラベルテキスト位置との相対関係に基づいて、入力エリア位置にラベルテキストを対応付け、音声認識結果による入力エリアに対する選択操作を可能にした。これにより、入力支援システム100は、電子カルテ部203に対し、音声入力機能を簡単に追加することができる。すなわち、入力支援システム100は、入力エリアに読みが設定されていない既存のアプリケーションに対して音声入力機能を簡単に追加することができる。
【0188】
また、入力支援システム100は、入力画面の相対座標を用いるので、入力画面が単に移動した場合に、その都度、画面構成解析を行わないようにすることができ、処理負荷を軽減することができる。
【0189】
また、入力支援システム100は、公共通信網500に音声認識サーバ600と複数の校正端末700を配置し、これらを利用して電子カルテ部203に音声認識機能を追加しつつ、これらと情報処理装置200との間に無線通信端末400を配置するようにした。これにより、入力支援システム100は、情報処理装置200を公共通信網500に直接に通信可能に接続することなく、電子カルテ部203に対し、音声入力機能を簡単に追加することができる。すなわち、入力支援システム100は、高いセキュリティを求められるアプリケーションに対して高精度な音声入力機能を簡単に追加することができる。
【0190】
なお、以上説明した実施の形態では、音声認識結果を操作情報に変換する機能部として、入力情報生成部210を情報処理装置に配置したが、かかる機能部の配置はこれに限定されない。音声認識結果を操作情報に変換する機能部は、例えば、無線通信端末400に配置してもよい。この場合、画面構成解析部207は、生成した画面構成テーブルを、無線端末装置400に送信してこれに格納させればよい。
【0191】
また、入力画面の各ページの構成や大きさが固定である場合には、全てのページについて一旦画面構成テーブルが生成されれば、画面構成解析部207は不要である。したがって、この場合、他の機能部(例えば入力情報生成部210)が、画面構成解析部207を情報処理装置200から消去するようにしてもよい。
【0192】
また、入力支援システム100は、IDではなく、ラベルテキストの読みのテキストデータや、入力エリアの座標などを、音声認識結果としてもよい。但し、画面構成解析部207は、音声認識結果から入力エリアを特定できるように、画面構成テーブルを生成する必要がある。
【0193】
また、入力支援システム100は、キーボード入力信号をエミュレートした操作情報を、アプリケーションに入力するようにしてもよい。
【0194】
この場合、例えば、無線通信端末400の音声認識管理部404は、受信した校正作業の結果を、キーボード入力信号(平仮名文字列)に変換して、装置通信部402を介して情報処理装置200へ送信する。このキーボード入力信号は、例えば、校正作業の結果である仮名漢字まじりテキストを平仮名文字列に変換したものを入力するために行われるべきキーボード操作の内容と、その後の変換操作(入力した平仮名文字列全てを選択し、変換すること)・確定操作(仮名漢字まじりに確定すること)を示す信号である。
【0195】
また、情報処理装置200の入力情報生成部210は、入力エリアのいずれかが選択されている状態で、端末通信部202を介してこのキーボード入力信号を受信したとき、当該キーボード入力信号を仮名漢字テキストに変換する。そして、入力情報生成部210は、選択されている入力エリアの表示位置に対する当該仮名漢字テキストの入力操作を示す操作情報を、電子カルテ部203に入力する。
【0196】
更に、入力支援システム100は、入力エリアの選択については手動で受け付け、テキスト入力についてのみ音声認識機能を用いるようにしてもよい。例えば、キーボード入力信号を一般の無線キーボードの無線信号で実現した場合、通常の無線キーボード入力と同じ経路で電子カルテ部203に入力するため、入力情報生成部210および端末通信部202は通常のコンピュータ端末に普通に備わっている入力機能である。
【0197】
また、入力情報生成部210のうち仮名漢字テキストへの変換機能は、情報処理装置200に搭載されている機能と兼用としてもよい。音声認識サーバ600との音声認識辞書は、対象分野に特化した変換辞書(よみと表記のペア)を持っているため、これを情報処理装置200に備わってる仮名漢字変換(IME)にインポートしておくことが望ましい。そうすることにより、一回の変換操作で仮名漢字変換が成功する確率が高くなる。
【0198】
また、画面構成解析部207は、実際に表示される画像をスキャンし、入力画面から、各入力エリアの位置およびタイプや、各ラベルテキストの表示位置を取得(抽出)するようにしてもよい。かかる抽出は、例えば、パターンマッチングや画像特徴量抽出などにより行うことができる。
【0199】
また、本発明は、電子カルテ以外の各種アプリケーションに対して適用可能であることは勿論である。
【産業上の利用可能性】
【0200】
本発明は、高いセキュリティを求められるアプリケーションに対して高精度な音声入力機能を簡単に追加することができる入力支援システムとして有用である。
【符号の説明】
【0201】
100 入力支援システム
200 情報処理装置
201 LAN通信部
202 端末通信部
203 電子カルテ部
204 画像出力部
205 操作入力部
206 テーブル作成ルール格納部
207 画面構成解析部
208 画面構成テーブル格納部
209 操作変換ルール格納部
210 入力情報生成部
300 院内LAN
400 無線通信端末
401 装置通信部
402、601 網通信部
403 音声入力部
404 音声認識管理部
500 公共通信網
600 音声認識サーバ
602 音声認識データベース
603 逆認識処理部
604 対応テーブル格納部
605 音声認識処理部
606 装置情報格納部
607 クラーク情報格納部
608 クラーク決定ルール格納部
609 校正管理部
700 校正端末

【特許請求の範囲】
【請求項1】
アプリケーションソフトウェアを含む情報処理装置と、音声認識処理を行う音声認識サーバと、を有し、前記アプリケーションソフトウェアに対する入力作業を支援する入力支援システムであって、
公共通信網を介して前記音声認識サーバに接続する網通信部と、
前記公共通信網とは別の通信経路により前記情報処理装置に接続する装置通信部と、
音声を入力する音声入力部と、
入力した前記音声の前記音声認識サーバへの送信と、前記音声認識サーバから受信した前記音声認識処理の結果を表す情報の前記情報処理装置への送信とを、交互に行う音声認識管理部と、を有する無線通信端末、を有する、
入力支援システム。
【請求項2】
前記網通信部および前記装置通信部は、
それぞれ無線通信を行う、
請求項1記載の入力支援システム。
【請求項3】
前記公共通信網を介して前記音声認識サーバに接続し、前記音声認識サーバによる前記音声認識処理の結果に対する校正作業を受け付ける複数の校正端末、を更に有する、
請求項1記載の入力支援システム。
【請求項4】
前記音声認識サーバは、
前記情報処理装置、前記アプリケーションソフトウェア、および前記アプリケーションソフトウェアのユーザの少なくとも1つの属性情報を含む装置情報と、前記校正端末のオペレータの属性情報を含むクラーク情報と、の関係により、前記音声認識処理の結果に対する前記校正端末の選択の条件を規定するクラーク決定ルールを予め格納し、前記音声認識処理の結果ごとに、前記装置情報を取得し、前記クラーク決定ルールを参照して前記校正端末を選択し、選択した前記校正端末に対して前記校正作業を行わせる、
請求項3記載の入力支援システム。
【請求項5】
前記装置情報は、現在、前記校正端末において前記校正作業が可能か否かを示す情報を含み、
前記クラーク決定ルールは、現在、前記校正作業が可能である前記校正端末を選択することを少なくとも規定する、
請求項4記載の入力支援システム。
【請求項6】
前記校正端末のオペレータの属性情報は、前記オペレータの校正作業の対象の得意範囲を示す情報を含み、
前記クラーク決定ルールは、前記アプリケーションソフトウェアおよび前記ユーザを得意範囲に含む前記オペレータが存在するとき、当該オペレータの前記校正端末を選択することを規定する、
請求項5記載の入力支援システム。
【請求項7】
前記アプリケーションソフトウェアは、テキスト入力および項目選択の少なくとも1つを受け付ける入力エリアから構成される入力画面を表示し、
前記情報処理装置は、
前記入力エリアのいずれかが選択されている状態でキーボード入力信号を受信したとき、当該キーボード入力信号を仮名漢字テキストに変換し、選択されている前記入力エリアの表示位置に対する前記仮名漢字テキストの入力操作を示す操作情報を、前記アプリケーションソフトウェアへ出力し、
前記無線通信端末の前記音声認識管理部は、
受信した前記音声認識処理の結果を、キーボード入力信号に変換して前記情報処理装置へ送信する、
請求項1記載の入力支援システム。
【請求項8】
前記入力画面は、テキスト入力および項目選択の少なくとも1つを受け付ける入力エリアとラベルテキストとから構成され、
前記情報処理装置は、
前記入力エリアの表示位置に対する前記ラベルテキストの対応付けと、当該ラベルテキストに割り当てられたIDとを記述した画面構成テーブルを保持し、前記音声認識サーバから前記IDを受信するごとに、受信した前記IDに対応する前記入力エリアの表示位置を、前記画面構成テーブルを参照して特定し、特定した前記表示位置を選択する操作情報を前記アプリケーションソフトウェアに入力し、
前記音声認識サーバは、
前記ラベルテキストに対する逆音声認識処理により得られた前記ラベルテキストの読みと、当該ラベルテキストに割り当てられた前記IDとを記述した、ID読み対応テーブルを保持し、前記音声認識処理の結果が得られるごとに、当該結果に対応する前記IDを、前記ID読み対応テーブルを参照して特定し、特定した前記IDを前記情報処理装置へ送信する、
請求項1記載の入力支援システム。
【請求項9】
前記情報処理装置は、
前記対応付けごとに、前記ラベルテキストと当該ラベルテキストに割り当てられた前記IDとの組を、前記音声認識サーバへ送信し、
前記音声認識サーバは、
前記情報処理装置から受信した前記ラベルテキストと前記IDとの組に基づいて、前記ID読み対応テーブルを生成する、
請求項8記載の入力支援システム。
【請求項10】
前記画面構成解析部は、
前記入力エリアが、予め用意された複数のメニュー項目テキストに対する選択を受け付ける選択メニューであるとき、当該選択メニューに割り当てた前記IDと前記複数のメニュー項目テキストとを組み付けた辞書用情報を、前記無線通信端末を介して前記音声認識サーバへ送信し、
前記入力情報生成部は、
受信した前記音声認識処理の結果が、前記選択メニューに割り当てられた前記IDと入力テキストとを示すとき、当該IDに対応する前記入力エリアの表示位置を選択する操作情報に続けて、前記入力テキストを入力する操作情報を、前記アプリケーションソフトウェアに入力する、
請求項9記載の入力支援システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate


【公開番号】特開2013−62681(P2013−62681A)
【公開日】平成25年4月4日(2013.4.4)
【国際特許分類】
【出願番号】特願2011−199752(P2011−199752)
【出願日】平成23年9月13日(2011.9.13)
【出願人】(398018021)株式会社アドバンスト・メディア (23)
【出願人】(510188403)株式会社サイバークラーク研究所 (3)
【Fターム(参考)】