説明

業務支援装置および業務支援方法

【課題】既存のアプリケーションに対し極めて容易に音声入力機能を採り入れることができる業務支援装置を提供すること。
【解決手段】プラットフォームサーバ600は、アプリケーションを対象とした入力音声を受信する音声受信部621と、音声認識処理を音声認識システムに実行させる音声認識制御部620と、音声認識処理の結果を送信するテキスト送信部641とを有する。音声受信部621は、アプリケーションに組み込まれた入力切替機能部から、発話者を特定する発話者IDと、入力対象を特定する入力対象IDとを受信する。音声認識制御部620は、発話者IDに基づいて、音声認識システムに対し、発話者毎にカスタマイズされた音声認識処理を実行させる。テキスト送信部641は、音声認識処理の結果であるテキストを、発話者IDおよび入力対象IDに基づいて、発話者によるテキスト入力としてアプリケーションへ送信する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキスト入力を受け付けるアプリケーションと、音声認識処理を行う音声認識システムと、アプリケーションのユーザに対しテキスト入力の業務を支援する業務支援装置とを含むシステムにおける業務支援装置および業務支援方法に関する。
【背景技術】
【0002】
病院の電子カルテのような、テキスト入力を受け付けるアプリケーションソフトウェア(以下単に「アプリケーション」という)において、音声入力機能を採り入れることが提案されている(例えば特許文献1参照)。例えば、電子カルテに音声入力機能を採り入れた場合、医師は病名等を発話することによりその病名のテキストをカルテに入力することができるため、膨大な量の入力作業やその管理を効率化することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2007−328659号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、既に音声入力機能を有さない電子カルテを使用している場合、このような新しいアプリケーションへの切り替えは、システム環境の変化よる操作性の低下、データベースの載せ替えの手間、コスト面等から、容易ではない。したがって、既存のアプリケーションに、このような音声入力機能を追加できることが望ましい。
【0005】
ところが、既存のアプリケーションにおいて音声入力機能を実現しようとすると、そのアプリケーションと音声認識システムとを統合する必要があり、アプリケーションの大規模な改修や、操作インタフェースの大幅な変更が必要となる。したがって、既存のアプリケーションに音声入力機能を追加することは容易ではなかった。
【0006】
本発明の目的は、既存のアプリケーションに対し極めて容易に音声入力機能を採り入れることができる業務支援装置および業務支援方法を提供することである。
【課題を解決するための手段】
【0007】
本発明の業務支援装置は、テキスト入力を受け付けるアプリケーションと、音声認識処理を行う音声認識システムと、前記アプリケーションのユーザに対し前記テキスト入力の業務を支援する業務支援装置とを含むシステムにおける前記業務支援装置であって、前記アプリケーションを対象とした入力音声を受信する音声受信部と、前記入力音声に対する音声認識処理を前記音声認識システムに実行させる音声認識制御部と、前記音声認識処理の結果を送信するテキスト送信部とを有し、前記音声受信部は、前記アプリケーションに組み込まれた入力切替機能部から、前記入力音声の発話者を特定する発話者IDと、前記入力音声の入力対象を特定する入力対象IDとを受信し、前記音声認識制御部は、前記発話者IDに基づいて、前記音声認識システムに対し、前記発話者毎にカスタマイズされた前記音声認識処理を実行させ、前記テキスト送信部は、前記音声認識処理の結果であるテキストを、前記発話者IDおよび前記入力対象IDに基づいて、前記発話者によるテキスト入力として前記アプリケーションへ送信する。
【0008】
本発明の業務支援方法は、テキスト入力を受け付けるアプリケーションと、音声認識処理を行う音声認識システムと、前記アプリケーションのユーザに対し前記テキスト入力の業務を支援する業務支援装置と、を含むシステムの前記業務支援装置における業務支援方法であって、前記アプリケーションに組み込まれた入力切替機能部から、前記アプリケーションを対象とした入力音声と、前記入力音声の発話者を特定する発話者IDと、前記入力音声の入力対象を特定する入力対象IDと、を受信するステップと、前記発話者IDに基づいて、前記音声認識システムに、前記発話者毎にカスタマイズされた前記音声認識処理を前記入力音声に対して実行させるステップと、前記音声認識処理の結果であるテキストを、前記発話者IDおよび前記入力対象IDに基づいて、前記発話者によるテキスト入力として前記アプリケーションへ送信するステップとを有する。
【発明の効果】
【0009】
本発明によれば、アプリケーションに、発話者IDおよび入力対象IDを送信する入力切替機能部を持たせるだけで、そのアプリケーションに対し音声入力機能を実現することができる。すなわち、本発明は、既存のアプリケーションに対し極めて容易に音声入力機能を採り入れることができる。
【図面の簡単な説明】
【0010】
【図1】本発明の一実施の形態に係る業務支援装置を含むネットワークシステムの構成を示すシステム構成図
【図2】本実施の形態における入力端末の構成を示すブロック図
【図3】本実施の形態におけるアプリケーションサーバの構成を示すブロック図
【図4】本実施の形態に係る業務支援装置としてのプラットフォームサーバの構成を示すブロック図
【図5】本実施の形態における音声認識サーバの構成を示すブロック図
【図6】本実施の形態に係るプラットフォームサーバの動作を示すフローチャート
【図7】本実施の形態に係るネットワークシステムの動作の一例を示すシーケンス図
【発明を実施するための形態】
【0011】
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。
【0012】
図1は、本発明の一実施の形態に係る業務支援装置を含むネットワークシステムの構成を示すシステム構成図である。本実施の形態は、本発明を、電子カルテのウェブアプリケーションに対して音声入力機能を実現する場合に適用した例である。
【0013】
図1に示すように、本実施の形態に係るネットワークシステム100は、アプリケーションサーバ200、第1〜第Mの入力端末300−1〜300−M、音声認識サーバ400、第1〜第Nの校正端末500−1〜500−N、プラットフォームサーバ600を有する。プラットフォームサーバ600は、本実施の形態に係る業務支援装置を含む。以下、第1〜第Mの入力端末300−1〜300−Mは同一の構成を有するため、適宜、これらを単に入力端末300として説明する。また、第1〜第Nの校正端末500−1〜500−Nは同一の構成を有するため、適宜、これらを単に校正端末500として説明する。上述の各装置は、インターネット等の公共の通信ネットワークである通信ネットワーク700にそれぞれ接続されている。
【0014】
アプリケーションサーバ200は、電子カルテのウェブアプリケーションが実装された装置であり、例えば、通信機能を有するサーバコンピュータである。アプリケーションサーバ200の電子カルテは、通信ネットワーク700を介して、各病院の医師、看護師、または電子カルテの入力オペレータ等(以下「入力オペレータ」と総称する)から、ユーザIDの入力によるログイン手続を経て、操作を受け付ける。この操作には、テキスト入力が含まれる。また、アプリケーションサーバ200の電子カルテは、入力切替機能部を有する。この入力切替機能部は、後述の音声入力開始操作が行われたとき、発話者IDおよび入力対象IDを、後述のプラットフォームサーバ600へ送信する。アプリケーションサーバ200の電子カルテは、例えば、既存の電子カルテに対して入力切替機能部が追加されたものである。
【0015】
なお、ここで、発話者IDとは、音声を入力した入力端末300および入力音声を発話した入力オペレータを特定する情報であり、例えば、入力端末300のネットワークIDと電子カルテへのログイン手続で入力されるユーザIDとの組、またはこれに一意に対応付けられた識別情報である。
【0016】
また、ここで、入力対象IDとは、テキスト入力先の場所、分野種別、業務種別、タスク種別、およびテキスト種別等を特定する情報である。テキスト入力先の場所とは、例えば、どの入力端末300のどのアプリケーション(ここでは電子カルテ)のどのページのどの入力欄がテキスト入力先として指定されているかを示すものである。分野種別は、整形外科、婦人科等、入力されたテキストが属する分野の種別である。業務種別は、電子カルテ、服薬指導、議事録等、入力されたテキストが属する業務の種別である。タスク種別は、手術記事、診断書等、入力されたテキストが属するタスクの種別である。テキスト種別は、疾患名、文章等、入力されたテキストの構造に関する種別である。
【0017】
入力端末300は、病院の診療室毎に設置された、ウェブブラウザとウェブブラウザのメディアモジュールプラグインとがインストールされた装置であり、例えば、通信機能を有するパーソナルコンピュータである。入力端末300は、入力オペレータから各種操作を受け付けると共に、ウェブブラウザにより、アプリケーションサーバ200の電子カルテを操作する環境を、入力オペレータに提供する。また、入力端末300は、後述のプラットフォームサーバ600からの後述の音声入力開始指示を受けて、音声入力および入力音声のプラットフォームサーバ600への送信を開始する。
【0018】
音声認識サーバ400は、音声認識処理を行う装置であり、例えば、通信機能を有するサーバコンピュータである。より具体的には、音声認識サーバ400は、入力音声の発話者毎に音響モデルをカスタマイズして、音声認識処理を行う。音声認識サーバ400は、後述のプラットフォームサーバ600から依頼を受けて音声認識処理を行い、処理結果として得られた、発話時間情報付きテキスト(以下単に「音声認識結果」という)を、プラットフォームサーバ600へ返信する。ここで、発話時間情報とは、入力音声の時間軸における発話区間の時刻(最初からの時間)を示す情報である。
【0019】
校正端末500は、音声認識サーバ400の音声認識結果に対する校正処理を行う装置であり、例えば、通信機能を有するパーソナルコンピュータである。校正端末500は、後述のプラットフォームサーバ600からの依頼を受けて校正処理を行い、処理結果(以下「校正結果」という)を、プラットフォームサーバ600へ返信する。校正処理は、音声認識結果を表示すると共に入力音声を再生し、校正端末500のオペレータ(以下「校正オペレータ」という)から、音声認識結果を修正する操作を受け付ける処理である。ここでは、各校正端末500は、専用の校正オペレータによりそれぞれ使用されるものとし、以下、校正端末500の校正オペレータが得意とする分野種別(例えば整形外科)を、「校正端末500の対応分野」という。
【0020】
プラットフォームサーバ600は、本発明に係る業務支援装置を含み、例えば、通信機能を有するサーバコンピュータである。プラットフォームサーバ600は、アプリケーションサーバ200から発話者IDおよび入力対象IDを受信したとき、入力対象IDが特定する入力端末300に対して、音声入力および入力音声のプラットフォームサーバ600への送信を開始する旨の指示(以下「音声入力開始指示」という)を送信する。そして、プラットフォームサーバ600は、受信した入力音声に対する音声認識処理を、音声認識サーバ400に実行させる。このとき、プラットフォームサーバ600は、発話者IDおよび入力対象IDに基づいて、入力音声に対応する音響モデル、言語モデル、および辞書を用いた音声認識処理を、音声認識サーバ400に実行させる。
【0021】
また、プラットフォームサーバ600は、音声認識サーバ400の音声認識結果に対する校正処理を、校正端末500に実行させる。このとき、プラットフォームサーバ600は、入力対象IDに基づいて、入力対象の分野種別に対応分野がマッチする校正端末500を選択する。例えば、整形外科の診療室の入力端末300から受信した入力音声には、分野種別として整形外科を特定する入力対象IDが付随しているため、整形外科の専門用語に詳しい校正オペレータの校正端末500が選択される。
【0022】
また、プラットフォームサーバ600は、校正結果として得られたテキスト(以下、単に「校正結果」という)を、その校正結果に付随して受信した発話者IDおよび入力対象IDに基づいて、元の発話者によるテキスト入力として、アプリケーションサーバ200へ送信する。すなわち、プラットフォームサーバ600は、入力対象IDが特定する場所への、発話者IDが特定する発話者による入力テキストとして、校正結果を送信する。例えば、第1の入力端末300−1からの入力音声には、第1の入力端末300−1の入力対象を特定する入力対象IDと、第1の入力端末300−1の発話者IDとが付随している。したがって、この場合、第1の入力端末300−1の入力音声の校正結果は、第1の入力端末300−1からの入力テキストとして、アプリケーションサーバ200の電子カルテに入力される。
【0023】
図2は、入力端末300の構成を示すブロック図である。
【0024】
図2において、入力端末300は、入力操作部310、音声入力部320、表示部330、通信部340、アプリケーション表示部350、およびプラットフォーム表示部360を有する。
【0025】
入力操作部310は、例えばキーボードおよびマウスであり、入力端末300に対する各種操作を受け付ける。例えば、入力操作部310は、入力オペレータからの手入力の結果として、アプリケーション表示部350を介して、電子カルテに対するカーソル位置の移動操作や、電子カルテのカーソル位置へのテキスト入力操作を受け付ける。
【0026】
音声入力部320は、例えばマイクロフォンであり、入力端末300に対する音声入力を受け付ける。
【0027】
表示部330は、例えば液晶ディスプレイであり、画像表示を行う。
【0028】
通信部340は、例えば通信回路であり、通信ネットワーク700上の他の装置と通信可能に接続する。
【0029】
アプリケーション表示部350は、ウェブブラウザであり、例えば、アプリケーションサーバ200の電子カルテを操作する環境を、入力オペレータに提供する。具体的には、アプリケーション表示部350は、発話者IDの送信によるログイン手続を経て、アプリケーションサーバ200から送られてくるカルテ画面のデータに基づき、カルテ画面を表示部330に表示させる。そして、アプリケーション表示部350は、カルテ画面に対するテキスト入力操作が行われる毎に、そのときのカーソル位置を入力対象として、発話者IDと共に、入力テキストをアプリケーションサーバ200へ送信する。
【0030】
また、アプリケーション表示部350は、入力操作部310において音声入力の開始を指示する所定の操作(以下「音声入力開始操作」という)があったとき、音声入力の開始が求められている旨の通知(以下「音声入力開始通知」という)および発話者IDを、アプリケーションサーバ200へ送信する。音声入力開始操作は、例えば、カルテ画面に表示された「音声入力開始」等のメニュー項目またはアイコンの選択操作である。
【0031】
プラットフォーム表示部360は、上述のメディアモジュールプラグインであり、プラットフォームサーバ600から音声入力開始指示を受けたとき、音声入力開始を通知するポップアップウィンドウを表示し、音声入力部320を介して入力オペレータの発話音声の入力を開始する。そして、プラットフォーム表示部360は、入力音声を、プラットフォームサーバ600へ送信する。なお、プラットフォーム表示部360は、入力音声を直接連続的に送信するストリーミングの形式か、入力音声をある程度溜めてファイルとして保存してから送信するアップロードの形式か、どちらの形式で行うかの選択を、入力オペレータから受け付けても良い。後者の場合は、プラットフォーム表示部360は、IC(integrated circuit)レコーダ等で別途録音した音声ファイルを、プラットフォームサーバ600へアップロードするようにしても良い。
【0032】
図3は、アプリケーションサーバ200の構成を示すブロック図である。
【0033】
図3において、アプリケーションサーバ200は、通信部210およびアプリケーション部220を有する。
【0034】
通信部210は、例えば通信回路であり、通信ネットワーク700上の他の装置と通信可能に接続する。
【0035】
アプリケーション部220は、ここでは電子カルテを実現する機能部であり、入力端末300のアプリケーション表示部350からの発話者IDの受信を含むログイン手続を経て起動する。アプリケーション部220は、画面生成部221、テキスト入力受付部222、入力情報記憶部223、および入力切替機能部224を有する。
【0036】
画面生成部221は、病歴や経過等をテキスト入力するための入力欄や、情報の入力先を指定するためのカーソルを含むカルテ画面を生成し、生成したカルテ画面のデータを、ログイン中の入力端末300のアプリケーション表示部350に送信する。この結果、ログイン中の入力端末300の表示部330には、ウェブブラウザによるカルテ画面が表示される。
【0037】
テキスト入力受付部222は、ログイン中の入力端末300から、カルテ画面の各所へのテキスト入力を受け付ける。より具体的には、テキスト入力受付部222は、入力対象を指定してテキストおよび発話者IDが送られてくる毎に、受信した発話者IDがログイン中の発話者IDであるか否かを判断する。そして、テキスト入力受付部222は、受信した発話者IDがログイン中の発話者IDである場合には、指定された入力対象に、送られてきたテキストを入力する。
【0038】
入力情報記憶部223は、ログイン中の入力オペレータの発話者IDと、テキスト入力受付部222の各入力結果とを記憶する。また、入力情報記憶部223は、アプリケーション部220の初期設定または構造により定められる、アプリケーションの分野種別および業務種別、各入力欄の場所、タスク種別、およびテキスト属性を記憶する。入力対象IDは、これらの入力情報記憶部223に記憶された情報から作成される。
【0039】
入力切替機能部224は、音声入力開始通知を受信したとき、その時点における表示中のカルテ画面およびカーソル位置等から入力対象IDを作成し、発話者IDおよび入力対象IDを、後述のプラットフォームサーバ600へ送信する。
【0040】
図4は、プラットフォームサーバ600の構成を示すブロック図である。
【0041】
図4において、プラットフォームサーバ600は、通信部610、音声認識制御部620、対応分野テーブル格納部630、および校正制御部640を有する。
【0042】
通信部610は、例えば通信回路であり、通信ネットワーク700上の他の装置と通信可能に接続する。
【0043】
音声認識制御部620は、音声受信部621にて、アプリケーションサーバ200から発話者IDおよび入力対象IDを受信したとき、受信した発話者IDが特定する入力端末300に対して音声入力開始指示を送信する。そして、音声認識制御部620は、音声受信部621において入力音声を受信すると、入力音声と共に発話者IDおよび入力対象IDを音声認識サーバ400へ送信する。これにより、音声認識制御部620は、発話者IDに対応する音響モデルと入力対象IDに対応する言語モデルおよび辞書を用いた音声認識処理を、音声認識サーバ400に実行させる。
【0044】
対応分野テーブル格納部630は、各校正端末500の対応分野を記述した対応分野テーブルを予め格納する。
【0045】
校正制御部640は、音声認識サーバ400から入力音声、音声認識結果、入力対象ID、および発話者IDを受信する。校正制御部640は、入力対象IDと対応分野がマッチする校正端末500を、対応分野テーブルを参照して選択する。そして、校正制御部640は、選択した校正端末500に対して、入力音声および音声認識結果と共に入力対象IDおよび発話者IDを送信し、校正処理を実行させる。そして、校正制御部640は、校正結果、入力対象ID、および発話者IDを、校正端末500から受信し、テキスト送信部641から、入力対象IDが特定するテキスト入力先への、発話者IDが特定する発話者による入力テキストとして、校正結果を送信する。
【0046】
図5は、音声認識サーバ400の構成を示すブロック図である。
【0047】
図5において、音声認識サーバ400は、通信部410、DB(database)対応テーブル格納部420、音声認識処理部430、および音声認識DB440を有する。
【0048】
通信部410は、例えば通信回路であり、通信ネットワーク700上の他の装置と通信可能に接続する。
【0049】
DB対応テーブル格納部420は、DB対応テーブルを格納する。DB対応テーブルは、後述の音声認識DB440に格納されている音響モデル、言語モデル、および辞書と、発話者IDおよび入力対象IDとの対応関係を記述したテーブルである。
【0050】
音声認識処理部430は、プラットフォームサーバ600から入力音声を受信し、その発話者毎および入力対象毎にカスタマイズされた音声認識処理を実行する。より具体的には、音声認識処理部430は、プラットフォームサーバ600から、入力音声、発話者ID、および入力対象IDを受信し、後述の音声認識DB440を用いて、入力音声に対する音声認識処理を行う。更に具体的には、音声認識処理部430は、音響モデル、言語モデル、辞書を新規に作成する毎に、これらを発話者IDおよび入力対象IDと共にDB対応テーブルに登録する。また、音声認識処理部430は、DB対応テーブルを参照し、発話者IDに対応する音響モデルと、入力対象IDに対応する言語モデルおよび辞書とを用いて、音声認識処理を実行する。そして、音声認識処理部430は、入力音声の時間軸に形態素単位等で対応付けた音声認識結果を、入力音声、入力対象ID、および発話者IDと共に、プラットフォームサーバ600へ返信する。
【0051】
音声認識DB440は、発話者毎に生成された第1〜第Jの音響モデルと、テキスト属性毎に生成された第1〜第Kの言語モデルおよび分野種別、業務種別、およびタスク種別の組み合わせ毎に生成された第1〜第Lの辞書とを格納する。
【0052】
入力端末300、プラットフォームサーバ600、および音声認識サーバ400は、図示しないが、CPU(central processing unit)、制御プログラムを格納したROM(read only memory)等の記憶媒体、およびRAM(random access memory)等の作業用メモリによってそれぞれ実現することができる。この場合、上記した各部の機能は、CPUが制御プログラムを実行することにより実現される。
【0053】
このような構成を有するネットワークシステム100は、入力オペレータ毎および電子カルテの使用環境(診療科、入力オペレータ等)毎にカスタマイズされた音声入力機能を、実現することができる。例えば、整形外科のA医師が電子カルテの病歴欄に対して音声入力を行うときには、A医師用の音響モデルと、整形外科の病歴用にカスタマイズされた言語モデル・辞書を使用した、音声認識結果が得られる。すなわち、ネットワークシステム100は、ウェブアプリケーションを、そのウェブアプリケーション自体に音声入力機能および校正受付機能を個別に追加したかのような状態にすることができ、高精度の音声入力を実現することができる。
【0054】
また、既存のアプリケーションに対する上述の入力切替機能部224の追加は、HTML(hypertext markup language)で実現されるウェブアプリケーションの場合、数行のAPI(application program interface)の追加で済む。したがって、ネットワークシステム100は、極めて容易に実現することができる。
【0055】
次に、プラットフォームサーバ600の動作について説明する。
【0056】
図6は、プラットフォームサーバ600の動作を示すフローチャートである。
【0057】
まず、ステップS1100において、音声認識制御部620は、発話者IDおよび入力対象IDを受信したか否かを判断する。音声認識制御部620は、発話者IDおよび入力対象IDを受信していない場合は(S1100:NO)、ステップS1200へ進み、発話者IDおよび入力対象IDを受信した場合は(S1100:YES)、ステップS1300へ進む。
【0058】
ステップS1200において、音声認識制御部620は、オペレータ操作等によって入力音声に対する処理の終了が指示されたか否かを判断し、入力音声に対する処理の終了が指示されていない場合は(S1200:NO)、ステップS1100へ戻る。
【0059】
ステップS1300において、音声認識制御部620は、受信した発話者IDが特定する入力端末300に対し、音声入力開始指示を送信する。これにより、音声認識制御部620は、音声入力開始通知をアプリケーションサーバ200に発した入力端末300に対し、音声入力および入力音声の送信を開始させることができる。そして、音声認識制御部620は、入力端末300から、入力音声を受信する。
【0060】
ステップS1400において、音声認識制御部620は、受信した入力音声を音声認識サーバ400へ送信する。この際、音声認識制御部620は、入力音声と共に、発話者IDおよび入力対象IDを送信する。これにより、音声認識制御部620は、音声認識サーバ400に対して、発話者および入力対象の分野に応じた音声認識を実行させると共に、入力対象IDが付随した状態で、音声認識結果を返信させることができる。そして、校正制御部640は、入力音声およびその入力音声に対する音声認識結果を、入力対象IDおよび発話者IDと共に、音声認識サーバ400から受信する。
【0061】
そして、ステップS1500において、校正制御部640は、受信した入力対象IDから、入力音声の入力対象の分野と対応分野がマッチする校正端末500を選択する。すなわち、校正制御部640は、対応分野テーブルを参照して、入力対象IDが特定する分野種別を対応分野とする校正端末500の中から、校正端末500を1つ選択する。
【0062】
そして、ステップS1600において、校正制御部640は、音声認識サーバ400から受信した音声認識結果および入力音声を、選択した校正端末500へ送信する。この際、校正制御部640は、音声認識結果および入力音声と共に、入力対象IDおよび発話者IDを送信する。これにより、校正制御部640は、校正端末500に対して、入力対象IDおよび発話者IDが付随した状態で、校正結果を返信させることができる。そして、校正制御部640は、音声認識結果に対する校正処理結果を、入力対象IDおよび発話者IDと共に、校正端末500から受信する。
【0063】
なお、校正制御部640は、各校正端末500の可動状況を逐次調べておき、可動している校正端末500のみを選択対象とするようにしても良い。また、校正制御部640は、複数の校正端末500を選択して校正処理を実行させ、最も早く返信されてきた校正結果のみを利用するようにしても良い。
【0064】
そして、ステップS1700において、校正制御部640は、受信した入力対象IDが特定する場所を指定して、校正結果を送信する。この際、校正制御部640は、校正結果と共に、発話者IDを、送信元を特定する情報として送信する。これにより、校正制御部640は、アプリケーションサーバ200のアプリケーション部220に対して、あたかも入力端末300からテキスト入力操作が行われているかのように、校正結果を送信することができる。この結果、例えば、電子カルテの入力欄のうち、カーソルが位置する入力欄に、入力音声に対する校正済みの音声認識結果が入力され、音声入力が完了することになる。
【0065】
そして、音声認識制御部620は、入力音声に対する処理の終了が指示された場合は(S1200:YES)、一連の処理を終了する。
【0066】
このような動作により、プラットフォームサーバ600は、アプリケーションサーバ200からのトリガにより、入力端末300に対して音声入力と入力音声のプラットフォームサーバ600への送信を開始させることができる。また、プラットフォームサーバ600は、音声認識サーバ400に入力音声に対する音声認識処理を実行させ、校正端末500に音声認識結果に対する校正処理を実行させることができる。また、プラットフォームサーバ600は、入力音声、音声認識結果、および校正結果を他の装置に渡す際に、入力対象IDおよび発話者IDを付随させることができる。これにより、プラットフォームサーバ600は、あたかも入力端末300からテキスト入力操作が行われているかのように、音声認識の校正結果を、元のアプリケーションの適切な場所に入力することができる。
【0067】
以下、プラットフォームサーバ600がこのように動作する場合に、ネットワークシステム100がどのように動作するかについて説明する。
【0068】
図7は、ネットワークシステム100の動作の一例を示すシーケンス図である。
【0069】
図7に示すように、まず、入力端末300の入力操作部310において、電子カルテの起動操作およびログイン操作が行われると(S2010)、アプリケーション表示部350からアプリケーションサーバ200のテキスト入力受付部222へと、発話者IDが送信される(S2020)。この発話者IDは、アプリケーション部サーバ200の入力情報記憶部223に記憶される(S2030)。
【0070】
そして、入力操作部310においてテキストが手入力されると(S2040)、カーソルの位置(入力対象)と、入力テキストと、発話者IDとを、テキスト入力受付部222が受け付け(S2050)、当該入力対象の入力内容として、当該テキストが入力情報記憶部223に記憶される(S2060)。
【0071】
一方、入力操作部310を介してアプリケーション(AP)表示部350において音声入力開始操作が行われると(S2070)、その旨がアプリケーション部サーバ200の入力切替機能部224に通知される(S2080)。すると、入力切替機能部224は、カーソルの位置等から、入力対象IDを取得し(S2090)、発話者IDおよび入力対象IDを、プラットフォームサーバ600へ送信する(S2100)。
【0072】
発話者IDおよび入力対象IDを受信したプラットフォームサーバ600は(S2110)、受信した発話者IDが特定する入力端末300に対し、音声入力開始指示を送信する(S2120)。音声入力部320を介して、プラットフォーム表示部360に入力オペレータの発話音声が入力されると(S2130)、その入力音声は、プラットフォームサーバ600へ送信される(S2140)。そして、入力音声、発話者ID、および入力対象IDは、プラットフォームサーバ600から音声認識サーバ400へと送信される(S2150)。
【0073】
入力音声を受信した音声認識サーバ400は、入力音声に付随して受信した発話者IDおよび入力対象IDに基づいて、発話者毎および電子カルテの使用環境毎にカスタマイズされた音声認識処理を行う(S2160)。そして、音声認識サーバ400は、入力音声および音声認識結果と共に、入力対象IDおよび発話者IDをプラットフォームサーバ600へ送信する(S2170)。
【0074】
音声認識結果を受信したプラットフォームサーバ600は、付随して受信した入力対象IDに基づいて、入力対象の分野と対応分野がマッチする校正端末500を選択する(S2180)。そして、プラットフォームサーバ600は、選択した校正端末500に対し、入力音声および音声認識結果と共に、入力対象IDおよび発話者IDを送信する(S2190)。
【0075】
入力音声および音声認識結果を受信した校正端末500は、音声認識結果を表示すると共に入力音声を再生し、音声認識結果に対する修正操作を校正オペレータから受け付ける(校正処理)(S2200)。そして、校正端末500は、校正結果と共に、入力対象IDをプラットフォームサーバ600へ送信する(S2210)。
【0076】
校正結果、入力対象ID、および発話者IDは、更に、入力対象IDに基づいて、元のアプリケーション部220へと送信される。そして、アプリケーション部220のテキスト入力受付部222は、入力対象IDが特定する場所(入力対象)への、発話者IDが特定する発話者による入力テキストとして、校正結果を入力する(S2220)。この結果、当該入力対象の入力内容として当該校正結果のテキストが入力情報記憶部223に記憶される(S2230)。
【0077】
このようにネットワークシステム100が動作する結果、入力端末300は、ステップS2040の手入力からステップS2060のテキスト入力を受け付けると共に、ステップS2130の音声入力からも、ステップS2230のテキスト入力を受け付けることができる。また、ネットワークシステム100は、アプリケーションサーバ200ではなく、外部の音声認識サーバ400で音声認識を行うので、アプリケーション部220に対し、その内部に特に音声入力機能を追加することなく、音声入力機能を実現することができる。
【0078】
以上説明したように、本実施の形態に係るネットワークシステム100は、入力音声、音声認識結果、および校正結果の送受信を、発話者IDおよび入力対象IDを付随させて行う。これにより、ネットワークシステム100は、入力音声の対象となるアプリケーション部220に、その校正済みの音声認識結果を、入力対象を特定した状態で返信することができると共に、発話毎にカスタマイズされた音声認識処理等を実現することができる。
【0079】
したがって、ネットワークシステム100は、アプリケーション部220に、発話者IDおよび入力対象IDを送信する入力切替機能部を持たせるだけで、そのアプリケーション部220に対し音声入力機能を実現することができる。すなわち、ネットワークシステム100は、手入力専用の電子カルテ等の既存のウェブアプリケーションに対し、極めて容易に音声入力機能を採り入れることができる。
【0080】
また、音声認識サーバ400および校正端末500は、具体的にどの入力オペレータによる何を入力対象とした入力音声に対する処理なのかを特定する必要がなく、単に発話者IDおよび入力対象ID毎に区別した処理を行うだけで良い。したがって、本実施の形態に係るネットワークシステム100は、既存の各種クラウドアプリケーションやネットワークアプリケーションの機能を、容易に他のアプリケーションに取り入れることができる。
【0081】
また、発話者IDおよび入力対象IDは、具体的な個人情報をそのまま表す情報としなくても良いため、個人情報の漏洩を防いだ状態で、上述のアプリケーションへの機能追加を実現することができる。
【0082】
なお、ネットワークシステム100は、校正端末500と同様に、アプリケーション部220においても、音声認識結果または校正結果に対する校正を受け付けても良い。また、ネットワークシステム100は、校正内容を音声認識サーバ400にフィードバックし、次回以降により精度の高い音声認識処理が行われるように、音声認識サーバ400の音響モデルおよび言語モデル等を修正しても良い。
【0083】
また、プラットフォームサーバ600は、アプリケーション側と、他の機能追加用のシステム側との間で、発話者IDおよび入力対象IDの書き換えまたは付け替えを行っても良い。この場合、プラットフォームサーバ600は、例えば、アプリケーション側における発話者IDおよび入力対象IDと、他のシステム側における発話者IDおよび入力対象IDとの対応テーブルを格納し、これを参照して発話者IDおよび入力対象IDの書き換えまたは付け替えを行う。これにより、アプリケーションから送信された発話者IDおよび入力対象IDが、外部のシステムに漏洩するのを防ぐことができる。また、音声認識サーバ400および校正端末500での処理に必要な情報のみに絞って送信を行うことができ、通信負荷を低減することができる。
【0084】
また、プラットフォームサーバ600は、入力端末300に対し、入力端末IDをそのまま校正結果に付随させて送信するのではなく、入力端末IDのうち場所を特定する部分のみを校正結果に付随させて送信しても良い。これにより、通信負荷を低減することができる。
【0085】
また、ネットワークシステム100は、音声認識サーバ400が、発話者毎あるいは入力対象毎に設けられている場合には、校正端末500の選択と同様に、プラットフォームサーバ600で、どの音声認識サーバ400に入力音声を送信すべきかを判断するようにしても良い。
【0086】
また、ネットワークシステム100は、音声入力機能に加えて、手書き文字入力機能をアプリケーションに実現するものであっても良い。
【0087】
この場合、例えば、入力端末300のプラットフォーム表示部350は、手書き文字画像を入力し、その手書き文字画像をプラットフォームサーバ600に送信すれば良い。そして、プラットフォームサーバ600の音声受信部621は、手書き文字認識システムに、受信した手書き文字画像と共に、発話者ID(筆者ID)および入力対象IDを送信する。そして、プラットフォームサーバ600のテキスト送信部641は、手書き文字認識結果を、入力対象IDおよび発話者IDと共に受信し、これらをアプリケーションサーバ200へ送信する。これにより、ネットワークシステム100は、アプリケーションに軽微な機能部を持たせるだけで、そのアプリケーションに対し、入力オペレータの癖字等を考慮した、入力オペレータ毎および使用環境毎にカスタマイズされた手書き文字入力機能を実現することができる。すなわち、ネットワークシステム100は、キーボード入力専用の電子カルテ等の既存のアプリケーションに対し、極めて容易に手書き文字入力機能を採り入れることができる。
【0088】
また、ネットワークシステム100は、音声認識システムや手書文字認識システム以外の各種機能についても、同様に発話者IDや入力対象ID等を付随させてデータを転送することにより、既存のアプリケーションに採り入れることができる。
【0089】
また、ネットワークシステム100は、複数種類のアプリケーションに対して、機能追加を行うようにしても良い。
【0090】
但し、このように複数種類のアプリケーションまたは複数種類の機能について機能追加を行う場合には、プラットフォームサーバ600は、音声や話者情報等についてのリソース管理テーブルを保持することが望ましい。この場合、プラットフォームサーバ600は、アプリケーションから受信した情報から、リソース管理テーブルを参照して、どの機能を提供すべきかを決定するリソースマッチングを行い、適切な情報転送を行う。このように、プラットフォームサーバ600がリソースマッチングを行う場合、機能拡張されるアプリケーションと機能を提供するリソースとのいずれもリソースマッチングの機能を用意する必要が無いため、極めて容易にアプリケーションへの機能追加を行うことができる。
【0091】
また、機能の追加の対象となるアプリケーションは、上述のようなパブリッククラウドアプリケーションに制限されない。アプリケーションは、例えば、病院内の各パーソナルコンピュータにインストールされたローカルアプリケーションや、病院内のサーバコンピュータに配置されたプライベートクラウドアプリケーションであっても良い。
【0092】
また、アプリケーションは、プラットフォームサーバ600から受信した校正結果を、カーソル位置の入力欄等に入力せず、画面上に表示するのみとし、入力オペレータが表示された校正結果をコピーして任意の箇所にペーストするようにしても良い。この場合、ネットワークシステム100は、入力対象IDに、カーソル位置を示す情報を含めずに済む。
【0093】
また、アプリケーションは、音声入力開始通知の有無によらず、常に、または、他のトリガに基づいて、発話者IDおよび入力対象IDをプラットフォームサーバ600に送信しても良い。
【0094】
また、ネットワークシステム100は、入力対象IDに、病院、テキスト入力の緊急度など、他の属性を特定する情報を含めても良い。例えば、プラットフォームサーバ600は、校正端末500を、音声認識結果を送信してから校正結果を返信するまでに要する時間のレベルで分類しておき、テキスト入力の緊急度に応じて、適切なレベルに属する校正端末500を選択するようにする。これにより、ネットワークシステム100は、要求される緊急性を満たす音声入力機能を実現することができる。
【0095】
また、本発明は、会議音声の文字化による議事録作成や、ニュース音声の字幕化、携帯電話の音声のメール文章化等の各種システムおよびサービスにも適用することができる。
【産業上の利用可能性】
【0096】
本発明に係る業務支援装置および業務支援方法は、既存のアプリケーションに対し極めて容易に音声入力機能を採り入れることができる業務支援装置および業務支援方法として有用である。
【符号の説明】
【0097】
100 ネットワークシステム
200 アプリケーションサーバ
210、340、410、610 通信部
220 アプリケーション部
221 画面生成部
222 テキスト入力受付部
223 入力情報記憶部
224 入力切替機能部
300 入力端末
310 入力操作部
320 音声入力部
330 表示部
350 アプリケーション表示部
360 プラットフォーム表示部
400 音声認識サーバ
420 DB対応テーブル格納部
430 音声認識処理部
440 音声認識DB
500 校正端末
600 プラットフォームサーバ
620 音声認識制御部
621 音声受信部
630 対応分野テーブル格納部
640 校正制御部
641 テキスト送信部
700 通信ネットワーク


【特許請求の範囲】
【請求項1】
テキスト入力を受け付けるアプリケーションと、音声認識処理を行う音声認識システムと、前記アプリケーションのユーザに対し前記テキスト入力の業務を支援する業務支援装置と、を含むシステムにおける前記業務支援装置であって、
前記アプリケーションを対象とした入力音声を受信する音声受信部と、
前記入力音声に対する音声認識処理を前記音声認識システムに実行させる音声認識制御部と、
前記音声認識処理の結果を送信するテキスト送信部と、を有し、
前記音声受信部は、
前記アプリケーションに組み込まれた入力切替機能部から、前記入力音声の発話者を特定する発話者IDと、前記入力音声の入力対象を特定する入力対象IDと、を受信し、
前記音声認識制御部は、
前記発話者IDに基づいて、前記音声認識システムに対し、前記発話者毎にカスタマイズされた前記音声認識処理を実行させ、
前記テキスト送信部は、
前記音声認識処理の結果であるテキストを、前記発話者IDおよび前記入力対象IDに基づいて、前記発話者によるテキスト入力として前記アプリケーションへ送信する、
業務支援装置。
【請求項2】
前記音声受信部は、
前記発話者IDにより特定される発話者から、前記入力音声を受信する、
請求項1記載の業務支援装置。
【請求項3】
前記音声認識制御部は、
前記入力対象IDに基づいて、前記音声認識システムに対し、前記入力対象の分野毎にカスタマイズされた前記音声認識処理を実行させる、
請求項1記載の業務支援装置。
【請求項4】
前記音声認識処理の結果に対する校正処理を行う複数の校正端末のいずれかを選択し、選択した校正端末に前記校正処理を実行させる校正制御部、を更に有し、
前記校正制御部は、
前記音声認識システムから、前記音声認識結果と共に、前記入力音声の入力対象IDを受信し、受信した入力対象IDに基づいて前記校正端末を選択する、
請求項1記載の業務支援装置。
【請求項5】
前記音声認識制御部は、
前記音声認識システムに対し、前記発話者IDにより特定される発話者の音響モデルと、前記入力対象IDにより特定される入力対象の分野の言語モデルおよび辞書とを用いた音声認識処理を実行させる、
請求項3記載の業務支援装置。
【請求項6】
前記校正制御部は、
前記入力対象IDにより特定される入力対象の分野に適した前記校正端末を選択する、
請求項4記載の業務支援装置。
【請求項7】
前記アプリケーションは、HTMLにより実現されるウェブアプリケーションである、
請求項1記載の業務支援装置。
【請求項8】
テキスト入力を受け付けるアプリケーションと、音声認識処理を行う音声認識システムと、前記アプリケーションのユーザに対し前記テキスト入力の業務を支援する業務支援装置と、を含むシステムの前記業務支援装置における業務支援方法であって、
前記アプリケーションに組み込まれた入力切替機能部から、前記アプリケーションを対象とした入力音声と、前記入力音声の発話者を特定する発話者IDと、前記入力音声の入力対象を特定する入力対象IDと、を受信するステップと、
前記発話者IDに基づいて、前記音声認識システムに、前記発話者毎にカスタマイズされた前記音声認識処理を前記入力音声に対して実行させるステップと、
前記音声認識処理の結果であるテキストを、前記発話者IDおよび前記入力対象IDに基づいて、前記発話者によるテキスト入力として前記アプリケーションへ送信するステップと、を有する、
業務支援方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−18518(P2012−18518A)
【公開日】平成24年1月26日(2012.1.26)
【国際特許分類】
【出願番号】特願2010−154870(P2010−154870)
【出願日】平成22年7月7日(2010.7.7)
【出願人】(510188403)株式会社サイバークラーク研究所 (3)
【出願人】(398018021)株式会社アドバンスト・メディア (23)
【Fターム(参考)】