説明

音声処理サーバ

【課題】聞き起こし作業の作業者の負担と、作業者によって使用される端末の負担とを従来より低減することができる聞き起こしシステムを提供する。
【解決手段】管理サーバ40は、取得した元音声データを分割し音声認識処理を実行して得た分割文字データを、分割した元音声データとともに複数の聞き起こし端末60に順次配信する一方、編集された文字データを複数の聞き起こし端末60から順次受信する。また、管理サーバ40は、分割文字データをそれぞれ読み出し可能に記憶する文字データ記憶部と、それぞれの聞き起こし端末60からの要求に応じて、文字データ記憶部から読み出された分割文字データを、聞き起こし端末60に順次配信する配信手段とを有し、音声認識処理により得た文字データの編集を、複数の聞き起こし端末60により、並行して実行する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声データに基づいて文字データを生成するための聞き起こしシステムで用いられる音声処理サーバに関する。
【背景技術】
【0002】
従来の聞き起こしシステムとしては、音声データをストリーミング配信によりリアルタイム又はそれに近いタイミングで各オペレータまで送信し、各オペレータが反訳データの任意の箇所を同時に編集することによって複数のオペレータによって1つの反訳データを生成するデジタル速記システムが知られている(例えば、特許文献1参照。)。
【特許文献1】特開2004−77966号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、従来の聞き起こしシステムにおいては、複数のオペレータによる同一箇所の更新を回避するために全ての端末装置間で行単位で書き込み保護をかけることによりデータの保護をかける必要があり、端末装置の負担が大きいという問題があった。また、保護がかけられたテキスト行に対応する音声に保護をかける仕組みが提案されていないので、オペレータが聞き起こしをするかどうかの判断は音声を聞くしかないので、その作業がオペレータに負担となる。さらに、同じ行を複数の作業者が同時に更新し始めた場合は保護をかける前であるので、作業が重複してしまいオペレータに負担となる可能性もある。
【0004】
本発明は、従来の問題を解決するためになされたもので、聞き起こし作業の作業者の負担と、作業者によって使用される端末の負担とを従来より低減することができる聞き起こしシステムを提供することを目的とする。
【課題を解決するための手段】
【0005】
本発明の音声処理サーバは、取得した元音声データを分割し音声認識処理を実行して得た分割文字データを、分割した元音声データとともに複数の作業者用端末に順次配信する一方、編集された前記文字データを前記複数の作業者用端末から順次受信する音声処理サーバであって、前記分割文字データをそれぞれ読み出し可能に記憶する文字データ記憶部と、それぞれの前記作業者用端末からの要求に応じて、前記文字データ記憶部から読み出された前記分割文字データを、前記作業者用端末に順次配信する配信手段とを有し、音声認識処理により得た文字データの編集を、複数の作業者用端末により、並行して実行する。
【0006】
この構成により、作業者の作業を効率化して作業者の負担を低減することができる。また、本発明のサーバは、作業者用端末同士における文字データの同期を必要としないので、作業者用端末の負担をより低減することができる。また、本発明のサーバは、元音声データの聞き起こし作業を複数の作業者に同時に分担させることができるので、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。また、本発明のサーバは、送信用音声データを作業者用端末に電子的に送るので、元音声データ全体の聞き起こし作業に要する時間や費用を低減することができる。
【0007】
さらに、本発明の音声処理サーバは、以下の構成をとりうる。
本発明のサーバの前記元音声データ分割手段は、前記元音声データに含まれる無音部分を区切りとして前記送信用音声データを生成することが好ましい。
【0008】
この構成により、本発明のサーバは、送信用音声データがストリーミングで配信される構成と比較して、聞き直しや一時停止などの操作を作業者が行う必要性が減少するので、作業者が送信用音声データの聞き起こし作業に要する時間を短縮することができ、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。
【0009】
また、本発明のサーバの前記元音声データ分割手段は、前記元音声データに含まれる文の切れ目部分を区切りとして前記送信用音声データを生成することが好ましい。
【0010】
この構成により、本発明のサーバは、送信用音声データが大き過ぎる構成と比較して、作業者が送信用音声データの聞き起こし作業に要する時間を短縮することができるので、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。また、本発明のサーバは、送信用音声データが小さ過ぎる構成と比較して、送信用音声データに含まれる話の内容を聞き起こし作業の作業者に容易に理解させることができるので、作業者による送信用音声データの聞き起こし作業を容易化することができる。
【0011】
また、本発明のサーバの前記元音声データ分割手段は、前記元音声データに含まれる話者の切り替わり部分を区切りとして前記送信用音声データを生成することが好ましい。
【0012】
この構成により、本発明のサーバは、送信用音声データが大き過ぎる構成と比較して、作業者が送信用音声データの聞き起こし作業に要する時間を短縮することができるので、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。また、本発明のサーバは、送信用音声データが小さ過ぎる構成と比較して、送信用音声データに含まれる話の内容を聞き起こし作業の作業者に容易に理解させることができるので、作業者による送信用音声データの聞き起こし作業を容易化することができる。
【0013】
また、本発明のサーバの前記元音声データ分割手段は、前記元音声データに含まれる話題の切り替わり部分を区切りとして前記送信用音声データを生成することが好ましい。
【0014】
この構成により、本発明のサーバは、送信用音声データが大き過ぎる構成と比較して、作業者が送信用音声データの聞き起こし作業に要する時間を短縮することができるので、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。また、本発明のサーバは、送信用音声データが小さ過ぎる構成と比較して、送信用音声データに含まれる話の内容を聞き起こし作業の作業者に容易に理解させることができるので、作業者による送信用音声データの聞き起こし作業を容易化することができる。
【0015】
また、本発明のサーバの前記振分送信手段は、前記送信用音声データを送信する前記作業者用端末を前記送信用音声データの話者に応じて選択することが好ましい。
【0016】
この構成により、本発明のサーバは、作業者毎に特定の話者に特化させることができるので、作業者による聞き起こし作業の効率を向上させることができる。また、本発明のサーバは、作業者用端末毎に特定の話者に特化させることができるので、作業者用端末が音声認識を行う場合、話者の声質や話題によって音声認識の精度を向上することができる。
【0017】
また、本発明のサーバは、音声認識によって前記音声データに基づいて前記文字データを生成する文字データ生成手段を備え、前記振分送信手段は、前記作業者用端末に送信する前記送信用音声データに対応する前記文字データを前記作業者用端末に送信することが好ましい。
【0018】
この構成により、本発明のサーバは、音声認識によって大体の文字データを生成するので、送信用音声データを最初から作業者に聞き起こさせる構成と比較して、作業者が送信用音声データの聞き起こし作業に要する時間や労力を低減することができる。したがって、本発明のサーバは、元音声データ全体の聞き起こし作業に要する時間や人件費を低減することができる。
【0019】
また、本発明のサーバの前記振分送信手段は、前記送信用音声データの要求を前記作業者用端末から受けたときに前記要求を行った前記作業者用端末に前記送信用音声データを送信することが好ましい。
【0020】
この構成により、本発明のサーバは、作業者による聞き起こし作業の進捗状況に応じて作業者用端末に送信用音声データを送信することができるので、作業者による聞き起こし作業の進捗状況とは無関係に送信用音声データを作業者用端末に送信する構成と比較して、元音声データ全体の聞き起こし作業を効率化して所要時間を短縮することができる。
【0021】
また、本発明のサーバは、前記振分送信手段によって送信される前記送信用音声データを選択する送信用音声データ選択手段を備え、前記送信用音声データ選択手段は、前記送信用音声データの話題と、前記作業者とに基づいて前記送信用音声データを選択することが好ましい。
【0022】
この構成により、本発明のサーバは、作業者に適した送信用音声データを作業者用端末に送信することができるので、話題とは無関係に送信用音声データを作業者用端末に送信する構成と比較して、作業者が聞き起こし作業に要する時間を短縮することができる。したがって、本発明のサーバは、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。
【0023】
また、本発明のサーバは、前記振分送信手段によって送信される前記送信用音声データを選択する送信用音声データ選択手段を備え、前記送信用音声データ選択手段は、前記作業者用端末が音声認識によって前記音声データに基づいて前記文字データを生成する場合、前記送信用音声データの話題と、前記音声認識によって使用される音声認識辞書が対象とする話題とに基づいて前記送信用音声データを選択することが好ましい。
【0024】
この構成により、本発明のサーバは、作業者用端末に適した送信用音声データを作業者用端末に送信することができるので、話題とは無関係に送信用音声データを作業者用端末に送信する構成と比較して、作業者が聞き起こし作業に要する時間を短縮することができる。したがって、本発明のサーバは、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。
【0025】
また、本発明のサーバの前記振分送信手段は、前記作業者用端末に前記送信用音声データを暗号化して送信することが好ましい。
【0026】
この構成により、本発明のサーバは、例えば機密情報や個人情報などの秘密情報が元音声データに含まれる場合であっても、秘密を守りながら公衆ネットワークを介して作業者用端末と通信を行うことができる。
【0027】
また、本発明のサーバ用プログラムは、音声データに基づいて文字データを生成する聞き起こし作業に携わる複数の作業者によって使用される複数の作業者用端末と通信を行うサーバを動作させるサーバ用プログラムであって、前記聞き起こし作業の元となる音声データである元音声データを前記作業者用端末への送信用の音声データである複数の送信用音声データに分割する元音声データ分割手段と、前記元音声データ分割手段によって生成された複数の前記送信用音声データを前記複数の作業者用端末に振り分けて送信する振分送信手段としてサーバを機能させることを特徴とする。
【0028】
この構成により、本発明のサーバ用プログラムは、複数の送信用音声データのうち聞き起こし作業の作業者が聞き起こすべき送信用音声データを作業者用端末に送信するので、作業者の作業を従来より効率化して作業者の負担を従来より低減することができる。また、本発明のサーバ用プログラムは、作業者用端末同士における文字データの同期を必要としないので、作業者用端末の負担を従来より低減することができる。また、本発明のサーバ用プログラムは、元音声データの聞き起こし作業を複数の作業者に同時に分担させることができるので、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。また、本発明のサーバ用プログラムは、送信用音声データを作業者用端末に電子的に送るので、送信用音声データを記録媒体に格納して作業者に郵送する場合と比較して、元音声データ全体の聞き起こし作業に要する時間や費用を低減することができる。
【0029】
また、本発明の聞き起こしシステムは、音声データに基づいて文字データを生成する聞き起こし作業に携わる複数の作業者によって使用される複数の作業者用端末と、前記複数の作業者用端末と通信を行うサーバとを備えた聞き起こしシステムであって、前記サーバは、前記聞き起こし作業の元となる音声データである元音声データを前記作業者用端末への送信用の音声データである複数の送信用音声データに分割する元音声データ分割手段と、前記元音声データ分割手段によって生成された複数の前記送信用音声データを前記複数の作業者用端末に振り分けて送信する振分送信手段とを備えたことを特徴とする。
【0030】
この構成により、本発明の聞き起こしシステムは、複数の送信用音声データのうち聞き起こし作業の作業者が聞き起こすべき送信用音声データを作業者用端末に送信するので、作業者の作業を従来より効率化して作業者の負担を従来より低減することができる。また、本発明の聞き起こしシステムは、作業者用端末同士における文字データの同期を必要としないので、作業者用端末の負担を従来より低減することができる。また、本発明の聞き起こしシステムは、元音声データの聞き起こし作業を複数の作業者に同時に分担させることができるので、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。また、本発明の聞き起こしシステムは、送信用音声データを作業者用端末に電子的に送るので、送信用音声データを記録媒体に格納して作業者に郵送する場合と比較して、元音声データ全体の聞き起こし作業に要する時間や費用を低減することができる。
【0031】
また、本発明の聞き起こしシステムの前記作業者用端末は、前記音声データに基づいて音声を出力する音声出力手段と、作業者の指示に応じて前記文字データを編集する文字データ編集手段と、前記文字データを前記サーバに送信する文字データ送信手段とを備えることが好ましい。
【0032】
この構成により、本発明の聞き起こしシステムは、作業者によって聞き起こされた文字データを作業者用端末からサーバに電子的に送るので、例えば作業者が文字データを記録媒体に格納してサーバの管理者に郵送する場合と比較して、元音声データ全体の聞き起こし作業に要する時間や費用を低減することができる。
【0033】
また、本発明の聞き起こしシステムの前記振分送信手段は、前記元音声データに含まれる無音部分、文の切れ目部分、話者の切り替わり部分及び話題の切り替わり部分の少なくとも1種類からなる区切り情報を前記送信用音声データとともに前記作業者用端末に送信し、前記作業者用端末は、前記区切り情報に基づいて前記送信用音声データを前記音声出力手段による前記音声の出力用の音声データである複数の出力用音声データに分割する送信用音声データ分割手段を備えることが好ましい。
【0034】
この構成により、本発明の聞き起こしシステムは、作業者の短期記憶に残る程度の量の音声を出力することができるので、作業者の短期記憶に残らないほどに大量の音声を連続して出力する構成と比較して、作業者による聞き起こし作業の効率を向上させることができる。したがって、本発明の聞き起こしシステムは、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。
【0035】
また、本発明の聞き起こしシステムの前記文字データ編集手段は、前記出力用音声データ毎に前記文字データを編集することが好ましい。
【0036】
この構成により、本発明の聞き起こしシステムは、出力中の音声に対応する箇所の文字データを作業者に編集させることができるので、作業者による聞き起こし作業の効率を向上させることができる。したがって、本発明の聞き起こしシステムは、元音声データ全体の聞き起こし作業に要する時間を短縮することができる。
【0037】
また、本発明の聞き起こしシステムの前記作業者用端末は、音声認識によって前記音声データに基づいて前記文字データを生成する文字データ生成手段を備えることが好ましい。
【0038】
この構成により、本発明の聞き起こしシステムは、音声認識によって大体の文字データを生成するので、送信用音声データを最初から作業者に聞き起こさせる構成と比較して、作業者が送信用音声データの聞き起こし作業に要する時間や労力を低減することができる。したがって、本発明の聞き起こしシステムは、元音声データ全体の聞き起こし作業に要する時間や人件費を低減することができる。
【0039】
また、本発明の聞き起こしシステムの前記振分送信手段は、前記作業者用端末に前記送信用音声データを暗号化して送信し、前記文字データ送信手段は、前記サーバに前記文字データを暗号化して送信することが好ましい。
【0040】
この構成により、本発明の聞き起こしシステムは、例えば機密情報や個人情報などの秘密情報が元音声データに含まれる場合であっても、サーバと作業者用端末との間で秘密を守りながら公衆ネットワークを介して通信を行うことができる。
【発明の効果】
【0041】
本発明によれば、聞き起こし作業の作業者の負担と、作業者によって使用される端末の負担とを従来より低減することができる聞き起こしシステムを提供することができる。
【発明を実施するための最良の形態】
【0042】
以下、本発明の一実施の形態について、図面を用いて説明する。
【0043】
まず、本実施の形態に係る聞き起こしシステムの構成について説明する。
【0044】
図1に示すように、本実施の形態に係る聞き起こしシステム10は、公共の議会や会社の会議室などの場所に設置されて会議を録音する録音装置20と、録音装置20によって録音された音声に基づいて文字データを生成する聞き起こし作業を管理するサーバとしての管理サーバ40と、聞き起こし作業に携わる複数の作業者によって使用される複数の作業者用端末としての複数の聞き起こし端末60とを備えている。録音装置20、管理サーバ40及び聞き起こし端末60は、インターネットなどの公衆ネットワーク11に接続されている。
【0045】
図2に示すように、管理サーバ40は、コンピュータであり、サーバ用プログラムによって動作させられるようになっている。サーバ用プログラムは、録音装置20(図1参照。)や聞き起こし端末60(図1参照。)との通信を行う通信手段41と、各種のデータを記憶する記憶手段42と、聞き起こし作業の元となる音声データである元音声データ80(図3参照。)を聞き起こし端末60への送信用の音声データである複数の送信用音声データ81(図3参照。)に分割する元音声データ分割手段43と、通信手段41によって送信される送信用音声データ81を選択する送信用音声データ選択手段44として、管理サーバ40を機能させるようになっている。
【0046】
通信手段41は、元音声データ分割手段43によって生成された複数の送信用音声データ81を公衆ネットワーク11を介して複数の聞き起こし端末60に振り分けて送信するようになっており、振分送信手段としても機能するようになっている。なお、通信手段41は、送信用音声データ81の要求を聞き起こし端末60から受けたときに、要求を行った聞き起こし端末60に送信用音声データ81を送信するようになっている。
【0047】
また、記憶手段42は、送信用音声データ81について、元音声データ80における先頭からの順番と、送信先である聞き起こし端末60との対応関係を示すテーブルである順番テーブル(図4参照。)を記憶するようになっている。順番テーブルの「送信先」項目には、管理サーバ40が聞き起こし端末60に未だ送信していない送信用音声データ81については、「未」という値が格納され、管理サーバ40が聞き起こし端末60に送信した送信用音声データ81については、送信先の聞き起こし端末60の名称が格納され、管理サーバ40が聞き起こし端末60から対応する文字データを受信した送信用音声データ81については、「済」という値が格納される。
【0048】
また、元音声データ分割手段43は、音声認識機能と自然言語処理機能とによって元音声データ80に含まれる文の切れ目部分を判断し、文の切れ目部分を区切りとして送信用音声データ81を生成するようになっている。即ち、元音声データ分割手段43は、文単位で送信用音声データ81を生成するようになっている。
【0049】
また、送信用音声データ選択手段44は、送信用音声データ81の話題と、聞き起こし端末60における音声認識によって使用される音声認識辞書が対象とする話題とに基づいて送信用音声データ81を選択するようになっている。
【0050】
図5に示すように、聞き起こし端末60は、コンピュータであり、端末用プログラムによって動作させられるようになっている。端末用プログラムは、管理サーバ40(図1参照。)との通信を行う通信手段61と、各種のデータを記憶する記憶手段62と、送信用音声データ81(図6参照。)を音声の出力用の音声データである複数の出力用音声データ82(図6参照。)に分割する送信用音声データ分割手段63と、音声認識によって文字データを生成する文字データ生成手段64と、出力用音声データ82に基づいて音声を出力する音声出力手段65と、作業者の指示に応じて文字データを編集する文字データ編集手段66として、聞き起こし端末60を機能させるようになっている。
【0051】
通信手段61は、文字データを管理サーバ40に送信するようになっており、文字データ送信手段としても機能するようになっている。
【0052】
また、送信用音声データ分割手段63は、音声認識機能と自然言語処理機能とによって送信用音声データ81に含まれる文節の切れ目部分を判断し、文節の切れ目部分を区切りとして出力用音声データ82を生成するようになっている。即ち、送信用音声データ分割手段63は、文節単位で出力用音声データ82を生成するようになっている。
【0053】
また、文字データ編集手段66は、出力用音声データ82毎に文字データを編集するようになっている。
【0054】
次に、聞き起こしシステム10の動作について説明する。
【0055】
まず、録音装置20の動作について説明する。
【0056】
録音装置20は、会議の録音が録音装置20の管理者によって指示されると、会議の録音を行って元音声データ80を録音しながら、公衆ネットワーク11を介して管理サーバ40に元音声データ80をリアルタイムに送信する。
【0057】
次に、管理サーバ40の動作について説明する。
【0058】
管理サーバ40は、録音装置20から公衆ネットワーク11を介して元音声データ80を通信手段41によって受信し始めると、図7に示すように、元音声データ80を記憶手段42によって記憶し始める(S101)。
【0059】
次いで、管理サーバ40は、記憶手段42によって記憶されていく元音声データ80を元音声データ分割手段43によって図3に示すように送信用音声データ81に分割し始める(S102)。ここで、管理サーバ40は、元音声データ80に含まれる文の切れ目部分を区切りとして送信用音声データ81を生成する。即ち、送信用音声データ81は、文単位の音声データである。
【0060】
なお、管理サーバ40は、送信用音声データ81を生成すると、生成した送信用音声データ81についての項目を順番テーブルに追加し、「送信先」項目に「未」という値を格納する。
【0061】
そして、管理サーバ40は、複数の送信用音声データ81を通信手段41によって公衆ネットワーク11を介して複数の聞き起こし端末60に振り分けて送信し始める(S103)。即ち、管理サーバ40は、以後、送信用音声データ81の要求を公衆ネットワーク11を介して聞き起こし端末60から通信手段41によって受けたときに、要求を行った聞き起こし端末60に公衆ネットワーク11を介して通信手段41によって送信用音声データ81を送信する。ただし、管理サーバ40は、順番テーブルの「送信先」項目に名称が格納されている聞き起こし端末60からの要求には応じない。
【0062】
なお、管理サーバ40は、送信用音声データ81を聞き起こし端末60に送信すると、送信した送信用音声データ81について、順番テーブルの「送信先」項目に送信先の聞き起こし端末60の名称を格納する。
【0063】
管理サーバ40によって送信される送信用音声データ81は、送信用音声データ選択手段44によって選択される。即ち、管理サーバ40は、送信用音声データ81の話題と、送信用音声データ81の要求を行った聞き起こし端末60によって使用される音声認識辞書が対象とする話題とに基づいて、送信用音声データ81の要求を行った聞き起こし端末60に送信する送信用音声データ81を選択する。例えば、送信用音声データ81の要求を行った聞き起こし端末60によって使用される音声認識辞書が対象とする話題が医療関連である場合、管理サーバ40は、送信用音声データ81の要求を行った聞き起こし端末60に送信する送信用音声データ81として、話題が医療関連である送信用音声データ81を選択する。送信用音声データ81の話題は、予め会議の議題に基づいて登録されていても良いし、管理サーバ40が音声認識によって元音声データ80や送信用音声データ81から抽出しても良い。送信用音声データ81の要求を行った聞き起こし端末60によって使用される音声認識辞書が対象とする話題は、予め管理サーバ40に登録されていても良いし、送信用音声データ81の要求とともに聞き起こし端末60から管理サーバ40に通知されても良い。
【0064】
そして、管理サーバ40は、公衆ネットワーク11を介して聞き起こし端末60から文字データを通信手段41によって受信すると、受信した文字データを並べながら記憶手段42によって記憶し始める(S104)。即ち、管理サーバ40は、以後、文字データを聞き起こし端末60から公衆ネットワーク11を介して受信すると、受信した文字データの送信元である聞き起こし端末60に管理サーバ40自身が直前に送信した送信用音声データ81について、順番テーブルに基づいて元音声データ80における順番を求め、求めた順番通りに文字データを並べながら記憶する。即ち、管理サーバ40によって受信された文字データは、元になった送信用音声データ81と同じ順番で並べられ、最終的に全体として元音声データ80に対応した文字データとなる。
【0065】
なお、管理サーバ40は、文字データを記憶すると、記憶した文字データの送信元である聞き起こし端末60に管理サーバ40自身が直前に送信した送信用音声データ81について、順番テーブルの「送信先」項目に「済」という値を格納する。
【0066】
次に、聞き起こし端末60の動作について説明する。
【0067】
聞き起こし端末60は、作業者によって送信用音声データ81の取り込みが指示されると、図8に示すように、公衆ネットワーク11を介して管理サーバ40に通信手段61によって送信用音声データ81を要求する(S121)。
【0068】
そして、聞き起こし端末60は、管理サーバ40から公衆ネットワーク11を介して送信用音声データ81が送信されたと判断するまで、管理サーバ40から送信用音声データ81が送信されたか否かを判断する(S122)。
【0069】
聞き起こし端末60は、管理サーバ40から送信用音声データ81が送信されたとS122において判断すると、管理サーバ40から送信された送信用音声データ81を通信手段61によって受信して(S123)、記憶手段62によって記憶する(S124)。
【0070】
次いで、聞き起こし端末60は、S124において記憶した送信用音声データ81を送信用音声データ分割手段63によって図6に示すように出力用音声データ82として文節単位に分割し(S125)、S124において記憶した送信用音声データ81に基づいて文字データ生成手段64によって音声認識を行って出力用音声データ82毎に文字データを生成する(S126)。
【0071】
そして、聞き起こし端末60は、S126において生成された全ての文字データの編集の完了が作業者によって指示されたか否かを判断する(S127)。
【0072】
聞き起こし端末60は、全ての文字データの編集の完了が作業者によって指示されていないとS127において判断すると、S125において分割された何れかの出力用音声データ82が作業者によって指定されたか否かを判断する(S128)。
【0073】
聞き起こし端末60は、何れの出力用音声データ82も作業者によって指定されていないとS128において判断すると、再びS127の処理を実行する。
【0074】
聞き起こし端末60は、何れかの出力用音声データ82が作業者によって指定されたとS128において判断すると、S128において作業者によって指定された出力用音声データ82に基づいて音声出力手段65によって音声を出力し(S129)、S128において作業者によって指定された出力用音声データ82に対応する文字データを作業者の指示に基づいて文字データ編集手段66によって編集した後(S130)、再びS127の処理を実行する。したがって、作業者は、聞き起こし端末60の図示していないスピーカなどの音声出力装置から音声を聞きながら、聞き起こし端末60の図示していないキーボードなどの入力装置を介して文字データを編集するという作業を、出力用音声データ82毎、即ち、文節単位毎に実行することができる。
【0075】
聞き起こし端末60は、全ての文字データの編集の完了が作業者によって指示されたとS127において判断すると、公衆ネットワーク11を介して管理サーバ40に通信手段61によって一連の文字データを送信する(S131)。
【0076】
以上に説明したように、聞き起こしシステム10は、複数の送信用音声データ81のうち聞き起こし作業の作業者が聞き起こすべき送信用音声データ81を聞き起こし端末60に送信するので、作業者の作業を従来より効率化して作業者の負担を従来より低減することができる。
【0077】
また、聞き起こしシステム10は、聞き起こし端末60同士における文字データの同期を必要としないので、聞き起こし端末60の負担を従来より低減することができる。
【0078】
また、聞き起こしシステム10は、元音声データ80の聞き起こし作業を複数の作業者に同時に分担させることができるので、元音声データ80全体の聞き起こし作業に要する時間を短縮することができる。
【0079】
また、聞き起こしシステム10は、送信用音声データ81を聞き起こし端末60に電子的に送るので、送信用音声データ81を記録媒体に格納して作業者に郵送する場合と比較して、元音声データ80全体の聞き起こし作業に要する時間や費用を低減することができる。
【0080】
そして、聞き起こしシステム10は、元音声データ80全体の聞き起こし作業に要する時間を短縮することができるので、例えば午前中の会議の内容を記した議事録を午後に用意することができる。
【0081】
また、聞き起こしシステム10は、送信用音声データ81を聞き起こし端末60に電子的に送るので、勤労意欲がありながら在宅勤務という条件に拘束される人、例えばシングルマザーに勤労機会を提供することができる。
【0082】
また、聞き起こしシステム10は、作業者によって聞き起こされた文字データを聞き起こし端末60から管理サーバ40に電子的に送るので、例えば作業者が文字データを記録媒体に格納して管理サーバ40の管理者に郵送する場合と比較して、元音声データ80全体の聞き起こし作業に要する時間や費用を低減することができる。
【0083】
また、管理サーバ40は、元音声データ80に含まれる文の切れ目部分を区切りとして送信用音声データ81を生成するようになっているので、送信用音声データ81が大き過ぎる構成と比較して、作業者が送信用音声データ81の聞き起こし作業に要する時間を短縮することができ、元音声データ80全体の聞き起こし作業に要する時間を短縮することができる。また、管理サーバ40は、元音声データ80に含まれる文の切れ目部分を区切りとして送信用音声データ81を生成するようになっているので、送信用音声データ81が小さ過ぎる構成と比較して、送信用音声データ81に含まれる話の内容を聞き起こし作業の作業者に容易に理解させることができ、作業者による送信用音声データ81の聞き起こし作業を容易化することができる。
【0084】
なお、管理サーバ40の元音声データ分割手段43は、元音声データ80に含まれる文の切れ目部分以外の部分を区切りとして送信用音声データ81を生成するようになっていても良い。送信用音声データ81は、作業者が聞き起こし作業を請け負うか否かを即決できる程度に小さいことが好ましい。
【0085】
例えば、元音声データ分割手段43は、所定の音量以下の状態が所定の秒数以上続いた場合に無音部分と判断するなどして、元音声データ80に含まれる息継ぎなどの無音部分を判断し、無音部分を区切りとして送信用音声データ81を生成するようになっていても良い。この場合、管理サーバ40は、送信用音声データ81がストリーミングで配信される構成と比較して、聞き直しや一時停止などの操作を作業者が行う必要性が減少するので、作業者が送信用音声データ81の聞き起こし作業に要する時間を短縮することができ、元音声データ80全体の聞き起こし作業に要する時間を短縮することができる。
【0086】
また、元音声データ分割手段43は、声紋などを利用した話者識別機能によって元音声データ80に含まれる話者の切り替わり部分を判断し、話者の切り替わり部分を区切りとして送信用音声データ81を生成するようになっていても良い。また、元音声データ分割手段43は、音声認識機能と自然言語処理機能とによって元音声データ80に含まれる話題の切り替わり部分を判断し、話題の切り替わり部分を区切りとして送信用音声データ81を生成するようになっていても良い。これらの場合、管理サーバ40は、元音声データ80に含まれる文の切れ目部分を区切りとして送信用音声データ81を生成する構成と同様な効果を得ることができる。
【0087】
また、元音声データ分割手段43は、元音声データ80に含まれる無音部分、文の切れ目部分及び話者の切り替わり部分の少なくとも1種類を区切りとして元音声データ80を分割した後、所定の時間分、例えば3分間分を再結合して送信用音声データ81を生成するようになっていても良い。この場合、管理サーバ40は、作業者が送信用音声データ81の聞き起こし作業に要する時間を略均一にすることができる。
【0088】
また、管理サーバ40の通信手段41は、元音声データ80に含まれる話者の切り替わり部分を区切りとして元音声データ分割手段43が送信用音声データ81を生成する場合、送信用音声データ81を送信する聞き起こし端末60を送信用音声データ81の話者に応じて選択するようになっていても良い。この場合、管理サーバ40は、聞き起こし端末60毎に特定の話者に特化させることができるので、話者の声質や話題によって聞き起こし端末60による音声認識の精度を向上することができる。また、管理サーバ40は、作業者毎に特定の話者に特化させることができるので、作業者による聞き起こし作業の効率を向上させることができる。
【0089】
また、管理サーバ40は、送信用音声データ81の要求を聞き起こし端末60から受けたときに、要求を行った聞き起こし端末60に送信用音声データ81を送信するようになっているので、作業者による聞き起こし作業の進捗状況に応じて聞き起こし端末60に送信用音声データ81を送信することができる。したがって、管理サーバ40は、作業者による聞き起こし作業の進捗状況とは無関係に送信用音声データ81を聞き起こし端末60に送信する構成と比較して、元音声データ80全体の聞き起こし作業を効率化して所要時間を短縮することができる。
【0090】
また、管理サーバ40は、送信用音声データ81の話題と、聞き起こし端末60における音声認識によって使用される音声認識辞書が対象とする話題とに基づいて送信用音声データ81を選択するようになっているので、聞き起こし端末60に適した送信用音声データ81を聞き起こし端末60に送信することができる。したがって、管理サーバ40は、話題とは無関係に送信用音声データ81を聞き起こし端末60に送信する構成と比較して、作業者が聞き起こし作業に要する時間を短縮することができ、元音声データ80全体の聞き起こし作業に要する時間を短縮することができる。
【0091】
なお、管理サーバ40の送信用音声データ選択手段44は、送信用音声データ81の話題と、音声認識辞書が対象とする話題とに基づいた方法以外の方法によって送信用音声データ81を選択するようになっていても良い。
【0092】
例えば、送信用音声データ選択手段44は、送信用音声データ81の話題と、聞き起こし端末60における作業者とに基づいて送信用音声データ81を選択するようになっていても良い。この場合、管理サーバ40は、例えば法律関連の話題を得意とする作業者の聞き起こし端末60に法律関係の話題の送信用音声データ81を送信するなど、作業者に適した送信用音声データ81を聞き起こし端末60に送信することができるので、話題とは無関係に送信用音声データ81を聞き起こし端末60に送信する構成と比較して、作業者が聞き起こし作業に要する時間を短縮することができる。したがって、管理サーバ40は、元音声データ80全体の聞き起こし作業に要する時間を短縮することができる。
【0093】
また、聞き起こしシステム10は、音声認識によって大体の文字データを生成するので、送信用音声データ81を最初から作業者に聞き起こさせる構成と比較して、作業者が送信用音声データ81の聞き起こし作業に要する時間や労力を低減することができる。したがって、聞き起こしシステム10は、元音声データ80全体の聞き起こし作業に要する時間や人件費を低減することができる。
【0094】
なお、聞き起こしシステム10は、聞き起こし端末60が音声認識によって文字データを生成するのではなく、管理サーバ40が元音声データ80に基づいて音声認識によって文字データを生成し、送信用音声データ81に対応する文字データを送信用音声データ81とともに管理サーバ40が聞き起こし端末60に送信するようになっていても良い。
【0095】
もちろん、聞き起こしシステム10は、管理サーバ40及び聞き起こし端末60の双方とも音声認識によって文字データを生成しないものであっても良い。
【0096】
また、聞き起こし端末60は、送信用音声データ81を出力用音声データ82に分割するので、作業者の短期記憶に残る程度の量の音声を出力することができる。したがって、聞き起こしシステム10は、作業者の短期記憶に残らないほどに大量の音声を聞き起こし端末60が連続して出力する構成と比較して、作業者による聞き起こし作業の効率を向上させることができ、元音声データ80全体の聞き起こし作業に要する時間を短縮することができる。
【0097】
なお、出力用音声データ82は、本実施の形態において、文節単位であるが、文節単位以外であっても良い。例えば、聞き起こし端末60は、送信用音声データ81に含まれる無音部分、文の切れ目部分、話者の切り替わり部分及び話題の切り替わり部分の少なくとも1種類からなる区切り情報を送信用音声データ81とともに管理サーバ40から受信し、区切り情報に基づいて送信用音声データ81に含まれる無音部分、文の切れ目部分、話者の切り替わり部分及び話題の切り替わり部分の少なくとも1種類を区切りとして出力用音声データ82を生成するようになっていても良い。送信用音声データ81が元音声データ80における話者の切り替わり部分を区切りとして生成されている場合には、聞き起こし端末60は、例えば、送信用音声データ81に含まれる文の切れ目部分を区切りとして出力用音声データ82を生成するようになっていても良い。
【0098】
もちろん、聞き起こし端末60は、送信用音声データ81を分割せずに送信用音声データ81全体の音声を連続して出力するようになっていても良い。
【0099】
また、聞き起こしシステム10は、出力用音声データ82毎に文字データを編集するので、出力中の音声に対応する箇所の文字データを作業者に編集させることができる。したがって、聞き起こしシステム10は、作業者による聞き起こし作業の効率を向上させることができ、元音声データ80全体の聞き起こし作業に要する時間を短縮することができる。
【0100】
もちろん、聞き起こし端末60は、出力用音声データ82毎に文字データを編集できるようになっていなくても良い。
【0101】
録音装置20は、元音声データ80を管理サーバ40に送信するときに、元音声データ80を暗号化するようになっていても良い。管理サーバ40は、送信用音声データ81を聞き起こし端末60に送信するときに、送信用音声データ81を暗号化するようになっていても良い。聞き起こし端末60は、作業者によって聞き起こされた文字データを管理サーバ40に送信するときに、文字データを暗号化するようになっていても良い。聞き起こしシステム10は、録音装置20、管理サーバ40及び聞き起こし端末60の間で暗号化通信を行うようになっているとき、例えば機密情報や個人情報などの秘密情報が元音声データ80に含まれる場合であっても、録音装置20、管理サーバ40及び聞き起こし端末60の間で秘密を守りながら公衆ネットワーク11を介して通信を行うことができる。
【0102】
また、元音声データ80は、録音装置20から公衆ネットワーク11を介して管理サーバ40に格納されるようになっているが、他の方法によって管理サーバ40に格納されるようになっていても良い。例えば、元音声データ80は、録音装置20の管理者によって記録媒体に格納されて管理サーバ40の管理者に郵送され、管理サーバ40の管理者によって管理サーバ40に格納させられるようになっていても良い。
【0103】
なお、聞き起こしシステム10は、議事録の作成事業以外の様々な事業に適用されることもできる。例えば、聞き起こしシステム10は、携帯電話に音声を入力して管理サーバ40に元音声データ80を生成し、生成した元音声データ80を複数の聞き起こし端末60によって分担して聞き起こし、聞き起こした文字データを管理サーバ40から携帯電話に送信し、管理サーバ40から携帯電話に送信された文字データを携帯電話によるメールの本文にするというような事業に適用されることができる。
【0104】
また、端末用プログラムやサーバ用プログラムは、記録媒体に格納されて流通されても良いし、ネットワークを介して流通されても良い。
【図面の簡単な説明】
【0105】
【図1】本発明の一実施の形態に係る聞き起こしシステムの構成を示すブロック図
【図2】図1に示す管理サーバの機能を示すブロック図
【図3】図1に示す聞き起こしシステムにおいて扱われる元音声データを示す図であって、送信用音声データに分割された状態を示す図
【図4】図2に示す管理サーバに記憶される順番テーブルを示す図
【図5】図1に示す聞き起こし端末の機能を示すブロック図
【図6】図3に示す送信用音声データを示す図であって、出力用音声データに分割された状態を示す図
【図7】図2に示す管理サーバの動作を示すフローチャート
【図8】図5に示す聞き起こし端末の動作を示すフローチャート
【符号の説明】
【0106】
10 聞き起こしシステム
11 公衆ネットワーク
20 録音装置
40 管理サーバ(サーバ)
41 通信手段(振分送信手段)
42 記憶手段
43 元音声データ分割手段
44 送信用音声データ選択手段
60 聞き起こし端末(作業者用端末)
61 通信手段(文字データ送信手段)
62 記憶手段
63 送信用音声データ分割手段
64 文字データ生成手段
65 音声出力手段
66 文字データ編集手段
80 元音声データ
81 送信用音声データ
82 出力用音声データ

【特許請求の範囲】
【請求項1】
取得した元音声データを分割し音声認識処理を実行して得た分割文字データを、分割した元音声データとともに複数の作業者用端末に順次配信する一方、編集された前記文字データを前記複数の作業者用端末から順次受信する音声処理サーバであって、
前記分割文字データをそれぞれ読み出し可能に記憶する文字データ記憶部と、
それぞれの前記作業者用端末からの要求に応じて、前記文字データ記憶部から読み出された前記分割文字データを、前記作業者用端末に順次配信する配信手段と、を有し、
音声認識処理により得た文字データの編集を、複数の作業者用端末により、並行して実行することを特徴とする音声処理サーバ。
【請求項2】
前記配信手段は、前記作業者用端末の1つから前記分割文字データの配信要求があった場合、他の作業者用端末に配信中である前記分割文字データの配信を行わない、ことを特徴とする音声処理サーバ。
【請求項3】
前記元音声データは、元音声データの無音部分、文の切れ目部分、話者の切り替わり部分、または、話題の切り替わり部分で分割される、ことを特徴とする請求項1記載の音声処理サーバ。
【請求項4】
前記元音声データを録音装置または携帯電話からリアルタイムに取得し、前記元音声データの文字データ化を行う請求項1記載の音声処理サーバ。
【請求項5】
録音装置と、前記録音装置から元音声データを取得する請求項1乃至請求項4のいずれかに記載された音声処理サーバと、前記音声処理サーバから受信する文字データを編集して返信する作業者用端末とを有する音声処理システム。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate


【公開番号】特開2008−226272(P2008−226272A)
【公開日】平成20年9月25日(2008.9.25)
【国際特許分類】
【出願番号】特願2008−146063(P2008−146063)
【出願日】平成20年6月3日(2008.6.3)
【分割の表示】特願2006−179177(P2006−179177)の分割
【原出願日】平成18年6月29日(2006.6.29)
【出願人】(398018021)株式会社アドバンスト・メディア (23)
【Fターム(参考)】