説明

書き起こし支援システムおよび書き起こし支援方法

【課題】音声データのうち書き起こしが完了した位置を特定可能な書き起こし支援システムを提供する。
【解決手段】実施形態の書き起こし支援システムは、音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、第1記憶部と、再生部と、第2記憶部と、テキスト作成部と、推定部とを備える。第1記憶部は、音声データを記憶する。再生部は、音声データを再生する。第2記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とを対応付けた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、音声データをテキスト化する書き起こし作業を支援するための書き起こし支援システムおよび書き起こし支援方法に関する。
【背景技術】
【0002】
従来、書き起こし作業の効率化を図るための様々な技術が知られている。例えば、音声データに対して音声認識処理を実行することにより得られた音声テキストデータを構成する複数の文字列の各々と、音声データの位置(再生位置)とを対応付けて画面上に表示させるという技術が知られている。この技術では、画面上の文字列が選択されると、その文字列に対応する再生位置から音声データが再生されるので、ユーザー(書き起こし作業者)は、文字列を選択して音声データを聞きながら当該文字列の修正を行う。
【0003】
上述した技術では、音声テキストデータを構成する複数の文字列の各々と、音声データの再生位置とを対応付けて画面上に表示させる必要があるので、表示制御の構成が複雑になるという問題がある。また、書き起こし作業では、フィラーや文法的な誤りを含む音声データをそのまま書き起こすことは少なく、整文作業を行うのが一般的である。すなわち、音声データと、ユーザーが書き起こそうとする文章との間には大きな差異があるので、上述した技術のように、音声データの音声認識結果を修正する作業を行うことは、必ずしも効率的ではない。したがって、構成の簡素化を図るという観点からは、音声認識結果の修正作業を行う書き起こす方式よりも、音声データを再生しながら、聞き取れた範囲をテキスト化していく書き起こし方式の方が好ましい。この場合、ユーザーは、音声データの一時停止、巻き戻しを繰り返しながら書き起こし作業を行うことになる。ここで、一時停止を解除して音声データの再生を再開する場合(書き起こし作業を再開する場合)は、音声データのうち書き起こしが完了した位置から再生が再開されることが望ましい。
【0004】
しかしながら、従来においては、音声データのうち書き起こしが完了した位置を特定することは困難であるという問題がある。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2005−228178号公報
【特許文献2】特許第4558308号
【発明の概要】
【発明が解決しようとする課題】
【0006】
本発明が解決しようとする課題は、音声データのうち書き起こしが完了した位置を特定可能な書き起こし支援システムおよび書き起こし支援方法を提供することである。
【課題を解決するための手段】
【0007】
実施形態の書き起こし支援システムは、音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、第1記憶部と、再生部と、第2記憶部と、テキスト作成部と、推定部とを備える。第1記憶部は、音声データを記憶する。再生部は、音声データを再生する。第2記憶部は、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する。テキスト作成部は、ユーザーの操作入力に応じてテキストを作成する。推定部は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。
【0008】
実施形態の書き起こし支援方法は、音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、再生ステップと、テキスト作成ステップと、推定ステップとを備える。再生ステップは、音声データを再生する。テキスト作成ステップは、ユーザーの操作入力に応じてテキストを作成する。推定ステップは、音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置を示す作成済み音声位置情報を推定する。
【図面の簡単な説明】
【0009】
【図1】実施形態の書き起こし支援システムの概略構成例を示すブロック図。
【図2】音声テキストデータの一例を示す図。
【図3】音声インデックスの一例を示す図。
【図4】テキスト作成処理の一例を示すフローチャート。
【図5】推定処理の一例を示すフローチャート。
【発明を実施するための形態】
【0010】
以下、添付図面を参照しながら、本発明に係る書き起こし支援システムの実施の形態を詳細に説明する。なお、以下の各実施形態では、書き起こし支援システムとして、音声データを再生する機能、および、ユーザーの操作に応じてテキストを作成するテキスト作成機能を有するPC(Personal Computer)を例に挙げて説明するが、これに限定されるものではない。以下の各実施形態では、書き起こし作業を行う場合、ユーザーは、収録された音声データを再生しながらキーボードを操作してテキスト入力を行い、音声データをテキスト化していく。
【0011】
図1は、本実施形態の書き起こし支援システム100の概略構成例を示すブロック図である。図1に示すように、書き起こし支援システム100は、第1記憶部11と、再生部12と、音声認識部13と、インデックス生成部14と、第2記憶部15と、入力受付部16と、テキスト作成部17と、推定部18と、設定部19と、再生指示受付部20と、再生制御部21とを含む。
【0012】
第1記憶部11は、音声データを記憶する。音声データは、例えばwav、mp3などの形式の音声ファイルである。音声データの取得方法は任意であり、例えばインターネット等のネットワーク経由で取得することもできるし、マイクロフォンなどを用いて取得することもできる。再生部12は、音声データを再生する手段であり、例えばスピーカ、DAコンバータおよびヘッドフォンなどから構成される機器である。
【0013】
音声認識部13は、音声データに対して音声認識処理を実行してテキスト化する。音声認識処理により得られたテキストデータを音声テキストデータと呼ぶ。音声認識処理は、公知の様々な技術を利用することができる。本実施形態では、音声認識部13により生成された音声テキストデータは、単語・形態素・文節などの文よりも小さい単位で分割され、ラティスと呼ばれる認識候補(分割単位の候補)をつないだネットワーク構造で表される。音声テキストデータの形態はこれに限られない。例えば音声認識処理の最適な認識結果を表す一次元構造(1つのパス)で音声テキストデータを表すこともできる。図2は、「先ほどの内容、今日議題にございました件ですが」という音声データに対して音声認識処理を実行して得られた音声テキストデータの一例を示す図である。図2の例では、分割単位は形態素である。
【0014】
再び図1に戻って説明を続ける。インデックス生成部14は、音声認識部13により生成された音声テキストデータを構成する複数の文字列の各々と、音声データの位置(再生位置)を示す音声位置情報とを対応付けた音声インデックスを生成する。例えば、音声認識部13により図2に示す音声テキストデータが生成された場合を想定する。この場合、インデックス生成部14は、音声テキストデータを構成する複数の形態素の各々と、音声データの音声位置情報とを対応付ける。これにより、図3に示されるような音声インデックスが生成される。音声認識処理では、音声データを10〜20ms程度の一定間隔で処理する。音声位置情報との対応付けは、処理対象となっている音声データとそれに対応する認識結果を音声認識処理の過程で取得することで実現できる。
【0015】
図3の例では、音声データの音声位置情報は、音声データの先頭からその位置まで再生するのに要する時間を示す時間情報を用いて表される(単位はミリ秒)。例えば図3の「今日」に対応する音声位置情報は「1100ms−1400ms」であるが、これは、音声データを再生した場合に、「今日」という音声の再生開始位置が1100msで、再生終了位置が1400msであることを意味している。言い換えれば、音声データを再生した場合に、当該音声データの先頭から1100ms経過した時点を始点とし、先頭から1400ms経過した時点を終点とする期間が、「今日」という音声が再生される期間であることを意味している。
【0016】
再び図1に戻って説明を続ける。第2記憶部15は、インデックス生成部14で生成された音声インデックスを記憶する。なお、音声インデックスは、書き起こし作業の開始前に既に作成されていてもよいし、書き起こし作業中にリアルタイムで作成されてもよい。
【0017】
入力受付部16は、ユーザーからのテキストを作成するための各種の入力(テキスト入力と呼ぶ)を受け付ける。ユーザーは、例えばキーボードなどの操作デバイスを操作することによりテキスト入力を行うことができる。テキスト作成部17は、ユーザーからの操作入力に応じてテキストを作成する。より具体的には、テキスト作成部17は、入力受付部16で受け付けたテキスト入力に従ってテキストを作成する。以下では、説明の便宜上、テキスト作成部17で作成されたテキストを「入力済みテキスト」と呼ぶ。
【0018】
図4は、テキスト作成部17が実行するテキスト作成処理の一例を示すフローチャートである。図4に示すように、テキスト作成部17は、入力受付部16でテキスト入力を受け付けた場合(ステップS1の結果:YES)、その受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力であるか否かを判定する(ステップS2)。なお、「punctuation」の入力とは、例えば句読点、疑問符、感嘆符などの入力を意味する。
【0019】
ステップS1で受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力であると判定した場合(ステップS2の結果:YES)、テキスト作成部17は、先頭の入力位置から現在の入力位置までの文字列をテキストとして確定する(ステップS3)。一方、ステップS1で受け付けたテキスト入力が、改行を指示する入力または「punctuation」の入力ではないと判定した場合(ステップS2の結果:NO)、処理はステップS4へ移行する。
【0020】
ステップS4では、テキスト作成部17は、受け付けたテキスト入力が、変換処理の確定を指示する入力であるか否かを判定する。変換処理の一例としては、平仮名を漢字に変換する処理などが挙げられる。なお、ここでは、変換処理の確定を指示する入力には、平仮名を漢字に変換せずにそのまま確定することを指示する入力も含まれる。受け付けたテキスト入力が、変換処理の確定を指示する入力であると判定した場合(ステップS4の結果:YES)、処理は上述のステップS3へ移行し、現在の入力位置までの文字列がテキストとして確定する。そして、テキスト作成部17は、確定したテキスト(入力済みテキスト)を推定部18へ送信する(ステップS5)。以上でテキスト作成処理が終了する。
【0021】
再び図1に戻って説明を続ける。推定部18は、音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置(つまりは書き起しが完了した位置)を示す作成済み音声位置情報を推定する。図5は、推定部18が実行する推定処理の一例を示すフローチャートである。図5に示すように、入力済みテキストを取得した場合(ステップS10の結果:YES)、推定部18は、入力済みテキストを構成する文字列(ここでは形態素を単位とする文字列)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(ステップS11)。
【0022】
ステップS11において、入力済みテキストを構成する文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在すると判断した場合(ステップS11の結果:YES)、推定部18は、入力済みテキストを構成する文字列の終端の文字列(最後の文字列)が、音声インデックスに含まれる文字列と一致するか否かを判断する(ステップ12)。
【0023】
上述のステップS12において、終端の文字列が、音声インデックスに含まれる文字列と一致すると判断した場合(ステップS12の結果:YES)、推定部18は、終端の文字列と一致する文字列に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(ステップS13)。一方、上述のステップS12において、終端の文字列が、音声インデックスに含まれる文字列と一致しないと判断した場合(ステップS12の結果:NO)、処理はステップS14に移行する。
【0024】
ステップS14では、推定部18は、音声インデックスに含まれる文字列と一致する文字列のうち終端の文字列に最も近い文字列を示す基準文字列に対応する音声位置情報を音声インデックスから読み出す(ステップS14)。また、推定部18は、入力済みテキストを構成する文字列のうち、基準文字列の次の文字列から終端の文字列までの文字列を示す不一致文字列を再生するのに要する時間を示す第1再生時間を推定する(ステップS15)。第1再生時間の推定方法は任意であり、例えば不一致文字列を音素列に変換し、各音素に対する標準的な音素継続時間のデータを用いて、その不一致文字列を再生(発話)するのに要する時間を推定することもできる。
【0025】
次に、推定部18は、ステップS14で読み出した音声位置情報(基準文字列に対応する音声位置情報)と、ステップS15で推定した第1再生時間とから、作成済み音声位置情報を推定する(ステップS16)。より具体的には、推定部18は、音声データのうち基準文字列の終端を示す位置よりも、ステップS15で推定した第1再生時間だけ先の位置を、作成済み音声位置情報として推定する。
【0026】
一方、上述のステップS11において、入力済みテキストを構成する文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在しないと判断した場合(ステップS11の結果:NO)、推定部18は、入力済みテキストを再生するのに要する時間を示す第2再生時間を推定する(ステップS17)。第2再生時間の推定方法は任意であり、例えばテキストを構成する文字列を音素列に変換し、各音素に対する標準的な音素継続時間のデータを用いて、テキストを構成する文字列を再生(発話)するのに要する時間を推定することもできる。そして、推定部18は、第2再生時間から作成済み音声位置情報を推定する(ステップS18)。
【0027】
いま、具体例として、ユーザー(書き起こし作業者)が「先ほどの内容、今日議題にございました件ですが」という音声データを聞いて、書き起こし作業を行う場合を想定する。ここでは、音声データの再生は、上記音声データの終端の位置で一時停止しているものとする。また、この例では、書き起こし作業の開始前において、図3に示す音声インデックスが既に生成されており、当該音声インデックスは第2記憶部15に格納されているものとする。
【0028】
最初に、ユーザーが、「さきほどの」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの」を構成する文字列(「先」「ほど」「の」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの」を構成する全ての文字列の各々が、音声インデックスに含まれる文字列と一致するので、推定部18は、終端の文字列「の」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(図5のステップS12、ステップS13)。この例では、推定部18は、終端の文字列「の」に対応する音声位置情報「600ms−700ms」の終点700msを、作成済み音声位置情報として推定する。
【0029】
次に、ユーザーが、上述の「先ほどの」という文字列(変換が確定済みの文字列)の後に続けて「ぎだいに」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの議題に」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの議題に」を構成する文字列(「先」「ほど」「の」「議題」「に」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの議題に」を構成する全ての文字列の各々が、音声インデックスに含まれる文字列と一致するので、推定部18は、終端の文字列「に」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(図5のステップS12、ステップS13)。この例では、推定部18は、終端の文字列「に」に対応する音声位置情報「1700ms−1800ms」の終点1800msを、作成済み音声位置情報として推定する。
【0030】
次に、ユーザーが、上述の「先ほどの議題に」という文字列の後に続けて「のぼった」という文字列を入力し、その入力文字列を確定(平仮名のままとすることを確定)することで、「先ほどの議題にのぼった」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの議題にのぼった」を構成する文字列(「先」「ほど」「の」「議題」「に」「のぼった」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの議題にのぼった」を構成する5つの文字列のうち4つの文字列(「先」「ほど」「の」「議題」「に」)の各々が、音声インデックスに含まれる文字列と一致するものの、終端の文字列「のぼった」が、音声インデックスに含まれる文字列と一致しない。つまり、終端の文字列「のぼった」が音声インデックスに存在しない(図5のステップS12の結果:NO)。
【0031】
したがって、推定部18は、音声インデックスに含まれる文字列と一致する文字列のうち終端の文字列「のぼった」に最も近い文字列を示す基準文字列「に」に対応する音声位置情報「1700ms−1800ms」を音声インデックスから読み出す(図5のステップS14)。また、推定部18は、入力済みテキストを構成する文字列(「先」「ほど」「の」「議題」「に」「のぼった」)のうち基準文字列「に」の次の文字列から終端の文字列までの文字列を示す不一致文字列の再生に要する第1再生時間を推定する(図5のステップS15)。この例では、不一致文字列は「のぼった」であり、当該「のぼった」の再生に要する時間の推定結果は350msであったとする。この場合、推定部18は、基準文字列「に」に対応する音声位置情報「1700ms−1800ms」の終点1800msよりも、「のぼった」の再生に要する350msだけ先の位置である「2150ms」を、作成済み音声位置情報として推定する(図5のステップS16)。
【0032】
次に、ユーザーが、上述の「先ほどの議題にのぼった」という文字列の後に続けて「けんですが」という文字列を入力し、その入力文字列の漢字への変換を確定することで、「先ほどの議題にのぼった件ですが」という入力済みテキストが推定部18に送信された場合を想定する。まず推定部18は、「先ほどの議題にのぼった件ですが」を構成する文字列(「先」「ほど」「の」「議題」「に」「のぼった」「件」「です」「が」)の中に、音声インデックスに含まれる文字列と一致する文字列が存在するか否かを判断する(図5のステップS11)。この場合、「先ほどの議題にのぼった件ですが」を構成する9つの文字列のうち8つの文字列(「先」「ほど」「の」「議題」「に」「件」「です」「が」)の各々が、音声インデックスに含まれる文字列と一致し、終端の文字列「が」も、音声インデックスに含まれる文字列と一致するので、推定部18は、終端の文字列「が」に対応する音声位置情報を音声インデックスから読み出し、その読み出した音声位置情報から作成済み音声位置情報を推定する(図5のステップS12、ステップS13)。この例では、推定部18は、終端の文字列「が」に対応する音声位置情報「2800ms−2900ms」の終点2900msを、作成済み音声位置情報として推定する。
【0033】
この例では、入力済みテキストを構成する文字列のうち、音声インデックスに含まれない文字列「のぼった」を無視し、終端の文字列が、音声インデックスに含まれている文字列と一致していることを優先して、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定している。すなわち、テキストを構成する文字列の終端の文字列が、音声インデックスに含まれている文字列と一致している場合は、無条件に、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定しているが、これに限らず、例えば終端の文字列が、音声インデックスに含まれている文字列と一致している場合であっても、所定の条件を満たさない限りは、終端の文字列に対応する音声位置情報から作成済み音声位置情報を推定することはしない構成であってもよい。
【0034】
上記所定の条件は任意に設定可能である。例えば推定部18は、入力済みテキストを構成する文字列のうち音声インデックスに含まれる文字列と一致する文字列の数が所定数以上である場合は、所定の条件を満たすと判断することもできる。また、例えば推定部18は、入力済みテキストを構成する文字列であって終端の文字列以外の文字列の中に、音声インデックスに含まれる文字列と一致する文字列が存在し、その文字列のうち終端の文字列に最も近い文字列に対応する音声位置情報が示す位置と、終端の文字列に対応する音声位置情報が示す位置との差が所定範囲内である場合は、所定の条件を満たすと判断することもできる。
【0035】
再び図1に戻って説明を続ける。設定部19は、推定部18で推定された作成済み音声位置情報に基づいて、音声データのうち再生が開始される位置を示す再生開始位置を設定する。本実施形態では、設定部19は、推定部18で推定された作成済み音声位置情報が示す位置を、再生開始位置に設定する。再生指示受付部20は、音声データの再生を指示する再生指示を受け付ける。例えばユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された再生用ボタンを選択することで、再生指示を入力することができるが、これに限らず、再生指示の入力方法は任意である。なお、本実施形態では、ユーザーは、マウスなどのポインティングデバイスを操作して、コンピュータの画面上に表示された停止用ボタン、巻き戻し用ボタン、早送り用ボタンなどを選択することで、各種の指示を入力することができる。そして、その入力に応じて音声データの再生が制御される。
【0036】
再生制御部21は、再生指示受付部20で再生指示を受け付けた場合、設定部19で設定された再生開始位置から音声データを再生するように再生部12を制御する。再生制御部21は、例えばPCのオペレーションシステムやドライバが有するオーディオ機能で実現されるが、電子回路などのハードウェア回路でも実現可能である。
【0037】
本実施形態では、上述の第1記憶部11、再生部12および第2記憶部15はハードウェア回路で構成される。一方、上述の音声認識部13、インデックス生成部14、入力受付部16、テキスト作成部17、推定部18、設定部19、再生指示受付部20および再生制御部21の各々は、PCに搭載されたCPUがROMなどに格納された制御プログラムを実行することにより実現されるが、これに限らず、例えば音声認識部13、インデックス生成部14、入力受付部16、テキスト作成部17、推定部18、設定部19、再生指示受付部20および再生制御部21のうちの少なくとも一部がハードウェア回路で構成されてもよい。
【0038】
以上に説明したように、本実施形態の書き起こし支援システム100は、音声データに対する音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、音声データの音声位置情報とを対応付けた音声インデックスに基づいて、音声データのうち、テキストの作成が完了した位置(つまりは書き起しが完了した位置)を示す作成済み音声位置情報を推定する。これにより、ユーザーが、音声データに含まれるフィラーや文法的な誤りを修正しながら書き起こし作業を行い、入力済みテキストと、音声テキストデータ(音声認識結果)とが相違する場合であっても、音声データのうち書き起こしが完了した位置を正確に特定することができる。また、本実施形態の書き起こし支援システム100は、推定した作成済み音声位置情報が示す音声データの位置を再生開始位置に設定するので、ユーザーは、音声データの巻き戻しや早送りを繰り返しながら、書き起こしが完了した位置に再生開始位置を合わせる必要はない。これにより、作業効率を向上させることが可能になる。
【0039】
以上、本発明の実施形態を説明したが、この実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。以下に変形例を記載する。以下の変形例は、任意に組み合わせることが可能である。
【0040】
(1)変形例1
上述の実施形態では、書き起こし支援システムとして、PCが採用されているが、これに限定されるものではない。例えば、音声データを再生する機能を有する第1装置(テープレコーダー等)と、テキスト作成機能を有する第2装置とを含むシステムが、書き起こし支援システムとして採用されてもよい。そして、上述した各部(第1記憶部11、再生部12、音声認識部13、インデックス生成部14、第2記憶部15、入力受付部16、テキスト作成部17、推定部18、設定部19、再生指示受付部20、再生制御部21)が、第1装置および第2装置の何れかに含まれていればよい。
【0041】
(2)変形例2
上述の実施形態では、書き起こし作業の対象となる言語は日本語であるが、これに限らず、書き起こし作業の対象となる言語の種類は任意である。例えば書き起こし作業の対象となる言語は英語であってもよいし、中国語であってもよい。英語音声を聞いて書き起こしを行う場合、書き起こし文は英語である。この場合に作成済み音声位置情報を推定する方法は、日本語音声の場合とほとんど同じであるが、上述の第1再生時間および第2再生時間の推定が異なる。英語の場合の入力文字列はアルファベットであるため、アルファベット列に対する音素継続時間を使用する必要がある。これに関しては母音・子音の音素継続時間や音節単位での継続時間を使って上述の第1再生時間および第2再生時間を推定してもよい。中国語音声を聞いて書き起こしを行う場合、書き起こし文は中国語である。この場合に作成済み音声位置情報を推定する方法は、日本語音声の場合とほとんど同じであるが、上述の第1再生時間および第2再生時間の推定が異なる。中国語の場合は入力文字ごとにピン音が決まっているため、ピン音列に対する音素継続時間を使用して第1再生時間および第2再生時間を推定する。
【符号の説明】
【0042】
11 第1記憶部
12 再生部
13 音声認識部
14 インデックス生成部
15 第2記憶部
16 入力受付部
17 テキスト作成部
18 推定部
19 設定部
20 再生指示受付部
21 再生制御部
100 書き起こし支援システム

【特許請求の範囲】
【請求項1】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援システムであって、
前記音声データを記憶する第1記憶部と、
前記音声データを再生する再生部と、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスを記憶する第2記憶部と、
ユーザーの操作入力に応じてテキストを作成するテキスト作成部と、
前記音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定部と、を備える、
書き起こし支援システム。
【請求項2】
前記推定部は、
前記テキストを構成する文字列の終端の文字列が、前記音声インデックスに含まれる文字列と一致すると判断した場合、前記終端の文字列と一致する文字列に対応する前記音声位置情報を前記音声インデックスから読み出し、その読み出した前記音声位置情報から前記作成済み音声位置情報を推定する、
請求項1に記載の書き起こし支援システム。
【請求項3】
前記推定部は、
前記テキストを構成する文字列の終端の文字列が、前記音声インデックスに含まれる文字列と一致しないと判断し、かつ、前記終端の文字列以外の文字列の中に、前記音声インデックスに含まれる文字列と一致する文字列が存在すると判断した場合、前記音声インデックスに含まれる文字列と一致する文字列のうち前記終端の文字列に最も近い文字列を示す基準文字列に対応する前記音声位置情報を前記音声インデックスから読み出すとともに、前記テキストを構成する文字列のうち、前記基準文字列の次の文字列から前記終端の文字列までの文字列を示す不一致文字列を再生するのに要する時間を示す第1再生時間を推定し、前記基準文字列に対応する前記音声位置情報と、前記第1再生時間とから前記作成済み音声位置情報を推定する、
請求項2に記載の書き起こし支援システム。
【請求項4】
前記推定部は、
前記テキストを構成する文字列と、前記音声インデックスに含まれる文字列とが一致しないと判断した場合、前記テキストを再生するのに要する時間を示す第2再生時間を推定し、前記第2再生時間から前記作成済み音声位置情報を推定する、
請求項2に記載の書き起こし支援システム。
【請求項5】
前記推定部は、
前記テキストを構成する文字列の終端の文字列が、前記音声インデックスに含まれる文字列と一致すると判断し、かつ、前記終端の文字列以外の文字列の中に、前記音声インデックスに含まれる文字列と一致しない文字列が存在すると判断した場合は、所定の条件を満たすか否かを判断し、前記所定の条件を満たす場合に、前記終端の文字列に対応する前記音声位置情報を前記音声インデックスから読み出し、その読み出した前記音声位置情報から前記作成済み音声位置情報を推定する、
請求項2に記載の書き起こし支援システム。
【請求項6】
前記推定部は、前記テキストを構成する文字列のうち前記音声インデックスに含まれる文字列と一致する文字列の数が所定数以上である場合は、前記所定の条件を満たすと判断する、
請求項5に記載の書き起こし支援システム。
【請求項7】
前記推定部は、
前記終端の文字列以外の文字列の中に、前記音声インデックスに含まれる文字列と一致する文字列が存在し、その文字列のうち前記終端の文字列に最も近い文字列に対応する前記音声位置情報と、前記終端の文字列に対応する前記音声位置情報との差が所定範囲内である場合は、前記所定の条件を満たすと判断する、
請求項5に記載の書き起こし支援システム。
【請求項8】
前記音声テキストデータはラティス構造を有する、
請求項1に記載の書き起こし支援システム。
【請求項9】
音声データをテキスト化する書き起こし作業を支援する書き起こし支援方法であって、
前記音声データを再生する再生ステップと、
ユーザーの操作入力に応じてテキストを作成するテキスト作成ステップと、
前記音声データに対して音声認識処理を実行することにより得られる音声テキストデータを構成する複数の文字列の各々と、前記音声データの位置を示す音声位置情報とが対応付けられた音声インデックスに基づいて、前記音声データのうち、前記テキストの作成が完了した位置を示す作成済み音声位置情報を推定する推定ステップと、を備える、
書き起こし支援方法。





























【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2013−25299(P2013−25299A)
【公開日】平成25年2月4日(2013.2.4)
【国際特許分類】
【出願番号】特願2011−163246(P2011−163246)
【出願日】平成23年7月26日(2011.7.26)
【出願人】(000003078)株式会社東芝 (54,554)
【Fターム(参考)】