説明

音声をテキストに変換する装置及び方法

【課題】音声をテキストに変換する装置及び方法を提供することを目的とする。
【解決手段】音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、格納モジュールは異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、音声受信モジュールは、外部の音声信号を受け取り、音声識別モジュールは、前記音声信号を音声データに変換してから、格納モジュールから前記音声データに対応するテキストデータを探して制御モジュールに送信し、話者識別モジュールは、格納モジュールから前記音声信号に対応する話者データを探して制御モジュールに送信し、制御モジュールは、前記テキストデータ及び前記話者データを表示モジュールに表示させる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声識別に関するものであり、特に音声をテキストに変換する装置及び方法に関するものである。
【背景技術】
【0002】
ミーティング又はトレーニングの間、重要な内容を全て記録することが重要であるが、記録をしている最中又は途中で離れて、一部の内容を聞き逃してしまうことがある。このような問題を解決するために、音声をテキストに変換する装置を使用して、音声をテキストデータに変換してメモリに格納する。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかし、音声をテキストに変換する装置によって、音声をテキストデータに変換してメモリに格納すると、テキストデータでは異なる話者の音声に対応して話者を識別することができない。
【0004】
本発明の目的は、前記課題を解決し、異なる話者の音声信号に対応して異なる話者を識別することができる、音声をテキストに変換する装置及び方法を提供することである。
【課題を解決するための手段】
【0005】
本発明に係る音声をテキストに変換する装置は、音声受信モジュール、音声識別モジュール、表示モジュール、格納モジュール、話者識別モジュール及び制御モジュールを備え、前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させる。
【0006】
本発明に係る音声をテキストに変換する方法は、異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用され、外部の音声信号を受け取るステップと、前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、前記テキストデータ及び前記話者データを表示するステップと、を備える。
【発明の効果】
【0007】
本発明の音声をテキストに変換する装置及び方法によれば、異なる話者の音声信号を受け取ると、異なる話者の前記音声信号に対応するテキストデータ及び話者データを識別して表示するので、ユーザーは異なる話者に対応するテキストデータを効率的に調べることができる。
【図面の簡単な説明】
【0008】
【図1】本発明の実施形態に係る音声をテキストに変換する装置の構成図である。
【図2】本発明の実施形態に係る音声をテキストに変換する方法のフローチャートである。
【図3】本発明の実施形態に係る音声をテキストに変換する方法における話者識別過程のフローチャートである。
【図4】本発明の実施形態に係る音声をテキストに変換する方法における話者及びテキストを表示する過程のフローチャートである。
【発明を実施するための形態】
【0009】
図1は、本発明の実施形態に係る音声をテキストに変換する装置の構成図である。前記音声をテキストに変換する装置は、格納モジュール10と、音声識別モジュール20と、制御モジュール30と、音声受信モジュール40と、話者識別モジュール50と、表示モジュール60と、を備える。
【0010】
前記格納モジュール10は、異なる話者の音声データに対応するテキストデータ及び異なる話者の音声信号に対応する各々の話者データを予め格納している。
【0011】
前記音声受信モジュール40は、外部の音声信号を受け取って前記音声識別モジュール20及び前記話者識別モジュール50に送信する。
【0012】
前記音声識別モジュール20は、前記音声信号を音声データに変換してから、前記格納モジュール10から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール30に送信する。
【0013】
前記話者識別モジュール50は、前記格納モジュール10から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール30に送信する。
【0014】
前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
【0015】
図1及び図2を参照すると、本発明の実施形態に係る音声をテキストに変換する方法は、以下のステップを備える。
【0016】
ステップS201において、前記音声受信モジュール40は、外部の音声信号を受け取って前記音声識別モジュール20及び前記話者識別モジュール50に送信する。本実施形態において、マイクロフォンによって外部の音声信号を受け取る。
【0017】
ステップS202において、前記音声識別モジュール20は、前記音声信号を音声データに変換してから、前記格納モジュール10から前記音声データに対応するテキストデータを探し、且つ探した前記テキストデータを前記制御モジュール30に送信し、前記話者識別モジュール50は、前記格納モジュール10から前記音声信号に対応する、予め格納されている話者データを探し、且つ探した前記話者データを前記制御モジュール30に送信する。
【0018】
ステップS203において、前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
【0019】
図1〜図3を参照すると、前記ステップS202の話者識別過程は、以下のステップを備える。
【0020】
ステップS301において、前記話者識別モジュール50は、前記音声信号に対してサンプリングする。
【0021】
ステップS302において、前記話者識別モジュール50は、前記格納モジュール10からサンプリングした前記音声信号に対応する、予め格納されている話者データを探す。
【0022】
ステップS303において、前記話者識別モジュール50は、サンプリングした前記音声信号に対応する話者データを確定する。
【0023】
ステップS304において、前記話者識別モジュール50は、確定した前記話者データに対応する音声信号の持続時間を確定し、且つ確定した前記話者データ及び前記持続時間を前記制御モジュール30に送信する。
【0024】
図1、図2及び図4を参照すると、前記ステップS203の前記テキストデータ及び前記話者データを表示する過程は、以下のステップを備える。
【0025】
ステップS401において、前記制御モジュール30は、前記音声信号の持続時間を受信する。
【0026】
ステップS402において、前記制御モジュール30は、前記持続時間内の前記話者データに対応するテキストデータを確定する。
【0027】
ステップS403において、前記制御モジュール30は、前記テキストデータ及び前記話者データを前記表示モジュール60に表示させる。
【0028】
本発明の音声をテキストに変換する装置は、異なる音声信号を受け取ると、異なる前記音声信号に対応するテキストデータ及び話者データを識別し且つ表示することができる。例えば、司会者及び講演者が別々に発言すると、前記表示モジュール60に「司会者:年中技術表彰大会を開催します、講演者:私は電気回路基板の回路設計に関して報告します」を表示する。
【0029】
以上、本発明を実施例に基づいて具体的に説明したが、本発明は、上述の実施例に限定されるものではなく、その要旨を逸脱しない範囲において、種々の変更が可能であることは勿論であって、本発明の技術的範囲は、以下の特許請求の範囲から決まる。
【符号の説明】
【0030】
10 格納モジュール
20 音声識別モジュール
30 制御モジュール
40 音声受信モジュール
50 話者識別モジュール
60 表示モジュール


【特許請求の範囲】
【請求項1】
音声受信モジュール、音声識別モジュール、表示モジュール及び格納モジュールを備えてなる音声をテキストに変換する装置であって、
話者識別モジュール及び制御モジュールをさらに備え、
前記格納モジュールは、異なる音声データに対応するテキストデータ及び異なる音声信号に対応する話者データを格納し、
前記音声受信モジュールは、外部の音声信号を受け取って前記音声識別モジュール及び前記話者識別モジュールに送信し、
前記音声識別モジュールは、前記音声信号を音声データに変換してから、前記格納モジュールから前記音声データに対応するテキストデータを探して前記制御モジュールに送信し、
前記話者識別モジュールは、前記格納モジュールから前記音声信号に対応する話者データを探して前記制御モジュールに送信し、
前記制御モジュールは、前記テキストデータ及び前記話者データを前記表示モジュールに表示させることを特徴とする音声をテキストに変換する装置。
【請求項2】
前記話者識別モジュールは、前記話者データに対応する音声信号の持続時間を確定し、前記制御モジュールは、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを前記表示モジュールに表示させることを特徴とする請求項1に記載の音声をテキストに変換する装置。
【請求項3】
異なる音声信号に対応する話者データを格納している音声をテキストに変換する装置に応用される音声をテキストに変換する方法であって、
外部の音声信号を受け取るステップと、
前記音声信号を音声データに変換してから、前記音声データに対応するテキストデータを探し、且つ前記音声信号に対応する話者データを探すステップと、
前記テキストデータ及び前記話者データを表示するステップと、
を備えることを特徴とする音声をテキストに変換する方法。
【請求項4】
前記音声信号に対応する話者データを探すと、前記話者データに対応する音声信号の持続時間を確定し、前記話者データ及び前記持続時間内の前記話者データに対応するテキストデータを表示することを特徴とする請求項3に記載の音声をテキストに変換する方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate