説明

音声処理方法

【課題】インターネットの普及に伴い、Web上での画像や音声データの取り扱いが多くなり、さまざまな処理の方法が開発されているが、Web上での音声データの取扱いはデータ量が多いため、実用的でなく、サーバからダウンロードした音声を再生するなど、音声教材の取扱いは一方向であった。
【解決手段】音声データに時間軸と制御点を付与した拡張音声データと音声サーバをネットワークシステムに採用することで、拡張音声データ送信時には、原音データの1/2〜1/3に圧縮することができ、Web上での音声データの取扱いが容易となる。これにより利用者端末側から音声をアップロードすることが可能となる。また拡張音声データは、時間軸と制御点を有するので非連続的に所望の部分をランダムにアクセスすることができる。

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本発明は、音声処理方法に係り、特に、Web上で音声データの取扱いを簡便、容易にする音声処理方法に関する。
【0002】
【従来の技術】
現在ネットワークシステムの普及にともない、Web上での音声データ、画像データの取扱いについてさまざまな工夫がなされている。現在音声データファイルとして一般的に利用されているのは、Wave形式のファイルである。これは、米国マイクロソフト社製OSに標準のサウンドファイル形式であることもあって、利用度が高いものである。Wave形式は、デジタルサウンドデータで、データ自体が波形を記憶しているものである。1ファイルに1音声であり、ローカルコンピュータでは時間軸上の所定の部分を取り出すなど、ある程度の音声処理は行える。
【0003】
【発明が解決しようとする課題】
しかしながら、インターネットなどの通信手段を用いてコンピュータ間でのWave形式の音声データの伝送を行う場合には、取り扱うデータ量が非常に大きいためデータ伝送に長時間を要したり、伝送されても通信手段の許容された容量を越えてしまい、全く実用に適さない問題があった。
【0004】
上記の如く、ローカルコンピュータは、通常WAVE形式のファイルを利用することが多いが、この形式はデータ量が大きく、通信回線を介して送受信を行うのは不具合がある。送受信する音声データを圧縮すれば送受信時の負担は軽減されるが、データの圧縮および解凍(復元)復元する作業が利用者側で必要となり、作業工程が煩雑となる。このため音声ファイルはダウンロードして利用する程度に留まっており、双方向の利用、すなわち利用者側から音声データをアップロードするような方式は実用的ではなかった。
【0005】
また、このようにインターネット経由でダウンロードしたファイルはその音声データの長さ分(例えば30分間)のデータが到着した時点で再生することはできるが、その音声データをランダムにアクセスすることはできない。
【0006】
更に複数の音声データを1つのWebコンテンツで利用したい場合は、それぞれの音声データのファイルを準備しなければならず、音声データの加工には煩雑さがともなっていた。
【0007】
【課題を解決するための手段】
本発明は、上記の課題に鑑みてなされ、第1に、音声サーバと、該音声サーバに保持される拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、前記利用者側端末は1つの前記拡張音声データに対して部分的にアクセス可能であることにより解決するものである。
【0008】
第2に、音声サーバと、該音声サーバに保持され音声データと時間軸とを有する拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、前記利用者側端末は1つの前記拡張音声データの前記時間軸に対して部分的にアクセス可能であることにより解決するものである。
【0009】
また、前記拡張音声データは前記利用者端末および前記音声サーバ間で双方向に送受信可能であることを特徴とするものである。
【0010】
また、前記拡張音声データは送信時に所定の形式に自動的に圧縮され、該圧縮データのデータ量は前記拡張音声データの1/2〜1/3になることを特徴とするものである。
【0011】
更に、前記圧縮データは受信時に自動的に前記拡張音声データに復元されることを特徴とするものである。。
【0012】
【発明の実施の形態】
図1から図4を用いて、本発明の音声処理方法を詳細に説明する。
【0013】
図1は本発明における音声処理方法を利用したネットワーク構成の一例である。図の如く、少なくとも、音声サーバ2と利用者端末4を備え、さらに例えば通信回線3でWebコンテンツを提供するWebサーバ1が接続される。
【0014】
Webサーバ1は、音声配信用等のWebコンテンツ5の送信およびその応答等の配信サービスを提供する。Webサーバ1は通信回線3を介して利用者端末4および音声サーバ2と接続しており、利用者端末のWebブラウザ7からの要求に応じて、音声配信用プログラムが得られるWebコンテンツ5を送信する。
【0015】
音声サーバ2は、少なくとも音声データベース9、拡張音声データ生成手段21を保持する。音声データベース9は、Web上で送受信される拡張音声データのファイルが格納される。ここで、本明細書における拡張音声データとは、Wave形式の音声データに時間軸および各種制御情報を付与した音声データであり、詳細については後述する。拡張音声データ生成手段21は、Wave形式のファイルを拡張音声データに変換する手段であり、1つまたは複数のアプリケーションプログラムからなる。
【0016】
更に音声サーバ2には、Webコンテンツ5を記述するHTML言語ではプログラミングが不可能な、音声データの再生開始等の動作制御を記述する音声制御用プログラム12が保持されている。この音声サーバ2により、Web上での拡張音声データの送受信が可能となる。
【0017】
利用者端末4は、通信回線3を介してWebサーバ1、音声サーバ2と接続しており、図示はしないが、少なくとも音声配信サービスのプログラムを実行する際に必要なマウスなどのポインティングデバイスやキーボードなどを用いた入力部、画像情報、文字情報などを表示する表示部、及び音声情報をスピーカなどを用いて再生する音響再生部、更に音声データを取得するマイク、ハードディスク等の記憶装置を備えている。
【0018】
図2を用いて、本発明の音声処理の一例について説明する。本発明の実施形態においては、音声サーバ2と拡張音声データ25形式のファイルを用いて音声処理を行っている。
【0019】
図2(A)の如く、拡張音声データ25は、前述の如くローカルコンピュータ上で一般的に利用されるWave形式の音声データ26にに対して時間軸27をもたせ、尚且つ所定の制御を付加した音声データである。所定の制御については後に詳述する。
【0020】
この音声処理方法は、拡張音声データ25形式の1つのファイルを音声サーバ2に保持することにより、利用者が当該音声データ26中の一部分を時間軸27単位でアクセスできるものである。また、例えば複数の音声26を使用するコンテンツ5を1つの音声データのファイルで作成することが可能となる(図2(B))。つまり、従来ファイル単位で取り扱う必要があった音声の選択、再生が不要となり、1つの原音声ファイル26のみを音声サーバ2に保持することで多種多様なアクセスが可能となる。
【0021】
また、音声データを拡張音声データ25形式とし音声サーバ2で利用することにより、送受信時に自動的に拡張音声データ25の圧縮と復元を行うことができる。例えば拡張音声データ25形式のファイル送信時には、自動的にデジタルデータの不要部分を削除する等、所定の圧縮方法によりもとのファイルサイズの1/2〜1/3程度まで圧縮し、受信時には自動的に拡張音声データ25に復元することができる。本明細書においてはこの圧縮形式をMZIP形式と称する。従来はデータの圧縮および復元は送信者および受信者が作業を行わなければならず、煩雑であったが、本実施形態の音声処理方法によれば拡張音声データの送受信時に自動的に圧縮および復元ができる。
【0022】
これにより従来は実用的でなかった通信回線を介してのWeb上での音声データの取り扱いが容易となる。また、送信時の圧縮形式はMZIP形式に限らず、用途別のファイル形式に変換することも可能である。
【0023】
図2(C)を用いて、拡張音声データ25の送受信について説明する。
【0024】
利用者端末4は配信されたWebコンテンツより、所望の拡張音声データ25を含む音声ファイルを音声サーバ2に要求する。音声サーバ2は、拡張音声データ25をMZIP形式に圧縮し、圧縮データ30を利用者端末4へ送信する。利用者端末4側では圧縮データ30を拡張音声データ25に復元して音声データの再生、録音、繰り返し等の処理を行う。
【0025】
また、1つの拡張音声データ25中の一部分を利用する場合も同様であり、拡張音声データ25のファイル要求と共に、利用したい部分(時間軸27)を音声サーバ2に要求する。音声サーバ2は拡張音声データ25の時間軸27をもとに要求のあった部分を取り出し、MZIP形式に圧縮して送信する。
【0026】
後に詳述するが、拡張音声データ25には、画像情報を付加することもできるので、送信時の圧縮形式は、MZIP形式に限らず、一般的に利用される画像および音声の圧縮形式(例えば*.mp3)や、非圧縮のままのWave形式(*.wav)など、利用者端末4側から指定することができるので、用途別にファイルを変換させることも可能である。データの一部分を利用するような場合でデータ量が少なければ圧縮しないWave形式でも送受信可能である。
【0027】
ここで、利用者端末4側から拡張音声データ25を送信することもできる。この場合、利用者端末側で録音された拡張音声データ25のファイルをMZIP形式に自動的に圧縮し、圧縮データ30を音声サーバ2へ送信する。音声サーバ2は圧縮データ30を受信後、拡張音声データ25に復元する。
【0028】
このように、本発明の音声処理方法によれば、従来データ量が大きく実用的でなかったWeb上での音声データの取り扱いを容易とし、更に利用者端末側からの音声データをアップロードを可能にするものである。
【0029】
また、扱う音声データは時間軸に対して非連続的にランダムにアクセス可能とするものである。
【0030】
図3および図4用いて拡張音声データ25と、拡張音声データ25の生成方法について更に説明する。
【0031】
拡張音声データ25は、図1に示す如く、拡張音声データ生成手段21により生成される。拡張音声データ生成手段21は、1つまたは複数のアプリケーションプログラムからなり、一般にコンピュータで利用されるWave形式の原音データ26形式から拡張音声データ25形式に変換する手段である。この変換により拡張音声データ25は音声データ26と共に時間軸27を有するので、時間ごとに音声の制御を行うことができる。このファイル形式にすることにより、前述の如く拡張音声データ25の一部分を取り出したり、所望の部分に時間軸27単位で自由にアクセスする音声処理が可能となる。すなわち、通信回線を経由しながらあたかもローカルコンピュータでWave形式の音声ファイルを再生することと同様の操作性が得られる。例えば、音声データ26をインターネット経由で再生する場合、従来では30分間の音声データ26はあくまでも30分間のデータが到着した時点で再生していたが、本発明の拡張音声データ25形式では、ファイル内に有する時間軸に対して連続性を要求せず、例えば0.05秒などのミリ秒単位でのランダムアクセスが可能となる。
【0032】
また、図2(A)、(B)で示したようにアクセスされた断片の拡張音声データ25を合成して1つの拡張音声データ25としたり、Wave形式のファイルを1秒ずつ頭だしをして例えば10個つなぎあわせて1つの拡張音声データ25とすることができる。
【0033】
更に、拡張音声データ25形式を採用することで、送信時に自動的にデータ量を原音データ26の1/2〜1/3に圧縮するMZIP形式に変換することもできるので、Web上での取り扱いが簡便となる。
【0034】
ここで、この拡張音声データ25のもう一つの特徴は、音声データ26に対して制御点28を付与できることに有る。制御点28は音声データ26の時間軸27に対して主に文節部分に付与でき、また文節以外でも所望の位置に付与できる。更に、制御点をダブルクリックすると詳細設定画面が表示され、文節に対応させたい情報を付与することができる。これにより、1つの文章である拡張音声データ25を所定の時間軸27で区切り、区切った文節単位で各種制御を行うことができる。
【0035】
文節に対応させる情報とは、例えば1)待ち時間設定、2)文章設定、3)映像同期、4)再生情報、5)ハイパーテキスト、6)URL、7)日本文指定、8)英語文指定等であり、拡張音声データ生成手段21により、これらの制御情報を含む制御点28a〜28hを個別に複数付加することができる。
【0036】
以下、各制御情報について、具体的な例として語学学習用のWebコンテンツにおける教材で英語の音声データのファイルを用いる場合を例に説明する。
【0037】
1)待ち時間設定  学習者端末からの音声データやテキストデータの入力待機の時間や、次の文節を再生するまでの待ち時間をミリ秒単位で設定できる。
【0038】
また、所定の文節まで再生したら待機状態となり、学習者側端末から音声データやテキストデータの入力を待機する等の処理が可能であるので、ヒアリングで聞き取った内容を書き出す(ディクテーション)こともできる。
【0039】
2)文章設定  音声データに文字情報を付加することができる。例えば英文の音声データの和訳または英文表記などを付加することで、音声データ再生時に所定の場所に表示することができ、視覚的に情報を確認することができる。
【0040】
3)映像同期  制御点に表示したいファイルを設定することにより、音声データの文節毎にMPEG等の画像ファイルを表示することができる。例えば2人の会話に対応して、話者の画像を切り替えて表示することで、臨場感のある学習が可能となる。また、動画の画像ファイルを設定すれば、当該制御点において動画が再生されるので、動画の再生を音声データの時間軸でコントロールすることができる。
【0041】
4)再生情報  教材と同期をとりながら録音できる。文節に設定された制御点により、再生、録音時間が把握できる。これにより文節毎に同期を取りながら録音できる。同時再生も可能であり、聞き比べができる。
【0042】
5)ハイパーテキスト  ハイパーテキストは、テキスト中の任意の場所に埋め込まれたリンクをたどることで関連した情報を次々と表示させていく文書であり、音の情報の他にこのような文書情報を含めることも可能である。語学学習においては、例えば英文を読み上げる音声データと、その訳文などに使用するハイパーテキストを1つのファイルにすることができる。また、例えば訳文をハイパーテキストとして設定した場合、訳文中の任意の文字列を選択することで対応する拡張音声データの制御点から一部分を再生することも可能である。
【0043】
6)URL URLを埋め込むことで、音声データを再生中に関連するWebコンテンツへ容易に移動することができる。
【0044】
7)日本語文指定  例えば英語の文章からなる音声データの頭に付与される制御点に、日本語の訳文を指定することで、その音声データの再生時に所定のウィンドウに和訳文を表示することができ、英語のヒアリングを補助することができる。
【0045】
8)英語文指定  例えば英語の文章からなる音声データの頭に付与される制御点に、英語文の指定することで、その音声データの再生時に所定のウィンドウに英語文を表示することができ、ヒアリングの補助に効果的である。
【0046】
次に上述の語学学習用のWebコンテンツに本実施形態の音声処理を利用した場合の一例を示す。
【0047】
教材となる拡張音声データ25のファイルを選択し、語学学習用アプリケーションプログラムの画面のボタンをクリックすると、学習中に文節単位で逐次ダウンロードされる。ダウンロードされた教材は、1ファイルに格納される多数の文節に対して、文節単位に再生、頭だし、巻き戻しが自由自在に容易に行える。また、拡張音声データ25ファイルは前述の如く文節に制御点28が付加されており、拡張音声データ25の待機、再生等を学習者が操作できるので、所望の文節のみを文節に繰り返し学習する等の操作が可能となる。また、時間軸および文節番号が再生中の文節に合わせてウィンドウに表示される。
【0048】
また、制御点28に待ち時間を設定することにより、再生中に文節毎に所定の時間待機させることができる。待機時間中にライティングエリアに文章を書き出すことでディクテーションの学習ができる。
【0049】
また、ここで書き出した情報を、レポートとして音声サーバに格納し、例えば教師側端末で確認することができる。書き出した情報は、拡張音声データ形式のファイルであるが、サーバへの送信時に所定の圧縮形式に圧縮され、容易に送信できる。サーバ側では受信後拡張音声データ形式に復元される。また、学習者側端末のハードディスク等に格納することもできる。
【0050】
スピーキング練習では、センテンス単位でのヒアリング学習のほか、話した内容を録音することができる。教材となる拡張音声データファイルの最初の制御点に日本語文や英語文を指定しておけば、その音声データの再生時に所定のウィンドウに和訳文または英語文を表示することができ、学習の補助に視覚的効果が有る。
【0051】
また、文節毎に教材と同期をとりながら学習者の声を録音・再生することができる。学習者のみの声を録音、再生するだけでなく、教材の音声と合わせて録音・再生をすることもできるので、学習者が自ら聞き比べをすることができる。
【0052】
更に、パート毎の録音・再生も可能となるので、対話の学習にも非常に効果的である。このような対話学習の場合に、制御点に例えばパートに対応した話者の画像ファイルを添付すれば、パート毎に話者の画像を表示することができるので、視覚的に学習を補助できる利点を有する。
【0053】
ここで録音された音声データは、音声サーバへ送信してレポートとして提出することができる。録音時には拡張音声データ形式のファイルであるが、サーバへ送信時に所定の形式に圧縮される。サーバでは受信後拡張音声データ形式に復元される。従来は音声データの送信はデータ量が多いため実務的ではなく、音声データを双方向で利用することは困難であったが、本発明によれば、付加情報をそなえた拡張音声データ形式のファイルを自動的に圧縮、復元できるので、音声データの送受信が容易となる。また、学習者側端末のハードディスク等に格納することもできる。
【0054】
尚、上述した制御情報は一例であり、これに限らず特許請求の範囲の記載によってのみ限定されるものである。
【0055】
図4を用いて拡張音声データ生成手段の処理フローを示す。
【0056】
拡張音声データ25を新規で作成する場合、原音のWave形式のファイルを指定する(101)。このWave形式のファイルは、インターネット経由でダウンロードするなどして利用者側端末のハードディスクに記憶されたものでもよいし、CDなどの音源のものでもよい。拡張音声データ生成手段は、自動的に原音ファイル26の時間軸27と波形を作成する(102)。波形のない部分(無音部)を自動的に検出し(103)、無音部を文節とみなし、推奨する制御点28(主制御点)を提示する(104)。作成者側では、提示された主制御点について必要であれば所定の位置に移動する(106)。また、他の制御点を追加し、制御点毎に詳細情報を設定する(107)。これらの原音データ、制御点情報、波形データ、時間軸を基に拡張音声データ25形式に変換(108)する。
【0057】
既存の拡張音声データ25を利用する場合は、当該データを読み込み(105)、制御点28の追加または修正(106、107)を行い、ファイル変換(108)する。
【0058】
ここで一度定義された制御点28は時間軸27上を自由に移動させることができる。
【0059】
このように生成された拡張音声データ25は、音声データ26のほかに様々な情報を含む高機能の音声データとなる。本発明の音声サーバに拡張音声データ25を保持することで、制御情報により拡張音声データ25を非連続的に自由にランダムアクセスすることができる。また、送信時には、MZIP形式に自動的に圧縮することにより、Wave形式のファイルと比較して1/2〜1/3程度までファイルサイズが圧縮できるので、通信回線を介してこの音声データの送受信が容易に行える。尚、このファイルの受信先では、元のデータ形式である拡張音声データ25形式に自動的に復元され再生される。
【0060】
【発明の効果】
本発明の音声処理方法によれば、第1に、音声データの一部分を時間軸単位で自由にランダムにアクセスすることができる。従来はWeb上で扱うWave形式の音声データは、時間軸に対して連続性が要求されていた。しかし本発明によれば、ミリ秒単位でのランダムアクセスが可能となる。
【0061】
第2に、拡張音声データを音声サーバに保持することにより、拡張音声データの送信時にはWave形式のデータの1/2〜1/3のデータ量に自動的に圧縮でき、受信側では自動的に復元できるので、Web上での音声データの取扱いが容易と成る。これにより、従来では実用的でなかった利用者端末からの音声データの送信(アップロード)が可能となる。
【図面の簡単な説明】
【図1】本発明を説明するための構成図である。
【図2】本発明を説明するための概念図である。
【図3】本発明を説明するための概念図である。
【図4】本発明を説明するためのフロー図である。
【符号の説明】
1  Webサーバ
2  音声サーバ
4  利用者端末
5  Webコンテンツ
25 拡張音声データ
27 時間軸
28 制御点
30 圧縮データ

【特許請求の範囲】
【請求項1】
音声サーバと、該音声サーバに保持される拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、
前記利用者側端末は1つの前記拡張音声データに対して部分的にアクセス可能であることを特徴とする音声処理方法。
【請求項2】
音声サーバと、該音声サーバに保持され音声データと時間軸とを有する拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、
前記利用者側端末は1つの前記拡張音声データの前記時間軸に対して部分的にアクセス可能であることを特徴とする音声処理方法。
【請求項3】
前記拡張音声データは前記利用者端末および前記音声サーバ間で双方向に送受信可能であることを特徴とする請求項1又は請求項2のいずれかに記載の音声処理方法。
【請求項4】
前記拡張音声データは送信時に所定の形式に自動的に圧縮され、該圧縮データのデータ量は前記拡張音声データの1/2〜1/3になることを特徴とする請求項1または請求項2のいずれかに記載の音声処理方法。
【請求項5】
前記圧縮データは受信時に自動的に前記拡張音声データに復元されることを特徴とする請求項4に記載の音声処理方法。

【図1】
image rotate



【図2】
image rotate



【図3】
image rotate



【図4】
image rotate


【公開番号】特開2004−61789(P2004−61789A)
【公開日】平成16年2月26日(2004.2.26)
【国際特許分類】
【出願番号】特願2002−219113(P2002−219113)
【出願日】平成14年7月29日(2002.7.29)
【出願人】(500504879)株式会社インフィニテック (1)
【出願人】(597018093)テクノケア株式会社 (2)
【Fターム(参考)】