音声処理方法

【課題】インターネットの普及に伴い、Ｗｅｂ上での画像や音声データの取り扱いが多くなり、さまざまな処理の方法が開発されているが、Ｗｅｂ上での音声データの取扱いはデータ量が多いため、実用的でなく、サーバからダウンロードした音声を再生するなど、音声教材の取扱いは一方向であった。
【解決手段】音声データに時間軸と制御点を付与した拡張音声データと音声サーバをネットワークシステムに採用することで、拡張音声データ送信時には、原音データの１／２〜１／３に圧縮することができ、Ｗｅｂ上での音声データの取扱いが容易となる。これにより利用者端末側から音声をアップロードすることが可能となる。また拡張音声データは、時間軸と制御点を有するので非連続的に所望の部分をランダムにアクセスすることができる。

【発明の詳細な説明】
【０００１】
【発明の属する技術分野】
本発明は、音声処理方法に係り、特に、Ｗｅｂ上で音声データの取扱いを簡便、容易にする音声処理方法に関する。
【０００２】
【従来の技術】
現在ネットワークシステムの普及にともない、Ｗｅｂ上での音声データ、画像データの取扱いについてさまざまな工夫がなされている。現在音声データファイルとして一般的に利用されているのは、Ｗａｖｅ形式のファイルである。これは、米国マイクロソフト社製ＯＳに標準のサウンドファイル形式であることもあって、利用度が高いものである。Ｗａｖｅ形式は、デジタルサウンドデータで、データ自体が波形を記憶しているものである。１ファイルに１音声であり、ローカルコンピュータでは時間軸上の所定の部分を取り出すなど、ある程度の音声処理は行える。
【０００３】
【発明が解決しようとする課題】
しかしながら、インターネットなどの通信手段を用いてコンピュータ間でのＷａｖｅ形式の音声データの伝送を行う場合には、取り扱うデータ量が非常に大きいためデータ伝送に長時間を要したり、伝送されても通信手段の許容された容量を越えてしまい、全く実用に適さない問題があった。
【０００４】
上記の如く、ローカルコンピュータは、通常ＷＡＶＥ形式のファイルを利用することが多いが、この形式はデータ量が大きく、通信回線を介して送受信を行うのは不具合がある。送受信する音声データを圧縮すれば送受信時の負担は軽減されるが、データの圧縮および解凍（復元）復元する作業が利用者側で必要となり、作業工程が煩雑となる。このため音声ファイルはダウンロードして利用する程度に留まっており、双方向の利用、すなわち利用者側から音声データをアップロードするような方式は実用的ではなかった。
【０００５】
また、このようにインターネット経由でダウンロードしたファイルはその音声データの長さ分（例えば３０分間）のデータが到着した時点で再生することはできるが、その音声データをランダムにアクセスすることはできない。
【０００６】
更に複数の音声データを１つのＷｅｂコンテンツで利用したい場合は、それぞれの音声データのファイルを準備しなければならず、音声データの加工には煩雑さがともなっていた。
【０００７】
【課題を解決するための手段】
本発明は、上記の課題に鑑みてなされ、第１に、音声サーバと、該音声サーバに保持される拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、前記利用者側端末は１つの前記拡張音声データに対して部分的にアクセス可能であることにより解決するものである。
【０００８】
第２に、音声サーバと、該音声サーバに保持され音声データと時間軸とを有する拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、前記利用者側端末は１つの前記拡張音声データの前記時間軸に対して部分的にアクセス可能であることにより解決するものである。
【０００９】
また、前記拡張音声データは前記利用者端末および前記音声サーバ間で双方向に送受信可能であることを特徴とするものである。
【００１０】
また、前記拡張音声データは送信時に所定の形式に自動的に圧縮され、該圧縮データのデータ量は前記拡張音声データの１／２〜１／３になることを特徴とするものである。
【００１１】
更に、前記圧縮データは受信時に自動的に前記拡張音声データに復元されることを特徴とするものである。。
【００１２】
【発明の実施の形態】
図１から図４を用いて、本発明の音声処理方法を詳細に説明する。
【００１３】
図１は本発明における音声処理方法を利用したネットワーク構成の一例である。図の如く、少なくとも、音声サーバ２と利用者端末４を備え、さらに例えば通信回線３でＷｅｂコンテンツを提供するＷｅｂサーバ１が接続される。
【００１４】
Ｗｅｂサーバ１は、音声配信用等のＷｅｂコンテンツ５の送信およびその応答等の配信サービスを提供する。Ｗｅｂサーバ１は通信回線３を介して利用者端末４および音声サーバ２と接続しており、利用者端末のＷｅｂブラウザ７からの要求に応じて、音声配信用プログラムが得られるＷｅｂコンテンツ５を送信する。
【００１５】
音声サーバ２は、少なくとも音声データベース９、拡張音声データ生成手段２１を保持する。音声データベース９は、Ｗｅｂ上で送受信される拡張音声データのファイルが格納される。ここで、本明細書における拡張音声データとは、Ｗａｖｅ形式の音声データに時間軸および各種制御情報を付与した音声データであり、詳細については後述する。拡張音声データ生成手段２１は、Ｗａｖｅ形式のファイルを拡張音声データに変換する手段であり、１つまたは複数のアプリケーションプログラムからなる。
【００１６】
更に音声サーバ２には、Ｗｅｂコンテンツ５を記述するＨＴＭＬ言語ではプログラミングが不可能な、音声データの再生開始等の動作制御を記述する音声制御用プログラム１２が保持されている。この音声サーバ２により、Ｗｅｂ上での拡張音声データの送受信が可能となる。
【００１７】
利用者端末４は、通信回線３を介してＷｅｂサーバ１、音声サーバ２と接続しており、図示はしないが、少なくとも音声配信サービスのプログラムを実行する際に必要なマウスなどのポインティングデバイスやキーボードなどを用いた入力部、画像情報、文字情報などを表示する表示部、及び音声情報をスピーカなどを用いて再生する音響再生部、更に音声データを取得するマイク、ハードディスク等の記憶装置を備えている。
【００１８】
図２を用いて、本発明の音声処理の一例について説明する。本発明の実施形態においては、音声サーバ２と拡張音声データ２５形式のファイルを用いて音声処理を行っている。
【００１９】
図２（Ａ）の如く、拡張音声データ２５は、前述の如くローカルコンピュータ上で一般的に利用されるＷａｖｅ形式の音声データ２６にに対して時間軸２７をもたせ、尚且つ所定の制御を付加した音声データである。所定の制御については後に詳述する。
【００２０】
この音声処理方法は、拡張音声データ２５形式の１つのファイルを音声サーバ２に保持することにより、利用者が当該音声データ２６中の一部分を時間軸２７単位でアクセスできるものである。また、例えば複数の音声２６を使用するコンテンツ５を１つの音声データのファイルで作成することが可能となる（図２（Ｂ））。つまり、従来ファイル単位で取り扱う必要があった音声の選択、再生が不要となり、１つの原音声ファイル２６のみを音声サーバ２に保持することで多種多様なアクセスが可能となる。
【００２１】
また、音声データを拡張音声データ２５形式とし音声サーバ２で利用することにより、送受信時に自動的に拡張音声データ２５の圧縮と復元を行うことができる。例えば拡張音声データ２５形式のファイル送信時には、自動的にデジタルデータの不要部分を削除する等、所定の圧縮方法によりもとのファイルサイズの１／２〜１／３程度まで圧縮し、受信時には自動的に拡張音声データ２５に復元することができる。本明細書においてはこの圧縮形式をＭＺＩＰ形式と称する。従来はデータの圧縮および復元は送信者および受信者が作業を行わなければならず、煩雑であったが、本実施形態の音声処理方法によれば拡張音声データの送受信時に自動的に圧縮および復元ができる。
【００２２】
これにより従来は実用的でなかった通信回線を介してのＷｅｂ上での音声データの取り扱いが容易となる。また、送信時の圧縮形式はＭＺＩＰ形式に限らず、用途別のファイル形式に変換することも可能である。
【００２３】
図２（Ｃ）を用いて、拡張音声データ２５の送受信について説明する。
【００２４】
利用者端末４は配信されたＷｅｂコンテンツより、所望の拡張音声データ２５を含む音声ファイルを音声サーバ２に要求する。音声サーバ２は、拡張音声データ２５をＭＺＩＰ形式に圧縮し、圧縮データ３０を利用者端末４へ送信する。利用者端末４側では圧縮データ３０を拡張音声データ２５に復元して音声データの再生、録音、繰り返し等の処理を行う。
【００２５】
また、１つの拡張音声データ２５中の一部分を利用する場合も同様であり、拡張音声データ２５のファイル要求と共に、利用したい部分（時間軸２７）を音声サーバ２に要求する。音声サーバ２は拡張音声データ２５の時間軸２７をもとに要求のあった部分を取り出し、ＭＺＩＰ形式に圧縮して送信する。
【００２６】
後に詳述するが、拡張音声データ２５には、画像情報を付加することもできるので、送信時の圧縮形式は、ＭＺＩＰ形式に限らず、一般的に利用される画像および音声の圧縮形式（例えば＊．ｍｐ３）や、非圧縮のままのＷａｖｅ形式（＊．ｗａｖ）など、利用者端末４側から指定することができるので、用途別にファイルを変換させることも可能である。データの一部分を利用するような場合でデータ量が少なければ圧縮しないＷａｖｅ形式でも送受信可能である。
【００２７】
ここで、利用者端末４側から拡張音声データ２５を送信することもできる。この場合、利用者端末側で録音された拡張音声データ２５のファイルをＭＺＩＰ形式に自動的に圧縮し、圧縮データ３０を音声サーバ２へ送信する。音声サーバ２は圧縮データ３０を受信後、拡張音声データ２５に復元する。
【００２８】
このように、本発明の音声処理方法によれば、従来データ量が大きく実用的でなかったＷｅｂ上での音声データの取り扱いを容易とし、更に利用者端末側からの音声データをアップロードを可能にするものである。
【００２９】
また、扱う音声データは時間軸に対して非連続的にランダムにアクセス可能とするものである。
【００３０】
図３および図４用いて拡張音声データ２５と、拡張音声データ２５の生成方法について更に説明する。
【００３１】
拡張音声データ２５は、図１に示す如く、拡張音声データ生成手段２１により生成される。拡張音声データ生成手段２１は、１つまたは複数のアプリケーションプログラムからなり、一般にコンピュータで利用されるＷａｖｅ形式の原音データ２６形式から拡張音声データ２５形式に変換する手段である。この変換により拡張音声データ２５は音声データ２６と共に時間軸２７を有するので、時間ごとに音声の制御を行うことができる。このファイル形式にすることにより、前述の如く拡張音声データ２５の一部分を取り出したり、所望の部分に時間軸２７単位で自由にアクセスする音声処理が可能となる。すなわち、通信回線を経由しながらあたかもローカルコンピュータでＷａｖｅ形式の音声ファイルを再生することと同様の操作性が得られる。例えば、音声データ２６をインターネット経由で再生する場合、従来では３０分間の音声データ２６はあくまでも３０分間のデータが到着した時点で再生していたが、本発明の拡張音声データ２５形式では、ファイル内に有する時間軸に対して連続性を要求せず、例えば０．０５秒などのミリ秒単位でのランダムアクセスが可能となる。
【００３２】
また、図２（Ａ）、（Ｂ）で示したようにアクセスされた断片の拡張音声データ２５を合成して１つの拡張音声データ２５としたり、Ｗａｖｅ形式のファイルを１秒ずつ頭だしをして例えば１０個つなぎあわせて１つの拡張音声データ２５とすることができる。
【００３３】
更に、拡張音声データ２５形式を採用することで、送信時に自動的にデータ量を原音データ２６の１／２〜１／３に圧縮するＭＺＩＰ形式に変換することもできるので、Ｗｅｂ上での取り扱いが簡便となる。
【００３４】
ここで、この拡張音声データ２５のもう一つの特徴は、音声データ２６に対して制御点２８を付与できることに有る。制御点２８は音声データ２６の時間軸２７に対して主に文節部分に付与でき、また文節以外でも所望の位置に付与できる。更に、制御点をダブルクリックすると詳細設定画面が表示され、文節に対応させたい情報を付与することができる。これにより、１つの文章である拡張音声データ２５を所定の時間軸２７で区切り、区切った文節単位で各種制御を行うことができる。
【００３５】
文節に対応させる情報とは、例えば１）待ち時間設定、２）文章設定、３）映像同期、４）再生情報、５）ハイパーテキスト、６）ＵＲＬ、７）日本文指定、８）英語文指定等であり、拡張音声データ生成手段２１により、これらの制御情報を含む制御点２８ａ〜２８ｈを個別に複数付加することができる。
【００３６】
以下、各制御情報について、具体的な例として語学学習用のＷｅｂコンテンツにおける教材で英語の音声データのファイルを用いる場合を例に説明する。
【００３７】
１）待ち時間設定　　学習者端末からの音声データやテキストデータの入力待機の時間や、次の文節を再生するまでの待ち時間をミリ秒単位で設定できる。
【００３８】
また、所定の文節まで再生したら待機状態となり、学習者側端末から音声データやテキストデータの入力を待機する等の処理が可能であるので、ヒアリングで聞き取った内容を書き出す（ディクテーション）こともできる。
【００３９】
２）文章設定　　音声データに文字情報を付加することができる。例えば英文の音声データの和訳または英文表記などを付加することで、音声データ再生時に所定の場所に表示することができ、視覚的に情報を確認することができる。
【００４０】
３）映像同期　　制御点に表示したいファイルを設定することにより、音声データの文節毎にＭＰＥＧ等の画像ファイルを表示することができる。例えば２人の会話に対応して、話者の画像を切り替えて表示することで、臨場感のある学習が可能となる。また、動画の画像ファイルを設定すれば、当該制御点において動画が再生されるので、動画の再生を音声データの時間軸でコントロールすることができる。
【００４１】
４）再生情報　　教材と同期をとりながら録音できる。文節に設定された制御点により、再生、録音時間が把握できる。これにより文節毎に同期を取りながら録音できる。同時再生も可能であり、聞き比べができる。
【００４２】
５）ハイパーテキスト　　ハイパーテキストは、テキスト中の任意の場所に埋め込まれたリンクをたどることで関連した情報を次々と表示させていく文書であり、音の情報の他にこのような文書情報を含めることも可能である。語学学習においては、例えば英文を読み上げる音声データと、その訳文などに使用するハイパーテキストを１つのファイルにすることができる。また、例えば訳文をハイパーテキストとして設定した場合、訳文中の任意の文字列を選択することで対応する拡張音声データの制御点から一部分を再生することも可能である。
【００４３】
６）ＵＲＬ　ＵＲＬを埋め込むことで、音声データを再生中に関連するＷｅｂコンテンツへ容易に移動することができる。
【００４４】
７）日本語文指定　　例えば英語の文章からなる音声データの頭に付与される制御点に、日本語の訳文を指定することで、その音声データの再生時に所定のウィンドウに和訳文を表示することができ、英語のヒアリングを補助することができる。
【００４５】
８）英語文指定　　例えば英語の文章からなる音声データの頭に付与される制御点に、英語文の指定することで、その音声データの再生時に所定のウィンドウに英語文を表示することができ、ヒアリングの補助に効果的である。
【００４６】
次に上述の語学学習用のＷｅｂコンテンツに本実施形態の音声処理を利用した場合の一例を示す。
【００４７】
教材となる拡張音声データ２５のファイルを選択し、語学学習用アプリケーションプログラムの画面のボタンをクリックすると、学習中に文節単位で逐次ダウンロードされる。ダウンロードされた教材は、１ファイルに格納される多数の文節に対して、文節単位に再生、頭だし、巻き戻しが自由自在に容易に行える。また、拡張音声データ２５ファイルは前述の如く文節に制御点２８が付加されており、拡張音声データ２５の待機、再生等を学習者が操作できるので、所望の文節のみを文節に繰り返し学習する等の操作が可能となる。また、時間軸および文節番号が再生中の文節に合わせてウィンドウに表示される。
【００４８】
また、制御点２８に待ち時間を設定することにより、再生中に文節毎に所定の時間待機させることができる。待機時間中にライティングエリアに文章を書き出すことでディクテーションの学習ができる。
【００４９】
また、ここで書き出した情報を、レポートとして音声サーバに格納し、例えば教師側端末で確認することができる。書き出した情報は、拡張音声データ形式のファイルであるが、サーバへの送信時に所定の圧縮形式に圧縮され、容易に送信できる。サーバ側では受信後拡張音声データ形式に復元される。また、学習者側端末のハードディスク等に格納することもできる。
【００５０】
スピーキング練習では、センテンス単位でのヒアリング学習のほか、話した内容を録音することができる。教材となる拡張音声データファイルの最初の制御点に日本語文や英語文を指定しておけば、その音声データの再生時に所定のウィンドウに和訳文または英語文を表示することができ、学習の補助に視覚的効果が有る。
【００５１】
また、文節毎に教材と同期をとりながら学習者の声を録音・再生することができる。学習者のみの声を録音、再生するだけでなく、教材の音声と合わせて録音・再生をすることもできるので、学習者が自ら聞き比べをすることができる。
【００５２】
更に、パート毎の録音・再生も可能となるので、対話の学習にも非常に効果的である。このような対話学習の場合に、制御点に例えばパートに対応した話者の画像ファイルを添付すれば、パート毎に話者の画像を表示することができるので、視覚的に学習を補助できる利点を有する。
【００５３】
ここで録音された音声データは、音声サーバへ送信してレポートとして提出することができる。録音時には拡張音声データ形式のファイルであるが、サーバへ送信時に所定の形式に圧縮される。サーバでは受信後拡張音声データ形式に復元される。従来は音声データの送信はデータ量が多いため実務的ではなく、音声データを双方向で利用することは困難であったが、本発明によれば、付加情報をそなえた拡張音声データ形式のファイルを自動的に圧縮、復元できるので、音声データの送受信が容易となる。また、学習者側端末のハードディスク等に格納することもできる。
【００５４】
尚、上述した制御情報は一例であり、これに限らず特許請求の範囲の記載によってのみ限定されるものである。
【００５５】
図４を用いて拡張音声データ生成手段の処理フローを示す。
【００５６】
拡張音声データ２５を新規で作成する場合、原音のＷａｖｅ形式のファイルを指定する（１０１）。このＷａｖｅ形式のファイルは、インターネット経由でダウンロードするなどして利用者側端末のハードディスクに記憶されたものでもよいし、ＣＤなどの音源のものでもよい。拡張音声データ生成手段は、自動的に原音ファイル２６の時間軸２７と波形を作成する（１０２）。波形のない部分（無音部）を自動的に検出し（１０３）、無音部を文節とみなし、推奨する制御点２８（主制御点）を提示する（１０４）。作成者側では、提示された主制御点について必要であれば所定の位置に移動する（１０６）。また、他の制御点を追加し、制御点毎に詳細情報を設定する（１０７）。これらの原音データ、制御点情報、波形データ、時間軸を基に拡張音声データ２５形式に変換（１０８）する。
【００５７】
既存の拡張音声データ２５を利用する場合は、当該データを読み込み（１０５）、制御点２８の追加または修正（１０６、１０７）を行い、ファイル変換（１０８）する。
【００５８】
ここで一度定義された制御点２８は時間軸２７上を自由に移動させることができる。
【００５９】
このように生成された拡張音声データ２５は、音声データ２６のほかに様々な情報を含む高機能の音声データとなる。本発明の音声サーバに拡張音声データ２５を保持することで、制御情報により拡張音声データ２５を非連続的に自由にランダムアクセスすることができる。また、送信時には、ＭＺＩＰ形式に自動的に圧縮することにより、Ｗａｖｅ形式のファイルと比較して１／２〜１／３程度までファイルサイズが圧縮できるので、通信回線を介してこの音声データの送受信が容易に行える。尚、このファイルの受信先では、元のデータ形式である拡張音声データ２５形式に自動的に復元され再生される。
【００６０】
【発明の効果】
本発明の音声処理方法によれば、第１に、音声データの一部分を時間軸単位で自由にランダムにアクセスすることができる。従来はＷｅｂ上で扱うＷａｖｅ形式の音声データは、時間軸に対して連続性が要求されていた。しかし本発明によれば、ミリ秒単位でのランダムアクセスが可能となる。
【００６１】
第２に、拡張音声データを音声サーバに保持することにより、拡張音声データの送信時にはＷａｖｅ形式のデータの１／２〜１／３のデータ量に自動的に圧縮でき、受信側では自動的に復元できるので、Ｗｅｂ上での音声データの取扱いが容易と成る。これにより、従来では実用的でなかった利用者端末からの音声データの送信（アップロード）が可能となる。
【図面の簡単な説明】
【図１】本発明を説明するための構成図である。
【図２】本発明を説明するための概念図である。
【図３】本発明を説明するための概念図である。
【図４】本発明を説明するためのフロー図である。
【符号の説明】
１　　Ｗｅｂサーバ
２　　音声サーバ
４　　利用者端末
５　　Ｗｅｂコンテンツ
２５　拡張音声データ
２７　時間軸
２８　制御点
３０　圧縮データ

【特許請求の範囲】
【請求項１】
音声サーバと、該音声サーバに保持される拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、
前記利用者側端末は１つの前記拡張音声データに対して部分的にアクセス可能であることを特徴とする音声処理方法。
【請求項２】
音声サーバと、該音声サーバに保持され音声データと時間軸とを有する拡張音声データと、前記音声サーバに通信回線を介して接続する利用者端末を備え、
前記利用者側端末は１つの前記拡張音声データの前記時間軸に対して部分的にアクセス可能であることを特徴とする音声処理方法。
【請求項３】
前記拡張音声データは前記利用者端末および前記音声サーバ間で双方向に送受信可能であることを特徴とする請求項１又は請求項２のいずれかに記載の音声処理方法。
【請求項４】
前記拡張音声データは送信時に所定の形式に自動的に圧縮され、該圧縮データのデータ量は前記拡張音声データの１／２〜１／３になることを特徴とする請求項１または請求項２のいずれかに記載の音声処理方法。
【請求項５】
前記圧縮データは受信時に自動的に前記拡張音声データに復元されることを特徴とする請求項４に記載の音声処理方法。

【図１】