音声化システム、音声化方法、音声化サーバ及び音声化プログラム

【課題】テキストを、テキストに含まれる単語の少なくとも一部を読み上げた音声データとして取得するための音声化システム、音声化方法、音声化サーバ及び音声化プログラムであって、文書とそれを読み上げた音声との相互参照が容易であるような形で音声データを提供可能なものを提供する。
【解決手段】テキストに含まれる単語を抽出し、抽出された単語と、利用者のレベル情報に基づいて利用者のレベル以上の読み上げ難易度の単語を抽出し、抽出された単語を読み上げた音声データを取得し、テキストに音声データへのリンクアンカーを埋め込んでＨＴＭＬファイルを作成し、これを端末に送信する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、テキストを、テキストに含まれる単語の少なくとも一部を読み上げた音声データとして取得するための音声化システム、音声化方法、音声化サーバ及び音声化プログラムに関する。
【背景技術】
【０００２】
外国語、特に日本語のように表意文字に固有語の発音を割り当てているもの（所謂訓読み）や、英語のように複数の言語から単語及びその発音規則を借用しているもの、或いはロシア語のようにアクセントの位置によって母音の発音が変化するようなものを習得しようとする際には、その言語を習得しようとする人（以下習得者と称す）にとって身近な文書（例えば習得者に取って興味のある分野のニュース記事や、技術文書）と、その文書を読み上げた音声とを相互参照しながら学習を進めていくことが有効である。
【０００３】
ここで、習得者にとって興味のある分野は習得者ごとに異なり、多岐の分野に渡っている。そこで、インターネットを介して公衆に開示されている各種ニュース記事や技術文書等の文書を取得し、これを読み上げた音声データを生成し、この音声データと文書とを相互参照しながら学習を進めていくことが考えられる。このような学習を可能とするシステムとして、特許文献１のようなものがある。
【特許文献１】特開２００５−７０３０４
【０００４】
特許文献１には、ゲートウェイサーバ型の音声読み上げサーバが開示されている。すなわち、インターネット上で公開されている文書を読み上げた音声データの取得を希望する場合は、音声読み上げサーバの利用者はインターネットに接続されている端末（ＰＣなど）でウェブブラウザなどのユーザエージェントを実行し、このユーザエージェントを操作して音声読み上げサーバにＨＴＴＰリクエストを送信する。この時、このＨＴＴＰリクエストには、音声データの取得を希望する文書を示すＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）が含まれる。
【０００５】
音声読み上げサーバは、このＵＲＬに対応する文書を取得し、次いでこの文書からテキスト部分のみを抜き出す。例えば、文書がＨＴＭＬで記述されたものであるなら、タグやコメント、ＳＧＭＬ宣言などを除去したテキスト部分のみを取り出すことになる。音声読み上げサーバは、この抜き出されたテキスト部分を読み上げた音声データを音声合成等を使用して生成する。最後に、音声読み上げサーバはこの音声データそのもの、或いはこの音声データのＵＲＬをＨＴＴＰリクエストに対するレスポンスとして送信する。かくして、使用者は音声データを取得し、文書とこの文書を読み上げた音声の双方を参照可能となる。
【発明の開示】
【発明が解決しようとする課題】
【０００６】
上記の構成は、インターネット上で公開されている任意の文書を読み上げた音声データを取得するものである。上記の構成においてはある文書について、その文書全体、或いはその文書のまとまった一部分（１段落、１頁など）を読み上げた音声データが取得されるものである。その言語をネイティブ言語としない言語学習者にとって、学習の際に重要となるのは、特定の語がどのように発音されるかである。しかしながら、上記構成においては、ある程度まとまった文章単位で読み上げが行われるので、特にその言語をネイティブ言語としていないものにとって、いま読み上げられているのが文書中のどの部分であるかを判別するのは容易ではないケースも多い。すなわち、特許文献１の構成は、自然言語の学習という観点からは、上記の理由から必ずしも優れたものとはいえなかった。
【０００７】
本発明は上記の問題に鑑みてなされたものであり、言語習得者にとって利用しやすい、すなわち文書とそれを読み上げた音声との相互参照が容易であるような形で音声データを提供可能な音声化システム、音声化方法、音声化サーバ及び音声化プログラムを提供することを目的とする。
【課題を解決するための手段】
【０００８】
上記の目的を解決するため、本発明においては、テキストに関するテキスト情報及び利用者のレベル情報を端末から受信し、受信したテキスト情報に基づいてテキストを取得し、レベル情報に基づいて取得したテキストに含まれる単語の中から使用者のレベル以上の読み上げ難易度の単語を抽出し、抽出された単語を読み上げた音声データを取得し、テキストに該音声データへのリンクアンカーを埋め込んでＨＴＭＬファイルを作成し、作成されたＨＴＭＬファイルを該端末に送信する。
【０００９】
従って、本発明の構成によれば、システムの利用者である言語学習者の習得レベルに応じた単語のみに対する音声データが作成される。加えて、利用者は読み上げを希望するテキストにこの音声データへのリンクアンカーが埋め込まれたＨＴＭＬファイルを受けとることになる。このＨＴＭＬファイルを開くと、文書の所々の単語にリンクアンカーが割り当てられたハイパーテキスト文書が表示され、利用者はこのリンクアンカーを操作してその単語の音声データを取得・再生することによって、特定の単語の発音を理解することができる。
【００１０】
好ましくは、テキスト情報とは、テキストのＵＲＬを含むか、テキスト自身を含む。また、抽出された単語を読み上げた音声データを、音声合成によって生成する構成としてもよい。また、所定のネットワークは、例えばインターネットである。
【発明の効果】
【００１１】
以上のように、本発明によれば、文書とそれを読み上げた音声との相互参照が容易であるような形で音声データを提供可能な音声化システムが実現される。
【発明を実施するための最良の形態】
【００１２】
以下、本発明の実施の形態に付き、図面を参照して詳細に説明する。図１は、本実施形態による音声化システムの全体を示す概念図である。本実施形態においては、音声化システム１は、音声化サーバ１００と端末２００とを備える。
【００１３】
端末２００は、ダイヤルアップ接続やｘＤＳＬ接続などによってインターネットに接続可能な端末である。また、端末２００は、例えばウェブブラウザを実行可能なＰＣであり、音声化システム１の利用者は、この端末２００上でウェブブラウザを実行・操作して、音声化サーバ１００より所望の文書の単語の音声データを得る。端末２００は、音声データを再生するためのデバイス（ＰＣＭ音源及び、スピーカまたはヘッドホン）を備えており、音声化サーバ１００から得た音声データを再生することが可能である。
【００１４】
音声化サーバ１００は、インターネットに接続されている音声化ゲートウェイサーバ１１０と、このゲートウェイサーバ１１０とＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）経由で接続されているレベル格納データベース１２０及びＴＴＳ（Ｔｅｘｔ−Ｔｏ−Ｓｐｅｅｃｈ）サーバ１３０を有する。
【００１５】
音声化ゲートウェイサーバ１１０は、ＨＴＴＰ（ＨｙｐｅｒＴｅｘｔＴｒａｎｓｆｅｒＰｒｏｔｏｃｏｌ）に基づいて端末２００との間でデータの送受信が可能な、一種のＷｅｂサーバである。また、音声化ゲートウェイサーバ１１０は、ＨＴＴＰユーザエージェントとしての機能をも有しており、端末２００からのリクエストに基づいて、インターネット上の他のウェブサーバ３００から文書データを取得することができる。
【００１６】
レベル格納データベース１２０とは、ある単語とこの単語を平易に読み上げられるだけの語学習得レベルとを対比させたデータベースである。音声化ゲートウェイサーバ１１０は、文書中に含まれる任意の単語について、その単語に関連づけられた語学習得レベルを取得可能である。
【００１７】
ＴＴＳサーバ１３０は、音声化ゲートウェイサーバ１１０からテキストを受信すると、このテキストを読み上げた音声データを音声合成によって生成し、これを音声化ゲートウェイサーバ１１０に送信する。
【００１８】
以上説明した構成においては、音声化ゲートウェイサーバ１１０のみがインターネットに接続され、レベル格納データベース１２０及びＴＴＳサーバ１３０はこの音声化ゲートウェイサーバ１１０とＬＡＮ経由で接続されている。しかしながら本発明は上記構成に限定されるものではない。例えば、レベル格納データベース１２０及びＴＴＳサーバ１３０の何れか一方または双方がインターネットに接続されており、これらと音声化ゲートウェイサーバ１１０とがインターネットを介してデータのやり取りをおこなっても良い。また、本実施形態においては音声化ゲートウェイサーバ１１０、レベル格納データベース１２０、ＴＴＳサーバ１３０が夫々別々の装置として示されているが、単一のサーバ装置が音声化ゲートウェイサーバ１１０、レベル格納データベース１２０、ＴＴＳサーバ１３０としての機能を兼ね備える構成もまた、本発明の範囲内である。
【００１９】
以上説明した構成によって、文書の音声データを端末２００の使用者（語学習得者）が得るまでの手順に付き説明する。まず、使用者がウェブブラウザを操作して、音声化ゲートウェイサーバ１１０に接続する。接続が完了すると、図２のように文書ＵＲＬ入力用ページがブラウザの文書表示エリアに表示される。
【００２０】
この文書ＵＲＬ入力用ページには、テキスト行入力コントロール（ｓｉｎｇｌｅ−ｌｉｎｅｔｅｘｔｉｎｐｕｔｃｏｎｔｒｏｌ）Ｔ１、ボタンＢ１、ラジオボタンＲ１が表示される。テキスト行入力コントロールＴ１は、端末２００の使用者が、音声読み上げを希望する文書（プレーンテキスト、ＨＴＭＬ文書等）のＵＲＬを入力するための領域である。使用者は、端末２００のキーボードを操作して、このテキスト行入力コントロールＴ１に文字を入力することができる。
【００２１】
ラジオボタンＲ１は、図２中に縦方向に４つ並べられており、この４つのラジオボタンＲ１の何れかを選択することによって、使用者の語学習得レベルを選択するものである。使用者は、端末２００のマウスを操作することによって、カーソルＣを所望のラジオボタンＲ１に移動させ、次いでマウスのボタンをクリックすることによって所望のラジオボタンを選択することができる。
【００２２】
ボタンＢ１は、テキスト行入力コントロールＴ１及びラジオボタンＲ１の内容を音声化ゲートウェイサーバ１１０に送信するためのボタンである。使用者は、端末２００のマウスを操作することによって、カーソルＣをボタンに重ね、次いでマウスのボタンをクリックすることによってテキスト行入力コントロールＴ１及びラジオボタンＲ１の内容を送信する。
【００２３】
すなわち、使用者は、キーボード等を用いて所望の文書のＵＲＬをテキスト行入力コントロールＴ１に入力し、使用者自身の語学習得レベルに応じたラジオボタンＲ１を選択し、最後にボタンＢ１を操作して、所望の文書のＵＲＬ及び使用者自身の語学習得レベルをゲートウェイサーバ１１０に送信する。
【００２４】
ゲートウェイサーバ１１０は、端末２００から文書のＵＲＬと使用者の語学習得レベルを受信すると、図３のフローチャートに示されるルーチンを実行する。このルーチンが開始すると、最初にステップＳ１が実行される。
【００２５】
ステップＳ１では、ゲートウェイサーバ１１０は、端末２００から送信されたＵＲＬに対応する文書があるかどうかの確認をおこなう。このＵＲＬに対応する文書が無い、若しくはこのＵＲＬに対応する文書はあるがゲートウェイサーバ１１０が対応していないエンコーディングの文書であった、といった場合は（Ｓ１：ＮＯ）、ステップＳ１１を実行する。ステップＳ１１では、エラーメッセージを端末２００に送信する。一方、ステップＳ１において、端末２００から送信されたＵＲＬに対応する文書があり、且つその文書がゲートウェイサーバ１１０が対応していないエンコーディングで記述されていることが確認された場合は（Ｓ１：ＹＥＳ）、ステップＳ２に進む。
【００２６】
ステップＳ２では、ゲートウェイサーバ１１０は、ユーザエージェント機能を利用してＵＲＬに対応する外部のウェブサーバ３００から文書をダウンロードする。次いで、ステップＳ３に進む。
【００２７】
ステップＳ３では、文書の整形がおこなわれる。すなわち、文書がＨＴＭＬファイルである場合は、不要なタグやコメントやＳＧＭＬ宣言などを除去し、純粋な文書のみを抽出する。また、文書が整形済の（すなわち、所定の文字数ごとに強制的に改行コードが挿入されている）プレーンテキストである場合は、改行コードを除去する。さらに、文書の言語が日本語のように単語同士を区切る文字を持たないものであるならば、文書の形態解析を行って、文書を単語ごとに分割する。これらの文書の整形方法については既知であるため、詳細な説明は省略する。次いで、ステップＳ４に進む。
【００２８】
ステップＳ４では、ステップＳ３で整形を行った文書に含まれる単語を文書の先頭から順に一つずつ抽出する。この際、日本語における助詞や助動詞、英語におけるｂｅ動詞や代名詞、助動詞など、一つの文書内に多く出現し、また語学学習者にとってもきわめて平易であることが既知である単語については抽出しない構成としてもよい。次いでステップＳ５に進む。
【００２９】
ステップＳ５では、ゲートウェイサーバ１１０は、ステップＳ４で抽出された単語について、レベル格納データベース１２０に問い合わせを行う。レベル格納データベース１２０では、図４のように単語の各々について、そのレベルを参照できるようになっている。言語が日本語であるならば、初等教育で習う単語や音読みのみで発音可能な単語については低いレベルが割り当てられ、漢字単体の音読みにも訓読みにも無い発音が割り当てられているような単語については高いレベルが割り当てられるようになっている。レベル格納データベース１２０は、ゲートウェイサーバ１１０より単語のテキストを受信すると、この単語のレベルをゲートウェイサーバ１１０に送り返す。かくして、ゲートウェイサーバ１１０は、その単語の難易度レベルを取得する。ゲートウェイサーバ１１０は、次いで、ステップＳ６（図３）を実行する。
【００３０】
ステップＳ６では、ゲートウェイサーバ１１０はステップＳ５で取得した単語の難易度レベルと、本ルーチンの開始時に端末２００から受け取っている使用者の言語習得レベルとを比較する。ここで、単語の難易度レベルが使用者の言語習得レベル以上であるなら（Ｓ６：ＹＥＳ）、この単語を読み上げた音声データが必要であると判断し、ステップＳ７に進む。一方、ステップＳ６において単語の難易度レベルが使用者の言語習得レベル未満であるなら（Ｓ６：ＮＯ）、この単語については音声データを用意する必要はないと判断し、ステップＳ４にもどり、文書内に次に現れる単語の抽出を行う。
【００３１】
ステップＳ７では、ゲートウェイサーバ１１０はＴＴＳサーバ１３０に問い合わせを行う。具体的には、ゲートウェイサーバ１１０はステップＳ４で抽出した単語のテキストをＴＴＳサーバ１３０に送信する。ＴＴＳサーバ１３０は、音声合成によってこの単語を読み上げた音声データを作成し、これをゲートウェイサーバ１１０に送り返す。ゲートウェイサーバ１１０は、受信したデータをサーバのストレージ手段に保存する。なお、ストレージ手段の容量が使用済みの音声データによって圧迫されるのを防止するため、ステップＳ７の実行から一定時間後（例えば１時間後）に、音声データを消去する構成としてもよい。次いで、ステップＳ８に進む。
【００３２】
ステップＳ８では、ステップＳ７で得た音声データへのリンクアンカー（ＨＴＭＬにおけるＡ要素）をステップＳ３で整形した文書に埋め込む。次いで、ステップＳ９に進む。
【００３３】
ステップＳ９では、文書の最後まで単語の検索（ステップＳ４）が完了したかどうかの判定が行われる。文書の最後まで単語の検索が済んだのであれば（Ｓ９：ＹＥＳ）、ステップＳ１０に進む。一方、文書の最後まで単語の検索を終えていないのであれば（Ｓ９：ＮＯ）、まだ抽出すべき単語が残されている可能性があるということなので、ステップＳ４に戻り、他の単語の抽出を行う。
【００３４】
ステップＳ１０では、ステップＳ３によって一旦整形され、ステップＳ８にてリンクアンカーが埋め込まれた文書に、ヘッダやタイトル要素など、ＨＴＭＬファイルとして必要なデータが追記され、ＨＴＭＬファイルが作成される。次いで、ゲートウェイサーバ１１０は、このＨＴＭＬファイルを端末２００に送信し、本ルーチンを終了させる。
【００３５】
端末２００は、このＨＴＭＬファイルを受信すると、ブラウザを制御してこのＨＴＭＬファイルをＷｅｂページとして表示する。ブラウザに表示されるＷｅｂページの一例を図５に示す。図５に示されるように、文書中には音声データへのリンクが設けられた単語が強調表現（本実施形態においては下線）で表示され、端末２００の使用者はこのリンクを操作する（例えばカーソルをこの単語に重ねてマウスのボタンをクリックする）ことによって、この単語を読み上げた音声データをダウンロードして聴くことができる。
【００３６】
以上のように、本実施形態によれば、文書中の単語を読み上げた音声データが文書中にリンクとして示されたＨＴＭＬ文書を端末２００の使用者は取得できるので、テキストである文書と、その文書中の単語を読み上げた音声とを相互参照しながら自然言語の学習を効率的に進めていくことが出来るようになる。さらに、言語習得者のレベルに応じて音声と関連づけられる単語は変化するので、言語習得者は自分のレベルにあったＨＴＭＬ文書を取得できる。
【００３７】
なお、本実施形態においては、端末２００から所望の文書のＵＲＬを送信する構成としているが、代わりに、文書自身を直接音声化ゲートウェイサーバに送信する構成としてもよい。
【図面の簡単な説明】
【００３８】
【図１】本発明の実施の形態による音声化システムの全体を示す概念図である。
【図２】本発明の実施の形態において、端末に表示される文書ＵＲＬ入力ページを示したものである。
【図３】本発明の実施の形態において、音声化ゲートウェイサーバによって実行されるプログラムのフローである。
【図４】本発明の実施の形態において、レベル格納データベースに格納されたデータの一例を示したものである。
【図５】本発明の実施の形態において、端末に表示されたＷｅｂページを示したものである。
【符号の説明】
【００３９】
１音声化システム
１００音声化サーバ
１１０音声化ゲートウェイサーバ
１２０レベル格納データベース
１３０ＴＴＳサーバ
２００端末
３００ウェブサーバ

【特許請求の範囲】
【請求項１】
所定のネットワークを介して互いに接続された端末及び音声化サーバを備えた音声化システムであって、
前記端末が、
テキストに関するテキスト情報及び利用者のレベル情報を入力する情報入力手段と、
該テキスト情報及び該レベル情報を前記音声化サーバに送信する通信手段と、
表示手段と、を有し、
前記音声化サーバが、
該テキスト情報に対応するテキストを取得するテキスト取得手段と、
該レベル情報に基づいて利用者のレベル以上の読み上げ難易度を有する単語を該テキストから抽出する単語抽出手段と、
前記単語抽出手段によって抽出された単語の音声データを取得する音声データ取得手段と、
該テキストに音声データへのリンクアンカーが埋めこまれたＨＴＭＬデータを作成するＨＴＭＬデータ作成手段と、
前記ＨＴＭＬデータ作成手段によって作成されたＨＴＭＬデータを前記端末に送信するデータ送信手段と、を有し、
前記表示手段は、前記音声化サーバより受信したＨＴＭＬデータを表示する、
ことを特徴とする音声化システム。
【請求項２】
前記音声化サーバは、単語と、その単語の読み上げ難易度とが互いに関連づけられて格納された難易度データベースをさらに有し、
前記単語抽出手段は、該テキストに含まれる単語の各々について前記難易度データベースに問い合わせを行って各単語の読み上げ難易度を取得することによって、利用者のレベル以上の読み上げ難易度を有する単語を該テキストから抽出する、
ことを特徴とする請求項１に記載の音声化システム。
【請求項３】
該テキスト情報は該テキストのＵＲＬを含む、ことを特徴とする請求項１又は２に記載の音声化システム。
【請求項４】
該テキスト情報は該テキスト自身を含む、ことを特徴とする請求項１又は２に記載の音声化システム。
【請求項５】
該テキストは、該所定のネットワークに接続されたコンテンツ提供サーバによって提供されている、ことを特徴とする請求項３に記載の音声化システム。
【請求項６】
該コンテンツ提供サーバはＷｅｂサーバである、ことを特徴とする請求項５に記載の音声化システム。
【請求項７】
前記音声化サーバが、前記単語抽出手段が抽出した単語のからその単語を読み上げた音声データを音声合成によって生成する音声合成ユニットをさらに有する、ことを特徴とする請求項１から６のいずれかに記載の音声化システム。
【請求項８】
該所定のネットワークがインターネットである、ことを特徴とする請求項１から７のいずれかに記載の音声化システム。
【請求項９】
テキストに関するテキスト情報及び利用者のレベル情報を端末から受信し、
該受信したテキスト情報に基づいてテキストを取得し、
該レベル情報に基づいて、該テキストに含まれる単語の中から該利用者のレベル以上の読み上げ難易度の単語を抽出し、
該抽出された単語を読み上げた音声データを取得し、
該テキストに該音声データへのリンクアンカーを埋め込んでＨＴＭＬファイルを作成し、
該作成されたＨＴＭＬファイルを該端末に送信する、
ことを特徴とする音声化方法。
【請求項１０】
該テキスト情報は、該テキストのＵＲＬを含む、ことを特徴とする請求項９に記載の音声化方法。
【請求項１１】
該テキスト情報は、該テキスト自身を含む、ことを特徴とする請求項９又は１０に記載の音声化方法。
【請求項１２】
該テキストは、該所定のネットワークに接続されたコンテンツ提供サーバによって提供されている、ことを特徴とする請求項１０に記載の音声化方法。
【請求項１３】
該コンテンツ提供サーバはＷｅｂサーバである、ことを特徴とする請求項１２に記載の音声化方法。
【請求項１４】
該抽出された単語を読み上げた音声データを、音声合成によって生成する、ことを特徴とする請求項９から１３のいずれかに記載の音声化方法。
【請求項１５】
テキストに関するテキスト情報及び利用者のレベル情報を端末から受信するテキスト受信手段と、
該受信したテキスト情報に基づいてテキストを取得するテキスト取得手段と、
該レベル情報に基づいて、該テキストに含まれる単語の中から、該使用者のレベル以上の読み上げ難易度の単語を抽出する単語抽出手段と、
該抽出された単語を読み上げた音声データを取得する音声データ取得手段と、
該テキストに該音声データへのリンクアンカーを埋め込んでＨＴＭＬデータを作成するＨＴＭＬデータ作成手段と、
該作成されたＨＴＭＬデータを該端末に送信するデータ送信手段と、
を有する、音声化サーバ。
【請求項１６】
テキストに関するテキスト情報及び利用者のレベル情報を端末から受信するテキスト受信手順と、
該受信したテキスト情報に基づいてテキストを取得するテキスト取得手順と、
該レベル情報に基づいて、該テキストに含まれる単語の中から該使用者のレベル以上の読み上げ難易度の単語を抽出する単語抽出手順と、
該抽出された単語を読み上げた音声データを取得する音声データ取得手順と、
該テキストに該音声データへのリンクアンカーを埋め込んでＨＴＭＬデータを作成するＨＴＭＬデータ作成手順と、
該作成されたＨＴＭＬデータを該端末に送信するデータ送信手順と、
を実行するための音声化プログラム。

【図１】