説明

テキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法

【課題】 コミュニケーションの感情を十分に表現でき、趣向的に富んだテキスト音声変換再生をすることができるテキスト音声変換装置を提供する。
【解決手段】 再生される音声データの抑揚再生条件を設定する再生条件設定部54と、与えられたテキストデータ30を前記再生条件設定部54によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部55とを備えるテキスト音声変換装置である。前記再生条件設定部54は、互いに交差する第1及び第2方向に広がりを有する描画領域22に描画された画像情報31を線形的な線状オブジェクトに変換し、前記音声変換部55は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、与えられたテキスト(文字)データを音声に変換し、読み上げのための抑揚をつけるテキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法に関する。
【背景技術】
【0002】
従来、与えられたテキストデータを読み上げる場合に、音声の抑揚、速度を視覚的に表示できる装置が知られており、種々の装置に適用されている。例えば、特許文献1に開示されている音声情報表示装置は、テキストデータの文字の色やサイズを異ならせ、また、フォントを変形し、文字列中の文字の高さを異ならせて表示することによって、読み上げられる音声の強弱、強調、速度を認識できるようにした装置である。
【0003】
また、特許文献2に開示されている携帯通信端末は、メール文を音声再生する際の音声再生条件を設定し、当該条件に応じた音声データを作成する装置である。そして、添付された音声データを受け取った通信相手は、音声再生条件にしたがった音声データを再生することで、テキストを読み上げた音声を聞くことができるというものである。ここで、音声再生条件は、文字列に沿って配置された変換ポイントを結ぶポイントラインのライン形状を変更することで、音声の高低を決定し、音種メニューバーから特定の音種を選択する(特許文献2の図5参照)。具体的には、男声、女声など予め決められた音種を選択して再生する音種を決定し、ポイントライン中の変換ポイントの上下位置により音の高低、左右位置によりテンポ、再生のタイミングなどを調整して再生条件を設定する。
【0004】
特許文献1,2に示すように従来のテキスト音声読み上げ装置において再生音の抑揚(高低、アクセント、速度など)を表示、設定する場合には、読み上げられるテキストの文字列に沿って一方向に伸びる線形的なグラフ状のオブジェクトを用い、当該線形的オブジェクトの位置、大きさなどにより、読み上げ音の抑揚を表示、設定する手法が採用されていた。
【0005】
そして、当該装置の利用者は、与えられた文字列を任意の抑揚で再生させたい場合、文字列中の文字に対応したオブジェクトを調整して再生条件を設定し、自己の趣向に沿った抑揚の文字列再生を行なっていた。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平8−179789号公報
【特許文献2】特開2005−4377号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、昨今のコンピュータ及びネットの普及に伴い、当該文字列読み上げ装置もコミュニケーションツール、エンターテイメントツールとして使用されることが多くなってきた。例えば、特許文献2に開示された携帯通信端末はメールの文字データを音声データに変換して送信するコミュニケーションツールとして用いられるものである。また、コンピュータを用いて作詞作曲することも一般的に用いられており、自己が作曲した曲をコンピュータ中のキャラクターに歌わせたりするアプリケーションソフトも広く用いられている。
【0008】
ここで、従来の線形的なオブジェクトを用いた再生音の抑揚設定手法では、コミュニケーションとしての感情が十分ではなく、また、エンターテイメント的にも、無味乾燥で面白味に欠けるものであった。
【0009】
したがって、本発明が解決しようとする技術的課題は、コミュニケーションの感情を豊かに表現でき、趣向的に富んだテキスト音声変換再生をすることができるテキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法を提供することである。
【課題を解決するための手段】
【0010】
本発明は、上記技術的課題を解決するために、以下の構成のテキスト音声変換装置を提供する。
【0011】
本発明の第1態様によれば、再生される音声データの抑揚再生条件を設定する再生条件設定部と、与えられたテキストデータを前記再生条件設定部によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部とを備えるテキスト音声変換装置であって、
前記再生条件設定部は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を線形的な線状オブジェクトに変換し、
前記音声変換部は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えることを特徴とする、テキスト音声変換装置を提供する。
【0012】
本発明の第2態様によれば、前記再生条件設定部は、
前記描画領域に描画される画像情報を構成する線分の筆跡を抽出する筆跡抽出部と、
前記筆跡抽出部によって抽出された筆跡のうち、前記第1方向に移動する筆跡の移動量の絶対値に変換し、前記第2方向に変位を有する前記第1方向に連続して伸びる線状オブジェクトとする筆跡変換部とを備え、
前記音声変換部は、前記筆跡変換部により作成された線状オブジェクトに基づいて抑揚再生条件を決定することを特徴とする、第1態様のテキスト音声変換装置を提供する。
【0013】
本発明の第3態様によれば、前記再生条件設定部は、前記描画領域に描画される画像の色情報を選択して描画するための色情報選択部を備え、
前記音声変換部は、画像の色情報と音声データの音質とを対応づける音質対応情報に基づいて、音声データの音質を決定することを特徴とする、第1又は第2態様のテキスト音声変換装置を提供する。
【0014】
本発明の第4態様によれば、
前記再生条件設定部は、
前記描画領域に描画される画像情報を構成する線分の前記第1方向軸の位置に対応する2以上の第2方向軸の座標位置に基づいて、第2方向軸の演算座標位置を演算する第2軸座標演算部と、
前記第2軸座標演算部により算出された、前記第1方向軸の位置にそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成する線分作成部とを備え、
前記音声変換部は、前記線分作成部により作成された線状オブジェクトに基づいて抑揚再生条件を決定することを特徴とする、第1態様のテキスト音声変換装置を提供する。
【0015】
本発明の第5態様によれば、前記第2軸座標演算部は、前記2以上の第2方向軸の座標位置の平均値を演算座標位置とすることを特徴とする、第4態様のテキスト音声変換装置を提供する。
【0016】
本発明の第6態様によれば、前記抑揚再生条件としては、前記音声データの音の高低、抑揚、アクセントの少なくとも1つであることを特徴とする、第1から第5態様のいずれか1つのテキスト音声変換装置を提供する。
【0017】
本発明の第7態様によれば、コンピュータに読み込まれて、前記コンピュータを、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置として機能させるプログラムであって、
前記再生条件設定手段は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を線形的な線状オブジェクトに変換する機能を備え、
前記音声変換手段は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与える機能を備えることを特徴とするプログラムを提供する。
【0018】
本発明の第8態様によれば、前記再生条件設定手段は、
前記描画領域に描画される画像情報を構成する線分の筆跡を抽出する筆跡抽出手段と、
前記筆跡抽出手段によって抽出された筆跡のうち、前記第1方向に移動する筆跡の移動量の絶対値に変換し、前記第2方向に変位を有する前記第1方向に連続して伸びる線状オブジェクトを作成させる筆跡変換手段とを備え、
前記筆跡変換手段により作成された線状オブジェクトに基づいて、前記音声変換手段により前記音声データの再生条件を決定させることを特徴とする、第7態様のプログラムを提供する。
【0019】
本発明の第9態様によれば、前記再生条件設定手段は、
前記描画領域に描画される画像情報を構成する線分の前記第1方向軸の位置に対応する2以上の第2方向軸の座標位置に基づいて、第2方向軸の演算座標位置を演算させる第2軸座標演算手段と、
前記第2軸座標演算手段により算出された、前記第1方向軸の位置にそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成させる線状オブジェクト作成手段とを備え、
前記音声変換手段は、前記線状オブジェクト作成手段により作成された線状オブジェクトに基づいて再生条件を決定させることを特徴とする、第7態様のプログラムを提供する。
【0020】
本発明の第10態様によれば、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置により実施されるテキスト音声変換方法であって、
前記再生条件設定手段により、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を線形的な線状オブジェクトに変換し、
前記音声変換手段により、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えることを特徴とするテキスト音声変換方法を提供する。
【発明の効果】
【0021】
本発明によれば、2軸方向に広がりを有する画像情報を線状オブジェクトに変換することにより、一方向に沿って認識されるテキストオブジェクトの文字列に画像情報を割り付けて、その結果を音階などの抑揚条件の基準とすることができる。従って、例えば、利用者が描画領域に描画したイラストに基づいて線状オブジェクト作成し、テキストデータの抑揚再生条件を決定することができる。本発明の上記特徴により、利用者は、例えば自分が描画領域に描いた手書きのイラストや写真データなどを用いた場合、どのような再生条件で再生されるのかについての趣向を持つことができ、イラストによりどのような音声でテキストデータが音声変換されるかを楽しむことができる。よって、本発明によれば、エンターテイメントツールとして優れたテキスト音声変換再生を実現することができる。また、これらのデータを他者に送信することなどで、コミュニケーションの感情を十分に表現でき、趣向的に富むものとすることができる。
【0022】
本発明の第2態様によれば、画像情報を構成する線分の筆跡を用いて線状オブジェクトに変換することができるので、描画領域に手書きで書いたイラストを用いて再生条件の決定をすることができる。
【0023】
本発明の第3態様によれば、画像情報を構成する色の情報によって予め用意した音質対応情報に基づいて音質を決定することができるため、イラストだけではなく、画像の色によった音声の変化を楽しむことができる。
【0024】
本発明の第4態様によれば、第1軸方向に位置する2以上の座標位置に基づいて、例えば平均値を取るなど、演算によって線状オブジェクトを構成する演算座標位置を求めることができる。したがって、手書きの線図だけではなく,写真などの任意の画像を線状オブジェクトに変換することができ、再生条件の決定をすることができる。
【図面の簡単な説明】
【0025】
【図1】本発明の実施形態にかかるテキスト音声変換装置を用いた通信システムのシステム構成を示す図である。
【図2】本実施形態にかかる電子掲示板システムにおいて用いられる利用者端末の構成を示す図である。
【図3】本実施形態にかかる電子掲示板システムの動作の流れを示すチャートである。
【図4】利用者端末に表示されるデータ入力画面の表示例である。
【図5】本発明の本実施形態にかかる電子掲示板システムに用いられるサーバ装置が行なうテキスト音声変換処理のフローチャートである。
【図6】本発明の電子掲示板システムに用いられる第1実施形態のサーバ装置の機能ブロックの構成を示す図である。
【図7】筆跡変換部が行なう絶対値変換の処理の例について説明する図である。
【図8】図4の入力画面に描画されたイラストデータの筆跡(a)及び当該イラストデータから変換される線状オブジェクト(b)を示す図である。
【図9】文字列割当部が行なう文字割付の処理について説明する図である。
【図10】音階変動データのパターンの一例である。
【図11】本発明の電子掲示板システムに用いられる第2実施形態のサーバ装置の機能ブロックの構成を示す図である。
【図12】Y軸座標演算部67が行なうY軸演算の処理について説明する図である。
【発明を実施するための形態】
【0026】
以下、本発明の一実施形態に係るテキスト音声変換装置を用いた通信システムについて、図面を参照しながら説明する。
【0027】
図1は、本発明の実施形態にかかるテキスト音声変換装置を用いた通信システムのシステム構成を示す図である。通信システム1は、インターネットNTを用いて構成されるネットワークシステムであり、サーバ装置2と利用者端末3とがネットワークNTで接続された構成である。なお、図1では、2台の利用者端末3を接続した構成を示しているが、その設置台数は特に限定されるものではない。
【0028】
サーバ装置2は、汎用あるいは専用のコンピュータで構成されており、後述するように、利用者端末3からのメッセージ及び音声再生条件を受信して、これを音声データに変換するためのテキスト音声変換装置として機能する。また、後述するように本通信システムの使用形態によっては、ウェブサーバ、電子メールサーバなどの機能を併せ持っていてもよい。
【0029】
利用者端末3は、利用者が操作する、ネットワークに接続することができる汎用コンピュータ、携帯端末などであり、webブラウザ機能を有することが好ましい。後述するように、利用者は利用者端末3を用いてテキスト入力及びイラスト入力を行ない、当該入力したテキストデータがサーバ装置で音声変換された音声情報を受信する。
【0030】
なお、利用者端末の使用態様としては、自己の利用者端末に入力したテキストデータ、イラストデータに基づいて変換された音声データを自己の利用者端末で再生するようにしてもよいし、電子メール機能や電子掲示板のように、自己の利用者端末で入力したテキストデータ、イラストデータに基づいて変換された音声データを、特定又は不特定の他人の利用者端末へ送り、他人の利用者端末で再生するようにしてもよい。本通信システム1の態様は、サーバ装置2及び利用者端末3の構成により決定されるものであるが、本発明の特徴部分であるサーバ装置2のテキスト音声変換機能については、いずれの態様においても共通する。
【0031】
以下、本実施形態にかかる通信システムとして、電子掲示板システムを例にとって説明する。電子掲示板システムとは、投稿者である利用者の利用者端末3からサーバ装置2に送信されたテキストデータを掲示し、当該掲示されたテキストデータが不特定多数の閲覧者である利用者の利用者端末3により参照され、閲覧者が興味を持ったテキストデータを特定することでサーバ装置2によって、投稿時に変換された音声データを閲覧者の利用者端末3に送信し閲覧者の利用者端末3が再生されるシステムである。
【0032】
図2は、本実施形態にかかる電子掲示板システムにおいて用いられる利用者端末の構成を示す図である。図3は、本実施形態にかかる電子掲示板システムの動作の流れを示すチャートである。
【0033】
図2に示す利用者端末は、汎用コンピュータ又は携帯電話端末などが用いられ、制御演算部10、通信部11,記憶装置12,入力部13,表示部14,スピーカ15を備える。図3に示すように、利用者端末3は、投稿者端末3a及び閲覧者端末3bとして双方の役割を有する。
【0034】
制御演算部10は、CPUなどからなり、記憶装置に格納されるアプリケーションプログラム12aを展開し、当該アプリケーションプログラム12aとの協働により、利用者端末3の各部の動作を統括的に制御する。
【0035】
通信部11は、有線又は無線の手段によりインターネットNTを介して行なわれる利用者端末3外部との通信を司る。
【0036】
入力部13は、テキスト入力及びイラスト入力を含む各種情報入力を行なうものであり、文字入力を行なうためのものとしてキーボード、イラスト入力を行なうものとしてタッチパネル、タブレットなどが例示される。また、GUI(グラフィカルユーザーインターフェース)による操作を行なうためにマウスなどのポインティングデバイスなども備えている。
【0037】
表示部14は、投稿データを入力するための入力画面及びサーバ装置2から送られる掲示画面を表示するためのモニタ装置である。
【0038】
スピーカ15は、サーバ装置2から送られる音声データの再生に用いられる。
【0039】
本実施形態にかかる電子掲示板システムは、上述のように、利用者端末3(投稿者端末3a)から投稿されたテキストデータを掲示して、他の利用者端末3(閲覧者端末3b)から閲覧可能とし、さらに、投稿者端末3aによって入力されたイラストデータに基づいて抑揚再生条件が決定された読み上げ用の音声データを利用者端末3(利用者端末3a及び閲覧者端末3b)で再生するシステムである。
【0040】
図3に示すように、本実施形態にかかる電子掲示板システムの処理の流れは、次の通りである。まず、利用者端末(投稿者端末)3aがサーバ装置2にログイン(#10)すると、サーバ装置2が投稿者端末3aに入力画面を送信する(#20)。
【0041】
次いで、投稿者端末3aがテキスト及びイラストのデータ入力を行なう(#11)。この際、サーバ装置2との通信を行ない、現在の音声データがどのように再生されるかを確認できるように構成されていてもよい。音声データの確認に際し、サーバ装置2は、テキスト音声変換のデータ変換を行なう(#21)。
【0042】
投稿者は、テキストデータ及びイラストデータの入力が終了すると、利用者端末3aからデータをサーバ装置2に投稿する(#12)。サーバ装置2は、テキストデータの文章を読み上げる音声データに変換する(#22)。音声データの変換においては、投稿されたデータのうちイラストデータなどを用いて抑揚再生条件を決定し、音声再生時の音声データの音の高低、抑揚、アクセントなどに反映される。サーバ装置2が行なうデータ変換処理についての詳細は後述する。
【0043】
サーバ装置2は、投稿されたデータのうち、テキストデータのみを掲示する(#23)。
【0044】
閲覧者端末3bは、ログイン(#30)後、投稿者端末3aから投稿されたテキストデータを自由に閲覧することができる(#31)。投稿者は、音声データを再生したいテキストデータについて特定(#32)すると、この情報がサーバ装置2に送信され、この情報を受信したサーバ装置2が、テキストデータの文章を読み上げる音声データを閲覧者端末3bに送信する(#24)。閲覧者端末3bは、受信した音声データを再生する(#33)。
【0045】
次に、具体的な処理について詳細に説明する。図4は、データ入力(#11)時に利用者端末に表示されるデータ入力画面の表示例である。入力画面20には、テキスト入力欄21、イラスト入力欄22が表示されている。また、試聴ボタン23、投稿ボタン24、音質調整欄25、変声ボタン27、ペン選択欄28、写真選択ボタン29なども表示されている。
【0046】
テキスト入力欄21は、入力部13の一例であるキーボードなどを利用して、利用者が決定した任意のテキストデータを入力するための欄である。テキスト入力欄21に入力されたテキストデータ30は、音声再生時の読み上げデータとして利用される。
【0047】
イラスト入力欄22は、入力部13の一例であるマウス、タッチパネル、タブレットなどを利用して、利用者が任意のイラストを描画・表示するための領域であり、X軸、Y軸方向にそれぞれ広がりを有する描画領域である。イラストは利用者が任意に決定することができ、テキスト入力欄に入力したテキストデータとはまったく無関係のものであってもよい。イラストとしては、線分により描画されるイラスト及び写真画像であることが好ましい。入力デバイスの種類によっては筆圧なども検出してイラストの線分の太さを変えるなどさせてもよい。イラスト入力欄22に描画されたイラストデータ31は、サーバ装置に送信されて抑揚再生条件の設定に利用され、音声再生時の音声データの音の高低、抑揚、アクセントなどに反映される。このテキスト音声変換に関してサーバ装置2が行なう処理についての詳細は後述する。
【0048】
試聴ボタン23は、現在入力されているテキストデータ及びイラストデータその他の条件によってどのような音声データが作成されるかを確認するためのボタンであり、押下すると、音声データが再生される。
【0049】
投稿ボタン24は、投稿者端末から入力されたテキストデータ及びイラストデータを決定したあと、下記の諸条件の設定条件を含めてサーバ装置2に送信してするためのボタンであり、押下することで入力データ及び種々の設定条件がサーバ装置に送信される。データを受信したサーバ装置2は、電子掲示板に掲示する処理及びテキスト音声変換の処理を行なう。
【0050】
音質調整欄25は、中央にあるマーク26を移動させることで、再生時の音声のイメージを調整するための欄である。本実施形態では、元気かクールか、及び暖かいか寒い音声かなど感情、感覚的な表現を用いて音質を調整する。音質の調整は、2軸座標中のマーク26の位置情報がサーバ装置2に送信され、サーバ装置2が音質調整欄25のマーク26の位置情報に基づいて再生時の音質を決定する。この処理については後述する。
【0051】
変声ボタン27は、再生する音声を選択するためのボタンであり、具体的には、男声、女声、などの音声を選択することができる。選択可能な音声は予めサーバ装置2に記憶されており、利用者端末3において選択された結果に基づいてサーバ装置が選択する。
【0052】
ペン選択欄28は、イラスト入力欄22に描画する場合のペンの種類を選択するための欄である。ペンの種類としては、色、線の太さなどが挙げられる。描画に用いられたペンの種類の情報は、予めサーバ装置2に記憶されており、利用者端末3において選択された結果がサーバに送信され、サーバ装置2におけるテキスト音声変換処理において変換される音声データの音質などの調整に用いられる。
【0053】
写真選択ボタン29は、イラスト入力欄22に入力される画像として写真などを選択することができる。選択される背景画像としては、投稿者端末3aあるいは投稿者端末3aが読み書き可能な外部記憶装置に格納されたものを用いることができる。選択された画像は、イラスト入力欄22の画像サイズにサイズ変更され、例えば背景画像としてイラスト入力欄22に表示される。投稿者は、当該背景画像の上に手書きのイラストを追加して描画することができる。投稿ボタン24を押すことにより、イラスト入力欄22に表示されている背景画像及び追加で手書きしたイラストがサーバ装置2に送信される。
【0054】
次に、サーバ装置2が行なうテキスト音声変換処理について説明する。サーバ装置2は、電子掲示板の管理サーバとしての機能に加えて、利用者端末3(投稿者端末3a)から受信したデータに基づいて抑揚再生条件を決定し、テキスト入力欄21に入力されたテキストデータを抑揚再生条件に基づいて音声変換する機能を有するテキスト音声変換装置としての機能を有する。
【0055】
図5は、本発明の本実施形態にかかる電子掲示板システムに用いられるサーバ装置が行なうテキスト音声変換処理のフローチャートである。サーバ装置2が行なうテキスト音声変換処理は、図3の#22に包含される。
【0056】
本実施形態にかかるサーバ装置2は、投稿者端末3aからイラスト入力欄22に入力されたイラストや背景画像、音質などの設定条件及びテキスト入力欄21に入力されたテキストデータを含む各種データを受信(#101)する。その後、受信したデータのうち、イラストや背景画像を線状オブジェクトに変換し(#102)、当該線状オブジェクトに沿ってテキストデータの文字列を割り付ける(#103)。
【0057】
次いで、音質調整欄25のマーク26の位置に関する情報及びイラストの線分を描画したペンの情報に基づいて音質及びスケールを、また、変声ボタン27により選択された音声に設定・調整する(#104)。その後、線状オブジェクトの曲線の位置に応じて対応する文字での音階を決定する(#105)。
【0058】
(第1実施形態)
次に、サーバ装置が行なうテキスト音声変換処理を詳細に説明する。図6は、本発明の電子掲示板システムに用いられる第1実施形態のサーバ装置の機能ブロックの構成を示す図である。図6に示すサーバ装置2は、制御演算部50、送受信部51、記憶装置52、掲示板管理部53を備えている。
【0059】
制御演算部50は、CPUなどからなり、記憶装置52に格納されるプログラム56を展開し、当該プログラム56との協働により、サーバ装置2の各部の動作を統括的に制御することによって、サーバ装置におけるテキスト音声変換処理を実行する。
【0060】
送受信部51は、インターネットNTを介して行なわれる利用者端末3との通信を司る。具体的には、投稿者端末3aからの各種データの送受信及び閲覧者端末3bからの掲示板閲覧及び音声データ送信を主として行なう。
【0061】
記憶装置52には、プログラム56の他に各種データなどが記憶される。記憶装置52に記憶されるデータとしては、音声種別データ57,スケールデータ58,音階変動データ59などが存在する。これらの各種データについては後述する。
【0062】
掲示板管理部53は、電子掲示板としての機能を統括して行なう。具体的には、データの投稿、投稿されたテキストデータの閲覧及び特定された音声データの送信などの管理を司る。
【0063】
制御演算部50には、再生される音声データの抑揚再生条件を決定する処理を行なう再生条件設定部54と、決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部55とが設けられている。
【0064】
再生条件設定部54が行なう抑揚再生条件の決定は、上記のように、利用者端末3のイラスト入力欄22に描画されたイラストデータをサーバ装置2が受信し、線形的な線状オブジェクトに変換(#102)する処理工程を有し、この処理を司る筆跡抽出部60及び筆跡変換部61が設けられている。
【0065】
筆跡抽出部60は、利用者端末3のイラスト入力欄22に描画されたイラストデータの筆跡を抽出する処理を行なう。筆跡は、イラスト入力時において、投稿者端末3に記録された手書きされる線分中の各座標を用いることにより抽出される。
【0066】
筆跡変換部61は、抽出された筆跡のうちイラスト入力欄22のX軸方向に変位する筆跡の移動量について絶対値とすることで、手書きのイラストをY軸方向に変位を有するX軸方向に連続して伸びる1本の線分に変換する。図7は、筆跡変換部が行なう絶対値変換の処理の例について説明する図である。
【0067】
図7では、イラスト入力欄22に描画された線分の始点を黒丸を付して表すと共に、2以上の線分については、数字で筆跡の順序について示している。図7(a)に示す例では、イラスト入力欄22に記載されたイラストはX軸方向に減少する要素が存在しないため、筆跡変換部61が行なう絶対値変換の結果物である線状オブジェクトは、イラスト入力欄22に記載された線分と同じ形状となる。
【0068】
線状オブジェクトの始点は、イラスト入力欄22に入力された線分の位置にかかわらず、原点からとする。
【0069】
図7(b)に示す例では、イラスト入力欄22に記載されたイラストは、ループの部分でX軸方向に減少する部分があるため、当該部分について変化量の絶対値を取る。その結果、線状オブジェクトは、X軸方向に常時増加する線分となる。
【0070】
図7(c)に示す例では、イラスト入力欄22に記載されたイラストが、互いに不連続な複数の線分で構成されている場合には、両者を接続させて一本の線分として扱う。ただし、連結部分のX軸方向の移動量は0としてもよいし、所定量移動させてもよい。例えば、連結部分のY軸方向の変化が予め設定した閾値より大きい場合は、X軸方向に移動量を与えることとしてもよい。
【0071】
図8は、図4の入力画面に描画されたイラストデータの筆跡(a)及び当該イラストデータから変換される線状オブジェクト(b)を示す図である。図8(a)は図4の入力画面に描画されたイラストデータを示している。これらのイラストはすべて線分で構成されたものであり、各線分は、黒丸の部分を始点とし、矢印方向に描画されている。線分の数字は描画順序を示している。また、図8(b)は、筆跡変換部61によって図8(a)のイラストを変換して作成された線状オブジェクトである。図8(a)のように入力画面に描画されたイラストデータが多数の線分で構成されている場合、変換される線状オブジェクトは、X軸方向に十分な長さを有する。このため、線状オブジェクトを所定長となるように縮小してもよい。また、イラストの種類によって線状オブジェクトのY軸方向の変位幅についても縮小してもよい。
【0072】
色情報選択部62は、入力画面に描画されたイラストデータの線分の色の情報に基づいて、変換された線状オブジェクトのどの部分がどの色情報を有しているかについて決定する。
【0073】
音声変換部55が行なう決定された抑揚再生条件を具備する読み上げ用の音声データの変換は、文字列割当部63,抑揚決定部64,音質・音声調整部65が司る。
【0074】
文字列割当部63は、作成された線状オブジェクトの形状に沿って、文字列を割り当てる。具体的には、図9に示すように、テキスト入力欄21に入力されたテキストデータの文字を文字列が均等になるように線状オブジェクトに割り付けて配置し、それぞれの文字の発音時の抑揚(音の高低)を決定する。
【0075】
抑揚の決定は抑揚決定部64が処理を司り、記憶装置に格納されている音階変動データ59を参照して行う。抑揚の決定に用いられる音階変動データは、一つの文字に対して抑揚の変化をパターン化したデータである。本実施形態においては、線形オブジェクトの形状が複雑になりやすいため、文字ごとに割り当てられた線状オブジェクトの抑揚をパターン別に類型化する処理を採用する。
【0076】
図10は、音階変動データ59のパターンの一例である。本実施形態では、音階変動データは、(a)から(e)までの5のパターンが設定されている。(a)(b)は、始まりの音階に対して音階が上がるパターンであって、音階変動のタイミングが前及び後になっている場合である。(c)(d)は、始まりの音階に対して音階が下がるパターンであって、音階変動のタイミングが前及び後になっている場合である。(e)は、文字の発生途中に音階が変動しないパターンである。なお、これらの音階変動データは、音の再生時の抑揚を決定するものであって、具体的な音階(何度変動するか)などについては、特に定められているものではない。
【0077】
パターンの選択は、文字ごとに割り当てられた線状オブジェクトの当該文字での始点、中間点、終点のY軸座標位置を参照して行うことができる。例えば、始点より終点の方がY座標として大きい場合は、始まりの音に対して音階が上がる(a)(b)のパターンを選択する。また、3つの座標値の差分が閾値より小さい場合は、文字の発生途中に音階が変動しない(e)のパターンを選択する。
【0078】
さらに、抑揚決定部64は、スケールデータ58を参照して線状オブジェクトのY軸方向の座標位置による音階の決定を行なう。スケールデータは、Y軸の座標に沿って割り当てられる音階のデータであり、全音階、半音階などの伝統的な音階の他、地域特有の民族音楽に特有の音階(例えば沖縄民謡などに用いられる琉球音階)など各種音階のスケールデータが含まれている。スケールデータは、音質調整欄25におけるマークの位置26により自動的に選択される。
【0079】
抑揚決定部64は、音階変動データ59のパターンの選択及びスケールデータ58の選択が終了すると、それぞれの文字に割り当てられた抑揚について、両者を参照して、始まりの音の高さ及び変動時の音の高さを決定する。変動時の音の高さは、当該文字に割り当てられた線状オブジェクトの形状によって決定される。
【0080】
音質・音声調整部65は、抑揚決定部64によって決定された抑揚を用いて音声再生する場合の音質及び音声を調整する。音質及び音声の調整は、音質調整欄25のマーク26の位置及び変声ボタン27によって音声種別データ27の中から選択された音声種別及び線分の色などの情報により決定される。また、線分の太さの情報に基づいて、再生時の音量を変化させてもよい。
【0081】
上記の通り、制御演算部50の各機能ブロックによって変換された音声データは、掲示板管理部により記憶され、テキストデータの閲覧及び特定のテキストデータの選択による音声再生命令を受信することにより閲覧者端末3bに送信され再生される。
【0082】
本実施形態にかかる電子掲示板システムによれば、テキストデータだけではなく、自由なイラストに応じてテキストの読み上げの抑揚などが変化するため、より趣向的なコミュニケーションをはかることができる。
【0083】
(第2実施形態)
次に第2実施形態にかかるサーバ装置2について説明する。第2実施形態にかかるサーバ装置2は、利用者端末3のイラスト入力欄22に描画されたイラストデータが手書きの線図ではなく、線図の筆跡の情報が存在しない場合に線状オブジェクトを作成するための装置である。線状オブジェクトの変換処理が異なるため、別実施形態として説明するが、装置構成としては第1実施形態にかかるサーバ装置と同じ装置であってもよい。
【0084】
図11は、本発明の電子掲示板システムに用いられる第2実施形態のサーバ装置の機能ブロックの構成を示す図である。図11に示すサーバ装置2は、制御演算部50、送受信部51、記憶装置52、掲示板管理部53を備えている。図11に示すサーバ装置は、第1実施形態にかかるサーバ装置と機能的に共通する部分を有するため共通部分については説明を省略し、異なる部分について主に説明する。
【0085】
制御演算部50には、再生される音声データの抑揚再生条件を決定する処理を行なう再生条件設定部54と、決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部55とが設けられている。
【0086】
再生条件設定部54が行なう抑揚再生条件の決定は、上記のように、利用者端末3のイラスト入力欄22に描画されたイラストデータをサーバ装置2が受信し、線形的な線状オブジェクトに変換(#102)することにより行なわれる。この処理を司る線図変換部66,Y軸座標演算部67,線分作成部68を備える。
【0087】
線図変換部66は、イラスト入力欄22に描画されたイラストデータが写真などであって、筆跡の情報を有しない場合にこれらの画像を線図に画像変換する処理を行なう。線図への画像変換は、公知の技術を用いることができ、イラストデータの色情報などを基準として被写体の輪郭を線図に置き換える処理などにより実行可能である。なお、イラスト入力欄22の背景画像として写真が選択され、その上に手書きで線分によるイラストが描画された場合は、これらの画像を一体として線図変換してもよいし、写真の背景画像のみを線図変換してもよい。なお、線図変換されたイラストデータは、構成する線分の色情報を有していてもよい。
【0088】
Y軸座標演算部67は、X軸の任意の座標上に対応する線分のY軸の座標に基づいて、1つのX軸座標に対して1つのY軸座標を演算する処理を司る。図12は、Y軸座標演算部67が行なうY軸演算の処理について説明する図である。図12に示すように、線図に変換されたイラストデータの任意のX座標(Xa)上には、イラストを構成する点(Ya〜Ye)が複数存在する場合がある。この場合、対応するX軸上の座標位置(Xa)で線状オブジェクトを構成させるY軸座標位置を演算するものである。
【0089】
Y軸座標演算部67が行なうY軸の演算座標位置の演算は、自由に決定することができる。一例としては、それぞれのY軸座標(Ya〜Ye)の座標位置の平均値を演算座標位置とすることができる。また、他の例としては、それぞれのY軸座標(Ya〜Ye)の座標位置の任意の一点を、ランダムに選択して演算座標位置としてもよいし、各座標の座標値を合算して、演算座標位置としてもよい。
【0090】
線分作成部68は、Y軸座標演算部67によって演算されたそれぞれのX軸座標位置でのY軸の演算座標を包含する線状オブジェクトを作成する処理を行なう。演算座標間の線状オブジェクトは、線状オブジェクトの曲線がスムーズになるように補完するなどの変更処理を行なってもよい。
【0091】
以上の処理により作成された線状オブジェクトに基づいて、音声変換部55が読み上げ用の音声データの変換を行う。この処理は、第1実施形態と同様であるため、説明を省略する。
【0092】
以上、本実施形態によれば、手書きによらない写真などのイラストに基づいてテキストデータの読み上げの抑揚などを決定することができる。
【0093】
以上説明したように、2軸方向に広がりを有するイラスト入力欄22の表されたイラストを線状オブジェクトに変換することにより、一方向に沿って認識されるテキストオブジェクトの文字列を線状オブジェクトに割り付け、その結果を音階などの抑揚条件の基準とすることができる。従って、例えば、利用者が描画領域に描画したイラストに基づいて線状オブジェクト作成し、テキストデータの抑揚再生条件を決定することができる。
【0094】
従って、利用者は、例えば自分が描画領域に描いた手書きのイラストや写真データなどを用いた場合、どのような再生条件で再生されるのかについての趣向を持つことができ、イラストによりどのような音声でテキストデータが音声変換されるかを楽しむことができる。よって、本発明によれば、エンターテイメントツールとして優れたテキスト音声変換再生を実現することができる。また、これらのデータを他者に送信することなどで、コミュニケーションの感情を十分に表現でき、趣向的に富むものとすることができる。
【0095】
なお、本発明は上記実施形態に限定されるものではなく、その他種々の態様で実施可能である。例えば、本実施形態では、電子掲示板システムを構成するサーバ装置の一機能として、テキスト音声変換処理を有する構成としたが、例えば、電子メールサーバに同様の機能を持たせることもできる。また、ネットワークに接続しないスタンドアロン形の装置として同様の機能を持たしてもよい。
【0096】
また、音階決定の処理工程は、従来広く行なわれている方法を適用することができ、例えば、文字当たりの音階変動を決定する処理に、音階変動データのパターン当てはめを用いることなく、線状オブジェクトの曲線の変化をそのまま音階に用いることができる。この場合、一音ごとの音階の変化が大きくなり、ビブラートをかけたような豊かな再生音を表現することができる。
【符号の説明】
【0097】
1 通信システム(電子掲示板システム)
2 サーバ装置
3 利用者端末
3a 投稿者端末
3b 閲覧者端末
10 制御演算部
11 通信部
12 記憶装置
13 入力部
14 表示部
15 スピーカ
20 入力画面
21 テキスト入力欄
22 イラスト入力欄
23 試聴ボタン
24 投稿ボタン
25 音質調整欄
26 マーク
27 変声ボタン
28 ペン選択欄
29 写真選択ボタン
30 テキストデータ
31 イラストデータ
50 制御演算部
51 送受信部
52 記憶装置
53 掲示板管理部
54 再生条件設定部
55 音声変換部
56 プログラム
57 音声種別データ
58 スケールデータ
59 音階変動データ
60 筆跡抽出部
61 筆跡変換部
62 色情報選択部
63 文字列割当部
64 抑揚決定部
65 音質・音声調整部
66 線図変換部
67 Y軸座標演算部
68 線分作成部


【特許請求の範囲】
【請求項1】
再生される音声データの抑揚再生条件を設定する再生条件設定部と、与えられたテキストデータを前記再生条件設定部によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部とを備えるテキスト音声変換装置であって、
前記再生条件設定部は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を線形的な線状オブジェクトに変換し、
前記音声変換部は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えることを特徴とする、テキスト音声変換装置。
【請求項2】
前記再生条件設定部は、
前記描画領域に描画される画像情報を構成する線分の筆跡を抽出する筆跡抽出部と、
前記筆跡抽出部によって抽出された筆跡のうち、前記第1方向に移動する筆跡の移動量の絶対値に変換し、前記第2方向に変位を有する前記第1方向に連続して伸びる線状オブジェクトとする筆跡変換部とを備え、
前記音声変換部は、前記筆跡変換部により作成された線状オブジェクトに基づいて抑揚再生条件を決定することを特徴とする、請求項1に記載のテキスト音声変換装置。
【請求項3】
前記再生条件設定部は、前記描画領域に描画される画像の色情報を選択して描画するための色情報選択部を備え、
前記音声変換部は、画像の色情報と音声データの音質とを対応づける音質対応情報に基づいて、音声データの音質を決定することを特徴とする、請求項1又は2に記載のテキスト音声変換装置。
【請求項4】
前記再生条件設定部は、
前記描画領域に描画される画像情報を構成する線分の前記第1方向軸の位置に対応する2以上の第2方向軸の座標位置に基づいて、第2方向軸の演算座標位置を演算する第2軸座標演算部と、
前記第2軸座標演算部により算出された、前記第1方向軸の位置にそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成する線分作成部とを備え、
前記音声変換部は、前記線分作成部により作成された線状オブジェクトに基づいて抑揚再生条件を決定することを特徴とする、請求項1に記載のテキスト音声変換装置。
【請求項5】
前記第2軸座標演算部は、前記2以上の第2方向軸の座標位置の平均値を演算座標位置とすることを特徴とする、請求項4に記載のテキスト音声変換装置。
【請求項6】
前記抑揚再生条件としては、前記音声データの音の高低、抑揚、アクセントの少なくとも1つであることを特徴とする、請求項1から5のいずれか1つに記載のテキスト音声変換装置。
【請求項7】
コンピュータに読み込まれて、前記コンピュータを、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置として機能させるプログラムであって、
前記再生条件設定手段は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を線形的な線状オブジェクトに変換する機能を備え、
前記音声変換手段は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与える機能を備えることを特徴とするプログラム。
【請求項8】
前記再生条件設定手段は、
前記描画領域に描画される画像情報を構成する線分の筆跡を抽出する筆跡抽出手段と、
前記筆跡抽出手段によって抽出された筆跡のうち、前記第1方向に移動する筆跡の移動量の絶対値に変換し、前記第2方向に変位を有する前記第1方向に連続して伸びる線状オブジェクトを作成させる筆跡変換手段とを備え、
前記筆跡変換手段により作成された線状オブジェクトに基づいて、前記音声変換手段により前記音声データの再生条件を決定させることを特徴とする、請求項7に記載のプログラム。
【請求項9】
前記再生条件設定手段は、
前記描画領域に描画される画像情報を構成する線分の前記第1方向軸の位置に対応する2以上の第2方向軸の座標位置に基づいて、第2方向軸の演算座標位置を演算させる第2軸座標演算手段と、
前記第2軸座標演算手段により算出された、前記第1方向軸の位置に対応するそれぞれの演算座標位置を結んで線状オブジェクトを作成させる線状オブジェクト作成手段とを備え、
前記音声変換手段は、前記線状オブジェクト作成手段により作成された線状オブジェクトに基づいて再生条件を決定させることを特徴とする、請求項7に記載のプログラム。
【請求項10】
再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置により実施されるテキスト音声変換方法であって、
前記再生条件設定手段により、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を線形的な線状オブジェクトに変換し、
前記音声変換手段により、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えことを特徴とするテキスト音声変換方法。




【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate


【公開番号】特開2012−173770(P2012−173770A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−32018(P2011−32018)
【出願日】平成23年2月17日(2011.2.17)
【出願人】(505201995)株式会社ソリッドアーツ (2)
【Fターム(参考)】