説明

テキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法

【課題】 コミュニケーションの感情を十分に表現でき、趣向的に富んだテキスト音声変換再生をすることができるテキスト音声変換装置を提供する。
【解決手段】 再生される音声データの抑揚再生条件を設定する再生条件設定部54と、与えられたテキストデータ30を前記再生条件設定部54によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部55とを備えるテキスト音声変換装置である。再生条件設定部54は、互いに交差する第1及び第2方向に広がりを有する描画領域22に描画された画像情報を前記第1方向に細分したセグメントの画像情報に基づいて音階を決定して線状オブジェクトに変換し、音声変換部55は、前記線状オブジェクトに沿って割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、与えられたテキスト(文字)データを音声に変換し、読み上げのための抑揚をつけるテキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法に関する。
【背景技術】
【0002】
従来、与えられたテキストデータを読み上げる場合に、音声の抑揚、速度を視覚的に表示できる装置が知られており、種々の装置に適用されている。例えば、特許文献1に開示されている音声情報表示装置は、テキストデータの文字の色やサイズを異ならせ、また、フォントを変形し、文字列中の文字の高さを異ならせて表示することによって、読み上げられる音声の強弱、強調、速度を認識できるようにした装置である。
【0003】
また、特許文献2に開示されている携帯通信端末は、メール文を音声再生する際の音声再生条件を設定し、当該条件に応じた音声データを作成する装置である。そして、添付された音声データを受け取った通信相手は、音声再生条件にしたがった音声データを再生することで、テキストを読み上げた音声を聞くことができるというものである。ここで、音声再生条件は、文字列に沿って配置された変換ポイントを結ぶポイントラインのライン形状を変更することで、音声の高低を決定し、音種メニューバーから特定の音種を選択する(特許文献2の図5参照)。具体的には、男声、女声など予め決められた音種を選択して再生する音種を決定し、ポイントライン中の変換ポイントの上下位置により音の高低、左右位置によりテンポ、再生のタイミングなどを調整して再生条件を設定する。
【0004】
特許文献1,2に示すように従来のテキスト音声読み上げ装置において再生音の抑揚(高低、アクセント、速度など)を表示、設定する場合には、読み上げられるテキストの文字列に沿って一方向に伸びる線形的なグラフ状のオブジェクトを用い、当該線形的オブジェクトの位置、大きさなどにより、読み上げ音の抑揚を表示、設定する手法が採用されていた。
【0005】
そして、当該装置の利用者は、与えられた文字列を任意の抑揚で再生させたい場合、文字列中の文字に対応したオブジェクトを調整して再生条件を設定し、自己の趣向に沿った抑揚の文字列再生を行なっていた。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開平8−179789号公報
【特許文献2】特開2005−4377号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
しかし、昨今のコンピュータ及びネットの普及に伴い、当該文字列読み上げ装置もコミュニケーションツール、エンターテイメントツールとして使用されることが多くなってきた。例えば、特許文献2に開示された携帯通信端末はメールの文字データを音声データに変換して送信するコミュニケーションツールとして用いられるものである。また、コンピュータを用いて作詞作曲することも一般的に用いられており、自己が作曲した曲をコンピュータ中のキャラクターに歌わせたりするアプリケーションソフトも広く用いられている。
【0008】
ここで、従来の線形的なオブジェクトを用いた再生音の抑揚設定手法では、コミュニケーションとしての感情が十分ではなく、また、エンターテイメント的にも、無味乾燥で面白味に欠けるものであった。
【0009】
したがって、本発明が解決しようとする技術的課題は、コミュニケーションの感情を豊かに表現でき、趣向的に富んだテキスト音声変換再生をすることができるテキスト音声変換装置、テキスト音声変換プログラム及びテキスト音声変換方法を提供することである。
【課題を解決するための手段】
【0010】
本発明は、上記技術的課題を解決するために、以下の構成のテキスト音声変換装置を提供する。
【0011】
本発明の第1態様によれば、再生される音声データの抑揚再生条件を設定する再生条件設定部と、与えられたテキストデータを前記再生条件設定部によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部とを備えるテキスト音声変換装置であって、
前記再生条件設定部は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を前記第1方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換部は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えることを特徴とする、テキスト音声変換装置を提供する。
【0012】
本発明の第2態様によれば、前記再生条件設定部は、
前記描画領域に描画された画像情報の被写体輪郭から線分画像情報を作成する線図作成部と、
各セグメントに含まれる線分の座標位置の平均値を取るなど、線分の座標位置に基づいて、演算座標位置を演算する座標演算部と、
前記座標演算部により算出された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成部とを備えることを特徴とする、テキスト音声変換装置を提供する。
【0013】
本発明の第3態様によれば、前記再生条件設定部は、
各セグメントに含まれる画像情報の色情報に基づいて第2方向軸の座標位置を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換することを特徴とする、テキスト音声変換装置を提供する。各セグメントに含まれる画像情報の色情報は、例えば、各セグメントにもっとも多く存在する色情報を採用するようにしてもよい。
【0014】
本発明の第4態様によれば、前記音声変換部は、
前記抑揚再生条件を決定に際し、画像情報の色情報に基づいて、予め定められたスケールデータから任意のスケールデータを選択することを特徴とする、テキスト音声変換装置を提供する。スケールデータは、各セグメントに区分してセグメントに割り当てられたテキストデータを再生する場合のスケールデータを選択するようにしてもよい。また、スケールデータの選択は各セグメントに含まれる画像情報の色情報の比率により決定すればよく、例えば、各セグメントにもっとも多く存在する色情報に基づいて決定したり、色情報の種類の数に応じて決定したりすることができる。
【0015】
本発明の第5態様によれば、前記音声変換部は、
前記抑揚再生条件を決定に際し、前記セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合の音量を決定することを特徴とするテキスト音声変換装置を提供する。なお、音量の決定は、各セグメントに含まれる画像情報の色情報の比率により決定すればよく、例えば、各セグメントにもっとも多く存在する色情報の比率に基づいて決定したり、色情報の種類の数に応じて決定することができる。
【0016】
本発明の第6態様によれば、コンピュータに読み込まれて、前記コンピュータを、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置として機能させるプログラムであって、
前記再生条件設定手段は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を前記第1方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換する機能を備え、
前記音声変換手段は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与える機能を備えることを特徴とするプログラムを提供する。
【0017】
本発明の第7態様によれば、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置により実施されるテキスト音声変換方法であって、
前記再生条件設定手段は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を前記第1方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換手段は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えることを特徴とするテキスト音声変換方法を提供する。
【発明の効果】
【0018】
本発明によれば、2軸方向に広がりを有する画像情報を前記第1方向に細分したセグメントを用いて線状オブジェクトに変換し、一方向に沿って認識されるテキストオブジェクトの文字列に画像情報を割り付けて、その結果を音階などの抑揚条件の基準とすることができる。従って、例えば、利用者が描画領域に描画したイラストに基づいて線状オブジェクトを作成し、テキストデータの抑揚再生条件を決定することができる。すなわち、本発明によれば、利用者は、例えば自分が描画領域に描いた手書きのイラストや写真データなどを用いた場合、どのような再生条件で再生されるのかについての趣向を持つことができ、イラストによりどのような音声でテキストデータが音声変換されるかを楽しむことができる。よって、本発明によれば、エンターテイメントツールとして優れたテキスト音声変換再生を実現することができる。また、これらのデータを他者に送信することなどで、コミュニケーションの感情を十分に表現でき、趣向的に富むものとすることができる。
【0019】
本発明の第2態様によれば、画像情報の被写体輪郭に基づいて線分画像を作成し、当該線分画像の各セグメント含まれる線分の座標位置に基づいて線状オブジェクトを作成することができるので、描画領域に表示される画像情報が写真などの線分情報を持たないものであっても再生条件の決定をすることができる。
【0020】
本発明の第3態様によれば、画像情報を構成する色の情報、例えば、セグメントに含まれる色情報の割合によって第2方向軸の座標位置を決定することで、音階を決定することができる。よって、画像の色調によって音の変化を楽しむことができる。
【0021】
本発明の第4態様によれば、画像情報を構成する色の情報によって予め定められたスケールデータから任意のスケールデータを選択することにより、再生される音声の感じを異ならせることができる。例えば、明るい色が多い場合はメジャースケールを、暗い色が多い場合はマイナースケールを選択することにより、画像の雰囲気に応じた音声の再生条件を設定することができる。
【0022】
本発明の第5態様によれば、セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合の音量を決定することで、画像の色情報に応じて音量を設定することができ、画像を音声に変換することの趣向性を高めることができる。
【図面の簡単な説明】
【0023】
【図1】本発明の実施形態にかかるテキスト音声変換装置を用いた通信システムのシステム構成を示す図である。
【図2】本実施形態にかかる電子掲示板システムにおいて用いられる利用者端末の構成を示す図である。
【図3】本実施形態にかかる電子掲示板システムの動作の流れを示すチャートである。
【図4】利用者端末に表示されるデータ入力画面の表示例である。
【図5】本発明の本実施形態にかかる電子掲示板システムに用いられるサーバ装置が行なうテキスト音声変換処理のフローチャートである。
【図6】本発明の電子掲示板システムに用いられる第1実施形態のサーバ装置の機能ブロックの構成を示す図である。
【図7】オブジェクト作成部が行なうY軸演算の処理について説明する図である。
【図8】図4の入力画面に描画されたイラストデータの筆跡(a)及び当該イラストデータから変換される線状オブジェクト(b)を示す図である。
【図9】文字列割当部が行なう文字割付の処理について説明する図である。
【図10】音階変動データのパターンの一例である。
【図11】本発明の電子掲示板システムに用いられる第2実施形態のサーバ装置の機能ブロックの構成を示す図である。
【発明を実施するための形態】
【0024】
以下、本発明の一実施形態に係るテキスト音声変換装置を用いた通信システムについて、図面を参照しながら説明する。
【0025】
図1は、本発明の実施形態にかかるテキスト音声変換装置を用いた通信システムのシステム構成を示す図である。通信システム1は、インターネットNTを用いて構成されるネットワークシステムであり、サーバ装置2と利用者端末3とがネットワークNTで接続された構成である。なお、図1では、2台の利用者端末3を接続した構成を示しているが、その設置台数は特に限定されるものではない。
【0026】
サーバ装置2は、汎用あるいは専用のコンピュータで構成されており、後述するように、利用者端末3からのメッセージ及び音声再生条件を受信して、これを音声データに変換するためのテキスト音声変換装置として機能する。また、後述するように本通信システムの使用形態によっては、ウェブサーバ、電子メールサーバなどの機能を併せ持っていてもよい。
【0027】
利用者端末3は、利用者が操作する、ネットワークに接続することができる汎用コンピュータ、携帯端末などであり、webブラウザ機能を有することが好ましい。後述するように、利用者は利用者端末3を用いてテキスト入力及びイラスト入力を行ない、当該入力したテキストデータがサーバ装置で音声変換された音声情報を受信する。
【0028】
なお、利用者端末の使用態様としては、自己の利用者端末に入力したテキストデータ、イラストデータに基づいて変換された音声データを自己の利用者端末で再生するようにしてもよいし、電子メール機能や電子掲示板のように、自己の利用者端末で入力したテキストデータ、イラストデータに基づいて変換された音声データを、特定又は不特定の他人の利用者端末へ送り、他人の利用者端末で再生するようにしてもよい。本通信システム1の態様は、サーバ装置2及び利用者端末3の構成により決定されるものであるが、本発明の特徴部分であるサーバ装置2のテキスト音声変換機能については、いずれの態様においても共通する。
【0029】
以下、本実施形態にかかる通信システムとして、電子掲示板システムを例にとって説明する。電子掲示板システムとは、投稿者である利用者の利用者端末3からサーバ装置2に送信されたテキストデータを掲示し、当該掲示されたテキストデータが不特定多数の閲覧者である利用者の利用者端末3により参照され、閲覧者が興味を持ったテキストデータを特定することでサーバ装置2によって、投稿時に変換された音声データを閲覧者の利用者端末3に送信し閲覧者の利用者端末3が再生されるシステムである。
【0030】
図2は、本実施形態にかかる電子掲示板システムにおいて用いられる利用者端末の構成を示す図である。図3は、本実施形態にかかる電子掲示板システムの動作の流れを示すチャートである。
【0031】
図2に示す利用者端末は、汎用コンピュータ又は携帯電話端末などが用いられ、制御演算部10、通信部11,記憶装置12,入力部13,表示部14,スピーカ15を備える。図3に示すように、利用者端末3は、投稿者端末3a及び閲覧者端末3bとして双方の役割を有する。
【0032】
制御演算部10は、CPUなどからなり、記憶装置に格納されるアプリケーションプログラム12aを展開し、当該アプリケーションプログラム12aとの協働により、利用者端末3の各部の動作を統括的に制御する。
【0033】
通信部11は、有線又は無線の手段によりインターネットNTを介して行なわれる利用者端末3外部との通信を司る。
【0034】
入力部13は、テキスト入力及びイラスト入力を含む各種情報入力を行なうものであり、文字入力を行なうためのものとしてキーボード、イラスト入力を行なうものとしてタッチパネル、タブレットなどが例示される。また、GUI(グラフィカルユーザーインターフェース)による操作を行なうためにマウスなどのポインティングデバイスなども備えている。
【0035】
表示部14は、投稿データを入力するための入力画面及びサーバ装置2から送られる掲示画面を表示するためのモニタ装置である。
【0036】
スピーカ15は、サーバ装置2から送られる音声データの再生に用いられる。
【0037】
本実施形態にかかる電子掲示板システムは、上述のように、利用者端末3(投稿者端末3a)から投稿されたテキストデータを掲示して、他の利用者端末3(閲覧者端末3b)から閲覧可能とし、さらに、投稿者端末3aによって入力されたイラストデータに基づいて抑揚再生条件が決定された読み上げ用の音声データを利用者端末3(利用者端末3a及び閲覧者端末3b)で再生するシステムである。
【0038】
図3に示すように、本実施形態にかかる電子掲示板システムの処理の流れは、次の通りである。まず、利用者端末(投稿者端末)3aがサーバ装置2にログイン(#10)すると、サーバ装置2が投稿者端末3aに入力画面を送信する(#20)。
【0039】
次いで、投稿者端末3aがテキスト及びイラストのデータ入力を行なう(#11)。この際、サーバ装置2との通信を行ない、現在の音声データがどのように再生されるかを確認できるように構成されていてもよい。音声データの確認に際し、サーバ装置2は、テキスト音声変換のデータ変換を行なう(#21)。
【0040】
投稿者は、テキストデータ及びイラストデータの入力が終了すると、利用者端末3aからデータをサーバ装置2に投稿する(#12)。サーバ装置2は、テキストデータの文章を読み上げる音声データに変換する(#22)。音声データの変換においては、投稿されたデータのうちイラストデータなどを用いて抑揚再生条件を決定し、音声再生時の音声データの音の高低、抑揚、アクセントなどに反映される。サーバ装置2が行なうデータ変換処理についての詳細は後述する。
【0041】
サーバ装置2は、投稿されたデータのうち、テキストデータのみを掲示する(#23)。
【0042】
閲覧者端末3bは、ログイン(#30)後、投稿者端末3aから投稿されたテキストデータを自由に閲覧することができる(#31)。投稿者は、音声データを再生したいテキストデータについて特定(#32)すると、この情報がサーバ装置2に送信され、この情報を受信したサーバ装置2が、テキストデータの文章を読み上げる音声データを閲覧者端末3bに送信する(#24)。閲覧者端末3bは、受信した音声データを再生する(#33)。
【0043】
次に、具体的な処理について詳細に説明する。図4は、データ入力(#11)時に利用者端末に表示されるデータ入力画面の表示例である。入力画面20には、テキスト入力欄21、イラスト入力欄22が表示されている。また、試聴ボタン23、投稿ボタン24、音質調整欄25、変声ボタン27、ペン選択欄28、写真選択ボタン29なども表示されている。
【0044】
テキスト入力欄21は、入力部13の一例であるキーボードなどを利用して、利用者が決定した任意のテキストデータを入力するための欄である。テキスト入力欄21に入力されたテキストデータ30は、音声再生時の読み上げデータとして利用される。
【0045】
イラスト入力欄22は、入力部13の一例であるマウス、タッチパネル、タブレットなどを利用して、利用者が任意のイラストを描画・表示するための領域であり、X軸、Y軸方向にそれぞれ広がりを有する描画領域である。イラストは利用者が任意に決定することができ、テキスト入力欄に入力したテキストデータとはまったく無関係のものであってもよい。イラストとしては、線分により描画されるイラスト及び写真画像であることが好ましい。入力デバイスの種類によっては筆圧なども検出してイラストの線分の太さを変えるなどさせてもよい。また、後述する写真選択ボタン29により選択された写真を表示することができ、さらにその上にイラストを追加で描画することもできる。イラスト入力欄22に描画されたイラストデータ31は、サーバ装置に送信されて抑揚再生条件の設定に利用され、音声再生時の音声データの音の高低、抑揚、アクセントなどに反映される。このテキスト音声変換に関してサーバ装置2が行なう処理についての詳細は後述する。
【0046】
試聴ボタン23は、現在入力されているテキストデータ及びイラストデータその他の条件によってどのような音声データが作成されるかを確認するためのボタンであり、押下すると、音声データが再生される。
【0047】
投稿ボタン24は、投稿者端末から入力されたテキストデータ及びイラストデータを決定したあと、下記の諸条件の設定条件を含めてサーバ装置2に送信してするためのボタンであり、押下することで入力データ及び種々の設定条件がサーバ装置に送信される。データを受信したサーバ装置2は、電子掲示板に掲示する処理及びテキスト音声変換の処理を行なう。
【0048】
音質調整欄25は、中央にあるマーク26を移動させることで、再生時の音声のイメージを調整するための欄である。本実施形態では、元気かクールか、及び暖かいか寒い音声かなど感情、感覚的な表現を用いて音質を調整する。音質の調整は、2軸座標中のマーク26の位置情報がサーバ装置2に送信され、サーバ装置2が音質調整欄25のマーク26の位置情報に基づいて再生時の音質を決定する。この処理については後述する。
【0049】
変声ボタン27は、再生する音声を選択するためのボタンであり、具体的には、男声、女声、などの音声を選択することができる。選択可能な音声は予めサーバ装置2に記憶されており、利用者端末3において選択された結果に基づいてサーバ装置が選択する。
【0050】
ペン選択欄28は、イラスト入力欄22に描画する場合のペンの種類を選択するための欄である。ペンの種類としては、色、線の太さなどが挙げられる。描画に用いられたペンの種類の情報は、予めサーバ装置2に記憶されており、利用者端末3において選択された結果がサーバに送信され、サーバ装置2におけるテキスト音声変換処理において変換される音声データの音質などの調整に用いられる。
【0051】
写真選択ボタン29は、イラスト入力欄22に入力される画像として写真などを選択することができる。選択される背景画像としては、投稿者端末3aあるいは投稿者端末3aが読み書き可能な外部記憶装置に格納されたものを用いることができる。選択された画像は、イラスト入力欄22の画像サイズにサイズ変更され、例えば背景画像としてイラスト入力欄22に表示される。投稿者は、当該背景画像の上に手書きのイラストを追加して描画することができる。投稿ボタン24を押すことにより、イラスト入力欄22に表示されている背景画像及び追加で手書きしたイラストがサーバ装置2送信される。
【0052】
次に、サーバ装置2が行なうテキスト音声変換処理について説明する。サーバ装置2は、電子掲示板の管理サーバとしての機能に加えて、利用者端末3(投稿者端末3a)から受信したデータに基づいて抑揚再生条件を決定し、テキスト入力欄21に入力されたテキストデータを抑揚再生条件に基づいて音声変換する機能を有するテキスト音声変換装置としての機能を有する。
【0053】
図5は、本発明の本実施形態にかかる電子掲示板システムに用いられるサーバ装置が行なうテキスト音声変換処理のフローチャートである。サーバ装置2が行なうテキスト音声変換処理は、図3の#22に包含される。
【0054】
本実施形態にかかるサーバ装置2は、投稿者端末3aからイラスト入力欄22に入力されたイラストや背景画像、音質などの設定条件及びテキスト入力欄21に入力されたテキストデータを含む各種データを受信(#101)する。その後、受信したデータのうち、イラストや背景画像を線状オブジェクトに変換し(#102)、当該線状オブジェクトに沿ってテキストデータの文字列を割り付ける(#103)。
【0055】
次いで、音質調整欄25のマーク26の位置に関する情報及びイラストの線分を描画したペンの情報に基づいて音質を、また、変声ボタン27により選択された音声に設定・調整する(#104)。その後、線状オブジェクトの曲線の位置に応じて対応する文字での音階を決定する(#105)。
【0056】
(第1実施形態)
次に、サーバ装置が行なうテキスト音声変換処理を詳細に説明する。図6は、本発明の電子掲示板システムに用いられる第1実施形態のサーバ装置の機能ブロックの構成を示す図である。図6に示すサーバ装置2は、制御演算部50、送受信部51、記憶装置52、掲示板管理部53を備えている。
【0057】
制御演算部50は、CPUなどからなり、記憶装置52に格納されるプログラム56を展開し、当該プログラム56との協働により、サーバ装置2の各部の動作を統括的に制御することによって、サーバ装置におけるテキスト音声変換処理を実行する。
【0058】
送受信部51は、インターネットNTを介して行なわれる利用者端末3との通信を司る。具体的には、投稿者端末3aからの各種データの送受信及び閲覧者端末3bからの掲示板閲覧及び音声データ送信を主として行なう。
【0059】
記憶装置52には、プログラム56の他に各種データなどが記憶される。記憶装置52に記憶されるデータとしては、音声種別データ57,スケールデータ58,音階変動データ59などが存在する。これらの各種データについては後述する。
【0060】
掲示板管理部53は、電子掲示板としての機能を統括して行なう。具体的には、データの投稿、投稿されたテキストデータの閲覧及び特定された音声データの送信などの管理を司る。
【0061】
制御演算部50には、再生される音声データの抑揚再生条件を決定する処理を行なう再生条件設定部54と、決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部55とが設けられている。
【0062】
再生条件設定部54が行なう抑揚再生条件を決定は、上記のように、利用者端末3のイラスト入力欄22に描画されたイラストデータをサーバ装置2が受信し、線形的な線状オブジェクトに変換(#102)する処理工程を有し、この処理を司る画像分割部60、線図作成部61、座標演算部62及びオブジェクト作成部63が設けられている。
【0063】
画像分割部60は、イラスト入力欄22に描画されたイラストデータをX軸方向に細分してX軸方向に微少な幅のセグメントに区分する。セグメントのX軸方向の幅は特に限定されるものではないが、1ピクセルごとでもよいし、イラストデータのX方向軸を所定数(例えば10個)に区分する場合に相当するピクセル数でもよい。これらのセグメントの幅はすべて一定であってもよいし、セグメントごとに異なっていてもよい。なお、セグメントの分割は、実際に1つの画像を複数の画像情報に分割する必要はなく、後述する画像処理を進める範囲内において仮想的に行なうことで足りる。
【0064】
線図作成部61は、イラスト入力欄22に描画された写真などのイラストデータから線図を作成する処理を行なう。イラストデータから線図への画像変換は、イラストデータの色情報などを基準として被写体の輪郭を取ることで線図に置き換える処理により実行可能である。なお、他の公知の技術を用いることもできる。イラスト入力欄22の背景画像として写真が選択され、その上に手書きで線分によるイラストが描画された場合は、これらの画像を一体として線図変換してもよいし、写真の背景画像のみを線図変換してもよい。
【0065】
座標演算部62は、線図作成部61によって分割された各セグメントに存在する線分のY軸の座標位置に基づいて、1つのセグメントに対して1つのY軸座標を演算する。図7は、座標演算部62が行なうY軸演算の処理について説明する図である。セグメント内に線図に変換されたイラストデータの線分が1つだけ存在する場合は、当該線分の位置がY軸座標として特定される。一方、図7に示すように、線図に変換されたイラストデータの任意のセグメント(Xa)に、イラストを構成する線分(Ya〜Ye)が複数存在する場合は、当該セグメント(Xa)内の線分座標位置に基づいて線状オブジェクトを構成するY軸座標位置を演算する。
【0066】
座標演算部62が行なうY軸の演算座標位置の演算は、自由に決定することができる。一例としては、それぞれのY軸座標(Ya〜Ye)の座標位置の平均値を演算し、当該位置を演算座標位置とすることができる。また、他の例としては、それぞれのY軸座標(Ya〜Ye)の座標位置の任意の一点を、ランダムに選択して演算座標位置としてもよいし、それぞれのY軸座標(Ya〜Ye)の座標値を合算することにより演算座標位置を求めてもよい。
【0067】
オブジェクト作成部63は、座標演算部62によって演算されたそれぞれのセグメントにおけるY軸の演算座標を包含する線状オブジェクトを作成する処理を行なう。演算座標間の線状オブジェクトは、線状オブジェクトの曲線がスムーズになるように補完などの変更処理を行なってもよい。
【0068】
図8は、図4の入力画面に描画されたイラストデータから作成された線状オブジェクトの例を示す図である。線状オブジェクトは、X軸方向に連続しY軸方向に変位があるデータであり、図8に示すように必ずしもグラフ状である必要はなく、X軸座標に対するY軸座標の位置を対応させたテーブルデータであってもよい。
【0069】
音声変換部55が行なう決定された抑揚再生条件を具備する読み上げ用の音声データの変換は、文字列割当部64,抑揚決定部65,音質・音声調整部66が司る。
【0070】
文字列割当部64は、作成された線状オブジェクトの形状に沿って、文字列を割り当てる。図9を用いて説明すると、テキスト入力欄21に入力されたテキストデータの文字を文字列が均等になるように線状オブジェクトに割り付けて配置し、それぞれの文字の発音時の抑揚(音の高低)を決定する。具体的には、文字情報の線状オブジェクトへの割り付けは、線状オブジェクトのX軸方向距離Lx(図8参照)を、テキストデータから発音される発音数で等分してそれぞれの音に対応するX軸座標を当てはめる作業により行なわれる。
【0071】
抑揚の決定は抑揚決定部65が処理を司り、記憶装置に格納されている音階変動データ59を参照して行なう。抑揚の決定に用いられる音階変動データは、一つの文字に対して抑揚の変化をパターン化したデータである。本実施形態においては、線形オブジェクトの形状が複雑になりやすいため、文字ごとに割り当てられた線状オブジェクトの抑揚をパターン別に類型化する処理を採用する。
【0072】
図10は、音階変動データ59のパターンの一例である。本実施形態では、音階変動データは、(a)から(e)までの5つのパターンが設定されている。(a)(b)は、始まりの音階に対して音階が上がるパターンであって、音階変動のタイミングが前及び後になっている場合である。(c)(d)は、始まりの音階に対して音階が下がるパターンであって、音階変動のタイミングが前及び後になっている場合である。(e)は、文字の発生途中に音階が変動しないパターンである。なお、これらの音階変動データは、音の再生時の抑揚を決定するものであって、具体的な音階(何度変動するか)などについては、特に定められているものではない。
【0073】
パターンの選択は、文字ごとに割り当てられた線状オブジェクトの当該文字での始点、中間点、終点のY軸座標位置を参照して行なうことができる。例えば、始点より終点の方がY座標として大きい場合は、始まりの音に対して音階が上がる(a)(b)のパターンを選択する。また、3つの座標値の差分が閾値より小さい場合は、文字の発生途中に音階が変動しない(e)のパターンを選択する。
【0074】
また、抑揚決定部65は、スケールデータの選択を行なう。スケールデータは、Y軸の座標に沿って割り当てられる音階のデータであり、全音階、半音階などの伝統的な音階の他、地域特有の民族音楽に特有の音階(例えば沖縄民謡などに用いられる琉球音階)など各種スケールが含まれている。また、各種スケールデータには、メジャーコード及びマイナーコードが含まれている。
【0075】
抑揚決定部65によって行なわれるスケールデータの選択は、イラスト入力欄22に描画されたイラストデータ及び音質調整欄25におけるマーク26の位置の双方の情報に基づいて行なわれる。一例として、音質調整欄25におけるマーク26の位置により音階を選択し、イラスト入力欄22に描画されたイラストデータに基づいてメジャーコード、マイナーコードを選択するようにすることができる。
【0076】
抑揚決定部65が行なうスケールデータの選択は、イラスト入力欄に描画されたイラストデータの色情報に基づいて行なわれる。例えば、イラストデータに含まれる色情報として明るい色が多い場合はメジャースケールを選択し、暗い色が多い場合はマイナースケールを選択する。
【0077】
一般に、画像データの色情報は、RGBの三原色の色の強さを要素としそれぞれの三原色要素の加法混色により決定されるRGB表色系と、色相、彩度、明度の三つの要素成分からなる色空間で表現されるHSV表色系のいずれかで表される。スケールデータを選択する色情報の要素としては、単に明度の違いだけではなく、彩度(色の鮮やかさ)、色相も例示することができ、例えば、イラストデータが、彩度や明度の高い色が多く用いられている場合はメジャースケールを選択し、彩度や明度の低い色が多く用いられている場合はマイナースケールを用いるなどの処理を行なうことができる。
【0078】
なお、抑揚決定部65が行なうスケールデータの選択は、イラスト入力欄に描画されたイラストデータ全体の色情報に基づいて1つのみが選択されてもよいし、画像分割部60により作成されたセグメントごとに色情報を判断して、セグメントごとのスケールデータを選択してもよい。
【0079】
抑揚決定部65は、音階変動データ59のパターンの選択及びスケールデータ58の選択が終了すると、それぞれの文字に割り当てられた抑揚について、両者を参照して、始まりの音の高さ及び変動時の音の高さを決定する。変動時の音の高さは、当該文字に割り当てられた線状オブジェクトの形状によって決定される。なお、セグメントごとにスケールデータが選択された場合は、そのセグメントに割り当てられた文字についての音階の決定に当該選択されたスケールデータを用いる。
【0080】
音質・音声調整部66は、抑揚決定部65によって決定された抑揚を用いて音声再生する場合の音質及び音声を調整する。音質及び音声の調整は、音質調整欄25のマーク26の位置及び変声ボタン27によって音声種別データ57の中から選択された音声種別及び線分の色などの情報により決定される。
【0081】
また、音質・音声調整部66は、各セグメントに含まれるイラストデータの色情報の割合に応じて、当該セグメントに対応する音声の再生時音量を変化させることができる。音量は、例えば、予め3段階程度に設定されており、各セグメントに含まれる色情報の割合に応じてどの音量で再生するかを決定する。
【0082】
音量の決定は、各セグメントに含まれる色情報の種類の多さによって決定してもよい。たとえば、セグメント内の色情報が、多くなるほど大きい音声で再生するなどのように決定することができる。なお、色情報は減色することによって、近似する色を呈する色情報を同色として取り扱ってもよい。
【0083】
また、別の例としては、ある特定の色情報に着目し、当該色がセグメント内に占める割合に応じて音量を決定してもよい。例えば、HSV表色系における赤色の色相に着目し、セグメント内がすべて赤色色相である場合は最大音量で、赤色色相が50%のときは半分程度の音量で再生するなどのようにしてもよい。
【0084】
上記の通り、制御演算部50の各機能ブロックによって変換された音声データは、掲示板管理部により記憶され、テキストデータの閲覧及び特定のテキストデータの選択による音声再生命令を受信することにより閲覧者端末3bに送信され再生される。
【0085】
本実施形態にかかる電子掲示板システムによれば、テキストデータだけではなく、イラストの雰囲気に応じてテキストの読み上げの抑揚などが変化するため、より趣向的なコミュニケーションをはかることができる。
【0086】
(第2実施形態)
次に第2実施形態にかかるサーバ装置2について説明する。第2実施形態にかかるサーバ装置2は、利用者端末3のイラスト入力欄22に描画されたイラストデータに基づいて線状オブジェクトを作成する処理が異なる点で第1実施形態にかかるサーバ装置と異なる。
【0087】
図11は、本発明の電子掲示板システムに用いられる第2実施形態のサーバ装置の機能ブロックの構成を示す図である。図11に示すサーバ装置2は、制御演算部50、送受信部51、記憶装置52、掲示板管理部53を備えている。図11に示すサーバ装置は、第1実施形態にかかるサーバ装置と機能的に共通する部分を有するため共通部分については説明を省略し、異なる部分について主に説明する。
【0088】
制御演算部50には、再生される音声データの抑揚再生条件を決定する処理を行なう再生条件設定部54と、決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部55とが設けられている。
【0089】
再生条件設定部54が行なう抑揚再生条件の決定は、上記のように、利用者端末3のイラスト入力欄22に描画されたイラストデータをサーバ装置2が受信し、線形的な線状オブジェクトに変換(#102)することにより行なわれる。この処理を司る画像分割部60、色情報分析部67、音階決定部68及びオブジェクト作成部63が設けられている。
【0090】
画像分割部60は、イラスト入力欄22に描画されたイラストデータをX軸方向に細分してX軸方向に微少な幅のセグメントとして識別する。セグメントのX軸方向の幅は特に限定されるものではないが、1ピクセルごとに行なうことが好ましいが、イラストデータのX方向軸を所定数(例えば10個)に区分してもよい。なお、セグメントの分割は、実際に1つの画像を複数の画像情報に分割する必要はなく、上述する画像処理を進める範囲内において仮想的に行なうことで足りる。
【0091】
色情報分析部67は、画像分割部60によって分割されたセグメントに含まれるピクセルの色情報を分析する。本実施形態では、各セグメントを構成するピクセルの色情報は、後述する音階決定に用いられる。分析時には色情報の減色処理を行なって近似する色を同色として扱ってもよい。
【0092】
音階決定部68は、色情報分析部67により分析された各セグメントの色情報に基づいて、各セグメントに割り当てられた音階を決定する。ここで音階の決定には、色情報と音階との関連が定義された音階変換テーブル69を用いる。音階変換テーブルは、色情報を音階に変換するためのものであり、例えば、RGB表色系で示した場合(255,0,0)の色はラ(周波数440Hz)などに変換するなどの変換情報が格納されている。
【0093】
色情報をどの音階に変換するかについては、特に決められたものではなく、色情報の割合、色情報の種類数などに応じて、適宜決定することができる。また、変換される音階については、絶対的な音の高さを示すものでなくてもよく、ある任意の基準音に対して何度の音の相違があるかについて決定するなど、相対的な音階を決定するようにしてもよい。
【0094】
オブジェクト作成部63は、音階決定部68によって各セグメントに割り当られた音階にもとづいてX軸方向に連続しY軸方向に変位がある線状オブジェクトを作成する。線状オブジェクトは、X軸方向に連続しY軸方向に変位があるデータであり、図8に示すように必ずしもグラフ状である必要はなく、X軸座標に対するY軸座標の位置を対応させたテーブルデータであってもよい。
【0095】
以上の処理により作成された線状オブジェクトに基づいて、音声変換部55が読み上げ用の音声データの変換を行なう。この処理は、第1実施形態と同様であるため、説明を省略する。
【0096】
以上、本実施形態によれば、写真などの画像データに基づいてテキストデータの読み上げ時の抑揚などを決定することができる。また、抑揚の決定は、画像の種類により独自のものとなるため、より趣向的なコミュニケーションをはかることができる。
【0097】
以上説明したように、2軸方向に広がりを有するイラスト入力欄22の表されたイラストを線状オブジェクトに変換する際に、X軸方向に細分したセグメントの画像情報によって線状オブジェクトを作成することにより、画像の雰囲気に応じた抑揚を与えることができる。
【0098】
従って、利用者は、例えば自分が描画領域に描いたイラストや写真データなどを用いた場合、どのような再生条件で再生されるのかについての趣向を持つことができ、イラストによりどのような音声でテキストデータが音声変換されるかを楽しむことができる。よって、本発明によれば、エンターテイメントツールとして優れたテキスト音声変換再生を実現することができる。また、これらのデータを他者に送信することなどで、コミュニケーションの感情を十分に表現でき、趣向的に富むものとすることができる。
【0099】
なお、本発明は上記実施形態に限定されるものではなく、その他種々の態様で実施可能である。例えば、本実施形態では、電子掲示板システムを構成するサーバ装置の一機能として、テキスト音声変換処理を有する構成としたが、例えば、電子メールサーバに同様の機能を持たせることもできる。また、ネットワークに接続しないスタンドアロン形の装置として同様の機能を持たしてもよい。
【0100】
また、音階決定の処理工程は、従来広く行なわれている方法を適用することができ、例えば、文字当たりの音階変動を決定する処理に、音階変動データのパターン当てはめを用いることなく、線状オブジェクトの曲線の変化をそのまま音階に用いることができる。この場合、一音ごとの音階の変化が大きくなり、ビブラートをかけたような豊かな再生音を表現することができる。
【符号の説明】
【0101】
1 通信システム(電子掲示板システム)
2 サーバ装置
3 利用者端末
3a 投稿者端末
3b 閲覧者端末
10 制御演算部
11 通信部
12 記憶装置
13 入力部
14 表示部
15 スピーカ
20 入力画面
21 テキスト入力欄
22 イラスト入力欄
23 試聴ボタン
24 投稿ボタン
25 音質調整欄
26 マーク
27 変声ボタン
28 ペン選択欄
29 写真選択ボタン
30 テキストデータ
31 イラストデータ
50 制御演算部
51 送受信部
52 記憶装置
53 掲示板管理部
54 再生条件設定部
55 音声変換部
56 プログラム
57 音声種別データ
58 スケールデータ
59 音階変動データ
60 画像分割部
61 線図作成部
62 座標演算部
63 オブジェクト作成部
64 文字列割当部
65 抑揚決定部
66 音質・音声調整部
67 色情報分析部
68 音階決定部
69 音階変換テーブル

【特許請求の範囲】
【請求項1】
再生される音声データの抑揚再生条件を設定する再生条件設定部と、与えられたテキストデータを前記再生条件設定部によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換部とを備えるテキスト音声変換装置であって、
前記再生条件設定部は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を前記第1方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換部は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えることを特徴とする、テキスト音声変換装置。
【請求項2】
前記再生条件設定部は、
前記描画領域に描画された画像情報の被写体輪郭から線分画像情報を作成する線図作成部と、
各セグメントに含まれる線分の座標位置に基づいて、演算座標位置を演算する座標演算部と、
前記座標演算部により算出された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成部とを備えることを特徴とする、請求項1に記載のテキスト音声変換装置。
【請求項3】
前記座標演算部は、前記セグメントに2以上の線分の座標位置が存在する場合は、各座標位置の平均値を演算座標位置とすることを特徴とする、請求項2に記載のテキスト音声変換装置。
【請求項4】
前記再生条件設定部は、
各セグメントに含まれる画像情報の色情報に基づいて第2方向軸の座標位置を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換することを特徴とする、請求項1に記載のテキスト音声変換装置。
【請求項5】
前記再生条件設定部は、
各セグメントに含まれる画像情報の色情報の割合に基づいて音階の高さを決定することを特徴とする、請求項4に記載のテキスト音声変換装置。
【請求項6】
前記音声変換部は、
前記抑揚再生条件の決定に際し、画像情報の色情報に基づいて、予め定められたスケールデータから任意のスケールデータを選択することを特徴とする、請求項1から5のいずれか1つに記載のテキスト音声変換装置。
【請求項7】
前記音声変換部は、前記セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合のスケールデータを選択することを特徴とする請求項6に記載のテキスト音声変換装置。
【請求項8】
前記音声変換部は、画像情報の色情報の比率に応じて、前記スケールデータを選択することを特徴とする、請求項6又は7に記載のテキスト音声変換装置。
【請求項9】
前記音声変換部は、
前記抑揚再生条件を決定に際し、前記セグメントに存在する色情報に基づいて、当該セグメントに割り当てられたテキストデータを再生する場合の音量を決定することを特徴とする請求項1から8のいずれか1つに記載のテキスト音声変換装置。
【請求項10】
前記音声変換部は、前記セグメントに存在する色情報の比率に応じて音量を決定することを特徴とする請求項9に記載のテキスト音声変換装置。
【請求項11】
前記音声変換部は、前記セグメントに存在する色情報の種類の数に応じて音量を決定することを特徴とする請求項9に記載のテキスト音声変換装置。
【請求項12】
コンピュータに読み込まれて、前記コンピュータを、再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置として機能させるプログラムであって、
前記再生条件設定手段は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を前記第1方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換する機能を備え、
前記音声変換手段は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与える機能を備えることを特徴とするプログラム。
【請求項13】
前記再生条件設定手段は、
前記描画領域に描画された画像情報の被写体輪郭から線分画像情報を作成する線分作成手段と、
各セグメントに含まれる線分の座標位置に基づいて、演算座標位置を演算する座標演算手段と、
前記座標演算手段により算出された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成手段と、を備えることを特徴とする、請求項12に記載のプログラム。
【請求項14】
前記再生条件設定手段は、
各セグメントに含まれる画像情報の色情報に基づいて音階の高さを決定する音階決定手段と、
前記音階決定手段により決定された、各セグメントにそれぞれ対応する演算座標位置を包含して線状オブジェクトを作成するオブジェクト作成手段と、を備えることを特徴とする、請求項12に記載のプログラム。
【請求項15】
再生される音声データの抑揚再生条件を設定する再生条件設定手段と、与えられたテキストデータを前記再生条件設定手段によって決定された抑揚再生条件を具備する読み上げ用の音声データに変換する音声変換手段とを備えるテキスト音声変換装置により実施されるテキスト音声変換方法であって、
前記再生条件設定手段は、互いに交差する第1及び第2方向に広がりを有する描画領域に描画された画像情報を前記第1方向に細分してセグメントを作成し、個々のセグメントの画像情報に基づいて音階を決定して、前記画像情報を第1の方向に伸びる線形的な線状オブジェクトに変換し、
前記音声変換手段は、前記線状オブジェクトの第1の方向に沿って前記テキストデータの文字列を割り付け、前記割り付けられたテキストデータの文字に前記線状オブジェクトの第2の方向の位置に応じた抑揚再生条件を与えることを特徴とするテキスト音声変換方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate


【公開番号】特開2012−173403(P2012−173403A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−33344(P2011−33344)
【出願日】平成23年2月18日(2011.2.18)
【出願人】(505201995)株式会社ソリッドアーツ (2)
【Fターム(参考)】