説明

音声出力装置、音声出力方法および音声出力プログラム

【課題】
多言語の音声を出力する音声出力装置において、聞き手集団の使用言語を理解していないことに起因する、情報提供の無駄を軽減する。
【解決手段】
音声出力内容を入力する音声出力内容入力部と、前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成部と、周囲環境の音声を入力する環境音声入力部と、前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出部と、前記言語構成比算出部で算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更部と、変更された音声を出力する音声出力部と、を有する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、自動放送システムなどの音声出力装置に関し、特に多言語の音声を出力する音声出力装置に関する。
【背景技術】
【0002】
本技術の背景技術として、公共施設における自動放送システムがある。
自動放送システムは、放送指令を受け取ると、あらかじめ録音しておいた案内音声を組合せて、放送を出力することを可能としている。放送指令には、放送内容や放送時刻、あるいは放送場所の指定が含まれており、状況に合わせた多彩な放送を実現している。一部のシステムでは、テキストを音声に変換する音声合成装置が用いられており、定型文だけでなく、様々な内容の音声を、放送指令としてテキストを与えるだけで生成することを可能としている。
【0003】
近年、公共施設における国際化対応の重要性は拡大している。国際的なイベント会場、空港、鉄道駅、博物館等の放送においては、多言語による音声案内が求められるようになっている。自動放送システムは、多言語の案内音声をあらかじめ録音しておくか、多言語の音声合成装置を用いて、多言語音声案内を実現している。
【0004】
しかしながら、このような自動放送システムにおける一つの課題として、音声案内にかかる時間が長くなる、という課題がある。従来単一の言語で放送を実現していたシステムに、他の言語を加えると、放送が長くなることは避けられない。また、多言語による放送は、聞き手の使用言語が何であるかに関係なく、全ての言語の放送を連続して放送するために、放送部分の多くは無駄な情報提供となってしまう。
【0005】
このような、聞き手の言語を理解していないことに起因する、情報提供の無駄を軽減するために、携帯端末装置とイヤホンを提供し、特定の言語のみの音声案内を提供するシステムが、博物館等において提供されている。ただし、このようなシステムでは、顧客にそれぞれ携帯端末とイヤホンを付けてもらう必要があり、面倒が多い。また、集団へ周知する機能を欠いているという弱点もある。
【0006】
また、聞き手の使用言語を理解する方法として、言語認識を用いる方法がある。例えば、特許文献1には、車載用ナビゲーション装置において使用言語を決定するために、「入力音声に含まれる単語ごとに、対応する言語を調査し、この調査結果において多数を占める言語を前記使用言語として判定する」とある。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開2001−296882号公報
【非特許文献】
【0008】
【非特許文献1】P.A.Torres−Carrasquillo et al.,“Approaches to language identification using Gaussian mixture models and shifted delta cepstral features.”Proc. ICSLP 2002,Sept. 2002,pp.89−92.
【発明の概要】
【発明が解決しようとする課題】
【0009】
しかし、特許文献1に開示される技術では、観測された言語について、ただ一つの使用言語を決定することはできるものの、聞き手集団の複数言語を理解することはできず、多言語音声案内を制御することはできない。
【0010】
本発明は、聞き手集団の複数の使用言語に応じた、多言語の音声を出力し、情報提供の無駄を軽減した音声出力装置を提供することを目的とする。
【課題を解決するための手段】
【0011】
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
【0012】
本発明の音声出力装置の一例を挙げるならば、音声出力内容を入力する音声出力内容入力部と、前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成部と、周囲環境の音声を入力する環境音声入力部と、前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出部と、前記言語構成比算出部で算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更部と、変更された音声を出力する音声出力部と、を有する音声出力装置である。
【0013】
本発明の音声出力装置において、更に、音声出力言語を指定する音声出力言語指定部を有し、前記出力音声生成部は、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、前記言語構成比算出部は、前記音声出力言語指定に基づいて音声の言語を認識するものでよい。
【0014】
また、本発明の音声出力装置において、更に、音声出力装置の位置情報を取得する位置情報取得部と、位置情報と関連付けて音声出力言語を記憶する音声出力言語記憶部とを有し、前記音声出力言語指定部は、位置情報に応じて前記音声出力放送言語記憶部から取得した音声出力言語を指定するものでよい。
【0015】
また、本発明の音声出力装置において、更に、言語構成比に関連付けて出力する音声の構成を変更する方法を記憶する構成変更方法記憶部を有し、前記音声出力構成変更部は、前記言語構成比算出部で算出した言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更するものでよい。
【0016】
また、本発明の音声出力装置において、更に、音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成部を有し、前記構成変更方法記憶部は、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶するものであり、前記音声出力構成変更部は、前記音声出力構成と前記言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更するものでよい。
【0017】
また、本発明の音声出力装置において、前記音声出力内容入力部は、音声出力文章のテキストを入力し、前記出力音声生成部は、テキストを音声に変換する音声合成処理によって出力音声を生成し、前記音声出力構成変更部は、テキストの並び替え、テキストの一部に話速指定、一部テキストの削除のいずれかを行った編集テキストに基づいて音声合成処理を行うものでよい。
【0018】
本発明の音声出力方法の一例を挙げるならば、音声出力内容を入力する音声出力内容入力ステップと、前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、周囲環境の音声を入力する環境音声入力ステップと、前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、変更された音声を出力する音声出力ステップと、を有する音声出力方法である。
【0019】
本発明の音声出力方法において、更に、音声出力言語を指定する音声出力言語指定ステップを有し、前記出力音声生成ステップは、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、前記言語構成比算出ステップは、前記音声出力言語指定に基づいて音声の言語を認識するものでよい。
【0020】
また、本発明の音声出力方法において、更に、音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更するものでよい。
【0021】
本発明の音声出力プログラムの一例を挙げるならば、コンピュータに音声を出力させるための音声出力プログラムであって、音声出力内容を入力する音声出力内容入力ステップと、音声出力言語を指定する音声出力言語指定ステップと、前記音声出力内容および音声出力言語指定に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、周囲環境の音声を入力する環境音声入力ステップと、前記音声出力言語指定に基づいて前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、変更された音声を出力する音声出力ステップと、を実行させるための音声出力プログラムである。
【0022】
本発明の音声出力プログラムにおいて、更に、音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更するものでよい
【発明の効果】
【0023】
本発明によれば、多言語音声案内を、聞き手集団の言語構成比に基づいて制御することが可能となり、聞き手集団の使用言語を理解していないことに起因する、情報提供の無駄を軽減することができる。
【図面の簡単な説明】
【0024】
【図1】実施例1の放送出力システムの全体構成を説明する図である。
【図2】実施例1の放送出力システムのハードウェア構成図である。
【図3】実施例1における環境音声蓄積処理の動作を示すフローチャートである。
【図4】実施例1における放送出力処理の動作を示すフローチャートである。
【図5】構成変更方法記憶テーブルの一例を示す図である。
【図6】実施例2の放送出力システムの全体構成を説明する図である。
【図7】実施例2の放送出力システムのハードウェア構成図である。
【図8】実施例2における放送出力処理の動作を示すフローチャートである。
【発明を実施するための形態】
【0025】
以下、本発明の実施の形態を、図面を用いて説明する。
【実施例1】
【0026】
本実施例は、音声出力装置を、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、放送言語構成の変更を行う、放送出力システムに適用した例である。
【0027】
図1は、本実施例の放送出力システムの全体構成を説明する図である。
放送出力システム1は、放送生成装置2と放送出力装置3によって構成される。放送生成装置2は、放送内容入力部4、放送言語指定部5、放送音声生成部6、放送構成生成部7、送信部15を備える。放送出力装置3は、環境音声入力部8、環境音声蓄積部9、言語認識部10、言語構成比算出部11、構成変更方法記憶部12、放送構成変更部13、放送音声出力部14、受信部16を備える。
【0028】
放送内容入力部4は、放送内容を示す情報の入力を受け付ける。放送言語指定部5は、放送内容に応じて放送言語を決定する。放送音声生成部6は、放送内容・放送言語の指定に基づいて放送音声を生成する。放送構成生成部7は、放送音声に含まれる言語の構成を抽出する。送信部15は、放送言語の指定、放送音声、放送音声に含まれる言語の構成を放送出力装置3に送信する。
【0029】
環境音声入力部8は、環境音声の入力を受け付け、環境音声蓄積部9で所定時間の環境音声を蓄積する。
【0030】
受信部16は放送生成装置2から送信された放送言語の指定、放送音声、放送音声に含まれる言語の構成を受信する。言語認識部10は、放送言語の指定に基づいて環境音声蓄積部9に蓄積された環境音声の言語認識を行う。言語構成比算出部11は、蓄積された環境音声に対する言語認識結果の時系列に基づいて言語構成比を算出する。放送構成変更部13は、環境音声の言語構成比と放送構成を入力として構成変更方法記憶部12に記憶された構成変更方法を取得し、この構成変更方法に基づいて放送音声を変更する。放送音声出力部14は、変更された放送音声を出力する。
【0031】
図2は、本実施例の放送出力システムのハードウェア構成図の例である。放送生成装置2と放送出力装置3は、ネットワーク装置99を通じて接続される。放送生成装置2は、キーボード101、マウス102、ディスプレイ103、通信装置104を備える。放送内容入力処理105、放送言語指定処理106、放送音声生成処理107、放送構成生成処理108、音源データ109、送信処理110をメモリ111内に備え、CPU112がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【0032】
放送出力装置3は、マイク121、スピーカ122、通信装置123を備える。環境音声入力処理124、環境音声蓄積処理125、言語認識処理126、環境音声蓄積データ127、言語構成比算出処理128、構成変更方法記憶テーブル129、放送構成変更処理130、放送音声出力処理131、受信処理132をメモリ内133に備え、CPU134がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【0033】
放送出力システム1は、CPU112がメモリ111上にロードし、また、CPU134がメモリ133上にロードした所定のプラグラムを実行することにより実現できる。この所定のプログラムは、図示していないが、読み取り装置を介して当該プログラムが記憶された記憶媒体から、または、通信装置を介してネットワークから入力して、直接メモリ上にロードするか、もしくは、一旦、外部記憶装置に格納してから、メモリ上にロードすれば良い。
【0034】
本発明におけるプログラムの発明は、このようにコンピュータに組み込まれ、コンピュータを音声出力装置として動作させるプログラムである。本発明のプログラムをコンピュータに組み込むことにより、図2のブロック図に示される音声出力装置が構成される。
【0035】
次に、上記のように構成される、本実施例に係る放送出力システム1の動作を説明する。本システムの動作は、環境音声の蓄積処理と放送音声の出力処理に分けられる。
【0036】
図3を用いて環境音声の蓄積処理に関する動作を説明する。
図3は、実施例1における環境音声蓄積処理の動作を示すフローチャートである。
【0037】
まず、環境音声入力部8は、環境音声入力処理124の実行により、マイク121から環境音声を取得する(ステップS1)。ここで、マイク121に入力される音声には、聞き手集団の音声が含まれるようにする。そのためのマイク121の配置場所として、スピーカ122の近くに配置するだけでなく、同様の聞き手集団が存在する別の場所に設置することも考えられる。例えば、空港のアナウンスにおいて搭乗口での放送することを考えた際、搭乗口付近では様々な騒音が入り混じって聞き手集団の使用言語の判別が困難になることが予想されるので、搭乗口前のラウンジに設置するようにすれば、比較的静穏な環境で音声を取得することが可能となる。
【0038】
次に、環境音声蓄積部9は、環境音声蓄積処理125の実行により、取得された環境音声を、所定の時間分だけ環境音声蓄積データ127に蓄積する(ステップS2)。ここで、音声が蓄積される時間は、あらかじめ放送出力装置3に設定された所定の時間とする。例えば30秒、1時間、1日などの時間である。例えば30秒とすれば、比較的最近放送出力装置3の近くに存在した聞き手に応じた処理がなされ、短時間で聞き手が入れ替わる会議室への構内放送システムに応用できる。また、1時間であれば、より長い時間で複数人の聞き手集団に応じた処理がなされる。日ごとに客層の代わるイベント会場のアナウンスなどへ応用できる。あるいは、1日などの長時間を設定すると、鉄道駅などある程度、聞き手が固定化するシステムに対して自動的な言語構成の最適化を図ることができる。
【0039】
蓄積時間を変更するためには、環境音声の蓄積時間を指定する蓄積時間指定部を有し、環境音声蓄積部は、蓄積時間指定部の指定に基づいて環境音声を蓄積する所定の時間を変更するように構成すればよい。
【0040】
図4を用いて放送音声の出力処理に関する動作を説明する。
図4は、実施例1における放送音声の出力処理の動作を示すフローチャートである。
【0041】
まず、放送内容入力部4は、放送内容入力処理105の実行により、放送内容を決定する(ステップS101)。例えば、鉄道駅の構内放送システムでは、通信装置104から受信した運行管理情報に含まれる、列車番号・到着時刻などを用いて放送内容を決定する。また、イベント情報を案内するような構内放送システムであれば、ディスプレイ103に案内の候補を表示して、キーボード101やマウス102で選択することで放送内容を決定する。
【0042】
次に、放送言語指定部5は、放送言語指定処理106の実行により、放送言語の指定を行う(ステップS102)。ステップS101と同等の手段により、放送言語の指定を通信装置104から受け取るか、ディスプレイ103に言語の候補を表示して、キーボード101やマウス102で選択することで指定する。
【0043】
次に、放送音声生成部6は、放送音声生成処理107の実行により、入力された放送内容と放送言語の指定に基づいて、音源データ109を使って放送音声を生成する(ステップS103)。ここでは、一般の録音編集方式によって放送音声を生成することができる。例えば、鉄道駅の構内放送の放送内容として、「放送種別:到着、列車番号:ひかり23号、発車時刻:10:30、行先:東京、到着番線:1」が与えられ、放送言語として「英語・日本語」が指定されると、「Shortly,the special rapid service train,“Hikari” 23,departing at 10:30, bound for Tokyo,will be arriving at Track 1. For your safety,please step back from the edge of the platform. まもなく1番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。」と話す放送音声が生成される。
【0044】
次に、放送構成生成部7は、放送構成生成処理108の実行により、放送音声に含まれている各言語の継続時間長を計測し、言語の順序とともに出力する(ステップS104)。例えば、上記の例では、英語・日本語の順で生成されており、構成情報は例えば、「英語:20秒→日本語:18秒」のように出力される。
【0045】
次に、送信部15は、送信処理110を実行し、放送言語の指定と、放送音声と、放送構成とを、通信装置104を用いて、ネットワーク装置99を介し、放送出力装置3へ送信する(ステップS105)。
【0046】
次に、受信部16は、受信処理132を実行し、放送言語の指定と、放送音声と、放送構成とを、通信装置123を用いて、ネットワーク装置99を介して、放送生成装置2から受信する(ステップS106)。
【0047】
次に、言語認識部10は、言語認識処理126の実行により、環境音声蓄積データ127から環境音声を取得して、放送言語の指定に基づいて言語認識を行う(ステップS107)。このステップにおける言語認識には、公知の言語認識技術を用いることができるが、言語認識結果は、単位時間フレームごとに判定された時系列であることが望ましい。例えば、単位時間フレームごとに言語認識結果を出力する方法としては、Torres−Carrasquilloらの混合ガウス分布モデルによる方法を用いることができる。(非特許文献1)
具体的には、単位時間フレームごとにケプストラム特徴量を計算し、フレーム間差分情報を追加してフレームの特徴量とする。次に、放送言語の指定に基づき、予め言語ごとに学習しておいた混合ガウスモデルに対する尤度を求め、最大の尤度をもつ言語を判定結果とする。
【0048】
次に、言語構成比算出部11は、言語認識結果の時系列に基づいて、言語の構成比を計算する(ステップS108)。ここで、上記の混合ガウス分布モデルを用いる場合であれば、短時間フレームごとに言語判定結果が得られるため、この結果を集計することにより、蓄積された環境音声における言語判定の頻度として、言語の構成比が得られる。例えば、「英語:0%,日本語:100%」といった形式で出力される。また、混合ガウスモデルを用いる他にも、言語認識の方法として、音素認識と言語モデルを用いる方法や、大語彙連続音声認識を用いる方法などがある。このような言語認識の方法では、音素・単語・フレーズの単位の認識結果として言語判定結果が与えられる。その際は、単位時間ごとの判定結果を集計できるようにするため、言語判定結果に、対象とした音素・単語・フレーズの時間長を合わせて記録しておき、集計では、時間での頻度を求めるようにすればよい。
【0049】
次に、放送構成変更部13は、放送構成変更処理130の実行により、言語構成比算出処理128によって得られた言語構成比、受信部16が受信した放送構成に基づいて、構成変更方法記憶テーブル129から対応する構成変更方法を取得し、その構成変更方法に基づいて放送音声の構成を変更する(ステップS109)。
【0050】
図5は、構成変更方法記憶テーブル129の一例を示す説明図である。この例では、第1行目に、放送構成201が「英語:70%,日本語:30%」で、環境言語構成比202が「英語:0%,日本語:0%」であれば、変更方法203として、英語と日本語の双方の話速を低下させるように指定されている。また、2行目には、放送構成201が「英語:70%,日本語:30%」で、環境言語構成比202が「英語:0%,日本語:100%」であれば、変更方法203として、日本語が先に放送されるように変更し、英語は要約によって短くする、と指定されている。ここで、第2行目にマッチした場合には、上記で例として挙げた放送内容「Shortly, the special rapid service train, “Hikari” 23, departing at 10:30, bound for Tokyo, will be arriving at Track 1. For your safety, please step back from the edge of the platform. まもなく1番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。」は、例えば、「まもなく1番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。Shortly, the train will be arriving at Track 1.」のように変更される。
ここで、変更方法として、話速の変更を行う場合には公知の話速変換方法も用いることができる。また、要約するための方法としては、あらかじめ放送構成情報として削除可能な放送の区間を指定させておく方法をとればよい。
【0051】
最後に、放送音声出力部14は、放送音声出力処理131の実行により、放送構成変更処理130により変更された放送音声をスピーカ122から出力する。
【0052】
以上のようにして、本実施例の放送出力システムは、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、放送構成の変更を行うことが可能となる。
【0053】
なお、本実施例では、環境音声入力部8で取得した環境音声を、所定の時間、環境音声蓄積部9に蓄積し、蓄積した環境音声を言語認識するようにしたが、環境音声入力部8で取得した環境音声を、所定の時間、言語認識するようにしてもよい。
【0054】
また、放送言語指定部5で指定された言語に基づいて、言語認識部10で言語認識を行うようにしたが、言語を指定することなく言語認識を行うようにしてもよい。
【0055】
また、本実施例では、放送生成装置2と放送出力装置3とを別の装置とし、ネットワーク装置で接続するようにしたが、放送生成装置2と放送出力装置3とを一つの装置としてもよい。
【実施例2】
【0056】
上記の実施例1では、放送音声の言語構成に基づいて言語認識を行う例を示した。しかし、言語分布は位置情報からも推測可能である。そこで、位置情報に基づいて言語認識を行うことで、精度の高い言語構成比を得ることができる。また、実施例1では、録音編集方式によって放送音声を生成する例を示した。しかし、テキスト音声合成方式によって放送音声を生成することにより、より柔軟な放送内容の編集が可能となる。また、実施例1では、放送生成装置への入力によって放送内容が決定されるシステムであったが、放送内容(テキスト)の生成を放送出力装置側で行う構成も可能である。本実施例では、このような、位置情報およびテキスト音声合成方式を利用した放送出力システムに適用した例を説明する。
【0057】
図6は、本実施例の放送出力システムの全体構成を説明する図である。
放送出力システム301は、放送生成装置302と放送出力装置303によって構成される。放送生成装置302は、放送内容受信部304、言語構成比受信部305、構成変更方法記憶部306、テキスト生成部307、放送構成抽出部308、放送構成編集部309、音声合成部310、通信サーバ311を備える。放送出力装置303は、環境音声入力部320、環境音声蓄積部321、位置情報取得部322、言語候補設定部323、言語認識部324、言語構成比算出部325、放送情報記憶部326、放送内容生成部327、通信クライアント部328、放送音声出力部329を備える。
【0058】
環境音声入力部320は、環境音声の入力を受け付け、環境音声蓄積部321で所定時間の環境音声を蓄積する。
位置情報取得部322は、放送出力装置303の位置情報を取得し、言語候補設定部323に、位置情報に対応する言語候補を設定する。
言語認識部324は、言語候補設定部323における言語候補の指定に基づいて言語認識を行う。言語構成比算出部325は、蓄積された環境音声に対する言語認識結果の時系列に基づいて言語構成比を生成する。
放送情報記憶部326は、放送時刻と放送内容を管理するための記憶領域である。放送内容生成部327は、時刻を管理し、放送時刻に従った放送内容を放送情報記憶部から取得する。
通信クライアント部328は、放送内容および言語構成比を放送生成装置302に送信し、また、放送生成装置302から放送音声を受信する。
放送音声出力部329は、受信した放送音声を出力する。
【0059】
通信サーバ311は、放送出力装置303から放送内容および言語構成比を受信し、応答として生成された放送音声を、放送出力装置303に送信する。
放送内容受信部304は、通信サーバ311が受信したメッセージから放送内容を取得する。言語分布受信部305は、通信サーバ311が受信したメッセージから言語構成比を取得する。
テキスト生成部307は、受信した放送内容に従い、多言語音声案内のためのテキストを生成する。
放送構成抽出部308は、生成されたテキストを音声合成した際の放送音声に含まれる言語の構成を抽出する。
放送構成編集部309は、受信した言語構成比と抽出された放送構成を入力として、構成変更方法記憶部306に記憶された構成変更方法を取得し、この構成変更方法に基づいてテキストを編集する。
音声合成部310は、編集されたテキストに基づいて音声合成を行い、通信サーバ311が応答として送信するための放送音声を生成する。
【0060】
図7は、本実施例の放送出力システムのハードウェア構成図の例である。放送生成装置302と放送出力装置303はネットワーク装置499を通じて接続される。放送生成装置302は、通信装置413を備える。テキスト生成処理404、放送構成抽出処理405、放送構成編集処理406、音声合成処理407、合成用データ408、構成変更方法記憶テーブル409、通信処理410をメモリ411に備え、CPU412がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【0061】
放送出力装置303は、マイク421、スピーカ422、キーボード423、マウス424、ディスプレイ425、GPS受信機426、通信装置440を備える。環境音声入力処理427、環境音声蓄積処理428、位置情報取得処理429、言語候補設定処理430、言語認識処理431、言語構成比算出処理432、環境音声蓄積データ433、放送内容生成処理434、通信処理435、放送情報記憶テーブル436、放送音声出力処理437をメモリ438内に備え、CPU439がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【0062】
次に、上記のように構成される、本実施例に係る放送出力システム301の動作を説明する。
本システムの動作は、環境音声の蓄積処理と放送音声の出力処理に分けられる。環境音声の蓄積処理については、実施例1と同様である。
【0063】
図8は、本実施例における、放送出力処理の動作を示すフローチャートである。
まず、位置情報取得部322は、位置情報取得処理429の実行により、GPS受信機426から得られる測位情報を放送出力装置303の位置情報として取得する(ステップS201)。
次に、言語候補設定部323は、言語候補設定処理430の実行により、位置情報に応じて予め定められた言語候補を設定する(ステップS202)。ここで用いられる言語候補は、例えば鉄道放送では、国や地域によって必要となる放送言語の種類が設計時に定められるため、その情報を言語候補設定処理430に位置情報と言語候補の対応関係を記述しておけばよい。
次に、放送内容生成部327は、放送内容生成処理434の実行により、放送情報記憶テーブル436を参照して、放送内容を示すテキストを生成する(ステップS203)。ここでは、放送内容として「放送種別:到着、列車番号:ひかり23号、発車時刻:10:30、行先:東京、到着番線:1」といった文字列を例とする。あるいは、イベント情報を案内するような構内放送システムであれば、ディスプレイ425に案内の候補を表示して、キーボード101やマウス102で選択したり、キーボード101で直接放送内容のテキストを入力したりすることによって放送内容を決定してもよい。
次に、言語認識部324は、言語認識処理431の実行により、環境音声蓄積データ433から環境音声を取得して、言語候補に基づいて言語認識を行う(ステップS204)。このステップにおける言語認識の方法は実施例1と同様である。
次に、言語構成比算出部325は、言語認識結果の時系列に基づいて、言語の構成比を計算する(ステップS205)。このステップの具体的な方法は実施例1と同様である。
次に、通信クライアント部328は、通信処理435を実行し、放送内容のテキストと計算された言語の構成比を通信装置440から、ネットワーク装置499を介して放送生成装置302に送信し、応答を待ち受ける(ステップS206)。
【0064】
次に放送内容受信部は、通信サーバ311による通信処理410の実行により、通信装置413から、放送内容を受信する(ステップS207)。
次に、テキスト生成部307は、テキスト生成処理404の実行により、受信した放送内容のテキストに基づいて、テキスト音声合成を行うためのテキストを生成する(ステップS208)。ここで、受信したテキストが、「放送種別:到着、列車番号:ひかり23号、発車時刻:10:30、行先:東京、到着番線:1」であるとき、「Shortly,the special rapid service train,“Hikari”23,departing at 10:30, bound for Tokyo, will be arriving at Track 1.For your safety,please step back from the edge of the platform.まもなく1番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。」のようなテキストが生成される。このような処理は、一般の録音編集方式で行われている処理を、音声でなくテキストの組合せで行うことにより実現される。
次に、放送構成抽出部308は、放送構成抽出処理405の実行により、生成されたテキストをテキスト音声合成により合成した際、放送音声に含まれる各言語の継続時間長を計測し、言語の順序とともに出力する(ステップS209)。
次に、言語構成比受信部305は、通信サーバ部311による通信処理410の実行により、通信装置413から、言語構成比を受信する(ステップS210)。
【0065】
次に、放送構成編集部309は、放送構成編集処理406の実行により、受信した言語分布が示す言語構成比、放送構成抽出部308で抽出された放送構成に基づいて、構成変更方法記憶テーブル409から対応する構成変更方法を取得し、その構成変更方法に基づいて放送音声の言語構成を変更する(ステップS211)。ここで、構成変更方法記憶テーブル409は、実施例1と同様に図5のようなものを用いることができる。
ただし、ここで、変更方法については、実施例1とは異なり、テキストの編集によって行われる。すなわち、話速の変更を行う場合には、テキスト音声合成のパラメータとして速度を与える方法を用いて、話速を変更する。また、要約するためには、あらかじめ放送構成情報として削除可能なテキストの範囲を指定するものであればよい。あるいは、簡略化するために、テキスト要約処理を用いるものであってもよい。この場合、録音編集方式では削除しかできなかったが、語彙の変更等により、より発話時間の短い表現を得ることも可能となる。
【0066】
次に、音声合成部310は、音声合成処理407の実行により、合成用データ408を用いて、編集されたテキストから放送音声を合成する(ステップS212)。ここでの音声合成技術は、公知の音声合成技術を用いることができるが、言語ごとの話速の変更を実現するためには、パラメータとして部分的な速度の変更が可能なものを用いることが望ましい。
次に、通信サーバ311は、通信処理410の実行により、合成された放送音声を通信装置413から、ネットワーク装置499を介して、放送出力装置303へ送信する(ステップS213)。
【0067】
次に、通信クライアント部328は、通信処理435の実行により、放送音声を受信する(ステップS214)。
最後に、放送音声出力部329は、放送音声出力処理437の実行により、放送音声をスピーカ422から出力する(ステップS215)。
【0068】
以上のようにして、本実施例の放送出力システムは、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、放送言語構成の変更を行うことに加えて、位置情報を用いて言語構成比の抽出を容易にし、また、テキスト音声合成方式を利用し、より柔軟な放送言語構成の変更を可能とし、さらに、放送出力装置側で放送内容を入力することを可能としている。
【0069】
以上説明した各実施形態によれば、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、音声出力の構成の変更を行うことにより、聞き手集団の使用言語を理解していないことに起因する、情報提供の無駄を軽減することができる。
【0070】
なお、上述した各実施形態では、CPU上で実行されるプログラムにより放送出力システムの各種機能を実現しているが、それらの一部又は全部が、例えば集積回路等の電子部品を用いたハードウェアにより実現されてもよい。
【0071】
本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施例では、鉄道や公共施設等の放送システムを想定して説明したが、例えば、携帯電話等の音声通信システムや遠隔会議システムなど、音声出力を行う様々な装置・システムに適用することができる。
【符号の説明】
【0072】
1 放送出力システム
2 放送生成装置
3 放送出力装置
4 放送内容入力部
5 放送言語指定部
6 放送音声生成部
7 放送構成生成部
8 環境音声入力部
9 環境音声蓄積部
10 言語認識部
11 言語構成比算出部
12 構成変更方法記憶部
13 放送構成変更部
14 放送音声出力部
15 送信部
16 受信部
301 放送出力システム
302 放送生成装置
303 放送出力装置
304 放送内容受信部
305 言語構成比受信部
306 構成変更方法記憶部
307 テキスト生成部
308 放送構成抽出部
309 放送構成編集部
310 音声合成部
311 通信サーバ
320 環境音声入力部
321 環境音声蓄積部
322 位置情報取得部
323 言語候補設定部
324 言語認識部
325 言語構成比算出部
326 放送情報記憶部
327 放送内容生成部
328 通信クライアント部
329 音声出力部

【特許請求の範囲】
【請求項1】
音声出力内容を入力する音声出力内容入力部と、
前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成部と、
周囲環境の音声を入力する環境音声入力部と、
前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出部と、
前記言語構成比算出部で算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更部と、
変更された音声を出力する音声出力部と、
を有する音声出力装置。
【請求項2】
請求項1記載の音声出力装置において、更に、
音声出力言語を指定する音声出力言語指定部を有し、
前記出力音声生成部は、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、
前記言語構成比算出部は、前記音声出力言語指定に基づいて音声の言語を認識することを特徴とする音声出力装置。
【請求項3】
請求項2記載の音声出力装置において、更に、
音声出力装置の位置情報を取得する位置情報取得部と、
位置情報と関連付けて音声出力言語を記憶する音声出力言語記憶部とを有し、
前記音声出力言語指定部は、位置情報に応じて前記音声出力放送言語記憶部から取得した音声出力言語を指定することを特徴とする音声出力装置。
【請求項4】
請求項1記載の音声出力装置において、更に、
前記環境音声入力部で入力した所定時間の音声を蓄積する環境音声蓄積部を有し、
前記言語構成比算出部は、前記蓄積した音声の言語を認識し、言語の構成比を算出することを特徴とする音声出力装置。
【請求項5】
請求項4に記載の音声出力装置において、更に、
環境音声の蓄積時間を指定する蓄積時間指定部を有し、
前記環境音声蓄積部は、蓄積時間指定部の指定に基づいて環境音声を蓄積する所定の時間を変更することを特徴とする音声出力装置。
【請求項6】
請求項1記載の音声出力装置において、更に、
言語構成比に関連付けて出力する音声の構成を変更する方法を記憶する構成変更方法記憶部を有し、
前記音声出力構成変更部は、前記言語構成比算出部で算出した言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更することを特徴とする音声出力装置。
【請求項7】
請求項6記載の音声出力装置において、更に、
音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成部を有し、
前記構成変更方法記憶部は、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶するものであり、
前記音声出力構成変更部は、前記音声出力構成と前記言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更することを特徴とする音声出力装置。
【請求項8】
請求項1〜7の何れか一つに記載の音声出力装置において、
前記音声出力内容入力部は、音声出力文章のテキストを入力し、
前記出力音声生成部は、テキストを音声に変換する音声合成処理によって出力音声を生成し、
前記音声出力構成変更部は、テキストの並び替え、テキストの一部に話速指定、一部テキストの削除のいずれかを行った編集テキストに基づいて音声合成処理を行うことを特徴とする音声出力装置。
【請求項9】
音声出力内容を入力する音声出力内容入力ステップと、
前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、
周囲環境の音声を入力する環境音声入力ステップと、
前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、
前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、
変更された音声を出力する音声出力ステップと、
を有する音声出力方法。
【請求項10】
請求項9記載の音声出力方法において、更に、
音声出力言語を指定する音声出力言語指定ステップを有し、
前記出力音声生成ステップは、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、
前記言語構成比算出ステップは、前記音声出力言語指定に基づいて音声の言語を認識することを特徴とする音声出力方法。
【請求項11】
請求項10記載の音声出力方法において、更に、
音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、
前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更することを特徴とする音声出力方法。
【請求項12】
請求項9〜11の何れか一つに記載の音声出力方法において、
音声出力構成変更ステップは、音声出力する言語順序を変更する処理、言語ごとに話速を変換する処理、言語ごとに音声内容の一部を削除して短くする要約処理の少なくとも一つ以上を含むことを特徴とする音声出力方法。
【請求項13】
コンピュータに音声を出力させるための音声出力プログラムであって、
音声出力内容を入力する音声出力内容入力ステップと、
音声出力言語を指定する音声出力言語指定ステップと、
前記音声出力内容および音声出力言語指定に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、
周囲環境の音声を入力する環境音声入力ステップと、
前記音声出力言語指定に基づいて前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、
前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、
変更された音声を出力する音声出力ステップと、
を実行させるための音声出力プログラム。
【請求項14】
請求項13記載のコンピュータに音声を出力させるための音声出力プログラムにおいて、更に、
音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、
前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更するものである音声出力プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate