音声出力装置、音声出力方法および音声出力プログラム

【課題】
多言語の音声を出力する音声出力装置において、聞き手集団の使用言語を理解していないことに起因する、情報提供の無駄を軽減する。
【解決手段】
音声出力内容を入力する音声出力内容入力部と、前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成部と、周囲環境の音声を入力する環境音声入力部と、前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出部と、前記言語構成比算出部で算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更部と、変更された音声を出力する音声出力部と、を有する。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、自動放送システムなどの音声出力装置に関し、特に多言語の音声を出力する音声出力装置に関する。
【背景技術】
【０００２】
本技術の背景技術として、公共施設における自動放送システムがある。
自動放送システムは、放送指令を受け取ると、あらかじめ録音しておいた案内音声を組合せて、放送を出力することを可能としている。放送指令には、放送内容や放送時刻、あるいは放送場所の指定が含まれており、状況に合わせた多彩な放送を実現している。一部のシステムでは、テキストを音声に変換する音声合成装置が用いられており、定型文だけでなく、様々な内容の音声を、放送指令としてテキストを与えるだけで生成することを可能としている。
【０００３】
近年、公共施設における国際化対応の重要性は拡大している。国際的なイベント会場、空港、鉄道駅、博物館等の放送においては、多言語による音声案内が求められるようになっている。自動放送システムは、多言語の案内音声をあらかじめ録音しておくか、多言語の音声合成装置を用いて、多言語音声案内を実現している。
【０００４】
しかしながら、このような自動放送システムにおける一つの課題として、音声案内にかかる時間が長くなる、という課題がある。従来単一の言語で放送を実現していたシステムに、他の言語を加えると、放送が長くなることは避けられない。また、多言語による放送は、聞き手の使用言語が何であるかに関係なく、全ての言語の放送を連続して放送するために、放送部分の多くは無駄な情報提供となってしまう。
【０００５】
このような、聞き手の言語を理解していないことに起因する、情報提供の無駄を軽減するために、携帯端末装置とイヤホンを提供し、特定の言語のみの音声案内を提供するシステムが、博物館等において提供されている。ただし、このようなシステムでは、顧客にそれぞれ携帯端末とイヤホンを付けてもらう必要があり、面倒が多い。また、集団へ周知する機能を欠いているという弱点もある。
【０００６】
また、聞き手の使用言語を理解する方法として、言語認識を用いる方法がある。例えば、特許文献１には、車載用ナビゲーション装置において使用言語を決定するために、「入力音声に含まれる単語ごとに、対応する言語を調査し、この調査結果において多数を占める言語を前記使用言語として判定する」とある。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開２００１−２９６８８２号公報
【非特許文献】
【０００８】
【非特許文献１】P．A．Torres−Carrasquillo et al．，“Approaches to language identification using Gaussian mixture models and shifted delta cepstral features．”Proc． ICSLP 2002，Sept． 2002，pp．89−92．
【発明の概要】
【発明が解決しようとする課題】
【０００９】
しかし、特許文献１に開示される技術では、観測された言語について、ただ一つの使用言語を決定することはできるものの、聞き手集団の複数言語を理解することはできず、多言語音声案内を制御することはできない。
【００１０】
本発明は、聞き手集団の複数の使用言語に応じた、多言語の音声を出力し、情報提供の無駄を軽減した音声出力装置を提供することを目的とする。
【課題を解決するための手段】
【００１１】
上記課題を解決するために、例えば特許請求の範囲に記載の構成を採用する。
【００１２】
本発明の音声出力装置の一例を挙げるならば、音声出力内容を入力する音声出力内容入力部と、前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成部と、周囲環境の音声を入力する環境音声入力部と、前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出部と、前記言語構成比算出部で算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更部と、変更された音声を出力する音声出力部と、を有する音声出力装置である。
【００１３】
本発明の音声出力装置において、更に、音声出力言語を指定する音声出力言語指定部を有し、前記出力音声生成部は、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、前記言語構成比算出部は、前記音声出力言語指定に基づいて音声の言語を認識するものでよい。
【００１４】
また、本発明の音声出力装置において、更に、音声出力装置の位置情報を取得する位置情報取得部と、位置情報と関連付けて音声出力言語を記憶する音声出力言語記憶部とを有し、前記音声出力言語指定部は、位置情報に応じて前記音声出力放送言語記憶部から取得した音声出力言語を指定するものでよい。
【００１５】
また、本発明の音声出力装置において、更に、言語構成比に関連付けて出力する音声の構成を変更する方法を記憶する構成変更方法記憶部を有し、前記音声出力構成変更部は、前記言語構成比算出部で算出した言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更するものでよい。
【００１６】
また、本発明の音声出力装置において、更に、音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成部を有し、前記構成変更方法記憶部は、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶するものであり、前記音声出力構成変更部は、前記音声出力構成と前記言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更するものでよい。
【００１７】
また、本発明の音声出力装置において、前記音声出力内容入力部は、音声出力文章のテキストを入力し、前記出力音声生成部は、テキストを音声に変換する音声合成処理によって出力音声を生成し、前記音声出力構成変更部は、テキストの並び替え、テキストの一部に話速指定、一部テキストの削除のいずれかを行った編集テキストに基づいて音声合成処理を行うものでよい。
【００１８】
本発明の音声出力方法の一例を挙げるならば、音声出力内容を入力する音声出力内容入力ステップと、前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、周囲環境の音声を入力する環境音声入力ステップと、前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、変更された音声を出力する音声出力ステップと、を有する音声出力方法である。
【００１９】
本発明の音声出力方法において、更に、音声出力言語を指定する音声出力言語指定ステップを有し、前記出力音声生成ステップは、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、前記言語構成比算出ステップは、前記音声出力言語指定に基づいて音声の言語を認識するものでよい。
【００２０】
また、本発明の音声出力方法において、更に、音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更するものでよい。
【００２１】
本発明の音声出力プログラムの一例を挙げるならば、コンピュータに音声を出力させるための音声出力プログラムであって、音声出力内容を入力する音声出力内容入力ステップと、音声出力言語を指定する音声出力言語指定ステップと、前記音声出力内容および音声出力言語指定に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、周囲環境の音声を入力する環境音声入力ステップと、前記音声出力言語指定に基づいて前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、変更された音声を出力する音声出力ステップと、を実行させるための音声出力プログラムである。
【００２２】
本発明の音声出力プログラムにおいて、更に、音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更するものでよい
【発明の効果】
【００２３】
本発明によれば、多言語音声案内を、聞き手集団の言語構成比に基づいて制御することが可能となり、聞き手集団の使用言語を理解していないことに起因する、情報提供の無駄を軽減することができる。
【図面の簡単な説明】
【００２４】
【図１】実施例１の放送出力システムの全体構成を説明する図である。
【図２】実施例１の放送出力システムのハードウェア構成図である。
【図３】実施例１における環境音声蓄積処理の動作を示すフローチャートである。
【図４】実施例１における放送出力処理の動作を示すフローチャートである。
【図５】構成変更方法記憶テーブルの一例を示す図である。
【図６】実施例２の放送出力システムの全体構成を説明する図である。
【図７】実施例２の放送出力システムのハードウェア構成図である。
【図８】実施例２における放送出力処理の動作を示すフローチャートである。
【発明を実施するための形態】
【００２５】
以下、本発明の実施の形態を、図面を用いて説明する。
【実施例１】
【００２６】
本実施例は、音声出力装置を、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、放送言語構成の変更を行う、放送出力システムに適用した例である。
【００２７】
図１は、本実施例の放送出力システムの全体構成を説明する図である。
放送出力システム１は、放送生成装置２と放送出力装置３によって構成される。放送生成装置２は、放送内容入力部４、放送言語指定部５、放送音声生成部６、放送構成生成部７、送信部１５を備える。放送出力装置３は、環境音声入力部８、環境音声蓄積部９、言語認識部１０、言語構成比算出部１１、構成変更方法記憶部１２、放送構成変更部１３、放送音声出力部１４、受信部１６を備える。
【００２８】
放送内容入力部４は、放送内容を示す情報の入力を受け付ける。放送言語指定部５は、放送内容に応じて放送言語を決定する。放送音声生成部６は、放送内容・放送言語の指定に基づいて放送音声を生成する。放送構成生成部７は、放送音声に含まれる言語の構成を抽出する。送信部１５は、放送言語の指定、放送音声、放送音声に含まれる言語の構成を放送出力装置３に送信する。
【００２９】
環境音声入力部８は、環境音声の入力を受け付け、環境音声蓄積部９で所定時間の環境音声を蓄積する。
【００３０】
受信部１６は放送生成装置２から送信された放送言語の指定、放送音声、放送音声に含まれる言語の構成を受信する。言語認識部１０は、放送言語の指定に基づいて環境音声蓄積部９に蓄積された環境音声の言語認識を行う。言語構成比算出部１１は、蓄積された環境音声に対する言語認識結果の時系列に基づいて言語構成比を算出する。放送構成変更部１３は、環境音声の言語構成比と放送構成を入力として構成変更方法記憶部１２に記憶された構成変更方法を取得し、この構成変更方法に基づいて放送音声を変更する。放送音声出力部１４は、変更された放送音声を出力する。
【００３１】
図２は、本実施例の放送出力システムのハードウェア構成図の例である。放送生成装置２と放送出力装置３は、ネットワーク装置９９を通じて接続される。放送生成装置２は、キーボード１０１、マウス１０２、ディスプレイ１０３、通信装置１０４を備える。放送内容入力処理１０５、放送言語指定処理１０６、放送音声生成処理１０７、放送構成生成処理１０８、音源データ１０９、送信処理１１０をメモリ１１１内に備え、ＣＰＵ１１２がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【００３２】
放送出力装置３は、マイク１２１、スピーカ１２２、通信装置１２３を備える。環境音声入力処理１２４、環境音声蓄積処理１２５、言語認識処理１２６、環境音声蓄積データ１２７、言語構成比算出処理１２８、構成変更方法記憶テーブル１２９、放送構成変更処理１３０、放送音声出力処理１３１、受信処理１３２をメモリ内１３３に備え、ＣＰＵ１３４がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【００３３】
放送出力システム１は、ＣＰＵ１１２がメモリ１１１上にロードし、また、ＣＰＵ１３４がメモリ１３３上にロードした所定のプラグラムを実行することにより実現できる。この所定のプログラムは、図示していないが、読み取り装置を介して当該プログラムが記憶された記憶媒体から、または、通信装置を介してネットワークから入力して、直接メモリ上にロードするか、もしくは、一旦、外部記憶装置に格納してから、メモリ上にロードすれば良い。
【００３４】
本発明におけるプログラムの発明は、このようにコンピュータに組み込まれ、コンピュータを音声出力装置として動作させるプログラムである。本発明のプログラムをコンピュータに組み込むことにより、図２のブロック図に示される音声出力装置が構成される。
【００３５】
次に、上記のように構成される、本実施例に係る放送出力システム１の動作を説明する。本システムの動作は、環境音声の蓄積処理と放送音声の出力処理に分けられる。
【００３６】
図３を用いて環境音声の蓄積処理に関する動作を説明する。
図３は、実施例１における環境音声蓄積処理の動作を示すフローチャートである。
【００３７】
まず、環境音声入力部８は、環境音声入力処理１２４の実行により、マイク１２１から環境音声を取得する（ステップＳ１）。ここで、マイク１２１に入力される音声には、聞き手集団の音声が含まれるようにする。そのためのマイク１２１の配置場所として、スピーカ１２２の近くに配置するだけでなく、同様の聞き手集団が存在する別の場所に設置することも考えられる。例えば、空港のアナウンスにおいて搭乗口での放送することを考えた際、搭乗口付近では様々な騒音が入り混じって聞き手集団の使用言語の判別が困難になることが予想されるので、搭乗口前のラウンジに設置するようにすれば、比較的静穏な環境で音声を取得することが可能となる。
【００３８】
次に、環境音声蓄積部９は、環境音声蓄積処理１２５の実行により、取得された環境音声を、所定の時間分だけ環境音声蓄積データ１２７に蓄積する（ステップＳ２）。ここで、音声が蓄積される時間は、あらかじめ放送出力装置３に設定された所定の時間とする。例えば３０秒、１時間、１日などの時間である。例えば３０秒とすれば、比較的最近放送出力装置３の近くに存在した聞き手に応じた処理がなされ、短時間で聞き手が入れ替わる会議室への構内放送システムに応用できる。また、１時間であれば、より長い時間で複数人の聞き手集団に応じた処理がなされる。日ごとに客層の代わるイベント会場のアナウンスなどへ応用できる。あるいは、１日などの長時間を設定すると、鉄道駅などある程度、聞き手が固定化するシステムに対して自動的な言語構成の最適化を図ることができる。
【００３９】
蓄積時間を変更するためには、環境音声の蓄積時間を指定する蓄積時間指定部を有し、環境音声蓄積部は、蓄積時間指定部の指定に基づいて環境音声を蓄積する所定の時間を変更するように構成すればよい。
【００４０】
図４を用いて放送音声の出力処理に関する動作を説明する。
図４は、実施例１における放送音声の出力処理の動作を示すフローチャートである。
【００４１】
まず、放送内容入力部４は、放送内容入力処理１０５の実行により、放送内容を決定する（ステップＳ１０１）。例えば、鉄道駅の構内放送システムでは、通信装置１０４から受信した運行管理情報に含まれる、列車番号・到着時刻などを用いて放送内容を決定する。また、イベント情報を案内するような構内放送システムであれば、ディスプレイ１０３に案内の候補を表示して、キーボード１０１やマウス１０２で選択することで放送内容を決定する。
【００４２】
次に、放送言語指定部５は、放送言語指定処理１０６の実行により、放送言語の指定を行う（ステップＳ１０２）。ステップＳ１０１と同等の手段により、放送言語の指定を通信装置１０４から受け取るか、ディスプレイ１０３に言語の候補を表示して、キーボード１０１やマウス１０２で選択することで指定する。
【００４３】
次に、放送音声生成部６は、放送音声生成処理１０７の実行により、入力された放送内容と放送言語の指定に基づいて、音源データ１０９を使って放送音声を生成する（ステップＳ１０３）。ここでは、一般の録音編集方式によって放送音声を生成することができる。例えば、鉄道駅の構内放送の放送内容として、「放送種別：到着、列車番号：ひかり２３号、発車時刻：１０：３０、行先：東京、到着番線：１」が与えられ、放送言語として「英語・日本語」が指定されると、「Shortly，the special rapid service train，“Hikari” 23，departing at 10:30， bound for Tokyo，will be arriving at Track 1． For your safety，please step back from the edge of the platform．まもなく1番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。」と話す放送音声が生成される。
【００４４】
次に、放送構成生成部７は、放送構成生成処理１０８の実行により、放送音声に含まれている各言語の継続時間長を計測し、言語の順序とともに出力する（ステップＳ１０４）。例えば、上記の例では、英語・日本語の順で生成されており、構成情報は例えば、「英語：２０秒→日本語：１８秒」のように出力される。
【００４５】
次に、送信部１５は、送信処理１１０を実行し、放送言語の指定と、放送音声と、放送構成とを、通信装置１０４を用いて、ネットワーク装置９９を介し、放送出力装置３へ送信する（ステップＳ１０５）。
【００４６】
次に、受信部１６は、受信処理１３２を実行し、放送言語の指定と、放送音声と、放送構成とを、通信装置１２３を用いて、ネットワーク装置９９を介して、放送生成装置２から受信する（ステップＳ１０６）。
【００４７】
次に、言語認識部１０は、言語認識処理１２６の実行により、環境音声蓄積データ１２７から環境音声を取得して、放送言語の指定に基づいて言語認識を行う（ステップＳ１０７）。このステップにおける言語認識には、公知の言語認識技術を用いることができるが、言語認識結果は、単位時間フレームごとに判定された時系列であることが望ましい。例えば、単位時間フレームごとに言語認識結果を出力する方法としては、Torres−Carrasquilloらの混合ガウス分布モデルによる方法を用いることができる。(非特許文献１）
具体的には、単位時間フレームごとにケプストラム特徴量を計算し、フレーム間差分情報を追加してフレームの特徴量とする。次に、放送言語の指定に基づき、予め言語ごとに学習しておいた混合ガウスモデルに対する尤度を求め、最大の尤度をもつ言語を判定結果とする。
【００４８】
次に、言語構成比算出部１１は、言語認識結果の時系列に基づいて、言語の構成比を計算する（ステップＳ１０８）。ここで、上記の混合ガウス分布モデルを用いる場合であれば、短時間フレームごとに言語判定結果が得られるため、この結果を集計することにより、蓄積された環境音声における言語判定の頻度として、言語の構成比が得られる。例えば、「英語：０％，日本語：１００％」といった形式で出力される。また、混合ガウスモデルを用いる他にも、言語認識の方法として、音素認識と言語モデルを用いる方法や、大語彙連続音声認識を用いる方法などがある。このような言語認識の方法では、音素・単語・フレーズの単位の認識結果として言語判定結果が与えられる。その際は、単位時間ごとの判定結果を集計できるようにするため、言語判定結果に、対象とした音素・単語・フレーズの時間長を合わせて記録しておき、集計では、時間での頻度を求めるようにすればよい。
【００４９】
次に、放送構成変更部１３は、放送構成変更処理１３０の実行により、言語構成比算出処理１２８によって得られた言語構成比、受信部１６が受信した放送構成に基づいて、構成変更方法記憶テーブル１２９から対応する構成変更方法を取得し、その構成変更方法に基づいて放送音声の構成を変更する（ステップＳ１０９）。
【００５０】
図５は、構成変更方法記憶テーブル１２９の一例を示す説明図である。この例では、第１行目に、放送構成２０１が「英語：７０％，日本語：３０％」で、環境言語構成比２０２が「英語：０％，日本語：０％」であれば、変更方法２０３として、英語と日本語の双方の話速を低下させるように指定されている。また、２行目には、放送構成２０１が「英語：７０％，日本語：３０％」で、環境言語構成比２０２が「英語：０％，日本語：１００％」であれば、変更方法２０３として、日本語が先に放送されるように変更し、英語は要約によって短くする、と指定されている。ここで、第２行目にマッチした場合には、上記で例として挙げた放送内容「Shortly， the special rapid service train， “Hikari” 23， departing at 10:30， bound for Tokyo， will be arriving at Track 1． For your safety， please step back from the edge of the platform．まもなく1番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。」は、例えば、「まもなく1番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。Shortly， the train will be arriving at Track 1．」のように変更される。
ここで、変更方法として、話速の変更を行う場合には公知の話速変換方法も用いることができる。また、要約するための方法としては、あらかじめ放送構成情報として削除可能な放送の区間を指定させておく方法をとればよい。
【００５１】
最後に、放送音声出力部１４は、放送音声出力処理１３１の実行により、放送構成変更処理１３０により変更された放送音声をスピーカ１２２から出力する。
【００５２】
以上のようにして、本実施例の放送出力システムは、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、放送構成の変更を行うことが可能となる。
【００５３】
なお、本実施例では、環境音声入力部８で取得した環境音声を、所定の時間、環境音声蓄積部９に蓄積し、蓄積した環境音声を言語認識するようにしたが、環境音声入力部８で取得した環境音声を、所定の時間、言語認識するようにしてもよい。
【００５４】
また、放送言語指定部５で指定された言語に基づいて、言語認識部１０で言語認識を行うようにしたが、言語を指定することなく言語認識を行うようにしてもよい。
【００５５】
また、本実施例では、放送生成装置２と放送出力装置３とを別の装置とし、ネットワーク装置で接続するようにしたが、放送生成装置２と放送出力装置３とを一つの装置としてもよい。
【実施例２】
【００５６】
上記の実施例１では、放送音声の言語構成に基づいて言語認識を行う例を示した。しかし、言語分布は位置情報からも推測可能である。そこで、位置情報に基づいて言語認識を行うことで、精度の高い言語構成比を得ることができる。また、実施例１では、録音編集方式によって放送音声を生成する例を示した。しかし、テキスト音声合成方式によって放送音声を生成することにより、より柔軟な放送内容の編集が可能となる。また、実施例１では、放送生成装置への入力によって放送内容が決定されるシステムであったが、放送内容（テキスト）の生成を放送出力装置側で行う構成も可能である。本実施例では、このような、位置情報およびテキスト音声合成方式を利用した放送出力システムに適用した例を説明する。
【００５７】
図６は、本実施例の放送出力システムの全体構成を説明する図である。
放送出力システム３０１は、放送生成装置３０２と放送出力装置３０３によって構成される。放送生成装置３０２は、放送内容受信部３０４、言語構成比受信部３０５、構成変更方法記憶部３０６、テキスト生成部３０７、放送構成抽出部３０８、放送構成編集部３０９、音声合成部３１０、通信サーバ３１１を備える。放送出力装置３０３は、環境音声入力部３２０、環境音声蓄積部３２１、位置情報取得部３２２、言語候補設定部３２３、言語認識部３２４、言語構成比算出部３２５、放送情報記憶部３２６、放送内容生成部３２７、通信クライアント部３２８、放送音声出力部３２９を備える。
【００５８】
環境音声入力部３２０は、環境音声の入力を受け付け、環境音声蓄積部３２１で所定時間の環境音声を蓄積する。
位置情報取得部３２２は、放送出力装置３０３の位置情報を取得し、言語候補設定部３２３に、位置情報に対応する言語候補を設定する。
言語認識部３２４は、言語候補設定部３２３における言語候補の指定に基づいて言語認識を行う。言語構成比算出部３２５は、蓄積された環境音声に対する言語認識結果の時系列に基づいて言語構成比を生成する。
放送情報記憶部３２６は、放送時刻と放送内容を管理するための記憶領域である。放送内容生成部３２７は、時刻を管理し、放送時刻に従った放送内容を放送情報記憶部から取得する。
通信クライアント部３２８は、放送内容および言語構成比を放送生成装置３０２に送信し、また、放送生成装置３０２から放送音声を受信する。
放送音声出力部３２９は、受信した放送音声を出力する。
【００５９】
通信サーバ３１１は、放送出力装置３０３から放送内容および言語構成比を受信し、応答として生成された放送音声を、放送出力装置３０３に送信する。
放送内容受信部３０４は、通信サーバ３１１が受信したメッセージから放送内容を取得する。言語分布受信部３０５は、通信サーバ３１１が受信したメッセージから言語構成比を取得する。
テキスト生成部３０７は、受信した放送内容に従い、多言語音声案内のためのテキストを生成する。
放送構成抽出部３０８は、生成されたテキストを音声合成した際の放送音声に含まれる言語の構成を抽出する。
放送構成編集部３０９は、受信した言語構成比と抽出された放送構成を入力として、構成変更方法記憶部３０６に記憶された構成変更方法を取得し、この構成変更方法に基づいてテキストを編集する。
音声合成部３１０は、編集されたテキストに基づいて音声合成を行い、通信サーバ３１１が応答として送信するための放送音声を生成する。
【００６０】
図７は、本実施例の放送出力システムのハードウェア構成図の例である。放送生成装置３０２と放送出力装置３０３はネットワーク装置４９９を通じて接続される。放送生成装置３０２は、通信装置４１３を備える。テキスト生成処理４０４、放送構成抽出処理４０５、放送構成編集処理４０６、音声合成処理４０７、合成用データ４０８、構成変更方法記憶テーブル４０９、通信処理４１０をメモリ４１１に備え、ＣＰＵ４１２がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【００６１】
放送出力装置３０３は、マイク４２１、スピーカ４２２、キーボード４２３、マウス４２４、ディスプレイ４２５、ＧＰＳ受信機４２６、通信装置４４０を備える。環境音声入力処理４２７、環境音声蓄積処理４２８、位置情報取得処理４２９、言語候補設定処理４３０、言語認識処理４３１、言語構成比算出処理４３２、環境音声蓄積データ４３３、放送内容生成処理４３４、通信処理４３５、放送情報記憶テーブル４３６、放送音声出力処理４３７をメモリ４３８内に備え、ＣＰＵ４３９がプログラムを実行する。例えば、パーソナルコンピュータを用いて構成することができる。
【００６２】
次に、上記のように構成される、本実施例に係る放送出力システム３０１の動作を説明する。
本システムの動作は、環境音声の蓄積処理と放送音声の出力処理に分けられる。環境音声の蓄積処理については、実施例１と同様である。
【００６３】
図８は、本実施例における、放送出力処理の動作を示すフローチャートである。
まず、位置情報取得部３２２は、位置情報取得処理４２９の実行により、ＧＰＳ受信機４２６から得られる測位情報を放送出力装置３０３の位置情報として取得する（ステップＳ２０１）。
次に、言語候補設定部３２３は、言語候補設定処理４３０の実行により、位置情報に応じて予め定められた言語候補を設定する（ステップＳ２０２）。ここで用いられる言語候補は、例えば鉄道放送では、国や地域によって必要となる放送言語の種類が設計時に定められるため、その情報を言語候補設定処理４３０に位置情報と言語候補の対応関係を記述しておけばよい。
次に、放送内容生成部３２７は、放送内容生成処理４３４の実行により、放送情報記憶テーブル４３６を参照して、放送内容を示すテキストを生成する（ステップＳ２０３）。ここでは、放送内容として「放送種別：到着、列車番号：ひかり２３号、発車時刻：１０：３０、行先：東京、到着番線：１」といった文字列を例とする。あるいは、イベント情報を案内するような構内放送システムであれば、ディスプレイ４２５に案内の候補を表示して、キーボード１０１やマウス１０２で選択したり、キーボード１０１で直接放送内容のテキストを入力したりすることによって放送内容を決定してもよい。
次に、言語認識部３２４は、言語認識処理４３１の実行により、環境音声蓄積データ４３３から環境音声を取得して、言語候補に基づいて言語認識を行う（ステップＳ２０４）。このステップにおける言語認識の方法は実施例１と同様である。
次に、言語構成比算出部３２５は、言語認識結果の時系列に基づいて、言語の構成比を計算する（ステップＳ２０５）。このステップの具体的な方法は実施例１と同様である。
次に、通信クライアント部３２８は、通信処理４３５を実行し、放送内容のテキストと計算された言語の構成比を通信装置４４０から、ネットワーク装置４９９を介して放送生成装置３０２に送信し、応答を待ち受ける（ステップＳ２０６）。
【００６４】
次に放送内容受信部は、通信サーバ３１１による通信処理４１０の実行により、通信装置４１３から、放送内容を受信する（ステップＳ２０７）。
次に、テキスト生成部３０７は、テキスト生成処理４０４の実行により、受信した放送内容のテキストに基づいて、テキスト音声合成を行うためのテキストを生成する（ステップＳ２０８）。ここで、受信したテキストが、「放送種別：到着、列車番号：ひかり２３号、発車時刻：１０：３０、行先：東京、到着番線：１」であるとき、「Shortly，the special rapid service train，“Hikari”23，departing at 10:30， bound for Tokyo， will be arriving at Track 1．For your safety，please step back from the edge of the platform．まもなく１番線に、10時30分発、ひかり23号、東京行きの電車が参ります。危ないですから、黄色い線の内側でお待ちください。」のようなテキストが生成される。このような処理は、一般の録音編集方式で行われている処理を、音声でなくテキストの組合せで行うことにより実現される。
次に、放送構成抽出部３０８は、放送構成抽出処理４０５の実行により、生成されたテキストをテキスト音声合成により合成した際、放送音声に含まれる各言語の継続時間長を計測し、言語の順序とともに出力する（ステップＳ２０９）。
次に、言語構成比受信部３０５は、通信サーバ部３１１による通信処理４１０の実行により、通信装置４１３から、言語構成比を受信する（ステップＳ２１０）。
【００６５】
次に、放送構成編集部３０９は、放送構成編集処理４０６の実行により、受信した言語分布が示す言語構成比、放送構成抽出部３０８で抽出された放送構成に基づいて、構成変更方法記憶テーブル４０９から対応する構成変更方法を取得し、その構成変更方法に基づいて放送音声の言語構成を変更する（ステップＳ２１１）。ここで、構成変更方法記憶テーブル４０９は、実施例１と同様に図５のようなものを用いることができる。
ただし、ここで、変更方法については、実施例１とは異なり、テキストの編集によって行われる。すなわち、話速の変更を行う場合には、テキスト音声合成のパラメータとして速度を与える方法を用いて、話速を変更する。また、要約するためには、あらかじめ放送構成情報として削除可能なテキストの範囲を指定するものであればよい。あるいは、簡略化するために、テキスト要約処理を用いるものであってもよい。この場合、録音編集方式では削除しかできなかったが、語彙の変更等により、より発話時間の短い表現を得ることも可能となる。
【００６６】
次に、音声合成部３１０は、音声合成処理４０７の実行により、合成用データ４０８を用いて、編集されたテキストから放送音声を合成する（ステップＳ２１２）。ここでの音声合成技術は、公知の音声合成技術を用いることができるが、言語ごとの話速の変更を実現するためには、パラメータとして部分的な速度の変更が可能なものを用いることが望ましい。
次に、通信サーバ３１１は、通信処理４１０の実行により、合成された放送音声を通信装置４１３から、ネットワーク装置４９９を介して、放送出力装置３０３へ送信する（ステップＳ２１３）。
【００６７】
次に、通信クライアント部３２８は、通信処理４３５の実行により、放送音声を受信する（ステップＳ２１４）。
最後に、放送音声出力部３２９は、放送音声出力処理４３７の実行により、放送音声をスピーカ４２２から出力する（ステップＳ２１５）。
【００６８】
以上のようにして、本実施例の放送出力システムは、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、放送言語構成の変更を行うことに加えて、位置情報を用いて言語構成比の抽出を容易にし、また、テキスト音声合成方式を利用し、より柔軟な放送言語構成の変更を可能とし、さらに、放送出力装置側で放送内容を入力することを可能としている。
【００６９】
以上説明した各実施形態によれば、聞き手集団の言語構成比を環境音声から抽出し、言語構成比に基づいて、音声出力の構成の変更を行うことにより、聞き手集団の使用言語を理解していないことに起因する、情報提供の無駄を軽減することができる。
【００７０】
なお、上述した各実施形態では、ＣＰＵ上で実行されるプログラムにより放送出力システムの各種機能を実現しているが、それらの一部又は全部が、例えば集積回路等の電子部品を用いたハードウェアにより実現されてもよい。
【００７１】
本発明は上述した実施形態に限定されるものではなく、様々な変形例が含まれる。本実施例では、鉄道や公共施設等の放送システムを想定して説明したが、例えば、携帯電話等の音声通信システムや遠隔会議システムなど、音声出力を行う様々な装置・システムに適用することができる。
【符号の説明】
【００７２】
１放送出力システム
２放送生成装置
３放送出力装置
４放送内容入力部
５放送言語指定部
６放送音声生成部
７放送構成生成部
８環境音声入力部
９環境音声蓄積部
１０言語認識部
１１言語構成比算出部
１２構成変更方法記憶部
１３放送構成変更部
１４放送音声出力部
１５送信部
１６受信部
３０１放送出力システム
３０２放送生成装置
３０３放送出力装置
３０４放送内容受信部
３０５言語構成比受信部
３０６構成変更方法記憶部
３０７テキスト生成部
３０８放送構成抽出部
３０９放送構成編集部
３１０音声合成部
３１１通信サーバ
３２０環境音声入力部
３２１環境音声蓄積部
３２２位置情報取得部
３２３言語候補設定部
３２４言語認識部
３２５言語構成比算出部
３２６放送情報記憶部
３２７放送内容生成部
３２８通信クライアント部
３２９音声出力部

【特許請求の範囲】
【請求項１】
音声出力内容を入力する音声出力内容入力部と、
前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成部と、
周囲環境の音声を入力する環境音声入力部と、
前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出部と、
前記言語構成比算出部で算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更部と、
変更された音声を出力する音声出力部と、
を有する音声出力装置。
【請求項２】
請求項１記載の音声出力装置において、更に、
音声出力言語を指定する音声出力言語指定部を有し、
前記出力音声生成部は、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、
前記言語構成比算出部は、前記音声出力言語指定に基づいて音声の言語を認識することを特徴とする音声出力装置。
【請求項３】
請求項２記載の音声出力装置において、更に、
音声出力装置の位置情報を取得する位置情報取得部と、
位置情報と関連付けて音声出力言語を記憶する音声出力言語記憶部とを有し、
前記音声出力言語指定部は、位置情報に応じて前記音声出力放送言語記憶部から取得した音声出力言語を指定することを特徴とする音声出力装置。
【請求項４】
請求項１記載の音声出力装置において、更に、
前記環境音声入力部で入力した所定時間の音声を蓄積する環境音声蓄積部を有し、
前記言語構成比算出部は、前記蓄積した音声の言語を認識し、言語の構成比を算出することを特徴とする音声出力装置。
【請求項５】
請求項４に記載の音声出力装置において、更に、
環境音声の蓄積時間を指定する蓄積時間指定部を有し、
前記環境音声蓄積部は、蓄積時間指定部の指定に基づいて環境音声を蓄積する所定の時間を変更することを特徴とする音声出力装置。
【請求項６】
請求項１記載の音声出力装置において、更に、
言語構成比に関連付けて出力する音声の構成を変更する方法を記憶する構成変更方法記憶部を有し、
前記音声出力構成変更部は、前記言語構成比算出部で算出した言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更することを特徴とする音声出力装置。
【請求項７】
請求項６記載の音声出力装置において、更に、
音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成部を有し、
前記構成変更方法記憶部は、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶するものであり、
前記音声出力構成変更部は、前記音声出力構成と前記言語構成比に応じて、前記構成変更方法記憶部から取得した変更方法に基づいて、出力する音声の構成を変更することを特徴とする音声出力装置。
【請求項８】
請求項１〜７の何れか一つに記載の音声出力装置において、
前記音声出力内容入力部は、音声出力文章のテキストを入力し、
前記出力音声生成部は、テキストを音声に変換する音声合成処理によって出力音声を生成し、
前記音声出力構成変更部は、テキストの並び替え、テキストの一部に話速指定、一部テキストの削除のいずれかを行った編集テキストに基づいて音声合成処理を行うことを特徴とする音声出力装置。
【請求項９】
音声出力内容を入力する音声出力内容入力ステップと、
前記音声出力内容に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、
周囲環境の音声を入力する環境音声入力ステップと、
前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、
前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、
変更された音声を出力する音声出力ステップと、
を有する音声出力方法。
【請求項１０】
請求項９記載の音声出力方法において、更に、
音声出力言語を指定する音声出力言語指定ステップを有し、
前記出力音声生成ステップは、音声出力内容および音声出力言語指定に基づいて出力音声を生成するものであり、
前記言語構成比算出ステップは、前記音声出力言語指定に基づいて音声の言語を認識することを特徴とする音声出力方法。
【請求項１１】
請求項１０記載の音声出力方法において、更に、
音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、
前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更することを特徴とする音声出力方法。
【請求項１２】
請求項９〜１１の何れか一つに記載の音声出力方法において、
音声出力構成変更ステップは、音声出力する言語順序を変更する処理、言語ごとに話速を変換する処理、言語ごとに音声内容の一部を削除して短くする要約処理の少なくとも一つ以上を含むことを特徴とする音声出力方法。
【請求項１３】
コンピュータに音声を出力させるための音声出力プログラムであって、
音声出力内容を入力する音声出力内容入力ステップと、
音声出力言語を指定する音声出力言語指定ステップと、
前記音声出力内容および音声出力言語指定に基づいて複数の言語から成る出力音声を生成する出力音声生成ステップと、
周囲環境の音声を入力する環境音声入力ステップと、
前記音声出力言語指定に基づいて前記入力した音声の言語を認識し、言語の構成比を算出する言語構成比算出ステップと、
前記言語構成比算出ステップで算出した言語構成比に応じて、出力する音声の構成を変更する音声出力構成変更ステップと、
変更された音声を出力する音声出力ステップと、
を実行させるための音声出力プログラム。
【請求項１４】
請求項１３記載のコンピュータに音声を出力させるための音声出力プログラムにおいて、更に、
音声出力言語と出力音声に基づいて音声出力の構成を生成する音声出力構成生成ステップを有し、
前記音声出力構成変更ステップは、前記音声出力構成と前記言語構成比に応じて、音声出力構成と言語構成比に関連付けて出力する音声の構成を変更する方法を記憶した構成変更方法記憶部の記憶内容に基づいて、出力する音声の構成を変更するものである音声出力プログラム。

【図１】