音声出力システム

【課題】十分なマスキング効果を得ることができ、かつ聞きたい音を適切な音量で聞くことができる音声出力装置を提供する。
【解決手段】マスカ音出力装置３は、待合場所の各ユーザ９２に対してマスカ音を出力する。各ユーザ９２は、受付場所のスタッフ９３から音声端末１を受け取り、携帯する。この音声端末１には、スピーカが設けられており、順番が来たときに呼び出し音声が出力される。ユーザ９２は、呼び出し音声を聞くことで順番が来たことを知ることができる。このように、ユーザが携帯する音声端末１から呼び出し音声を出力することで、マスキング効果を得るためにマスカ音をある程度の音量で出力したとしても、聞きたい音（呼び出し音声）を適切な音量で聞くことができる。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、マスカ音を出力するマスカ音出力装置と、音声端末装置と、からなる音声出力システムに関するものである。
【背景技術】
【０００２】
従来、同一空間内で複数の音声コンテンツを再生する場合に、それぞれの音声コンテンツの再生音が、相互に影響を及ぼしあうことを抑制するものが提案されている（例えば特許文献１を参照）。特許文献１の装置では、他のエリアでコンテンツが再生されていないときは音量を下げ、他のエリアでコンテンツが再生されると音量を上げるものである。
【０００３】
また、近年、銀行や調剤薬局等の対話カウンタにスピーカを取り付け、話者の音声と関連性の低い音声をマスカ音として出力することにより、順番を待つ他の人に話者の音声（会話内容）を聞き取り難くしたものが知られている。
【先行技術文献】
【特許文献】
【０００４】
【特許文献１】特開２００８−７６９８５号公報
【発明の概要】
【発明が解決しようとする課題】
【０００５】
マスカ音は、音量が小さいとマスキング効果を得ることが難しくなる。したがって、マスカ音はある程度の音量で出力する必要があるが、マスカ音の音量が大きすぎると聞きたい音（例えば呼び出し音声）を聞くことができなくなってしまう。
【０００６】
そこで、本発明は、十分なマスキング効果を得ることができ、かつ聞きたい音を適切な音量で聞くことができる音声出力装置を提供することを目的とする。
【課題を解決するための手段】
【０００７】
この発明の音声出力システムは、マスカ音を出力するマスカ音出力装置と、ユーザによって携帯される端末装置と、を備えている。マスカ音出力装置は、前記ユーザに対してマスカ音を出力するように設置されている。そして、端末装置は、前記ユーザ毎に必要な音声を出力する。
【０００８】
以上の構成により、聞きたい音声は、ユーザが携帯する端末装置（音声端末）からユーザの直近位置で出力されるため、マスキング効果を得るためにマスカ音の音量を大きくした場合であっても、ユーザが聞きたい音を適切な音量で聞くことができる。
【０００９】
また、上記音声出力システムにおいて、音声端末がマスカ音を補助する音声を出力することで、よりマスキング効果を高めることも可能である。マスカ音を補助する音声としては、マスカ音出力装置が出力するマスカ音と同じものを出力する態様や、小川のせせらぎや木々のざわめきのような背景音や、断続的に発生する楽音のような演出性の高い音（演出音）等を出力する態様も可能である。
【００１０】
また、上記音声出力システムにおいて、音声端末から所定のコンテンツの音声を出力することも可能である。音声端末からコンテンツの音声を出力することで、ユーザの注意をマスク対象の音声からコンテンツの音声に向けさせることができ、よりマスキング効果を高めることができる。
【００１１】
なお、ユーザからコンテンツの選択を受け付ける受付手段を備え、ユーザが所望するコンテンツの音声を出力することで、さらにマスキング効果を高めることが望ましい。
【００１２】
実際には、銀行や調剤薬局等の待合場所に設けられた複数の表示装置に表示されるコンテンツの中から選択して対応する音声を出力することが望ましい。
【００１３】
また、上記マスカ音を補助する音声は、ユーザからコンテンツの選択を受け付けなかった場合に出力することが望ましい。
【発明の効果】
【００１４】
この発明によれば、十分なマスキング効果を得ることができ、かつユーザが聞きたい音を適切な音量で聞くことができる。
【図面の簡単な説明】
【００１５】
【図１】音声出力システムの構成を示す配置図である。
【図２】図２（Ａ）は、音声端末の構成を示すブロック図であり、図２（Ｂ）は、音声端末の外観図である。
【図３】マスカ音出力装置の構成を示すブロック図である。
【図４】サーバの構成を示すブロック図である。
【図５】図５（Ａ）は、収音された音声信号をサーバに送信する場合のサーバ、音声端末、およびマスカ音出力装置の動作を示したフローチャートであり、図５（Ｂ）は、会話内容の記録をする場合のサーバ、および他の情報処理装置（例えば自宅ＰＣ）の動作を示したフローチャートである。
【図６】サーバと音声端末の動作を示すフローチャートである。
【図７】サーバと音声端末の動作を示すフローチャートである。
【発明を実施するための形態】
【００１６】
図１は、音声出力システムの概要を示す配置図である。音声出力システムは、例えば銀行や調剤薬局等の対話カウンタおよび待合場所に設置される。対話カウンタの近傍にはマスカ音を出力するマスカ音出力装置３が設置され、待合場所に向けてマスカ音が放音される。このマスカ音は、対話カウンタ内で会話を行う者の発言内容をマスクし、待合場所に居る者に発言内容を理解できないようにするものである。
【００１７】
図１においては、３つの対話カウンタにそれぞれユーザ９０およびスタッフ９１が存在し、対話カウンタから離れた待合場所に複数のユーザ９２が存在する。スタッフ９１は、例えば薬の説明を行う薬剤師であり、ユーザ９０は薬の説明を聞く患者であり、ユーザ９２は順番待ちの患者である。
【００１８】
各ユーザ９２は、受付場所のスタッフ９３から音声端末１を受け取り、携帯する。この音声端末１には、スピーカが設けられており、順番が来たときに呼び出し音声（合成音声やスタッフの実音声、あるいはビープ音等）が出力される。ユーザ９２は、呼び出し音声を聞くことで順番が来たことを知ることができる。順番が来たユーザ９２は、音声端末１を携帯して対話カウンタに向かい、対話カウンタ内でスタッフ９１に音声端末１を返却する。このようにして、音声端末１は、無線呼び出し（いわゆるページャ）の機能を有する。このように、ユーザが携帯する音声端末１から呼び出し音声を出力することで、マスカ音出力装置３が、マスキング効果を得るためにマスカ音をある程度の音量で出力したとしても、ユーザ毎に必要な音声（本実施形態では呼び出し音声）を適切な音量で聞くことができる。
【００１９】
また、本実施形態の音声出力システムでは、待合場所に表示装置７が設けられている。表示装置７は、一般的に待合場所に設けられた汎用情報表示用ディスプレイであり、所定のコンテンツの映像が表示されている。この例では、３つの表示装置７が設置され、それぞれ豆知識チャンネル、健康チャンネル、宣伝広告チャンネル等、チャンネル毎に個別のコンテンツ映像が表示されている。音声端末１は、これらコンテンツの音声も出力する。音声出力の対象となるコンテンツは、ユーザが音声端末１を操作して、手動で選択することができるようになっている。ユーザ９２は、音声端末１から出力されるコンテンツの音声を聞くことで、自身の注意がマスク対象の音声（対話カウンタ内の会話）ではなく、コンテンツの音声に向くことになり、よりマスキング効果を高めることができる。
【００２０】
以下、上記の音声出力システムを実現するための具体的な構成、動作について説明する。図２（Ａ）は、音声端末１の構成を示すブロック図であり、図２（Ｂ）は、音声端末１の外観図である。図３は、マスカ音出力装置３の構成を示すブロック図であり、図４は、サーバ５の構成を示すブロック図である。図５は、サーバ５とマスカ音出力装置３の動作を示すフローチャートである。図６および図７は、サーバ５と音声端末１の動作を示すフローチャートである。
【００２１】
音声端末１は、マイク１１、Ａ／Ｄコンバータ１２、信号処理部１３、Ｄ／Ａコンバータ１４、スピーカ１５、制御部１６、通信部１７、および操作部１８を備えている。
【００２２】
マスカ音出力装置３は、通信部３１、制御部３２、信号処理部３３、Ｄ／Ａコンバータ３４、およびスピーカ３５を備えている。
【００２３】
サーバ５は、通信部５１、制御部５２、マスカ音生成部５３、マスカ音記憶部５４、コンテンツ記憶部５５、および出力インタフェース（Ｉ／Ｆ）５６を備えている。
【００２４】
マスカ音出力装置３は、通信部３１を介してサーバ５の通信部５１と接続され、サーバ５から種々のデータを送受信する。ここでは、主にサーバ５からマスカ音に係る音データを受信する。
【００２５】
サーバ５の制御部５２は、マスカ音生成部５３にマスカ音の生成を指示し、マスカ音生成部５３が生成したマスカ音に係る音データを通信部５１を介してマスカ音出力装置３に出力する。
【００２６】
マスカ音生成部５３は、マスカ音記憶部５４に記憶されている各種音データを読み出してマスカ音に係る音データを生成し、制御部５２に出力する。マスカ音は、音声をマスクすることが可能な音であればどの様な音であってもよいが、例えば、マスカ音記憶部５４に記憶されている撹乱音、背景音、および演出音を組み合わせて生成する。
【００２７】
撹乱音は、マスク対象の音声を撹乱する音であり、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない（内容が理解できない）ようにしたものである。撹乱音が人の音声を時間軸上で改変したものである場合、予め特定の話者の音声（男性および女性を含む複数人の音声）を録音し、所定時間毎に一定長の区間に分割した音声信号を各区間で逆方向に読み出す等して、語彙的に意味をなさない音声に変更する。周波数軸上で改変する場合、スペクトル包絡のピーク（フォルマント）を抽出し、語彙に影響する特定のフォルマントを変更して語彙的に意味をなさない音声に変更する。
【００２８】
なお、撹乱音は、音声端末１のマイクを用いて、対話カウンタ内の話者の音声を取得して、取得した音声を改変することにより、都度、生成する態様としてもよい。
【００２９】
背景音は、例えば小川のせせらぎや木々のざわめき等、聴取者が聴覚的に注目し難く、不快感のない音である。これにより、暗騒音レベルを上げ、撹乱音の違和感を目立たなくする。
【００３０】
演出音は、断続的に発生する楽音等の演出性の高い音である。これにより、聴取者の注意を演出音にも向けさせ、聴覚心理的に撹乱音の違和感を目立たなくする。これらの撹乱音、背景音、および演出音を組み合わせたマスカ音をユーザ９２に聴取させることで、話者の音声をマスクしつつ、不快感を低減することが可能となる。
【００３１】
なお、マスカ音記憶部５４に記憶されている撹乱音、背景音、および演出音に係る音データは、それぞれ１つに限らず、複数の音データであってもよい。この場合、マスカ音生成部５３は、複数の音データから特定の音データを選択して読み出す。複数の音データが記憶されている場合、予め規定された組み合わせテーブル（マスカ音記憶部５４に記憶されたテーブル）に従って選択する態様としてもよい。また、テーブルには、各音の音量や読み出しタイミング等を記載しておき、各音の音量や読み出しタイミングを個別に変更する態様としてもよい。また、各音データを予め合成済みのマスカ音として記憶しておき、再生するように構成することも可能である。
【００３２】
サーバ５は、このようなマスカ音に係る音データを生成し、マスカ音出力装置３に送信する。マスカ音出力装置３の制御部３２は、通信部３１を介してマスカ音に係る音データを受信し、再生処理を行う。例えば、マスカ音に係る音データがエンコードされた圧縮データであればデコードし、デジタル音声信号に変換し、信号処理部３３に出力する。信号処理部３３は、入力されたデジタル音声信号の音量や周波数特性等を調整し、Ｄ／Ａコンバータ３４に出力する。信号処理部３３から出力されたデジタル音声信号は、Ｄ／Ａコンバータ３４でアナログ音声信号に変換され、スピーカ３５から放音される。このようにして、待合場所に居るユーザ９２にマスカ音が出力される。
【００３３】
次に、サーバ５と音声端末１の機能、動作について説明する。音声端末１は、通信部１７を介してサーバ５の通信部５１と接続され、サーバ５から種々のデータを送受信する。ここでは、主に呼び出し音声に係る音データや、コンテンツの音データをサーバ５から受信する。
【００３４】
サーバ５の制御部５２は、コンテンツ記憶部５５からコンテンツに係る音データおよび映像データを読み出し、コンテンツに係る音データを通信部５１を介して音声端末１に送信する。また、制御部５２は、コンテンツに係る映像データを出力Ｉ／Ｆ５６を介して各表示装置７に出力する。コンテンツに係る音データおよび映像データは、複数種類記憶されており、同時に表示装置の数だけ（本実施形態では３つ）読み出しされる。
【００３５】
なお、音データについては、同時に複数読み出してブロードキャストで全音声端末１に送信するようにしてもよいが、音声端末１から要求がなされたコンテンツに係る音データを読み出し、ユニキャストで送信してもよい。例えば、本実施形態では、図１に示すように、３つの表示装置７にそれぞれｃｈ．１（豆知識チャンネル）、ｃｈ．２（健康チャンネル）、ｃｈ．３（宣伝広告チャンネル）のコンテンツ映像が表示されている。そのため、ユーザは、音声端末１の操作部１８のうち、図２（Ｂ）に示すように、「１」、「２」、「３」と表示されたボタンを押下する。例えばユーザが「１」と表示されたボタンを押下すると、制御部１６は、ｃｈ．１のコンテンツの音データの配信要求を行う。すると、サーバ５の制御部５２は、ｃｈ．１のコンテンツの音データを要求がなされた音声端末１に送信する。
【００３６】
サーバ５は、このようにして、コンテンツに係る音データを音声端末１に送信する。音声端末１の制御部１６は、通信部１７を介してコンテンツに係る音データを受信し、再生処理を行う。例えば、音データがエンコードされた圧縮データであればデコードし、デジタル音声信号に変換し、信号処理部１３に出力する。また、サーバ５から複数の音データが同時に送信された場合、操作部１８のうち、押下されたボタンに対応するチャンネルのデジタル音声信号のみ信号処理部１３に出力する。
【００３７】
信号処理部１３は、入力されたデジタル音声信号の音量や周波数特性等を調整し、Ｄ／Ａコンバータ１４に出力する。信号処理部１３から出力されたデジタル音声信号は、Ｄ／Ａコンバータ１４でアナログ音声信号に変換され、スピーカ１５から放音される。このようにして、待合場所に居る各ユーザ９２にコンテンツの音声が出力される。なお、コンテンツの音声は、スピーカではなく、ヘッドフォンを介して各ユーザ９２が聞くようにしてもよい。
【００３８】
なお、図２（Ｂ）に示すように、音声端末１は、「１」、「２」、「３」と表示されたボタン意外にも「ＯＦＦ」と表示されたボタンを備えている。ユーザが「ＯＦＦ」と表示されたボタンを押下すると、制御部１６は、音データの再生処理を停止する、あるいは、サーバ５に音データの配信を停止する要求を行う。これにより、コンテンツの音声を出力しないように設定することもできる。なお、このとき、コンテンツの音声に代えて、マスカ音を補助する音声を出力するようにしてもよい。マスカ音を補助する音声としては、マスカ音出力装置３が出力するマスカ音と同じものを出力する態様や、その一部（背景音だけ、演出音だけ、撹乱音＋背景音、撹乱音＋演出音、背景音＋演出音、等）を出力する態様も可能である。いずれにしても、ユーザが「ＯＦＦ」と表示されたボタンを押下すると、制御部１６は、補助音声の配信要求を行う。すると、サーバ５の制御部５２は、マスカ音を補助する音声（マスカ音出力装置３に出力しているマスカ音や、その一部）を要求がなされた音声端末１に送信する。これにより、マスカ音を補助する音声がユーザの直近で出力されるため、仮にマスカ音出力装置３から出力されるマスカ音の音量が低くとも、十分なマスキング効果を得ることができる。
【００３９】
また、本実施形態に示す音声端末１は、マイク１１を備えており、対話カウンタ内におけるスタッフ９１およびユーザ９０の発話音声を収音することができるようになっている。マイク１１は、収音した音声に係るアナログ音声信号をＡ／Ｄコンバータ１２に出力する。Ａ／Ｄコンバータ１２は、入力されたアナログ音声信号をデジタル音声信号に変更し、制御部１６に出力する。制御部１６は、入力されたデジタル音声信号をそのまま、あるいはＭＰ３等の圧縮データにエンコードし、通信部１７を介してサーバ５に送信する。
【００４０】
サーバ５に送信された対話カウンタ内の会話音声に係る音データは、制御部５２を介してコンテンツ記憶部５５に録音データとして蓄積される。このサーバ５に送信された音データは、マスカ音生成部５３において、撹乱音の生成に用いられる。あるいは、ユーザが自宅のＰＣ等を用いてインターネットを経由して録音データを読み出し、会話内容（例えば薬の説明）を再度聞き直すこともできる。
【００４１】
図５（Ａ）は、音声端末１で収音された音声信号に係る音データをサーバ５に送信し、サーバ５がマスカ音を生成する場合のサーバ５、音声端末１、およびマスカ音出力装置３の動作を示したフローチャートである。まず、音声端末１の制御部１６は、所定レベル（ノイズと区別できる程度のレベル）以上の音声信号が入力され、マイク１１で音声を収音したか否かを判断する（ｓ１）。制御部１６は、音声を収音していると判断した場合（ｓ１，Ｙｅｓ）、入力した音声信号をそのまま、あるいはＭＰ３等の圧縮データにエンコードし、サーバ５に送信する（ｓ２）。サーバ５の制御部５２は、音声端末１から送信された音声信号（音データ）を受信し（ｓ３）、録音データとしてコンテンツ記憶部５５に記憶する（ｓ４）。
【００４２】
なお、複数の音声端末１から音声信号（音データ）を受信する場合、それぞれの録音データを区別できるようにコンテンツ記憶部５５に記憶しておくことが好ましい。例えば、各ユーザ９２が受付場所のスタッフ９３から音声端末１を受け取るとき、ユーザ毎に固有の識別情報（ＩＤ）を発行する。各ユーザ９２が呼び出しを受けて対話カウンタ内に行くと、対話カウンタ内のスタッフ９１は、このスタッフ９１の付近に設置された専用の端末（不図示）を操作して各ユーザの識別情報、およびそのユーザが使用している音声端末１の識別情報（製造番号等）をサーバ５に送信する。あるいは、ユーザ９２から受け取った音声端末１を操作して、各ユーザの識別情報の送信を行う。そして、音声端末１は、上記ｓ３の処理において、自身の識別情報（製造番号等）を音声信号とともに送信する。サーバ５は、受信した音声信号、ユーザの識別情報、および音声端末１の識別情報を対応づけてコンテンツ記憶部５５に記憶する。これにより、後述（図５（Ｂ））の録音データの再生動作において、各ユーザが再生する録音データを識別することができる。なお、後述（図５（Ｂ））の録音データの再生動作を実行しない場合、音声端末１から受信した音声信号は、マスカ音生成のために一時的に保持するだけでよく、コンテンツ記憶部５５に録音データとして蓄積する必要はない。
【００４３】
次に、制御部５２は、マスカ音（撹乱音）を生成する処理を行う（ｓ５）。ここで、撹乱音は、現在会話が行われている対話カウンタ内で収音された音声信号から生成することが好ましい。すなわち、現時点で音声端末１から受信している音声信号を、時間軸上あるいは周波数軸上で改変し、撹乱音を生成する処理を行う。生成した撹乱音は、コンテンツ記憶部５３に記憶されている他の音データ（背景音や効果音）と合成してマスカ音とする。無論、コンテンツ記憶部５５に記憶されている録音データのうち、最新の録音データを読み出して撹乱音を生成するようにしてもよい。また、複数の音声端末１から音声信号（話者の音声）を受信した場合、これら複数の音声信号を合成（ミキシング）した後に時間軸上あるいは周波数軸上で改変し、撹乱音を生成することが好ましい。
【００４４】
その後、制御部５２は、生成したマスカ音をマスカ音出力装置３に出力する（ｓ６）。マスカ音出力装置３は、サーバ５が送信したマスカ音を受信し（ｓ７）、再生処理を行う（ｓ８）。以上のようにして対話カウンタ内の会話音声に応じた最適な撹乱音を生成することができる。
【００４５】
次に、図５（Ｂ）は、会話内容の記録をする場合のサーバ５、および他の情報処理装置（例えば自宅ＰＣ）の動作を示したフローチャートである。同図に示す自宅ＰＣの動作は、当該自宅ＰＣにインストールされたアプリケーションや、ＷＥＢブラウザ上の特定のスクリプト等によって実現される。自宅ＰＣのハードウェア構成は、一般的なパーソナルコンピュータと同様であるため、図示および説明を省略する。
【００４６】
まず、自宅ＰＣは、各ユーザが自宅ＰＣを操作して、録音データの再生指示を行ったか否かを判断する（ｓ７１）。例えば、各ユーザが上記アプリケーションを操作して、固有の識別情報（ＩＤ）を入力したか否かを判断する。ＩＤが入力されて録音データの再生指示が行われた場合（ｓ７１、Ｙｅｓ）、自宅ＰＣは、インターネットを経由して、入力されたＩＤをサーバ５に送信する（ｓ７２）。サーバ５は、自宅ＰＣからＩＤを受信し（ｓ７３）、コンテンツ記憶部５５に記憶されている録音データのうち、受信したＩＤに対応づけられている録音データを読み出す（ｓ７４）。そして、読み出した録音データを自宅ＰＣに送信する（ｓ７５）。自宅ＰＣは、送信された録音データを受信し（ｓ７６）、再生処理を行う（ｓ７７）。なお、各ＩＤに対応づけられている録音データが複数蓄積されている場合、サーバ５は、ｓ７３の処理の後に、録音データのリスト（録音日時等の一覧情報）を自宅ＰＣに送信し、どの録音データを再生するのかを受け付ける処理を行う。ユーザが自宅ＰＣを操作して、受信したリストから再生したい録音データを選択すると、選択した録音データがサーバ５から自宅ＰＣに送信される。
【００４７】
このようにして、音声端末１を用いて録音した会話内容は、録音データとしてサーバ５に蓄積しておくことにより、ユーザやユーザの家族等が、自宅ＰＣを用いて会話内容を再生させることが可能となり、薬の説明や注意事項等を再確認することができる。
【００４８】
次に、図６および図７のフローチャートを参照して、ユーザが銀行や薬局等で受付を行って音声端末１を受け取った場合のサーバ５と音声端末１の動作を詳細に説明する。図６および図７に示す動作は、音声端末１の電源が投入されると開始される。例えば、ユーザが受付カウンタで音声端末を受け取るときに、スタッフ９３が音声端末１の電源を投入するため、これらの動作が開始される。また、ユーザが操作部１８の各ボタンを押下したときにもこれらの動作が開始される。
【００４９】
まず、図６において、音声端末１の制御部１６は、ユーザが操作部１８の各種チャンネルボタンを押下し、チャンネル指定がなされているか否かを確認する（ｓ１１）。制御部１６は、チャンネル指定がなされていれば（ｓ１１、Ｙｅｓ）、サーバ５に該当チャンネルの音データの配信要求を行う（ｓ１２）。サーバ５の制御部５２は、配信要求を受信すると（ｓ１３）、要求されているチャンネルのコンテンツの音データを、要求がなされた音声端末１に送信する（ｓ１４）。そして、音声端末１は、送信されたコンテンツの音データを受信し（ｓ１５）、再生処理を行う（ｓ１６）。
【００５０】
一方、制御部１６は、チャンネル指定がなされていない（ｓ１１、Ｎｏ）、すなわち「ＯＦＦ」のボタンが押下されていた場合や、電源投入直後である場合、マスカ音を補助する音声の配信要求を行う（ｓ１７）。サーバ５の制御部５２は、配信要求を受信すると（ｓ１８）、マスカ音を補助する音声（例えばマスカ音出力装置３に送信しているマスカ音の音データとおなじもの）を、要求がなされた音声端末１に送信する（ｓ１９）。そして、音声端末１は、送信されたマスカ音を補助する音声（音データ）を受信し（ｓ２０）、再生処理を行う（ｓ２１）。
【００５１】
なお、図６の例では、チャンネル指定がなされていないとき、および電源投入直後である場合にマスカ音を補助する音声を出力する例を示したが、電源投入後から最初にチャンネル指定が行われるまでは、所定のコンテンツ（例えば宣伝広告チャンネル）の音声を出力する態様としてもよい。
【００５２】
次に、図７において、サーバ５の制御部５２は、呼び出し端末の指定がなされたか否かを判断する（ｓ３１）。この呼び出し端末の指定は、例えば対話カウンタ内のスタッフ９１の付近に設置された専用の端末（不図示）を操作することで行われる。このとき、呼び出し対象ユーザの指定も行われる。あるいは、対話カウンタ内のスタッフ９１がユーザ９０から音声端末１の返却を受け、説明が終了してユーザ９０が退席したのちに、この返却を受けた音声端末１を操作して、呼び出し対象を指定する態様としてもよい。スタッフ９１が呼び出し操作を行うと、専用の端末（あるいは音声端末１）からサーバ５に呼び出し信号が送信され、ｓ３１の判断においてＹｅｓに進むことになる。
【００５３】
制御部５２は、呼び出し対象の音声端末１に対して呼び出し音声に係る音データを送信する（ｓ３２）。そして、呼び出し対象の音声端末１は、呼び出し音声に係る音データを受信し（ｓ３３）、呼び出し音声を再生する（ｓ３４）。
【００５４】
以上の様にして、本実施形態の音声出力システムでは、マスカ音出力装置３からある程度の音量でマスカ音を出力し、マスキング効果を確保しながら、ユーザが携帯する音声端末１から呼び出し音声を出力して必要な音声を適切な音量で聞くことができる。
【００５５】
なお、本実施形態では、サーバ５からマスカ音出力装置３にマスカ音に係る音データをダウンロード（あるいはストリーミング）する例を示したが、マスカ音出力装置３内に記憶部を設け、内部の記憶部からマスカ音に係る音データを読み出す態様も可能である。また、この場合、マスカ音出力装置３には、通信機能が不要になる。
【００５６】
また、音声端末１は、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的な携帯電話等の携帯端末およびソフトウェアを用いて実現することが可能である。
【００５７】
また、マスカ音出力装置３やサーバ５についても、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。
【００５８】
また、本実施形態では、表示装置７に表示されるコンテンツに関する音声が音声端末
から出力される例を示したが、表示装置７がなくとも、所定のコンテンツ（例えば音楽等）を出力することも可能である。
【符号の説明】
【００５９】
１…音声端末
３…マスカ音出力装置
５…サーバ
７…表示装置
１１…マイク
１２…Ａ／Ｄコンバータ
１３…信号処理部
１４…Ｄ／Ａコンバータ
１５…スピーカ
１６…制御部
１７…通信部
１８…操作部
３１…通信部
３２…制御部
３３…信号処理部
３４…Ｄ／Ａコンバータ
３５…スピーカ

【特許請求の範囲】
【請求項１】
マスカ音を出力するマスカ音出力装置と、
ユーザによって携帯される端末装置と、
を備えた音声出力システムであって、
前記マスカ音出力装置は、前記ユーザに対してマスカ音を出力するように設置され、
前記端末装置は、前記ユーザ毎に必要な音声を出力する音声出力手段を備えたことを特徴とする音声出力システム。
【請求項２】
前記端末装置の音声出力手段は、前記マスカ音を補助する音声を出力することを特徴とする請求項１に記載の音声出力システム。
【請求項３】
前記端末装置の音声出力手段は、所定のコンテンツの音声を出力することを特徴とする請求項１または２に記載の音声出力システム。
【請求項４】
前記端末装置は、ユーザから前記コンテンツの選択を受け付ける受付手段を備え、
前記音声出力手段は、前記受付手段で選択されたコンテンツの音声を出力することを特徴とする請求項３に記載の音声出力システム。
【請求項５】
前記端末装置は、ユーザから前記コンテンツの選択を受け付ける受付手段を備え、
前記音声出力手段は、前記受付手段でコンテンツの選択を受け付けなかった場合に、前記マスカ音を補助する音声を出力する請求項２に記載の音声出力システム。
【請求項６】
コンテンツの映像を表示する表示装置をさらに備え、
前記音声出力手段は、前記表示装置に表示される映像に対応するコンテンツの音声を出力することを特徴とする請求項２乃至請求項５のいずれかに記載の音声出力システム。

【図１】