説明

音声出力システム

【課題】聴取者の位置が変化する場合であっても、十分なマスキング効果を得ることができる音声出力システムを提供する。
【解決手段】送信機3の制御部36は、センサ32からユーザの存在を検出した旨の信号が入力されると、マスカ音に係る音データを通信部31を介して送信する。音声端末1の制御部16は、通信部17を介してマスカ音に係る音データを受信し、再生処理を行う。
また、送信機3の制御部36は、マイク33で発話音声を収音したタイミングを示す情報を送信する。制御部16は、通信部17を介して受信した送信機3の発話音声を収音したタイミングを示す情報と、自装置のマイク11で発話音声を収音したタイミングと、の時間差を計算する。制御部16は、この時間差から、送信機3と音声端末1との距離を計算し、音量減衰率を計算する。制御部16は、計算した音量減衰率に応じてマスカ音の音量を調整する。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、ユーザによって携帯される端末装置と、当該端末装置に各種情報を送信する送信機と、からなる音声出力システムに関するものである。
【背景技術】
【0002】
従来、同一空間内で複数の音声コンテンツを再生する場合に、それぞれの音声コンテンツの再生音が、相互に影響を及ぼしあうことを抑制するものが提案されている(例えば特許文献1を参照)。特許文献1の装置では、他のエリアでコンテンツが再生されていないときは音量を下げ、他のエリアでコンテンツが再生されると音量を上げるものである。
【0003】
また、近年、銀行や調剤薬局等の対話カウンタにスピーカを取り付け、話者の音声と関連性の低い音声をマスカ音として出力することにより、順番を待つ他の人に話者の音声(会話内容)を聞き取り難くしたものが知られている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008−76985号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
マスカ音は、音量が小さいとマスキング効果を得ることが難しくなる。したがって、マスカ音はある程度の音量で出力する必要があるが、マスカ音の音量が大きすぎると不快感を覚える、あるいは聞きたい音(例えば呼び出し音声)を聞くことができなくなってしまう。特に、特許文献1の装置のように、スピーカが固定設置されていると、聴取者の移動によって聴取者が聴取するマスカ音の音量が変化し、最適な音量でマスカ音を聞くことが困難であった。
【0006】
そこで、本発明は、聴取者の位置が変化する場合であっても、十分なマスキング効果を得ることができる音声出力システムを提供することを目的とする。
【課題を解決するための手段】
【0007】
この発明の音声出力システムは、ユーザによって携帯される端末装置と、前記端末装置に情報を送信する送信機と、を備えている。送信機は、前記端末装置に対して前記情報を送信する送信手段と、話者の存在を検出する話者検出手段と、を備えている。端末装置は、前記送信機から受信した情報に応じてマスカ音を出力する音声出力手段と、前記マスカ音の音量を調整する音量調整手段と、を備えている。
【0008】
送信機は、前記話者の存在を検出したとき、前記送信手段を介してマスカ音を出力させる情報を送信し、前記端末装置の音声出力手段は、前記マスカ音を出力させる情報を受信したとき、前記マスカ音を出力する。マスカ音を出力させる情報とは、マスカ音そのもの(マスカ音に係る音データ)であってもよいし、マスカ音を出力するためのトリガ信号(マスカ音の出力を指示する情報)であってもよい。また、音量調整手段は、話者の発話音声の自装置に至るまでの音量減衰率を計算し、計算した音量減衰率に応じて前記マスカ音の音量を調整する。
【0009】
以上の構成により、マスカ音は、ユーザが携帯する端末装置(音声端末)からユーザの直近位置で出力されるため、ユーザの位置が変化する場合であっても十分なマスキング効果を得ることができる。さらに、マスカ音は、話者音声の音量減衰率に応じて音量が調整される。例えば、話者音声の音量減衰率が小さい(話者との距離が近い)場合は、音量が大きくなり、話者音声の音量減衰率が大きい(話者との距離が遠い)場合は、音量が小さくなる。したがって、出力されるマスカ音は、各ユーザの位置に応じて適切な音量に自動設定されるため、聴取者の不快感を低減しながらも十分なマスキング効果を得ることができる。
【0010】
また、送信手段は、所定領域内に対して前記情報を送信するように、指向性を有する電波を送受信する無線通信部であることが好ましい。この場合、話者音声が聞こえる範囲にのみ電波が届くような指向性を設定すれば、マスカ音は、送信機が情報を送信可能な範囲(所定領域内)でのみ出力されるため、話者音声がなく、マスカ音が不要な状況では、マスカ音が出力されない。
【0011】
なお、本発明の音声出力システムでは、音量減衰率を計算するために、以下の様な構成を備えている。すなわち、送信機は、前記話者の発話音声を収音する送信側収音手段を備え、前記端末装置は、前記話者の発話音声を収音する端末側収音手段を備えている。そして、送信機は、前記送信側収音手段で前記発話音声を収音したタイミングを示す情報を送信し、音量調整手段は、前記送信機から受信した前記発話音声を収音したタイミングを示す情報と、前記端末側収音手段で前記発話音声を収音したタイミングと、から前記音量減衰率を計算する。
【0012】
このように、本発明の音声出力システムでは、送信機および端末装置のそれぞれにおいて、話者音声を収音したタイミングを調べる。端末装置は、各タイミングの時間差から送信機と端末装置との距離を計算する。音量は、距離の2乗に反比例して減衰するため、送信機から端末装置までの音量減衰率を正確に計算することができる。送信機は、話者の近く(例えば対話カウンタ内)に設置されるため、送信機から端末装置までの音量減衰率は、発話者から端末装置までの音量減衰率とほぼ同一になる。したがって、発話音声の音量減衰率に応じた適切な音量でマスカ音が出力されることになる。
【0013】
また、音量減衰率は、実際の話者音声から算出するだけでなく、テスト音を用いてマスカ音を出力する前に算出することが好ましい。この場合、送信機は、テスト音を出力するテスト音出力手段をさらに備え、話者の存在を検出するよりも前に前記テスト音を出力し、前記送信側収音手段で前記テスト音を収音したタイミングを示す情報を送信する。端末装置の音量調整手段は、前記送信機から受信した前記テスト音を収音したタイミングを示す情報と、前記端末側収音手段で前記テスト音を収音したタイミングと、から前記音量減衰率を計算する。このように、事前に音量減衰率を計算することで、実際に話者が音声を発した時点から適切な音量のマスカ音が出力されることになり、より適切なマスキング効果を得ながら不快感を低減することができる。
【0014】
また、音声出力手段から出力され、前記端末側収音手段に至るエコー成分を除去するエコー除去手段を備えていることが好ましい。
【0015】
なお、端末装置は、マスカ音を出力するだけでなく、銀行や薬局等で順番が来たときに呼び出し音声(必要な音声)を出力する無線呼び出し(いわゆるページャ)の機能を有することが好ましい。このように、ユーザが携帯する端末装置から呼び出し音声を出力することで、適切なマスキング効果を得ながら、ユーザ毎に必要な音声を適切な音量で聞くことができる。
【発明の効果】
【0016】
この発明によれば、十分なマスキング効果を得ることができ、かつユーザが聞きたい音を適切な音量で聞くことができる。
【図面の簡単な説明】
【0017】
【図1】音声出力システムの構成を示す配置図である。
【図2】図2(A)は、音声端末の構成を示すブロック図であり、図2(B)は、音声端末の外観図である。
【図3】送信機の構成を示すブロック図である。
【図4】サーバの構成を示すブロック図である。
【図5】図5(A)は、収音された音声信号をサーバに送信する場合のサーバ、および送信機の動作を示したフローチャートであり、図5(B)は、会話内容の記録をする場合のサーバ、および他の情報処理装置(例えば自宅PC)の動作を示したフローチャートである。
【図6】送信機と音声端末の動作を示すフローチャートである。
【図7】サーバと音声端末の動作を示すフローチャートである。
【発明を実施するための形態】
【0018】
図1は、音声出力システムの概要を示す配置図である。音声出力システムは、例えば銀行や調剤薬局等の対話カウンタおよび待合場所に設置される。図1においては、3つの対話カウンタにそれぞれユーザ90およびスタッフ91が存在し、各対話カウンタに送信機3(図1の例では、送信機3A、送信機3Bおよび送信機3Cの3台を示す。)が設置されている例を示している。対話カウンタから離れた待合場所には、複数のユーザ92が存在する。スタッフ91は、例えば薬の説明を行う薬剤師であり、ユーザ90は薬の説明を聞く患者であり、ユーザ92は順番待ちの患者である。
【0019】
各ユーザ92は、受付場所のスタッフ93から音声端末1を受け取り、携帯する。この音声端末1には、スピーカが設けられており、マスカ音が放音される。このマスカ音は、対話カウンタ内で会話を行う者の発言内容をマスクし、待合場所に居る者に発言内容を理解できないようにするものである。マスカ音を出力するために必要な各種情報は、対話カウンタに設置されている送信機3から無線で送信される。送信機3は、無線送信範囲が限られ、送信可能範囲(所定領域内)にブロードキャストで各種情報を送信する。
【0020】
図1の例では、対話カウンタ左端の送信機3Aが音声端末1A(待合場所左端の2名のユーザ92がそれぞれ携帯)に各種情報を送信し、対話カウンタ中央の送信機3Bが音声端末1B(待合場所中央の2名のユーザ92がそれぞれ携帯)に各種情報を送信し、対話カウンタ右側の送信機3Cが音声端末1C(待合場所右側の3名のユーザ92がそれぞれ携帯)に各種情報を送信することになる(なお、音声端末1A、音声端末1B、および音声端末1Cは全て同じ構成、機能を有する)。
【0021】
したがって、マスカ音は、各送信機が情報を送信可能な範囲(所定領域内)でのみ出力されることになり、各ユーザ90が対話カウンタから離れて話者音声が聞こえなくなる領域に移動してマスカ音が不要な状況となった場合には、マスカ音が出力されない。このように送信範囲を絞り込むためには、例えば、各送信機3の無線通信部(図3の通信部31)に指向性を持たせることで実現可能である。ただし、送信範囲を絞り込むことは本発明において必須の構成ではなく、各送信機が無指向性の無線通信部を有し、待合場所全体に情報を送信する態様であってもよい。
【0022】
また、音声端末1からは、各ユーザ92の順番が来たときに呼び出し音声(合成音声やスタッフの実音声、あるいはビープ音等)が出力される。呼び出し音声を出力するために必要な各種情報は、サーバ5から送信される。ユーザ92は、呼び出し音声を聞くことで順番が来たことを知ることができる。順番が来たユーザ92は、音声端末1を携帯して対話カウンタに向かい、対話カウンタ内でスタッフ91に音声端末1を返却する。このようにして、音声端末1は、無線呼び出し(いわゆるページャ)の機能を有する。
【0023】
本実施形態の音声出力システムは、このようにして、ユーザが携帯する音声端末1からマスカ音および呼び出し音声を出力することで、適切なマスキング効果を得ながら、ユーザ毎に必要な音声(本実施形態では呼び出し音声)を適切な音量で聞くことができる。
【0024】
以下、上記の音声出力システムを実現するための具体的な構成、動作について説明する。図2(A)は、音声端末1の構成を示すブロック図であり、図2(B)は、音声端末1の外観図である。図3は、送信機3の構成を示すブロック図であり、図4は、サーバ5の構成を示すブロック図である。
【0025】
音声端末1は、マイク11、A/Dコンバータ12、信号処理部13、D/Aコンバータ14、スピーカ15、制御部16、通信部17、操作部18、およびエコーキャンセラ19を備えている。
【0026】
送信機3は、通信部31、センサ32、マイク33、A/Dコンバータ34、操作部35、制御部36、マスカ音記憶部37、およびマスカ音生成部38を備えている。
【0027】
サーバ5は、通信部51、制御部52、およびコンテンツ記憶部53を備えている。
【0028】
音声端末1は、通信部17を介して送信機3およびサーバ5と各種情報を送受信する。ここでは、まず、送信機3から音声端末1に、マスカ音を出力させるための情報として、マスカ音に係る音データを送信する例について説明する。
【0029】
送信機3のセンサ32は、赤外線センサ等の物体の存在を検出するセンサであり、図1の例では、例えば対話カウンタ内の机やパーティション等に取り付けられ、ユーザ90の在否を検出する。
【0030】
制御部36は、センサ32からユーザの存在を検出した旨の信号が入力されると、話者が存在する(ユーザ90が対話カウンタ内に移動してスタッフ91と会話が行われる)と判断し、マスカ音生成部38にマスカ音の生成を指示する。マスカ音生成部38が生成したマスカ音に係る音データは、通信部31を介してブロードキャスト送信される。通信部31は、指向性を有した無線通信部であるため、所定領域内の音声端末1にのみマスカ音に係る音データを送信することになる。
【0031】
マスカ音生成部38は、マスカ音記憶部37に記憶されている各種音データを読み出してマスカ音に係る音データを生成し、制御部36に出力する。マスカ音は、音声をマスクすることが可能な音であればどの様な音であってもよいが、例えば、マスカ音記憶部37に記憶されている撹乱音、背景音、および演出音を組み合わせて生成する。
【0032】
撹乱音は、マスク対象の音声を撹乱する音であり、人の音声を時間軸上あるいは周波数軸上で改変し、語彙的に何ら意味をなさない(内容が理解できない)ようにしたものである。撹乱音が人の音声を時間軸上で改変したものである場合、予め特定の話者の音声(男性および女性を含む複数人の音声)を録音し、所定時間毎に一定長の区間に分割した音声信号を各区間で逆方向に読み出す等して、語彙的に意味をなさない音声に変更する。周波数軸上で改変する場合、スペクトル包絡のピーク(フォルマント)を抽出し、語彙に影響する特定のフォルマントを変更して語彙的に意味をなさない音声に変更する。
【0033】
なお、撹乱音は、送信機3のマイク33を用いて、対話カウンタ内の話者の音声を取得して、取得した音声を時間軸上または周波数軸上で改変することにより、都度、生成することが望ましい。
【0034】
背景音は、例えば小川のせせらぎや木々のざわめき等、聴取者が聴覚的に注目し難く、不快感のない音である。これにより、暗騒音レベルを上げ、撹乱音の違和感を目立たなくする。
【0035】
演出音は、断続的に発生する楽音等の演出性の高い音である。これにより、聴取者の注意を演出音にも向けさせ、聴覚心理的に撹乱音の違和感を目立たなくする。これらの撹乱音、背景音、および演出音を組み合わせたマスカ音をユーザ92に聴取させることで、話者の音声をマスクしつつ、不快感を低減することが可能となる。
【0036】
なお、マスカ音記憶部37に記憶されている撹乱音、背景音、および演出音に係る音データは、それぞれ1つに限らず、複数の音データであってもよい。この場合、マスカ音生成部38は、複数の音データから特定の音データを選択して読み出す。複数の音データが記憶されている場合、予め規定された組み合わせテーブル(マスカ音記憶部37に記憶されたテーブル)に従って選択する態様としてもよい。また、テーブルには、各音の音量や読み出しタイミング等を記載しておき、各音の音量や読み出しタイミングを個別に変更する態様としてもよい。また、各音データを予め合成済みのマスカ音として記憶しておき、再生するように構成することも可能である。
【0037】
送信機3は、このようなマスカ音に係る音データを生成し、通信部31からブロードキャスト送信する。なお、マスカ音記憶部37およびマスカ音生成部38は、音声端末1に内蔵され、音声端末1内にてマスカ音を生成するようにしてもよい。この場合、送信機3からは、マスカ音を出力させるための情報として、マスカ音の出力を指示する情報(トリガ信号)が送信され、音声端末1の制御部16が内蔵のマスカ音生成部38にマスカ音の生成を指示する。
【0038】
マスカ音に係る音データが送信機3から送信された場合、音声端末1の制御部16は、通信部17を介してマスカ音に係る音データを受信し、再生処理を行う。例えば、マスカ音に係る音データがエンコードされた圧縮データであればデコードし、デジタル音声信号に変換し、信号処理部13に出力する。信号処理部13に入力されたデジタル音声信号は、音量や周波数特性等が調整され、D/Aコンバータ14に出力され、D/Aコンバータ14でアナログ音声信号に変換された後、スピーカ15から放音される。このようにして、待合場所に居る各ユーザ92にマスカ音が出力される。なお、音声端末1が複数の送信機3の電波送信範囲が重複する位置に存在した場合、あるいは通信部31が無指向性の無線通信部である場合、音声端末1は、複数の送信機3からマスカ音に係る音データを受信する場合がある。この場合、制御部16は、各音データをそれぞれ再生する処理を行い、音声端末1からは複数のマスカ音が出力されることになる。ただし、いずれか1つのマスカ音のみ再生し、1種類のマスカ音のみ出力する態様としてもよい。
【0039】
なお、図2(B)に示すように、音声端末1は、「1」、「2」、「3」および「OFF」と表示されたボタンを備えている。ユーザは、これらのボタンを押下することで、後述のコンテンツ音を選択したり、どのマスカ音を出力するかを選択したりすることができる。例えば、上記のように、複数の送信機3から音データを受信する場合には、どの音データを再生するのかを選択することができる。
【0040】
また、マスカ音の種類(例えば背景音が異なるものや演出音が異なるもの)を選択することも可能である。ただし、マスカ音の種類を選択するためには、マスカ音記憶部37およびマスカ音生成部38を音声端末1に内蔵し、音声端末1内にてマスカ音を生成するものとする。この場合、例えば、「1」のボタンを押下すると、背景音として小川のせせらぎが出力される、「2」のボタンを押下すると、背景音として木々のざわめきが出力される、という態様が可能である。あるいは、例えば、「1」のボタンを押下すると、「撹乱音」だけが出力され、「2」のボタンを押下すると「撹乱音+背景音」が出力され、「3」のボタンを押下すると「撹乱音+背景音+演出音」が出力される、という態様も可能である。
【0041】
次に、呼び出し音声を出力するための各種装置の構成および動作について説明する。音声端末1は、通信部17を介してサーバ5の通信部51と接続され、サーバ5から呼び出し音声に係る音データを受信する。
【0042】
サーバ5の制御部52は、コンテンツ記憶部53からコンテンツに係る音データ(ここでは、呼び出し音声に係る音データ)を読み出し、通信部51を介して音声端末1に送信する。通信部51は、待合場所全体に電波を送受信可能な無線通信部であり、呼び出し音声に係る音データをユニキャストで送信する。呼び出し端末の指定は、例えば送信機3の操作部35を用いて行われる。送信機3は、サーバと通信を行う不図示の通信部(有線または無線)を通信部31とは別途備えており、このサーバ通信部を介してサーバ5に呼び出しを行うユーザ(音声端末)を指定する情報を送信する。あるいは、通信部31が無指向性の無線通信部である場合は、この通信部31を介してサーバ5にユーザを指定する情報を送信する。そして、サーバ5の制御部52は、呼び出し音声に係る音データを音声端末1に送信する。なお、通信部31が無指向性の無線通信部である場合は、送信機3から直接、呼び出し対象の音声端末1に呼び出し音声に係る音データを送信してもよい。
【0043】
音声端末1の制御部16は、通信部17を介して呼び出し音声に係る音データを受信し、上述のマスカ音の再生処理と同様にして呼び出し音声の再生処理を行う。このようにして、待合場所に居る各ユーザ92に呼び出し音声が出力される。
【0044】
なお、サーバ5は、待合場所に設置された表示装置(不図示)にコンテンツを表示するとともに、これらコンテンツの音声に係る音データを送信することも可能である。この場合、サーバ5の制御部52は、コンテンツ記憶部53からコンテンツに係る音データおよび映像データを読み出し、コンテンツに係る音データを通信部51を介して音声端末1に送信するとともに、表示装置に映像データを出力する。表示装置が複数設けられている場合、コンテンツに係る音データおよび映像データを複数種類記憶し、同時に表示装置の数だけ読み出し、各映像データを各表示装置に出力するとともに、音データは、全音声端末1にブロードキャスト送信する。あるいは、音声端末1から要求がなされた音データを読み出し、ユニキャストで送信する。上述のように、音声端末1には、「1」、「2」、「3」、および「OFF」と表示されたボタンを備えている。例えばユーザが「1」と表示されたボタンを押下すると、制御部16は、ch.1のコンテンツの音データの再生を行う。あるいは、制御部16は、ch.1のコンテンツの音データの配信要求を行い、サーバ5からch.1のコンテンツの音データを受信し、再生する。また、「OFF]のボタンを押下すると、コンテンツの音声の出力を停止することも可能である。なお、この場合においても、マスカ音は、コンテンツの音声の出力の有無および種類に関わらず常に出力される。
【0045】
次に、マスカ音の音量調整機能について説明する。本実施形態に示す送信機3および音声端末1には、それぞれマイクが設けられている。送信機3のマイク33および音声端末1のマイク11は、対話カウンタ内におけるスタッフ91およびユーザ90の発話音声を収音することができるようになっている。
【0046】
送信機3のマイク33は、収音した音声に係るアナログ音声信号をA/Dコンバータ34に出力する。A/Dコンバータ34は、入力されたアナログ音声信号をデジタル音声信号に変更し、制御部36に出力する。
【0047】
制御部36は、入力されたデジタル音声信号を解析し、発話音声が入力されたか否かを判断する。例えば、所定レベル(ノイズと区別できる程度のレベル)以上の音声信号が入力された場合に発話音声が収音されたと判断する。制御部36は、発話音声が収音されたと判断した場合、マイク33で発話音声を収音したタイミングを示す情報を通信部31から送信する。
【0048】
一方、音声端末1のマイク11も、収音した音声に係るアナログ音声信号をA/Dコンバータ12に出力する。A/Dコンバータ12は、入力されたアナログ音声信号をデジタル音声信号に変更し、エコーキャンセラ19に出力する。エコーキャンセラ19は、スピーカ15から出力され、マイク11に至るエコー成分を除去する。例えば、エコーキャンセラ19は、スピーカ15からマイク11に至る音響帰還経路を模擬したFIRフィルタを備え、スピーカ15に出力する音声信号をフィルタ処理し、擬似エコー信号を生成する。エコーキャンセラ19は、生成した擬似エコー信号をマイク11の出力する音声信号から除去し、エコー成分だけを除去する。エコーキャンセラ19は、エコー成分を除去した後の音声信号を信号処理部13に出力する。なお、エコーキャンセラ19は、信号処理部13に出力する信号と、スピーカ15に出力する音声信号とを対比し、除去しきれなかったエコー成分がゼロとなるように、FIRフィルタのフィルタ係数を更新する。
【0049】
制御部16は、通信部17を介して受信した送信機3の発話音声を収音したタイミングを示す情報と、自装置のマイク11で発話音声を収音したタイミングと、の時間差を計算する。この時間差から、送信機3と音声端末1との距離を計算することができる。音量は、距離の2乗に反比例して減衰するため、送信機3から音声端末1までの音量減衰率を正確に計算することができる。送信機3は、対話カウンタ内に設置され、発話者の直近に設置されているため、送信機3と音声端末1との距離は、ほぼ発話者(ユーザ90またはスタッフ91)と聴取者(ユーザ92)との距離と同一になる。したがって、制御部16は、発話者の音声がどの程度減衰して聴取者に到達するのかを知ることができる。そこで、制御部16は、計算した音量減衰率に応じてマスカ音の音量を調整する。例えば、音量減衰率が0のときに最大音量(音声端末1が有する最大出力)でマスカ音を出力する設定とし、音量減衰率が閾値(例えば80%程度の減衰率)以上となった場合に最小音量となるように設定し、音量を調整する。したがって、マスカ音の音量は、対話カウンタ(話者)との距離に応じて調整されることになる。例えば、話者音声の音量減衰率が小さい(話者との距離が近い)場合は、音量が大きくなり、話者音声の音量減衰率が大きい(話者との距離が遠い)場合は、音量が小さくなる。したがって、各ユーザの位置に応じて必要なマスカ音の音量が自動設定されることになり、聴取者の不快感を低減しながらも十分なマスキング効果を得ることができる。
【0050】
なお、制御部36は、発話音声を収音したタイミングを示す情報に代えて、マイク33で収音した発話音声のレベル(振幅)を示す情報を送信し、制御部16は、マイク11で収音した発話音声のレベル(振幅)と、受信した送信機3における発話音声のレベル(振幅)を示す情報と、から音量減衰率を計算してもよい。この場合、最も高レベル(ピーク)の振幅値から音量減衰率を計算してもよいし、ピーク前後の振幅値をある程度の時間幅で積分したもの(パワー)から音量減衰率を計算してもよい。
【0051】
なお、送信機3の制御部36(または音声端末1の制御部16)は、マイク33(または音声端末1のマイク11)で収音した音声信号をそのまま、あるいはMP3等の圧縮データにエンコードし、サーバ5に送信する動作を行ってもよい。この場合、サーバ5に送信された対話カウンタ内の会話音声に係る音データは、制御部52を介してコンテンツ記憶部53に録音データとして蓄積される。このサーバ5に送信された音データは、例えば、ユーザが自宅のPC等を用いてインターネットを経由して録音データを読み出し、会話内容(例えば薬の説明)を再度聞き直すことに利用される。
【0052】
図5(A)は、送信機3で収音された音声信号に係る音データをサーバ5に送信する場合のサーバ5、および送信機3の動作を示したフローチャートである。同図(A)では、送信機3の例を示すが、音声端末1からサーバ5に音データを送信する場合、音声端末1は、同図(A)の送信機3と同じ動作を行う。
【0053】
まず、送信機3の制御部36は、所定レベル(ノイズと区別できる程度のレベル)以上の音声信号が入力され、マイク33で音声を収音したか否かを判断する(s1)。制御部36は、音声を収音していると判断した場合(s1,Yes)、入力した音声信号をそのまま、あるいはMP3等の圧縮データにエンコードし、サーバ5に送信する(s2)。サーバ5の制御部52は、送信機3から送信された音声信号(音データ)を受信し(s3)、録音データとしてコンテンツ記憶部53に記憶する(s4)。
【0054】
なお、複数の送信機3から音声信号(音データ)を受信する場合、それぞれの録音データを区別できるようにコンテンツ記憶部53に記憶しておくことが好ましい。例えば、各ユーザ92が受付場所のスタッフ93から音声端末1を受け取るとき、ユーザ毎に固有の識別情報(ID)を発行する。各ユーザ92が呼び出しを受けて対話カウンタ内に行くと、対話カウンタ内のスタッフ91は、送信機3の操作部35を操作して各ユーザの識別情報、および送信機3の識別情報(製造番号等)をサーバ5に送信する。そして、送信機3は、上記s3の処理において、自身の識別情報(製造番号等)を音声信号とともに送信する。サーバ5は、受信した音声信号、ユーザの識別情報、および送信機3の識別情報を対応づけてコンテンツ記憶部53に記憶する。これにより、後述(図5(B))の録音データの再生動作において、各ユーザが再生する録音データを識別することができる。
【0055】
次に、図5(B)は、会話内容の記録をする場合のサーバ5、および他の情報処理装置(例えば自宅PC)の動作を示したフローチャートである。同図に示す自宅PCの動作は、当該自宅PCにインストールされたアプリケーションや、WEBブラウザ上の特定のスクリプト等によって実現される。自宅PCのハードウェア構成は、一般的なパーソナルコンピュータと同様であるため、図示および説明を省略する。
【0056】
まず、自宅PCは、各ユーザが自宅PCを操作して、録音データの再生指示を行ったか否かを判断する(s71)。例えば、各ユーザが上記アプリケーションを操作して、固有の識別情報(ID)を入力したか否かを判断する。IDが入力されて録音データの再生指示が行われた場合(s71、Yes)、自宅PCは、インターネットを経由して、入力されたIDをサーバ5に送信する(s72)。サーバ5は、自宅PCからIDを受信し(s73)、コンテンツ記憶部53に記憶されている録音データのうち、受信したIDに対応づけられている録音データを読み出す(s74)。そして、読み出した録音データを自宅PCに送信する(s75)。自宅PCは、送信された録音データを受信し(s76)、再生処理を行う(s77)。なお、各IDに対応づけられている録音データが複数蓄積されている場合、サーバ5は、s73の処理の後に、録音データのリスト(録音日時等の一覧情報)を自宅PCに送信し、どの録音データを再生するのかを受け付ける処理を行う。ユーザが自宅PCを操作して、受信したリストから再生したい録音データを選択すると、選択した録音データがサーバ5から自宅PCに送信される。
【0057】
このようにして、送信機3を用いて録音した会話内容は、録音データとしてサーバ5に蓄積しておくことにより、ユーザやユーザの家族等が、自宅PCを用いて会話内容を再生させることが可能となり、薬の説明や注意事項等を再確認することができる。
【0058】
次に、図6および図7のフローチャートを参照して、ユーザが銀行や薬局等で受付を行って音声端末1を受け取った場合の音声端末1、送信機3、およびサーバ5の動作を詳細に説明する。図6および図7に示す動作は、音声端末1の電源が投入されると開始される。例えば、ユーザが受付カウンタで音声端末1を受け取るときに、スタッフ93が音声端末1の電源を投入するため、これらの動作が開始される。また、ユーザが操作部18の各ボタンを押下したときにもこれらの動作が開始される。
【0059】
まず、図6において、送信機3の制御部36は、センサ32でユーザが対話カウンタ内に移動して会話を行う状況になったか否かを判断する(s11)。制御部36は、センサ32でユーザの存在を検出したと判断すると(s11、Yes)、マスカ音を出力させる情報を送信する(s12)。ここでは、マスカ音に係る音データを送信する。その後、制御部36は、話者の音声を収音したか否かを判断する(s13)。話者の音声を収音したと判断した場合(s13、Yes)、当該送信機3で話者の音声を収音したタイミングを示す情報を送信する(s14)。
【0060】
一方、音声端末1の制御部16は、送信機3から送信されるマスカ音の音データを受信し(s21)、再生処理を行う(s22)。また、送信機3で話者の音声を収音したタイミングを示す情報を受信すると(s23)、自装置のマイク11で話者の音声を収音したか否かを判断し(s24)、話者の音声を収音したと判断した場合(s24、Yes)、送信機3で話者の音声を収音したタイミングと、自装置で話者の音声を収音したタイミングとの時間差から音量減衰率を計算する(s25)。そして、制御部16は、計算した音量減衰率でマスカ音の音量を調整する。なお、振幅値やパワーから音量減衰率を計算する場合は、s24の処理において送信機3からマイク33で収音した音声のレベル(振幅)を示す情報を送信し、s25の処理において、マイク11で収音した音声のレベル(振幅)と、送信機3で収音した音声のレベル(振幅)から音量減衰率を計算する。
【0061】
なお、図6においては、話者が会話を開始するとマスカ音が出力され、その後音量減衰率の計算が終了した後に音量調整が行われる例を示しているが、事前に音量減衰率を計算して、マスカ音の出力開始とともに音量調整を行うようにすることも可能である。この場合、実際の話者音声から音量減衰率を算出するのではなく、テスト音を用いてマスカ音を出力する前に音量減衰率を算出する。この場合、送信機3は、不図示のテスト音を出力するテスト音出力部(スピーカ等)をさらに備え、センサ32でユーザの存在を検出するよりも前にテスト音を出力する。そして、制御部36は、マイク33でテスト音を収音したタイミングを示す情報を送信する。音声端末1の制御部16は、送信機3から受信したテスト音を収音したタイミングを示す情報を受信し、マイク11でテスト音を収音するか否かを判断する。マイク11でテスト音を受信したと判断した場合、送信機3でテスト音を収音したタイミングとマイク11でテスト音を受信したタイミングと、から音量減衰率を計算する。このように、事前に音量減衰率を計算することで、実際に話者が音声を発した時点から適切な音量のマスカ音が出力されることになり、より適切なマスキング効果を得ながら不快感を低減することができる。
【0062】
次に、図7を参照して呼び出し音声を出力する場合の動作について説明する。まず、サーバ5の制御部52は、呼び出し端末の指定がなされたか否かを判断する(s31)。この呼び出し端末の指定は、送信機3や音声端末1、あるいは、対話カウンタ内のスタッフ91の付近に設置された専用の端末(不図示)を操作することで行ってもよい。このとき、呼び出し対象ユーザの指定も行われる。スタッフ91が呼び出し操作を行うと、サーバ5に呼び出し信号が送信され、s31の判断においてYesに進むことになる。
【0063】
制御部52は、呼び出し対象の音声端末1に対して呼び出し音声に係る音データを送信する(s32)。そして、呼び出し対象の音声端末1は、呼び出し音声に係る音データを受信し(s33)、呼び出し音声を再生する(s34)。
【0064】
以上の様にして、本実施形態の音声出力システムでは、ユーザが携帯する音声端末1から適切な音量でマスカ音を出力するため、ユーザがどのような位置に居る場合であっても、適切なマスキング効果を確保することができる。また、ユーザが携帯する音声端末1から呼び出し音声を出力して必要な音声を適切な音量で聞くことができる。
【0065】
また、音声端末1は、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的な携帯電話等の携帯端末およびソフトウェアを用いて実現することが可能である。
【0066】
また、送信機3やサーバ5についても、本実施形態に示した音声出力システムに専用の装置でなくとも、一般的なパーソナルコンピュータ等の情報処理装置のハードウェアおよびソフトウェアを用いて実現可能である。
【符号の説明】
【0067】
1…音声端末
3…送信機
5…サーバ
11…マイク
12…A/Dコンバータ
13…信号処理部
14…D/Aコンバータ
15…スピーカ
16…制御部
17…通信部
18…操作部
19…エコーキャンセラ
31…通信部
32…センサ
33…マイク
34…A/Dコンバータ
35…操作部
36…制御部
37…マスカ音記憶部
38…マスカ音生成部
51…通信部
52…制御部
53…コンテンツ記憶部

【特許請求の範囲】
【請求項1】
ユーザによって携帯される端末装置と、前記端末装置に情報を送信する送信機と、を備えた音声出力システムであって、
前記送信機は、前記端末装置に対して前記情報を送信する送信手段と、
話者の存在を検出する話者検出手段と、を備え、
前記端末装置は、前記送信機から受信した情報に応じてマスカ音を出力する音声出力手段と、
前記マスカ音の音量を調整する音量調整手段と、
を備え、
前記送信機は、前記話者の存在を検出したとき、前記送信手段を介して前記端末装置にマスカ音を出力させるための情報を送信し、
前記端末装置の音声出力手段は、前記マスカ音を出力させる情報を受信したとき、当該情報に応じて前記マスカ音を出力し、
前記音量調整手段は、前記話者の発話音声の自装置に至るまでの音量減衰率を計算し、計算した音量減衰率に応じて前記マスカ音の音量を調整することを特徴とする音声出力システム。
【請求項2】
前記送信手段は、所定領域内に対して前記情報を送信するように、指向性を有する電波を送受信する無線通信部であることを特徴とする請求項1に記載の音声出力システム。
【請求項3】
前記送信機は、前記話者の発話音声を収音する送信側収音手段を備え、
前記端末装置は、前記話者の発話音声を収音する端末側収音手段を備え、
前記送信機は、前記送信側収音手段で前記発話音声を収音したタイミングを示す情報を送信し、
前記音量調整手段は、前記送信機から受信した前記発話音声を収音したタイミングを示す情報と、前記端末側収音手段で前記発話音声を収音したタイミングと、から前記音量減衰率を計算する請求項1または2に記載の音声出力システム。
【請求項4】
前記送信機は、テスト音を出力するテスト音出力手段をさらに備え、
前記テスト音出力手段は、前記話者の存在を検出するよりも前に前記テスト音を出力し、
前記送信手段は、前記送信側収音手段で前記テスト音を収音したタイミングを示す情報を送信し、
前記音量調整手段は、前記送信機から受信した前記テスト音を収音したタイミングを示す情報と、前記端末側収音手段で前記テスト音を収音したタイミングと、から前記音量減衰率を計算する請求項3に記載の音声出力システム。
【請求項5】
前記端末装置は、前記音声出力手段から出力され、前記端末側収音手段に至るエコー成分を除去するエコー除去手段を備えた請求項3または請求項4に記載の音声出力システム。
【請求項6】
前記音声出力手段は、前記ユーザ毎に必要な音声を出力する請求項1ないし請求項5のいずれかに記載の音声出力システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−194295(P2012−194295A)
【公開日】平成24年10月11日(2012.10.11)
【国際特許分類】
【出願番号】特願2011−57366(P2011−57366)
【出願日】平成23年3月16日(2011.3.16)
【出願人】(000004075)ヤマハ株式会社 (5,930)
【Fターム(参考)】