説明

音声処理装置および音声処理装置を備えた画像処理装置

【課題】周辺の騒音の周波数に対して利用者が聴き取りやすい周波数の音声を出力する音声処理装置および前記音声処理装置を備えた画像処理装置を提供する。
【解決手段】平均基本周波数の異なる複数種類の音声データを記録する音声データ記録部と、記録された前記音声データを選択する音声データ選択部と、選択された前記音声データを再生する音声データ再生部と、周辺の外部音を収集して記録する外部音記録部と、記録された前記外部音の騒音レベルと周波数との関係を解析する騒音レベル解析部と、前記騒音レベル解析部で解析された前記騒音レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ前記音声データ再生部に再生させる音声処理制御部とを備える音声処理装置。

【発明の詳細な説明】
【技術分野】
【0001】
この発明は、周辺の騒音の周波数に対して、利用者が聴き取りやすい周波数の音声を出力する音声処理装置および前記音声処理装置を備えた画像処理装置に関する。
【背景技術】
【0002】
近年、音声による案内等を行う際に、周辺の騒音状況を検出し、騒音の変化に応じた音量や周波数の音声を利用者に出力する音声処理機能を備えた装置が普及しつつある。
【0003】
例えば、周辺の騒音状況に基づいて報知音の周波数や音量を選択することによって、報知音を認知しやすくする技術が知られている(例えば、特許文献1参照)。また、周辺の騒音や明るさ等の環境の変化に応じて、音声案内の音量や表示画面の明るさを自動的に調整する技術も知られている(例えば、特許文献2参照)。
【0004】
このような装置の設置先には、例えば、コンビニエンスストアなどの店内、駅の構内、空港のターミナル、ホテルのロビー、デパートや病院等の公共の場など、日常的に騒音が想定される環境が挙げられる。
【0005】
一方、移動中の自動車内などの動的に騒音が変化する環境においても、車内における走行ノイズの周波数帯域を検出し、ナビゲーションやカーオーディオから再生される音声の同じ帯域の周波数成分をコントロールする技術が知られている(例えば、特許文献3参照)。
【先行技術文献】
【特許文献】
【0006】
【特許文献1】特開2002−230669号公報
【特許文献2】特開H7−28916号公報
【特許文献3】特開2007−110481号公報
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、このような音声処理装置を備えた画像処理装置としては、例えば、用紙切れや紙づまりなどの問題が発生すると、周辺の騒音特性を分析し、利用者が聴き取りやすい音量および周波数に調節してからスピーカー等の音声伝達手段を用いて当該問題を伝える音声を出力する装置が挙げられる。
【0008】
しかしながら、周辺の騒音の変化にリアルタイムに追従して音声案内の音量や周波数が変化すると、音声案内の途中で音量や音質が極端に変化して、かえって音声が聴き取りにくくなることがある。
【0009】
例えば、音声案内の途中で周辺の騒音状況が激しく変動すると、それに追従して音量も激しく変化して利用者を戸惑わせ、場合によっては騒音以上に大きな音量となって、かえって周囲の人間の迷惑となってしまうことがある。また、音声案内の途中で周波数が激しく変化すると、音声が不自然に変調されて利用者に違和感を生じさせ、本来の音質とは大きく異なる音声となって、かえって周囲の人間に不快感を与えてしまうことがある。
【0010】
それゆえ、周辺の騒音の変化に柔軟に対応しつつも、利用者や周囲の人間に違和感や不快感を生じさせることなく、常に利用者が聴き取りやすい音声案内を提供する技術が求められていた。
【0011】
この発明は、前記課題に鑑みてなされたものであり、平均基本周波数の異なる複数種類の音声データを予め装置に記録し、周辺の騒音の変化に応じて、前記複数種類の音声データの中から利用者が聴き取りやすい平均基本周波数の音声データを選択して再生する音声処理装置を提供するものである。
【課題を解決するための手段】
【0012】
この発明は、平均基本周波数の異なる複数種類の音声データを記録する音声データ記録部と、記録された前記音声データを選択する音声データ選択部と、選択された前記音声データを再生する音声データ再生部と、周辺の外部音を収集して記録する外部音記録部と、記録された前記外部音の騒音レベルと周波数との関係を解析する騒音レベル解析部と、前記騒音レベル解析部で解析された前記騒音レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ前記音声データ再生部に再生させる音声処理制御部とを備える音声処理装置を提供するものである。
【発明の効果】
【0013】
この発明による音声処理装置によれば、平均基本周波数の異なる複数種類の音声データを予め装置に記録し、周辺の騒音の変化に応じて、前記複数種類の音声データの中から利用者が聴き取りやすい周波数の音声データを選択して再生する音声処理装置が実現できる。
【0014】
所定の周波数について予め音量・音質等が適切に設定された音声データの中から騒音の影響が最小の音声データを選択するため、周波数シフトによる音声データの音声の変質等の影響を考慮する必要がない。それゆえ、どのような周波数の音声データを選択したとしても、常に適切な音量・音質等で明瞭な音声案内を利用者に提供できる。
【0015】
また、ひとまとまりの意味内容を有する個々の音声データを単位として選択し再生するため、音声データの再生の途中で音量や周波数が急激に変化して聴き取りにくくなることもなく、1つ1つの音声データの内容を明瞭に聴き取ることが可能となる。一方、個々の音声データの選択時に、周辺の騒音の変化に応じて適切な周波数の音声データを選択するため、周辺の騒音の変化にも柔軟に対応できる。
【0016】
さらに、この発明による音声処理装置は、音声データの所定の平均基本周波数近傍の周波数についてのみ解析を行うだけでよく、従来技術のように、全周波数帯域にわたる解析を要しないため、処理効率がよい。
【図面の簡単な説明】
【0017】
【図1】この発明の音声処理装置を備えた画像処理装置の構成の一例を示すブロック図である。
【図2】この発明の音声処理装置の音声データの内容の一例を示す説明図である。
【図3】この発明の音声処理装置の音声データの分布の一例を示す説明図である。
【図4】この発明の音声処理装置の音声データの選択手順の一例を示すフローチャートである。
【図5】この発明の音声処理装置の音声データの選択手順の変形例を示すフローチャートである。
【図6】この発明の音声処理装置のデータ設定の一例を示す説明図である。
【図7】図4の選択手順の変形例を示すフローチャートである。
【発明を実施するための形態】
【0018】
この発明による音声処理装置は、平均基本周波数の異なる複数種類の音声データを記録する音声データ記録部と、記録された前記音声データを選択する音声データ選択部と、選択された前記音声データを再生する音声データ再生部と、周辺の外部音を収集して記録する外部音記録部と、記録された前記外部音の騒音レベルと周波数との関係を解析する騒音レベル解析部と、前記騒音レベル解析部で解析された前記騒音レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ前記音声データ再生部に再生させる音声処理制御部とを備える。
【0019】
この発明による音声処理装置において、「音声データ」とは、問題等が発生したときや案内等を行うときに利用者または周囲の人間に伝えるべき情報を有する音声データをいう。例えば、プリンタにおいて問題が発生した場合、「トナーを補給してください」「紙づまりです」「原稿がまだ入っています」「用紙のサイズを確認してください」などの音声データが挙げられる。
【0020】
音声データ出力の具体例としては、コピー動作終了後、約3秒以内に原稿カバーを開けない場合、音声データ再生部から「原稿がまだ入っています」のように、装置に設置されたスピーカー等から適切な情報を有する音声データを再生することによって、利用者の原稿の取り忘れ等を防止する。また、利用者が操作部において不適切な選択をした場合にも、「用紙のサイズを確認してください」のような情報を有する音声データを再生することによって利用者に適切な処置を促す。
【0021】
ところで、周辺の騒音の変化にリアルタイムに追従して音量や周波数が変化する場合、音量の急激な変化によってアクセントやイントネーションが変化し、要点が把握しづらくなるおそれがある。また、周波数の急激な変化によって音質が変化し、「橋」および「箸」のような音の高さ(ピッチ)の違いから区別される言葉の意味内容が把握しづらくなるおそれもある。
【0022】
しかしながら、この発明による音声処理装置においては、ひとまとまりの意味内容(例えば、「トナーを補給してください」など)を有する音声データを最小限の単位として選択し再生するため、当該音声データの再生途中で音量や周波数が急激に変化してアクセントやピッチ等の急激な変化による前記問題の発生を防止できる。それゆえ、周辺の騒音の変化に柔軟に対応しつつ、利用者に聴き取りやすい音声を提供できる。
【0023】
「外部音」とは、再生の対象となる音声データ以外に聞こえる音(暗騒音)である。人間の聴覚特性には、暗騒音でかなり強い音が存在すると、暗騒音の周波数近傍の領域の特定のレベル以下の音が聞こえにくくなる現象(マスキング効果)が知られている。
【0024】
「騒音レベル」とは、暗騒音によるマスキング効果を考慮した音声データの聴き取りにくさを示す最低限度である。一般に、騒音レベル以下の出力(音量)を有する音声データの聴き取りは困難となるが、音声データの出力が騒音レベルより高いときはマスキングされない。
【0025】
「平均基本周波数の異なる複数種類の音声データ」としては、同一内容の音声データ(例えば、「紙づまりです」)について、通常は男性や女性など基本周波数の異なる複数人物の声を収録したものを用いる。なお、音声データには、人工音声や合成音声など、肉声以外の音声を用いてもよい。
【0026】
「基本周波数」とは、人間の声帯の振動を音源として生じる有声音などの持続部における、ほぼ相似的な波の繰り返しの周波数である。基本周波数は、聴覚の上では、音の高さ、いわゆるピッチに対応し、基本周波数の違いは男女の声や個々人の音色の違いとして認識される。また、基本周波数の緩やかな変化は、いわゆる抑揚などのピッチの時間的な変化に対応し、話者のくせや方言などの違いとして認識される。
【0027】
「平均基本周波数」は、発声者によって個人差があり、これらの差が個人の音色の差に大きな違いを生じさせる。基本周波数の頻度分布は、周波数を確率変数とした場合、ほぼ正規分布で近似できることが知られている。また、分布の平均値、すなわち平均の基本周波数は話者によって相違し、例えば、男性の基本周波数(90Hz〜160Hz)の平均値(約125Hz)と、女性の基本周波数(230Hz〜370Hz)の平均値(約300Hz)の平均値には2倍以上もの開きがあることが知られている。さらに、分布の標準偏差、すなわち変動の範囲も、女性の基本周波数の標準偏差(一説には、41Hz)は、男性の基本周波数の標準偏差(一説には、20.5Hz)の約2倍のオーダーであることが知られている。それゆえ、分布の変動範囲は一般に、平均基本周波数に比例して大きくなる傾向がある。
【0028】
この発明による音声処理装置において、前記騒音レベル解析部は、前記騒音レベルを所定期間ごとに平均化する騒音レベル平均化部をさらに備え、前記騒音レベル解析部は、前記平均化された騒音レベルと周波数との関係を解析するものであってもよい。
このようにすれば、突発的な騒音の変化にとらわれることなく、固定された場所における周辺の騒音状況を反映し、利用者が聴き取りやすい音声案内が実現できる。
【0029】
ここで、「所定期間」とは、例えば30分や1時間などの比較的短期の期間だけでなく、朝、昼、夜などの期間や平日と休日等の比較的長期の期間も挙げられる。
【0030】
コンビニエンスストアの店内などの静的な環境に設置された音声処理装置のような固定された環境においては、移動中の車内など動的な環境と比べると、騒音状況の変動にはある程度規則性がある。例えば、駅前や国道沿いなどの立地条件や、昼頃や深夜などの時間帯によって騒音の種類が概ね定まっている場合がある。
【0031】
例えば、平日の通勤時のみ混雑し、平日の深夜や休日には比較的客の少ない店内に設置された音声処理装置の場合、混雑が予測される平日の通勤時間帯に、混雑による騒音の影響を考慮した音声案内を行うことで十分騒音に対処できることがある。
一方、周辺の騒音の変化にリアルタイムに追従する従来技術では、例えば、自動車の急ブレーキ等の一時的な騒音の変化も装置が拾ってしまうことがある。その結果、音声データの周波数が急激に変化して音声データが聴き取りにくくなり、また音量が不必要に大きくなってかえって利用者に迷惑をかける場合がある。
【0032】
この発明による音声処理装置においては、所定期間を単位として周辺の外部音を収集し、平均化された結果に基づいて騒音レベルを決定する。このようにすれば、突発的な外部音の影響を除外でき、また特定の時間帯における騒音の状況に適切に対処できる。
【0033】
この発明による音声処理装置において、人間の可聴能力範囲の最低限度である最小可聴レベルを周波数に対応して設定する最小可聴レベル設定部をさらに備え、前記制御部は、周波数ごとに前記騒音レベルおよび最小可聴レベルを比較して大きい方を特定出力レベルとする比較部を備え、前記特定出力レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ前記音声データ再生部に再生させるものであってもよい。
このようにすれば、周辺の騒音状況だけでなく、利用者層の聴覚特性にも配慮することによって、利用者が聴き取りやすく違和感のない音声案内が実現可能となる。特に、人間の聴覚特性を考慮して適切な音量および音質で利用者が聴き取りやすい音声によって音声案内を行い、利用者および周辺の人間に対する配慮がなされた音声処理装置が実現できる。
【0034】
「人間の可聴能力範囲」としては、人間が感知できる音の範囲は周波数および音圧によって制限され、一般に人間の聴覚は2kHz前後の周波数でもっとも高い感度を有し、特に周波数が低いほど感度が小さくなることが知られている。人間の可聴範囲の周波数帯は、平均的な聴力を有する若者の場合、約15〜20kHzとされている。同じ強さで発した声の場合、高い声は低い声より聴き取りやすいが、年齢とともに高い周波数の音が聴き取りにくくなることが知られている。
「最小可聴レベル」とは、このような人間の聴覚能力範囲の最低限度であり、個人差があることが知られている。
【0035】
ところで、人間の聴覚が感じる感覚的な音の大きさは、物理的な音量(dB)とは異なることが知られている。音の大きさ(loudness)が同程度に感じられる音量(dB)を周波数ごとに表した曲線は、等ラウドネス曲線として知られているが、これによると、同じ音量でも低い周波数は高い周波数よりも音の大きさが小さく感じられる。それゆえ、単一の音声データをシフトさせる従来技術においては、周波数シフトの結果、音声データの音量が最小可聴レベル以下になるかどうかを判断するだけでなく、利用者にとって自然な音量になるように等ラウドネス曲線を考慮して音量を補正する必要がある。
しかしながら、この発明による音声処理装置においては、異なる周波数において適切な音量の音声データを予め記録したものを取り出すため、このような補正は不要である。
【0036】
この発明による音声処理装置においては、人間の聴覚特性に起因する最小可聴レベルを考慮することにより、周辺の騒音状況だけでなく利用者層に適した音声データの選択も可能となる。一般に、最小可聴レベルは年齢とともに上昇することが知られている。例えば、利用者層が年齢層の比較的高い世代からなる場合、利用者層の年齢層に合わせた最小可聴レベルを設定することにより、これらの利用者層にとって聴き取りやすい周波数の音声データの選択が可能となる。また、主な利用者層の好みに合わせて、特定周波数の音声データが優先的に選択されるように最小可聴レベルの設定をカスタマイズすることも可能である。
【0037】
この発明による音声処理装置において、前記音声データ選択部は、所定の周波数範囲を設定する音声データ選択範囲設定部を備え、前記制御部は、前記周波数範囲内で前記騒音レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ、前記音声データ再生部に再生させるものであってもよい。
このようにすれば、特定の周波数範囲内から音声データが選択されるため、例えば、低周波数領域や高周波数領域などの特定の周波数範囲の音声データの選択を回避でき、設置先の環境に応じた周波数範囲で自然な音声案内が実現できる。
【0038】
例えば、低周波数領域における騒音が顕著に現れる環境においては、当該低周波領域の音声データが選択されないように、周波数範囲を設定できる。また、設置先の雰囲気に合わせて、特定の周波数範囲から音声データが選択されるようカスタマイズすることも可能である。
【0039】
この発明による音声処理装置において、前記音声データ選択部は、音声データの再生動作が一定期間をおいて繰り返されるとき、最初に選択した音声データの平均基本周波数と、次に選択すべき音声データの平均基本周波数との差が一定範囲内になる周波数範囲を設定するものであってもよい。
このようにすれば、周辺の騒音の周波数の分布が大きく変化した場合でも、直前に再生した音声データと周波数が大きく異なる音声データは選択されないため、利用者に違和感を生じさせず、自然で違和感のない音声案内が実現できる。
【0040】
周辺の騒音の変化に合わせて音声データの周波数が自由に変化するとき、騒音の周波数分布の変化によっては、直前に再生された音声データと大幅に異なる周波数の音声データが選択されるおそれがある。このとき、音声データの周波数が極端に変化すると、利用者に戸惑いや違和感を生じさせる。特に、同一の利用者に対して連続して音声データを再生する場合に大きな問題となる。
【0041】
しかしながら、この発明による音声処理装置においては、直前に再生された音声データの再生時から一定期間内に次の音声データを再生する場合、直前の音声データの平均基本周波数から一定範囲内の平均基本周波数の音声データが選択される。それゆえ、連続する音声データの周波数はなめらかに変化し、利用者に戸惑いや違和感を生じさせない。
【0042】
この発明による画像処理装置は、画像データを入力する画像データ入力部と、入力された前記画像データを処理する画像データ処理部と、処理された前記画像データを出力する画像データ出力部と、画像処理条件を与える操作部と、前記操作部からの処理条件をうけて前記画像データ入力部、前記画像データ処理部および前記画像データ出力部を制御して画像処理を進行させる制御部と、前記画像処理の進行に応じて音声を出力する音声処理部とを備え、前記音声処理部は、請求項1ないし5のいずれか1つに記載の音声処理装置からなる画像処理装置を備える。
【0043】
この発明による画像処理装置によれば、平均基本周波数の異なる複数種類の音声データを予め音声処理装置に収録し、画像形成周辺の騒音の変化に応じて、前記複数種類の音声データの中から利用者が聴き取りやすい平均基本周波数の音声データを選択して再生する画像処理装置が実現できる。
【0044】
この発明において、「画像処理装置」とは、プリンタなどのデジタル複写機やデジタル複合機などのMFP(Multifunctional Peripheral:多機能周辺装置)、ATMや券売機などの端末、インフォメーションディスプレイ等のデジタルサイネージ機器など、画像を処理して出力する装置である。また、インフォメーションディスプレイ付きのデジタル複写機や印刷機能付きの内容端末などであってもよい。
【0045】
ところで、音声処理装置にインフォメーションディスプレイ等を設置して、装置の機能説明をする場合など、利用者が近くにいない環境でも、音声案内を発する状況が存在する。特に、長時間にわたる音声案内において、インフォメーションディスプレイに音声案内の声に合わせた人の映像を表示する場合、音声データの平均基本周波数の切り替えに合わせて人の映像を切り替えてもよい。
【0046】
このように、この発明による画像処理装置は、音声処理装置が設置されたインフォメーションディスプレイ等の場合においても、音声データ記録部に記録された音声データに対応する人の映像を表示させることにより、常に音質に合った映像を提供できるため有効である。
【0047】
以下、図面に基づいて、この発明による音声処理装置を備えた画像処理装置(ここでは、MFPを例とする)について詳述する。なお、以下の説明はすべての点で例示であって、この発明を限定するものと解されるべきではない。
【0048】
≪画像処理装置の構成≫
この発明の画像処理装置の構成について、図1に基づいて説明する。
【0049】
図1は、この発明の画像処理装置の構成の一例を示すブロック図である。
図1に示されるように、この発明の構成例に係る画像処理装置100は、操作部101、制御部110、画像処理部200および音声処理部300を含む。
画像処理部200は、画像処理制御部120、画像データ入力部201、画像データ記録部202、画像データ処理部203、画像データ出力部204を含む。
音声処理部300は、この発明による音声処理装置であり、音声処理制御部130、音声データ入力部301、音声データ記録部302、音声データ選択部303、音声データ選択範囲設定部303a、音声データ再生部304、音声出力調節部304a、外部音記録部311、騒音レベル解析部312、騒音レベル平均化部312a、最小可聴レベル設定部313、比較部314を含む。
【0050】
画像処理装置100は、プリンタなどのデジタル複写機やデジタル複合機などのMFP(Multifunctional Peripheral:多機能周辺装置)、ATMや券売機などの端末、インフォメーションディスプレイ等のデジタルサイネージ機器など、画像を処理して出力する装置である。また、インフォメーションディスプレイ付きのデジタル複写機や印刷機能付きの内容端末などであってもよい。この実施形態においては、この発明による音声処理装置を備えたMFPを想定している。
【0051】
操作部101は、画像処理部200および音声処理部300に対して操作指示を与える操作パネルであり、タッチパネル表示画面や各種操作キーなどから構成される。操作部101における表示画面において、利用者に対する案内表示を行った状態でサービスへの操作指示を待つ状態で、操作部101から操作指示を行うとする。このとき、画像処理部200全体を管理する画像処理制御部120および音声処理部300全体を管理する音声処理制御部130に対して操作指示の内容が伝えられる。操作部101からの指示に応じて画像処理部200および音声処理部300は動作を開始する。
【0052】
制御部110は、画像処理部200および音声処理部300の各部を制御する。制御部110は、マイクロプロセッサ(Microprocessor)、特定の用途のために設計、製造される集積回路であるASIC(Application Specific Integrated Circuit)、その他の演算機能を有する回路のいずれか、またはそれらの組み合わせで構成されてもよい。
なお、制御部110は、画像処理制御部120および音声処理制御部130からなる。
【0053】
次に、画像処理部200に含まれる各部の詳細について説明する。
【0054】
画像処理制御部120は、画像処理部200の各部を制御する。画像処理制御部120の詳細は、制御部110と同様である。
【0055】
画像データ入力部201は、スキャナ等によって原稿を読み取り画像データを入力する。また、デジタル複写機の場合、利用者が所有するメモリーカードに記憶された画像データを読み取り入力する機能も備える。なお、スキャナ等によって直接原稿を読み取る代わりに、ネットワーク等を通じて画像データを受信して入力する機能を備えていてもよい。
【0056】
画像データ記録部202は、画像処理制御部120によってデータアクセスされ、一時的にデータを記憶するワークメモリとして使用するRAM(Random Access Memory)である。また、画像データ記録部202は、画像データ入力部201により受信した画像データを、画像処理制御部120を経由して保存する。なお、各制御部とバスで接続されていて、DMA(Direct Memory Access)により、画像処理制御部120を介さずにデータ転送を行ってもよい。
【0057】
画像データ処理部203は、画像データ入力部201より入力された画像データを操作部101からの指示に従い、拡大・縮小等の出力に適するように処理を行う。
【0058】
画像データ出力部204は、プリンタなどのデジタル複合機の場合、画像データ入力部201から読み取られた画像データを用紙に印刷し出力する。
なお、インフォメーションディスプレイの場合、画像データ出力部204は、前記画像データに応じた表示を行うことができる液晶表示装置などの表示用デバイスである。液晶表示装置の他に、CRT、LED、プラズマ、EL等の表示装置であってもよい。
【0059】
続いて、音声処理部300に含まれる各部の詳細について説明する。
【0060】
音声処理制御部130は、画像処理装置100の各部を制御する。音声処理制御部130の詳細は、制御部110と同様である。
【0061】
音声データ入力部301より入力される音声データは、当該音声データの入力者にとっては可聴であっても、利用者にとっても常に可聴であるとは限らない。例えば、画像処理装置100が設置される場所によっては、比較的年齢層の高い利用者層がメインになる場合もあり、入力された音声データの一部は、特定の利用者にとって聴き取りにくい場合もある。そこで、最小可聴レベルを適切に調節することにより、不適当な音声データが再生されないように設定することができる。
【0062】
音声データ入力部301は、複数種類の異なる平均基本周波数からなる音声データを入力し、音声データ記録部302に記録する。
なお、音声データの入力は、外部のネットワーク(図示せず)に接続されたサーバ(図示せず)からダウンロードする形式のものであってもよい。ネットワークを通じて最新の音声データをアップデートすることにより、利用者のニーズに応じた多様な音声データのバリエーションを揃えることが可能となる。
【0063】
音声データ記録部302は、音声データ入力部301により入力された音声データを記録する。
【0064】
音声データ選択部303は、音声データ記録部302に記録された複数種類の音声データのうち、利用者が聴き取りやすい1種類の音声データを選択する。
【0065】
音声データ選択範囲設定部303aは、所定の周波数範囲を設定する。設置先の環境や店の雰囲気によって、特定の周波数帯域の音声データが適さない場合もあり、このような場合においても最小可聴レベルを調節することによって、再生される音声データの種類を設定できる。なお、当該周波数範囲は、管理者等により予め任意の範囲に設定できるようにしてもよい。
【0066】
音声データ再生部304は、音声データ選択部303により選択された音声データを装置に設置されたスピーカー等を用いて再生する。
【0067】
音声出力調節部304aは、音声データ再生部304により再生された音声の出力を調節する。音声出力調節部304aは、周辺の騒音レベルや利用者が感じる音量(ラウドネス特性等)を考慮し、連続する音声データの音量をなだらかに変化させ、利用者に与える違和感を最小限に抑える。このように、利用者は音量の突然の変化に戸惑うことなく操作に専念できる。
【0068】
なお、画像処理装置100の利用後の原稿の取り忘れやお釣りの取り忘れなどの緊急時の場合は、音声データ再生部304が能動的にその場を立ち去った人に対して音を発する必要がある。このような音声データを再生する場合は、最も聞こえやすい音声と大きい音量で再生する必要があるため、管理者は別途最低音量を設定できるようにしてもよい。
【0069】
外部音記録部311は、装置に設置されたマイク等の音声検出手段により、画像処理装置100周辺の外部音を逐時収集・記録する。
【0070】
騒音レベル解析部312は、外部音記録部311によって収集・記録された外部音に基づき、マスキング効果を考慮して騒音レベルを決定し、周波数との関係を解析する。
騒音レベル平均化部312aは、外部音記録部311によって収集・記録された外部音に基づき、マスキング効果を考慮して所定時間ごとに平均化して騒音レベルを決定する。
【0071】
最小可聴レベル設定部313は、利用者層の可聴能力範囲に基づいて最小可聴レベルを設定する。
比較部314は、周波数ごとに騒音レベルおよび最小可聴レベルを比較して大きい方を特定出力レベルとする。
【0072】
≪画像処理装置の音声データ入力の具体例≫
次に、この発明の画像処理装置の音声データの入力設定について、図2および図3に基づいて説明する。
【0073】
図2は、この発明の画像処理装置の音声データの内容の一例を示す説明図である。
図3は、この発明の画像処理装置の音声データの分布の一例を示す説明図である。
【0074】
画像処理装置100において、平均基本周波数の異なる複数種類の音声データを音声データ入力部301に入力し、音声データ記録部302に記憶させる。平均基本周波数の異なる複数種類の音声データとしては、男女等、平均基本周波数の異なる複数人によって収録されたものを用いる。なお、単一音声を変調した人工音声や合成音声等を用いる場合は、変調や合成により不自然な音声にならないように留意する。
【0075】
音声データの平均基本周波数は100Hzのような整数値である必要はなく、また複数の音声データは100Hz,200Hz,300Hzのように等間隔に分布している必要もない。例えば、各音声データがそれぞれ122.23Hz,169.39Hz,348.77Hzのような平均基本周波数を有していたとしても、分布の標準偏差を考慮して各音声データが有意に区別しうる複数種類の音声データであれば十分である。
【0076】
音声データ記録部302に記憶させるデータの具体例としては、例えば「トナーを補給してください」「紙づまりです。機械を開いて紙を取り除いてください」「原稿がまだ入っています」「用紙のサイズを確認してください」などが挙げられる。例えば、コピー動作終了後、約3秒以内に原稿カバーを開けない場合、制御部110は、音声データ再生部304から「原稿がまだ入っています」のように再生させることにより、原稿の取り忘れを防止できる。また、操作部101において不適切な選択をした場合も、「用紙のサイズを確認してください」などのように音声データ再生部304から再生させることによって、利用者に必要な措置を促すことが可能となる。
【0077】
図2に示されるように、「トナーを補給してください」、「紙づまりです」、「原稿がまだ入っています」の3種類の内容の音声データを想定した場合、前記内容について、例えば、100Hz、200Hz、300Hzなど、異なる平均基本周波数を有する男女の声を音声データ記録部302に記憶させる。
【0078】
図3の横軸は周波数(Hz)、縦軸は出力(dB)を表す。11a,11b,11cは、平均基本周波数(例えば、100Hz,200Hz,300Hzなど)の異なる同一内容の音声データである。
【0079】
図3(A)は、この発明の音声処理装置の音声データの分布と騒音レベルとの関係を示す説明図である。
図3(B)は、この発明の音声処理装置の音声データの分布と騒音レベルおよび最小可聴レベルとの関係を示す説明図である。
【0080】
図3(A)(B)に示される10は周辺の騒音レベル、図3(B)に示される12は人間の最小可聴レベルを表す。騒音レベル10は、暗騒音によるマスキングの影響を反映し、最小可聴レベル12は、人間の聴覚特性を反映する。
【0081】
なお、厳密には、声帯の振動を音源とする一般音声による音声データ11a,11b,11cの形状は、平均基本周波数を中心に数10Hzの幅を有する正規分布状をなしており、その幅は、平均基本周波数に比例して大きくなることが知られているが、ここでは説明の便宜のため、矩形状で表す。
【0082】
図3(A)に示されるように、騒音レベル10のみを考慮した場合、音声データ11aおよび11cは、騒音レベル10が比較的大きな周波数帯域にあるため、騒音の影響により聴き取りにくくなる。一方、音声データ11bは、音声データ11a,11b,11cのうち騒音レベル10がもっとも低いため、他の音声データよりも聴き取りやすい。なお、図3(A)のSレベル1a,Sレベル1b,Sレベル1cは、各音声データ11a,11b,11cの周波数にそれぞれ対応する騒音レベルを表す。
【0083】
一方、図3(B)に示されるように、騒音レベル10および最小可聴レベル12の両方を考慮した場合、騒音レベル10および最小可聴レベル12を比較して大きい方をとった特定出力レベルを基準に音声データの聴き取りやすさを判断する。
例えば、音声データ11cは、騒音レベル10が最小可聴レベル12よりも大きいため、騒音レベル10の大きさ(Dレベル1c)を基準に判断する。一方、音声データ11aおよび11b近傍においては、騒音レベル10以上に最小可聴レベル12が高いため、最小可聴レベル12の大きさ(それぞれDレベル1aおよびDレベル1b)を基準に判断する。
【0084】
図3(B)において、最小可聴レベル12を考慮した場合も、音声データ11a,11b,11cのうち、騒音レベル10および最小可聴レベル12を比較して大きい方をとった特定出力レベル(Dレベル1a,Dレベル1b,Dレベル1c)のうち、最小のものはDレベル1bである。それゆえ、音声データ11b近傍の騒音レベル10および最小可聴レベル12の影響は、他の音声データ11bおよび11c近傍におけるものより小さいため、音声データ11bがもっとも聴き取りやすい音声データとして選択される。
【0085】
具体的な処理方法としては、対象とする音声データ11a,11b,11cの周波数における騒音レベル10または最小可聴レベル12の大きさ(dB)のうち大きい方をとった特定出力レベル(Dレベル1a,Dレベル1b,Dレベル1c)が最小となる周波数の音声データを選択する。
【0086】
≪音声データ選択処理の詳細な実施形態≫
以下、図4および図5を用いて、この発明の画像処理装置100の音声データ選択処理について、詳細な手順を説明する。
【0087】
図4は、この発明の画像処理装置の音声データの選択手順の一例を示すフローチャートである。
図5は、この発明の音声処理装置の音声データの選択手順の変形例を示すフローチャートである。
【0088】
図4のフローチャートに示されるように、利用者が操作部101を介して画像処理装置100の操作を開始すると、音声処理制御部130は、画像処理の進行状況に応じて、画像処理装置100が音声案内を開始すべきかどうかを判断する(ステップS1)。
【0089】
音声処理制御部130が音声案内を開始すべきであると判断した場合は、ステップS2に進み、外部音記録部311によって記録された外部音の騒音レベルと周波数との関係を騒音レベル解析部312が解析する(ステップS2)。そして、音声データ選択部303は、音声データ記録部302に記録された複数種類の音声データから、前記騒音レベルが最小となる周波数に対応する1種類の音声データを選択する(ステップS3)。続いて、音声データ再生部304は、選択された音声データを再生する(ステップS4)。
【0090】
次に、図4の変形例である図5について説明する。
【0091】
図5のステップS11,S12,S15は、それぞれ図4のステップS1,S2,S4に対応する。ここでは、図5のフローチャートとの相違点であるステップS13およびS14について詳細を説明する。
【0092】
ステップS13において、比較部314は、周波数ごとに騒音レベルおよび最小可聴レベルを比較して大きい方を特定出力レベルとする。
続いてステップS14において、音声処理制御部130は、特定出力レベルが最小となる周波数に対応する平均基本周波数を有する音声データを音声データ記録部302から音声データ選択部303に選択させる。
【0093】
≪音声データ設定の具体例≫
次に、図6(A)を用いて、音声データ設定の具体例について説明する。
【0094】
図6は、この発明の画像処理装置のデータ設定の一例を示す説明図である。
図6(A)は、図2に示される音声データの内容に対応するデータ設定の一例を示す説明図である。
【0095】
図6(A)に示されるように、「トナーを補給してください」(m=1)、「紙づまりです」(m=2)、「原稿がまだ入っています」(m=3)の3種類(m=1,2,3)の内容の音声データを想定する。また、各内容について周波数の低いほうから、f(1)=100(Hz)、f(2)=200(Hz)、f(3)=300(Hz)の3種類(n=1,2,3)の平均基本周波数の音声データを準備する。
このとき、図2(B)に示されるように、「紙づまりです」(m=2)という内容のf(3)=300(Hz)の音声の出力レベルは、Sレベル(2,3)(dB)等と表される。
【0096】
一般的に、M種類(Mは自然数)の内容のそれぞれ(m=1,2,…,M)(mは自然数)について、N種類(Nは自然数)の異なる平均基本周波数f(n)(n=1,2,…,N)(nは自然数)を有する音声データを再生したときの音声の出力レベルをSレベル(m,n)(dB)(m=1,2,…,M,n=1,2,…,N)とする。なお、平均基本周波数f(n)は、f(1),f(2),…,f(N)の順に周波数が高くなっていくものとする。
【0097】
≪騒音レベル決定および最小可聴レベル設定の具体例≫
次に、図6(B)および図6(C)を用いて、騒音レベル決定および最小可聴レベル設定の具体例について説明する。
【0098】
図6(B)は、図6(A)に示される音声データに対応する騒音レベル決定の一例を示す説明図である。
図6(C)は、図6(A)に示される音声データに対応する最小可聴レベル設定の一例を示す説明図である。
【0099】
図6(A)に示されるように、外部音記録部311により逐次(t=t1,t2,t3)収集された外部音に基づいて、騒音レベル解析部312は、音声データの各平均基本周波数f(1)=100(Hz)、f(2)=200(Hz)、f(3)=300(Hz)について、騒音レベルNlevel(n,t)を決定する。
【0100】
一方、図6(B)に示されるように、最小可聴レベル設定部313は、音声データの各平均基本周波数f(1)=100(Hz)、f(2)=200(Hz)、f(3)=300(Hz)について、最小可聴レベルThlevel(n,s)の設定を受け付ける。なお、多様な利用者層に合わせて最小可聴レベルの設定も数種類のうちから選択できるものとする(s=s1,s2,s3)。
【0101】
一般的に、平均基本周波数f(n)(n=1,2,…,N)のそれぞれに対応した騒音レベルをNlevel(n,t)(dB)(n=1,2,…,N,t=t1,t2,…,tNΔt)(tNΔtは自然数で収集時間Δtの間に収集されたデータ数)、最小可聴レベルをThlevel(n,s)(n=1,2,…,N,s=1,2,…,S)(Sは自然数で設定可能な最小可聴レベルの種類の数)とする。
【0102】
次に、各時間(t)(t=t1,t2,…,tNΔt)について、平均基本周波数f(n)(n=1,2,…,N)における騒音レベルNlevel(n,t)(dB)または最小可聴レベルThlevel(n,s)(sは、s=s1,s2,…,Sのうち、現在設定中のもの)の大きさのうち大きい方をとった特定出力レベルDレベル(n,t)(dB)を求め、音声データ選択の基準とする。
【0103】
【数1】

【0104】
ここで、記号max[a,b]は、a,bのうち、大きい方の値をとる。例えば、a>bならば、max[a,b]=aである。なお、a,bの値が等しい場合(a=b)、max[a,b]=a=bである。
【0105】
音声データの出力がDレベル(n,t)より小さいとき、当該音声データは、騒音レベルにマスキングされるか、最小可聴レベル以下にあるため、利用者は当該音声データを聴き取ることができない。一方、Dレベル(n,t)が最小のとき、騒音レベルおよび最小可聴レベルの影響がもっとも小さくなる。
それゆえ、利用者が最も聴き取りやすい音声データとして、Dレベル(n,t)が最小となる平均基本周波数f(n)の音声データが選択すべき音声データとなる。
【0106】
このように、この発明による画像処理装置においては、従来技術のように全ての周波数帯域における計算を行う必要はなく、音声データの基本周波数の種類の最大数であるN種類の周波数の計算のみで足りるため、極めて簡便かつ高速な計算が可能となる。
【0107】
なお、騒音レベルとして、所定の時間Δt内に求められた騒音レベルNlevel(n,t)(t=t1,t2,…,tNΔt)を平均化した値AveNlevel(n,Δt)を用いてもよい。これについては、次に詳述する。
【0108】
≪朝・昼・夜などに区分された利用時間帯ごとの平均的な騒音レベルの設定の具体例≫
次に、朝・昼・夜などに区分された利用時間帯ごとの平均的な騒音レベル設定の具体例について説明する。
【0109】
ここでは、画像データ入力部201として少なくともスキャナ、画像データ出力部204として少なくともプリンタを備え、原稿のコピーを行うことのできるデジタル複写機(MFP)であって、コンビニエンスストア等に設置されたものを例として説明する。
【0110】
具体的には、朝・昼・夜などに区分された利用時間帯を設定し、当該利用時間帯ごとの平均的な騒音レベルを決定する。
例えば、朝(tz1)、昼(tz2)、夜(tz3)のように区分したとき、各時間帯における外部音記録部311の収集回数をそれぞれ、Ntz1,Ntz2,Ntz3のように定義する。この場合、外部音記録部が昼(tz2)の所定時t(例えば、t1,t2,t3,t4,t5の5回)に外部音を収集したとき、Ntz2=5である。
【0111】
このとき、ある時間帯tzにおける騒音レベルの平均値AveNlevel(n,tz)(dB)は、次式のようにかける。
【0112】
【数2】

【0113】
上式において、記号Σ[t∈tz]は時間帯tzに属する各収集時t(=t1,t2,…,tNtz)の騒音レベルの和を表す。他の時間帯についても同様である。
【0114】
騒音レベルを参照するときは、各時間帯の騒音レベルの平均値を参照する。このようにして、突発的な騒音の変化にとらわれず、固定された場所における周辺の騒音状況を反映し、利用者が聴き取りやすい音声案内が実現できる。
【0115】
なお、音声を決定する際に利用する周辺の音は、現在の音を取得して利用する方法のほかに、現在から一定期間さかのぼって音を取得し、その音を利用してもよい。
【0116】
具体的には、現在から一定期間さかのぼった期間Δtに、外部音記録部311が外部音を収集した回数をNΔt、収集した時をt(=t1,t2,…,tNΔt)とすると、現在から一定期間さかのぼった期間の騒音レベルの平均値AveNlevel(n,Δt)(dB)は、次式のようにかける。
【0117】
【数3】

【0118】
上式において、記号Σ[t∈Δt]は、期間Δtに属する各収集時t(=t1,t2,…,tNΔt)の騒音レベルの和を表す。
【0119】
このように、一定期間さかのぼって音を取得して平均化することにより、直前の騒音状況の変化に対処しつつ、一時的な音などの影響を極力減らすことができるため有効である。
【0120】
≪前回の再生時から所定の時間内の音声データ選択の具体例≫
次に、音声データの再生動作が一定期間をおいて繰り返されるとき、最初に選択した音声データの再生時から一定期間内に次に選択すべき音声データを選択する場合の具体例について、図7を用いて説明する。
【0121】
図7は、図5の選択手順の変形例を示すフローチャートである。
【0122】
図7のステップS21,S22,S24,S25,S26は、それぞれ図5のステップS11,S12,S13,S14,S15に対応する。ここでは、図5のフローチャートとの相違点であるステップS23およびS27について詳細を説明する。
【0123】
この変形例において、音声データ記録部302は、例えば、前回再生された音声データの再生時から一定期間ΔTの間、当該音声データの周波数および音量の情報を記録しておく。例えば、ΔTを300秒というように設定したとき、前回の音声データの再生時から300秒以内に次に選択すべき音声データを再生させる場合は、前回表示させた音声データと連続する音声データとして扱う。なお、前回の音声データの再生時の代わりに、装置の稼働状況から連続する音声データかどうか判断してもよい。
【0124】
具体的には、図7のステップS22において騒音レベルが決定されると、音声処理制御部130は、前回再生された音声データの再生時から一定期間ΔT内かどうか判断する(ステップS23)。ΔT内にあるときは、音声データ選択範囲設定部303aは、音声データの再生動作が一定期間をおいて繰り返されるとき、最初に選択した音声データの平均基本周波数と、次に選択すべき音声データの平均基本周波数との差が一定範囲内になる周波数範囲を設定する。続いて、前記周波数範囲内で、比較部314により決定された特定出力レベルに基づき、音声データ選択部303は、前回再生された音声データとの平均基本周波数の差が一定範囲にある音声データを選択する(ステップS27)。
【0125】
一方、前回の音声データの再生時よりΔT経過した場合は、もはや連続する音声データではないものとして、前回再生した音声データの周波数とは無関係に、騒音レベルおよび最小可聴レベルに基づいて選択された音声データを再生する(ステップS24)。
【符号の説明】
【0126】
10:騒音レベル
11a,11b,11c:音声データ
12:最小可聴レベル
100:画像処理装置
200:画像処理部
300:音声処理部
101:操作部
110:制御部
120:画像処理制御部
130:音声処理制御部
201:画像データ入力部
202:画像データ記録部
203:画像データ処理部
204:画像データ出力部
301:音声データ入力部
302:音声データ記録部
303:音声データ選択部
303a:音声データ選択範囲設定部
304:音声データ再生部
304a:音声出力調節部
311:外部音記録部
312:騒音レベル解析部
312a:騒音レベル平均化部
313:最小可聴レベル設定部
314:比較部
Sレベル1a,Sレベル1b,Sレベル1c:騒音レベルの大きさ
Dレベル1a,Dレベル1b,Dレベル1c:特定出力レベル

【特許請求の範囲】
【請求項1】
平均基本周波数の異なる複数種類の音声データを記録する音声データ記録部と、記録された前記音声データを選択する音声データ選択部と、選択された前記音声データを再生する音声データ再生部と、周辺の外部音を収集して記録する外部音記録部と、記録された前記外部音の騒音レベルと周波数との関係を解析する騒音レベル解析部と、前記騒音レベル解析部で解析された前記騒音レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ前記音声データ再生部に再生させる音声処理制御部とを備える音声処理装置。
【請求項2】
前記騒音レベル解析部は、前記騒音レベルを所定期間ごとに平均化する騒音レベル平均化部をさらに備え、
前記騒音レベル解析部は、前記平均化された騒音レベルと周波数との関係を解析する請求項1に記載の音声処理装置。
【請求項3】
人間の可聴能力範囲の最低限度である最小可聴レベルを周波数に対応して設定する最小可聴レベル設定部をさらに備え、
前記制御部は、周波数ごとに前記騒音レベルおよび最小可聴レベルを比較して大きい方を特定出力レベルとする比較部を備え、前記特定出力レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ前記音声データ再生部に再生させる請求項1または2に記載の音声処理装置。
【請求項4】
前記音声データ選択部は、所定の周波数範囲を設定する音声データ選択範囲設定部を備え、
前記制御部は、前記周波数範囲内で前記騒音レベルが最小となる周波数に対応する平均基本周波数を有する音声データを前記音声データ記録部から前記音声データ選択部に選択させ、前記音声データ再生部に再生させる請求項1ないし3のいずれか1つに記載の音声処理装置。
【請求項5】
前記音声データ選択部は、音声データの再生動作が一定期間をおいて繰り返されるとき、最初に選択した音声データの平均基本周波数と、次に選択すべき音声データの平均基本周波数との差が一定範囲内になる周波数範囲を設定する請求項4に記載の音声処理装置。
【請求項6】
画像データを入力する画像データ入力部と、入力された前記画像データを処理する画像データ処理部と、処理された前記画像データを出力する画像データ出力部と、画像処理条件を与える操作部と、前記操作部からの処理条件をうけて前記画像データ入力部、前記画像データ処理部および前記画像データ出力部を制御して画像処理を進行させる画像処理制御部と、前記画像処理の進行に応じて音声を出力する音声処理部とを備え、
前記音声処理部は、請求項1ないし5のいずれか1つに記載の音声処理装置からなる画像処理装置。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2012−113164(P2012−113164A)
【公開日】平成24年6月14日(2012.6.14)
【国際特許分類】
【出願番号】特願2010−262825(P2010−262825)
【出願日】平成22年11月25日(2010.11.25)
【出願人】(000005049)シャープ株式会社 (33,933)