説明

音声処理装置、チャットシステム、音声処理方法、ならびに、プログラム

【課題】ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにする音声処理装置等を提供する。
【解決手段】チャットシステム211は、2つの音声処理装置201から構成され、各音声処理装置201において、入力受付部202は、ユーザが発する声の入力を受け付け、抽出部203は、受け付けられた声の特徴パラメータを抽出し、生成部204は、所定の音声データから合成音声を生成し、出力部205は、生成された合成音声を出力し、典型的には、特徴パラメータとして、波形の振幅もしくは音量、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさの時間変化を用い、所定の音声データの特徴パラメータを、抽出された特徴パラメータに置き換えることによって、合成音声を生成する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムに関する。
【背景技術】
【0002】
従来から、オンラインゲームやSNS(Social Network Service)の分野では、ユーザが発した声をマイクで検出し、当該声の音声データを相手方のユーザの端末装置へ伝送して、当該音声データを相手方の端末装置のスピーカやヘッドホンで再生する処理を双方向で行うことによりチャットを行うボイスチャットシステムが利用されている。このような技術については、後に掲げる特許文献1に開示されている。
【0003】
ここで、特許文献1には、仮想空間内のユーザの周囲の環境音と当該ユーザが発する声とを合成して他のユーザに伝達し、ボイスチャットの臨場感を高める技術が提案されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2006−343447号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、ユーザが発する声の波形データはデータ量が大きいため、伝送遅延などの問題が生じやすい。また、ユーザ間の健全な交流を図る上では、不適切な単語の使用を抑制したり、プライバシーを侵害する内容の伝達を抑制する必要がある。
【0006】
本発明は、上記のような課題を解決するもので、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
以上の目的を達成するため、本発明の原理にしたがって、下記の発明を開示する。
【0008】
本発明の第1の観点に係る音声処理装置は、入力受付部、抽出部、生成部、出力部を備え、以下のように構成する。
【0009】
すなわち、入力受付部は、ユーザが発する声の入力を受け付ける。典型的には、マイクを利用して、ユーザが発する声の波形データを取得し、所定のサンプリング周波数でA/D(Analog/Digital)変換して、数値列として、処理可能とする。
【0010】
一方、抽出部は、受け付けられた声の特徴パラメータを抽出する。特徴パラメータとして典型的なものは、波形の振幅もしくは音量、基本周波数、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさであり、特徴パラメータは、時間の経過にともなって変化する。これらの情報は、典型的には離散高速フーリエ変換等の技術を利用することで抽出できる。
【0011】
さらに、生成部は、所定の音声データから、合成音声を生成する。ここで、生成部は、所定の音声データの特徴パラメータを、抽出された特徴パラメータの値に置き換えることによって、合成音声を生成する。
【0012】
所定の音声データとしては、正弦波からなる音声データ、あらかじめ用意された声優の声や楽器の音などの音声データを利用することができる。
【0013】
所定の音声データと、生成される合成音声と、の差は、特徴パラメータの値にある。合成音声の特徴パラメータは、所定の音声データの特徴パラメータを、抽出された特徴パラメータの値に置き換えたものである。
【0014】
上記のように、特徴パラメータとして振幅や音量を採用した場合には、所定の音声データの振幅や音量を変化させることによって、合成音声を生成する。
【0015】
また、特徴パラメータとして、基本周波数を採用した場合には、所定の音声データのキーを変化させることによって、合成音声を生成する。
【0016】
さらに、特徴パラメータとして、基本周波数成分の大きさや、所定の周波数成分の大きさを採用した場合には、所定の音声データの当該成分の大きさを変化させることによって、合成音声を生成する。
【0017】
このような置き換えを行うと、合成音声の大小、強弱、高低、抑揚などの時間変化は、ユーザが発した声と一致するようになる。したがって、合成音声は、ユーザの感情をある程度反映したものとなると考えられる。
【0018】
一方で、合成音声は「人間が発した声」ではなくなるため、ユーザが単語や文章などを発声しても、合成音声では、その単語や文章の内容はわからないことになる。
【0019】
さらに、出力部は、生成された合成音声を出力する。
【0020】
ここで出力される合成音声は、上記のように、ユーザの感情の変化は反映しているものの、声によって単語や文章などを伝達することはできないような状態となっている。したがって、ユーザがプライバシーを侵す発言や公序良俗に反する発言をしたとしても、相手方ユーザには、その発言内容は伝わらない。
【0021】
本発明によれば、ユーザの発言内容の詳細を言語情報として取得することはできないものの、ユーザ同士の感情による意思疎通は可能とすることができる。特に、ユーザ同士の発言内容に基づくトラブルを抑制することが可能となる。
【0022】
また、本発明の音声処理装置において、特徴パラメータは、波形の振幅もしくは音量、基本周波数、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさの時間変化であるように構成することができる。
【0023】
上記のように、当該構成は、本発明の好適実施形態に係るものである。なお、所定の代表周波数成分としては、あらかじめ定めた複数の周波数のそれぞれに対する成分の大きさを取得することとしても良いし、周波数分布のピークの上位所定数について、周波数と成分の大きさとの組を取得することとしても良い。
【0024】
また、本発明の音声処理装置において、抽出部は、特徴パラメータを、1秒間に20回未満の頻度で抽出するように構成することができる。
【0025】
人間の可聴範囲は20Hz〜20kHzであるから、声の波形データを完全に復元するためには、40kHz以上のサンプリング周波数が必要となる。また、電話程度の音声品質を維持するには、4000Hz程度のサンプリング周波数が必要となる。逆に、20Hz未満のサンプリング周波数を採用すれば、処理しなければならないデータ量を激減させることが可能であるとともに、音声により伝達される単語や文章の言語情報を完全に除去することが可能となる。
【0026】
本発明によれば、処理すべきデータ量を激減させることが可能であるとともに、言語による意思疎通を事実上不可能とすることができ、プライバシーの侵害や公序良俗に反する発言などを効率良く防止できるようになる。
【0027】
また、本発明の音声処理装置において、抽出部は、受け付けられた声を離散フーリエ変換し、得られる周波数分布のうち、所定の複数の周波数成分の大きさを特徴パラメータとして抽出し、生成部は、抽出された周波数成分のそれぞれにあらかじめ対応付けられる波形データを抽出された大きさに増幅して合成して、合成音声を生成するように構成することができる。
【0028】
本発明においては、抽出部では、あらかじめ定めた周波数の成分の大きさ、もしくは、ピークの上位所定数個分の周波数の成分の大きさを特徴パラメータとし、それ以外の周波数成分は除去するマスクをかけて、合成音声を生成することとなる。
【0029】
また、各周波数成分に対応付けられる波形データとして方形波を採用した場合には、離散フーリエ変換の逆変換を行うこととなるが、その他の波形データを採用することとしても良い。
【0030】
本発明によれば、離散フーリエ変換を利用して、容易に特徴パラメータを抽出することが可能となる。
【0031】
また、本発明の音声処理装置において、周波数成分のそれぞれにあらかじめ対応付けられる波形データの基本周波数は当該周波数成分の中心周波数に一致し、当該波形データは、当該基本周波数の倍音の成分を含むように構成することができる。
【0032】
すなわち、各周波数成分に対応付けられる波形データとして、基本周波数の高さは一致するが、音色が異なる波形データを採用するものである。波形データとしては、楽器が発する音などを採用することができる。たとえば、ピーク第1位の周波数成分についてはピアノの音声、ピーク第2位の周波数成分についてはギターの音声、ピーク第3位の周波数成分についてはベースの音声などを割り当てる等である。
【0033】
本発明によれば、ユーザが発した声の特徴を反映した種々の音声を出力することができるようになる。
【0034】
また、本発明の音声処理装置において、生成部は、複数の音声データの候補から、当該候補の特徴パラメータが抽出された特徴パラメータに最も近いものを選択し、当該選択された候補の音声データを、所定の音声データとするように構成することができる。
【0035】
たとえば、周波数分布のピークを4つ取得し、その周波数が低い順に、ドラム、ベース、ギター、ピアノの順に音声データを割り当てる等である。
【0036】
本発明によれば、ユーザが発した声の特徴を反映した種々の音声を出力することができるようになる。
【0037】
本発明のその他の観点に係るチャットシステムは、第1のユーザが発する声の入力を受け付けて、第2のユーザに合成音声を出力する第1の音声処理装置と、第2のユーザが発する声の入力を受け付けて、第1のユーザに合成音声を出力する第2の音声処理装置と、を備え、第1の音声処理装置と、第2の音声処理装置と、の、それぞれは、上記の音声処理装置であり、第1の音声処理装置と、第2の音声処理装置と、の、それぞれにおいて、抽出された特徴パラメータは、抽出部から生成部へ、コンピュータ通信網を介して伝送されるように構成する。
【0038】
本発明は上記の音声処理装置をボイスチャットに適用したものであり、抽出部と生成部の間をコンピュータ通信網で接続するものである。
【0039】
本発明によれば、ボイスチャットに類似したシステムを提供することによって、ユーザの発言内容の詳細を言語情報として取得することはできないものの、ユーザ同士の感情による意思疎通は可能とすることができる。特に、ユーザ同士の発言内容に基づくトラブルを抑制することが可能となる。
【0040】
本発明のその他の観点に係る音声処理方法は、入力受付部、抽出部、生成部、出力部を備える音声処理装置が実行し、入力受付工程、抽出工程、生成工程、出力工程、を備え、以下のように構成する。
【0041】
すなわち、入力受付工程では、入力受付部が、ユーザが発する声の入力を受け付ける。
【0042】
一方、抽出工程では、抽出部が、受け付けられた声の特徴パラメータを抽出する。
【0043】
さらに、生成工程では、生成部が、所定の音声データの特徴パラメータから合成音声を生成する。
【0044】
ここで、生成工程では、所定の音声データの特徴パラメータを、抽出された特徴パラメータの値に置き換えることによって、合成音声を生成する。
【0045】
そして、出力工程では、出力部が、生成された合成音声を出力する。
【0046】
本発明のその他の観点に係るプログラムは、コンピュータを上記のゲーム装置の各部として機能させるように構成する。
【0047】
また、本発明のプログラムは、コンパクトディスク、フレキシブルディスク、ハードディスク、光磁気ディスク、ディジタルビデオディスク、磁気テープ、半導体メモリ等のコンピュータ読取可能な情報記憶媒体に記録することができる。
【0048】
上記プログラムは、プログラムが実行されるコンピュータとは独立して、コンピュータ通信網を介して配布・販売することができる。また、上記情報記憶媒体は、コンピュータとは独立して配布・販売することができる。
【発明の効果】
【0049】
本発明によれば、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムを提供することができる。
【図面の簡単な説明】
【0050】
【図1】典型的な情報処理装置の概要構成を示す模式図である。
【図2】本発明の実施形態に係る音声処理装置と、当該音声処理装置を利用したチャットシステムの概要構成を示す説明図である。
【図3】本実施形態に係る音声処理装置にて実行される送信処理の制御の流れを示すフローチャートである。
【図4】本実施形態に係る音声処理装置にて実行される受信処理の制御の流れを示すフローチャートである。
【発明を実施するための形態】
【0051】
以下に本発明の実施形態を説明する。以下では、理解を容易にするため、ゲーム用の情報処理装置を利用して本発明が実現される実施形態を説明するが、以下に説明する実施形態は説明のためのものであり、本願発明の範囲を制限するものではない。
【0052】
したがって、当業者であればこれらの各要素もしくは全要素をこれと均等なものに置換した実施形態を採用することが可能であるが、これらの実施形態も本発明の範囲に含まれる。
【実施例1】
【0053】
図1は、プログラムを実行することにより、本実施形態の音声処理装置として機能しうる典型的な情報処理装置の概要構成を示す模式図である。以下、本図を参照して説明する。
【0054】
情報処理装置100は、CPU(Central Processing Unit)101と、ROM 102と、RAM(Random Access Memory)103と、インターフェース104と、コントローラ105と、外部メモリ106と、画像処理部107と、DVD−ROM(Digital Versatile Disc ROM)ドライブ108と、NIC(Network Interface Card)109と、音声処理部110と、マイク111と、を備えるように構成することができる。各種の入出力装置は、適宜省略することができる。
【0055】
ゲーム用のプログラムおよびデータを記憶したDVD−ROMをDVD−ROMドライブ108に装着して、情報処理装置100の電源を投入することにより、当該プログラムが実行され、本実施形態の音声処理装置が実現される。
【0056】
また、携帯型のゲーム装置においては、携帯可能とするために、DVD−ROMドライブ108を利用するのではなく、ROMカセット用スロットを利用することも可能である。この場合、プログラムが記録されたROMカセットを挿入して、当該プログラムを実行することで、本実施形態の音声処理装置が実現される。
【0057】
このほか、端末装置からサーバ装置に接続することによりチャットを進めるようなシステムにおいては、端末装置同士とサーバ装置とが共働してチャットシステムとして機能することとなるが、この場合、端末装置と、サーバ装置と、は、計算能力の違いや機器構成に少々の相違はあるものの、本質的には、情報処理装置100と同様の構成とするのが典型的である。また、この場合に、サーバ装置は端末装置の紹介のみを担い、その後は、端末装置同士がピアツーピアで通信することによって、チャットシステムを形成する形態を採用することもできる。
【0058】
CPU 101は、情報処理装置100全体の動作を制御し、各構成要素と接続され制御信号やデータをやりとりする。また、CPU 101は、レジスタ(図示せず)という高速アクセスが可能な記憶域に対してALU(Arithmetic Logic Unit)(図示せず)を用いて加減乗除等の算術演算や、論理和、論理積、論理否定等の論理演算、ビット和、ビット積、ビット反転、ビットシフト、ビット回転等のビット演算などを行うことができる。さらに、マルチメディア処理対応のための加減乗除等の飽和演算や、三角関数等、ベクトル演算などを高速に行えるように、CPU 101自身が構成されているものや、コプロセッサを備えて実現するものがある。
【0059】
ROM 102には、電源投入直後に実行されるIPL(Initial Program Loader)が記録され、これが実行されることにより、DVD−ROMに記録されたプログラムをRAM 103に読み出してCPU 101による実行が開始される。また、ROM 102には、情報処理装置100全体の動作制御に必要なオペレーティングシステムのプログラムや各種のデータが記録される。
【0060】
RAM 103は、データやプログラムを一時的に記憶するためのもので、DVD−ROMから読み出したプログラムやデータ、その他ゲームの進行やチャット通信に必要なデータが保持される。また、CPU 101は、RAM 103に変数領域を設け、当該変数に格納された値に対して直接ALUを作用させて演算を行ったり、RAM 103に格納された値を一旦レジスタに格納してからレジスタに対して演算を行い、演算結果をメモリに書き戻す、などの処理を行う。
【0061】
インターフェース104を介して接続されたコントローラ105は、ユーザがゲーム実行の際に行う操作入力を受け付ける。
【0062】
なお、コントローラ105は、必ずしも情報処理装置100に対して外付けにされている必要はなく、一体に形成されていても良い。
【0063】
携帯可能な端末装置のコントローラ105は、各種のボタンやスイッチから構成され、これらの押圧操作を操作入力として扱う。このほか、タッチスクリーンを利用した情報処理装置100では、ユーザがペンや指を利用してタッチスクリーンをなぞった軌跡を操作入力として扱う。
【0064】
インターフェース104を介して着脱自在に接続された外部メモリ106には、ゲーム等のプレイ状況(過去の成績等)を示すデータ、ゲームの進行状態を示すデータ、ネットワーク対戦の場合のチャット通信のログ(記録)のデータなどが書き換え可能に記憶される。ユーザは、コントローラ105を介して指示入力を行うことにより、これらのデータを適宜外部メモリ106に記録することができる。
【0065】
DVD−ROMドライブ108に装着されるDVD−ROMには、ゲームを実現するためのプログラムとゲームに付随する画像データや音声データが記録される。CPU 101の制御によって、DVD−ROMドライブ108は、これに装着されたDVD−ROMに対する読み出し処理を行って、必要なプログラムやデータを読み出し、これらはRAM 103等に一時的に記憶される。
【0066】
画像処理部107は、DVD−ROMから読み出されたデータをCPU 101や画像処理部107が備える画像演算プロセッサ(図示せず)によって加工処理した後、これを画像処理部107が備えるフレームメモリ(図示せず)に記録する。フレームメモリに記録された画像情報は、所定の同期タイミングでビデオ信号に変換され画像処理部107に接続されるモニタ(図示せず)へ出力される。これにより、各種の画像表示が可能となる。
【0067】
携帯可能なゲーム装置のモニタとしては、小型の液晶ディスプレイを利用するのが典型的であり、コントローラ105としてタッチスクリーンを利用する場合には、当該タッチスクリーンの表示パネルがモニタとして機能する。自宅で遊ぶためのゲーム装置やサーバ装置のモニタとしては、CRT(Cathode Ray Tube)やプラズマディスプレイなどの表示装置を利用することも可能である。
【0068】
画像演算プロセッサは、2次元の画像の重ね合わせ演算やαブレンディング等の透過演算、各種の飽和演算を高速に実行できる。
【0069】
また、仮想3次元空間に配置され、各種のテクスチャ情報が付加されたポリゴン情報を、Zバッファ法によりレンダリングして、所定の視点位置から仮想3次元空間に配置されたポリゴンを所定の視線の方向へ俯瞰したレンダリング画像を得る演算の高速実行も可能である。
【0070】
さらに、CPU 101と画像演算プロセッサが協調動作することにより、文字の形状を定義するフォント情報にしたがって、文字列を2次元画像としてフレームメモリへ描画したり、各ポリゴン表面へ描画することが可能である。
【0071】
NIC 109は、情報処理装置100をインターネット等のコンピュータ通信網(図示せず)に接続するためのものであり、LANを構成する際に用いられる10BASE−T/100BASE−T規格にしたがうものや、電話回線を用いてインターネットに接続するためのアナログモデム、ISDN(Integrated Services Digital Network)モデム、ADSL(Asymmetric Digital Subscriber Line)モデム、ケーブルテレビジョン回線を用いてインターネットに接続するためのケーブルモデム等と、これらとCPU 101との仲立ちを行うインターフェース(図示せず)により構成される。
【0072】
音声処理部110は、DVD−ROMから読み出した音声データをアナログ音声信号に変換し、これに接続されたスピーカ(図示せず)から出力させる。また、CPU 101の制御の下、ゲームの進行の中で発生させるべき効果音や楽曲データを生成し、これに対応した音声をスピーカや、ヘッドホン(図示せず)、イヤフォン(図示せず)から出力させる。
【0073】
音声処理部110では、DVD−ROMに記録された音声データがMIDIデータである場合には、これが有する音源データを参照して、MIDIデータをPCMデータに変換する。また、ADPCM形式やOgg Vorbis形式等の圧縮済音声データである場合には、これを展開してPCMデータに変換する。PCMデータは、そのサンプリング周波数に応じたタイミングでD/A(Digital/Analog)変換を行って、スピーカに出力することにより、音声出力が可能となる。
【0074】
さらに、情報処理装置100には、インターフェース104を介してマイク111を接続することができる。この場合、マイク111からのアナログ信号に対しては、適当なサンプリング周波数でA/D変換を行い、PCM形式のディジタル信号として、音声処理部110でのミキシング等の処理ができるようにする。
【0075】
このほか、情報処理装置100は、ハードディスク等の大容量外部記憶装置を用いて、ROM 102、RAM 103、外部メモリ106、DVD−ROMドライブ108に装着されるDVD−ROM等と同じ機能を果たすように構成してもよい。
【0076】
また、ユーザからの文字列の編集入力を受け付けるためのキーボードや、各種の位置の指定および選択入力を受け付けるためのマウスなどを接続する形態も採用することができる。また、本実施形態の情報処理装置100にかえて、汎用のパーソナルコンピュータを利用することもできる。
【0077】
以上で説明した情報処理装置100は、いわゆるコンシューマ向けゲーム装置に相当するものであるが、携帯電話、携帯ゲーム機器、カラオケ装置、一般的なビジネス用コンピュータなど、種々の計算機上で本発明のゲーム装置を実現することが可能である。
【0078】
たとえば、一般的なコンピュータは、上記情報処理装置100と同様に、CPU、RAM、ROM、DVD−ROMドライブ、および、NICを備え、情報処理装置100よりも簡易な機能を備えた画像処理部を備え、外部記憶装置としてハードディスクを有する他、フレキシブルディスク、光磁気ディスク、磁気テープ等が利用できるようになっている。また、コントローラ105ではなく、キーボードやマウスなどを入力装置として利用する。
【0079】
図2は、本実施形態に係る音声処理装置と、当該音声処理装置を利用したチャットシステムの概要構成を示す説明図である。以下、本図を参照して、本音声処理装置の各部の概要を説明する。
【0080】
本実施形態に係るチャットシステム211は、2つの音声処理装置201からなる。音声処理装置201は、それぞれ、入力受付部202、抽出部203、生成部204、出力部205を備える。
【0081】
ここで、入力受付部202は、ユーザが発する声の入力を受け付ける。本実施形態では、CPU 101の制御の下、マイク111が入力受付部202の機能を果たす。
【0082】
一方、抽出部203は、受け付けられた声の特徴パラメータを抽出する。本実施形態では、CPU 101ならびに音声処理部110が抽出部203の機能を果たす。
【0083】
さらに、生成部204は、所定の音声データから合成音声を生成する。ここで生成される合成音声は、当該所定の音声データの特徴パラメータを抽出部203により抽出される特徴パラメータに置き換えたものである。
【0084】
本実施形態では、CPU 101ならびに音声処理部110が生成部204の機能を果たす。
【0085】
さらに、出力部205は、生成された合成音声を出力する。本実施形態では、CPU 101の制御の下、ならびに音声処理部110がスピーカやヘッドホンを駆動して、出力部205の機能を果たす。
【0086】
なお、本図に示すように、チャットシステム211ならびに2つの音声処理装置201は、2人のユーザAとユーザBが利用する2つの情報処理装置100によって実現されるが、1つの音声処理装置201の抽出部203と生成部204の間で、コンピュータ通信網を介した通信によって特徴パラメータが伝送される。
【0087】
すなわち、ユーザAが利用する情報処理装置100は、ユーザAが発した声に対する入力受付部202および抽出部203、ならびに、ユーザBが発した声に対する生成部204および出力部205として機能する。
【0088】
一方、ユーザBが利用する情報処理装置100は、ユーザBが発した声に対する入力受付部202および抽出部203、ならびに、ユーザAが発した声に対する生成部204および出力部205として機能する。
【0089】
図3は、音声処理装置201が行う送信処理の制御の流れを示すフローチャートである。これは、入力受付部202および抽出部203が行う処理に相当する。以下、本図を参照して説明する。
【0090】
本処理が開始されると、CPU 101は、マイク111からの音声の波形入力機能ならびにRAM 103を初期化する(ステップS301)。ここで、RAM 103には、マイク111から入力された音声の波形データを所定の時間長分だけ記録できるバッファを2つ用意し、中身をゼロクリアしておく。
【0091】
マイク111からの音声の波形データのサンプリング周波数は、音声処理部110の能力ならびに設定によって変更が可能であるが、44100Hz、22050Hz、もしくは、11025Hzのいずれかとし、A/D変換の精度は、8ビットもしくは16ビットのモノラルとするのが典型的である。
【0092】
バッファに蓄積する際の所定の時間長は、音声処理装置201を実現する情報処理装置100の垂直同期割込周期の整数倍とするのが典型的である。たとえば垂直同期割込の周期が、60分の1秒(これは60Hzに相当する。)である場合、バッファの時間長は、60分の1秒、30分の1秒、あるいは20分の1秒とするのが典型的である。
【0093】
ここで、20分の1秒(これは20Hzに相当する。)は、人間の可聴周波数領域の下限に相当する。すなわち、波形データが変化した場合に、人間が「音量の変化」と「音色の変化」のいずれと感じるか、の境界に相当するため、本発明においては、この時間長を採用するのが典型的である。
【0094】
たとえば、16ビット符号付きモノラルサンプリングでサンプリング周波数が44100Hzの場合、バッファ長は、(16/8)×(44100/20) = 4410バイトとなる。
【0095】
そして、RAM 103内のバッファの一方のバッファへ、マイク111からの波形データに蓄積を開始し(ステップS302)、これと並行して、RAM 103内の他方のバッファについて、以下の処理を行う。
【0096】
すなわち、当該バッファの波形データ列から、特徴パラメータを抽出する(ステップS303)。ここで、バッファに記憶される波形データ列を
a1,a2,…,aL
とする。上記の例では、a1,a2,…,aLはいずれも16ビット符号付き整数であり、L = 2205である。
【0097】
最も簡単な特徴パラメータとしては、
(1)変位の絶対値の平均Σt=1L|at|/L、
(2)変位の自乗平均Σt=1L at2/L、
(3)変位の絶対値の総和Σt=1L|at|、
(4)変位の自乗和Σt=1L at2
などを採用することができる。これらは、マイク111から入力された声の大きさに相当する特徴パラメータである。より複雑な特徴パラメータについては、後述する。
【0098】
ついで、情報処理装置100のNIC 109を介して、当該特徴パラメータを相手方の情報処理装置100へ送信し(ステップS304)、ステップS302において開始したバッファへの蓄積が完了するまで待機する(ステップS305)。なお、当該待機中には、他の処理を並行してコルーチン的に実行することも可能である。典型的には、後述する受信処理が並行に行われる。
【0099】
バッファへの蓄積が完了したら、2つのバッファの役割を交換して(ステップS306)、ステップS302に戻る。
【0100】
上記のように、バッファへの波形データの蓄積は、20分の1秒単位で行われるから、特徴パラメータの送信は、20分の1秒ごとに行われることになるため、通常のボイスチャットに比較して、伝送すべきデータ量は激減する。なお、当該特徴パラメータの送信は、適宜バッファリングを行うことも可能である。
【0101】
図4は、音声処理装置201が行う受信処理の制御の流れを示すフローチャートである。これは、生成部204および出力部205が行う処理に相当する。以下、本図を参照して説明する。
【0102】
CPU 101は、まず、所定の音声波形データの出力を、音量0で開始する(ステップS401)。所定の音声波形データとしては、正弦波、方形波、MIDIなどで用意された各種の楽器の音声波形データ、声優などの声のデータ等、種々のものを採用することができる。
【0103】
ついで、NIC 109を制御して、相手方の情報処理装置100から送信された特徴パラメータが到達するまで待機する(ステップS402)。この待機中には、他の処理を並行してコルーチン的に実行することも可能である。典型的には、上記の送信処理が並行に行われる。
【0104】
特徴パラメータが到達したら、当該特徴パラメータを受信する(ステップS403)。
【0105】
そして、ステップS401で開始した所定の音声波形データの出力音量を、受信した特徴パラメータに比例する音量に変更して(ステップS404)、ステップS402に戻る。
【0106】
これらの送信処理および受信処理によって、送信側のユーザが発声した声の大きさに合わせて音量が変化する音声を、受信側のユーザは聞くことができるようになる。
【0107】
声の大きさは相手方ユーザの感情を反映するから、このような処理であっても、ある程度の意思疎通は可能である。
【0108】
一方で、受信側のユーザが聞く音声は、所定の音声波形データの音量を変化させたものに過ぎないから、どのような音韻が発せられたかを知ることはできない。したがって、送信側のユーザが公序良俗に反する発言をした場合であっても、受信側のユーザは、その内容を知ることはない。このため、発言内容に基づくトラブルを防止することが可能である。
【0109】
さらに、一般に、声の大きさと感情との相関関係は、どのような言語を用いているかにはあまり依存しない。本実施形態では、受信側では音韻が不明であり、もともと言語として理解できないコミュニケーションであることが前提となっているから、送信側のユーザと受信側のユーザが互いに理解できるような言語を持たない場合であっても、言語による障害が存在しないため、かえって意思疎通が促進される状況もありうる。
【0110】
上記実施形態では、声の大きさを特徴パラメータとして抽出し、出力される音声の音量を変化させることとしていたが、この態様は種々の変形が可能である。
【0111】
まず、抽出する特徴パラメータとして、さらに
(5)基本周波数
を採用する手法が考えられる。基本周波数を取得するためには、バッファに蓄積された波形データ列a1,a2,…,aLを離散高速フーリエ変換し、最も大きな成分を有するピークの周波数を取得すれば良い。
【0112】
そして、基本周波数と、上記(1)〜(4)のいずれかを組み合わせて特徴パラメータとして、相手方の情報処理装置100に伝送する。
【0113】
受信側では、ステップS404において、音量を変化させるほか、所定の波形データを再生する音程(周波数、あるいは、キー)を、受信した特徴パラメータの基本周波数に変更するのである。
【0114】
正弦波、方形波、MIDIなどで用意された各種の楽器の音声波形データの場合には、当該音声波形データの再生周波数を、受信した特徴パラメータに合わせて変更すれば良い。これは、カラオケなどで行われる「キーの変更」をより細かく行う制御に相当する。
【0115】
また、声優などの声のデータを採用する場合であっても、伝送された特徴パラメータに指定される再生周波数の上下の変化に合わせて、音声波形データのキーを上下に変更すれば良い。
【0116】
本態様では、声の大きさのほか、声の高低も相手方に伝えることができ、抑揚やイントネーションなどによって、さらに詳細にユーザの感情を理解させることができるようになり、より意思疎通が図られるようになる。
【0117】
このほか、離散高速フーリエ変換の結果を利用して、
(6)所定の複数の周波数における周波数成分の大きさ
を特徴パラメータとしても良い。
【0118】
この際、受信側では、複数の周波数のそれぞれに対応する波形データを用意しておき、各波形データの増幅率を、対応する周波数成分の大きさに比例させる。典型的には、上記(1)〜(4)のいずれか1つに比例するようにする。
【0119】
たとえば、MIDIの音源を考えた場合、ドラム、ベース、ギター、ピアノは、受け持つ音高の範囲が異なる。そこで、これらの楽器の代表的な音の周波数を、上記の「所定の複数の周波数」とする。
【0120】
そして、受信側では、各楽器の音量を、フーリエ変換の結果のうち、その楽器の代表周波数について抽出された成分の大きさに合わせて変化させる。このような処理によって、人間の発声が、ジャズバンドの演奏のように再生されることになる。
【0121】
これをさらに応用する場合には、
(7)所定の1つまたは複数の周波数帯内におけるピークの周波数とその大きさ
を特徴とする手法もありうる。
【0122】
上記の例では、ドラム用の周波数帯、ベース用の周波数帯、ギター用の周波数帯、ピアノ用の周波数帯を、あらかじめ定めておき、フーリエ変換の結果から、各周波数帯におけるピークを選択する。
【0123】
なお、各周波数帯について選択するピークは1つとしても良いし、複数としても良い。たとえば、ピアノは他の楽器に比べてカバーできる周波数帯が広いから、それに合わせて選択するピークの個数を多くする等である。
【0124】
そして、受信側では、各楽器の波形データの出力音高を、そのピークの周波数に合わせるとともに、そのピークの周波数成分の大きさに合わせて変化させる。ある楽器についてピークを複数選択する場合には、その楽器で複数の音を演奏するように、設定すれば良い。
【0125】
この手法では、さらに、ジャズバンドの演奏によって人間の発声を模したかのような再生結果が得られることになる。
【0126】
なお、上記の手法は、適宜組み合わせたり、一部を省略したりしても良い。
【0127】
このように、本実施形態によれば、ボイスチャットに類似したシステムを提供することによって、ユーザの発言内容の詳細を言語情報として取得することはできないものの、ユーザ同士の感情による意思疎通は可能とすることができ、特に、ユーザ同士の発言内容に基づくトラブルを抑制することが可能となる。
【産業上の利用可能性】
【0128】
以上説明したように、本発明によれば、ユーザ同士の声による意思疎通をある程度可能としつつ、不適切な会話がなされないようにするのに好適な音声処理装置、チャットシステム、音声処理方法、ならびに、これらをコンピュータにて実現するプログラムを提供することができる。
【符号の説明】
【0129】
100 情報処理装置
101 CPU
102 ROM
103 RAM
104 インターフェース
105 コントローラ
106 外部メモリ
107 画像処理部
108 DVD−ROMドライブ
109 NIC
110 音声処理部
111 マイク
201 音声処理装置
202 入力受付部
203 抽出部
204 生成部
205 出力部
211 チャットシステム

【特許請求の範囲】
【請求項1】
ユーザが発する声の入力を受け付ける入力受付部、
前記受け付けられた声の特徴パラメータを抽出する抽出部、
所定の音声データから、合成音声を生成する生成部、
前記生成された合成音声を出力する出力部
を備え、
前記生成部は、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成する
ことを特徴とする音声処理装置。
【請求項2】
請求項1に記載の音声処理装置であって、
前記特徴パラメータは、波形の振幅もしくは音量、基本周波数、基本周波数成分の大きさ、または、所定の代表周波数成分の大きさの時間変化である
ことを特徴とする音声処理装置。
【請求項3】
請求項2に記載の音声処理装置であって、
前記抽出部は、前記特徴パラメータを、1秒間に20回未満の頻度で抽出する
ことを特徴とする音声処理装置。
【請求項4】
請求項1または2に記載の音声処理装置であって、
前記抽出部は、前記受け付けられた声を離散フーリエ変換し、得られる周波数分布のうち、所定の複数の周波数成分の大きさを前記特徴パラメータとして抽出し、
前記生成部は、前記抽出された周波数成分のそれぞれにあらかじめ対応付けられる波形データを前記抽出された大きさに増幅して合成して、合成音声を生成する
ことを特徴とする音声処理装置。
【請求項5】
請求項4に記載の音声処理装置であって、
前記周波数成分のそれぞれにあらかじめ対応付けられる波形データの基本周波数は当該周波数成分の中心周波数に一致し、当該波形データは、当該基本周波数の倍音の成分を含む
ことを特徴とする音声処理装置。
【請求項6】
請求項1または2に記載の音声処理装置であって、
前記生成部は、複数の音声データの候補から、当該候補の特徴パラメータが前記抽出された特徴パラメータに最も近いものを選択し、当該選択された候補の音声データを、前記所定の音声データとする
ことを特徴とする音声処理装置。
【請求項7】
第1のユーザが発する声の入力を受け付けて、第2のユーザに合成音声を出力する第1の音声処理装置と、
前記第2のユーザが発する声の入力を受け付けて、前記第1のユーザに合成音声を出力する第2の音声処理装置と、
を備え、
前記第1の音声処理装置と、前記第2の音声処理装置と、の、それぞれは、
ユーザが発する声の入力を受け付ける入力受付部、
前記受け付けられた声の特徴パラメータを抽出する抽出部、
所定の音声データから、合成音声を生成する生成部、
前記生成された合成音声を出力する出力部
を備え、
前記生成部は、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成し、
前記抽出された特徴パラメータは、前記抽出部から前記生成部へ、コンピュータ通信網を介して伝送される
ことを特徴とするチャットシステム。
【請求項8】
入力受付部、抽出部、生成部、出力部を備える音声処理装置が実行する音声処理方法であって、
前記入力受付部が、ユーザが発する声の入力を受け付ける入力受付工程、
前記抽出部が、前記受け付けられた声の特徴パラメータを抽出する抽出工程、
前記生成部が、所定の音声データから、合成音声を生成する生成工程、
前記出力部が、前記生成された合成音声を出力する出力工程
を備え、
前記生成工程では、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成する
ことを特徴とする音声処理方法。
【請求項9】
コンピュータを、
ユーザが発する声の入力を受け付ける入力受付部、
前記受け付けられた声の特徴パラメータを抽出する抽出部、
所定の音声データから、合成音声を生成する生成部、
前記生成された合成音声を出力する出力部
として機能させ、
前記生成部が、前記所定の音声データの特徴パラメータを、前記抽出された特徴パラメータの値に置き換えることによって、前記合成音声を生成する
ように機能させることを特徴とするプログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate


【公開番号】特開2010−169925(P2010−169925A)
【公開日】平成22年8月5日(2010.8.5)
【国際特許分類】
【出願番号】特願2009−12753(P2009−12753)
【出願日】平成21年1月23日(2009.1.23)
【出願人】(506113602)株式会社コナミデジタルエンタテインメント (1,441)
【Fターム(参考)】