説明

通信装置、プログラムおよび受信音声出力方法

【課題】発信元の異なる会話音声とコンテンツ音声を、同時性を保持しつつ、聞き分けることが可能なように出力する
【解決手段】通信相手から会話音声を受信する会話音声受信手段と、会話音声受信手段が受信した会話音声の有音部分を抽出する有音部分抽出手段と、通信相手と共通するコンテンツを受信するコンテンツ受信手段と、コンテンツ受信手段が受信したコンテンツに含まれる音声の音量に基づき、有音部分抽出手段が抽出した有音部分の再生時刻を決定する会話音声再生時刻決定手段と、有音部分抽出手段が抽出した有音部分を、会話音声再生時刻決定手段により決定された再生時刻に再生する会話音声再生時刻制御手段とを備えることを特徴とする通信装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信装置、プログラムおよび受信音声出力方法、特に発信元が異なる複数の音声を適切に出力する通信装置、プログラムおよび受信音声出力方法に関する。
【背景技術】
【0002】
近年、通信技術の発達に伴い、それぞれが遠隔地にいる複数のユーザが同時に会話することができる通話システムが提案されている。このようなシステムで、複数のユーザの発言のタイミングが重なった場合に、それぞれの発言を聞きやすくするための技術が提案されている。
例えば、特許文献1では、発言毎に優先順位を設定し、その優先順位に基づいて発言を時間的にずらして出力する従来の方法が開示されている。
【特許文献1】特開2002−232576号公報
【発明の開示】
【発明が解決しようとする課題】
【0003】
しかしながら、従来の方法にあっては、複数の音声が頻繁に流れている場合は、ずらす時間が累積され、遅延が増加していくため同時性(リアルタイム性)が損なわれるという問題がある。
特に、通常の音声通話で扱っている話者の声や周りの音を意味する会話音声と、ネットワーク上にある動画ファイルの音声やビデオデッキに録画された番組などのコンテンツの音を意味するコンテンツ音声といった発信元の異なる複数の音声を同時に出力しながら音声通話(コミュニケーション)を行う状況下においては、以下のような問題点が生じる蓋然性が高い。
コンテンツ音声は音が絶えず流れているため、従来の方法では、会話音声を出力するタイミングが少ないために、会話音声は大幅に時間的にずらして出力することになり、会話音声の同時性が著しく損なわれる。つまり、従来の技術は、複数の音声が重なった場合の各音声の聞き取りとりという問題点は解決されるが、通話で扱う音声の性質によっては、同時性が著しく損なわれてしまうという問題点がある。
【0004】
本発明は、このような事情に鑑みてなされたもので、その目的は、発信元の異なる会話音声とコンテンツ音声を、同時性を保持しつつ、聞き分けることが可能なように出力する通信装置を提供することにある。
【課題を解決するための手段】
【0005】
この発明は上述した課題を解決するためになされたもので、本発明は、通信相手から会話音声を受信する会話音声受信手段と、前記会話音声受信手段が受信した会話音声の有音部分を抽出する有音部分抽出手段と、音声を含んだコンテンツを受信するコンテンツ受信手段と、前記コンテンツ受信手段が受信したコンテンツに含まれる音声の音量に基づき、前記有音部分抽出手段が抽出した有音部分の再生時刻を決定する会話音声再生時刻決定手段と、前記有音部分抽出手段が抽出した有音部分を、前記会話音声再生時刻決定手段により決定された再生時刻に再生する会話音声再生時刻制御手段とを備えることを特徴とする通信装置である。
【0006】
また、本発明は、コンピュータを、通信相手から会話音声を受信する会話音声受信手段、前記会話音声受信手段が受信した会話音声の有音部分を抽出する有音部分抽出手段、音声を含んだコンテンツを受信するコンテンツ受信手段、前記コンテンツ受信手段が受信したコンテンツに含まれる音声の音量に基づき、前記有音部分抽出手段が抽出した有音部分の再生時刻を決定する会話音声再生時刻決定手段、前記有音部分抽出手段が抽出した有音部分を、前記会話音声再生時刻決定手段により決定された再生時刻に再生する会話音声再生時刻制御手段として機能させるためのプログラムである。
【0007】
また、本発明は、通信相手から会話音声を受信する第1の過程と、前記第1の過程にて受信した会話音声の有音部分を抽出する第2の過程と、音声を含んだコンテンツを受信する第3の過程と、前記第3の過程にて受信したコンテンツに含まれる音声の音量に基づき、前記第2の過程にて抽出した有音部分の再生時刻を決定する第4の過程と、前記第2の過程にて抽出した有音部分の再生時刻を決定する第5の過程と、前記第2の過程にて抽出した有音部分を、前記第5の過程にて決定された再生時刻に再生する第6の過程とを備えることを特徴とする受信音声出力方法である。
【0008】
これにより、本発明の通信装置(プログラム、受信音声出力方法)は、コンテンツの音声の音量が小さいときに会話音声を出力することで、発信元の異なる会話音声とコンテンツの音声を、同時性を保持しつつ、聞き分けることが可能なように出力することができる。
【0009】
また、本発明は、上述の通信装置であって、前記会話音声再生時刻決定手段は、前記コンテンツに含まれる音声の音量が所定の閾値より小さいときを再生時刻とすることを特徴とする。
【0010】
これにより、本発明の通信装置は、閾値を適当な値とすることで、コンテンツの音声の音量が充分に小さいときに会話音声を出力するので、発信元の異なる会話音声とコンテンツの音声を、同時性を保持しつつ、聞き分けることが可能なように出力することができる。
【0011】
また、本発明は、上述の通信装置であって、前記有音部分抽出手段が検出した有音部分の始端時刻から所定の長さの時間を調査範囲として決める調査範囲決定手段を備え、前記会話音声再生時刻決定手段は、前記調査範囲決定手段が決めた調査範囲内で、前記コンテンツに含まれる音声の音量が所定の閾値より小さいときを再生時刻とすることを特徴とする。
【0012】
これにより、本発明の通信装置は、閾値を適当な値とすることで、所定の時間内でコンテンツの音声が充分に小さいときに会話音声を出力するので、発信元の異なる会話音声とコンテンツの音声を、同時性を保持しつつ、聞き分けることが可能なように出力することができる。
【0013】
また、本発明は、上述の通信装置であって、前記有音部分抽出手段は、有音部分の終端時刻を検出し、前記会話音声再生時刻決定手段は、前記有音部分抽出手段が抽出した有音部分の再生を開始する時刻から前記有音部分抽出手段が検出した始端時刻を引いて遅延時間を算出し、前記有音部分抽出手段が前の有音部分について検出した終端時刻に、前記会話音声再生時刻決定手段が前の有音部分について算出した遅延時間を足した再生終了時刻を算出する再生終了時刻計算手段を備え、前記調査範囲決定手段は、前記有音部分抽出手段が検出した始端時刻と前記再生終了時刻計算手段が算出した再生終了時刻とのうち、遅い方の時刻を調査範囲の開始時刻とすることを特徴とする。
【0014】
これにより、本発明の通信装置は、有音部分の再生時刻を、前の有音部分の再生終了時間より後にするので、会話音声の有音部分同士が重ならないように出力することができる。
【0015】
また、本発明は、上述のいずれかの通信装置であって、前記会話音声再生時刻決定手段は、前記調査範囲決定手段が決めた調査範囲内に前記コンテンツに含まれる音声の音量が所定の閾値より小さくならないときは、前記調査範囲の終端時刻を再生時刻とすることを特徴とする。
【0016】
これにより、本発明の通信装置は、所定の時間内のコンテンツの音声が充分に小さいときがなくても、所定の時間内に会話音声を出力することができる。
【0017】
また、本発明は、上述のいずれかの通信装置であって、コンテンツに含まれる音声を記憶するコンテンツ音声記憶手段と、前記コンテンツ音声記憶手段に格納された音声を、前記コンテンツ音声記憶手段から読み出して再生するコンテンツ音声再生手段とを備え、コンテンツ受信手段は、コンテンツを受信し、該コンテンツに含まれる音声を抽出して前記コンテンツ音声記憶手段に格納し、前記会話音声再生時刻決定手段は、前記コンテンツ音声記憶手段に格納されている音声を参照し、前記調査範囲決定手段が決めた調査範囲内に再生される前記参照した音声の音量が所定の閾値より小さくならないときは、前記調査範囲決定手段が決めた調査範囲内に再生される前記参照した音声の音量が最も小さいときを再生時刻とすることを特徴とする。
【0018】
これにより、本発明の通信装置は、会話音声の出力を、遅延時間を所定の時間内としつつ、会話音声が最も聞き取りやすいときとすることができる。
【0019】
また、本発明は、上述の通信装置であって、前記会話音声再生時刻決定手段は、前記コンテンツ音声記憶手段に格納されている音声を参照し、前記調査範囲決定手段が決めた調査範囲内に再生される前記参照した音声の音量が所定の閾値より小さい時間帯のうち、最も長いあるいは最も早い時間帯の開始時刻を再生時刻とすることを特徴とする。
【0020】
これにより、本発明の通信装置は、会話音声の出力を、遅延時間を所定の時間内としつつ、会話音声が最も聞き取りやすいとき、あるいは、遅延時間がなるべく短くなるときとすることができる。
【0021】
また、本発明は、上述のいずれかの通信装置であって、前記調査範囲決定手段が決めた調査範囲内に前記コンテンツに含まれる音声の音量が所定の閾値より小さくならないときは、会話音声を出力する際は、コンテンツに含まれる音声の出力音量を小さく、会話音声の出力音量を大きくするように通知する音量決定手段と、前記音量決定手段の通知に基づき、コンテンツに含まれる音声の出力音量および会話音声の出力音量を制御する出音音声制御手段とを備えることを特徴とする。
【0022】
これにより、本発明の通信装置は、閾値を適当な値としても、コンテンツの音声の音量が充分に小さいときが無い場合は、会話音声の出力時に、コンテンツの音声の音量を小さく、会話音声の音量を大きくして、会話音声が聞き取り易いようにすることができる。
【0023】
また、本発明は、上述の通信装置であって、会話音声を出力する際は、コンテンツに含まれる音声の出力音量を小さく、または、会話音声の出力音量を大きくするように通知する音量決定手段と、前記音量決定手段の通知に基づき、コンテンツに含まれる音声の出力音量、または、会話音声の出力音量を制御する出音音声制御手段とを備えることを特徴とする。
【0024】
これにより、本発明の通信装置は、会話音声の出力時に、コンテンツの音声の音量を小さく、または、会話音声の音量を大きくして、会話音声が聞き取り易いようにすることができる。
【0025】
また、本発明は、上述の通信装置であって、前記有音部分抽出手段が抽出した有音部分の音量に応じて、前記閾値を決定する閾値適応制御手段を備えることを特徴とする。
【0026】
これにより、本発明の通信装置は、会話音声の音量が大きいときは、会話音声の音量が小さいときに比べて閾値が大きくなるようにすることで、閾値を固定値としたときよりも、会話音声の遅延時間を短くすることができる。
【発明の効果】
【0027】
この発明によれば、コンテンツ音声の音量に基づき、会話音声の有音部分の再生時刻を決定するので、コンテンツ音声の音量が小さいときを会話音声の有音部分の再生時刻とすることで、発信元の異なる会話音声とコンテンツ音声を、同時性を保持しつつ、聞き分けることが可能なように出力することができる。
【発明を実施するための最良の形態】
【0028】
[第1の実施形態]
以下、図面を参照して、本発明の第1の実施の形態について説明する。図1に、この発明の第1の実施形態による通信装置を用いて、会話音声とコンテンツ音声といった複数の音声を同時に出力しながら音声コミュニケーションを行なうシステムの概略構成図を示す。図中、101aはAさん宅の通信装置である情報処理端末、101bはBさん宅の通信装置である情報処理端末である。例えばマイク、スピーカ、表示画面を備えたテレビ電話機を想定している。また、102はコンテンツを提供可能なコンテンツサーバであり、例えばコンテンツを保持するWWW(World Wide Web)サーバを想定している。最後に、103はネットワークであり、ネットワーク103を介して、情報処理端末101aと情報処理端末101bは通話し、また、コンテンツサーバ102は、指定されたコンテンツをストリームデータとして情報処理端末101aと情報処理端末101bとに同時に配信する。
【0029】
本実施形態の情報処理(通話)システムでは、コンテンツサーバ102上に格納されている運動会の動画ファイルなど、ネットワーク103上にあるコンテンツを、Aさん宅の情報処理端末101aとBさん宅の情報処理端末101bの両方で同期出力し、同時にAさんとBさんの間で会話も楽しむことができる。つまり、本実施形態の情報処理端末からなる情報処理システムは、コンテンツを共有しながら会話できるため、今まで以上につながり感のあるコミュニケーションが実現できるように構成されている。ここでいう同期出力とは、Aさん宅(情報処理端末101a)とBさん宅(情報処理端末101b)において同じタイミングでコンテンツが再生されることを示しており、同じタイミングとは、完全にタイミングが一致したものである必要はなく、通信網の遅延などによる多少のタイミングの不一致を許容するものとする。
【0030】
図2は、本実施形態の情報処理端末101aおよび情報処理端末101bの概略構成を示すブロック図である。情報処理端末101aは、通信部110、会話音声入力部111、音声出力部112、会話音声送信部113、会話音声受信部114、コンテンツ音声受信部115、出音音声混合部116、コンテンツ音声再生部117、オンオフ判定部120、調査範囲決定部121、会話音声再生時刻決定部122、会話音声再生時刻制御部123、再生終了時刻計算部124、コンテンツ音声バッファ150、会話音声バッファ151、遅延時間保持部160によって構成される。
なお、情報処理端末101aと情報処理端末101bは同じ構成とし、以下、情報処理端末101aあるいは情報処理端末101bをしばしば情報処理端末101という。
また、図中の実線の矢印は音声信号を表わし、破線の矢印は制御信号を表わしている。
なお、ネットワーク103を介してコンテンツサーバ102からコンテンツ映像を受信し、表示するコンテンツ映像受信部および、コンテンツ映像表示部については、図示を省略している。
【0031】
通信部110は、ネットワーク103を介して通信相手の情報処理端末(情報処理端末101b)やコンテンツサーバ102と有線通信または無線通信を行なう手段であり、例えばネットワークカードやLAN(Local Area Network)接続端子などで構成される。
【0032】
会話音声入力部111は、ユーザ(Aさん)の発する音声や周囲の音を電気信号に変換して会話音声を生成する。具体的にはマイクなどの音声入力装置である。音声出力部112は、通信相手のユーザであるBさんの会話音声とコンテンツ音声とを混合した電気信号である混合音声を出音する。具体的にはスピーカなどの音声出力装置である。会話音声送信部113は、会話音声入力部111から伝えられた会話音声を、通信部110を介してネットワーク103へ送信する。
【0033】
会話音声受信部(会話音声受信手段)114は、ネットワーク103を介して情報処理端末101bから会話音声を受信する。
また、コンテンツ音声受信部(コンテンツ受信手段)115は、ネットワーク103を介してコンテンツサーバ102からコンテンツ音声を受信し、コンテンツ音声バッファ150に格納する。
コンテンツ音声再生部(コンテンツ音声再生手段)117は、コンテンツ音声バッファ150からコンテンツ音声を読み出して再生し、出音音声混合部116に入力する。なお、コンテンツ音声再生部117は、コンテンツ音声バッファ150に後述する調査範囲の時間以上の未再生のコンテンツ音声が蓄積されているように、コンテンツ音声受信部115によるコンテンツ音声バッファ150への書き込みから遅延させたタイミングで読み出しを行う。
【0034】
出音音声混合部116は、定められた混合音量情報に基づき、会話音声再生時刻制御部123から入力した会話音声と、コンテンツ音声再生部117から入力したコンテンツ音声との音量をそれぞれ設定し、混合して混合音声を生成する。
【0035】
コンテンツ音声バッファ(コンテンツ音声記憶手段)150は、コンテンツ音声受信部115から入力されたコンテンツ音声を蓄積するバッファである。
会話音声バッファ151は、オンオフ判定部120から入力された会話音声を蓄積するバッファである。
【0036】
図3はオンオフ判定部120の動作を示すフローチャートである。
オンオフ判定部(有音部分抽出手段)120は、会話音声受信部114から会話音声を入力し、後で説明するアルゴリズムに基づいて、会話音声の有効部分(有音部分)を選択する。手順としては、まず、受信した会話音声が、Bさんの発した音声や周囲の音など、再生して意味のある音であればオン、Bさんが黙っていて静かな場合など、再生しても意味のない音であればオフと判定する(S100)。オンと判定した部分はそのまま会話音声として扱い、一方、オフと判定した部分は完全に無音として扱う。つまり、オンと判定した部分だけが会話音声の有効部分となり、この部分の会話音声だけが再生されることになる。
なお、後述するように、再生して意味のある音であるか否かの判定は、一例として、会話音声の音量が予め設定した閾値より大であるか否かによって行う。
【0037】
また、オンオフ判定部120では、直前の判定がオンであったかオフであったかを記録しておき、今の判定と比較して(S101)、その結果によって異なった動作をする。判定がオフのまま(S150)であれば、何も動作しない。判定がオンからオフに変化(S151)すれば、その時の時刻を会話音声の終端時刻として扱い、再生終了時刻計算部124にその時刻を通知する(S102)。判定がオフからオンに変化(S152)すれば、その時の時刻を会話音声の始端時刻として扱い、調査範囲決定部121と会話音声再生時刻制御部123にその時刻を通知する(S103、S104)。さらに、会話音声バッファ151に会話音声を出力する(S105)。また、判定がオンのまま(S153)である場合も、会話音声バッファ151に会話音声を出力する(S105)。
【0038】
調査範囲決定部(調査範囲決定手段)121は、コンテンツ音声の音量を調査する範囲を決定し、会話音声再生時刻決定部122に調査範囲を通知する。調査範囲を決定する際は、再生終了時刻計算部124から通知された再生終了時刻と、オンオフ判定部120から通知された会話音声の始端時刻と、あらかじめ定められた最大遅延時間を参照する。調査範囲を決定する方法は後述する。
【0039】
会話音声再生時刻決定部(会話音声再生時刻決定手段)122は、調査範囲決定部121から通知された調査範囲内で、後で説明するアルゴリズムに基づいて、コンテンツ音声バッファ150から入力したコンテンツ音声の音量を調査して、会話音声の再生時刻を決定する。そして、決定した時刻を会話音声再生時刻制御部123に通知する。
【0040】
図4は会話音声再生時刻制御部123の動作を示すフローチャートである。
会話音声再生時刻制御部(会話音声再生時刻制御手段)123は、会話音声再生時刻決定部122から再生時刻の情報を受け取り(S200)、その時刻に基づいて会話音声バッファ151から入力した会話音声を出音音声混合部116に出力する。なお、システムの処理遅延のため、通知された再生時刻がこのときの時刻より遡る場合がある。したがって、会話音声再生時刻制御部123では、通知された再生時刻と現在の時刻と比較して(S201)、再生時刻が現在の時刻よりも前である場合(S250)は、ただちに出音音声混合部116に会話音声を出力し(S202)、このときの時刻を改めて再生時刻とする(S203)。一方、再生時刻が現在の時刻よりも後である場合(S251)は、通知された再生時刻に合わせて会話音声を出力する(S204)。そして、どちらの場合でも、オンオフ判定部120から入力した会話音声の始端時刻と再生時刻を比較して、実際に会話音声の再生を遅延させている時間を算出して遅延時間保持部160に書き込む(S205)。
【0041】
再生終了時刻計算部(再生終了時刻計算手段)124は、オンオフ判定部120から会話音声の終端時刻を入力し、その時刻と遅延時間保持部160から読み出した遅延時間を足し合わせて、会話音声の再生が終了する時刻を算出する。また、算出した時刻は調査範囲決定部121へ通知する。
遅延時間保持部160は、会話音声再生時刻制御部123が会話音声の再生を遅延させている時間を記憶する。
【0042】
図5は本実施形態における会話音声の再生時刻を制御した例を示すものである。矢印のついた横軸は時間を表しており、上は再生時刻を制御する前の会話音声、下は再生時刻を制御した後の会話音声の様子を表している。なお、添え字のnはn番目であることを表しており、これは前後のタイミングの同じものと区別するためにある。
200はオンと判定された区間の会話音声である。
210はオンと判定された区間の始端時刻であり、一方、211はオンと判定された区間の終端時刻である。
212はコンテンツの音量を調査する範囲の始端時刻であり、一方、213はコンテンツの音量を調査する範囲の終端時刻である。つまり212と213の範囲内でコンテンツの音量を調査して会話音声200の再生時刻を決定する。
214は会話音声200の再生時刻であり、一方215は再生終了時刻である
216は会話音声200の再生を遅延させている時間である。
217はあらかじめ定められた会話音声を再生する際の最大遅延時間である。
【0043】
会話音声に対するオンオフ判定部120の判定がオフからオンに変化したとき、つまり210の時刻では、会話音声再生時刻決定部122が会話音声の再生時刻214を決定するために、まず、調査範囲決定部121がコンテンツの音量を調査する範囲を決める。調査範囲決定部121は、その始端時刻212として、再生終了時刻計算部124が算出した前の会話音声の再生終了時刻215n−1とオンオフ判定部120が検出した今の会話音声の始端時刻210とを比較して、遅いほうの時刻を選択する。図5では、前の会話音声の再生終了時刻215n−1が選択されている。また、調査範囲決定部121は、終端時刻213を、今の会話音声の始端時刻210に最大遅延時間217を足し合わせた時刻とする。
続いて、決定した調査範囲内で会話音声を再生する時刻214を、会話音声再生時刻決定部122が決定し、この時刻を会話音声再生時刻制御部123へ送る。この時刻から会話音声再生時刻制御部123が会話音声200を再生する。また、再生時刻214と会話音声の始端時刻210の差を算出して、その時間を再生遅延の時間216として保持する。
【0044】
オンオフ判定部120において、会話音声の判定がオンからオフに変化したとき、つまり終端時刻を検出する211の時刻では、再生終了時刻計算部124は、オンオフ判定部120が検出した会話音声の終端時刻211に遅延時間保持部160に記憶された遅延時間216を足し合わせて、再生終了時刻215を算出して保持する。
なお、前の会話音声の再生終了時刻215n−1と今の会話音声の再生時刻214の間に数10m秒程度の短時間を設けて、音声の不連続を無くすよう制御してもよい。
【0045】
図6は本実施形態におけるオンオフ判定部120による会話音声のオンオフ判定(図3のステップS100)の動作を示すフローチャートである。
本実施形態では、あらかじめ閾値を設定しておき、会話音声の音量が閾値を越えているか否か判定する(S300)。閾値を越えている場合(S350)は、オンと判定する(S354)。閾値を越えていない場合(S351)は、さらに閾値を越えていない時間が所定時間続くかどうかを判定する(S301)。その結果、所定時間続いていなかった場合(S352)は、オンと判定(S354)し、所定時間続いていた場合(S353)は、オフと判定する(S355)。
【0046】
図7は本実施形態におけるオンオフ判定部120による会話音声のオンオフ判定の例である。矢印のついた横軸は時間を、縦軸は会話音声の音量を表しており、波形は会話音声の音量の時間変化を表している。
【0047】
図7(a)において、300は判定のための閾値であり、予め所望の値に設定される。301は上述の判定のための所定時間である。
310の時刻では、会話音声の音量が閾値300を上回るため(S350)、オンオフ判定部120は、オンと判定している(S354)。311の時刻では、会話音声の音量が閾値300を下回る状態が音量が閾値と交差する時刻から所定時間301続いているため(S353)、オンオフ判定部120は、オフと判定している(S355)。
【0048】
図7(b)において、320の時刻では、会話音声の音量が閾値300を上回るため(S350)、オンオフ判定部120は、オンと判定している(S354)。321の時刻では、会話音声の音量が閾値300を下回る状態が所定時間301続いているためオフと判定している。322の間は、会話音声の音量が閾値300を下回っている(S351)が所定時間301続かなかったため(S352)、オンオフ判定部120が、オンと判定した状態が継続している(S354)。
なお、オンオフの判定として、単に、閾値300を上回るとオンと判定し閾値300を下回るとオフと判定するような仕組みでもよい。
【0049】
図8は本実施形態における会話音声再生時刻決定部122が、コンテンツ音声の音量を調査して会話音声再生時刻を決定する方法の仕組みを示すフローチャートである。
本実施形態では、会話音声再生時刻決定部122は、あらかじめ閾値を設定しておき、調査範囲内でコンテンツ音声の音量が閾値を下回っているか否か判定する(S400)。閾値を下回っている箇所がある場合(S450)は、なるべく遅延が小さくなるように、会話音声再生時刻決定部122は、調査範囲内で初めて小さいと判定された時刻を選択(S401)する。一方、閾値を下回っている箇所がない場合(S451)は、会話音声再生時刻決定部122は、調査範囲内でコンテンツ音声の音量が最も小さくなる時刻を選択する(S403)。
【0050】
なお、上記において、会話音声再生時刻決定部122は、ステップS401にて、調査範囲内で初めて小さいと判定された時刻を再生時刻として選択するとして説明したが、図9に示す変形例のように、会話音声の再生時刻からなるべく長い間コンテンツ音量が小さくなるように、小さいと判定される時間が一番長くなる箇所の始端時刻を選択(S402)してもよい。
【0051】
図10は、本実施形態における会話音声再生時刻決定部122による会話音声再生時刻の決定の例である。矢印のついた横軸は時間を、縦軸はコンテンツ音声の音量を表しており、波形はコンテンツ音声の音量の時間変化を表している。
図10(a)において、400は判定のための閾値である。例えば、コンテンツ音声の音量を調査する範囲が410である場合、調査範囲内で初めて小さいと判定される時刻である411の時刻が、会話音声再生時刻決定部122により、会話音声の再生時刻として決定される(S401)。
図10(b)において、例えば、コンテンツ音声の音量を調査する範囲が420である場合、コンテンツ音声の音量が小さいと判定される時刻が全く無いため(S451)、調査範囲内でコンテンツ音声の音量が最も小さい時刻である421の時刻が、会話音声再生時刻決定部122により、会話音声の再生時刻として決定される(S403)。
【0052】
会話音声再生時刻決定部122は、音量が小さいと判定される時間が一番長くなる箇所の始端時刻を選択する場合には、図10(c)において、例えば、コンテンツ音声の音量を調査する範囲が430である場合、432の箇所と433の箇所でコンテンツ音声の音量が小さいと判定されている(S450)。このとき、小さいと判定される時間が一番長くなる箇所は433の箇所であるため、その始端時刻である431が、会話音声再生時刻決定部122により、会話音声の再生時刻として決定される(S402)。
【0053】
このように、本実施形態の情報処理端末101aは、コンテンツ音声の音量が大きくない箇所を調べ、その箇所から会話音声を再生することにより、会話音声の始めの部分を聞き取りやすくする。会話全体の内容を把握できるかどうかは、話し始めの部分が聞けるかどうかに大きく依存するため、本発明を用いると、通話者は会話全体の内容を把握しやすくなる。その結果、会話音声とコンテンツ音声を同時に出力するような状況でも両者を区別して聞きやすくなる。
【0054】
[第2の実施形態]
本発明の第2の実施形態の通信装置である情報処理端末101aは、図2に示す本発明の第1の実施形態の変形例である。図11は、本発明の第2の実施形態の情報処理端末101aの概略構成を示すブロック図である。情報処理端末101aは、通信部110、会話音声入力部111、音声出力部112、会話音声送信部113、会話音声受信部114、コンテンツ音声受信部2115、出音音声混合部2116、オンオフ判定部120、調査範囲決定部121、会話音声再生時刻決定部2122、会話音声再生時刻制御部2123、再生終了時刻計算部124、混合音量決定部2125、会話音声バッファ151、遅延時間保持部160によって構成される。なお、情報処理端末101aと情報処理端末101bは同じ構成とする。以下、情報処理端末101aあるいは情報処理端末101bをしばしば情報処理端末101という。
図11において図2の各部に対応する同一の部分には同一の符号を付け、その説明を省略する。
【0055】
コンテンツ音声受信部(コンテンツ受信手段)2115は、ネットワーク103を介してコンテンツサーバ102(図1)からコンテンツ音声を受信し、出音音声混合部2116に出力するとともに、会話音声再生時刻決定部2122に出力する。
出音音声混合部(出音音声制御手段)2116は、混合音量決定部2125の指示に基づき、会話音声再生時刻制御部2123から入力した会話音声と、コンテンツ音声受信部2115から入力したコンテンツ音声との音量をそれぞれ設定し、混合して混合音声を生成する。
【0056】
会話音声再生時刻決定部(会話音声再生時刻決定手段)2122では、調査範囲決定部121から通知された調査範囲内で、後で説明するアルゴリズムに基づいて、コンテンツ音声受信部2115から入力したコンテンツ音声の音量をリアルタイムで調査して、会話音声の再生時刻を決定する。第1の実施形態の場合と比べると、コンテンツ音声のバッファが無いため、リアルタイムでコンテンツ音声の音量を調査している点が異なる。リアルタイムでコンテンツ音声の音量を調査するため、決定するときの時刻がそのまま会話音声の再生時刻となる。したがって、会話音声の再生時刻を決定すると、すぐに会話音声再生時刻制御部2123に会話音声を再生するよう命令する。
【0057】
会話音声再生時刻制御部(会話音声再生時刻制御手段)2123では、会話音声再生時刻決定部2122から命令を受け取り、その命令に基づいて会話音声バッファ2151から入力した会話音声を出音音声混合部2116に出力する。まず、会話音声を再生するよう命令を受け取ると、すぐに会話音声を出音音声混合部2116へ出力し、このときの時刻を再生時刻とする。そして、オンオフ判定部120から入力した会話音声の始端時刻と再生時刻を比較して、実際に会話音声の再生を遅延させている時間を算出して遅延時間保持部160に書き込む。
また、算出した遅延時間が最大遅延時間、もしくはシステムの処理遅延により最大遅延時間を越えている場合は、会話音声の再生時刻に合わせて混合音量決定部2125へ制御信号を通知する。
【0058】
混合音量決定部(音量決定手段)2125は、会話音声再生時刻制御部2123から制御信号を受けると、所定時間の間、会話音声の音量を大きくし、コンテンツ音声の音量を小さくするよう混合音量情報を設定して、その混合音量情報を出音音声混合部2116へ通知する。
【0059】
図12は本実施形態における会話音声再生時刻決定部2122が、コンテンツ音声の音量を調査して会話音声再生時刻を決定する方法の仕組みを示すフローチャートである。
本実施形態では、会話音声再生時刻決定部2122は、あらかじめ閾値を設定しておき、コンテンツ音声の音量が閾値を下回っているか否か判定する(S2400)。閾値を下回っている箇所がある場合(S2450)は、会話音声再生時刻決定部2122は、小さいと判定したそのときの時刻を会話音声の再生時刻として決定する(S2401)。一方、あらかじめ定められた所定時間を経過しても閾値を下回っている箇所がない場合(S2451)は、会話音声再生時刻決定部2122は、調査を開始してから所定時間経過しているそのときの時刻を会話音声の再生時刻として決定する(S2402)。このように決定した会話音声の再生時刻は、リアルタイム性を維持するためにやむを得ず決定した時刻であり、所定時間は最大遅延時間に相当する。
【0060】
このように決定した会話音声の再生時刻でも、会話音声を聞き取りやすくするため、本実施形態では、会話音声再生時刻制御部2123から指示を受けた混合音量決定部2125が、出音音声混合部2116へ混合音量情報を通知して、会話音声の再生時刻から数秒程度の間、会話音声の音量を上げて、コンテンツ音声の音量を下げるといった音量制御を加えている。
【0061】
図13は本実施形態における会話音声再生時刻決定部2122による会話音声再生時刻の決定の例である。矢印のついた横軸は時間を、縦軸はコンテンツ音声の音量を表しており、波形はコンテンツ音声の音量の時間変化を表している。
【0062】
図13(a)において、2400は判定のための閾値である。ここで、例えば、コンテンツ音声の音量を2412の時刻からリアルタイムで調査する場合、2410の時間経過して2411の時刻になったときに、会話音声再生時刻決定部2122により、コンテンツ音声の音量が小さいと判断されるため、2411の時刻が会話音声の再生時刻として決定される。
【0063】
図13(b)において、図13(a)と同様に2400は判定のための閾値である。ここで、例えば、コンテンツ音声の音量を2422の時刻から調査する場合、定められた所定時間2420の時間経過しても、コンテンツ音声の音量が小さいと判定される時刻が無いため、会話音声再生時刻決定部2122により、そのときの時刻2421が会話音声の再生時刻として決定される。
【0064】
これにより、第1の実施形態においてコンテンツ音声バッファ151にて生じていたコンテンツ音声の遅延を発生させることなく、会話音声の再生時刻を決定することができる。また、所定時間内にコンテンツ音声の音量が充分に小さくなるタイミングがなく会話音声とコンテンツ音声を同時に出力するようなときでも、話し始めの部分でコンテンツ音声の音量を下げ、会話音声の音量を上げることで、通話者は会話全体の内容を把握しやすくなる。その結果、会話音声とコンテンツ音声を同時に出力するような状況でも両者を区別して聞きやすくなる。
【0065】
[第3の実施形態]
本発明の第3の実施形態の通信装置である情報処理端末101aは、図2に示す本発明の第1の実施形態のさらなる変形例である。図14は、本発明の第3の実施形態の情報処理端末101aの概略構成を示すブロック図である。情報処理端末101aは、通信部110、会話音声入力部111、音声出力部112、会話音声送信部113、会話音声受信部114、コンテンツ音声受信部115、出音音声混合部116、オンオフ判定部3120、調査範囲決定部121、会話音声再生時刻決定部3122、会話音声再生時刻制御部123、再生終了時刻計算部124、閾値適応制御部3126、コンテンツ音声バッファ150、会話音声バッファ151、遅延時間保持部160によって構成される。なお、情報処理端末101aと情報処理端末101bは同じ構成とする。以下、情報処理端末101aあるいは情報処理端末101bをしばしば情報処理端末101という。
図14において図2の各部に対応する同一の部分には同一の符号を付け、その説明を省略する。
【0066】
オンオフ判定部(有音部分抽出手段)3120は、第1の実施形態(図2)におけるオンオフ判定部120の機能に加えて、会話音声がオンの場合の平均音量を算出して、閾値適応制御部3126に通知する。
閾値適応制御部(閾値適応制御手段)3126は、オンオフ判定部3120から通知された会話音声の平均音量をもとに、コンテンツ音声の音量を調査する際の閾値を決定して、会話音声再生時刻決定部3122に通知する。
【0067】
会話音声再生時刻決定部(会話音声再生時刻決定手段)3122は、第1の実施形態(図2)における会話音声再生時刻決定部122においてあらかじめ設定された閾値に替えて、閾値適応制御部3126から受けた閾値を用いて、再生時刻を決める。予め設定された閾値ではなく閾値適応制御部3126から受けた閾値を用いることを除いて、その動作は、図8に示す本発明の第1の実施形態における会話音声再生時刻決定部122と同一である。
【0068】
図15は本実施形態においてコンテンツ音声の音量を調査する際、閾値適応制御部3126により閾値を制御する例を示す図である。矢印のついた横軸は時間を、縦軸はコンテンツ音声の音量を表しており、波形はコンテンツ音声の音量の時間変化を表している。
図15(a)において、3500は判定のための閾値である。会話音声再生時刻決定部3122は、コンテンツ音声の音量が閾値3500を上回ると音量が大きいと判定し、閾値3500を下回ると音量が小さいと判定する。例えば、コンテンツ音声の音量を調査する範囲が3510である場合、会話音声再生時刻決定部3122により、3511の時刻が、会話音声の再生時刻として決定される。
図15(b)において、3501は判定のための閾値である。例えば、コンテンツ音声の音量を調査する範囲が3520である場合、会話音声再生時刻決定部3122により、3521の時刻が、会話音声の再生時刻として決定される。
【0069】
本実施形態では、会話音声の再生時刻を決定するときには、そのときの会話音声の音量は不明であるため、閾値適応制御部3126は、過去の会話音声の平均音量を参照して閾値を制御する。図15(a)と図15(b)では、同じコンテンツ音声であり、波形は同じであるが、図15(a)では閾値3500の値が小さく、図15(b)では閾値3501の値が大きいため、コンテンツ会話音声の再生時刻が異なる。
【0070】
会話音声が小さい場合は、図15(a)のように、閾値3500の値を小さくしておくことで、多少遅延時間が長くなってもコンテンツ音声の音量が十分小さくなる時刻を選択することができる。一方、会話音声が大きい場合は、コンテンツ音声の音量が多少大きくても会話音声が聞き取れるため、図15(b)のように、閾値3501の値を大きくしておくことで、遅延時間を短くすることができる。
このように会話音声の音量に応じて閾値を制御することによって、より効果的な会話音声の再生時刻を決定することができる。
【0071】
以上、これまで説明したように、本発明によれば、会話音声とコンテンツ音声といった複数の音声を同時に出力しながら音声コミュニケーションを行なう状況において、会話音声とコンテンツ音声を区別して聞き取りやすくする。
具体的には、コンテンツ音声の音量が大きくない箇所を調べ、その箇所から会話音声を再生することにより、会話音声の始めの部分を聞き取りやすくする。会話全体の内容を把握できるかどうかは、話し始めの部分が聞けるかどうかに大きく依存するため、本発明を用いると、通話者は会話全体の内容を把握しやすくなる。その結果、会話音声とコンテンツ音声を同時に出力するような状況でも両者を区別して聞きやすくなる。
【0072】
なお、第2の実施形態における混合音量決定部2125を、第3の実施形態の情報処理端末101が備えてもよい。この場合、会話音声時刻制御部123は、会話音声時刻制御部2123と同様に、必要に応じて混合音量決定部2125に制御信号を通知し、混合音量決定部2125では、会話音声の音量を上げ、コンテンツの音声の音量を下げるように混合音量制御情報を設定する。
また、第3の実施形態における閾値適応制御部3126を、第2の実施形態の情報処理端末101が備えてもよい。この場合、オンオフ判定部120は、会話音声がオンの場合の平均音量を算出して、閾値適応制御部3126に通知する。
【0073】
また、第1から第3の実施形態において、コンテンツサーバ102は、指定されたコンテンツをストリームデータとして情報処理端末101aと情報処理端末101bとに同時に配信するとして説明したが、情報処理端末101aと情報処理端末101bとが受信するコンテンツは同一である必要はない。例えば、コンテンツがゲームであれば、各情報処理端末101a、101bに、それぞれのプレイヤーの視点からの映像を配信する。
【0074】
また、図2における通信部110、会話音声入力部111、音声出力部112、会話音声送信部113、会話音声受信部114、コンテンツ音声受信部115、出音音声混合部116、コンテンツ音声再生部117、オンオフ判定部120、調査範囲決定部121、会話音声再生時刻決定部122、会話音声再生時刻制御部123、再生終了時刻計算部124の機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。
【0075】
また、図11における通信部110、会話音声入力部111、音声出力部112、会話音声送信部113、会話音声受信部114、コンテンツ音声受信部2115、出音音声混合部2116、オンオフ判定部120、調査範囲決定部121、会話音声再生時刻決定部2122、会話音声再生時刻制御部2123、再生終了時刻計算部124、混合音量決定部2125、または、図14における通信部110、会話音声入力部111、音声出力部112、会話音声送信部113、会話音声受信部114、コンテンツ音声受信部115、出音音声混合部116、オンオフ判定部3120、調査範囲決定部121、会話音声再生時刻決定部3122、会話音声再生時刻制御部123、再生終了時刻計算部124、閾値適応制御部3126についても、同様に、これらの機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより各部の処理を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。
【0076】
また、「コンピュータシステム」は、WWWシステムを利用している場合であれば、ホームページ提供環境(あるいは表示環境)も含むものとする。
また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含むものとする。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0077】
以上、この発明の実施形態を、図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0078】
本発明は、通常の音声通話で扱っている話者の声や周りの音を意味する会話音声と、ネットワーク上にある動画ファイルやゲーム、ビデオデッキに録画された番組などのコンテンツの音を意味するコンテンツ音声といった発信元の異なる複数の音声を同時に出力しながら音声通話(コミュニケーション)を行うテレビ電話などの通信装置に用いて好適であるが、これに限られるものではない。
【図面の簡単な説明】
【0079】
【図1】この発明の第1の実施形態による情報処理端末101を用いた通信システムの概略構成を示すブロック図である。
【図2】同実施形態における情報処理端末101aの概略構成を示すブロック図である。
【図3】同実施形態におけるオンオフ判定部120の動作を説明するフローチャートである。
【図4】同実施形態における会話音声再生時刻制御部123の動作を説明するフローチャートである。
【図5】同実施形態における会話音声の再生時刻制御の例を説明する図である。
【図6】同実施形態におけるオンオフ判定部120による会話音声のオンオフ判定(図3のステップS100)の動作を説明するフローチャートである。
【図7】同実施形態におけるオンオフ判定部120による会話音声のオンオフ判定の例を説明する図である。
【図8】同実施形態における会話音声再生時刻決定部122の動作を説明するフローチャートである。
【図9】同実施形態における会話音声再生時刻決定部122の動作を説明するフローチャートの変形例である。
【図10】同実施形態における会話音声再生時刻決定部122による再生時刻決定の例を説明する図である。
【図11】この発明の第2の実施形態による情報処理端末101aの概略構成を示すブロック図である。
【図12】同実施形態における会話音声再生時刻決定部2122の動作を説明するフローチャートである。
【図13】同実施形態における会話音声再生時刻決定部2122による再生時刻決定の例を説明する図である。
【図14】この発明の第3の実施形態による情報処理端末101aの概略構成を示すブロック図である。
【図15】同実施形態における閾値適応制御部3126により閾値を制御する例を示す図である。
【符号の説明】
【0080】
101a、101b…情報処理端末
102…コンテンツサーバ
103…ネットワーク
110…通信部
111…会話音声入力部
112…音声出力部
113…会話音声送信部
114…会話音声受信部(会話音声受信手段)
115、2115…コンテンツ音声受信部(コンテンツ受信手段)
116、2116…出音音声混合部(出音音声制御手段)
117…コンテンツ音声再生部(コンテンツ音声再生手段)
120、3120…オンオフ判定部(有音部分抽出手段)
121…調査範囲決定部(調査範囲決定手段)
122、2122、3122…会話音声再生時刻決定部(会話音声再生時刻決定手段)
123、2123…会話音声再生時刻制御部(会話音声再生時刻制御手段)
124…再生終了時刻計算部(再生終了時刻計算手段)
150…コンテンツ音声バッファ(コンテンツ音声記憶手段)
151…会話音声バッファ
160…遅延時間保持部
2125…混合音量決定部(音量決定手段)
3126…閾値適応制御部(閾値適応制御手段)


【特許請求の範囲】
【請求項1】
通信相手から会話音声を受信する会話音声受信手段と、
前記会話音声受信手段が受信した会話音声の有音部分を抽出する有音部分抽出手段と、
音声を含んだコンテンツを受信するコンテンツ受信手段と、
前記コンテンツ受信手段が受信したコンテンツに含まれる音声の音量に基づき、前記有音部分抽出手段が抽出した有音部分の再生時刻を決定する会話音声再生時刻決定手段と、
前記有音部分抽出手段が抽出した有音部分を、前記会話音声再生時刻決定手段により決定された再生時刻に再生する会話音声再生時刻制御手段と
を備えることを特徴とする通信装置。
【請求項2】
前記会話音声再生時刻決定手段は、前記コンテンツに含まれる音声の音量が所定の閾値より小さいときを再生時刻とすることを特徴とする請求項1に記載の通信装置。
【請求項3】
前記有音部分抽出手段が検出した有音部分の始端時刻から所定の長さの時間を調査範囲として決める調査範囲決定手段を備え、
前記会話音声再生時刻決定手段は、前記調査範囲決定手段が決めた調査範囲内で、前記コンテンツに含まれる音声の音量が所定の閾値より小さいときを再生時刻とすること
を特徴とする請求項2に記載の通信装置。
【請求項4】
前記有音部分抽出手段は、有音部分の終端時刻を検出し、
前記会話音声再生時刻決定手段は、前記有音部分抽出手段が抽出した有音部分の再生を開始する時刻から前記有音部分抽出手段が検出した始端時刻を引いて遅延時間を算出し、
前記有音部分抽出手段が前の有音部分について検出した終端時刻に、前記会話音声再生時刻決定手段が前の有音部分について算出した遅延時間を足した再生終了時刻を算出する再生終了時刻計算手段を備え、
前記調査範囲決定手段は、前記有音部分抽出手段が検出した始端時刻と前記再生終了時刻計算手段が算出した再生終了時刻とのうち、遅い方の時刻を調査範囲の開始時刻とすること
を特徴とする請求項3に記載の通信装置。
【請求項5】
前記会話音声再生時刻決定手段は、前記調査範囲決定手段が決めた調査範囲内に前記コンテンツに含まれる音声の音量が所定の閾値より小さくならないときは、前記調査範囲の終端時刻を再生時刻とすること
を特徴とする請求項3または請求項4に記載の通信装置。
【請求項6】
コンテンツに含まれる音声を記憶するコンテンツ音声記憶手段と、
前記コンテンツ音声記憶手段に格納された音声を、前記コンテンツ音声記憶手段から読み出して再生するコンテンツ音声再生手段と
を備え、
コンテンツ受信手段は、コンテンツを受信し、該コンテンツに含まれる音声を抽出して前記コンテンツ音声記憶手段に格納し、
前記会話音声再生時刻決定手段は、前記コンテンツ音声記憶手段に格納されている音声を参照し、前記調査範囲決定手段が決めた調査範囲内に再生される前記参照した音声の音量が所定の閾値より小さくならないときは、前記調査範囲決定手段が決めた調査範囲内に再生される前記参照した音声の音量が最も小さいときを再生時刻とすること
を特徴とする請求項3または請求項4に記載の通信装置。
【請求項7】
前記会話音声再生時刻決定手段は、前記コンテンツ音声記憶手段に格納されている音声を参照し、前記調査範囲決定手段が決めた調査範囲内に再生される前記参照した音声の音量が所定の閾値より小さい時間帯のうち、最も長いあるいは最も早い時間帯の開始時刻を再生時刻とすること
を特徴とする請求項6に記載の通信装置。
【請求項8】
前記調査範囲決定手段が決めた調査範囲内に前記コンテンツに含まれる音声の音量が所定の閾値より小さくならないときは、会話音声を出力する際は、コンテンツに含まれる音声の出力音量を小さく、または、会話音声の出力音量を大きくするように通知する音量決定手段と、
前記音量決定手段の通知に基づき、コンテンツに含まれる音声の出力音量および会話音声の出力音量を制御する出音音声制御手段と
を備えることを特徴とする請求項3から請求項7のいずれかの項に記載の通信装置。
【請求項9】
会話音声を出力する際は、コンテンツに含まれる音声の出力音量を小さく、または、会話音声の出力音量を大きくするように通知する音量決定手段と、
前記音量決定手段の通知に基づき、コンテンツに含まれる音声の出力音量、または、会話音声の出力音量を制御する出音音声制御手段と
を備えることを特徴とする請求項1に記載の通信装置。
【請求項10】
前記有音部分抽出手段が抽出した有音部分の音量に応じて、前記閾値を決定する閾値適応制御手段を備えることを特徴とする請求項2に記載の通信装置。
【請求項11】
コンピュータを、
通信相手から会話音声を受信する会話音声受信手段、
前記会話音声受信手段が受信した会話音声の有音部分を抽出する有音部分抽出手段、
音声を含んだコンテンツを受信するコンテンツ受信手段、
前記コンテンツ受信手段が受信したコンテンツに含まれる音声の音量に基づき、前記有音部分抽出手段が抽出した有音部分の再生時刻を決定する会話音声再生時刻決定手段、
前記有音部分抽出手段が抽出した有音部分を、前記会話音声再生時刻決定手段により決定された再生時刻に再生する会話音声再生時刻制御手段
として機能させるためのプログラム。
【請求項12】
通信相手から会話音声を受信する第1の過程と、
前記第1の過程にて受信した会話音声の有音部分を抽出する第2の過程と、
音声を含んだコンテンツを受信する第3の過程と、
前記第3の過程にて受信したコンテンツに含まれる音声の音量に基づき、前記第2の過程にて抽出した有音部分の再生時刻を決定する第4の過程と、
前記第2の過程にて抽出した有音部分の再生時刻を決定する第5の過程と、
前記第2の過程にて抽出した有音部分を、前記第5の過程にて決定された再生時刻に再生する第6の過程と
を備えることを特徴とする受信音声出力方法。


【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate


【公開番号】特開2007−300301(P2007−300301A)
【公開日】平成19年11月15日(2007.11.15)
【国際特許分類】
【出願番号】特願2006−125374(P2006−125374)
【出願日】平成18年4月28日(2006.4.28)
【出願人】(000005049)シャープ株式会社 (33,933)
【Fターム(参考)】