説明

電話システム

【目的】本発明は、送信側で音声を送信し、受信側で受信する電話システムに関し、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、受信側から送信側に途切れた旨を送信して表示したりすることを目的とする。
【構成】 送信側で音声をパケットにするおよび当該音声を音声認識したテキスト情報をパケットにすると共に、両者の同期を表す識別情報を付加して送信する手段と、受信側でパケットを受信し、音声およびテキスト情報を出力する際に、識別情報をもとに音声とテキスト情報とを同期出力する手段とを備える。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、送信側で音声を送信し、受信側で受信する電話システムに関するものである。
【背景技術】
【0002】
従来、IP技術を用いた電話システムは、音声をなるべく途切れさせないためにネットワーク内のパケット優先付け技術で音声(パケット)を優先的に処理する工夫がなされている。
【0003】
また、ネットワーク上に通信サーバを配して、このサーバ内で電話システムからの音声(パケット)を音声認識してテキスト化し、指定された宛先にメールで配信する技術がある(特許文献1)。
【0004】
また、着信に応答できない場合、発信者からの音声メッセージを蓄積し音声認識してテキストメッセージに変換し、発信者からのメッセージ報知タイミングあるいはユーザ指定があった場合に、変換したテキストメッセージを送信して表示させる技術がある(特許文献2)。
【特許文献1】特開2005−12391号公報
【特許文献2】特開2004−328525号公報
【発明の開示】
【発明が解決しようとする課題】
【0005】
しかし、従来のパケット優先付け技術で音声(パケット)を優先的に処理したとしても、電話システムが全面的にIP化されると優先制御を完全に動作させることが困難となり、音声が途切れる事態が発生するおそれがあるという問題がある。
【0006】
このため、例えば送信側では受信側で音声が正常に再生されない事態が発生したことが判らないため、そのまま会話を継続し後から話しの内容についての補足や途中から話しのやり直しを行う必要性が生じてしまうという問題があった。
【0007】
また、従来の前者の特許文献の技術では、ネットワーク上にサーバを設けて当該サーバで音声を認識してメールで配信するものであり、音声に同期してその音声認識したテキストデータを表示できないと共に、送信側で受信側で音声が正常に再生されない事態が発生したことを認識できないという問題があった。
【0008】
また、従来の後者の特許文献の技術では、着信に応答できない場合に、発信者からの音声メッセージをテキスデータにし、表示するものであり、音声に同期してその音声認識したテキストデータを表示できないと共に、送信側で受信側で音声が正常に再生されない事態が発生したことを認識できないという問題があった。
【課題を解決するための手段】
【0009】
本発明は、これらの問題を解決するため、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、受信側から送信側に途切れた旨を送信して表示するようにしている。
【発明の効果】
【0010】
本発明は、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、更に、受信側から送信側に途切れた旨を送信して表示することにより、IP電話における音声の途切れが発生しても同期して確実に音声テキストを表示、欠落部分を強調表示すると共に、送信側に音声の途切れた旨を送信して表示して知らせることが可能となる。
【発明を実施するための最良の形態】
【0011】
本発明は、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、受信側から送信側に途切れた旨を送信して表示したりすることを実現した。
【実施例1】
【0012】
図1は、本発明のシステム構成図を示す。
図1の(a)は、全体システム構成図を示す。
【0013】
図1の(a)において、端末1は、固定加入電話/携帯電話などの通話する端末であって、ここでは、送話側の端末を端末A,受話側の端末を端末Bとしたものであり、相互に通話および同期したテキスト情報を表示するためのものである。
【0014】
収容基地局2は、ネットワーク4に接続され、端末1と加入者回線(無線、有線)を介して相互にパケットで通話するものであって、ここでは、送話側の端末Aとの間に通話するものを収容基地局A,受話側の端末Bと通話するものを収容基地局Bとしたものである。端末1と収容基地局2との間には、通話時に、音声情報および当該音声情報を文字認識したテキスト情報と識別情報が相互に送受信される(図2から図11参照)。
【0015】
サーバ3は、ネットワーク4に接続され、送話側の端末Aと、受話側の端末Bとの間の呼管理(呼の接続、課金管理など)を行うものである。
【0016】
ネットワーク4は、パケットを相互に通信する通信路であって、ここでは、収容基地局A,収容基地局B、サーバなどを接続し、端末Aと端末Bとが相互に通話(通話およびテキスト情報を表示)するものである。
【0017】
図1の(b)は、パケット例を示す。これは、端末Aからネットワーク4を介して端末Bに向けて送信するパケットの例を示す。
【0018】
図1の(b)において、送信ブロック100は、図1の(a)の送話側の端末Aが、ユーザから発声されたアナログの音声信号をサンプリングしてデジタルの音声信号に変換し、これをパケットに設定した音声情報パケット300および当該音声信号を文字認識してテキスト情報にし、これをパケットに設定したテキスト情報パケット400の両者を含むものであって、送信側の端末Aからネットワーク4に向けて送信するものである。
【0019】
受信ブロック200は、ネットワーク4から、受話側の端末Bが受信する受信ブロックを示す。当該受信ブロック200から音声情報およびテキスト情報をそれぞれ取り出すためのものである。
【0020】
図1の(c)は、音声照合情報例を示す。これは、図1の(b)のテキスト情報について、データ部に、テキスト情報本体401に加えて、音声照合情報402が設定されているのでこれを取り出し、後述するように、音声の発声に併せて当該テキスト情報本体401を同期して表示したり、音声パケットが欠落したときにテキスト情報中の欠落した部分を強調表示したりなどするためのものである(図2から図11参照)。
【0021】
図2は、本発明の端末(送話側)の例を示す。
図2において、呼設定・管理手段11は、ネットワーク4との間(更に、受話側の端末B)に呼を設定して管理するものであって、ここでは、呼を設定して通話可能となったときに、スタート情報を入力サンプリング手段12に送出し、通話の開始情報を音声情報中に埋め込むものである(図5の(1)A参照)。
【0022】
入力サンプリング手段12は、ユーザAからの音声信号の入力サンプリング時間を記録したり、呼設定・管理手段11からの通話の開始情報を当該音声信号中に埋め込んだりなどするものである(図5の(1)A参照)。
【0023】
符号化処理手段13は、音声信号(含む、通話の開始情報)をサンプリング時間単位でサンプリングしてデジタルの音声信号を生成するものである(図5の(2)B参照)。
【0024】
RTP情報生成手段14は、符号化処理手段13で生成されたデジタルの複数の符号化された音声情報を束ねてパケット用データ(RTP情報)を生成するものである(図6の(5)E参照)。
【0025】
音声情報パケット化手段15は、パケット用データ(RTP情報)をパケットにするものである。そして、生成したパケットをネットワークに送出する。
【0026】
テキスト化処理手段16は、音声を文字認識してテキスト情報とし、これに音声照合情報を付加するものであって、音声読込手段161、テキスト情報化手段162などから構成されるものである(図5の(4)D参照)。
【0027】
音声読込手段161は、音声を読み込むものである。
テキスト情報化手段162は、どの入力サンプリング時間の音声信号をテキスト化したかの情報を記録するものである(図5の(4)D参照)。
【0028】
時間情報照合手段17は、スタート情報の含まれる入力サンプリング時間とRTPタイムスタンプ位置を合わせ、時間対応情報を、テキスト情報パケット化手段18に送信するものである(図5の(4)D参照)。
【0029】
テキスト情報パケット化手段18は、ネットワークの互換性、相互接続性を維持するために例えばIETF標準のパケットを生成するものである(図6の(6)F参照)。
【0030】
次に、図3および図4のフローチャートの順番に従い、図1、図2の構成の動作を詳細に説明する。
【0031】
図3は、本発明の動作説明フローチャート(呼設定から通話開始まで)を示す。ここで、端末Aは図1、図2の発話側の端末A、サーバ3は図1、図2のサーバ3、端末Bは図1、図2の受話側の端末Bである。ユーザA(送話)は送話側のユーザAの番号操作、発話などを表す。端末Aの音声情報、テキスト情報は、当該端末Aの側の音声情報、テキスト情報の符号化などの処理を表す。端末Bの音声情報、テキスト情報は、当該端末Bの側の音声情報、テキスト情報の表示などの処理を表す。
【0032】
図3において、S1は、ユーザA(発話)が番号投入する。これは、発話側のユーザAが受話側の端末Bの電話番号をダイヤル入力する。
【0033】
S2は、発呼処理を行う。これは、S1でユーザAがダイヤルしたことに対応して、当該番号の発呼を行う。
【0034】
S3は、サーバ3が受話側端末を認識する。これは、サーバ3がS2で発呼された受話側の端末Bの電話番号を認識する。
【0035】
S4は、発呼処理を行う。これは、S3でサーバ3が認識した受話側の端末Bの電話番号に発呼する。
【0036】
S5は、端末Bで着信処理を行う。
S6は、呼び出しする。これらS5、S6は、S4でサーバ3から発呼された受話側の端末Bが着信処理を行うと共にユーザBを呼び出すためのベルを鳴らす。
【0037】
S7は、着信通知する。端末BがS5で着信したことを認識したので、当該着信した返答をサーバ3に返す。
【0038】
S8は、呼開設監視を開始すると共に、呼び出し中を送話側に返答する。
S9は、送話側の端末Aに呼び出し中表示(あるいは呼び出し音声を発声)する。
【0039】
S11は、オフフックする。これは、S6の呼び出しに対応して、ユーザBが受話側の端末Bの受話器を取り上げる。
【0040】
S12は、応答通知する。
S13は、S12の応答通知に対応して、サーバ3が課金開始する。
【0041】
S14は、端末Bが通話セッションを開始する。
S15は、サーバ3が呼開設通知を端末Aに送信する。
【0042】
S16は、端末Aが通話セッションを開始する。
S17は、通話開始する。これにより、発話側の端末AのユーザAと、受話側の端末BのユーザBとが相互に通話および当該通話に同期してテキスト情報を表示することが相互に可能となる。
【0043】
次に、通話とテキスト情報の同期表示について詳細に説明する。
図3において、S21は、ユーザAが通話する。
【0044】
S22は、音声符号化する。
S23は、音声パケット化する。これらS22、S23により、ユーザAが送話側の端末Aの受話器に送話すると、サンプリングして符号化し、更に、パケットにしてネットワークを介して受話側の端末Bに向けて順次送信する。
【0045】
S24は、送話音声を読み込む。
S25は、音声テキスト化する。
【0046】
S26は、テキストパケット化する。これらS24からS26により、ユーザAが送話側の端末Aの受話器に送話すると、当該送話された音声を読み込んで音声認識してテキスト化および音声照合情報を付加し、更に、これらをパケットにしてネットワークを介して受話側の端末Bに向けて順次送信する。
【0047】
以上のS21からS26によって、ユーザAが送話側の端末Aの受話器に送話すると、音声符号化してパケット化、および音声を文字認識してテキスト化および音声照合情報を付加してパケット化し、受話側の端末Bに向けて当該パケットを送信することが可能となる。この際、テキスト情報のパケットは、音声が所定閾値よりも小さいときあるいは音声が無いときに送出するようにしている。
【0048】
S27は、初期化する。
S28は、バッファ処理を行う。
【0049】
S29は、音声復号化する。
S30は、受話する。これらS28、S29、S30は、S23で送話側のユーザAの送話をパケット化したパケットを、端末Bが受信したときに、当該受信したパケットをバッファに一旦格納した後、所定時間遅延して時間順に当該バッファから該当パケットを取り出し、復号化して元の音声信号にし、受話器で元の音声に戻して出力し、ユーザBに聞かせる。
【0050】
S31は、同期処理を行う。
S32は、表示処理を行う。
【0051】
S33は、テキスト表示する。これらS31、S32、S33は、S26で送話側のユーザAの送話を文字認識したテキスト情報をパケット化したパケットを、端末Bが受信したときに、当該パケット中の音声照合情報をもとに同期処理を行い、端末Bの表示画面上にテキスト情報を音声と同期して表示する(図7から図11参照)。
【0052】
同様に繰り返しと記載したように、S21からS33を繰り返すことにより、送話側の端末Aから受話側の端末Bに、音声および当該音声を認識したテキスト情報とその音声照合情報とをパケットにして送信して受信し、発声およびテキスト情報を同期化して表示することが可能となる(図7から図11参照)。
【0053】
図4は、本発明の動作説明フローチャート(通話から呼開放まで)を示す。
図4において、S41は、通話終了する。
【0054】
S42は、ユーザB(受話)がオフフックする。これは、ユーザBが端末Bの受話器を置き、通話を終了する。
【0055】
S43は、端末Bが通話セッション終了通知をサーバ3に行う。
S44は、サーバ3が課金終了する。
【0056】
S45は、サーバ3が課金通知を送話側の端末Aに通知する。
S46は、端末Aが通話セッションを終了する。
【0057】
S47は、端末Aが音声の符号化を終了する。
S48は、端末Aがテキスト化を終了する。
【0058】
S49は、サーバ3が呼開放する。
S50は、端末Bがテキスト情報の表示処理を終了する。
【0059】
S51は、端末Bが音声パケットの復号化を終了する。
以上によって、通話終了処理を行うことが可能となる。
【0060】
図5および図6は、本発明の説明図を示す。ここで、図2のA〜Fの各ポイントでの情報形態を以下に示す。音声は125μs単位にサンプリングし、RTP間隔を20msとする。
【0061】
図5の(1)Aは、図2の入力サンプリング手段12から符号化処理手段13に入力する信号の例を示す。ここでは、呼設定・管理手段11からのスタート情報を、ユーザAが送話した音声信号中の図示の位置に挿入している。サンプリング時間は125μsである。これにより、スタート情報の位置を基準に、音声(125μs間隔でサンプリングしたデジタルの音声)と、音声を文字認識したテキスト情報との同期化を行うことが可能となる。
【0062】
図5の(2)Bは、図2の符号化処理手段13からRTP情報生成手段14に入力される信号の例を示す。ここでは、図示のように、サンプリング時間(125μs間隔)毎に、サンプリング時間と、サンプリングされた音声信号(デジタル値)とを組した情報を生成する。
【0063】
図5の(3)Cは、図2の時間情報照合手段17がテキスト情報パケット化手段18に出力する信号の例を示す。ここでは、入力サンプリング時間と、RTPタイムスタンプ(ms)(スタート情報を含む)とを対応づけた情報である。尚、スタート情報の位置を確認することで、入力サンプリング時間とRTPタイムスタンプとの対応ができる。また、RTPタイムスタンプはパケットの生成間隔ごとの値をとる(図の例では20ms)。
【0064】
図5の(4)Dは、図2のテキスト化処理手段16からテキスト化情報パケット化手段18に入力される信号の例を示す。ここでは、入力サンプリング時間、テキスト情報シーケンス番号、テキスト情報内容を対応づけたものである。尚、テキスト情報については、スタート情報の位置と、テキスト化した先頭の入力サンプリング時間を記録することで、テキスト情報がどのRTPに対応しているか判明する。
【0065】
図6の(5)Eは、図2のRTP情報生成手段14から音声情報パケット化手段15に入力する信号の例を示す。ここでは、RTP情報は、標準的な仕様で生成する(テキスト化情報との照合情報はここには記述されない)。これはテキスト表示できない端末との通信互換性を保つためである。
【0066】
図6の(6)Fは、図2のテキスト情報パケット化手段7から出力される信号の例を示す。ここでは、テキスト情報ヘッダ(ヘッダ部)には、テキスト化した順序を示すシーケンス番号と、対応するRTPのタイムスタンプ情報とが記述されている。データ部には図1の(c)で既述したように、音声照合情報(ここでは、シーケンス番号、RTPタイムスタンプ)と、テキスト情報本体とが記述されている。
【0067】
次に、図7から図11を参照して受話側の端末Bの構成および動作を詳細に説明する。
図7は、本発明の端末(受話側)の例を示す。
【0068】
図7において、呼設定・管理手段21は、呼を設定して管理するものであって、ここでは、受信開始(通話セッション開始時)を指示するものである。
【0069】
音声情報受信処理手段22は、音声情報パケットを受信するものであって、ここでは、音声情報パケットの音声情報中からタイムスタンプ情報を読み取り、同期化処理手段26に渡すなどするものである。
【0070】
バッファ23は、受信した音声パケットを一時的に格納し、同期化処理手段26からの調整時間の通知をもとに、当該所定時間調整して同期化したパケットを取り出すためのものである。
【0071】
復号化処理手段24は、音声パケットを復号し、デジタルの音声の戻すものである。
テキスト情報受信処理手段25は、テキスト情報パケットを受信するものであって、ここでは、テキスト情報中の音声照合情報として、テキスト化した音声情報パケットのタイムスタンプの範囲を取り出し、同期化処理手段26に渡すなどするものである。
【0072】
同期化処理手段26は、音声情報受信処理手段22から渡された音声パケットのタイムスタンプ情報と、テキスト情報受信処理手段25から渡された当該音声パケットの音声をパケット化したときのタイムスタンプの範囲の情報とをもとに、テキスト情報に同期化するように、バッファ23の深さを調整して音声パケットの同期化を行うものである(図8から図11参照)。
【0073】
表示処理手段27は、テキスト情報を表示するものである(図8から図11参照)。
図8は、本発明の受信ブロック200の構成例を示す。受信ブロック200は、図1の(b),(c)で既述したように、音声情報パケットと、テキスト情報パケットとが混在したものであって、ここでは、音声情報パケットに対して、テキスト情報パケットが図示の到着時間差t1を持つものである。
【0074】
図9は、本発明の説明図(到着時間差等)を示す。
図9において、バッファ23のバッファの深さをtB(時間)とし、規定音声情報間隔をtc(時間)とし、音声パケットの規定音声情報間隔からのずれをΔt(時間)とすると、音声情報パケットがバッファ23に入力されてから出力されるまでの時間t2は、
t2=tB−Δt
となる。そして、この不ぞろいなt2の時間を持つ音声パケットをバッファ23に一時的に格納し、出力からはtcが一定の音声パケットを、図7の復号処理手段24に出力して音声に復号化することが可能となる。また、図8で既述した到着時間差t1が丁度tBにほぼ等しくなるように当該バッファの深さを調整することにより同期化を行い、音声情報パケットを復号化した音声と、テキスト情報パケットを復号化したテキスト情報との同期化を行うことが可能となる。
【0075】
図10は、本発明の表示例(音声情報欠落時のテキスト表示例)を示す。
図10の(a)は、原音の例を示す。ここでは、「ひゃくまんえん」(百万円)の例を示す。
【0076】
図10の(b)は、送話側出力音声パケットの例を示す。ここでは、音声パケットは、欠落することなく出力されている。
【0077】
図10の(c)は、受話側に到着した音声情報パケットの例を示す。ここでは、黒印のものが欠落したとする。欠落したパケットを図示のように、黒印で表示してユーザBに知らせる。
【0078】
図10の(d)は、再生音の例を示す。再生音は、図10の(c)の音声情報パケットのうち、「ま」、「ん」の音声グループ内のパケットが欠落したので、当該「ま」、「ん」の音を再生不可であるので、「ひゃく−−えん」と再生され、「百円」と誤認識する事態が発生する恐れがある。この際、音声情報パケットが欠落した場合、送話側に欠落した音声部分(シーケンス番号、タイムスタンプ)を通知し、送話側の画面に同様に、図10の(c)のように欠落したパケット部分を強調表示するようにしてもよい。
【0079】
図10の(e)は、テキスト表示の例を示す。これは、図10の(b)の送話側出力音声情報パケットの元の音声情報を文字認識したテキスト情報「ひゃくまんえん」をパケットにし、受話側で受信して表示した例を示す。
【0080】
図11は、本発明の表示例を示す。
図11の(a)は、パケットの例を示す。これは、受話側で受信されたパケットの例を示す。欠落したパケットを強調表示する。
【0081】
図11の(b)は、音声情報パケットの例を示す。これは、図11の(a)の受信パケットから音声情報パケットのみを抽出し、欠落したパケットを強調表示した例を示す。
【0082】
図11の(c)は、テキスト情報パケットの例を示す。これは、図11の(a)の受信パケットからテキスト情報パケットのみを抽出し、欠落したパケットを強調表示した例を示す。
【産業上の利用可能性】
【0083】
本発明は、電話システムで送信側と受信側とで通話する際に、受信側で音声として途中で途切れが発生しても音声テキストを同期して表示すると共に途切れた部分を強調表示したり、更に、受信側から送信側に途切れた旨を送信して表示し、IP電話における音声の途切れが発生しても同期して確実に音声テキストを表示、欠落部分を強調表示すると共に、送信側に音声の途切れた旨を送信して表示して知らせる電話システムに関するものである。
【図面の簡単な説明】
【0084】
【図1】本発明のシステム構成図である。
【図2】本発明の端末(送話側)である。
【図3】本発明の動作説明フローチャート(呼設定から通話開始まで)である。
【図4】本発明の動作説明フローチャート(通話から呼開放まで)である。
【図5】本発明の説明図(その1)である。
【図6】本発明の説明図(その2)である。
【図7】本発明の端末(受話側)である。
【図8】本発明の受信ブロック200の構成例である。
【図9】本発明の説明図(到着時間差等)である。
【図10】本発明の表示例(音声情報欠落時のテキスト表示例)である。
【図11】本発明の表示例である。
【符号の説明】
【0085】
1:端末
2:収容基地局
3:サーバ
4:ネットワーク
11、21:呼設定・管理手段
12:入力サンプリング手段
13:符号化処理手段
14:RTP情報生成手段
15:音声情報パケット化手段
16:テキスト化処理手段
161:音声読込手段
162:テキスト情報化手段
17:時間情報照合手段
18:テキスト情報パケット化手段
22:音声情報受信処理手段
23:バッファ
24:復号処理手段
25:テキスト情報受信処理手段
26:同期化処理手段
27:表示処理手段

【特許請求の範囲】
【請求項1】
送信側で音声を送信し、受信側で受信する電話システムにおいて、
送信側で音声をパケットにするおよび当該音声を音声認識したテキスト情報をパケットにすると共に、両者の同期を表す識別情報を付加して送信する手段と、
受信側で前記パケットを受信し、音声およびテキスト情報を出力する際に、前記識別情報をもとに当該音声と当該テキスト情報とを同期出力する手段と
を備えたことを特徴とする電話システム。
【請求項2】
送信側で前記音声のレベルが所定閾値より小さいときあるいは音声が無いときに、前記識別情報をパケットに付加して送信することを特徴とする請求項1記載の電話システム。
【請求項3】
前記識別情報として、送信側で前記テキスト情報に同期対象の音声のパケットのシーケンス番号を付加し、受信側で受信したテキスト情報中のシーケンス番号をもとに音声のパケットを一時的に格納するバッファの深さを調整し同期して音声を出力することを特徴とする請求項1あるいは請求項2記載の電話システム。
【請求項4】
前記識別情報として、送信側で前記テキスト情報に同期対象の音声のパケットのタイムスタンプを付加し、受信側で受信したテキスト情報中のタイムスタンプをもとに音声のパケットを一時的に格納するバッファの深さを調整し同期して音声を出力することを特徴とする請求項1あるいは請求項2記載の電話システム。
【請求項5】
受信側で受信した音声のパケットについて、欠落した場合あるいは所定時間以内に受信できかった場合に、対応するテキスト情報の部分を強調表示することを特徴とする請求項1から請求項4のいずれかに記載の電話システム。
【請求項6】
受信側で受信したテキスト情報のパケットについて、欠落した場合あるいは所定時間以内に受信できかった場合に、対応するテキスト情報の部分を強調表示することを特徴とする請求項1から請求項5のいずれかに記載の電話システム。
【請求項7】
受信側で受信した音声のパケットについて、欠落した場合あるいは所定時間以内に受信できかった場合に、送信側にその旨をパケットで送信して音声のパケットが受信できなかった旨を出力させることを特徴とする請求項1から請求項6のいずれかに記載の電話システム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate