説明

サービスサーバ装置、サービス提供方法、サービス提供プログラム

【課題】対面で対話しているようなサービスを既存のアプリケーションを使用して実現することのできるサービスサーバ装置を提供する。
【解決手段】通信の間にタスクを実行する指示を受付けるサービス起動部250、音声通信端末装置241a、241b間の通信中に、話者の通話音声を録音する電話/呼制御イネーブラ201、指示が受付けられた場合、録音された通話音声に基づいてタスクを実行する音声認識イネーブラ203、テキスト翻訳イネーブラ204、音声合成イネーブラ202、タスクが実行されたことによって得られるタスクデータを音声通信端末装置241a、241bに提供する通信制御部224とよってサービスサーバ装置を構築し、タスクデータを、通話音声をテキストに変換したテキストデータ、テキストデータを他の言語に翻訳した翻訳テキストデータ、翻訳テキストデータを音声に変換した音声データとする。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、通信を介してサービスを提供するサービスサーバ装置、サービス提供方法、サービス提供プログラムに係り、特に、電話機による通話中に通話以外のサービスを提供するサービスサーバ装置、サービス提供方法、サービス提供プログラムに関する。
【背景技術】
【0002】
現在、話者が任意の言語を使って話した内容を自動的に他の言語に翻訳する、翻訳機や翻訳システムが実用化されている。従来の翻訳機等は、一人用型または対面会話型と呼ばれるものと、遠隔会話型と呼ばれるものがある。
図13(a)は、一人用の翻訳機を例示した図である。図13(a)において、例えば、話者が「この本はいくらですか?」と日本語で翻訳機に音声で入力する。すると、翻訳機の翻訳機能により、この日本語の音声が英訳されて「How much is this book?」の合成音声が出力される。一人用の翻訳機は、和英辞書として使用したり、対面中の他者に合成音声を聴かせることによって話者が自身の意思を他者に伝えることに使用したりすることができる。このような従来の翻訳機は、例えば、非特許文献1に記載されている。
【0003】
図13(b)は、遠隔会話型の翻訳機を例示した図である。図13(b)に示した翻訳機は、電話機の音声通信機能と翻訳機能とを備えている。図13(b)において、例えば、話者である日本人が、母国語である日本語で「3名で予約を御願いします」と翻訳機に音声入力する。すると、翻訳機の翻訳機能により、この日本語の音声が英訳されて「Please make a reservation for 3 people」の合成音声が出力される。遠隔会話型の翻訳機は、話者は母国語で話しながら、この母国語を理解できない他者にも自身の意思を伝えることができる。このような従来の翻訳機は、例えば、非特許文献2に記載されている。
【0004】
さらに、遠隔会話型の翻訳機としては、特許文献1に記載されたものがある。特許文献1に記載された電話システムは、電話の内容を翻訳して通話先に送信することができるのみならず、話者の通話音声をも通話先に送信することができる。このため、特許文献1記載の発明は、あたかも通訳を介して通話相手と会話しているような感覚をユーザに与えることができるようになる。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特許第3741025号公報
【非特許文献】
【0006】
【非特許文献1】andro navi、[online]、「iTranslator for Android〜20カ国語に対応した高機能翻訳アプリ〜」、[平成23年5月13日検索]、インターネット<URL:http://andronavi.com/2010/09/40880>
【非特許文献2】iplatform.org、[online]、セカイフォン[平成23年5月13日検索]、インターネット<URL:http://www.iplatform.org/>
【発明の概要】
【発明が解決しようとする課題】
【0007】
ところで、使用する言語が互いに異なる二者が会話をする場合、通訳者が両者の言語を翻訳するのが一般的である。通訳者が両者の言語を翻訳するように、対面で対話しているような臨場感を持ったサービスは、上記の非特許文献1、非特許文献2のいずれを用いた場合でも、実現することができない。
また、上記した特許文献1記載の発明は、話者の通話音声をも通話先に送信することができる。しかしながら、特許文献1記載の発明では、話者の音声と一緒に通話内容を翻訳したデータを送るにあたって専用のアプリケーションを起動している。このような特許文献1記載の発明は、発明を実施するために新たなアプリケーションを開発することが必要になり、この開発に時間や人的、金銭的なコストが発生するという問題がある。
【0008】
本発明は、以上の点に鑑みてなされたものであって、遠隔地にありながら対面で対話しているような臨場感を持ったサービスを実現でき、しかも新たな専用のアプリケーションを開発する必要がないサービスサーバ装置、サービス提供方法、サービス提供プログラムを提供することを目的とする。
【課題を解決するための手段】
【0009】
以上の課題を解決するため、本発明のサービスサーバ装置(例えば図2に示したサービスサーバ装置200)は、音声によって互いに音声通信する複数の音声通信端末装置(例えば図2に示した発通信端末装置241a、着通信端末装置241b)と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを音声通信の間に実行する指示を受付ける指示受付部(例えば図2に示したサービス起動部250)と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部(例えば図2に示した電話/呼制御イネーブラ201)と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部(例えば図2に示した音声認識イネーブラ203、テキスト翻訳イネーブラ204、音声合成イネーブラ202)と、前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部(例えば図2に示した通信制御部224)と、を含み、前記タスク実行部は、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成し、前記タスクデータ提供部は、前記テキストデータと、前記翻訳テキストデータと、前記音声データとを、前記通話音声と共に前記タスクデータとして音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供することを特徴とする。
【0010】
また、本発明のサービスサーバ装置(例えば図10に示したサービスサーバ装置900)は、音声によって互いに音声通信する複数の音声通信端末装置(例えば図10に示した発通信端末装置241a、着通信端末装置241b)と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、前記別タスクを前記音声通信の間に実行する指示を受付ける指示受付部(例えば図10に示したサービス起動部250)と、複数の前記音声通信端末装置間の通信中に、話者の通話音声を録音する録音部(例えば図10に示した電話/呼制御イネーブラ201)と、前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部(例えば図10に示した音声認識イネーブラ203、情報管理イネーブラ214、画像・映像合成/編集イネーブラ215)と、前記タスク実行部によって前記別タスクが実行された結果を示すタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部(例えば図10に示した通信制御部224)と、を含み、前記タスク実行部は、前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成し、前記タスクデータ提供部は、前記テキスト及び前記画像の少なくとも一方を含む前記タスクデータを、前記通話音声と共に音声通話を行っている複数の前記音声通信端末装置にそれぞれ提供することを特徴とする。
【0011】
また、本発明のサービスサーバ装置は、上記した発明において、前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付部と、前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習部(例えば図2、図10に示した学習部280)と、をさらに含むことが望ましい。
【0012】
また、本発明のサービスサーバ装置は、上記した発明において、前記タスク実行部が、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出することが望ましい。
また、本発明のサービスサーバ装置は、上記した発明において、前記タスクデータ提供部は、前記音声通信端末装置の代わりに、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを送ることが望ましい。
【0013】
また、本発明のサービス提供方法は、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、複数の前記音声通信端末装置間の通信中に、話者の通話音声を録音する録音ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行ステップと、前記テキストデータと、前記翻訳テキストデータと、前記音声データとを、タスクデータとして、前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供ステップと、を含むことを特徴とする。
【0014】
本発明のサービス提供方法は、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成するタスク実行ステップと、テキスト及び画像の少なくとも一方を含む前記タスクデータを、前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供ステップと、を含むことを特徴とする。
【0015】
本発明のサービス提供プログラムは、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の通信中に、話者の通話音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、前記テキストデータと、前記翻訳テキストデータと、前記音声データとを、タスクデータとして、前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、を実現させることを特徴とする。
【0016】
本発明のサービス提供プログラムは、音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、コンピュータに、前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成するタスク実行機能と、テキスト及び画像の少なくとも一方を含む前記タスクデータを、前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、を実現させることを特徴とする。
【発明の効果】
【0017】
本発明によれば、音声による通信に係るアプリケーションとは別のアプリケーションによってタスクを実行することから、既存の音声に係るアプリケーションとタスクを実行するアプリケーションとを使って話者の通話音声をタスクの実行結果と共に通話相手に送信することができる。このような本発明は、既存のアプリケーションを用いながら、遠隔地にありながら対面で会話しているような臨場感を持った通話サービスを提供することができる。
【図面の簡単な説明】
【0018】
【図1】本発明の実施形態1の前提となるサービスの概要を説明するための図である。
【図2】本発明の実施形態1のサービスサーバ装置の一構成例を示すブロック図である。
【図3】図2に示した学習部を説明するための機能ブロック図である。
【図4】図2に示したサービスサーバ装置によって行われる処理の手順を説明するための図である。
【図5】図2、図4に示したサービスサーバ装置と発通信端末装置、着通信端末装置とを接続するCS網、PS網を具体的に説明するための図である。
【図6】図2、図4に示したサービスサーバ装置と発通信端末装置、着通信端末装置とを接続するPS網を具体的に説明するための図である。
【図7】実施形態1のサービスサーバ装置によって実現されるサービス提供方法を説明するための図である。
【図8】実施形態1のサービス提供方法を説明するためのフローチャートである。
【図9】実施形態2のスケジューラアプリの概要を説明するための図である。
【図10】実施形態2のサービスサーバ装置を示した図である。
【図11】実施形態2のタスクデータを例示した図である
【図12】実施形態2のサービス提供方法を説明するためのフローチャートである。
【図13】図13(a)は一般的な翻訳機の構成を説明するための図、図13(b)は一般的な翻訳システムの構成を説明するための図である。
【発明を実施するための形態】
【0019】
以下、図を参照して本発明に係るサービスサーバ装置、サービス提供方法、サービス提供プログラムの実施形態1、実施形態2について説明する。以下に参照する各図において、他の図と同様の構成については、同様の符号を付して示し、その説明の一部を省略することがある。
【0020】
(実施形態1)
[コミュニケーション・コンシェルジュ]
図1は、実施形態1の前提となるサービスの概要を説明するための図である。このサービスは、通話機能を有する通信端末装置による会話(以下、通話と記す)をサポートし、直接会って会話するようなコミュニケーションを実現するよう開発されている。実施形態1の前提となるサービスを、以下、CC(コミュニケーション・コンシェルジュ)サービスとも記す。
【0021】
CCサービスは、図1に示したように、ネットワークNに接続されている通信端末装置c1〜c5に提供されるサービスである。通話機能を有する電話機、ネットワークNと接続してパケット通信によりテキストを送受信できる通信端末装置、または、通話音声とテキストの両方を送受信できる通信端末装置(例えばスマートフォン等)、のいずれかを、通信端末装置c1〜c5として用いることができる。また、通信端末装置c1〜c5は、テキストばかりでなく、静止画像や動画像、音楽を送受信する機能を有するものであってもよい。
【0022】
実施形態1では、ネットワークNに接続されている通信端末装置c1〜c5のうちの少なくとも1つの装置のユーザと、他の少なくとも1つの装置のユーザとの間で音声通話が行われる場合を想定している。そして、電話機を使って通話中のユーザは、その通話中に、別のタスクを起動してタスクを実行させることができる。この起動されたタスクの実行によって得られた情報は、通話中の電話機またはこの電話機に対応する他の通信端末装置が受信することができる。
【0023】
実施形態1を実現するには、電話機を用いた通話中に、通話とは別のタスクによるサービスを提供するサービスサーバ装置が必要である。実施形態1を実現するためのサービスサーバ装置は、通話内容の翻訳、翻訳後の通話内容の合成音声化、通話音声に合成音声を挿入することによるデータ(以下、タスクデータとも記す)の生成、翻訳後の通話内容のテキスト化、及びタスクデータとテキスト化されたデータ(以下、テキストデータとも記す)を連動して通話中の電話機等に送信するタスクを実行する。
【0024】
以下、実施形態1を実現するためのサービスサーバ装置について、より具体的に説明する。
[サービスサーバ装置]
(i)機能
図2は、実施形態1のサービスサーバ装置の一構成例を示すブロック図である。図2のサービスサーバ装置200は、複数のイネーブラを含むイネーブラ群261と通信可能に構成されている。なお、イネーブラとは、コンピュータを動作させるためのドライバソフトウェアであり、個々の目的ごとに設計されたソフトウェア(アプリケーション)を指す。
【0025】
イネーブラ群261は、電話機能用のイネーブラ群205と、実施形態1に特有の機能である翻訳機能を実現するために付加されたイネーブラ群206とを含んでいる。イネーブラ群205は、セッション連携イネーブラ218、データお預かりイネーブラ207、デバイス管理制御イネーブラ208、プレゼンスイネーブラ209、電話帳イネーブラ210、SNS(Social Networking Service)イネーブラ211、位置情報検出イネーブラ262、電話/呼制御イネーブラ201、メッセージングイネーブラ212等を含んでいる。
【0026】
また、イネーブラ群206は、ポイント管理イネーブラ219、コミュニティ管理イネーブラ213、アプリケーションに応じた所定の情報を管理する情報管理イネーブラ214、音声合成イネーブラ202、画像・映像合成/編集イネーブラ215、フォント変換イネーブラ216、音声認識イネーブラ203、画像・映像認識イネーブラ217、テキスト翻訳イネーブラ204等を含んでいる。
【0027】
なお、電話機能用のイネーブラ群205は、音声による通信に係るイネーブラの集合である。また、イネーブラ群206は、音声による通信に係るアプリケーションとは別のイネーブラの集合である。すなわち、本明細書では、イネーブラ群205に含まれるイネーブラが音声による通信に係るアプリケーションによって実行されるタスクであり、イネーブラ群206に含まれるイネーブラが、音声による通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクである。
【0028】
イネーブラ群261に含まれているイネーブラ群205および206は、ネットワーク側でサービスを提供するための環境、いわゆるサービス・イネーブラ・ネットワーク(以下、SENと記す)2を構成する。SEN2は、翻訳サービスを含む複数のサービスを提供できる複数のインターネットプレイヤPと連携して様々なサービスを提供することができる。
【0029】
実施形態1では、翻訳にかかるタスクを実行するために、サービスサーバ装置200がイネーブラ群205の電話/呼制御イネーブラ201を取得してサービスアプリ部に保存する。また、サービスサーバ装置200は、イネーブラ群206から音声合成イネーブラ202、音声認識イネーブラ203、テキスト翻訳イネーブラ204をサービスアプリ部に保存する。また、前記したように、実施形態1では、全てのサービスアプリ部がサービス起動部250を含んでいる。この結果、実施形態1ではサービスアプリ部が翻訳に係るサービスを提供するサービスアプリ部225になる。
【0030】
サービスサーバ装置200は、サービスの種別に応じたタスクの実行に必要なイネーブラを選択して取得することができる。サービスサーバ装置200によって取得されたイネーブラは、後述するサービスアプリ(サービス・アプリケーション・ソフトウェア)部としてサービスサーバ装置200にサービスごとに保存される。
このような構成により、実施形態1のサービスサーバ装置200は、既存のイネーブラを組み合わせてサービスに必要なアプリケーションを構築することができる。このため、実施形態1によれば、新たに専用のアプリケーションを開発する必要がなく、アプリケーションの開発に係る時間及びコストが発生しない。さらに、実施形態1によれば、実績がある既存のアプリケーションを使ってサービスを提供することができるため、新たなアプリケーションを開発することに比べて信頼性が高いサービスを提供することができる。
【0031】
実施形態1では、発通信端末装置241a、着通信端末装置241bが互いに通話しながらサービスサーバ装置200によりサービスの提供を受けるものとする。サービスサーバ装置200は、発通信端末装置241a、着通信端末装置241bにサービスを提供する場合には、タスクを実行する。実施形態1における発通信端末装置241aおよび着通信端末装置241bは、例えば、電話機の機能と、テキスト、静止画像、動画像等を送受信できる機能とを併せ持つ携帯電話機である。
【0032】
サービスサーバ装置200は、サービスに応じたイネーブラを有するサービスアプリ部の他、電話機としての通話を制御する既存の構成を備えている。通話を制御する構成としては、CCサービスの加入者(すなわちCCサービスの提供を受けるユーザ、以下、単に「ユーザ」と記す)に関するデータを保存する加入者プロファイル蓄積部221、CCサービスの提供の要求を認証、許可する認証許可部222、通話に課せられる課金に関する処理をする課金処理部223、通話やパケット通信を制御する通信制御部224がある。通信制御部224は、発明通信端末装置241aや、着通信端末装置241bに、タスクデータをそれぞれ提供する提供部としての機能も備えている。
【0033】
加入者プロファイル蓄積部221には、ユーザの氏名や使用している電話機の電話番号と共に、ユーザが使用する言語の種類が予め登録されている。この他、加入者プロファイル蓄積部221には、電話機を特定する情報として、電話機のデータ通信セッションに含まれるMSISDN(Mobile Subscriber ISDN Number:電話機のSIMカードに登録されている電話番号)が登録されている。さらに、前記したタブレットPCやフォトフレーム等の装置を電話機に対応付けるには、それらの装置の識別子を、該当する電話機の電話番号に対応付けて加入者プロファイル蓄積部221に登録すればよい。
また、通信制御部224は、サービスサーバ装置200において生成されたタスクデータを発通信端末装置241a、着通信端末装置241bに提供する。さらに、実施形態1のサービスサーバ装置200は、学習部280を備えている。学習部280については後に説明する。
【0034】
サービスサーバ装置200は、複数のサービスアプリ部225、226、227を備え得る。また、実施形態1では、複数のサービスアプリ部225、226、227を例えば複数のイネーブラを記憶できる記憶領域とすることもできる。このようにした場合、記憶されるイネーブラによってこの記憶領域をサービスアプリ部225、226、227のいずれにもなり得るようにすることができる。また、実施形態1のサービスアプリ部となる記憶領域には、サービス起動部250が記憶されている。このサービス起動部250は、例えば、発通信端末装置241aからIPネットワーク網230を介して送信される指示を受付けてサービスを提供するためイネーブラを起動する機能を有している。
【0035】
実施形態1では、ユーザが発通信端末装置241aを操作すると、サービス起動部250が、サービスアプリ部225に保存されているイネーブラを起動する。このサービスアプリ部225に保存されているイネーブラが起動されると、タスクの実行が開始される。起動された電話/呼制御イネーブラ201は、発通信端末装置241a、着通信端末装置241b間の通信中に、話者の音声(以下、通話音声と記す)を録音する。なお、通話音声の録音は、電話/呼制御イネーブラ201が備える周知の留守番電話の録音を制御するものとし、留守番電話の通話音声録音機能を使って行われるようにしてもよい。
【0036】
音声認識イネーブラ203は、録音された音声からテキストデータを生成する。音声認識イネーブラ203は、例えば、録音された音声を形態素解析によって解析し、その音声をテキストデータに変換する。
テキスト翻訳イネーブラ204は、音声認識イネーブラ203が生成したテキストデータを、着通信端末装置241bのユーザが使用する言語に翻訳することによって、翻訳テキストデータを生成する。
【0037】
音声合成イネーブラ202は、テキスト翻訳イネーブラ204によって生成された翻訳テキストデータを音声によって表される音声に変換することによって、合成音声によって読み上げるための音声データを生成する。
実施形態1では、音声合成イネーブラ202によって生成された音声データが、通話音声と共に発通信端末装置241a、着通信端末装置241bに提供される。また、実施形態1では、音声認識イネーブラ203によって生成されたテキストデータとテキスト翻訳イネーブラ204によって生成された翻訳テキストデータも、発通信端末装置241a、着通信端末装置241bに提供される。実施形態1では、音声データと、テキストデータ及び翻訳テキストデータとを併せてタスクデータとも記すものとする。
【0038】
以上のように、音声認識イネーブラ203、テキスト翻訳イネーブラ204、音声合成イネーブラ202は、サービス起動部250によってタスク実行の指示が受付けられた場合、電話/呼制御イネーブラ201によって録音された音声に基づいてタスクを実行し、タスクの実行によってタスクデータが生成される。このタスクデータは、発通信端末装置241a及び着通信端末装置241bに提供される。
以上のように構成された実施形態1のサービスサーバ装置において、サービス起動部250が指示受付部として機能する。また、電話/呼制御イネーブラ201が録音部として機能し、音声認識イネーブラ203、テキスト翻訳イネーブラ204、音声合成イネーブラ202がタスク実行部及びタスクデータ生成部として機能する。
【0039】
なお、実施形態1では、サービス起動部250が、発通信端末装置241a、着通信端末装置241bがサービスの提供を指示して直ちに各イネーブラを起動するものではなく、加入者プロファイル蓄積部221から予め登録されている加入者情報を取得するようにしてもよい。そして、加入者情報に発通信端末装置241a、着通信端末装置241bの少なくともいずれかを特定する情報が含まれている場合に発通信端末装置241a、着通信端末装置241bの指示を受付けるようにしてもよい。
【0040】
また、実施形態1では、サービスの提供を指示する場合、携帯電話機が自機の電話番号に予め設定されている特定の番号等の情報を付加して発信するようにサービス起動部250の起動条件を設定してもよい。このように起動条件を設定した場合、サービス起動部250は、発通信端末装置241a、着通信端末装置241bの少なくともいずれかが、予め定められた情報が付加された電話番号を使って発呼した場合に発通信端末装置241a、着通信端末装置241bの指示を受付けることになる。
【0041】
さらに、実施形態1は、サービス起動部250が発通信端末装置241a、着通信端末装置241bの操作によって出力される信号によって各イネーブラを起動するものに限定されるものではない。例えば、電話/呼制御イネーブラ201によって録音された通話音声が入力された場合に、サービス起動部250が各イネーブラを起動してタスクの実行を開始するようにしてもよい。このようにサービス起動部250を構成する場合、アプリケーションを特定できる文言、例えば、「翻訳開始」などの文言を予め設定しておく。そして、音声認識イネーブラ203が録音された通話音声を形態素解析した結果、予め設定された文言が通話音声に含まれている場合に限り、サービス起動部250が各イネーブラを起動してタスクを実行する。
【0042】
以上説明した実施形態1において、発通信端末装置241a、着通信端末装置241bは、テキストを送信可能な携帯電話機に限定されるものではない。発通信端末装置241a、着通信端末装置241bを通話機能だけを有する電話機とした場合、通話機能だけを有する電話機からの要請によってタスクの実行結果をこの電話機に予め対応付けられたタブレットPC242a、242bやフォトフレーム243a、243bに送信するようにしてもよい。
【0043】
(ii)学習部
図3は、図2に示した学習部280を説明するための機能ブロック図である。図2n示した学習部280は、重み付け部313を備えている。図2に示した音声認識イネーブラ203はデータベース(以下、DBと記す)311にアクセスできるように構成されている。DB311は、サービスサーバ装置の内部にあってもよいし、サービスサーバ装置とネットワーク等によって接続されるものであってもよい。
【0044】
実施形態1では、DB311に予め多数のテキストが登録されていて、音声認識イネーブラ203は、DB311にアクセスして形態素解析された通話音声に対応するテキストを取得する。そして、取得されたテキストを使って通話音声をテキストに変換し、テキストデータを生成する。テキストデータはタスクデータの1つとして発通信端末装置241a、着通信端末装置241bに送信される。
【0045】
発通信端末装置においては、ユーザがテキストデータを確認することによって通話音声の誤認識やそれに伴う誤訳を容易に検出することができる。誤認識や誤訳があった場合、実施形態1では、発通信端末装置の表示画面に表示されているテキストデータをユーザが編集して訂正すべき箇所を示し、サービスサーバ装置200に提供してテキストデータを訂正するよう指示する。このような訂正の指示は、テキストや画像の送受信が可能な携帯電話機の既存の構成を使って容易に実現することができる。
【0046】
発通信端末装置241aから訂正を指示する訂正指示信号が送信されると、訂正指示信号は音声認識イネーブラ203に到達する。音声認識イネーブラ203は、訂正指示信号が発通信端末装置から送信されてきた旨と、訂正指示信号によって指示された訂正箇所を重み付け部313に通知する。重み付け部313は、DB311にアクセスし、訂正が指示されたテキストに対応する通話音声について、このテキストに付与されている重みを低下させるように変更する。
【0047】
そして、次回音声認識イネーブラ203が通話音声をDB311に対照する場合、付与されている重みが大きいテキストを優先的に通話音声とマッチングするように構成する。このようにすれば、通話音声に対応する可能性がより高いテキストをより短時間のうちに抽出することができる。
図4は、図2に示したサービスサーバ装置によって行われる処理の手順を説明するための図である。
【0048】
図2に示したサービスアプリ部225では、図2に示した電話/呼制御イネーブラ201によって通話音声の録音が実行される(ステップS311)。通話音声の録音は、音声が録音されない状態(以下、無音録音状態とも記す)から次の無音録音状態までの間に発せられた通話音声を1単位として行われる。次に、音声認識イネーブラ203によって音声は形態素解析され、解析される。解析は、1単位として録音された通話音声ごとに行われる。そして、解析結果にしたがって通話音声はテキストデータに変換される(ステップS312)。
【0049】
次に、サービスアプリ部225では、テキスト翻訳イネーブラ204により、ステップS312において変換されたテキストデータが、予め着通信端末装置241bのユーザによって加入者プロファイル蓄積部221に登録されている言語の翻訳テキストデータに翻訳される(ステップS313)。翻訳後の翻訳テキストデータは、合成音声に変換され、音声データとなる(ステップS314)。さらに、音声データが通話音声に挿入される(ステップS315)。
【0050】
ここで、「音声データを通話音声に挿入する」とは、通話音声に合わせて音声データを送信するタイミングを決定することをいう。このように音声データの送信タイミングを決定することにより、通話音声は通常とおりCS(Circuit Switched)網を介して発通信端末装置241a、着通信端末装置241bに送信される。
また、音声データも、CS網を介してデータ通信セッションにより発通信端末装置241a、着通信端末装置241bに送信されるが、PS(Packet Switched)網を経由して送信するようにすることもできる。ただし、CS網を介して送信することにより、実施形態1は、音声データをリアルタイムで送信することができるようになる。さらに、通話音性を翻訳してテキスト化したテキストデータは、PS網を利用して送信される。なお、図4においては、CS網とPS網とに符号320を付して示すものとする。
【0051】
さらに、実施形態1は、通話音声をCS網で送信するものに限定されるものではなく、通話音声がPS網を介して発通信端末装置241a、着通信端末装置241bに送信されるようにしてもよい。
実施形態1では、前記したように、無音録音状態から次の無音録音状態までの間に発話された通信音声を1単位として録音、認識、翻訳してタスクデータを生成し、その都度、発通信端末装置241a、着通信端末装置241bに送信することにより、通話音声とタスクデータとの同期をとって発通信端末装置241a、着通信端末装置241bに送信することができる。
【0052】
実施形態1では、通話の違和感を避けるため、通話音声は通常通りリアルタイムで通信先の発通信端末装置241a、着通信端末装置241bに送信される。このため、通話音声に音声データが挿入されることにより、ユーザには音声データによる音声が通話音声に重なって聞こえることがある。しかし、通訳者を介して会話する場合、一般的に人は通訳者が発話している間は自身の発話を控える傾向にあると考えられる。このため、音声データによる音声と通話音声とが重なって会話に支障をきたすことは起こり難い。
【0053】
実施形態1では、発通信端末装置241a、着通信端末装置241bの両方がサービスアプリ部225にアクセスしてテキストデータ、翻訳テキストデータ及び音声データを取得する。このように、サービスアプリ部225を介して発通信端末装置241a、着通信端末装置241bを接続する方式は、ブリッジ接続と呼ばれている。
また、図1に示したサービスサーバ装置200は、発通信端末装置241aの電話回線と、着通信端末装置241bの電話回線とを、周知の方法によって識別することができる。このため、発通信端末装置241aの上り回線u1、下り回線d1、着通信端末装置241bの上り回線u2、下り回線d2を区別することができ、ユーザの発話を適切に翻訳して通話相手に送信することができる。
【0054】
以上説明した実施形態1によれば、通話音声、合成音声の音声データ、テキストデータ、翻訳テキストデータを発通信端末装置241a、着通信端末装置241bに提供することができる。このため、ユーザは、自身の発話した内容がサービスサーバ装置200にどのように認識されたのかを容易に認識でき、誤訳等があれば速やかに訂正するなどの対応を行うことができる。また、ユーザには通話相手の通話音声と、これを翻訳した音声データとの両方が聞こえるため、あたかも間に通訳者を介して会話しているような臨場感がある会話を実現することができる。
【0055】
(iii)CS網及びPS網
図5は、図2、図4に示したサービスサーバ装置200と発通信端末装置241a、着通信端末装置241bとを接続するCS網404、PS網405を具体的に説明するための図である。なお、図5中の図2、図4に示した構成と同様の構成については、同様の符号を付して示し、その説明の一部を略すものとする。
【0056】
発通信端末装置241aは、MPN(メディア・プロセッシング・ノード)408に向けて発呼する。この発呼信号は、CS網404、既存の電話系装置401に到達する。既存の電話系装置401とは、例えば、CSN(認証装置、ハンドオーバーを実現するためのホームエージェント、DHCPサーバ等)、ASN(無線基地局等)を指す。既存の電話系装置401では、発呼に対して非課金処理や特番ルーチングの処理が実行される。なお、非課金処理とは、一般的な通話にかかる課金処理を行わないようにする処理である。また、特番ルーチングとは、予め定められた電話番号(特番)に発呼された場合に、通信経路を、本来の処理とは異なる処理が行われる通信経路に変更することをいう。
【0057】
次に、発呼信号は既存の電話系装置401から実施形態1のサービスサーバ装置200に到達する。サービスサーバ装置200には、図1に示した電話機の通信を制御する通信制御部224、加入者プロファイル蓄積部221、認証許可部222、課金処理部223を備えているから、このような構成によって他網からのサービス制限や音声と画面の連携(音声データとテキストデータ等との連携)の処理がなされる。
【0058】
音声データとテキストデータ及び翻訳テキストデータとの連携は、次のようにして実現できる。
すなわち、本サービスの提供を受け得る電話機が通話状態になったとき、サービスサーバ装置200の通信制御部224が、電話機の通話に係る信号に含まれるMSISDNに一致するMSISDNを含むデータ通信セッション実行の監視を開始する。そして、通話に係る信号に含まれるMSISDNに一致するデータセッションが行われた場合、この通話とデータセッションとをCCサービスにおいて連携させるべきであると判断する。
【0059】
通話音声と、音声データ、テキストデータ及び翻訳テキストデータを1つの通信端末装置に送信する場合、通話音声と音声データとは、CS網によってリアルタイムに送信される。しかし、音声データは、PS網によって送信することもでき、上記構成によれば、CS網404によって送信される通話音声と、PS網405によって送信されるタスクデータとの連携をとることができる。
また、前述したように、実施形態1は、通話音声を、音声データと同様にPS網405を介して送信することができる。通話音声を音声データ等と共にPS網405を介して送信する構成を、図6に示す。
【0060】
また、実施形態1では、図2に示した加入者プロファイル蓄積部221において、前記したように、通話機能だけを有する電話機と、テキスト等を送信できる通信端末装置とを対応付けて登録している。このような場合、通信制御部224が、電話機の電話番号で発呼がされると、登録されている通信端末装置のアドレスにタスクデータを取得できるURLを送信するようにしてもよい。
また、発呼に対応する通話音声は、MPN408において電話/呼制御イネーブラ201により録音され、サービスサーバ装置200に渡される。
【0061】
サービスサーバ装置200では、アプリ部225が録音された通話音声に基づいて音声データとテキストデータ及び翻訳テキストデータとを作成する。音声データは、CS網を経由して着通信端末装置241bにリアルタイムで送信されるが、PS網を利用して送信することもできる。また、テキストデータ及び翻訳テキストデータは、既存のWeb系装置402(ゲートウェイ等)やxGSN(x−GPRS Support Node)/EPC(Evolved Packet Core)よりPS網405を介して着通信端末装置241bに送信される。
【0062】
(iv)サービス提供方法
図7は、実施形態1のサービスサーバ装置200によって実現されるサービス提供方法を説明するための図である。図7では、HTTP(Hypertext Transfer Protocol)を使
ったデータ通信を破線で示し、電話機による通話を実線で示している。
発通信端末装置241aにおいて、ユーザが例えば実施形態1のサービス提供方法を実現するためのアプリケーションを起動するとともに、相手の電話番号が入力される(ステ
ップS501)。このような処理により、発通信端末装置241aから発通信端末装置2
41aのアドレスがサービスサーバ装置に送信される。そして、サービスサーバ装置200では、他の必要な要件が満たされたことを条件に、タスクを通信(通話)の間に実行する指示が受付けられて翻訳サービスが開始される(ステップS502)。
【0063】
サービスサーバ装置200は、発通信端末装置241a、着通信端末装置241bとの間の通話回線を確立する(ステップS503)。そして、サービスサーバ装置200は、発通信端末装置241aの回線から送信された通話音声を録音するとともに(ステップS504)、着通信端末装置241bの回線に送る(ステップS505)。
発通信端末装置241aの回線から通話音声が送信されてこない無音録音状態になると、サービスサーバ装置200は発通信端末装置241aの回線から送信されてくる通話音声の録音をいったん終了する(ステップS506)。そして、録音された通話音声について、図2、図4に示した音声認識イネーブラ203、テキスト翻訳イネーブラ204、音声合成イネーブラ202によって、テキスト化、翻訳、合成音声の合成が行われ(ステップS507)、音声データとテキストデータ及び翻訳テキストデータとを生成する。
【0064】
そして、実施形態1のサービスサーバ装置200は、音声データを、発通信端末装置241a、241bの両方に送信するとともに、テキストデータ及び翻訳テキストデータも発通信端末装置241a、着通信端末装置241bの両方に送信する(ステップS508〜511)。次に、着通信端末装置241bのユーザが発話すると、サービスサーバ装置200は、以上の動作を着通信端末装置241bの電話回線から送信されるユーザの通話音声に対して実行する。なお、2人のユーザのうち、一方が発話している間に他方が発話した場合、実施形態1では、通話音声を録音中のユーザの通話音声について以上の処理を実行し、他方のユーザが発話した内容については処理の対象にしないようにする。
【0065】
図8は、実施形態1のサービスサーバ装置において行われる実施形態1のサービス提供方法を説明するためのフローチャートである。サービス起動部は、発通信端末装置から翻訳に関するアプリケーションの実行が指示されたか否かを判断している(ステップS701)。サービス起動部は、アプリケーションの実行の指示がされたと判断した場合(ステップS701:Yes)、サービスアプリ部の各イネーブラを起動する。なお、サービス起動部は、そのような指示がないと判断した場合には(ステップS701:No)、アプリケーション実行の指示があるまで待機する。
【0066】
サービス起動部によって起動された電話/呼制御イネーブラは、通話音声を録音する(ステップS702)。電話/呼制御イネーブラは、通話音声の録音中、無音状態になったか否か判断する(ステップS703)。そして、電話/呼制御イネーブラは、無音状態になったと判断された場合(ステップS703:Yes)、通話音声の録音をいったん終了する(ステップS704)。音声認識イネーブラは、電話/呼制御イネーブラによって録音された通話音声を形態素解析し(ステップS705)、その解析結果を図3に示したDB311に照合する(ステップS706)。そして、通話音声に合致するテキストを抽出して組み合わせ、テキストデータを生成する(ステップS707)。
【0067】
テキスト認識部204は、テキストデータを他の言語に翻訳して翻訳テキストデータを生成する(ステップS708)。音声合成イネーブラは、翻訳テキストデータを合成音声に変換して音声データを生成する(ステップS709)。テキストデータ、翻訳テキストデータ及び音声データは、タスクデータとして発通信端末装置及び着通信端末装置に送信される(ステップS710)。
【0068】
音声認識イネーブラは、訂正指示信号が送信されてきたか否かによってテキストデータがユーザによって訂正されたか否か判断する(ステップS711)。テキストデータが訂正された場合(ステップS711:Yes)音声認識イネーブラは訂正されたテキストに対応する通話音声を再びDBに照合して他のテキストに変換する。そして、他のテキストを使ってテキストデータを作成する。テキスト翻訳イネーブラ、音声合成イネーブラは、再度作成されたテキストデータに基づいて再度翻訳テキストデータや音声データを作成する(ステップS706〜711)。
【0069】
一方、音声認識イネーブラによって訂正指示信号が入力されないと判断された場合(ステップS711:Yes)、図2に示した学習部280は、DBに記憶されているテキストデータに付与されている重みを変更する。すなわち、学習部280は、今回訂正されたテキストの重みを低下させるように変更し、変更後の内容をDBに反映させる。以上の処理の後、サービス起動部がサービスの終了がユーザによって指示されたか否か判断する(ステップS713)。
【0070】
サービス起動部は、ユーザによってサービスの終了の指示されていないと判断した場合には(ステップS713:No)、電話/呼制御部に通話音声の録音を継続させる。一方、サービス起動部は、ユーザによってサービスの終了が指示されたと判断した場合には(ステップS713:Yes)、指示にしたがってサービスを終了させる。
なお、実施形態1は、以上説明した構成に限定されるものではない。すなわち、以上説明した実施形態1では2人のユーザの間の通話を対象にして翻訳に係るCCサービスを実行している。しかしながら、実施形態1は、2人の間の通話を対象にするものに限定されず、3人以上で通話する会議電話等にも適用することができる。
【0071】
[サービス提供プログラム]
以上説明したサービスサーバ装置においては、音声によって通信可能な音声通信端末装置間の音声通信中に、音声通信とは別の別タスクによるサービスを提供するためのサービス提供プログラムが実行される。このサービス提供プログラムは、コンピュータに、別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の上記音声通信端末装置間の通信中に、話者の音声を録音する録音機能と、上記指示受付機能によって上記指示が受付けられた場合、上記録音機能において録音された上記通話音声に基づいて、上記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、上記テキストデータ、上記翻訳テキストデータ、上記音声データを、上記タスクデータとして、上記通話音声と共に音声通信を行っている複数の上記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、を実現させるプログラムである。
(実施形態2)
次に、本発明の実施形態2を説明する。実施形態2は、本発明のサービスサーバ装置、サービス制御方法、サービス制御プログラムを、ユーザのスケジュールを調整するアプリケーションに適用したものである。
【0072】
[スケジューラアプリ]
図9は、実施形態2で提供される、スケジュールを調整するアプリケーション(以下、スケジューラアプリと記す)の概要を説明するための図である。図8に示した例では、サービスサーバ装置が、発通信端末装置241a、着通信端末装置241bの通信中に、音声による通信とは別のスケジューラタスクによるサービスを提供する。このような例では、発通信端末装置241aのユーザがスケジューラタスクを通話の間に実行するように発通信端末装置241aを操作する等してサービスサーバ装置に指示する。サービスサーバ装置が指示を受付けると、発通信中に、発通信端末装置241a、着通信端末装置241bのユーザの通話音声が録音される。
【0073】
図9に示した例では、サービスサーバ装置が発通信端末装置241a、着通信端末装置241bの電話回線から通話音声を取得してそれぞれ録音する。図2に示した音声認識部は、録音された通話音声を形態素解析する等して「スケジュール調整」を意味する音声が通話音声に含まれていることを検出する。通話音声に「スケジュール調整」が含まれていることから、発通信端末装置241a、着通信端末装置241bのユーザのスケジュールが両方とも空いている日時及びその時間帯を抽出するタスクを実行するように指示されたものと判断する。
【0074】
このような指示がされたことにより、実施形態2では、サービスサーバ装置が発通信端末装置241a、着通信端末装置241bに登録されているユーザのスケジュールデータを取得する。なお、スケジュールデータとは、ユーザ自身によって発通信端末装置241a、着通信端末装置241bに登録されたデータであって、ユーザに関する行動と、この行動が行われる日時に関する情報を含むデータである。
そして、実施形態2のサービスサーバ装置では、取得されたスケジュールデータから、ユーザの行動が登録されていない発通信端末装置241a、着通信端末装置241bに共通の日及びその時間帯(日時)を抽出する。抽出された日時は、テキストデータを含む画像データとして発通信端末装置241a、着通信端末装置241bの両方に送信される。
【0075】
[サービスサーバ装置]
(i)機能
図10は、実施形態2のサービスサーバ装置900を示した図である。実施形態2のサービスサーバ装置900は、サービスアプリ部の構成だけが実施形態1のサービスサーバ装置200と異なっている。すなわち、実施形態2のサービスサーバ装置900では、イネーブラ群261から取得された電話/呼制御イネーブラ201、音声認識イネーブラ203、情報管理イネーブラ214、画像・映像合成/編集イネーブラ215がサービスアプリ部226を構築している。
そして、情報管理イネーブラ214が発通信端末装置241a、着通信端末装置241bに登録されているユーザのスケジュールデータを取得する。情報管理イネーブラ214は、取得されたスケジュールデータから、発通信端末装置241a、着通信端末装置241bのユーザの予定が共に登録されていない日及びその時間帯を抽出する。
【0076】
情報管理イネーブラ214によって抽出された情報は、画像・映像合成/編集イネーブラ215に渡される。画像・映像合成/編集イネーブラ215は、この情報からテキスト及び画像の少なくとも1つを含むタスクデータを作成する。図11は、実施形態2のタスクデータを例示した図である。タスクデータは、発通信端末装置241a、着通信端末装置241bの両方に送信される。
このような構成によれば、発通信端末装置241a、着通信端末装置241bのユーザに対し、直接対面してスケジュール調整するのと同様の臨場感があるコミュニケーションを提供することができる。また、スケジュールを容易かつ間違いなく調整できるという効果をも得ることができる。
【0077】
(ii)サービス提供方法
図12は、実施形態2のサービスサーバ装置において行われるサービス提供方法を説明するためのフローチャートである。サービス起動部は、発通信端末装置からスケジューラに関するアプリケーションの実行が指示されたか否かを判断している(ステップS1101)。サービス起動部は、アプリケーション実行の指示がされたと判断した場合(ステップS1101:Yes)、サービスアプリ部の各イネーブラを起動する。なお、サービス起動部はアプリケーションサーバ実行の指示がないと判断した場合には(ステップS1101:No)、そのような指示があるまで待機する。
【0078】
サービス起動部によって各イネーブラが起動された場合、起動された電話/呼制御イネーブラは、通話音声を録音する(ステップS1102)。電話/呼制御イネーブラは、通話音声の録音中、無音状態になったか否かを判断する(ステップS1103)。電話/呼制御イネーブラは、無音状態になったと判断した場合(ステップS1103:Yes)、通話音声の録音をいったん終了する(ステップS1104)。音声認識イネーブラは、電話/呼制御イネーブラによって録音された通話音声を形態素解析し(ステップS1105)、通話音声に「スケジュール調整」を意味する語句が含まれていた場合には、スケジュール調整が指示されたことを検出する。情報管理イネーブラは、データベースにアクセスし、データベースから通話中の各ユーザのスケジュールに関する情報を取得する(ステップS1106)。
【0079】
このような実施形態2のデータベースは、予めユーザのスケジュールが登録されたデータベースである。スケジュールは、携帯電話機のアプリケーションによって設定された所定の形式で登録されたものであることが好ましい。また、実施形態2のデータベースは、加入者プロファイル蓄積部にあってもよい。
画像・映像合成/編集イネーブラは、抽出されたスケジュールを使って例えば図11に示したような、テキスト及び画像を含むタスクデータを生成する(ステップS1107)。画像・映像合成/編集イネーブラによって作成されたタスクデータは、図10に示した通信制御部224によって発通信端末装置及び着通信端末装置に送信される(ステップS1108)。
【0080】
実施形態2では、発通信端末装置のユーザが、自身が指示した内容とタスクデータとが一致しているか否か確認することができる。確認の結果、タスクデータが自身の意図した内容と異なる場合、発通信端末装置のユーザは、通信端末装置からサービスサーバ装置900に向けて訂正を指示する操作を行う。この操作によって訂正指示信号が送信される。なお、タスクデータが意図した内容と異なるとは、例えば、ユーザが「来月のスケジュール」と発話したにも関わらず、6月のスケジュールが提示された場合等をいう。
【0081】
音声認識イネーブラは、訂正指示信号が送信されてきたか否かによってタスクデータがユーザによって訂正されたか否か判断する(ステップS1109)。タスクデータがユーザによって訂正された場合(ステップS1109:Yes)、音声認識イネーブラは訂正されたタスクデータに対応する通話音声を再びDBに照合して他のテキストに変換する。そして、再度の照合の結果抽出された他のテキストを使ってテキストデータを作成する。テキスト翻訳イネーブラ、音声合成イネーブラは、再度抽出されたテキストデータに基づいて再度タスクデータを作成する(ステップS1106〜1109)。
【0082】
一方、訂正指示信号が入力されないと判断された場合(ステップS1110:Yes)、図10に示した学習部280は、DBに記憶されているテキストデータに付与されている重みを変更する。すなわち、学習部は、今回訂正された箇所に関するテキストの重みを低下させるように変更し、変更後の内容をDBに反映させる。以上の処理の後、サービス起動部は、ユーザによってサービスの終了が指示されたか否か判断する(ステップS1111)。サービス終了の指示がなされていないとサービス起動部によって判断された場合には(ステップS1111:No)、電話/呼制御部に通話音声の録音を継続させる。また、サービス起動部は、サービス終了の指示がなされたと判断した場合には(ステップS1111:Yes)、指示にしたがってサービスを終了させる。
【0083】
[サービス提供プログラム]
以上説明したサービスサーバ装置においては、音声による通信が可能な音声通信端末装置の通信中に、音声による通信とは別の別タスクによるサービスを提供するサービスサーバ装置によって実行されるサービス提供プログラムが実行される。このサービス提供プログラムは、コンピュータに、別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、複数の上記音声通信端末装置間の通信中に、話者の通話音声を録音する録音機能と、上記指示受付機能によって上記指示が受付けられた場合、上記録音機能において録音された上記通話音声に基づいて、上記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成するタスク実行機能と、テキスト及び画像の少なくとも一方を含む上記タスクデータを、上記通話音声と共に音声通信を行っている複数の上記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、を実現させるプログラムである。
なお、実施形態2では、2人のユーザの間の通話を対象にしてスケジュール調整をするCCサービスを実行している。しかしながら、実施形態2は、2人の間の通話を対象にするものに限定されず、3人以上で通話する会議電話等にも適用することができる。
【産業上の利用可能性】
【0084】
本発明は、スマートフォン等を使ったコミュニケーションをサポートすることに最適なサービス提供装置、サービス提供方法及びサービス提供プログラムを提供することができる。
【符号の説明】
【0085】
200、900 サービスサーバ装置
201 電話/呼制御イネーブラ
202 音声合成イネーブラ
203 音声認識イネーブラ
204 テキスト翻訳イネーブラ
205、206、261 イネーブラ群
208 デバイス管理制御イネーブラ
209 プレゼンスイネーブラ
210 電話帳イネーブラ
211 SNSイネーブラ
212 メッセージングイネーブラ
213 コミュニティ管理イネーブラ
214 情報管理イネーブラ
215 画像・映像/合成編集イネーブラ
216 フォント変換イネーブラ
217 画像・映像認識イネーブラ
218 セッション連携イネーブラ
219 ポイント管理イネーブラ
221 加入者プロファイル蓄積部
222 認証許可部
223 課金処理部
224 通信制御部
225、226、227 サービスアプリ部
230 ネットワーク網
280 学習部
241a 発通信端末装置
241b 着通信端末装置

【特許請求の範囲】
【請求項1】
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションによって実行されるタスクとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるテキストデータと、前記タスク実行部によって前記別タスクが実行されたことによって得られる音声データと、を含むタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部と、
を含み、
前記タスク実行部は、
前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成し、
前記タスクデータ提供部は、
前記テキストデータ、前記翻訳テキストデータ、及び前記音声データを、前記通話音声と共に前記タスクデータとして、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供することを特徴とするサービスサーバ装置。
【請求項2】
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付部と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音部と、
前記指示受付部によって前記指示が受付けられた場合、前記録音部によって録音された前記通話音声に基づいて前記別タスクを実行するタスク実行部と、
前記タスク実行部によって前記別タスクが実行されたことによって得られるタスクデータを、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供部と、
を含み、
前記タスク実行部は、
前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成し、
前記タスクデータ提供部は、
前記テキスト及び前記画像の少なくとも一方を含む前記タスクデータを、前記通話音声と共に、音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供することを特徴とするサービスサーバ装置。
【請求項3】
前記音声通信端末装置に送信された前記タスクデータの訂正指示を受け付ける訂正指示受付部と、
前記訂正指示受付部によって受け付けられた訂正指示に基づいて、前記タスクデータを生成する際に使用されたデータに重み付けを行う学習部と、
をさらに含むことを特徴とする請求項1または2に記載のサービスサーバ装置。
【請求項4】
前記タスク実行部は、ユーザによってなされた指示が該ユーザのスケジュールの調整であると判定された場合、予め登録された前記ユーザに関する行動と、当該行動が行われる日時に関するスケジュール情報を抽出し、抽出されたスケジュール情報を使って複数の前記音声通信端末装置のユーザの、行動が登録されていない共通の日時を抽出することを特徴とする請求項2または3に記載のサービスサーバ装置。
【請求項5】
前記タスクデータ提供部は、前記音声通信端末装置の代わりに、該音声通信端末装置に対応付けられ、かつ、テキストによる通信が可能なテキスト通信端末装置に、前記タスクデータのうちの前記テキストデータを送ることを特徴とする請求項1から請求項4のいずれか1項に記載のサービスサーバ装置。
【請求項6】
音声によって互いに通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、
前記別タスクを音声通信の間に実行する指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて、前記通話音声をテキストに変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行ステップと、
前記テキストデータと、前記翻訳テキストデータと、前記音声データとを、タスクデータとして前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供ステップと、
を含むことを特徴とするサービス提供方法。
【請求項7】
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる、音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置のサービス提供方法であって、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付ステップと、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音ステップと、
前記指示受付ステップにおいて前記指示が受付けられた場合、前記録音ステップにおいて録音された前記通話音声に基づいて前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成するタスク実行ステップと、
テキスト及び画像の少なくとも一方を含む前記タスクデータを、前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供ステップと、
を含むことを特徴とするサービス提供方法。
【請求項8】
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記通話音声をテキスト変換してテキストデータを生成し、該テキストデータを他の言語に翻訳して翻訳テキストデータを生成し、該翻訳テキストデータを音声に変換して音声データを生成するタスク実行機能と、
前記テキストデータと、前記翻訳テキストデータと、前記音声データとを、タスクデータとして、前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、
を実現させることを特徴とするサービス提供プログラム。
【請求項9】
音声によって互いに音声通信する複数の音声通信端末装置と接続され、該音声通信端末装置間で行われる音声通信に係るアプリケーションとは別のアプリケーションによって実行される作業である別タスクによるサービスを提供するサービスサーバ装置において実行されるサービス提供プログラムであって、
コンピュータに、
前記別タスクを音声通信の間に実行するための指示を受付ける指示受付機能と、
複数の前記音声通信端末装置間の音声通信中に、話者の通話音声を録音する録音機能と、
前記指示受付機能によって前記指示が受付けられた場合、前記録音機能において録音された前記通話音声に基づいて、前記音声通信端末装置のユーザによってなされた指示を判定し、当該指示にしたがって予め登録された情報を抽出し、抽出された情報を使ってテキスト及び画像の少なくとも一方を含むタスクデータを生成するタスク実行機能と、
テキスト及び画像の少なくとも一方を含む前記タスクデータを、前記通話音声と共に音声通信を行っている複数の前記音声通信端末装置にそれぞれ提供するタスクデータ提供機能と、
を実現させることを特徴とするサービス提供プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate


【公開番号】特開2013−9367(P2013−9367A)
【公開日】平成25年1月10日(2013.1.10)
【国際特許分類】
【出願番号】特願2012−117545(P2012−117545)
【出願日】平成24年5月23日(2012.5.23)
【出願人】(392026693)株式会社エヌ・ティ・ティ・ドコモ (5,876)
【Fターム(参考)】