コンピュータを利用した外国語会話練習システム

【課題】直接教師との対話による学習システムに近い、内容が固定されない会話を自己学習により、安価に実現すること。並びに、学習時間が限定されない外国語会話の練習システムを実現すること。
【解決手段】サーバーコンピュータとクライアントコンピュータとが通信回線を介して接続されたサーバークライアントシステムにおいて、話者の音声データを文字情報である入力文に変換する音声認識部と、特性値テーブルの値に基づき応答文を生成する人工知能部と、応答文を音素データに変換する音声合成部とを備えたコンピュータを利用した外国語会話練習システム。

【発明の詳細な説明】
【技術分野】
【０００１】
本発明は、コンピュータを利用した外国語の学習システムであって、詳しくは、音声による応答をベースとした外国語の学習システムに関する。
【背景技術】
【０００２】
コンピュータを用いて外国語の学習を支援する技術がある。例えば、特許文献１には、装置主導で外国語会話学習を進行させ、該外国語会話学習に最適な環境を学習者に提供する学習指導装置が記載されている。
【０００３】
特許文献１の技術は、第１のプロセッサを有し、かつ、主として学習用教材の提供及び学習の進捗管理を行う学習指導部Ａと、該第１のプロセッサとは独立に駆動可能な第２のプロセッサを有し、かつ、主として指導対象である学習者に対する学習の進行を音声により行うインターフェース部から構成され、前記学習指導部は、前記インターフェース部が前記学習者に対して音声により行っている学習指導動作と並行して、その後行われる学習指導に先立ち、該後の学習指導に必要な学習関連情報を前記第１および第２の入出力手段を介して該インターフェース部に予め出力するよう、該学習関連情報の入出力管理を行うことを特徴としている。
【０００４】
特許文献２には、英会話などの学習を援助する学習検定装置が記載されている。特許文献２の技術は、英会話学習検定装置は、問題を出力すると、この問題文に対する正解文を構成する単語とこの単語と関連性を有する単語とから、正解候補単語群を作り、これらの単語をソートした上で、単語カードの形態でＣＲＴ上に表示する。使用者は、マウスを操作してこの単語カードを選択することにより、解答を入力する。また、キーボードから１文字入力するたびに該当する単語カードを絞り込んで、解答文を入力することができる。
【０００５】
特許文献３には、自分のペースで且つ場所を選ばずに外国語の発音及び聞き取りの練習ができる外国語学習方法が記載されている。特許文献３の技術は、外国語単語データ及び外国語文章データが格納された外国語の供給者側端末と、音声を出力可能な学習者側端末とがインターネットを介して接続され、供給者が供給者側端末を介してインターネット上に外国語学習のホームページを開設しており、学習者側端末がホームページにアクセスすることにより、学習者側端末が、供給者側端末から送信された外国語単語データ又は外国語文章データに基づく音声を出力する。
【０００６】
特許文献４には、外国語の発音を学習する学習者を支援する技術が記載されている。特許文献４の技術は、発音評価サービスにおいては、各生徒が生徒端末から自らの音声情報をＤＳＰサーバー装置へ送信すると、その音声情報を基に特定した習熟レベルがＤＳＰサーバー装置へ蓄積される。練習相手紹介サービスにおいては、ＤＳＰサーバー装置が、同じ習熟レベルの生徒端末同士をマッチングし、それら両端末間での音声情報のやり取りを制御する。
【先行技術文献】
【特許文献】
【０００７】
【特許文献１】特開平７−３１９３７４号公報
【特許文献２】特開平１０−２２２０４９号公報
【特許文献３】特開２００３−９８９４４号公報
【特許文献４】特開２００６−１９５０９４号公報
【発明の概要】
【発明が解決しようとする課題】
【０００８】
コンピュータを利用した外国語学習システムにおいて、教師なしの自己学習を中心としたシステムや、教師が存在する対話型システムがある。前者においては、リスニングとこれに応答する会話を録音再生して学習を図るシステムや、シャドーイングを行なわせるシステムがある。後者においては、直接又は通信回線を介して教師が対応するシステムとなっている。
【０００９】
自己学習システムは、安価である半面、学習が独りよがりとなり、発音の矯正や生きた会話の習得が難しく、学習効果の点で難点がある。一方、対話型学習システムは、生徒が学習している間教師が時間的に拘束され、一人の教師が一度に学習できる人数が少数に限られ、結果として、対話型学習システムは高価となり、学習できる時間も制限を受ける。
【００１０】
また、自己学習システムにおいても、近年、生徒の会話に応答してインタラクティブに応答する学習システムが見受けられるようになってきている。しかし、自己学習システムと対話型学習システムを折衷したこのような学習システムにおいては、費用が比較的安価である反面、会話内容が固定されており、自由な会話でないため、本体の意味での会話の練習にはなっていない。
【００１１】
更には、従来の学習システムはリスニングの学習効果はある程度期待できるが発音の学習を効果的行うことができない。会話は、聞くことと喋ることによって成り立っている以上、発音やイントネーションの訓練が重要であるところ、生徒の発音の練習は、教師との直接指導によってなされことが好ましく、また、効果的でもある。このため発音やイントネーションの学習が高価で、時間的にも制限の多いものとなっている。
【００１２】
また、外国語の会話の学習においては、スムーズな意思の疎通の学習が重要であるところ、従来の学習システムにおいては、リスニングとそれに対する応答を中心としたものであり、会話の内容が固定されており、学習を進めることによる習熟が期待できない。
【００１３】
本発明は、上記課題を解決するためになされたものであり、直接教師との対話による学習システムに近い、内容が固定されない自由な会話を自己学習により、安価に実現するものであり、時間の制約を受けず都合のよい時間に学習ができる外国語会話練習システムを提供する。
【課題を解決するための手段】
【００１４】
前記した目的を達成するために、本発明に係るコンピュータを利用した外国語会話練習システムは、サーバーコンピュータとクライアントコンピュータとが通信回線を介して接続されたサーバークライアントシステムにおいて、
前記クライアントコンピュータには、音声認識部と音声再生部と表示部とを含んでいて、前記サーバーコンピュータには、人工知能部と音声合成部とを含んでいて、前記音声認識部は、話者の音声を電気信号に変換するマイクと、当該マイクからの電気信号を音声データに変換する音声入力部と、当該音声入力部からの音声データを文字情報である入力文に変換する音声分析部とを含んでいて、前記人工知能部は、前記話者に対する応答者を模擬して応答文を生成する部分であって、当該応答者の特性を記述した特性値テーブルを有していて、前記音声認識部から前記通信回線を介して入力された入力文から前記特性値テーブルに基づき応答文を自動的に生成する応答文生成部とを有していて、前記音声合成部は、前記応答文生成部で生成された応答文を音素データに変換する文字音素変換部を含み、前記音声再生部は、前記音声合成部から前記通信回線を介して送信される音素データを可聴音声に変換して出力し、前記表示装置は、音声認識部からの入力文および前記応答文生成部からの応答文を表示してなる。
【００１５】
この構成によれば、インターネットを介して接続されたサーバーコンピュータ（以下、サーバーと称す）とクライアントコンピュータ（以下、クライアントと称す）が協働して外国語会話の練習システムを構築してなる。話者である生徒はクライアントに接続されたマイクに向かって喋り、その内容は入力文として文字情報に変換される。ここにいう入力文は人工知能部に対する入力という意味である。話者である生徒からの入力文に応答して、もしくはあらかじめ定められた手順に応じて、サーバーが応答者となり生徒との会話を行う。したがって、自動的に応答文を生成するとは人手を介さずにプログラムにより応答文を生成するという意味である。
【００１６】
人工知能部はサーバーに内蔵されたプログラム実行することにより機能する。当該人工知能部は、サーバー上に擬人化した応答者（以下、教師もしくはロボットと称することがある）であり、生徒の入力文に応答したり、生徒との間で適宜質問を発したりすることにより会話を進める。人工知能部の記憶装置には、応答者の特性を記載した特性値テーブルがデータベースとして収納されている。つまり特性値テーブルは、応答者に付随したデータといえる。
【００１７】
応答者の応答内容は、生徒の入力文とこの特性値テーブルにより、応答文生成部で生成される。もっとも、応答者が会話のきっかけを作って会話を進める形式においては、応答者はあらかじめ定められた手順により質問を発することとなる。
【００１８】
なお、以下、サーバーコンピュータはサーバーパソコンとクライアントコンピュータはユーザーパソコンと称されることもある。
【００１９】
（ＣＬ２）本発明に係るコンピュータを利用した外国語会話練習システムは、前記応答文生成部において、応答文の候補であるテンプレートが会話の分野を定めるカテゴリー毎に用意されていて、前記カテゴリーの選定が前記入力文に含まれるキーワードによりなされることが好ましい。
【００２０】
この構成によれば、応答者の応答内容は、テンプレートとしてあらかじめ用意されていて、このテンプレートは応答内容の共通性に基づきカテゴリー毎に分類されている。このような２層構造を有しているので、適切な応答文の生成がスムーズに行うことが可能となる。カテゴリーの選定は入力文に含まれるキーワードによりなされ、キーワードは人工知能部のデータベースとして記憶装置に収納されている。
【００２１】
（ＣＬ３）本発明に係るコンピュータを利用した外国語会話練習システムは、前記テンプレートには変数を有するものが含まれていて、当該変数の値が前記特性値テーブルから求められてなることが好ましい。
【００２２】
この構成によれば、テンプレートには変数が含まれていてもよく、その変数の取りうる値が特性値テーブルに基づき定められてもよい。テンプレートは応答文もしくは応答文と変数により構成されていてもよい。
【００２３】
（ＣＬ４）本発明に係るコンピュータを利用した外国語会話練習システムは、前記特性値テーブルが複数あり、当該特性値テーブルが前記クライアントコンピュータにおいて選択可能になっていることが好ましい。
【００２４】
この構成によれば、サーバー上において擬人化された応答者は複数存在していてもよい。応答者をクライアントにおいて選択することにより、応答文生成部において用いられる特性値テーブルが定まることとなるので、応答文の内容が特性値テーブルの特性値に応じて異なることとなる。
【００２５】
（ＣＬ５）本発明に係るコンピュータを利用した外国語会話練習システムは、前記話者との応答に基づき、特性値テーブルもしくはテンプレートの内容が追加修正されてなることが好ましい。
この構成によれば、話者の入力文を新たにテンプレートとして追加したり、入力文に応じて特性値テーブルの内容を修正もしくは追加する。
【００２６】
（ＣＬ６）本発明に係るコンピュータを利用した外国語会話練習システムは、前記表示装置には、応答文の音声出力に合わせて表情が変化するアバターが表示されることが好ましい。
【００２７】
この構成によれば、アバターはウエブ上で自分の分身となるキャラクターであって、視覚的に応答者を表現する。アバターは音声出力に合わせて口が動くが、目やその他の表情が変化してもよい。アバターは画像情報として人工知能部のデータベースに収納されていてもよい。
【００２８】
（ＣＬ７）本発明に係るコンピュータを利用した外国語会話練習システムは、学習の内容が複数用意されていて、いずれの学習内容を選定するかが前記クライアントコンピュータにおいて選択可能であることが好ましい。
【００２９】
この構成によれば、会話練習の他、リスニング練習、発音練習または単語ビルダーもしくはフレーズビルダーの練習を行うことができる。
【００３０】
（ＣＬ８）本発明に係るコンピュータを利用した外国語会話練習システムは、システムに対する指示入力がマウスやキーボードの他、前記マイクを通じた音声により行えることが好ましい。
【００３１】
この構成によれば、学習の繰り返しや終了のみならず、音声入力のやり直しをキーボード等を使用せずに直接音声により行うことができる。
【００３２】
（ＣＬ９）本発明に係るコンピュータを利用した外国語会話練習システムを収納した記録媒体は、音声認識部と、音声再生部と、表示部と、人工知能部と、音声合成部とを含んでいて、前記音声認識部は、前記話者の音声を電気信号に変換するマイクと、当該マイクからの電気信号を音声データに変換する音声入力部と、当該音声入力部からの音声データを文字情報である入力文に変換する音声分析部とを含んでいて、前記人工知能部は、前記話者に対する応答者を模擬して応答文を生成する部分であって、当該応答者の特性を記述した特性値テーブルを有していて、前記音声認識部から前記通信回線を介して入力された入力文から前記特性値テーブルに基づき応答文を自動的に生成する応答文生成部とを有していて、かつ、前記応答文生成部において、応答文の候補であるテンプレートが会話の分野を定めるカテゴリー毎に用意されていて、前記カテゴリーの選定が前記入力文に含まれるキーワードによりなされ、かつ、前記テンプレートには変数を有するものが含まれていて、当該変数の値が前記特性値テーブルから求められてなり、かつ、前記特性値テーブルが複数あり、当該特性値テーブルが前記クライアントコンピュータにおいて選択可能になっていて、前記話者との応答に基づき、特性値テーブルもしくはテンプレートの内容が追加修正されてなり、前記音声合成部は、前記応答文生成部で生成された応答文を音素データに変換する音声変換部を含み、前記音声再生部は、前記音声合成部からの音素データを音声発生器から可聴音声信号として出力して、前記表示装置は、音声認識部からの入力文および前記応答文生成部からの応答文を表示してなる。
【発明の効果】
【００３３】
本発明は、上記解決手段により、直接教師との対話による学習システムに近い、内容が固定されない自由な会話を自己学習より、安価に実現するものであり、学習時間に制約を受けない外国語会話練習システムを提供する。
【図面の簡単な説明】
【００３４】
【図１】本発明の実施形態にかかる外国語会話練習システムの概略構成図である。
【図２】本発明の実施形態にかかる外国語会話練習システムの処理の全体の流れを示すフローチャートである。
【図３】人工知能部における応答パターンを場合に分けて示すフローチャートであって、（ａ）はロボットの質問に対するユーザーの応答パターを示すフローチャートである。（ｂ）（ｃ）は、ユーザーの質問に対するロボットの応答パターンを示すフローチャートである。
【図４】人工知能部の記憶装置に収納されている人工知能データベースのファイル構造の一部を示す図面である。
【図５】ロボットの特性を記述した特性値テーブルの構造と特性値テーブルの一例を示す図面である。
【図６】外国語会話練習システムの動作における表示装置に表示される学習内容を選択するメニュー画面の一例を示す説明図である。
【図７】会話レッスンの相手のロボットを選択するときに表示装置に表示されるロボット選択画面の例である。
【図８】会話レッスン時におけるロボットの仕様を説明するための図面である。
【図９】会話レッスン時における表示装置に表示される画面の一例を示す説明図である。
【図１０】会話レッスン時における表示装置に表示される画面の別の例を示す説明図である。
【図１１】単語ビルダーにおける表示装置に表示される画面を説明する初期図面である。
【図１２】リスニングドリルにおける表示装置に表示される画面を説明する図面である。
【図１３】マッチングドリルにおける表示装置に表示される画面を説明する図面である。
【図１４】人工知能部における処理を説明するための図面である。
【発明を実施するための形態】
【００３５】
以下、本発明に係る実施形態を図面に従って英会話を例に取り説明するが、本発明はこの実施形態に限定されるものではなく、他の外国語であってもよく、また、母国語は日本語以外の言語であってもよい。
【００３６】
図１は、本発明の実施の形態に係る外国語会話練習システム１の構成例を示すブロック図である。外国語会話練習システム１は、大別してユーザーパソコン２とサーバーパソコン３とから構成されている。ユーザーパソコン２は、マイク１０、表示装置１１、スピーカー１２、再生部１７および音声認識部６とを有している。サーバーパソコン３は、人工知能部７と音声合成部８とから構成される。そして、ユーザーパソコン２とサーバーパソコン３とは通信回線４を介して接続されている。
【００３７】
ユーザーパソコン２において、マイク１０とスピーカー１２の代わりに、これらを一体化したヘッドセットを用いることができる。また、図示しないマウスやキーボードなどの入力装置を備えている。ユーザーパソコン２とサーバーパソコン３とは通信回線４を介してインターネットを利用してＷＥＢ接続されている。
【００３８】
音声認識部６は、音声入力部１３、音声識別部１４、入力文出力部１５および記憶装置１６とを備えている。音声認識部６は、マイク１０を通して入力された音声信号をコンピュータで解析して、発話内容を文字データに変換する音声認識処理を司る。
【００３９】
音声認識部６の音声入力部１３は、マイク１０から入力された音声のアナログ信号に対して微小な時間単位ごとにサンプリングを行い、アナログ・デジタル変換して波形振幅の時間系列のデジタル信号に変換処理を行い次段の音声分析部１４に送る。なお、マイク１０から入力された音声信号はＷＡＶファイルに変換されて記憶装置１６に保存される。保存（録音）したＷＡＶファイルは適宜再生をすることにより、学習の確認や復習に役立たせることが可能となる。
【００４０】
音声分析部１４における処理は、大別して音響モデルと、単語辞書、言語モデルで構成されていている。音響モデルは、音声入力部１３が出力したデジタル音声信号を入力として、デジタル音声信号をＦＦＴ（高速フーリエ変換）分析を適用することによって音素の周波数の時間変化を分析し、発声された音素の特徴データを抽出する。続いて、認識結果などと対応付けた形で予め辞書として用意している音素の標準パターンまたはその系列と、抽出した特徴データとを、ＨＭＭ（隠れマルコフモデル）手法を用いて比較照合し、発声内容の認識候補を生成する。言語モデルは、日本語の文章であるという制約を表す確率モデルであって、次に発声されうる単語を予測して、最も確からしさを表す尤度に基づき候補を推定選択することによって、発声内容を認識する。手法としては、単語Ｎグラムとして知られたモデルを使用する。具体的には単語３グラムが用いられている。
【００４１】
単語辞書は、各単語もしくはフレーズの読みを音素の特徴データとして定義しており、データベースとして記憶装置１６に収納されている。単語辞書の作成に当っては、男女３０人の日本人がそれぞれ８時間かけて録音した「日本人発音モデル」をベースに、日本人特有の発音（音素の組み合わせ）を認識できるようにしており、単語数は習得レベルに応じて初級者用は１２００語、中級者用は４４００語、上級者用は１２０００語とした。
【００４２】
入力文出力部１５は、音声分析部１４で処理された発話内容を文字情報（入力文）として受け取り、これを通信回線４を介してサーバーパソコン３に出力する。更に、表示装置１１に入力文を表示可能にする。これにより、外国語会話練習システム１を使用する話者（生徒）は、自分が話した言葉がシステムに正常に認識されたか否かを確認することが可能となる。
【００４３】
人工知能部７は、入力文入力部２０、入力文解析部２１、応答文生成部２２および記憶装置２３とを備えている。入力文入力部２０は、ユーザーパソコン２から送られてきた話者の会話内容を文字情報（入力文）として受取り次段の入力文解析部２１に送る。
【００４４】
入力文解析部２１は、入力文に含まれるキーワードを検索して、キーワードに基づき会話内容のカテゴリーを決定する。キーワードは、人工知能データベースとして記憶装置２３にキーワードテーブルとして保存されていて、各キーワードはその属性としてカテゴリーの情報（具体的にはカテゴリーコード）を有している。
【００４５】
入力文、キーワードおよびカテゴリーコードは応答文生成部２２に送られて、応答文が生成される。応答文は、話者（生徒）に対する会話の相手であってコンピュータ上で擬人化された応答者（教師）の発話内容を表す。応答文生成部２２では、送られてきたカテゴリーコードを元に、当該カテゴリーに属するテンプレートを選定して応答文を生成する。このとき選定されたテンプレートに変数がある場合は、当該変数の値を記憶装置２３にデーターベースとして収納されている特性値テーブル３５からその変数に対応する値を取り出して、テンプレートに代入して応答文を完成させる。
【００４６】
人工知能部７で生成された応答文は音声合成部８に送られて、音声信号に変換されて通信回線４を介してユーザーパソコン２に送られる。すなわち、応答文は応答文入力部２４を介して文字音素変換部２５に送られて、応答文の文字単位で音素データに変換される。そして、文字音素変換部２５において文字音素変換された応答文は、音声出力部２７においてデジタル音声信号に変換されて、セグメントに分割されて、通信回線４を介してユーザーパソコン２に送られる。音声信号を送る代わりに、ｍｐ３形式のファイルに変換してユーザーパソコン２でダウンロード可能としてもよい。
【００４７】
サーバーパソコン３からの音声信号は、ユーザーパソコン２の再生部１７でインピーダンス変換されてスピーカー１２から音声出力される。なお、ｍｐ３形式等の符号化された形式で音声信号が送られてくる場合は、再生部１７で変換処理される。
【００４８】
また、応答文は表示装置１１に文字情報として表示してもよく、この場合は、図示が省略されているが、応答文生成部２２で生成された応答文は、通信回線４を介して表示装置１１に送られる。
【００４９】
本発明の実施の形態に係る外国語会話練習システム１において、その処理を図２に示すフローチャートにより説明する。
【００５０】
ステップ１（Ｓ１）において、ユーザーである話者の発話の有無が判断される。発話がある場合は、ステップ２（Ｓ２）に移行し、発話がない場合はステップ９（Ｓ９）にて一定時間以上発話がないかどうか判断され、ステップ５（Ｓ５）に移行する。
【００５１】
ステップ２（Ｓ２）において、ユーザーの発話内容を音声認識部６の音声入力部１３にて音声データに変換する。
【００５２】
ステップ３（Ｓ３）において、音声データを文字情報（テキスト）に変換して音声認識結果を入力文として出力する。
【００５３】
ステップ４（Ｓ４）において、入力文の構造を文法的に構文解析する。
【００５４】
ステップ５（Ｓ５）において、パターンマッチングにより条件を満たすテンプレートをテンプレートマッチングにより選択する。
【００５５】
ステップ６（Ｓ６）において、選択された規則によって応答文（テキスト）を生成する。
【００５６】
ステップ７（Ｓ７）において、応答文を音声データに変換して、スピーカー１２を通じて出力する。
【００５７】
ユーザーが終了を指示しないのであればステップ２（Ｓ２）に戻る。
【００５８】
なお、ステップ９（Ｓ９）において、ユーザーが一定時間以上発話がない場合は、ステップ５（Ｓ５）において、ユーザーに対する質問となる規則を選択する。この場合は、ステップ６（Ｓ６）において、ユーザーに対する質問と応答文が生成される。一般に外国語の学習において、ユーザーである生徒は往々にして返答に窮することがある。このような場合でも、会話を中断させることなく、学習を進めることを可能にしている。また、会話をサーバーの応答者（教師）から始めたい場合は、ステップ９（Ｓ９）のような処理工程を設けることは学習の効果から好ましい。
【００５９】
生徒（ユーザー）と教師（サーバー）の会話のパターンの一例を図３に示す。図３（ａ）は、教師が質問を出し、それに生徒が応答して、生徒の質問にたいして教師が応答する典型的な生徒と教師の会話パターンである。すなわち、
【００６０】
教師（ここではIsabelle）が、先ず、質問を出す。
(S111) Isabelle: What is one of your bad habits?
【００６１】
これに対して生徒（ここではHuman）が応答すると共に教師に対して質問をする。
(S112) Human: I have no bad habits. Do you have bad habits?
【００６２】
生徒の応答に対して教師が応答した後、生徒の質問に対して回答をする。教師の応答は２つの文からなっている。
(S113) Isabelle: Why not? No, I don’t think I have any bad habits.
【００６３】
教師の応答に対して、生徒が応答しない場合がある。
Human: ( no reply )
【００６４】
一定時間以上、生徒からの応答（発話）がなければ、会話を継続するために教師の方から生徒に対して質問をする。
(S113) Isabelle: What drink goes well with pizza?
【００６５】
教師の質問に対して、生徒が応答する。
(S114) Human: coke does.
【００６６】
図３（ｂ）は、生徒が質問を出して会話が始まるケースの会話パターンである。すなわち、生徒が教師に質問をする。
(S121) Human: What is your name?
【００６７】
これに対して教師が応答を返す。
(S122) Isabelle: My name is Isabelle.
【００６８】
教師の応答に対して、生徒は更に質問を続ける。
(S123) Human: How old are you?
【００６９】
生徒の質問に対して、教師が応答する。
(S124) Isabelle: I’m 28 years old.
【００７０】
ここで生徒は教師の名前や年齢を尋ねているが、教師の応答文生成に際しては、その教師（ここではIsabelle）の特性値テーブル３５を参照して、その名前や年齢を求める。したがって、会話の相手となる教師が異なれば、異なった応答文が生成されることとなる。
図３（ｃ）は、生徒が質問を出して会話が始まる別のケースの会話パターンである。すなわち、
生徒が教師に質問をする。
(S131) Human: Are you single?
【００７１】
これに対して教師が応答を返す。
(S132) Isabelle: Yea, I am single at the moment.
Human: ( no reply )
【００７２】
一定時間以上、生徒からの応答（発話）がなければ、会話を継続するために教師の方から生徒に対して質問をする。
(S132) Isabelle: When was the last time you ate at a family restaurant?
【００７３】
これに対して生徒が応答を返し、その後に質問を出す。
(S133) Human: It was two days ago. Do you often go out to eat?
【００７４】
生徒の質問に対して教師が応答を返す。
(S134) Isabelle: Right. I suppose it was. I spend all my time at work, home or with my friends.
【００７５】
サーバーパソコン３の人工知能部７におけるファイル構造を図４を用いて説明する。人工知能部７にはカテゴリーファイル３１、単語ファイル３２および文法ファイル３３から構成されるマッチングファイル３０がデータベースとして記憶装置２３に格納されていて、データが必要なときはその都度記憶装置２３からメインメモリ（図示せず）に読み出されて処理される。
【００７６】
カテゴリーファイル３１には、食べ物、スポーツ、音楽、日本、旅行、映画等の会話のジャンル別にカテゴリーがカテゴリーコードと共に設けられている。そして、カテゴリーファイル３１には、応答文の生成のベースとなるテンプレートが保存されていて、会話のカテゴリーが定まれば、カテゴリーファイル３１のテンプレートを基にして応答文が生成される。
【００７７】
会話のカテゴリーにおいて特徴的なキーワードとなる単語はキーワード、カテゴリーファイル３１に付属するテーブルの形で記憶装置２３に格納されている。
【００７８】
また、カテゴリーファイル３１にはこれにリンクするかたちで単語ファイル３２が設けられており、カテゴリー毎に使用される単語およびフレーズが単語ファイル３２に収納されている。
【００７９】
文法ファイル３３は、入力文の構文解析を行うときに用いられ、カテゴリーに依存しない汎用性のあるテンプレートから成り立っている。
【００８０】
話者の入力文が受取ると応答文生成部２２は、入力文に含まれるキーワードをパターンマッチングにより探して、キーワードに対応するカテゴリーを選定する。同時に構文解析により文法ファイル３３から、入力文に対応したテンプレートを選定する。複数のテンプレートの候補が見つかれば、最初に該当したテンプレートを用いて応答文を生成する。
【００８１】
図５は応答者（教師）の特性を記述する特性値テーブル３５の構造と記載例を示す表である。応答者（教師）はロボットと称することもある。すなわちユーザーである生徒はコンピュータの中に実現された英会話ロボットと話すことになり、この英会話ロボットが人工知能を有しているということができる。
【００８２】
ロボット（応答者）は複数いて、どのロボットと会話をするかはユーザー（生徒）が自由に選ぶことができる。図５に示すようにロボットはコード番号でシステム上識別されており、一方、生徒とのインターフェースはニックネームもしくは氏名を用いる。また担当分野の欄には、そのロボットの機能（守備範囲）が記述されていて、生徒が学習を始める際のロボットの選定に資することができる。図５の項目の欄は例示であり図５に示したもの以外のもの、例えば、家族の有無やペットの名前等があってもよい。生徒との会話を通じて、項目を増やしてもよい。特性値テーブル３５はデータベースとして記憶装置２３に収納されている。
【００８３】
ユーザーパソコン２において本発明の実施形態に係る外国語会話練習システム１を立ち上げたとき、表示装置１１にメニュー選択画面が表示される。メニュー選択画面を図６に示す。生徒はメニュー画面に表示されたメニューをマウスでクリックして選択することにより、希望した学習に進むことができる。すなわち、
【００８４】
（１）単語ビルダー；会話のための必須単語１２００語に加え、中級、上級まで、合計４０００語が収録されており、会話を円滑にするための単語・熟語ドリルが１５００問題収録されている。
（２）発音練習；音声認識機能を使って発音練習をすることにより、生徒の発音が適正かどうか判断できるツールを提供する。日本人の発音はそれほど悪くないが、日本人の悪い癖は、子音に母音を添えてしまうこと、すなわち、カタカナ読みをしてしまうことである。発音は、音の位置や口の形で学べるものではなく、それはあくまでも結果論であって、要するに正しい音が出ればいいのである。発音練習を行うことによりロボットとの会話はよりスムーズにすることができるようになる。
（３）会話レッスン；会話の実践をロボットたちがする。ここで、会話の仕方を習います。初級、中級、上級、各１５レッスンが収録されている。
（４）リスニングドリル；聞き取りも会話の重要な一部。
（５）マッチングドリル；写真を見て情況の理解度を図る。計５００問題を収録されている。
【００８５】
「会話レッスン」を選択した場合について、先ず説明して、その後に他のメニューを選択した場合について説明する。「会話レッスン」を選択した場合、次に会話の内容を選択する。すなわち、会話の相手となるロボットを選択することにより、会話のジャンルを選定する。
【００８６】
（１）自由会話ロボット − 人間と同じように話す。
（２）質疑応答ロボット − ロボットが質問をし、生徒が答える。また、生徒が同じ質問をロボットにし、ロボットが答える。
（３）トリビアロボット − ロボットが、レベルで分けた雑学の質問をし、生徒が答える。ロボットは、正解か不正解かを評価する。
（４）状況ロボット − レストラン、スーパー、空港などの特定の場所での会話練習のために、話題を絞ったロボット。
【００８７】
図７にロボットの選択画面を示す。生徒は好きなロボットを選んで画像をマウスでクリックして選択すれば、そのロボットとの学習が始まる。各ロボットにはその特性を記述した特性値テーブル３５が付随しており、特性値テーブル３５の「担当分野」の記述によりロボットの機能が定まり、学習内容が決まることとなる。
【００８８】
図８に各ロボットの機能の一覧を示す。特性値テーブル３５と合わせて、図８の表がロボットの仕様を規定する。
【００８９】
図９と図１０に会話レッスン中に表示装置１１に表示される画面の例を示す。図９において、表示画面４０の最上部のヘッダー４８にはロボットの名前が表示される。図９ではKate Livingstonと表示されている。アバター画面４１にはロボットのアバターが表示され、会話中におけるロボットの表情がアニメーション表示される。例えば、喋っているときは、発話に応じて口やあごが動き、質問されたときは目が少し上に移動するなどの表情をとる。生徒のヘッドセットに加速度センサーを取り付けておいて、生徒の顔の動きに合わせてロボットの視線なり顔の向きを変更して表示してもよい。
【００９０】
生徒の発話内容であって音声認識部において認識された入力文がユーザー発話表示ボックス４２に文字表示される。ユーザー発話表示ボックス４２の表示により、生徒は自分が喋った内容が外国語会話練習システム１に正しく認識されたかどうか知ることができる。生徒は明瞭な発音を心がけなければならないし、周囲の環境も雑音の少ないことが望まれる。不明瞭な発音や周囲の雑音は正しい音声認識の妨げとなる。ユーザー発話表示ボックス４２に表示された内容が、自分が喋った内容でないときは、マウス等の指示入力により生徒の発話を取り消して再チャレンジすることができる。マウス等の指示入力の代わりに“なし”と音声によりシステムに指示を与えることができる。なお、ロボットから会話を始めた場合は、ロボットの発話内容がユーザー発話表示ボックス４２に表示される。
【００９１】
ロボットの発話内容は、ロボット発話表示ボックス４３に表示される。ロボットの発話内容の日本語訳が必要なときは、翻訳ボタン４４をクリックすれば翻訳文表示ボックス４５に日本語による翻訳文が表示される。
【００９２】
アバター画面４１の右には学習アシストボタン４６とアシスト表示ボックス４７が表示される。学習アシストボタン４６には、ロボットの会話のルールを示す「ルール」と、これまでの会話内容を示す「会話記録」と、日常会話においてよく使う表現を表示する「よく使う表現」のボタンが用意されている。図９においては「ルール」が選択された場合におけるアシスト表示ボックス４７に表示される内容の例が示されている。「会話記録」を選択すれば、これまでの会話のログが時間経過と共に学習アシストボタン４６とアシスト表示ボックス４７に表示される。
【００９３】
図１０は図９とは異なるロボットにおける会話レッスン時の表示画面であって、学習アシストボタン４６で「よく使う表現」が選択された場合のアシスト表示ボックス４７の表示内容が示されている。
【００９４】
次に本発明の実施形態に係る外国語会話練習システム１における生徒とロボットの会話の進め方について説明する。すなわち、生徒の質問がどういう経路で、人工知能部７に届き、また、どういう経路で人工知能部７からユーザーパソコン２に戻ってくるのかを説明する。
【００９５】
生徒がマイク１０に向かって“What is your name？”と言ったとする。その音声は、まず、ユーザーパソコン２の中の音声認識部６で文字に変換されて入力文となる。入力文は、通信回線４を通って、サーバーコンピュータ３の中に存在する人工知能部７に伝えられる。そして、ロボットが“My name is Ben．”と文字で答えると、今度はその文字が応答文として音声合成部８に送られ、そこで音信号声に変わり、通信回線４を通って、ユーザーパソコン２に戻り、スピーカー１２から“My name is Ben．"と返事が聞こえてくる。
【００９６】
疑問文（when, where, who, what, which, how）などの疑問詞や、(do, does, is, are, was, were, will etc.)などの助動詞が主語の前に来る場合、入力文は疑問文のカテゴリーに属すると判断される。したがって、“What is your name？”に対する応答文は、人工知能部７において疑問文と解釈されて、疑問文のカテゴリーに属するテンプレートから選ばれる。
【００９７】
<category>
<pattern>WHAT IS YOUR NAME</pattern>
<template>My name is Ben.</template>
</category>
【００９８】
疑問文のカテゴリー<category>からパターンマッチングで一致する<pattern>が探索される。このとき大文字と小文字の区別を無視して、What is your nameと一致するパターンを探す。ここで、<pattern>にはワイルドカードを用いて、WHAT IS YOUR * として、"what is your name" にも "what is your shoe size" にも "what is your purpose in life" にもマッチするようにすればアルゴリズムの単純化を図ることができる。
【００９９】
ここでは、WHAT IS YOUR NAMEに一致したテンプレート <template> My name is Ben.</template>
が応答文として選ばれる。人の名前は会話の相手が変われば変わるものであるので、テンプレートに変数を記載することにより、テンプレートの数を減らすことができるし、会話の内容に柔軟性を持たせることができる。例えば、テンプレートを
【０１００】
<template>My name is <bot name="name"/>.</template>
として、名前を変数とする。変数であるbot nameは、特性値テーブル３５から該当する特性値を代入して応答文を生成する。ロボットのコード番号が１０１であれば、図５より、"name"の特性値であるBenが代入されて、My name is Benと応答することになる。
テンプレートでは記述言語を使用することができ、条件付応答（if-then/else）も設定できる。更に、テンプレートで srai という要素を使って他のパターンにリダイレクトすることができる。これは、意味が同じで表現が異なる場合に対応する。以下に例を示す。
【０１０１】
<category>
<pattern>WHAT IS YOUR NAME</pattern>
<template>My name is <bot name="name"/>.</template>
</category>
<category>
<pattern>WHAT ARE YOU CALLED</pattern>
<template>
<srai>what is your name</srai>
</template>
</category>
【０１０２】
最初のカテゴリーは単に "what is your name" という質問に答えている。次のカテゴリーでは "what are you called" と入力されたときに "what is your name" と入力されたときと同じ応答をするように指定している。つまり、この２つの文はsariでシステムでは等価に扱われ、同じ応答文が生成される。
【０１０３】
次に図１４を用いて、人工知能部における会話の処理過程を説明する。なお図１４は、図４に示す人工知能部７のファイル構造と関連している。
生徒の入力文が「What kind of music do you like?」であるとき、キーワードを用いたパターンマッチングにより、この会話のカテゴリーは「music」と判断する。そして、入力文の文頭の「what」は疑問文を示すので、目的語を形成する。英語の文章にはＳＶＯとＳＶＣの二通りがあり、疑問文の場合、Whatは目的語になる。
【０１０４】
応答文生成に際して、「you like」は「I like」と自動的に変換される。したがって「I like (what)」が出力の応答文形となり、whatの部分に相当する部分はmusic (country, rock, classic, soft, modern)の中から選択されることとなる。会話相手のロボットがIsabelleであれば、図５に示すキャラクターテーブルから求めた「classic」がwhat部分に代入され、応答文として「I like classic music.」が生成される。
【０１０５】
別の応答例について、以下に説明する。
たとえば、入力文が「I really love pigeons.」であったとすると、人工知能部７は、文章のなかの単語を１つづつマッチングさせていゆき、もっとも近いパターンを探し、単語を個別にチェックする。
S: (I*~like*_~birdrelated) I like’_o, too. *は wild card
ステップ１：Ｉ(I, my, me, myself, mine) が一番初めに来ている。
ステップ２：ワイルドカードは無し。
ステップ３： ~like (love, favor, prefer) love はlikeの同意語でマッチ。そして、Ｉの後に来ている。
ステップ４：ワイルドカードは無し。
ステップ５： ~birdrelated (chicken, sparrow, eagle, pigeon, ……) 鳥の範疇にマッチする。
これで全てがマッチしたので、出力は I like _0, too. のパターンを使い、I like pigeons, too. と応答文が生成される。なお、０はワイルドカードがないという意味である。
【０１０６】
入力、出力の順序のバリエーションは、ルールとして、同じトピックの中で、ロボットからの質問がランダムに出るようになっている。生徒からの発話がない場合や話題がない場合は、ロボットから質問を出して会話を進める。
【０１０７】
一般に外国語学習において、特に日本人の場合は、生徒が自分から質問することは少ないので、ロボットの方から積極的に質問するように作っている。例えば生徒がI am tired. といえば、 What did you do today? とか、 Did you have enough sleep? といった質問を出力するようになっている。
【０１０８】
次に「会話レッスン」以外を選択した場合について説明する。
図６に示したメニュー画面において、「単語ビルダー」を選択した場合、ＳＧ単語ビルダー（商標）が起動して図１１に示す画面が表示装置１１に表示される。ＳＧ単語ビルダーには４０００語の単語が用意されていて、各単語は図１１において升目で示す方形のタイルに対応している。タイルをマウスでクリックして選択することにより、画面中央に問題となる単語（図では“ｆｌａｒｅ”）が表示されるとともに“ｆｌａｒｅ”が読み上げられてスピーカー１２から聞こえるようになっている。“ｆｌａｒｅ”の下方には、その日本語訳の候補が表示される（図では“案内係”、“文学”、“容疑者”、“ゆらめく炎、すそ広がり”）。生徒は日本語訳として適切と思える候補をマウスでクリックをして選択する。生徒の選択が正しければ、Ｃｏｒｒｅｃｔと画面に表示されると共にスピーカー１２を通じて発音される。
【０１０９】
正解するとタイルの色は青（図では黒）から赤（図では白）に変わり、画面の左下に「あなたの単語力」は１増加して（図では１０）、画面右下の「知らない単語」は１減少する（図では３９９０）。画面の表示は保存されるので、次回はその続きを学習することができる。
【０１１０】
メニュー画面において、「発音練習」を選択した場合は、図９や図１０の画面が表示されて、ユーザー（生徒）は自分の発話内容が正しく音声認識システムに認識されているかどうか知ることができて発音練習をすることができる。ただし「発音練習」において、ロボットは応答することなく、生徒は例えば”次ぎ”もしくは“なし”とシステムに音声で指示をすれば、発音練習を繰り返すことができる。
【０１１１】
メニュー画面において「リスニングドリル」を選んだ場合は、図１２に示す画面が表示される。画面の左上には絵が表示され（図１２では写真）、スピーカー１２から“What is the main job of this person?”と音声出力がなされる。写真の下方には選択肢が表示される（図では“cutting”、“building”、“counting”、“designing”）。生徒が選択肢をマウスでポインタすれば、選択肢が読み上げられる。マウスでクリックして選択すれば、それが正しければＣｏｒｒｅｃｔと画面に表示されると共に音声出力され、右側に表示したＫＯＮＧがビルを１段階分だけ登る。
【０１１２】
生徒が回答をしないと、問題文が再度読み上げられ、数回読み上げが行われた後に問題文（ここでは“What is the main job of this person?”）が写真の下方に表示される。
【０１１３】
画面左下の「ＮＥＸＴ」をマウスでクリックするか“次ぎ”と発話指示することにより、次の問題に進む。
【０１１４】
メニューにおいて「マッチングドリル」を選んだ場合は、図１３に示す画面が表示される。問題文が読み上げられると共に問題文が表示される（ここでは“Do you have a car?”）。これに対して生徒が４つの選択肢から、もっとも適切と思える解答をマウスで選択する。そうするとその解答が読み上げられ、正解であれば「正解」と画面に表示される。
【０１１５】
五目並べゲームであって、質問に正解すると赤い石（図では白）が点灯し、不正解であると青い石が（図では黒）が点灯する。ゲームの勝敗の数が画面下方に表示される。内容の理解とリスニング学習に役立つ。
【産業上の利用可能性】
【０１１６】
本発明のコンピュータを利用した外国語会話練習システムによれば、外国語の会話の独習が安価で簡易に行うことができ、外国語の学習に有用である。
【符号の説明】
【０１１７】
１外国語会話練習システム
２ユーザーパソコン
３サーバーパソコン
４通信回線
６音声認識部
７人工知能部
８音声合成部
１０マイク
１１表示装置
１２スピーカー
１３音声入力部
１４音声分析部
１５入力文出力部
１６記憶装置（音声認識データベース）
２０入力文入力部
２１入力文解析部
２２応答文生成部
２３記憶装置（人工知能データベース）
２４応答文入力部
２５文字音素変換部
２６音声データ照合部
２７音声出力部
２８記憶装置（音声データベース）
３０マッチングファイル
３１カテゴリーファイル
３２単語ファイル
３３文法ファイル
３５特性値テーブル
４０表示画面
４１アバター画面
４２ユーザー発話表示ボックス
４３ロボット発話表示ボックス
４４翻訳ボタン
４５翻訳文表示ボックス
４６学習アシストボタン
４７アシスト表示ボックス
４８ヘッダー

【特許請求の範囲】
【請求項１】
サーバーコンピュータとクライアントコンピュータとが通信回線を介して接続されたサーバークライアントシステムにおいて、
前記クライアントコンピュータには、音声認識部と音声再生部と表示部とを含んでいて、
前記サーバーコンピュータには、人工知能部と音声合成部とを含んでいて、
前記音声認識部は、話者の音声を電気信号に変換するマイクと、当該マイクからの電気信号を音声データに変換する音声入力部と、当該音声入力部からの音声データを文字情報である入力文に変換する音声分析部とを含んでいて、
前記人工知能部は、前記話者に対する応答者を模擬して応答文を生成する部分であって、当該応答者の特性を記述した特性値テーブルを有していて、前記音声認識部から前記通信回線を介して入力された入力文から前記特性値テーブルに基づき応答文を自動的に生成する応答文生成部とを有していて、
前記音声合成部は、前記応答文生成部で生成された応答文を音素データに変換する文字音素変換部を含み、
前記音声再生部は、前記音声合成部から前記通信回線を介して送信される音素データを可聴音声に変換して出力し、
前記表示装置は、音声認識部からの入力文および前記応答文生成部からの応答文を表示してなるコンピュータを利用した外国語会話練習システム。
【請求項２】
前記応答文生成部において、応答文の候補であるテンプレートが会話の分野を定めるカテゴリー毎に用意されていて、前記カテゴリーの選定が前記入力文に含まれるキーワードによりなされる請求項1に記載のコンピュータを利用した外国語会話練習システム。
【請求項３】
前記テンプレートには変数を有するものが含まれていて、当該変数の値が前記特性値テーブルから求められてなる請求項1または請求項２に記載のコンピュータを利用した外国語会話練習システム。
【請求項４】
前記特性値テーブルが複数あり、当該特性値テーブルが前記クライアントコンピュータにおいて選択可能になっている請求項1〜３のいずれか１項に記載のコンピュータを利用した外国語会話練習システム。
【請求項５】
前記話者との応答に基づき、特性値テーブルもしくはテンプレートの内容が追加修正されてなる請求項1〜４のいずれか１項に記載のコンピュータを利用した外国語会話練習システム。
【請求項６】
前記表示装置には、応答文の音声出力に合わせて表情が変化するアバターが表示される請求項1〜５のいずれか１項に記載のコンピュータを利用した外国語会話練習システム。
【請求項７】
学習の内容が複数用意されていて、いずれの学習内容を選定するかが前記クライアントコンピュータにおいて選択可能である請求項1〜６のいずれか１項に記載のコンピュータを利用した外国語会話練習システム。
【請求項８】
システムに対する指示入力がマウスやキーボードの他、前記マイクを通じた音声により行える請求項1〜７のいずれか１項に記載のコンピュータを利用した外国語会話練習システム。
【請求項９】
音声認識部と、音声再生部と、表示部と、人工知能部と、音声合成部とを含んでいて、
前記音声認識部は、前記話者の音声を電気信号に変換するマイクと、当該マイクからの電気信号を音声データに変換する音声入力部と、当該音声入力部からの音声データを文字情報である入力文に変換する音声分析部とを含んでいて、
前記人工知能部は、
前記話者に対する応答者を模擬して応答文を生成する部分であって、当該応答者の特性を記述した特性値テーブルを有していて、前記音声認識部から前記通信回線を介して入力された入力文から前記特性値テーブルに基づき応答文を自動的に生成する応答文生成部とを有していて、かつ、
前記応答文生成部において、応答文の候補であるテンプレートが会話の分野を定めるカテゴリー毎に用意されていて、前記カテゴリーの選定が前記入力文に含まれるキーワードによりなされ、かつ、
前記テンプレートには変数を有するものが含まれていて、当該変数の値が前記特性値テーブルから求められてなり、かつ、
前記特性値テーブルが複数あり、当該特性値テーブルが前記クライアントコンピュータにおいて選択可能になっていて、
前記話者との応答に基づき、特性値テーブルもしくはテンプレートの内容が追加修正されてなり、
前記音声合成部は、前記応答文生成部で生成された応答文を音素データに変換する音声変換部を含み、
前記音声再生部は、前記音声合成部からの音素データを音声発生器から可聴音声信号として出力して、
前記表示装置は、音声認識部からの入力文および前記応答文生成部からの応答文を表示してなるコンピュータを利用した外国語会話練習システムを収納した記録媒体。

【図１】