説明

文字入力装置および文字入力方法

【課題】マークアップ情報の設定操作をより少ない負担で行うことができる文字入力装置を提供すること。
【解決手段】キー操作を受け付け、受け付けたキー操作に対応するテキスト情報を出力するキー入力系統部200と、音声の入力を受け付け、入力した音声に対応するマークアップ情報を出力する音声入力系統部300とを有し、キー入力系統部200は、キー操作のタイミングを示すキー操作同期情報を、当該キー操作に対応して出力されるテキスト情報に付加し、音声入力系統部300は、音声の入力のタイミングを示す音声入力同期情報を、当該音声に対応して出力されるマークアップ情報に付加する。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、キー操作によるテキスト情報の入力と、音声によるマークアップ情報の入力とを受け付ける、文字入力装置および文字入力方法に関する。
【背景技術】
【0002】
電子メールを始めとするテキスト情報によるコミュニケーションツールは、その登場以来、非常に広範囲で利用されている。更に、近年では、テキストに対する表示制御の内容を指定する情報(以下「マークアップ情報」という)を付加したテキスト情報をやり取りすることが、頻繁に行われている。マークアップ情報が指定する内容には、例えば、表示の際の文字のサイズ、フォント、および色や、動く絵文字あるいはハイパーリンクへの置き換えが含まれる。
【0003】
マークアップ情報が付加されたテキスト情報(以下、適宜「マークアップ付きテキスト情報」という)は、デスクトップ型あるいはノート型のパーソナルコンピュータなどの装置を用いた場合、比較的容易に作成することができる。
【0004】
ところが、携帯電話機などの小型の装置では、マークアップ付きテキスト情報を作成することが比較的困難である。なぜなら、このような小型の装置では、配置可能なキー数や大きさが制限されており、テキスト情報を入力するためのキー操作およびマークアップ情報を入力するためのキー操作に、時間と手間が掛かるからである。
【0005】
そこで、例えば、特許文献1には、マークアップ付きテキスト情報の作成のための操作の一部を、音声入力により行うようにする技術が、記載されている。
【0006】
特許文献1に記載の技術(以下「従来技術」という)は、入力音声に対する音声認識処理を行い、入力したテキスト情報におけるカーソルの移動の命令を、音声により受け付ける。このような従来技術は、マークアップ情報を付加する位置の指定を、キー操作ではなく音声により受け付けることができるので、その分のユーザの操作負担を軽減することができる。
【先行技術文献】
【特許文献】
【0007】
【特許文献1】特開平10−312265号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
しかしながら、従来技術は、マークアップ情報の入力操作や、マークアップ情報のテキスト情報に対する対応付けの操作(以下「マークアップ情報の設定操作」と総称する)の負担を、十分に軽減することができないという課題を有する。なぜなら、従来技術は、テキスト情報が入力された後に、音声による位置指定入力と、位置指定後のキー操作によるマークアップ情報の入力とを、行わなければならないからである。
【0009】
本発明の目的は、マークアップ情報の設定操作をより少ない負担で行うことができる文字入力装置および文字入力方法を提供することである。
【課題を解決するための手段】
【0010】
本発明の文字入力装置は、キー操作を受け付け、受け付けた前記キー操作に対応するテキスト情報を出力するキー入力系統部と、音声の入力を受け付け、入力した前記音声に対応するマークアップ情報を出力する音声入力系統部とを有し、前記キー入力系統部は、前記キー操作のタイミングを示すキー操作同期情報を、当該キー操作に対応して出力される前記テキスト情報に付加し、前記音声入力系統部は、前記音声の入力のタイミングを示す音声入力同期情報を、当該音声に対応して出力される前記マークアップ情報に付加する。
【0011】
本発明の文字入力方法は、キー操作を受け付けるステップと、受け付けた前記キー操作のタイミングを示すキー操作同期情報を、当該キー操作に対応するテキスト情報に付加するステップと、前記キー操作同期情報が付加された前記テキスト情報を出力するステップと、音声の入力を受け付けるステップと、入力した前記音声の入力のタイミングを示す音声入力同期情報を、当該音声に対応するマークアップ情報に付加するステップと、前記音声入力同期情報が付加された前記マークアップ情報を出力するステップとを有する。
【発明の効果】
【0012】
本発明によれば、マークアップ情報の設定操作をより少ない負担で行うことができる。
【図面の簡単な説明】
【0013】
【図1】本発明の実施の形態1に係る文字入力装置の構成の一例を示すブロック図
【図2】本発明の実施の形態2に係る文字入力装置の構成を示すブロック図
【図3】本発明の実施の形態2におけるマークアップ用認識辞書の内容の一例を示す図
【図4】本発明の実施の形態2におけるマークアップ命令表の内容の一例を示す図
【図5】本発明の実施の形態2における対応ルールの内容の一例を示す図
【図6】本発明の実施の形態2における文字型定義の一例を示す図
【図7】本発明の実施の形態2における文字列の表示状態の一例を示す図
【図8】本発明の実施の形態2におけるマークアップテキストの一例を示す図
【図9】本発明の実施の形態2に係る文字入力装置の動作の一例を示すフローチャート
【図10】本発明の実施の形態2におけるキー操作受付処理の一例を示すフローチャート
【図11】本発明の実施の形態2におけるキー操作開始タイミングの一例を示す図
【図12】本発明の実施の形態2におけるアルファベットテキスト情報の同期情報付きテキスト情報の内容の一例を示す図
【図13】本発明の実施の形態2における仮名テキスト情報の同期情報付きテキスト情報の内容の一例を示す図
【図14】本発明の実施の形態2における漢字仮名テキスト情報の同期情報付きテキスト情報の内容の一例を示す図
【図15】本発明の実施の形態2における音声入力受付処理の一例を示すフローチャート
【図16】本発明の実施の形態2における音声入力開始タイミングの一例を示す図
【図17】本発明の実施の形態2における入力タイミングが付加された読み情報の内容の一例を示す図
【図18】本発明の実施の形態2における入力タイミングが付加された音声タグ情報の内容の一例を示す図
【図19】本発明の実施の形態2における同期情報付きマークアップタグの内容の一例を示す図
【図20】本発明の実施の形態2における同期・自動補正処理の一例を示すフローチャート
【図21】本発明の実施の形態2における音声入力開始タイミングの他の例を示す図
【図22】本発明の実施の形態2の変形例1におけるタグ挿入可能位置および音声入力タイミングの例を示す図
【図23】本発明の実施の形態2の変形例2におけるマークアップ用認識辞書兼命令表の内容の一例を示す図
【図24】本発明の実施の形態2の変形例3におけるマークアップ用認識辞書兼命令表の内容の一例を示す図
【図25】本発明の実施の形態2の変形例3における対応ルールの内容の一例を示す図
【図26】本発明の実施の形態2の変形例3における音声入力開始タイミングおよび音声入力終了タイミングの一例を示す図
【発明を実施するための形態】
【0014】
以下、本発明の各実施の形態について、図面を参照して詳細に説明する。
【0015】
(実施の形態1)
本発明の実施の形態1は、本発明の基本的態様の一例である。
【0016】
図1は、本実施の形態に係る文字入力装置の構成の一例を示すブロック図である。
【0017】
図1において、文字入力装置100は、キー入力系統部200および音声入力系統部300を有する。
【0018】
キー入力系統部200は、キー操作を受け付け、受け付けたキー操作に対応するテキスト情報を出力する。また、キー入力系統部200は、キー操作のタイミングを示すキー操作同期情報を、当該キー操作に対応して出力されるテキスト情報に付加する。
【0019】
音声入力系統部300は、音声の入力を受け付け、入力した音声に対応するマークアップ情報を出力する。また、音声入力系統部300は、音声の入力のタイミングを示す音声入力同期情報を、当該音声に対応して出力されるマークアップ情報に付加する。
【0020】
文字入力装置100は、例えば、CPU(Central Processing Unit)、制御プログラムを格納したROM(Read Only Memory)などの記憶媒体、およびRAM(Random Access Memory)などの作業用メモリを有する。この場合、上述の各機能部は、CPUが制御プログラムを実行することにより実現される。
【0021】
このような文字入力装置100は、テキスト情報にキー操作のタイミングを示すキー操作同期情報を付加してこれを出力し、マークアップ情報に音声入力のタイミングを示す音声入力同期情報を付加してこれを出力することができる。これにより、文字入力装置100は、テキスト情報と音声入力されたマークアップ情報とを、それぞれの入力タイミングに基づいて対応付けることを可能にするので、マークアップ情報の設定操作をより少ない負担で行うことを可能にする。
【0022】
(実施の形態2)
本発明の実施の形態2は、本発明を、XML(Extensible Markup Language)によるマークアップテキストを生成する、スマートホンなどの携帯端末に適用した態様の一例である。本実施の形態において、マークアップ情報は、マークアップタグである。
【0023】
まず、本実施の形態に係る文字入力装置の構成について説明する。
【0024】
図2は、本実施の形態に係る文字入力装置の構成を示すブロック図である。ここでは、各機能部間を伝送される各種情報についても併せて図示する。
【0025】
図2において、文字入力装置100は、キー入力系統部200、音声入力系統部300、および同期・自動補正部400を有する。
【0026】
キー入力系統部200は、キー操作を受け付け、受け付けたキー操作に対応するテキスト情報を、後述の同期・自動補正部400へ出力する。キー入力系統部200は、キー入力部220および文字変換部230を有する。
【0027】
キー入力部220は、例えば、複数の物理的なキースイッチまたはソフトウェアによるキースイッチを有し、文字キーが操作されたとき、対応するテキスト情報を、文字変換部230へ出力する。また、キー入力部220は、テキスト情報の文字変換のための機能キーが操作されたとき、変換操作を示す変換操作情報を、文字変換部230へ出力する。更に、キー入力部220は、テキスト情報の変換確定操作のための機能キーが操作されたとき、確定操作を示す確定操作情報を、文字変換部230へ出力する。なお、キー入力部220は、物理的なキーボードではなく、ソフトウエアキーボードであってもよい。
【0028】
ここでは、キー入力部220は、操作された文字キーに対応するアルファベットテキスト情報を、出力するものとする。なお、アルファベットテキスト情報とは、アルファベットのテキスト情報のみならず、記号のテキスト情報をも含む概念とする。
【0029】
文字変換部230は、キー入力部220から入力されるテキスト情報(以下「変換前テキスト情報」という)に対し、キー入力部220から入力される変換操作情報に従って、文字変換処理を行う。文字変換部230は、キー操作同期情報付加部210を有する。
【0030】
キー操作同期情報付加部210は、変換前テキスト情報が入力されるごとに、そのテキスト情報およびその入力タイミング(時間情報)を記録する。入力タイミングは、例えば、時刻や、基準時刻からの経過時間で表される。そして、キー操作同期情報付加部210は、文字変換処理により得られたテキスト情報(以下「変換後テキスト情報」という)に対して、構成単位ごとに、変換前テキスト情報の入力タイミングを示すキー操作同期情報を付加する。
【0031】
ここで、構成単位とは、テキスト情報を構成する文字の単位である。例えば、アルファベットテキスト情報の構成単位はアルファベット1文字であり、仮名テキスト情報の構成単位は仮名1文字であり、仮名漢字テキスト情報の構成単位は1文節である。
【0032】
すなわち、キー入力系統部200は、変換後テキスト情報にキー操作同期情報が付加された情報である同期情報付きテキスト情報510を、同期・自動補正部400へ出力する。
【0033】
なお、本実施の形態において、文字変換部230は、アルファベットテキスト情報、仮名テキスト情報、および仮名漢字テキスト情報という、3階層についてのテキスト情報を、出力するものとする。仮名テキスト情報は、アルファベットテキスト情報に対してローマ字仮名変換を行って得られる情報である。仮名漢字テキスト情報は、仮名テキスト情報に対して仮名漢字変換を行って得られる情報である。
【0034】
そして、キー操作同期情報付加部210は、3階層のテキスト情報の全てにおいて、各構成単位に対して、対応する変換前テキスト情報の入力開始タイミングを、キー操作開始タイミングとして付加する。また、キー操作同期情報付加部210は、3階層のテキスト情報の全てにおいて、各構成単位に対して、対応する変換前テキスト情報の入力終了タイミングを、キー操作終了タイミングとして付加する。
【0035】
また、二度打ち、長押し、シフトキーとの併用などでアルファベットが入力される場合がある。この場合、キー操作同期情報付加部210は、最初に文字キーが打鍵された時間を入力開始タイミングとし、最後に文字キーがリリースされた時間を入力終了タイミングとしてもよい。例えば、「K」を入力するために、シフトキーが打鍵された後に、「k」キーが打鍵され、「k」キーがリリースされ、シフトキーがリリースされたとする。この場合、キー操作同期情報付加部210は、例えば、「k」キーが打鍵された時刻を「K」の入力開始タイミングとし、「k」キーがリリースされた時刻を、入力終了タイミングとする。なお、キー操作同期情報付加部210は、シフトキーが打鍵された時刻を「K」の入力開始タイミングとし、シフトキーがリリースされた時刻を、入力終了タイミングとしてもよい。
【0036】
音声入力系統部300は、音声の入力を受け付け、入力した音声に対応するマークアップタグを出力する。より具体的には、音声入力系統部300は、一まとまりのテキスト情報に対して、音声信号の入力を受け付け、入力された音声信号を、マークアップタグに変換して出力する。すなわち、音声入力系統部300は、一まとまりのテキスト情報(以下「地の文章」という)に対するマークアップ指示を、ユーザからの音声により入力する。音声入力系統部300は、音声入力部320、マークアップ用音声認識部330、およびマークアップ命令変換部340を有する。
【0037】
音声入力部320は、例えばマイクロホンを含み、ユーザの発話音声を収録し、収録した音声の信号をマークアップ用音声認識部330へ出力する。
【0038】
マークアップ用音声認識部330は、マークアップ用認識辞書520を用いて、音声入力部320から入力された音声信号に対する音声認識処理を行う。これにより、マークアップ用音声認識部330は、音声信号を、マークアップ用の音声タグに変換する。マークアップ用認識辞書520は、音声信号が示す音韻情報の音声タグへの変換ルールを規定した辞書である。
【0039】
図3は、マークアップ用認識辞書520の内容の一例を示す図である。
【0040】
図3に示すように、マークアップ用認識辞書520は、情報ID521が割り当てられた読み(音韻情報)522に対応づけて、音声タグ(例えば、テキスト情報)523を記述している。マークアップ用認識辞書520には、例えば、「あか」という読み522に対応付けて、「赤」を示す音声タグ523が記述されている。これは、「あか」という読みの音声信号が入力されたとき、「赤」を示す音声タグを出力すべきことを示す。
【0041】
そして、図2のマークアップ用音声認識部330は、得られた音声タグを、マークアップ命令変換部340へ出力する。マークアップ用音声認識部330は、音声入力同期情報付加部310を有する。
【0042】
音声入力同期情報付加部310は、発話音声の音声信号(以下、単に「音声信号」という)の入力が開始されるごとに、その音声信号およびその音声入力開始タイミングを記録する。音声入力開始タイミングは、例えば、時刻や、基準時刻からの経過時間で表される。そして、音声入力同期情報付加部310は、記録内容に基づき、各音声タグに対して、対応する音声信号の音声入力開始タイミングを示す音声入力同期情報を付加する。
【0043】
なお、音声入力同期情報付加部310は、例えば、音声信号に対してノイズ除去処理を行い、処理後の音声信号が示す値を監視することにより、音声信号の区間(つまり発声区間)を検出する。また、音声入力同期情報付加部310は、例えば、マークアップ用音声認識部330が実際の音素を認識した区間を、音声信号区間としてもよい。
【0044】
マークアップ命令変換部340は、音声入力により入力された一まとまりの発話音声に対応する1つの音声タグを、1つのマークアップタグに変換する。具体的には、マークアップ命令変換部340は、マークアップ命令表530を用いて、マークアップ用音声認識部330から入力された音声タグに対し、マークアップ命令を示すマークアップタグに変換するマークアップ命令変換処理を行う。マークアップ命令表530は、音声タグに応じて、どのようなマークアップタグを挿入するかを規定するルールである。なお、本実施の形態において、マークアップタグは、XMLタグである。
【0045】
図4は、マークアップ命令表530の内容の一例を示す図である。
【0046】
図4に示すように、マークアップ命令表530は、情報ID531が割り当てられた音声タグ532に対応付けて、マークアップタグ533を記述している。音声タグ532は、マークアップ用認識辞書520の音声タグ523(図3参照)に対応している。マークアップ命令表530には、例えば、「赤」を示す音声タグ532に対応付けて、「<font color=“red”>」というマークアップタグ533が記述されている。
【0047】
なお、「赤」および「黒」を示す音声タグ532に対応するマークアップタグ533の種類は、マークアップの開始点を指定するためのタグ(以下「開始タグ」という)である。また、「終わり」を示す音声タグ532に対応するマークアップタグ533の種類は、マークアップの終了点を指定するためのタグ(以下「終了タグ」という)である。
【0048】
本実施の形態において、マークアップタグ(音声タグ)は、開始タグと終了タグとで対になっているものとする。
【0049】
そして、図2のマークアップ命令変換部340は、得られたマークアップタグに、対応する音声タグに付加されていた音声入力同期情報を付加して、出力する。
【0050】
すなわち、音声入力系統部300は、音声認識処理およびマークアップ命令変換処理により得られたマークアップ命令に音声入力同期情報を付加した、同期情報付きマークアップタグ540を、同期・自動補正部400へ出力する。この音声入力同期情報は、マークアップタグに変換された上記一まとまりの発話音声の、入力開始タイミングを示すことになる。
【0051】
なお、マークアップ用認識辞書520およびマークアップ命令表530は、例えば、マークアップ型定義データ550に基づいて、認識辞書生成装置600において生成される。この場合、音声入力系統部300は、例えば、通信ネットワークを介して認識辞書生成装置600にアクセスし、マークアップ用認識辞書520およびマークアップ命令表530を取得して、保持する。また、マークアップ用認識辞書520およびマークアップ命令表530は、ユーザまたはオペレータなどにより直接作成されたものであってもよい。
【0052】
図2の同期・自動補正部400は、キー操作および音声入力を行うユーザにとっての、キー操作のタイミングと前記音声入力のタイミングとの対応関係を規定する対応ルールを、予め格納する。そして、同期・自動補正部400は、テキスト情報とマークアップタグとを、これらに付加されたキー操作同期情報および音声入力同期情報と、対応ルールが示す対応関係とに従って、対応付けて出力する。
【0053】
すなわち、同期・自動補正部400は、キー入力系統部200から入力された同期情報付きテキスト情報510と、音声入力系統部300から入力された同期情報付きマークアップタグ540とを、対応ルールに従って、適切に組み合わせる。そして、同期・自動補正部400は、その組み合わせに従って変換後テキスト情報にマークアップタグを挿入し、マークアップテキスト560を生成する。
【0054】
なお、同期・自動補正部400は、必要に応じて、キー操作同期情報および音声入力同期情報の少なくとも一方を補正し、補正後に、テキスト情報とマークアップタグとを時間軸に沿って単純に対応付けてもよい。この補正については、別途、後述の変形例1として説明する。
【0055】
図5は、対応ルールの内容の一例を示す図である。
【0056】
図5に示すように、対応ルール570は、マークアップタグの種類571ごとに、優先順位572が割り当てられた対応付けの条件573を記述している。対応付けの条件573は、各テキスト情報(構成単位)にマークアップタグを対応付けるための条件である。
【0057】
対応ルール570には、例えば、「開始タグ」というマークアップタグの種類571に対応付けて、「音声入力開始タイミングの直後の第1の時間内の区間に、・・・が存在」という対応付けの条件573が記述されている。これは、開始タグの音声入力開始タイミングの直後の第1の時間内の区間に、仮名漢字テキスト情報のいずれかの構成単位のキー操作開始タイミングが存在した場合、当該マークアップタグと当該構成単位とを対応付けることを意味する。
【0058】
また、この対応付けの条件573には、「1」という優先順位572が割り当てられている。この優先順位572は、最優先に判断すべき条件であって、下位の条件を判断対象としないことを意味する。
【0059】
なお、図5の第1〜第6の時間は、例えば、第1の時間を最大値とし、この順序で小さくなる値がそれぞれに設定される。また、図5の第7〜第12の時間は、例えば、第7の時間を最大値とし、この順序で小さくなる値がそれぞれに設定される。
【0060】
図2の同期・自動補正部400は、例えば、生成したマークアップテキスト560を解釈するテキストアプリ700へ出力する。
【0061】
テキストアプリ700は、液晶ディスプレイなどの表示装置(図示せず)を用いて、テキスト情報を画像表示する表示部である。また、テキストアプリ700は、テキスト情報にマークアップタグが対応付けられている場合、当該マークアップタグに従ってテキスト画像の表示状態を制御する表示部である。すなわち、テキストアプリ700は、文章エディタ(ワープロ)や、ウェブブラウザやテキストビューワなどの、文字を扱うアプリケーション一般である。本実施の形態において、テキストアプリ700は、電子メールアプリを想定している。
【0062】
図6は、テキストアプリ700が扱う文字型定義(DTD:Document Type Definition)の内容の一例を示す図である。
【0063】
図6に示すように、文字型定義580は、「font」というマークアップタグにより、文字の色の指定が可能(赤または黒)であり、指定がない場合は黒で表示する内容となっている。
【0064】
文字入力装置100は、例えば、CPU、制御プログラムを格納したROMなどの記憶媒体、およびRAMなどの作業用メモリを有する。この場合、上述の各機能部は、CPUが制御プログラムを実行することにより実現される。
【0065】
このように、本実施の形態に係る文字入力装置100は、キー操作によりテキスト情報の入力を受け付け、音声入力によりマークアップタグの入力を受け付けることができる。そして、文字入力装置100は、テキスト情報を、キー操作のタイミングを示す情報を付加した状態で出力することができる。更に、文字入力装置100は、マークアップタグを、音声入力のタイミングを示す情報を付加した状態で出力することができる。
【0066】
キー操作によるテキスト情報入力と、音声認識処理を用いたマークアップタグ入力とを行う場合、上述の通り、これらの入力された情報の対応付けをどのように行うかが問題となる。理由は、以下の通りである。
【0067】
例えば、ローマ字入力の後に仮名漢字変換などが行われる日本語入力システムでは、キー操作が行われてから目的とする最終的なテキスト情報が出力されるまでに、時間を要する。日本語入力システム以外では、例えば、非アルファベット圏において、IME(Input Method Editor)によるテキスト変換処理を伴うテキスト情報入力システムでも、同様のことがいえる。そして、特に、携帯端末などでは、テンキーや小さい操作領域でのテキスト入力となるため、目的とするテキスト情報が得られるまでに、比較的長い時間を要する。
【0068】
また、音声認識処理を用いたマークアップタグの入力では、音声入力が行われてからマークアップタグが出力されるまでには、時間を要する。
【0069】
これらの、テキスト情報出力までに要する時間、および、マークアップタグ出力までに要する時間は、一定ではなく、状況に応じて変動する。したがって、ユーザが、テキスト情報の出力タイミングとマークアップタグの出力タイミングとが一致するように、キー操作のタイミングおよび音声入力のタイミングを調整することは、難しい。
【0070】
したがって、テキスト情報のキー操作入力と並行して、そのテキスト情報に対するマークアップタグの入力を、音声入力によって行う場合は、これらをほぼ同時に行うような設定操作が、最も効率が良く、ユーザへの負担も少ないと言える。
【0071】
そこで、文字入力装置100は、上述の通り、出力されるテキスト情報にキー操作のタイミングを示すキー操作同期情報が付加し、かつ、出力されるマークアップタグに音声入力のタイミングを示す音声入力同期情報が付加する。このように、テキスト情報およびマークアップタグの両方に付加された同期情報は、ユーザが対応付けたいテキスト情報とマークアップタグとを、容易かつ高精度に特定することを可能にし、上述の効率の良い設定操作を可能にする。したがって、文字入力装置100は、マークアップタグの設定操作をより少ない負担で行うことを可能にする。
【0072】
以上で、本実施の形態に係る文字入力装置の構成についての説明を終える。
【0073】
ここでは、上述のマークアップ用認識辞書520およびマークアップ命令表530(図3および図4参照)の作成手法の一例について、説明する。
【0074】
上述の認識辞書生成装置600は、例えば、マークアップ用認識辞書520およびマークアップ命令表530を、テキストアプリ700が扱う文字型定義580(図6参照)から、半自動で生成する。
【0075】
認識辞書生成装置600は、例えば、文字型定義580から、「colormail」型の文章が、全体を「body」と呼び、「body」の中の文章を「font」というタグでマークアップ可能であることを認識する。
【0076】
マークアップされた文章は、一般に木構造をとり、ある文章要素(タグで囲まれた部分)は、特定の文章要素の中にしか出現しない。例えば、「colormail」型の文章は、文章全体が「body」という名前の文章要素1つから成り、その中に、地の文章(#PCDATA)と、font文章要素が何度も現れる構造を有する。font文章要素の中には、地の文章しか現れない。
【0077】
認識辞書生成装置600は、このような知識を予め有し、文字型定義580から、「font」というマークアップタグの属性として、「red」または「black」を指定可能であると判断する。そして、認識辞書生成装置600は、その属性のデフォルト値が、「black」であると判断する。そして、認識辞書生成装置600は、ユーザから、「font」というマークアップタグや、属性名「color」や属性値「red」、「black」の発音の設定を受け付ける。これにより、認識辞書生成装置600は、マークアップ用認識辞書520およびマークアップ命令表530を自動作成することができる。
【0078】
以上で、マークアップ用認識辞書520およびマークアップ命令表530の作成手法の一例についての説明を終える。
【0079】
次に、文字入力装置100の動作について説明する。
【0080】
動作の説明に先立ち、以下の説明において想定する文字列について説明する。
【0081】
図7は、以下の説明において想定する、表示の対象となる文字列の表示状態を示す図である。
【0082】
図7に示すように、本実施の形態では、「中止」というマークアップ対象部分811のみが赤色のフォントとなっている、「遠足は中止です」という文字列812が、表示の対象であるものとする。
【0083】
この場合、ユーザは、「遠足は」と入力するためのキー操作が完了したタイミングで、「赤」と発声し、続く「中止」と入力するためのキー操作が完了したタイミングで、「終わり」と発声するように操作する。
【0084】
図8は、図7の文字列812を表示するためのマークアップテキストの一例を示す図である。すなわち、図8は、以下の説明において想定する、生成の対象となるマークアップテキストを示す図である。
【0085】
図8に示すように、生成の対象となるマークアップテキスト823は、「<font color=“red”>」というマークアップタグ821と、「</font>」というマークアップタグ822とに挟まれた「中止」の文字列から成る。
【0086】
図9は、文字入力装置100の動作の一例を示すフローチャートである。
【0087】
図9に示すように、文字入力装置100は、キー操作受付処理(S1000)と、音声入力受付処理(S2000)と、同期・自動補正処理(S3000)とを、並列に実行する。
【0088】
キー操作受付処理(S1000)は、キー入力系統部200が、キー操作によるテキスト情報の入力を受け付け、キー操作同期情報を付加して出力する処理である。音声入力受付処理(S2000)は、音声入力系統部300が、入力音声に対応するマークアップタグに、音声入力同期情報を付加して出力する処理である。同期・自動補正処理(S3000)は、同期・自動補正部400が、テキスト情報とマークアップタグとを、キー操作同期情報、音声入力同期情報、および対応ルールに基づいて対応付けて出力する処理である。
【0089】
なお、各処理の処理順序は、キー操作受付処理(S1000)と音声入力受付処理(S2000)との間の並列性を保てばよい。したがって、同期・自動補正処理(S3000)は、これら2つの処理のいずれかに含まれて実行されてもよい。
【0090】
図10は、キー操作受付処理(図9のステップS1000)の一例を示すフローチャートである。
【0091】
まず、ステップS1010において、キー入力部220は、テキスト情報の入力のためのキー操作があったか否かを判断する。キー入力部220は、キー操作がない場合(S1010:NO)、ステップS1020へ進む。また、キー入力部220は、キー操作があった場合(S1010:YES)、変換前テキスト情報(ここではアルファベットテキスト情報)を文字変換部230へ出力して、ステップS1030へ進む。
【0092】
ステップS1030において、文字変換部230は、入力された変換前テキスト情報を記録する。
【0093】
そして、ステップS1040において、キー操作同期情報付加部210は、変換前テキスト情報の入力タイミングを記録して、ステップS1020へ進む。
【0094】
ステップS1020において、キー入力部220は、変換未確定のテキスト情報が記録されている状態において、変換操作があったか否かを判断する。キー入力部220は、変換操作がない場合(S1020:NO)、ステップS1050へ進む。また、キー入力部220は、変換操作があった場合(S1020:YES)、変換操作情報を文字変換部230へ出力して、ステップS1060へ進む。
【0095】
ステップS1060において、文字変換部230は、変換操作情報に従って、記録された変換未確定のテキスト情報に対して、変換処理を行い、ステップS1050へ進む。
【0096】
文字変換部230は、例えば、「chuusi」という変換前テキスト情報に対して、変換操作を行うことにより、「ちゅうし」という仮名テキスト情報に対応する「中止」という仮名漢字テキスト情報を、確定候補として選択する。そして、文字変換部230は、続けて変換操作が行われるごとに、「注視」、「注し」などの他の仮名漢字テキスト文字に、選択を切り替える。
【0097】
ステップS1050において、キー入力部220は、変換未確定のテキスト情報に対する変換の確定操作があったか否かを判断する。キー入力部220は、確定操作がない場合(S1050:NO)、ステップS1070へ進む。また、キー入力部220は、確定操作があった場合(S1050:YES)、確定操作情報を文字変換部230へ出力して、ステップS1080へ進む。
【0098】
この結果、文字変換部230は、例えば、「chuusi」というアルファベットテキスト情報と、「ちゅうし」という仮名テキスト情報と、「中止」という仮名漢字テキスト情報とを、出力の対象として確定する。
【0099】
ステップS1080において、キー操作同期情報付加部210は、各階層のテキスト情報のそれぞれについて、構成単位ごとに、キー操作開始タイミングおよびキー操作終了タイミングを取得する。なお、テキスト情報とは、アルファベットテキスト情報、仮名テキスト情報、および仮名漢字テキスト情報を含む。
【0100】
図11は、以下の説明において想定する、各階層の構成単位ごとのキー操作開始タイミングを示す図である。ここでは、横軸を時間軸(秒)とし、最初のキー入力タイミングが0秒であるものとする。
【0101】
図11に示すように、「ensokuha」の8文字は、1秒間隔で、0〜7秒にかけて順に入力されたとする。「chuusi」の6文字は、1秒間隔で、10〜15秒にかけて順に入力されたとする。「desu」の4文字は、1秒間隔で、18〜21秒にかけて順に入力されたとする。
【0102】
この場合、「えんそく」および「遠足」のキー操作開始タイミングは、0秒となり、「は」のキー操作開始タイミングは6秒となる。「ちゅ」および「中」のキー操作開始タイミングは、10秒となる。また、「う」のキー操作開始タイミングは、13秒となる。また、「し」および「止」のキー操作開始タイミングは、14秒となる。「で」のキー操作開始タイミングは18秒となり、「す」のキー操作開始タイミングは20秒となる。
【0103】
また、「そ」のキー操作終了タイミングは、3秒となり、「く」および「遠足」のキー操作終了タイミングは、5秒となる。「は」のキー操作終了タイミングは、7秒となる。「ちゅ」のキー操作終了タイミングは、12秒となり、「う」のキー操作終了タイミングは、13秒となる。「し」および「中止」のキー操作終了タイミングは、15秒となる。「で」のキー操作終了タイミングは19秒となり、「す」および「です」のキー操作終了タイミングは、21秒となる。
【0104】
そして、図10のステップS1090において、キー操作同期情報付加部210は、取得したキー操作開始タイミングに基づいて、各階層の同期情報付きテキスト情報を生成する。すなわち、キー操作同期情報付加部210は、アルファベットテキスト情報、仮名テキスト情報、および仮名漢字テキスト情報のそれぞれに、キー操作開始タイミングおよびキー操作終了タイミングを付加した情報を、生成する。そして、キー操作同期情報付加部210は、生成した各階層の同期情報付きテキスト情報を出力して、ステップS1070へ進む。
【0105】
ステップS1070において、キー入力部220は、ユーザ操作などにより処理の終了を指示されたか否かを判断する。キー入力部220は、処理の終了を指示されていない場合(S1070:NO)、ステップS1010へ戻る。また、キー入力部220は、処理の終了を指示された場合(S1070:YES)、一連の処理を終了する。
【0106】
このようにして、キー入力系統部200は、ユーザ操作に応じて、各階層の同期情報付きテキスト情報を出力する。
【0107】
図12〜図14は、キー入力系統部200が出力する同期情報付きテキスト情報の内容の例を示す図である。図12は、アルファベットテキスト情報の同期情報付きテキスト情報の内容の一例である。図13は、仮名テキスト情報の同期情報付きテキスト情報の内容の一例である。図14は、漢字仮名テキスト情報の同期情報付きテキスト情報の内容の一例である。
【0108】
図12〜図14において、ある文字または文字列(以下単に「文字」という)の直前に配置された「<t>」というタグは、その文字が入力された時刻を表わす。タグの属性値は、例えば、「v」および「e」である。「v」は、その文字の入力が開始された時刻である。「e」は、その文字の入力が終った時刻である。「e」の値が省略されている場合、「e」の値は、「v」の値と同じであることを示す。
【0109】
したがって、例えば、「<t v=123.4>a</t>」は、「a」というキー(文字)が、「123.4」秒の時刻に打鍵され、同時に入力が終った(キーがリリースされた)ということを示す。
【0110】
また、例えば、「<t v=10 e=15>遠足</t>」は、「遠足」という文字の入力が、「10」秒の時刻に開始し、「15」秒の時刻に終了したことを示す。
【0111】
なお、「遠足」という情報は、実際に打鍵された文字ではなく、アルファベットテキスト情報に対するローマ字仮名変換および仮名漢字変換を経て得られた文字である。したがって、「遠足」という文字の上述の入力開始時刻とおよび入力終了時刻は、対応するアルファベットの打鍵時刻(変換前テキスト情報の入力時刻)から算出された、見做し時刻である。
【0112】
また、図12〜図14において、ある文字の直前に配置された「<s>」というタグは、その文字の品詞を示す。
【0113】
なお、品詞は、必ずしも必要ではないが、後段の同期・自動補正部400での自動補正処理に役立つため、付与されることが望ましい。品詞は、文字変換部230が、品詞情報や文法などの言語情報を用いて文字変換を行う場合、その変換過程で得られた情報である。
【0114】
図15は、音声入力受付処理(図9のステップS2000)の一例を示すフローチャートである。
【0115】
まず、ステップS2010において、音声入力部320は、音声入力が開始されたか否かを判断する。音声入力部320は、音声入力が開始されていない場合(S2010:NO)、ステップS2020へ進む。なお、音声入力が開始されていない場合とは、音声入力が既に開始されており、音声入力継続中である場合を含むものとする。また、音声入力部320は、音声入力が開始された場合(S2010:YES)、ステップS2030へ進む。なお、いずれの場合においても、音声入力部320は、音声が入力されている場合には、音声信号を、マークアップ用音声認識部330へ出力する。
【0116】
ステップS2030において、マークアップ用音声認識部330は、入力された音声信号を記録する。
【0117】
そして、ステップS2040において、音声入力同期情報付加部310は、音声信号の入力開始タイミングを記録して、ステップS2020へ進む。
【0118】
ステップS2020において、音声入力部320は、音声入力が終了したか否かを判断する。音声入力部320は、音声入力が終了していない場合(S2020:NO)、ステップS2050へ進む。なお、音声入力が終了していない場合とは、音声入力がそもそも開始されていない場合を含むものとする。また、音声入力部320は、音声入力が終了した場合(S2020:YES)、ステップS2060へ進む。
【0119】
ステップS2060において、マークアップ用音声認識部330は、入力された音声信号に対する音声認識処理を行う。
【0120】
そして、ステップS2070において、マークアップ用音声認識部330は、音声認識結果が音声タグであるか否かを判断する。すなわち、マークアップ用音声認識部330は、音声認識結果が、マークアップ用認識辞書520(図3参照)に記述されたいずれかの音声タグに該当するか否かを判断する。マークアップ用音声認識部330は、音声認識結果が音声タグではない場合(S2070:NO)、ステップS2080へ進む。また、マークアップ用音声認識部330は、音声認識結果が音声タグである場合(S2070:YES)、音声タグをマークアップ命令変換部340へ出力して、ステップS2090へ進む。この際、音声入力同期情報付加部310は、記録した入力開始タイミングを、音声タグに付加する。
【0121】
ステップS2080において、マークアップ用音声認識部330は、入力音声および入力開始タイミングの記録を消去して、ステップS2050へ進む。
【0122】
また、ステップS2090において、マークアップ命令変換部340は、入力された音声タグを、マークアップ命令表530(図4参照)に従って、マークアップタグに変換する。また、マークアップ命令変換部340は、対応する音声タグに付加されていた入力開始タイミングを、マークアップタグに付加して、同期情報付きマークアップタグを生成する。そして、マークアップ命令変換部340は、生成した各階層の同期情報付きマークアップタグを出力して、ステップS2050へ進む。
【0123】
図16(A)は、図11のキー操作開始タイミングを示す図である。また、図16(B)は、以下の説明において想定する、音声ごとの音声入力開始タイミングを示す図である。
【0124】
図16(B)に示すように、ユーザは、「chuusi」というテキストの入力開始タイミングの2秒前から1秒前にかけて、「あか」と発声したとする。そして、ユーザは、「chuusi」というテキストの入力終了タイミングの1秒後から2秒後にかけて、「おわり」と発声したとする。
【0125】
この場合、図16(B)に示すように、例えば、「あか」という音声の入力は、8秒に開始され、「おわり」という音声の入力は、16秒に開始される。
【0126】
一方で、図16(B)に示すように、「あか」という読みに対する音声タグは、「赤」であり、「赤」を示す音声タグに対応するマークアップタグは「<font color=“red”>」である。また、「おわり」という読みに対する音声タグは、「終わり」であり、「終わり」を示す音声タグに対応するマークアップタグは「</font>」である(図3および図4参照)。したがって、音声入力系統部300は、これらのマークアップタグに音声入力タイミングが付加された情報を、同期情報付きマークアップタグ540として出力する。
【0127】
図17〜図19は、音声入力系統部300が出力する同期情報付きマークアップタグおよびその過程で生成される情報を示す図である。図17は、入力タイミングが付加された読み情報の内容の一例である。図18は、入力タイミングが付加された音声タグ情報の内容の一例である。図19は、同期情報付きマークアップタグの内容の一例である。
【0128】
図19において、「<」は、「<」のエンティティ参照である。同様に「>」は、「>」のエンティティ参照である。
【0129】
したがって、例えば、「<t v=8 e=9><font color=“red”></t>」は、「font color=“red”&gt」に対応する発声が、「8」秒の時刻に開始し、「9」秒の時刻に終了したことを示す。
【0130】
なお、「<t v=8 e=9><font color=“red”></t>」という情報は、音声認識処理などを経た後に得られる。したがって、その取得時刻は、対応する音声の発声時刻とずれている。
【0131】
図15のステップS2050において、音声入力部320は、ユーザ操作などにより処理の終了を指示されたか否かを判断する。音声入力部320は、処理の終了を指示されていない場合(S2050:NO)、ステップS2010へ戻る。また、音声入力部320は、処理の終了を指示された場合(S2050:YES)、一連の処理を終了する。
【0132】
このようにして、音声入力系統部300は、音声入力に応じて、同期情報付きマークアップタグを出力する。
【0133】
図20は、同期・自動補正処理(図9のステップS3000)の一例を示すフローチャートである。
【0134】
まず、ステップS3010において、同期・自動補正部400は、テキスト情報の入力があったか否かを判断する。同期・自動補正部400は、テキスト情報の入力がない場合(S3010:NO)、ステップS3020へ進む。また、同期・自動補正部400は、テキスト情報の入力があった場合(S3010:YES)、ステップS3030へ進む。
【0135】
ステップS3030において、同期・自動補正部400は、テキスト情報に対応するマークアップタグの入力があったか否かを判断する。テキスト情報に対応するマークアップタグとは、例えば、テキスト情報の入力タイミングの前後の所定の時間範囲内に入力された、マークアップタグである。同期・自動補正部400は、対応するマークアップタグの入力がない場合(S3030:NO)、ステップS3040へ進む。また、同期・自動補正部400は、対応するマークアップタグの入力があった場合(S3030:YES)、ステップS3050へ進む。
【0136】
ステップS3040において、同期・自動補正部400は、キー操作同期情報を除去したテキスト情報(マークアップテキスト)を、テキストアプリ700へ出力して、ステップS3020へ進む。
【0137】
また、ステップS3050において、同期・自動補正部400は、対応ルール570(図5参照)に従って、テキスト情報とマークアップタグとを対応付け、音声入力同期情報を除去して、マークアップ付きテキスト情報を生成する。そして、同期・自動補正部400は、生成したマークアップ付きテキスト情報を、テキストアプリ700へ出力して、ステップS3020へ進む。
【0138】
ステップS3020において、同期・自動補正部400は、ユーザ操作などにより処理の終了を指示されたか否かを判断する。同期・自動補正部400は、処理の終了を指示されていない場合(S3020:NO)、ステップS3010へ戻る。また、同期・自動補正部400は、処理の終了を指示された場合(S3020:YES)、一連の処理を終了する。
【0139】
このようにして、同期・自動補正部400は、テキスト情報とマークアップタグとを、キー操作同期情報および音声入力同期情報に基づいて統合する。
【0140】
以上で、文字入力装置100の動作についての説明を終える。
【0141】
以上説明したように、本実施の形態に係る文字入力装置100は、テキスト情報にキー操作同期情報を付加してこれを出力し、かつ、マークアップタグに音声入力同期情報を付加してこれを出力することができる。これにより、文字入力装置100は、マークアップタグの設定操作をより少ない負担で行うことを可能にする。
【0142】
また、文字入力装置100は、キー操作同期情報および音声入力同期情報に基づいて、テキスト情報とマークアップタグとを対応付けて出力する。これにより、文字入力装置100は、ユーザあるいはオペレータがテキスト情報とマークアップタグとを手動で対応付ける手間を省くことができ、マークアップタグの設定操作を更に少ない負担で行うことを可能にする。
【0143】
また、文字入力装置100は、マークアップタグが開始タグと終了タグとのどちらであるかを考慮して、上記対応付けを行う。これにより、文字入力装置100は、より高い精度でのマークアップタグの設定を行うことができ、ユーザあるいはオペレータがテキスト情報とマークアップタグとを対応付けを後から手動で修正するといった手間を省くことができる。
【0144】
また、文字入力装置100は、キー操作によるテキスト情報入力と、音声入力によるマークアップタグとを同時並行で受け付けることができる。これにより、文字入力装置100は、ユーザのテキスト入力の速度を低下させることなく、ユーザが所望のマークアップをすることを可能にする。
【0145】
すなわち、文字入力装置100は、ユーザが望むマークアップタグの設定操作をより少ない負担で行うことができる、リッチなテキスト入力環境を、ユーザに提供することができる。
【0146】
日本語入力システムにおける仮名漢字テキスト入力は、上述の通り、アルファベットテキストの入力の後、仮名テキストへの変換および仮名漢字テキストへの変換という過程を踏む。このため、ユーザが直感的に文字認識されたと感じるタイミングは、システム内で変換が全部終了して仮名漢字テキストが確定されるタイミングとの間に、ずれ(例えば0.5秒)が生じる。
【0147】
これは、音声系統の場合も同様である。すなわち、実際に文字入力装置100内で音声認識の結果が確定するのは、発声開始タイミングでも発声終了タイミングでもなく、発声してから音声認識処理などに要する時間だけ後ろにずれた時間となる。
【0148】
例えば、ユーザは、図16に示すタイミングで、キー操作および音声入力を行ったとする。しかし、「遠足」という仮名漢字テキストが得られるタイミングと、「<font color=“red”>」というマークアップタグが得られるタイミングとは、一致しない。したがって、これらのタイミングに基づいて単純にテキスト情報とマークアップタグとの対応付けは、ユーザの直感的な対応関係とは異なる場合がある。すなわち、単純なテキスト情報とマークアップタグとの対応付けでは、ユーザの意図した通りのマークアップ範囲を再現することはできない。
【0149】
そこで、文字入力装置100は、上述の通り、キー操作受付処理において、テキスト情報にキー操作タイミングを示す情報を付加し、音声入力受付処理おいて、マークアップタグに音声入力タイミングを示す情報を付加する。そして、文字入力装置100は、上述の通り、同期・自動補正処理において、これらの付加された情報に基づいて、テキスト情報とマークアップタグとを対応付ける。これにより、文字入力装置100は、キー操作により入力されたテキスト情報と、音声入力により入力されたマークアップタグとを、ユーザの直感的な対応関係と一致するように対応付けることができる。すなわち、文字入力装置100は、ユーザの意図した通りのマークアップ範囲を再現することができる。
【0150】
例えば、図5に示す対応ルール570の「第1の時間」および「第7の時間」は、それぞれ3秒であったとする。この場合、図16に示す例において、「<font color=“red”>」というマークアップタグおよび「/font」というマークアップタグは、「中止」という仮名漢字テキストに対応付けられる。
【0151】
これにより、同期・自動補正処理は、「中止」という仮名漢字テキストの直前に、「<font color=“red”>」というマークアップタグを挿入する。そして、同期・自動補正処理は、「中止」という仮名漢字テキストの直後に、「</font」というマークアップタグを挿入する。
【0152】
この結果、本実施の形態では、図8に示した、生成の対象となるマークアップテキストが得られ、図7に示した、生成の対象となる文字列が表示されることになる。
【0153】
なお、キー操作のタイミングと音声入力のタイミングとの相対関係は、図16に示す例に限られない。
【0154】
図21は、各音声の入力開始タイミングの他の例を示す図であり、図16に対応するものである。
【0155】
図21に示すように、ユーザは、「chuusi」というテキストの入力開始タイミングの1秒前から1秒後にかけて、「あか」と発声したとする。そして、ユーザは、「chuuci」というテキストの入力終了タイミングの1.5秒前から0.5秒後にかけて、「おわり」と発声したとする。
【0156】
例えば、図5に示す対応ルール570の「第8の時間」は、2秒であったとする。この場合、図21に示す例において、「<font color=“red”>」というマークアップタグおよび「/font」というマークアップタグは、「中止」という仮名漢字テキストに対応付けられる。
【0157】
すなわち、同期・自動補正部400は、終了タグの音声入力開始タイミングが、キー操作終了タイミングよりも先になることを考慮して、設定された対応ルール570を用いる。これにより、同期・自動補正部400は、テキスト情報とマークアップタグとの対応付けを的確に行うことができる。
【0158】
なお、同期・自動補正部400は、対応ルール570によってではなく、開始タグおよび終了タグの音声入力開始タイミングを補正することにより、時間軸に沿ってテキスト情報とマークアップタグとの対応付けを行ってもよい。
【0159】
また、上述のマークアップ用認識辞書520およびマークアップ命令表530は、XML文書のコンテキスト(文脈)を考慮した内容であってもよい。
【0160】
また、以上の説明において、マークアップタグ(音声タグ)は、開始タグと終了タグとで別となっているものとしたが、これに限定されない。マークアップタグ(音声タグ)は、発声の開始タイミングと終了タイミングとにより、マークアップの開始点と終了点との両方をそれぞれ指定するものであってもよい。すなわち、文字入力装置100は、連続したテキスト情報に対して、連続した長音発音によるマークアップを受け付けるようにしてもよい。
【0161】
以下、本実施の形態の変形例1では、音声入力開始タイミングを補正し、時間軸に沿ってテキスト情報とマークアップタグとの対応付けを行うようにした例について説明する。
【0162】
また、本実施の形態の変形例2では、マークアップ用認識辞書520とマークアップ命令表530とをまとめ、更にこれをXML文書のコンテキスト(文脈)を考慮した内容とした場合の例について説明する。
【0163】
更に、本実施の形態の変形例3では、連続した長音発音によるマークアップを受け付ける文字入力装置100の一例について説明する。
【0164】
(変形例1)
同期・自動補正部400は、テキスト情報の入力区間と、マークアップタグの入力区間とが、時系列に配置されていた場合に、その配置順序に従って、マークアップタグをテキスト情報に挿入する。このような理想的な配置は、図16に示す例に相当する。
【0165】
そして、同期・自動補正部400は、テキスト情報の入力区間とマークアップタグの入力区間とが重複している場合に、これらの区間を、理想的な配置に補正する。これは、図21に示す例に相当する。
【0166】
以下、この補正の手順の一例について説明する。
【0167】
まず、同期・自動補正部400は、地の文章のうち、マークアップタグ(マークアップテキスト)を挿入することが可能な位置を特定する。この位置(以下「タグ挿入可能位置」という)は、例えば、以下の4種である。
(a)入力が途切れた箇所
(b)品詞の境界
(c)日本語など文字種(平仮名、片仮名、漢字など)がある言語における文字種の境界
(d)句読点、コンマ、カンマ、空白など区切り記号の直後、および、クオートや鉤括弧などの囲み記号の前後
【0168】
例えば、地の文章Sの同期情報付きテキスト情報が、下記の内容であったとする。
<t v=b0 e=e0>S0</t> <t v=b1 e=e1>S1</t> ・・・ <t v=bn e=en>Sn</t>
S = S0+S1+… +SN (ただし、「+」は、文章の連接演算子)
【0169】
また、マークアップタグTxの同期情報付きマークアップタグが、下記内容であったとする。
<t v=bx e=ex>Tx</t>
【0170】
同期・自動補正部400は、以下の手順で処理を実施する。
ステップ(1):マークアップタグTxの入力開始時刻bxに注目し、入力開始時刻bxが前記(a)のタグ挿入可能位置に含まれている場合は、マークアップタグTxの挿入位置をそのタグ挿入可能位置に決定し、終了する。
【0171】
すなわち、同期・自動補正部400は、em ≦ bx ≦ b(m+1)なるmがあった場合、地の文章Sの構成単位である、m番目の文章部分Smとm+1番目の文章部分S(m+1)との間に、マークアップタグTxを挿入する。この結果、同期補正された文字列S′は、下記の内容となる。
S′ = S0+S1+…+Sm+Tx+S(m+1)+…+Sn
【0172】
ステップ(2):同期・自動補正部400は、マークアップタグの入力開始時刻bxが、m番目の文章部分Smの入力開始時刻bmから入力終了時刻emまでの間にあるか否かを判定する。同期・自動補正部400は、判定の結果、入力開始時刻bxが間にある場合(bm ≦ bx ≦ emを満たすmが存在した場合)は、マークアップタグTxの挿入位置を、マークアップタグTxの種類で場合分けをする。
【0173】
ステップ(2−1):同期・自動補正部400は、マークアップタグTxが終了タグ(</、>で囲まれるタグ)である場合、m番目の文章部分Smの入力開始時刻bm以降のタグ挿入可能位置に、マークアップタグTxを挿入する。ただし、同期・自動補正部400は、m番目の文章部分Smの入力開始時刻bmから入力終了時刻emまでの間に複数のタグ挿入可能位置がある場合、それらのうち、最後のタグ挿入可能位置に、マークアップタグTxを挿入する。
【0174】
すなわち、m番目の文章部分Sm中にタグ挿入可能位置がない場合、終了タグについての同期補正された文字列S′は、下記の内容となる。
S′ = S0+S1+…+Sm+Tx+S(m+1)+…+Sn
【0175】
また、m番目の文章部分Sm中にタグ挿入可能位置があり、m番目の文章部分Smが、Sm = Sm(前半)+Sm(後半)というように分割可能である場合、終了タグについての同期補正された文字列S′は、下記の内容となる。
S′ = S0+S1+…+Sm(前半)+Tx+Sm(後半)+…+Sn
【0176】
文章部分Smの分割は、他の階層のテキスト情報(例えば、仮名漢字テキストに対して、仮名テキストあるいはアルファベットテキスト)におけるタグ挿入可能位置を考慮することに相当する。
【0177】
ステップ(2−2):同期・自動補正部400は、マークアップタグTxが開始タグ((<、>で囲まれたタグ)である場合、マークアップタグTxを、m番目の文章部分Smの入力終了時刻em以前のタグ挿入可能位置に挿入する。ただし、同期・自動補正部400は、m番目の文章部分Smの入力開始時刻bmから入力終了時刻emまでの間に複数のタグ挿入可能位置がある場合、それらのうち、最前のタグ挿入可能位置に、マークアップタグTxを挿入する。
【0178】
すなわち、m番目の文章部分Sm中にタグ挿入可能位置がない場合、開始タグについての同期補正された文字列S′は、下記の内容となる。
S′ = S0+S1+…+S(m−1)+Tx+Sm+…+Sn
【0179】
また、m番目の文章部分Sm中にタグ挿入可能位置があり、m番目の文章部分Smが、Sm = Sm(前半)+Sm(後半)というように分割可能である場合、開始タグについての同期補正された文字列S′は、下記の内容となる。
S′ = S0+S1+…+Sm(前半)+Tx+Sm(後半)+…+Sn
【0180】
これらの手順により、図21に示す例において、上記補正ルール(1)により、「<font color=“red”>」というマークアップタグは、「中止」という仮名漢字テキストの直前に挿入される。そして、上記補正ルール(2−1)により、「/font」というマークアップタグは、「中止」という仮名漢字テキストの直後に挿入される。
【0181】
図22は、図7に示す文字列812における、タグ挿入可能位置と、「中止」というマークアップ対象部分811の対応付けの対象とすべき音声入力タイミングの例を示す図である。
【0182】
図22に示すように、「遠足は中止です」という文字列812には、三角印(▲)831〜835で示す、5個のタグ挿入可能位置が存在する。そして、この場合、「中止」というマークアップ対象部分の対応付けの対象とすべき開始タグの音声入力区間(発声区間)は、矢印841〜843で示す区間(3つの区間)となる。また、「中止」というマークアップ対象部分811の対応付けの対象とすべき終了タグの音声入力区間(発声区間)は、矢印844〜846で示す区間(3つの区間)となる。
【0183】
矢印841に示す区間の開始タグは、上記補正ルール(2−2)により、矢印833に示す位置に挿入される。矢印842に示す区間の開始タグは、上記補正ルール(1)により、矢印833に示す位置に挿入される。矢印843に示す区間の開始タグは、上記補正ルール(2−2)により、矢印833に示す位置に挿入される。
【0184】
また、矢印844に示す区間の終了タグは、上記補正ルール(2−2)により、矢印834に示す位置に挿入される。矢印845に示す区間の終了タグは、上記補正ルール(1)により、矢印834に示す位置に挿入される。矢印844に示す区間の終了タグは、上記補正ルール(2−1)により、矢印834に示す位置に挿入される。
【0185】
なお、以上説明した本実施の形態の変形例1では、音声入力開始タイミングを補正すると説明した。なお、文字入力装置100は、逆に、キー操作タイミングの補正、または、音声入力開始タイミングとキー操作タイミングとの両方を補正してもよい。
【0186】
(変形例2)
図23は、本変形例に係る文字入力装置100における、マークアップ用認識辞書とマークアップ命令表とを兼用したマークアップ用認識辞書兼命令表の内容の一例を示す図である。
【0187】
図23に示すように、マークアップ用認識辞書兼命令表590は、情報ID591が割り当てられた、読み付き音声タグ592と、コンテキスト593と、マークアップタグ594とを記述している。
【0188】
読み付き音声タグ592は、図3のマークアップ用認識辞書520の内容に対応し、も読み(音韻情報)から、音声タグへのマッピングを記述する。例えば、「ボディ(ぼでー|ぼでぃい)」という読み付き音声タグ592は、「ぼでー」という読みと「ぼでぃい」という読みとのそれぞれを、「ボディ」を示す音声タグへ変換すべきことを示す。また、読み付き音声タグ592からマークアップタグ594へのマッピング部分は、図4のマークアップ命令表530に対応する。コンテキスト593は、マークアップタグ594の親の文章要素名を示す。
【0189】
このようなマークアップ用認識辞書兼命令表590によっても、音声入力系統部300は、音声入力に基づいて、同期情報付きマークアップタグ540を出力することができる。また、このようなマークアップ用認識辞書兼命令表590を用いることにより、音声入力系統部300は、コンテキストの概念を取り入れて音声認識の候補探索を狭め、音声認識の認識率を向上させることができる。
【0190】
ここでは、マークアップ用認識辞書兼命令表590を用いて、ユーザが「もじ、いろ、あか、おわり」と発声した場合の処理の流れの一例について、説明する。
【0191】
音声入力における最初のコンテキストは、「body」である。したがって、次に出現する可能性がある音声タグ(よみ)は、2行目の「文字(もじ|ふぉんと|ほんと)」のみである。したがって、音声入力系統部300は、音声認識対象を、「もじ」、「ふぉんと」、および「ほんと」に絞り、他の読み(例えば「あか」、「くろ」など)を音声認識対象から除外して、音声認識処理を行うことができる。これは、音声認識エンジンにとって有利な特徴であり、音声認識率をあげることが可能である。
【0192】
音声入力系統部300は、「もじ」という発声から「文字」を示す音声タグを得ると、「font」というマークアップタグを決定する。そして、音声入力系統部300は、「font」をコンテキストに含むマークアップタグを検索する。かかるマークアップタグは、ここまでのマークアップタグに対応する終了タグか、属性colorの設定のマークアップタグのいずれかである。ここで、ユーザが発声する可能性がある音声認識対象は、「いろ」、「からー」、「おわり」、および「とじる」である。したがって、音声入力系統部300は、音声認識対象を、「いろ」、「からー」、「おわり」、および「とじる」に絞って、音声認識処理を行うことができる。
【0193】
音声入力系統部300は、「いろ」という発声から「色」を示す音声タグを得ると、「color」というマークアップタグを挿入する。ここまでに、生成された文字列は、「<font color=」である。したがって、音声入力系統部300は、「font:color」をコンテキストに含むマークアップタグを検索する。かかるマークアップタグは、ここまでのマークアップタグに対応する終了タグか、「red」というマークアップタグか、「black」というマークアップタグのいずれかである。ここでユーザが発声する可能性がある音声認識対象は、「からー」、「おわり」、および「とじる」である。したがって、音声入力系統部300は、音声認識対象を、「からー」、「おわり」、および「とじる」に絞って、音声認識処理を行うことができる。
【0194】
音声入力系統部300は、「あか」という発声から「赤」を示す音声タグを得ると、「red」というマークアップタグを挿入する。そして、音声入力系統部300は、「おわり」という発声から「終わり」を示す音声タグを得ると、開始タグの閉じていない「<>」についての終了タグを挿入する。この結果、音声入力系統部300は、「<font color=″red″> </font>」という文字列を、マークアップタグとして生成することになる。
【0195】
以上で、マークアップ用認識辞書兼命令表590を用いた処理の流れの一例について、説明を終える。
【0196】
なお、マークアップ用認識辞書兼命令表590は、例えば、認識辞書生成装置600において、文字型定義580(図6参照)から、半自動で生成することができる。
【0197】
以下、マークアップ用認識辞書兼命令表590の作成手順の一例について説明する。
【0198】
認識辞書生成装置600は、文章のルートになる要素が必ず「body」であることから、コンテキストなしとした「body」というマークアップタグ594を、マークアップ用認識辞書兼命令表590に追加する。コンテキストなしとは、親となる情報がない、文章の開始部分であることを示す。なお、「body」というマークアップタグ594は、「colormail」という型の文章の開始と終りに必ず付与されるものであり、ユーザが手や音声で入力するようなものではない。したがって、文字入力装置100において、図23に示すマークアップ用認識辞書兼命令表590の1行目は、実際には利用されない。
【0199】
次に、認識辞書生成装置600は、文字型定義580の2行目から、body要素の中(「body」というマークアップタグで囲まれた部分の中)でマークアップのために挿入できるタグが、「font」だけであると判断する。したがって、認識辞書生成装置600は、マークアップ用認識辞書兼命令表590の2行目に、「body」というコンテキスト593に対応付けて、「font」というマークアップタグ594を記述する。
【0200】
また、認識辞書生成装置600は、文字型定義580の4行目〜6行目から、「font」というマークアップタグに対しては、「color」という名前の属性があると判断する。したがって、認識辞書生成装置600は、マークアップ用認識辞書兼命令表590の3行目に、「attr_name(font)」というコンテキスト593に対応付けて、「color」というマークアップタグ594を記述する。
【0201】
また、認識辞書生成装置600は、文字型定義580の6行目から、「font」というマークアップタグの「color」という名前の属性の値が、redおよびblackを採り得ると判断する。したがって、認識辞書生成装置600は、マークアップ用認識辞書兼命令表590の4行目に、「attr_val(font:color)」というコンテキスト593に対応付けて、「red」というマークアップタグ594を記述する。そして、認識辞書生成装置600は、マークアップ用認識辞書兼命令表590の5行目に、「attr_val(font:color)」というコンテキスト593に対応付けて、「black」というマークアップタグ594を記述する。
【0202】
そして、認識辞書生成装置600は、ユーザ操作あるいはオペレータ操作を受けて、各マークアップタグ594の読み付き音声タグ592を、そのマークアップタグ594の意味や使い方に応じた内容で記述する。
【0203】
このようにして、認識辞書生成装置600は、マークアップ用認識辞書兼命令表590を、半自動で生成することができる。
【0204】
(変形例3)
図24は、本変形例におけるマークアップ用認識辞書兼命令表の内容の一例を示す図であり、図23に対応するものである。図23と同一部分には同一符号を付し、これについての説明を省略する。なお、コンテキストについての図示および説明は、省略する。
【0205】
図24に示すように、本変形例におけるマークアップ用認識辞書兼命令表590は、「赤(あ)」を示す音声タグ(読み)592に対応付けて、「<font color=“red”>」というマークアップタグ594を記述する。また、マークアップ用認識辞書兼命令表590は、「黒(う)」を示す音声タグ(読み)592に対応付けて、「<font color=“black”>」というマークアップタグ594を記述する。そして、マークアップ用認識辞書兼命令表590は、「終わり(−)」を示す音声タグ(読み)592に対応付けて、「</font>」というマークアップタグ594を記述する。
【0206】
図25は、本変形例における対応ルールの内容の一例を示す図であり、図5に対応するものである。図5と同一部分には、同一符号を付し、これについての説明を省略する。
【0207】
図25に示すように、本変形例における対応ルール570は、図5のマークアップタグの種類571ではなく、音声入力タイミングの種類574ごとに、対応付けの条件573を記述する。音声入力開始タイミングは、開始タグの音声入力タイミングに相当し、音声入力終了タイミングは、終了タグの音声入力タイミングに相当する。また、音声入力終了タイミングに対応する対応付けの条件573は、音声入力終了タイミングを基準とした条件を記述している。
【0208】
対応ルール570には、例えば、音声入力タイミングの種類574に対応付けて、「音声入力終了タイミングの直前の第7の時間内の区間に、・・・キー操作開始タイミングが存在」という対応付けの条件573が記述されている。これは、マークアップタグの音声入力終了タイミングの直前の第7の時間内の区間に、仮名漢字テキスト情報のいずれかの構成単位のキー操作開始タイミングが存在した場合、これらを対応付けるべきことを意味する。
【0209】
図26は、音声の入力開始タイミングおよび入力終了タイミングの一例を示す図であり、図16に対応するものである。
【0210】
図26に示すように、ユーザは、「chuusi」というテキストの入力開始タイミングの1秒前から、「chuusi」というテキストの入力終了タイミングの1秒後にかけて、「あー」と連続して発声したとする。
【0211】
例えば、図25に示す対応ルール570の「第1の時間」および「第7の時間」は、それぞれ2秒であったとする。この場合、図26に示す例において、「<font color=“red”>」というマークアップタグおよび「/font」というマークアップタグは、「中止」という仮名漢字テキストに対応付けられる。すなわち、本変形例に係る文字入力装置100は、マークアップタグ(音声タグ)が開始タグと終了タグとで別である場合と同様の結果を得ることができる。
【0212】
このように、本変形例に係る文字入力装置100は、マークアップしたい文章を入力している間に、特定の音声で長く発声することにより、簡易的なマークアップをすることを可能にする。また、本変形例に係る文字入力装置100は、発声の回数を抑えることができるため、特にキー操作が速いユーザに対して、マークアップ作業の負担を更に軽減することができる。
【0213】
なお、上述の対応ルールおよび補正ルールの内容は、以上の実施の形態2で説明した内容に制限されるものではなく、使用される言語や実際のシステムの性能等に応じて各種変形させることが望ましい。
【0214】
例えば、英語入力の場合には、タグ挿入可能位置を探索するのに文字種や品詞から推定する必要もなく、タグ挿入可能位置を空白や改行部分に限っても支障はない。また、英語の場合には、単語の途中で文字の色や大きさ等の属性が変化することも考えられない。したがって、同期・自動補正部は、英語のテキスト情報を処理対象とする場合、構成単位の分割を行わず、空白や改行部分のうち、最も近いものを、タグ挿入位置に決定するなど、よりシンプルな手法を用いることができる。但し、この場合は、ユーザが自然と思うような、対応ルールあるいは補正ルールを設定することが必要である。
【0215】
また、キー入力部220は、仮名テキスト情報を、変換前テキスト情報として入力してもよい。
【0216】
また、文字変換部230は、例えば、入力履歴に基づく予測変換機能などにより、キー操作により入力された1つの文字情報を、複数のテキスト情報に変換してもよい。この場合、キー操作同期情報付加部210(キー入力系統部200)は、テキスト情報のそれぞれに対して、複数のテキスト情報全体における順序に沿った異なるタイミングを示すキー操作同期情報を付加すればよい。
【0217】
また、以上説明した実施の形態2では、同期情報付きテキスト情報および同期情報付きマークアップ情報がXMLで記述される例について説明したが、これに限定されない。同期情報付きテキスト情報および同期情報付きマークアップ情報は、文書のある範囲に特別な属性を与えることができるような、XMLと同等の表現力をもったマークアップフォーマットであれば、どのような言語で記述されてもよい。例えば、同期情報付きテキスト情報および同期情報付きマークアップ情報は、マイクロソフト社のRTF(Rich Text Format)により記述されてもよいし、他のワードプロセッサごとの独自フォーマットなどであってもよい。
【0218】
また、本発明の適用は、スマートホンなどの携帯端末に制限されない。本発明は、キー操作によるテキスト情報の入力と、音声入力によるマークアップ情報の入力を受け付ける各種の装置に適用することができる。
【産業上の利用可能性】
【0219】
本発明は、マークアップ情報の設定操作をより少ない負担で行うことができる文字入力装置および文字入力方法として有用である。本発明は、特に、携帯端末などの入力インタフェースの大きさが限られた機器における文字入力装置および文字入力方法として有用である。
【符号の説明】
【0220】
100 文字入力装置
200 キー入力系統部
210 キー操作同期情報付加部
220 キー入力部
230 文字変換部
300 音声入力系統部
310 音声入力同期情報付加部
320 音声入力部
330 マークアップ用音声認識部
340 マークアップ命令変換部
400 同期・自動補正部
600 認識辞書生成装置
700 テキストアプリ

【特許請求の範囲】
【請求項1】
キー操作を受け付け、受け付けた前記キー操作に対応するテキスト情報を出力するキー入力系統部と、
音声の入力を受け付け、入力した前記音声に対応するマークアップ情報を出力する音声入力系統部と、を有し、
前記キー入力系統部は、
前記キー操作のタイミングを示すキー操作同期情報を、当該キー操作に対応して出力される前記テキスト情報に付加し、
前記音声入力系統部は、
前記音声の入力のタイミングを示す音声入力同期情報を、当該音声に対応して出力される前記マークアップ情報に付加する、
文字入力装置。
【請求項2】
前記キー入力系統部は、
前記キー操作により入力された1つまたは複数の文字情報を1つの前記テキスト情報に変換する文字変換部、を更に有し、
前記キー操作同期情報は、前記テキスト情報に変換された前記1つまたは複数の文字情報のうち、最初に入力された前記文字情報を入力した前記キー操作のタイミングである、キー操作開始タイミングを示す、
請求項1記載の文字入力装置。
【請求項3】
前記キー操作同期情報は、前記テキスト情報に変換された前記1つまたは複数の文字情報のうち、最後に入力された前記文字情報を入力した前記キー操作のタイミングである、キー操作終了タイミングを示す、
請求項2記載の文字入力装置。
【請求項4】
前記文字変換部は、
前記キー操作により入力された1つの文字情報を複数の前記テキスト情報に変換し、
前記キー入力系統部は、
前記1つの文字情報が前記複数のテキスト情報に変換されたとき、前記テキスト情報のそれぞれに対して、前記複数のテキスト情報全体における順序に沿った異なるタイミングを示す前記キー操作同期情報を付加する、
請求項2記載の文字入力装置。
【請求項5】
前記音声入力系統部は、
入力された一まとまりの発話音声を1つの前記マークアップ情報に変換する命令変換部、を更に有し、
前記音声入力同期情報は、前記マークアップ情報に変換された前記一まとまりの発話音声の入力が開始したタイミングである、音声入力開始タイミングを示す、
請求項3記載の文字入力装置。
【請求項6】
前記音声入力同期情報は、前記マークアップ情報に変換された前記一まとまりの発話音声の入力が終了したタイミングである、音声入力終了タイミングを示す、
請求項5記載の文字入力装置。
【請求項7】
前記命令変換部は、
入力された一まとまりの発話音声に対して音声認識処理を行い、テキスト情報を生成する音声認識部、を更に有し、
前記音声認識部により生成された前記テキスト情報を、前記マークアップ情報に変換する、
請求項6記載の文字入力装置。
【請求項8】
前記キー入力系統部は、
アルファベットテキスト情報および仮名テキスト情報の少なくとも1つを、前記テキスト情報として入力するキー入力部、を有し、
前記文字変換部は、
前記キー入力部により入力されたアルファベットテキスト情報および仮名テキスト情報を、仮名漢字テキスト情報に変換する、
請求項2記載の文字入力装置。
【請求項9】
前記キー操作および前記音声の入力を行うユーザにとっての、前記キー操作のタイミングと前記音声の入力のタイミングとの対応関係を規定する対応ルールを予め格納し、前記テキスト情報および前記マークアップ情報を、当該テキスト情報に付加された前記キー操作同期情報と、当該マークアップ情報に付加された前記音声入力同期情報と、前記対応ルールが示す前記対応関係とに従って、対応付けて出力する同期・自動補正部、を更に有する、
請求項6記載の文字入力装置。
【請求項10】
前記同期関係ルールは、
前記音声入力開始タイミングと、当該タイミングの直後の所定の区間における前記キー操作開始タイミングとが対応していることを、少なくとも規定する、
請求項9に記載の文字入力装置。
【請求項11】
前記同期関係ルールは、
前記音声入力終了タイミングと、当該タイミングの直前の所定の区間における前記キー操作終了タイミングとが対応していることを、少なくとも規定する、
請求項10に記載の文字入力装置。
【請求項12】
前記同期・自動補正部は、
前記テキスト情報を画像表示し、かつ、前記テキスト情報に前記マークアップ情報が対応付けられている場合には当該マークアップ情報に従って前記テキスト画像の表示状態を制御する表示部に対して、前記テキスト情報および前記マークアップ情報を出力する、
請求項11に記載の文字入力装置。
【請求項13】
キー操作を受け付けるステップと、
受け付けた前記キー操作のタイミングを示すキー操作同期情報を、当該キー操作に対応するテキスト情報に付加するステップと、
前記キー操作同期情報が付加された前記テキスト情報を出力するステップと、
音声の入力を受け付けるステップと、
入力した前記音声の入力のタイミングを示す音声入力同期情報を、当該音声に対応するマークアップ情報に付加するステップと、
前記音声入力同期情報が付加された前記マークアップ情報を出力するステップと、を有する、
文字入力方法。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate

【図8】
image rotate

【図9】
image rotate

【図10】
image rotate

【図11】
image rotate

【図12】
image rotate

【図13】
image rotate

【図14】
image rotate

【図15】
image rotate

【図16】
image rotate

【図17】
image rotate

【図18】
image rotate

【図19】
image rotate

【図20】
image rotate

【図21】
image rotate

【図22】
image rotate

【図23】
image rotate

【図24】
image rotate

【図25】
image rotate

【図26】
image rotate


【公開番号】特開2013−34100(P2013−34100A)
【公開日】平成25年2月14日(2013.2.14)
【国際特許分類】
【出願番号】特願2011−169192(P2011−169192)
【出願日】平成23年8月2日(2011.8.2)
【出願人】(000005821)パナソニック株式会社 (73,050)
【Fターム(参考)】