愛称を推定する装置、方法およびプログラム

【課題】人名等の名称から愛称をより適切に取得する愛称推定装置を提供する。
【解決手段】名称に含まれる文字のうち、愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む愛称の候補の生成規則を記憶するルール記憶部１２１と、名称を入力する名称入力部１０１と、入力された名称に含まれる文字のうち、生成規則の位置情報で表される位置の文字を取得し、取得した文字と生成規則の付加文字列とを結合した愛称の候補を生成する候補生成部１０２と、生成された愛称の候補を出力する出力部１０３と、を備えた。

【発明の詳細な説明】
【技術分野】
【０００１】
この発明は、名称を入力として愛称を推定して出力する装置、方法およびプログラムに関する。
【背景技術】
【０００２】
近年、情報検索技術は広く浸透し多様な場面で使われるようになってきた。一般的に、情報検索を実行する際には、検索キーワードを入力として与え、入力された検索キーワードに一致または強く関連するような文書を結果として返す。例えば、ある人物の名称を検索キーワードとして、当該人物に関連する文書をＷｅｂページから検索することなどが行われている。
【０００３】
人名等の名称には正式名称のほかに、他の呼び名として、愛称、略称、別名、および通称等が存在する。このため、正式名称と愛称等との対応関係を知らなければ、一方のみを検索キーワードとして検索することになり、必要な情報を網羅的に探すことが困難となる。例えば、人名「Ｏ田Ｙ美」で愛称「Ｙりん」である人物がいたとき、「Ｏ田Ｙ美」だけを検索キーワードとすると、「Ｙりん」のみを含む情報を取得することができない。
【０００４】
一方、音声認識技術を用いたヒューマンインタフェースの実用化も進んでいる。そして、今後は音声対話や音声による情報検索が行われると想定される。音声による情報検索処理では、テキストによる情報検索処理と比較して、愛称等の表現が使われる可能性が高い。このため、ユーザの自由な発話を促進するためにも、愛称等の表現を正式名称に対応付けて認識できることが必要である。
【０００５】
一般に音声認識では、発話された音声と照合するための音声認識辞書が用いられる。そして、音声認識辞書に存在しない未登録語は音声認識することができない。このため、愛称等の表現が音声認識辞書に単語登録されていなければ、音声で発話された愛称を認識することさえできない。さらに、検索対象となりうる人物の人名や愛称は日々更新されうるため、更新されうる人名等を正常に認識できるように音声認識辞書も更新する必要があるが、コストが大きい。
【０００６】
例えば、検索対象となる人物としては、テレビ番組に出演するような芸能人が挙げられる。ところが、テレビ番組等では、新規な芸能人が登場し、その愛称が急速に広まることが多い。このように日々更新されうる人名等に対応するために、音声認識辞書を更新し続ける必要がある。
【０００７】
なお、略称と正式名称との対応関係を獲得するための技術として、入力語を語分割し、分割した単語の頭文字を組み合わせる技術や、公的機関、大企業などの正式名称とその略称とを対応づけてデータベースに保持する技術が提案されている（例えば、特許文献１）。しかし、上述の音声認識辞書と同様に、日々更新されうる人名などを対象とする場合は、最新のデータベースを人手で提供し続けるためのコストが増大する。また、単語の頭文字を組み合わせるというだけの簡単な略称生成方法では、正式名称に含まれる語句以外の文字を含みうる愛称を生成できない。例えば、正式名称「Ｎ弁護士連盟」から略称「Ｎ弁連」などは生成できるが、正式名称「Ｎ弁護士連盟」に含まれる語句以外の文字を含みうる愛称は生成できない。
【０００８】
また、特許文献２では、略称生成ルールを用いて、名称から略称を生成する技術が提案されている。この方法では、入力語を分割した各基本語のうち、略称生成に用いる箇所を指定するような略称生成ルールを保持する。そして、この略称生成ルールによって入力語から略称候補が生成される。また、語検索装置の対象文書に付与されたキーワード中に略称候補が存在すれば略称として判定され、略称による語検索も行われる。
【０００９】
なお、略称とは、長い名称を省略したものであるため、正式名称に関連した文字列のみで構成される。例えば、人名「Ｐ田Ａ也」、人名の読み「ピイタエイヤ」、愛称「ピイエイ」である人物の場合、人名の読みに含まれる文字列のみで構成される略称が愛称となっていると言える。一方、人名「Ｓ田Ｕ朗」、愛称「トケイ王子」である人物のように、人名とは全く異なる表現が愛称とされる場合がある。また、人名「Ｉ田Ｍ也」、人名の読み「アイタメツヤ」である人物に対して、人名の読みの一部を利用して元の人名とは関係のない文字を挿入し、新規の単語である愛称「メッチー」を作り出す場合がある。後者の２つの場合には、特許文献２のような略称の生成方法では愛称を生成することはできない。
【００１０】
また、特許文献２では、語検索装置の対象文書にキーワードが付与されており、キーワードとして与えられている単語に略称候補が存在すればその略語候補が略語として選定される。例えば、「生命保険」という検索キーワードに対し、「生命保」「生保」「生保険」といった略語候補が存在するとき、文書に付与されたキーワードとして「生保」が存在すれば「生保」だけが略語として認定される。
【００１１】
すなわち、特許文献２では、略称候補がキーワードとして付与された文書が存在することが前提となっている。しかし、例えば、Ｗｅｂページから検索する場合のように、愛称がキーワードとして語分割されているデータが存在しない場合には、愛称候補が生成された後、生成された愛称候補から適切な愛称候補を選定することは困難となる。
【００１２】
一方、非特許文献１では、呼称と正式名称とが、「（呼称）こと（正式名称）」という日本語独特の典型表現で表されることを利用して呼称を抽出する技術が提案されている。具体的には、非特許文献１の方法では、「こと（正式名称）」を検索キーワードとしてＷｅｂ検索を行い、「こと」の前に出現する文字から正式名称に対応する呼称を抽出している。この方法によれば、上記の「ピイエイ」「トケイ王子」「メッチー」のいずれの愛称も取得できる可能性がある。
【００１３】
【特許文献１】特開２００３−３３３１６１号公報
【特許文献２】特開平１１−２５１１７号公報
【非特許文献１】外間智子ほか、“Web データを用いた人物の呼称抽出”、DBSJ Letters Vol.5 No.2
【発明の開示】
【発明が解決しようとする課題】
【００１４】
しかしながら、非特許文献１の方法であっても、正式名称に対応する正しい愛称を取得できない場合がある。非特許文献１では、「こと」の前に出現する文字列中から呼称部分を抽出する際に形態素解析器を使用している。このため、形態素解析器が利用する辞書中に愛称が単語として登録されておらず、愛称が名前から作られた造語であるような場合には、愛称を文字列中から切り分けることが困難となる。例えば、非特許文献１の方法では、正しい愛称が「Ｕーちゃん」であっても、「ーちゃん」が愛称として抽出される場合がある。
【００１５】
また、非特許文献１では、上述のように「（愛称）こと（正式名称）」などの典型表現を利用しているが、検索対象文書中で愛称がそのような典型表現で記載されていない場合には、愛称を取得することができない。
【００１６】
本発明は、上記に鑑みてなされたものであって、人名等の名称から愛称をより適切に取得できる装置、方法およびプログラムを提供することを目的とする。
【課題を解決するための手段】
【００１７】
上述した課題を解決し、目的を達成するために、本発明は、名称から前記名称の愛称を推定する愛称推定装置であって、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部と、前記名称を入力する名称入力部と、入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成部と、生成された前記愛称の候補を出力する出力部と、を備えたことを特徴とする。
【００１８】
また、本発明は、上記装置を実行することができる方法およびプログラムである。
【発明の効果】
【００１９】
本発明によれば、人名等の名称から愛称をより適切に取得できるという効果を奏する。
【発明を実施するための最良の形態】
【００２０】
以下に添付図面を参照して、この発明にかかる装置、方法およびプログラムの最良な実施の形態を詳細に説明する。
【００２１】
（第１の実施の形態）
上述のように、従来は、愛称、略称、および別名等は、予め人手で作成してデータベースに登録していた。また、略称の場合は、所定の略称生成パターンによって、正式名称から略称を推定する方法が用いられていた。しかし、テレビ番組の番組表データ（ＥＰＧ（Electronic Program Guide）データ）のような日々更新される情報では、例えば新しい芸能人が現れることによってデータの更新が頻繁に必要となる。このため、辞書に蓄えておくだけは充分に対応することが困難である。また、辞書の更新を人手で行うのはコストがかかる。
【００２２】
第１の実施の形態にかかる愛称推定装置は、予め定められた愛称の候補（愛称候補）の生成規則（愛称生成ルール）に従って、入力された名称に対する愛称候補を生成する。
【００２３】
図１は、第１の実施の形態にかかる愛称推定装置１００の構成を示すブロック図である。図１に示すように、愛称推定装置１００は、ルール記憶部１２１と、名称入力部１０１と、候補生成部１０２と、出力部１０３と、を備えている。
【００２４】
ルール記憶部１２１は、入力された名称の愛称候補を生成するための愛称生成ルールを記憶する。図２は、ルール記憶部１２１に記憶された愛称生成ルールの一例を示す図である。図２に示すように、愛称生成ルールは、入力された名称のうち、いずれの文字種のいずれの位置の文字を使って愛称を生成するかを特定する情報（記号）と、愛称の一部を構成する付加文字列（「ちゃん」など）とを含んでいる。
【００２５】
本実施の形態では、３桁の数値による記号で文字種と文字の位置を特定可能としている。１００の位の数値は文字種を表し、「１」が正式名称、「２」がひらがな表記、および「３」がカタカナ表記にそれぞれ対応する。１０の位の数値は、名称を構成する各語句単位の、名称の先頭を基準とした位置を識別するための情報を表す。例えば、姓と名とを語句単位とする人名の場合、１０の位の数値が「１」の場合は姓を表し、「２」の場合は名を表す。なお、例えば、グループ名、団体名等の名称では、３つ以上の語句単位から構成される場合があるため、１０の位の数値は３以上となりうる。以下では、１０の位の数値は、「１（姓）」および「２（名）」のいずれかを取る場合を例に説明する。１の位の数値は、各語句単位内での先頭からの位置を識別するための情報を表す。
【００２６】
なお、同図では愛称生成ルールの欄の右に愛称生成ルールを適用した例を記載しているが、実際のルール記憶部１２１には愛称生成ルールのみが記憶されている。
【００２７】
また、ルール記憶部１２１は、ＨＤＤ（Hard Disk Drive）、光ディスク、メモリカード、ＲＡＭ（Random Access Memory）などの一般的に利用されているあらゆる記憶媒体により構成することができる。
【００２８】
名称入力部１０１は、人名等の名称の入力を受け付ける。なお、名称入力部１０１は、語句単位を識別可能な形式で名称の入力を受付ける。例えば、人名の場合、名称入力部１０１は、姓と名とをそれぞれ独立に入力する。
【００２９】
また、名称入力部１０１は、正式名称とともに、正式名称のひらがな表記およびカタカナ表記の入力を受付ける。例えば、人名が「Ｐ田Ａ也」の場合、名称入力部１０１は、姓名を分けた正式名称である姓の「Ｐ田」と名の「Ａ也」とともに、ひらがな表記の姓の「ぴいた」と名の「えいや」や、カタカナ表記の姓「ピイタ」と名の「エイヤ」の入力を受付ける。
【００３０】
なお、名称の入力方法はこれに限られず、名称を構成する語句単位を識別可能な方法であればあらゆる方法を適用できる。例えば、名称入力部１０１が、スペースなどの所定の文字列で語句単位に区切られた名称の入力を受付けるように構成してもよい。
【００３１】
また、名称を語句単位に区切らずに入力するように構成してもよい。この場合、名称入力部１０１は、例えば人名辞典を利用して入力された「Ｐ田Ａ也」を姓の「Ｐ田」と名の「Ａ也」に分けるように構成してもよい。また、ひらがな表記とカタカナ表記の入力を受付ける代わりに、名称入力部１０１が、人名辞典等を利用して入力された正式名称の読みを推定し、ひらがな表記やカタカナ表記を取得するように構成してもよい。
【００３２】
候補生成部１０２は、ルール記憶部１２１に記憶されている愛称生成ルールを参照して、入力された名称に対する愛称候補を生成する。具体的には、候補生成部１０２は、入力された名称を記号に変換し、愛称生成ルール中の記号のうち、変換した記号と同一の記号を、変換した記号に対応する文字に置き換えることにより愛称候補を生成する。
【００３３】
ここで、名称から記号への変換方法の具体例について、図３〜図６を用いて説明する。図３は、入力された名称データの一例を示す図である。図３に示すように、以下では、漢字を含む正式名称である名称１と、ひらがな表記である名称２と、カタカナ表記である名称３とが入力された場合を例に説明する。なお、同図の記号欄は、各名称を記号に変換した結果を表している。変換方法の詳細は、それぞれ図４〜図６で説明する。
【００３４】
図４は、図３の名称１（正式名称）を記号に変換する例を示す図である。図４は、名称１に含まれる文字表記ごとに、文字種、語句単位の位置（姓か名か）、および語句単位内での文字位置と、変換結果である記号とを表している。名称１は、正式名称であるため、文字種は「１」となる。また、区切り文字であるスペースの前後のいずれに位置するかによって、各文字表記に対応する姓名欄が「１」および「２」のいずれかに設定される。さらに、姓または名内での各文字表記の文字位置が設定される。そして、文字種、姓名、および文字位置に対応する各数値を結合した３桁の数値が変換結果の記号として生成される。
【００３５】
図５は、図３の名称２（ひらがな表記）を記号に変換する例を示す図である。名称２はひらがな表記であるため、文字種に「２」が設定される。また、図６は、図３の名称３（カタカナ表記）を記号に変換する例を示す図である。名称３はカタカナ表記であるため、文字種に「３」が設定される。
【００３６】
候補生成部１０２は、このようにして各名称を記号に変換し、図３に示すような記号を生成する。そして、候補生成部１０２は、変換した記号と同一の記号を含む愛称生成ルールに、変換した記号に対応する文字を当てはめることによって、愛称候補を生成する。
【００３７】
例えば、正式名称として図３の人名３０１（「Ｐ田Ａ也」）と、カタカナ表記３０２（「ピイタエイヤ」）とが入力され、図２の最上部の愛称生成ルール「３１１３１２３２１３２２」に対して、入力された名称を適用する場合を考える。この場合、愛称生成ルール内の記号はいずれも１００の位の数字が３であるため、候補生成部１０２は、カタカナ表記の文字を当てはめて愛称候補を生成する。具体的には、候補生成部１０２は、図２の最上部の愛称生成ルール中の「３１１」の部分に「ピ」、「３１２」の部分に「イ」、「３２１」の部分に「エ」、および「３２２」の部分に「イ」を当てはめ、図２の愛称候補２０１（「ピイエイ」）を生成する。
【００３８】
出力部１０３は、候補生成部１０２が生成した１つまたは複数の愛称候補を出力する。適合する愛称生成ルールが存在せず、愛称候補が生成されなかった場合は、出力部１０３は、該当候補なしという結果を出力してもよい。
【００３９】
次に、このように構成された第１の実施の形態にかかる愛称推定装置１００による愛称推定処理について図７を用いて説明する。図７は、第１の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【００４０】
まず、名称入力部１０１が、正式名称、ひらがな表記、およびカタカナ表記を含む名称データを入力する（ステップＳ７０１）。次に、候補生成部１０２が、名称データ内の正式名称、ひらがな表記、およびカタカナ表記をそれぞれ記号化する（ステップＳ７０２）。
【００４１】
次に、候補生成部１０２は、ルール記憶部１２１から愛称生成ルールを取得する（ステップＳ７０３）。そして、候補生成部１０２は、記号化した名称を愛称生成ルールに適用して愛称候補を生成する（ステップＳ７０４）。具体的には、候補生成部１０２は、取得した愛称生成ルールそれぞれについて、愛称生成ルールに含まれる記号のうち、ステップＳ７０２で名称から変換した記号と同一の記号を、変換した記号の変換元の文字に置き換えた愛称候補を生成する。最後に、出力部１０３が、生成された愛称候補を出力し（ステップＳ７０５）、愛称推定処理を終了する。
【００４２】
このように、第１の実施の形態にかかる愛称推定装置では、予め定められた愛称生成ルールに従って、入力された名称に対する愛称候補を生成できるため、人名等の名称から愛称をより適切に取得することができる。
【００４３】
また、生成した愛称候補によって音声認識辞書や愛称辞書を更新できるため、人手による辞書作成コストを削減することができる。さらに、情報検索の際に、正式名称と、生成された愛称候補との対応を用いることにより、いずれか一方が入力された場合であっても、愛称と正式名称の両方で検索を行うことが可能になる。
【００４４】
一方、音声対話の際には、愛称推定結果を元に音声認識辞書に愛称を追加しておけば、ユーザが愛称で人名を呼称した場合であっても、愛称を正しく音声認識することが可能になる。また、人名が愛称で呼称された場合であっても、愛称を正式名称に変換することにより、呼称の対象を正しく理解することが可能になる。
【００４５】
（第２の実施の形態）
第２の実施の形態にかかる愛称推定装置は、Ｗｅｂなどから取得された文書を対象として、生成された愛称候補を検索し、当該文書に含まれる愛称候補を選択することにより、さらに適切な愛称候補を取得する。
【００４６】
図８は、第２の実施の形態にかかる愛称推定装置８００の構成を示すブロック図である。図８に示すように、愛称推定装置８００は、ルール記憶部１２１と、文書記憶部８２２と、名称入力部１０１と、候補生成部１０２と、出力部１０３と、選択部８０４と、を備えている。
【００４７】
第２の実施の形態では、文書記憶部８２２と選択部８０４とを追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる愛称推定装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。
【００４８】
文書記憶部８２２は、Ｗｅｂページなどの所定の文書群を検索対象とし、正式名称を検索キーワードとして実行された検索処理の処理結果である文書を記憶する。文書記憶部８２２は、例えば検索キーワードの個数等に応じて順位付けされた検索結果の文書のうち、上位の所定数の文書を記憶する。
【００４９】
選択部８０４は、候補生成部１０２が生成した愛称候補から、より適切な愛称候補を選択する。具体的には、選択部８０４は、まず生成された愛称候補それぞれについて、文書記憶部８２２に記憶した文書に愛称候補が含まれているか否かを判定する。そして、選択部８０４は、文書記憶部８２２の文書中に含まれる愛称候補に対して、「（愛称候補）こと（正式名称）」という連語を検索キーワードとし、Ｗｅｂページを検索対象として検索を実行する。そして、選択部８０４は、検索されたＷｅｂページが多い順に愛称候補を順位付けし、上位の所定数の愛称候補を選択する。
【００５０】
次に、このように構成された第２の実施の形態にかかる愛称推定装置８００による愛称推定処理について図９を用いて説明する。図９は、第２の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【００５１】
ステップＳ９０１からステップＳ９０４までの、名称入力処理、記号化処理、ルール取得処理、および候補生成処理は、第１の実施の形態にかかる愛称推定装置１００におけるステップＳ７０１からステップＳ７０４までと同様の処理なので、その説明を省略する。
【００５２】
愛称候補が生成された後、選択部８０４は、正式名称を検索キーワードとしてＷｅｂページなどの所定の文書群を検索し、上位の所定数の検索結果である文書を文書記憶部８２２に保存する（ステップＳ９０５）。
【００５３】
次に、選択部８０４は、保存した文書に各愛称候補が存在するか否かを判定し、保存した文書中に含まれる愛称候補のみを選択する（ステップＳ９０６）。さらに、選択部８０４は、選択した愛称候補それぞれについて、「（愛称候補）こと（正式名称）」という連語を検索キーワードとしてＷｅｂ上で検索を行う（ステップＳ９０７）。そして、選択部８０４は、ヒット件数順に愛称候補を並べ、上位Ｎ個の候補を選択する（ステップＳ９０８）。
【００５４】
最後に、出力部１０３が、選択された愛称候補を出力し（ステップＳ９０９）、愛称推定処理を終了する。
【００５５】
なお、選択部８０４が、出力部１０３によって出力された愛称候補から、ユーザが指定した愛称候補を選択するように構成してもよい。この場合、例えば、出力部１０３が、生成された愛称候補をディスプレイなどの表示装置に表示し、キーボードやマウスなどのインターフェースによって、ユーザが表示された愛称候補から所望の愛称候補を指定可能とする。また、例えば、出力部１０３が、生成された愛称候補のテキストデータを音声信号に合成してスピーカから出力し、マイク等のインターフェースによってユーザが音声によって所望の愛称候補を指定できるように構成してもよい。
【００５６】
ユーザに呼びかけを行うロボットなどの対話装置に本実施の形態を適用する場合、名称入力部１０１でユーザ等の名前を入力し、出力部１０３から出力された愛称を呼称表現として利用してもよい。この場合、対話装置は、例えば選択部８０４によって任意に愛称候補を選択し、選択した愛称で呼称して良いか否かを、ユーザに対して音声で確認するように構成してもよい。
【００５７】
このように、第２の実施の形態にかかる愛称推定装置では、Ｗｅｂなどの所定の文書群から取得された文書を対象として、生成された愛称候補を検索し、当該文書に含まれる愛称候補を選択することによって、より適切な愛称候補を取得することができる。
【００５８】
（第３の実施の形態）
第３の実施の形態にかかる愛称推定装置は、名称と、当該名称について事前に分かっている愛称との対を入力して愛称生成ルールを学習する。
【００５９】
図１０は、第３の実施の形態にかかる愛称推定装置１０００の構成を示すブロック図である。図１０に示すように、愛称推定装置１０００は、ルール記憶部１２１と、名称入力部１０１と、候補生成部１０２と、出力部１０３と、学習データ入力部１００５と、学習部１００６と、を備えている。
【００６０】
第３の実施の形態では、学習データ入力部１００５および学習部１００６を追加したことが第１の実施の形態と異なっている。その他の構成および機能は、第１の実施の形態にかかる愛称推定装置１００の構成を表すブロック図である図１と同様であるので、同一符号を付し、ここでの説明は省略する。
【００６１】
学習データ入力部１００５は、名称と、その名称について既に分かっている愛称とを対応づけた学習データを入力する。学習データ入力部１００５は、姓名に分割された正式名称、正式名称のひらがな表記、および正式名称のカタカナ表記などの異なる表記と、愛称との対を学習データとして入力する。なお、姓名に分割前の名称とその愛称との対を与えるように構成してもよい。
【００６２】
学習部１００６は、入力された学習データから新たな愛称生成ルールを生成し、生成した愛称生成ルールをルール記憶部１２１に保存する。具体的には、学習部１００６は、まず、入力された学習データの名称と愛称との双方に共通して含まれる共通文字を取得する。そして、学習部１００６は、得られた共通文字を候補生成部１０２と同様の方法により記号化する。さらに、学習部１００６は、学習データの愛称のうち共通文字を図３に示すような名称データの記号に置き換えることにより愛称生成ルールを作成する。
【００６３】
次に、このように構成された第３の実施の形態にかかる愛称推定装置１０００による学習処理について図１１および図１２を用いて説明する。図１１は、第３の実施の形態における学習処理の全体の流れを示すフローチャートである。また、図１２は、生成された愛称生成ルールの一例を示す図である。
【００６４】
なお、学習された愛称生成ルール、または事前に記憶された愛称生成ルールによる愛称推定処理は、第１の実施の形態の愛称推定処理を表す図７と同様であるためその説明を省略する。
【００６５】
まず、学習データ入力部１００５は、名称と愛称との対である学習データを入力する（ステップＳ１１０１）。次に、学習部１００６は、名称と愛称とに共通する共通文字を取得する（ステップＳ１１０２）。次に、学習部１００６は、取得した共通文字を記号化する（ステップＳ１１０３）。
【００６６】
例えば、姓名に分割された人名である図１２の正式名称１２０１（「Ｈ田Ｉ美」）と、愛称１２０２（「Ｉちゃん」）とを対応づけた学習データが入力された場合、学習部１００６は、「Ｉ」を共通文字として取得する。「Ｉ」は、正式名称の名の最初の文字であるため、学習部１００６は、この共通文字を「１２１」に記号化する。
【００６７】
次に、学習部１００６は、共通文字の記号と、愛称内の共通文字以外の文字とを結合して愛称生成ルールを作成する（ステップＳ１１０４）。上記例では、記号化した「１２１」と、愛称内の共通文字「Ｉ」以外の文字とを結合した愛称生成ルール１２０３（「１２１ちゃん」）が作成される。
【００６８】
図１２では、人名「Ｐ野Ｓ也」のひらがな表記１２１１（「ぴいのえすや」）と、その愛称１２１２（「ぴいちゃん」）との対である学習データが入力された場合に生成される愛称生成ルール１２１３（「２１１２１２ちゃん」）の例も示されている。
【００６９】
なお、学習部１００６は、さらに、愛称生成ルールを相互に比較することにより、新たな愛称生成ルールを生成する。具体的には、学習部１００６は、まず、ある愛称生成ルール（ルール１とする）に対して記号部分のみが置き換えられた他の愛称生成ルール（ルール２とする）をルール記憶部１２１から検索する。そして、学習部１００６は、このようなルール２が存在する場合、ルール１と記号部分が共通する他の愛称生成ルール（ルール３とする）をさらに検索し、ルール３の記号部分をルール２の記号部分に置換した新たな愛称生成ルールを生成する。
【００７０】
例えば、図１２に示すように、愛称生成ルール１２０３（「１２１ちゃん」）、愛称生成ルール１２１３（「２１１２１２ちゃん」）、および愛称生成ルール１２２３（「１２１やん」）という３つの愛称生成ルールが、学習データから直接学習できたとする。このうち、愛称生成ルール１２０３（「１２１ちゃん」）および愛称生成ルール１２１３（「２１１２１２ちゃん」）は、記号である「１２１」と「２１１２１２」の部分のみが異なる。また、愛称生成ルール１２０３（「１２１ちゃん」）に対しては、同一の記号「１２１」を含む別の愛称生成ルール１２２３（「１２１やん」）が存在する。このため、学習部１００６は、愛称生成ルール１２２３（「１２１やん」）の記号「１２１」の部分を、「２１１２１２」に置き換えた愛称生成ルール（「２１１２１２やん」）を新たに生成することができる。
【００７１】
このように、学習データ中に直接学習することができるデータが存在しなかったとしても、既に学習された愛称生成ルールから、他の愛称生成ルール（「２１１２１２やん」）を類推学習することができる。
【００７２】
図１１に戻り、学習部１００６は、生成した愛称生成ルールをルール記憶部１２１に保存し（ステップＳ１１０５）、学習処理を終了する。
【００７３】
図１３は、学習された愛称生成ルールの使用例を示す図である。図１３は、正式名称１３０１（「Ｐ田Ｙ子」）と、正式名称の読みであるひらがな表記１３０２（「ぴいたわいこ」）と、カタカナ表記１３０３（「ピイタワイコ」）とが入力された例を示している。この場合、直接学習された３つの愛称生成ルール（「１２１ちゃん」、「２１１２１２ちゃん」、および「１２１やん」）からは、それぞれ愛称候補１３１１、１３１２、１３１３（「Ｙちゃん」、「ぴいちゃん」、「Ｙやん」）が生成される。さらに、直接学習された愛称生成ルールから類推学習された愛称生成ルール（「２１１２１２やん」）からは、愛称候補１３１４（「ぴいやん」）をさらに生成することができる。
【００７４】
このように、第３の実施の形態にかかる愛称推定装置では、名称と愛称とを対応づけた学習データを用いて愛称生成ルールを学習することができる。
【００７５】
上述のように、略称は、元の名称に関連した文字列のみで構成されるため、特許文献２のように略称を生成するための略称生成ルールを書き下すことは比較的容易である。一方、愛称は、名称とは無関係な文字が挿入され、表現の多様性が多い。このため、規則を書き下すことが難しい場合もある。本実施の形態の方法により愛称生成ルールを学習可能とすれば、このような問題を解消できる。
【００７６】
（第４の実施の形態）
第４の実施の形態にかかる愛称推定装置は、愛称生成ルールによる愛称候補の生成に加えて、Ｗｅｂなどの外部データから愛称候補を抽出し、生成および抽出した愛称候補から適切な愛称候補を選択する。
【００７７】
図１４は、第４の実施の形態にかかる愛称推定装置１４００の構成を示すブロック図である。図１４に示すように、愛称推定装置１４００は、ルール記憶部１２１と、文書記憶部８２２と、名称入力部１０１と、候補生成部１０２と、出力部１０３と、選択部１４０４と、候補抽出部１４０７と、を備えている。
【００７８】
第４の実施の形態では、候補抽出部１４０７を追加したこと、および選択部１４０４の機能が第２の実施の形態と異なっている。その他の構成および機能は、第２の実施の形態にかかる愛称推定装置８００の構成を表すブロック図である図８と同様であるので、同一符号を付し、ここでの説明は省略する。
【００７９】
候補抽出部１４０７は、Ｗｅｂ上のデータなどの外部データから愛称候補となる文字列を抽出する。候補抽出部１４０７は、例えば「（愛称）こと（正式名称）」のような典型表現を利用して外部データから愛称候補を含む文字列を検索する。具体的には、候補抽出部１４０７は、ある名称について、「こと（正式名称）」を検索キーワードとして外部データを検索する。そして、候補抽出部１４０７は、得られた文書から「こと（正式名称）」の前の所定数の文字からなる文字列を取得し、取得した文字列から愛称候補を抽出する。文字列の取得方法および取得した文字列から愛称候補を抽出する方法についての詳細は後述する。
【００８０】
選択部１４０４は、候補生成部１０２が生成した愛称候補に加えて、候補抽出部１４０７が抽出した愛称候補を対象として、愛称候補の選択処理を実行する。また、選択部１４０４は、生成された愛称候補それぞれについて、文書記憶部８２２に記憶した文書中の正式名称の前後の所定文字数内に愛称候補が含まれているか否かを判定する。そして、選択部１４０４は、文書中の正式名称の前後の所定文字数内に含まれる愛称候補に対して、「（愛称候補）こと（正式名称）」という連語を検索キーワードとし、Ｗｅｂページを検索対象として検索を実行する。そして、選択部１４０４は、検索されたＷｅｂページが多い順に愛称候補を順位付けし、上位の所定数の愛称候補を選択する。
【００８１】
次に、このように構成された第４の実施の形態にかかる愛称推定装置１４００による愛称推定処理について図１５を用いて説明する。図１５は、第４の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【００８２】
ステップＳ１５０１からステップＳ１５０４までの、名称入力処理、記号化処理、ルール取得処理、および候補生成処理は、第２の実施の形態にかかる愛称推定装置８００におけるステップＳ９０１からステップＳ９０４までと同様の処理なので、その説明を省略する。
【００８３】
愛称候補が生成された後、選択部１４０４は、正式名称を検索キーワードとしてＷｅｂページなどの所定の文書群を検索し、上位の所定数の検索結果である文書（以下、文書ｐａｇｅという）を文書記憶部８２２に保存する（ステップＳ１５０５）。
【００８４】
次に、選択部１４０４は、保存した文書ｐａｇｅから、正式名称の前後ｓ文字（ｓは１以上の整数）の文字列を取得する（ステップＳ１５０６）。さらに、選択部１４０４は、取得した文字列中に出現する愛称候補のみを選択する（ステップＳ１５０７）。
【００８５】
次に、候補抽出部１４０７が、文書ｐａｇｅから愛称候補を抽出する愛称候補抽出処理を実行する（ステップＳ１５０８）。愛称候補抽出処理の詳細については後述する。
【００８６】
次に、選択部１４０４は、ステップＳ１５０７で選択された愛称候補およびステップＳ１５０８で抽出された愛称候補のそれぞれについて、「（愛称候補）こと（正式名称）」という連語を検索キーワードとしてＷｅｂ上で検索を行う（ステップＳ１５０９）。そして、選択部１４０４は、ヒット件数順に愛称候補を並べ、上位Ｎ個の候補を選択する（ステップＳ１５１０）。
【００８７】
最後に、出力部１０３が、選択された愛称候補を出力し（ステップＳ１５１１）、愛称推定処理を終了する。
【００８８】
次に、ステップＳ１５０８の愛称候補抽出処理の詳細について図１６を用いて説明する。図１６は、第４の実施の形態における愛称候補抽出処理の全体の流れを示すフローチャートである。
【００８９】
まず、候補抽出部１４０７は、「こと（正式名称）」を検索キーワードとしてＷｅｂ検索を実行し、上位Ｎ件の文書を取得する（ステップＳ１６０１）。次に、候補抽出部１４０７は、取得した文書から、検索キーワードである「こと（正式名称）」の前のｔ文字（ｔは１以上の整数））の文字列ｓｔｒを取得する（ステップＳ１６０２）。
【００９０】
次に、候補抽出部１４０７は、取得した文字列ｓｔｒのそれぞれについて、文字列ｓｔｒの任意の位置の文字から文字列ｓｔｒの最後の文字までの範囲の文字列である接尾辞を生成する（ステップＳ１６０３）。
【００９１】
図１７は、接尾辞の一例を示す図である。図１７は、文字列１７０１（「今日は良い天気だ」）から作成される８つの接尾辞１７１１〜１７１８（「だ」、「気だ」、「天気だ」、「い天気だ」、「良い天気だ」、「は良い天気だ」、「日は良い天気だ」、「今日は良い天気だ」）を示している。
【００９２】
図１６に戻り、候補抽出部１４０７は、各接尾辞について、保存した文書ｐａｇｅおよび文字列ｓｔｒを対象から、接尾辞の前の１文字を取得し、取得した文字の種類数を取得する（ステップＳ１６０４）。
【００９３】
図１８は、種類数の取得方法の一例を示す模式図である。図１８は、図１７の接尾辞に対して、「今日は良い天気だ」、「明日は良い天気だ」、および「気持ちの良い天気だ」という３つの文字列のみが、文書ｐａｇｅおよび文字列ｓｔｒ内に存在するときの、各接尾辞の前の文字の種類数を表している。なお、図１８内の数値が、各接尾辞の直前の文字の種類数を表している。また、種類数を数える際には、文書ｐａｇｅ、文字列ｓｔｒ、および接尾辞中のカタカナ表記はひらがな表記に置き換えて数える。
【００９４】
この例では、例えば図１７の接尾辞１７１５（「良い天気だ」）に対しては、直前の文字として文字１８０１（「は」）および文字１８０２（「の」）が取得される。したがって、接尾辞１７１５に対する種類数は２となる。
【００９５】
図１６に戻り、候補抽出部１４０７は、各接尾辞のうち未処理の接尾辞を取得する（ステップＳ１６０５）。そして、候補抽出部１４０７は、取得した接尾辞に対してステップＳ１６０４で取得された種類数が１より大きく、かつ、接尾辞の先頭１文字を削除した接尾辞に対してステップＳ１６０４で取得された種類数が１であるか否かを判断する（ステップＳ１６０６）。
【００９６】
接尾辞に対して取得された種類数が１より大きく、かつ、接尾辞の先頭１文字を削除した接尾辞に対して取得された種類数が１である場合（ステップＳ１６０６：ＹＥＳ）、候補抽出部１４０７は、取得した接尾辞を愛称候補として抽出する（ステップＳ１６０７）。
【００９７】
接尾辞に対して取得された種類数が１より大きく、かつ、接尾辞の先頭１文字を削除した接尾辞に対して取得された種類数が１でない場合（ステップＳ１６０６：ＮＯ）、候補抽出部１４０７は、さらに、接尾辞に対して取得された種類数が１であり、かつ、接尾辞の先頭１文字を削除した接尾辞に対して取得された種類数が１より大きいか否かを判断する（ステップＳ１６０８）。
【００９８】
接尾辞に対して取得された種類数が１であり、かつ、接尾辞の先頭１文字を削除した接尾辞に対して取得された種類数が１より大きい場合（ステップＳ１６０８：ＹＥＳ）、候補抽出部１４０７は、取得した接尾辞から先頭１文字を削除した接尾辞を、愛称候補として抽出する（ステップＳ１６０９）。
【００９９】
次に、候補抽出部１４０７は、すべての接尾辞を処理したか否かを判断する（ステップＳ１６１０）。すべての接尾辞を処理していない場合（ステップＳ１６１０：ＮＯ）、候補抽出部１４０７は、次の未処理の接尾辞を取得して処理を繰り返す（ステップＳ１６０５）。
【０１００】
すべての接尾辞を処理した場合（ステップＳ１６１０：ＹＥＳ）、候補抽出部１４０７は、文字列ｓｔｒ中での頻度が一致する他の愛称候補の部分文字列である愛称候補を削除する（ステップＳ１６１１）。
【０１０１】
このような処理により、「こと（正式名称）」を検索キーワードとして検索した文書から、適切な愛称候補を抽出することができる。例えば、非特許文献１のように形態素解析器を利用する場合と比較すると、正しい愛称が「Ｕーちゃん」である場合に、誤って「ーちゃん」が愛称として抽出される可能性を低減することができる。
【０１０２】
このように、第４の実施の形態にかかる愛称推定装置では、Ｗｅｂなどの外部データから愛称候補を抽出できるため、さらに適切な愛称候補を選択することができる。例えば、愛称生成ルールのみでは、名称内の文字を全く含まない愛称を推定することが困難であるが、外部データを参照することにより、このような愛称も抽出することが可能となる。
【０１０３】
次に、第１〜第４の実施の形態にかかる愛称推定装置のハードウェア構成について図１９を用いて説明する。図１９は、第１〜第４の実施の形態にかかる愛称推定装置のハードウェア構成図である。
【０１０４】
第１〜第４の実施の形態にかかる愛称推定装置は、ＣＰＵ（Central Processing Unit）５１などの制御装置と、ＲＯＭ（Read Only Memory）５２やＲＡＭ５３などの記憶装置と、ネットワークに接続して通信を行う通信Ｉ／Ｆ５４と、ＨＤＤ、ＣＤ（Compact Disc）ドライブ装置などの外部記憶装置と、ディスプレイ装置などの表示装置と、キーボードやマウスなどの入力装置と、各部を接続するバス６１を備えており、通常のコンピュータを利用したハードウェア構成となっている。
【０１０５】
第１〜第４の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムは、インストール可能な形式又は実行可能な形式のファイルでＣＤ−ＲＯＭ（Compact Disk Read Only Memory）、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ（Compact Disk Recordable）、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。
【０１０６】
また、第１〜第４の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、第１〜第４の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。
【０１０７】
また、第１〜第４の実施の形態の愛称推定プログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。
【０１０８】
第１〜第４の実施の形態にかかる愛称推定装置で実行される愛称推定プログラムは、上述した各部（名称入力部、候補生成部、出力部、選択部、学習データ入力部、学習部、候補抽出部）を含むモジュール構成となっており、実際のハードウェアとしてはＣＰＵ５１（プロセッサ）が上記記憶媒体から愛称推定プログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、上述した各部が主記憶装置上に生成されるようになっている。
【産業上の利用可能性】
【０１０９】
以上のように、本発明にかかる装置、方法およびプログラムは、名称だけでなく名称の愛称が処理対象となりうる情報検索装置、音声認識装置、音声対話装置などに適している。
【図面の簡単な説明】
【０１１０】
【図１】第１の実施の形態にかかる愛称推定装置のブロック図である。
【図２】愛称生成ルールの一例を示す図である。
【図３】入力された名称データの一例を示す図である。
【図４】正式名称を記号に変換する例を示す図である。
【図５】ひらがな表記を記号に変換する例を示す図である。
【図６】カタカナ表記を記号に変換する例を示す図である。
【図７】第１の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【図８】第２の実施の形態にかかる愛称推定装置のブロック図である。
【図９】第２の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【図１０】第３の実施の形態にかかる愛称推定装置のブロック図である。
【図１１】第３の実施の形態における学習処理の全体の流れを示すフローチャートである。
【図１２】生成された愛称生成ルールの一例を示す図である。
【図１３】学習された愛称生成ルールの使用例を示す図である。
【図１４】第４の実施の形態にかかる愛称推定装置のブロック図である。
【図１５】第４の実施の形態における愛称推定処理の全体の流れを示すフローチャートである。
【図１６】第４の実施の形態における愛称候補抽出処理の全体の流れを示すフローチャートである。
【図１７】接尾辞の一例を示す図である。
【図１８】種類数の取得方法の一例を示す模式図である。
【図１９】第１〜第４の実施の形態にかかる愛称推定装置のハードウェア構成図である。
【符号の説明】
【０１１１】
５１ＣＰＵ
５２ＲＯＭ
５３ＲＡＭ
５４通信Ｉ／Ｆ
６１バス
１００愛称推定装置
１０１名称入力部
１０２候補生成部
１０３出力部
１２１ルール記憶部
２０１愛称候補
３０１人名
３０２カタカナ表記
８００愛称推定装置
８０４選択部
８２２文書記憶部
１０００愛称推定装置
１００５学習データ入力部
１００６学習部
１２０１正式名称
１２０２、１２１２愛称
１２０３、１２１３、１２２３愛称生成ルール
１２１１ひらがな表記
１３０１正式名称
１３０２ひらがな表記
１３０３カタカナ表記
１３１１〜１３１４愛称候補
１４００愛称推定装置
１４０４選択部
１４０７候補抽出部
１７０１文字列
１７１１〜１７１８接尾辞
１８０１、１８０２文字

【特許請求の範囲】
【請求項１】
名称から前記名称の愛称を推定する愛称推定装置であって、
前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部と、
前記名称を入力する名称入力部と、
入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成部と、
生成された前記愛称の候補を出力する出力部と、
を備えたことを特徴とする愛称推定装置。
【請求項２】
前記名称と前記名称について既に分かっている愛称とを対応づけた学習データを入力する学習データ入力部と、
前記学習データの前記名称と前記学習データの前記愛称とに共通して含まれる共通文字を取得し、前記学習データの前記名称から前記共通文字の位置を表す位置情報を生成し、前記学習データの前記愛称から前記共通文字を削除した文字列を生成し、生成した位置情報と生成した文字列とを前記愛称の候補の生成規則として学習する学習部と、をさらに備えたこと、
を特徴とする請求項１に記載の愛称推定装置。
【請求項３】
予め定められた第１文書に前記愛称の候補が含まれるか否かを判定し、前記第１文書に含まれる前記愛称の候補を選択する選択部をさらに備えたこと、
を特徴とする請求項１に記載の愛称推定装置。
【請求項４】
前記選択部は、さらに、予め定められた第２文書のうち、選択された前記愛称の候補を含む前記第２文書を検索し、検索された前記第２文書の数が多い順に予め定められた個数の前記愛称の候補を選択すること、
を特徴とする請求項３に記載の愛称推定装置。
【請求項５】
前記選択部は、前記第１文書のうち、入力された前記名称を含む前記第１文書を対象として、前記愛称の候補が含まれるか否かを判定し、前記第１文書に含まれる前記愛称の候補を選択すること、
を特徴とする請求項３に記載の愛称推定装置。
【請求項６】
前記選択部は、入力された前記名称を含む前記第１文書から、前記名称の前および後の少なくとも一方の予め定められた文字数の文字列を取得し、取得した文字列を対象として、前記愛称の候補が含まれるか否かを判定し、取得した文字列に含まれる前記愛称の候補を選択すること、
を特徴とする請求項５に記載の愛称推定装置。
【請求項７】
予め定められた第３文書のうち、入力された前記名称を含む前記第３文書を検索し、検索された前記第３文書の前記名称の前および後の少なくとも一方の予め定められた文字数の文字列を取得し、取得した文字列から前記愛称の候補を抽出する抽出部をさらに備えたこと、
を特徴とする請求項１に記載の愛称推定装置。
【請求項８】
出力された前記愛称の候補のうち、利用者によって指定された前記愛称の候補を選択する選択部をさらに備えたこと、
を特徴とする請求項１に記載の愛称推定装置。
【請求項９】
名称から前記名称の愛称を推定する愛称推定装置で実行される愛称推定方法であって、
前記愛称推定装置は、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部を備え、
名称入力部が、前記名称を入力する名称入力ステップと、
生成部が、入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成ステップと、
出力部が、生成された前記愛称の候補を出力する出力ステップと、
を備えたことを特徴とする愛称推定方法。
【請求項１０】
名称から前記名称の愛称を推定する愛称推定装置で実行される愛称推定プログラムであって、
前記愛称推定装置は、前記名称に含まれる文字のうち、前記愛称の候補に含める文字の位置を表す位置情報と、予め定められた付加文字列とを含む前記愛称の候補の生成規則を記憶する規則記憶部を備え、
前記名称を入力する名称入力手順と、
入力された前記名称に含まれる文字のうち、前記生成規則の前記位置情報で表される位置の文字を取得し、取得した文字と前記生成規則の前記付加文字列とを結合した前記愛称の候補を生成する生成手順と、
生成された前記愛称の候補を出力する出力手順と、
を前記愛称推定装置に実行させる愛称推定プログラム。

【図１】