説明

検索装置、検索方法及び検索プログラム

【課題】様々な文字コードで記載されたメタデータを検索する。
【解決手段】入力部11が入力したキーワードを、変換部12が対応辞書蓄積部121を用いてキーワードの文字を一字ずつ別の文字コードに変換し、検索部13が文字コードが変換されたキーワードを用いて対応するデータベースを検索する。これにより、入力されたキーワードの文字コードと異なる文字コードでデータベースにメタデータが格納されていても、キーワードやメタデータが辞書登録のない固有名詞や流行語、新語、造語などであっても検索することができる。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、コンテンツのメタデータを検索する技術に関する。
【背景技術】
【0002】
コンピュータ上では、文字コードを指定して2バイトの数字で漢字を扱う。漢字を使う国や地域としては、日本、中国、韓国、及びアジア圏にある国々や地域(例えば、シンガポール、マレーシア、台湾、香港など)がある。漢字を扱う国や地域によって、使われている文字コードが統一されていないことはよく知られている。
【0003】
一方、IPTV(Internet Protocol Television)におけるコンテンツの流通において、コンテンツに関するメタデータの利用が欠かせない。例えば、レコメンデーションや広告及び番組表を検索するためにはコンテンツのメタデータが必要である。今後、漢字を含む日本語以外に、漢字を含む複数種類の言語のメタデータへの対応が避けられないことが予想される。つまり、文字コードが異なるコンテンツのメタデータをスムーズに流通させて検索できることを考慮する必要がある。非特許文献1では、翻訳という手法に着目し、多言語環境における検索を目的として付与されているメタデータを多言語に自動翻訳する方法が提案されている。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】大橋、外2名、「多言語情報源を対象とした意味的連想検索実現のためのメタデータ自動翻訳方式」、日本データベース学会Letters、2003年12月、Vol.2、No.3、p.17−20
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、メタデータの翻訳のためには、メタデータの辞書を予め用意する必要があるが、コンテンツを特徴付けるキーワードには、固有名詞や流行語、新語、造語などが含まれる場合も多く、予め全てを網羅した辞書を用意しておくことは難しいという問題がある。その結果、辞書登録がないキーワードについては検索を行うことができない。また、入力されるキーワードを形態素解析することが必須であり、システム開発のコストがかさむという問題もある。
【0006】
さらに、コンテンツのメタデータは、国や地域によって異なる文字コードが使われている。例えば、中国やシンガポールはGBという文字コード、香港や台湾はBig5という文字コード、日本はShift−jsという文字コードが使われている。そのため、コンテンツのメタデータをこれらの国や地域間でスムーズに流通できず、コンテンツのメタデータを検索できないという問題がある。
【0007】
本発明は、上記に鑑みてなされたものであり、様々な文字コードで記載されたメタデータを検索することを目的とする。
【課題を解決するための手段】
【0008】
第1の本発明に係る検索装置は、キーワードを入力する入力手段と、複数の文字コード間で互いに関連する文字を対応付けた対応表を蓄積する対応表蓄積手段と、前記対応表蓄積手段を参照して前記キーワードを前記複数の文字コードを用いて表現したキーワードに変換する変換手段と、前記複数の文字コードを用いて表現したキーワードそれぞれにより、そのキーワードの文字コードで記載されたメタデータを格納したデータベースを検索する検索手段と、前記検索手段の検索結果を出力する出力手段と、を有することを特徴とする。
【0009】
第2の本発明に係る検索方法は、入力手段による、キーワードを入力するステップと、変換手段による、複数の文字コード間で互いに関連する文字を対応付けた対応表を蓄積する対応表蓄積手段を参照して前記キーワードを前記複数の文字コードを用いて表現したキーワードに変換するステップと、検索手段による、前記複数の文字コードを用いて表現したキーワードそれぞれにより、そのキーワードの文字コードで記載されたメタデータを格納したデータベースを検索するステップと、出力手段による、前記検索するステップの検索結果を出力するステップと、を有することを特徴とする。
【0010】
第3の本発明に係る検索プログラムは、キーワードを入力する処理と、複数の文字コード間で互いに関連する文字を対応付けた対応表を蓄積する対応表蓄積手段を参照して前記キーワードを前記複数の文字コードを用いて表現したキーワードに変換する処理と、前記複数の文字コードを用いて表現したキーワードそれぞれにより、そのキーワードの文字コードで記載されたメタデータを格納したデータベースを検索する処理と、前記検索するステップの検索結果を出力する処理と、をコンピュータに実行させることを特徴とする。
【発明の効果】
【0011】
本発明によれば、様々な文字コードで記載されたメタデータを検索することができる。
【図面の簡単な説明】
【0012】
【図1】本実施の形態における検索装置の構成を示す機能ブロック図である。
【図2】上記検索装置の対応辞書蓄積部に蓄積されている変換対応表の例を示す図である。
【図3】上記検索装置に接続されるデータベースに格納されたコンテンツのメタデータの例を示す図である。
【図4】本実施の形態における検索装置の処理の流れを示すフローチャートである。
【図5】キーワードとして「学校」を入力した具体例を説明する図である。
【発明を実施するための形態】
【0013】
以下、本発明の実施の形態について図面を用いて説明する。
【0014】
図1は、本実施の形態における検索装置の構成を示す機能ブロック図である。同図に示す検索装置は、入力部11、変換部12、対応辞書蓄積部121、検索部13、および出力部14を備え、異なる文字コード毎にコンテンツのメタデータを格納したShift−jsコードデータベース131、Big5コードデータベース132、GBコードデータベース133を接続する。検索装置が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは検索装置が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。以下、検索装置の各部について説明する。
【0015】
入力部11は、検索するキーワードを入力する。入力するキーワードの文字コードは、対応する文字コードであれば、どの文字コードであってもよい。本実施の形態では、漢字1文字を2バイトで表すShift−js,Big5,GBの文字コードに対応している。
【0016】
変換部12は、入力されたキーワードを対応辞書蓄積部121を用いて各種の文字コードに変換する。本実施の形態では、キーワードをShift−js,Big5,GBそれぞれの文字コードに変換する。
【0017】
対応辞書蓄積部121には、各文字コード間で互いに関連する文字を対応付けて、漢字1字を各文字コードに変換する対応表が蓄積されている。図2に、変換対応表の例を示す。図2では、「学」と「校」の漢字を各文字コード間で対応付けた例が示されている。同図に示すように、漢字1字に対して各文字コード毎に「コード」と「字」が格納されている。「コード」は、漢字をコンピュータ上で扱うための2バイトの数値である。「字」は、「コード」が示す漢字のビットマップ、つまりディスプレイなどに表示される文字の形である。
【0018】
検索部13は、各文字コードに変換されたキーワードそれぞれを用いて、そのキーワードの文字コードに対応するデータベースを検索する。本実施の形態では、Shift−jsコードデータベース131、Big5コードデータベース132、GBコードデータベース133を接続し、3種類の文字コードに変換されたキーワードで検索を行う。図3に、各データベースに格納されたコンテンツのメタデータの例を示す。同図に示すように、各データベースには、コンテンツのメタデータをそれぞれの文字コードで記述して格納している。
【0019】
出力部14は、検索部13の検索結果を表示する。
【0020】
次に、本実施の形態における検索装置の処理の流れについて説明する。
【0021】
図4は、本実施の形態における検索装置の処理の流れを示すフローチャートである。
【0022】
ユーザが入力部11にキーワードを入力すると、入力部11は、入力されたキーワードの文字列、キーワードの文字コードを変換部12へ送信する(ステップS11)。
【0023】
変換部12は、対応辞書蓄積部121を用いて、キーワードの文字列を他の文字コードに変換し、各文字コードに変換されたキーワードを検索部13へ送信する(ステップS12)。
【0024】
検索部13は、変換部12から受信した各文字コードのキーワードを用いて、対応するデータベースを検索し、検索結果を出力部14へ送信する(ステップS13)。
【0025】
そして、出力部14は、検索結果を出力する(ステップS14)。
【0026】
次に、キーワードとして「学校」を入力した具体例について説明する。
【0027】
図5は、キーワードとして「学校」を入力した具体例を説明する図である。ここでは、ユーザが、文字コードが「GB」で文字列が「学校」のキーワードを入力したとする。
【0028】
まず、変換部12が、対応辞書蓄積部121の「GBコード」欄からキーワードに含まれる各文字(「学」と「校」)を検索する。キーワードは、1文字2バイトのコードで入力されるので(「学校」と入力された場合は「0200」「0210」と2つのコードが入力される)、「学」と「校」ぞれぞれに対応するコードを対応辞書蓄積部121の「GBコード」欄から検索する。
【0029】
そして、「学」と「校」それぞれの文字に対応する別の文字コード(Shift−jsコード、Big5コード)の文字(コード)を取得する。図2に示す対応辞書の例では、「学」(GBコード「0200」)に対応するShift−jsコードは「0000」、Big5コードは「0100」であり、「校」(GBコード「0210」)に対応するShift−jsコードは「0010」、Big5コードは「0110」である。この対応関係を基に、キーワードを構成する各文字(コード)を他の文字コードの文字(コード)に置き換えることにより、入力したキーワードから各文字コードで表されたキーワードに変換する。
【0030】
続いて、検索部13が各文字コードで表されたキーワード(「学校」)によって、文字コードに対応するデータベースそれぞれを検索する。キーワードの文字コードが「Shift−jsコード」のものはShift−jsコードデータベース131、文字コードが「Big5コード」のものはBig5コードデータベース132、文字コードが「GBコード」のものはGBコードデータベース133を検索する。そして、それぞれの検索結果を出力部14へ送信する。
【0031】
以上説明したように、本実施の形態によれば、入力部11が入力したキーワードを、変換部12が対応辞書蓄積部121を用いてキーワードの文字を一字ずつ別の文字コードに変換し、検索部13が文字コードが変換されたキーワードを用いて対応するデータベースを検索することにより、入力されたキーワードの文字コードと異なる文字コードでデータベースにメタデータが格納されていても、キーワードやメタデータが辞書登録のない固有名詞や流行語、新語、造語などであっても検索することができる。入力されたキーワードの文字を一字ずつ別の文字コードに変換するので、形態素解析を行う必要もなく、少ない計算量で変換を行うことができる。
【符号の説明】
【0032】
11…入力部
12…変換部
13…検索部
14…出力部
121…対応辞書蓄積部
131…Shift−jsコードデータベース
132…コードデータベース
133…GBコードデータベース

【特許請求の範囲】
【請求項1】
キーワードを入力する入力手段と、
複数の文字コード間で互いに関連する文字を対応付けた対応表を蓄積する対応表蓄積手段と、
前記対応表蓄積手段を参照して前記キーワードを前記複数の文字コードを用いて表現したキーワードに変換する変換手段と、
前記複数の文字コードを用いて表現したキーワードそれぞれにより、そのキーワードの文字コードで記載されたメタデータを格納したデータベースを検索する検索手段と、
前記検索手段の検索結果を出力する出力手段と、
を有することを特徴とする検索装置。
【請求項2】
入力手段による、キーワードを入力するステップと、
変換手段による、複数の文字コード間で互いに関連する文字を対応付けた対応表を蓄積する対応表蓄積手段を参照して前記キーワードを前記複数の文字コードを用いて表現したキーワードに変換するステップと、
検索手段による、前記複数の文字コードを用いて表現したキーワードそれぞれにより、そのキーワードの文字コードで記載されたメタデータを格納したデータベースを検索するステップと、
出力手段による、前記検索するステップの検索結果を出力するステップと、
を有することを特徴とする検索方法。
【請求項3】
キーワードを入力する処理と、
複数の文字コード間で互いに関連する文字を対応付けた対応表を蓄積する対応表蓄積手段を参照して前記キーワードを前記複数の文字コードを用いて表現したキーワードに変換する処理と、
前記複数の文字コードを用いて表現したキーワードそれぞれにより、そのキーワードの文字コードで記載されたメタデータを格納したデータベースを検索する処理と、
前記検索するステップの検索結果を出力する処理と、
をコンピュータに実行させることを特徴とする検索プログラム。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate


【公開番号】特開2012−173945(P2012−173945A)
【公開日】平成24年9月10日(2012.9.10)
【国際特許分類】
【出願番号】特願2011−34669(P2011−34669)
【出願日】平成23年2月21日(2011.2.21)
【出願人】(000004226)日本電信電話株式会社 (13,992)
【Fターム(参考)】