説明

ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体

【課題】ウェブページに含まれるイメージに対してタグ付けを実行し、その結果を利用してウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体を提供する。
【解決手段】ウェブページに含まれるイメージに対して、ウェブ検索のためのタグ付けを実行するための方法は、(a)ウェブページに含まれるイメージ上の文字及び/または記号を読み取るステップ、(b)読み取り結果をパーシング(parsing)するステップ、及び(c)パーシングによってタグ付けに必要なタグ情報を抽出し、ウェブページ及びイメージのうち少なくとも一つにタグ情報を対応させてタグデータを与えるステップを含む。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ウェブ検索サービスを提供するための方法、装置及びコンピュータ読み取り可能な記録媒体に関するもので、より詳細には、イメージを含むウェブページに対するウェブ検索のためのタグ付けを実行するための方法、装置及びその方法を実行させるためのコンピュータプログラムを格納したコンピュータ読み取り可能な記録媒体に関するものである。
【背景技術】
【0002】
最近、インターネットが普遍化されるにつれて、ユーザーは、インターネット検索を通じて多様な情報を獲得できるようになった。すなわち、ユーザーは、インターネットへのアクセスの可能なパーソナルコンピュータなどの端末装置を通じて、Internet Explorer(登録商標)、Netscape(登録商標)、Lynx(登録商標)などのようなウェブブラウザを起動させ、ウェブブラウザのアドレスウィンドウにURL(Uniform Resource Locator)などのような識別子を入力することによって、インターネット検索サイトに接続した後、ニュース、知識、ゲーム、コミュニティなどに関連した各種コンテンツを検索できるようになった。
【0003】
このようにウェブコンテンツを検索する方式のうち、膨大な量のウェブページを読み込んで管理し、ウェブコンテンツに関するリクエストが届いた場合、ユーザーから入力されたキーワード(すなわち、クエリ)に対応する特定のウェブコンテンツを提供する検索方式があった。このような検索方式は、ユーザーが検索結果を予想して関連キーワードを予め認知して入力するもので、その検索結果が比較的正確に提供される。
【0004】
また、このようなキーワード入力による検索方式は、各キーワードに対応する検索結果のうち、広告主が事前に広告を登録しておく場合にも有用に利用することができる。
【0005】
しかしながら、前述のようなキーワード入力による検索方式は、通常検索結果がテキストからなる場合にだけ有効である問題点があった。
【0006】
したがって、このような問題点を解決するためにタグによる検索方式が開発された。タグによる検索方式とは、多様な形式のウェブコンテンツごとにタグを予め付けておき、与えられたタグをタグリストとして目録化した後、ユーザーが選択したタグと関連したウェブコンテンツをユーザーに提供する方式である。このとき、ウェブコンテンツにタグを付ける主体は、インターネット検索ポータルサイトの運営者である場合もあるし、ウェブコンテンツをインターネット検索ポータルサイトにアップロードするユーザーである場合もある。
【0007】
現在までは、各ウェブページに含まれたテキスト情報だけを主に利用してタグ付けを実行した。すなわち、XML(eXtensible Markup Language)またはHTML(Hyper Markup Language)などのマークアップ言語で表現されるウェブページのテキスト情報に基づいてタグ付けを実行したため、タグ付けの主体と関係なく、テキストだけをタグ情報として利用した。
【0008】
したがって、ウェブページ内にイメージを含むファイル(例えば、イメージ、動画、フラッシュ映像など)が存在する場合にも、当該イメージファイルを説明するためのテキストだけを利用して当該ウェブページやイメージファイルにタグ付けを実行するしかなかった。
【0009】
しかしながら、ウェブページに含まれるイメージファイルからも高い価値を有するタグ情報を抽出し、このようなタグ情報を利用してウェブページやイメージファイルにタグを付けることによって、タグによる検索のためにより有利な環境を構築する必要があった。
【0010】
これについて、次のような従来技術を参考することができる。
【0011】
まず、イメージ文書またはイメージファイルに対して文字認識を実行することによって、その内容を代表するデータを生成する技術がそれぞれ2004年1月8日及び2007年6月28日に公開された特許文献1及び2に開示されている。
【0012】
しかしながら、特許文献1には紙文書または図書をスキャニングすることでイメージデータを取得し、そのイメージデータに対して文字認識を実行することにより抽出された文字列のうち、信頼度または関連度が最も高い文字列をキーワードとして選択することによって、当該イメージに関するキーワードを自動で抽出する技術が開示されているだけであり、特許文献2には映像または画像データに含まれた文字列に関する情報及び文字列に対する文字認識情報を含むメタデータ(metadata)を生成して格納する技術が開示されているだけである。したがって、このような従来技術をインターネット上に存在する膨大な量のウェブページに対して適用するには限界があることが事実であった。
【先行技術文献】
【特許文献】
【0013】
【特許文献1】日本特許公開第2004−005761号公報(2004年1月8日公開)
【特許文献2】日本特許公開第2007−165983号公報(2007年6月28日公開)
【発明の概要】
【発明が解決しようとする課題】
【0014】
本発明は、前述した全ての問題点を解決することをその目的とする。
また、本発明の他の目的は、ウェブ検索の品質を向上させることにある。
【0015】
そして、本発明のまた他の目的は、ウェブページに含まれるイメージファイルに対する検索性能を向上させることによって、今後イメージを含むウェブページの活用度を増加させることにある。
【課題を解決するための手段】
【0016】
前述したような本発明の目的を達成し、本発明の特徴的な構成は次のようになっている。
【0017】
前述した目的を達成するために、本発明の一態様によれば、ウェブページに含まれるイメージに対して、ウェブ検索のためのタグ付けを実行するための方法であって、(a)ウェブページに含まれるイメージ上の文字及び/または記号を読み取るステップ、(b)前記読み取り結果をパーシング(parsing)するステップ、及び(c)前記パーシングによってタグ付けに必要なタグ情報を抽出し、前記ウェブページ及び前記イメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるステップを含む方法が提供される。
【0018】
本発明の他の態様によれば、ウェブ検索サービスを提供する方法であって、多数のウェブサーバーから多数のウェブページをクローリングするステップ、前記多数のウェブページのそれぞれに含まれるイメージ上の文字及び/または記号を読み取るステップ、前記読み取り結果をパーシングするステップ、前記パーシングによってタグ付けに必要なタグ情報を抽出し、前記それぞれのウェブページ及びこれに含まれるイメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるステップ、ユーザー端末装置から検索クエリの入力を受けるステップ、及び前記検索クエリに対応するタグデータを検索して該当するウェブページを前記ユーザー端末装置に伝送するステップを含む方法が提供される。
【0019】
本発明のさらに別の態様によれば、ウェブページに含まれるイメージに対して、ウェブ検索のためのタグ付けを実行するための装置であって、ウェブページに含まれるイメージ上の文字及び/または記号を読み取る判読部、前記判読部により読み取った結果をパーシングする解釈部、及び前記解釈部によるパーシングによってタグ付けに必要なタグ情報を抽出し、前記ウェブページ及び前記イメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるタギング部を含む装置が提供される。
【0020】
本発明のさらに別の態様によれば、ウェブ検索サービスを提供する装置であって、多数のウェブサーバーから多数のウェブページをクローリングするクローリング部、前記多数のウェブページのそれぞれに含まれるイメージ上の文字及び/または記号を読み取る判読部、前記判読部による読み取り結果をパーシングする解釈部、前記解釈部によるパーシングによってタグ付けに必要なタグ情報を抽出し、前記それぞれのウェブページ及びこれに含まれるイメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるタギング部、及びユーザー端末装置から入力された検索クエリに対応するタグデータを検索して該当するウェブページを前記ユーザー端末装置に伝送する検索部を含む装置が提供される。
【0021】
本発明のさらに別の態様によれば、前述した方法を実行させるためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体が提供される。
【発明の効果】
【0022】
本発明によれば、ウェブページに含まれるイメージファイルに対して文字の読み取りを実行し、読み取った文字からなったテキストを利用してタグ付けを実行することによって、イメージファイルを含むウェブページに対するウェブ検索の品質が飛躍的に向上する。
【0023】
本発明によれば、有効に検索可能なウェブページの数を増加させることによって、ウェブページの活用度を向上させると共にウェブページの情報的価値を高める。
【図面の簡単な説明】
【0024】
【図1】本発明の一実施形態によって、クローリングされたウェブページに含まれるイメージファイルに対して文字の読み取りを実行した後、その結果を利用してタグ付けを実行し、これをウェブ検索に活用するための全体システムの概略的な構成図である。
【図2】本発明の一実施形態に係るサーバーの内部構成を詳細に示すブロック図である。
【図3】本発明の一実施形態によって、サーバーがクローリングされたウェブページに含まれるイメージに対して文字の読み取りを実行し、当該ウェブページにタグ付けを実行する過程を説明するフローチャートである。
【発明を実施するための形態】
【0025】
全体システムの構成
以下、添付図面を参照しながら本発明の実施形態について詳細に説明する。後述するこれらの実施形態は当業者が本発明を十分に実施できるように詳細に説明する。本発明の多様な実施形態は互いに異なるが、相互排他的である必要はないと理解しなければならない。例えば、ここに記載されている特定形状、構造及び特性は一実施形態に関連して本発明の技術的思想及びその範囲から逸脱せずに他の実施形態として具現することができる。また、ここに開示したそれぞれの実施形態のうち、個別構成要素の位置または配置は、本発明の技術的思想及びその範囲から逸脱せずに変更できることを理解するべきである。したがって、後述する詳細な説明は限定的な意味で扱うものでなく、本発明の技術的範囲は、適切に説明されるならば、その請求項に記載された本発明と均等な全ての技術的範囲と共に、添付した特許請求範囲によって定められる。
【0026】
図1は、本発明の一実施形態によって、クローリング(crawling)されたウェブページに含まれるイメージファイルに対して文字の読み取りを実行した後、その結果を利用してタグ付けを実行し、これをウェブ検索に活用するための全体システムの概略的な構成図である。
【0027】
図1に示すように、本発明の一実施形態に係る全体システムは、インターネット、インターネットに接続可能な多数のユーザー端末装置100、ユーザー端末装置100からの要請によってウェブ検索を実行するサーバー200及びサーバー200によるウェブ検索の際にウェブコンテンツを提供する多数のウェブサーバー400から構成される。
【0028】
まず、インターネットは、有線や無線通信のように、その通信様態を区別しないで構成することができ、近距離通信網(Local Area Network、LAN)、都市圏通信網(Metropolitan Area Network, MAN)、広域通信網(Wide Area Network、WAN)などの多様な通信網から構成することができる。好ましくは、本発明で言うインターネットは、公知のワールドワイドウェブ(World Wide Web、WWW)である。
【0029】
ユーザー端末装置100は、ユーザーがインターネットを通じてサーバー200に接続して通信できるようにする機能を含むデジタル機器であって、パーソナルコンピュータ(例えば、デスクトップコンピュータ、ノートブックコンピュータなど)、ワークステーション、PDA、ウェブパッド、携帯電話機などのように、メモリ手段を備え、マイクロプロセッサを搭載して演算能力を有したデジタル機器ならば、全て本発明に係るユーザー端末装置100として採択されることができる。
【0030】
ユーザーは、ユーザー端末装置100により駆動されるウェブブラウザを実行した後、所定の識別子(例えば、URL)を入力することによって、サーバー200が提供するウェブページに接続することができる。サーバー200がインターネット検索ポータルサイトの運営サーバーである場合、ユーザーは、サーバー200が提供するウェブページにクエリを入力することによって、ウェブ検索を実行し、これによる検索結果をサーバー200から受けることができる。
【0031】
サーバー200は、インターネットを通じてユーザー端末装置100及び各種ウェブサーバー400との通信を実行する。例えば、サーバー200は、インターネット検索ポータルサイトの運営サーバーである。このとき、サーバー200は、ウェブコンテンツの検索エンジン(図示せず。)を含んで、ユーザーが入力したクエリをクエリバッファー(図示せず。)に格納した後、クエリに該当するウェブコンテンツを検索し、その検索結果を検索結果バッファー(図示せず。)に格納した後、ユーザーがブラウジングできるように提供する。検索結果として提供されるウェブコンテンツは、イメージ、ニュース、知識、ゲーム、コミュニティなどに関する多様な情報である。もちろん、必要によって、ウェブコンテンツの検索エンジン、クエリバッファー及び検索結果バッファーは、サーバー200ではない他の演算装置や記録媒体に含まれてもよい。
【0032】
一方、サーバー200が支援するウェブ検索方式は、ユーザーのキーワード入力によってウェブコンテンツを検索する通常のキーワード検索方式またはタグによる検索方式である。
【0033】
いずれの場合にも、サーバー200は、ウェブコンテンツの検索のために多数のウェブサーバー400が提供する多数のウェブページを周期的にクローリングすることができる。ここで、クローリングとは、ウェブサーバー400が提供するウェブページを順に訪問し、そのウェブページが含んでいるコンテンツを読み込むことを言う。また、クローリングには、一定の期間を周期にして過去に訪問したウェブページも再び訪問することによって、当該ページの更新可否をチェックすることも含まれる。
【0034】
サーバー200は、このようなクローリングを実行して多数のウェブサーバー400が提供する多数のウェブページに含まれたウェブコンテンツを周期的に読み込む。このように読み込まれたウェブコンテンツを一定の形式に解釈し、その解釈結果に基づいてタグを付けることができる。一方、クローリングにより収集されるウェブコンテンツの以外にも、ユーザーの活動によりサーバー200にアップロードしたウェブコンテンツに対しても解釈及びタグ付けを実行することができる。
【0035】
通常、ウェブコンテンツに対するタグ付けは、当該コンテンツに含まれたテキストからタグ付けに必要な情報を抽出することにより実行される。このような抽出によりタグデータ、すなわち、ウェブコンテンツに関するタグデータが生成され、このタグデータは、当該ウェブコンテンツに対応してデータベースに格納される。このようなタグデータは、ユーザーがユーザー端末装置100を通じて入力したキーワードに対応してウェブコンテンツの検索に利用される。
【0036】
しかしながら、クローリングを通じて読み込まれたウェブコンテンツやサーバー200にアップロードされたウェブコンテンツは、テキストだけでなくイメージファイルも含むことがある。場合によっては、このようなイメージファイルに主要情報が含まれることもあるが、従来の技術では、イメージファイルを除いたテキストだけによってタグ付けが実行されるため、イメージファイルが含んでいる情報と直接的に関連付けられたタグを生成することができないという問題があった。したがって、イメージファイルからタグ情報を直接抽出してタグ付けを実行することが必要である。
【0037】
このために、本発明の一実施形態に係るサーバー200は、ウェブコンテンツに対するタグ付けを実行することにおいて、ウェブコンテンツが含んでいるイメージファイルに含まれているテキストからもタグ付けに必要な情報を抽出する。すなわち、このサーバー200は、ウェブコンテンツにイメージが含まれている場合、イメージファイル以外のテキストだけからタグ情報を抽出するものでなく、イメージ内に含まれるテキストからもタグ情報の抽出を実行するものである。このためには、サーバー200がイメージファイルに含まれているテキストを認識して読み取らなければならないのであり、このように読み取られたテキストに対しても既存のタグ付けと同一な作業、すなわち、タグ付けに必要な情報を抽出してタグデータを生成する作業が実行されなければならない。これに対しては、以後に詳細に説明する。
【0038】
このようにサーバー200がウェブコンテンツに含まれるイメージに対して文字の読み取りを実行してテキストを抽出し、このようなテキストを使用してタグ付けを実行することにより、イメージの内容と直接的に関連付けられたタグデータを生成することができる。これにより、ウェブコンテンツの検索の際、ユーザーが希望する情報がイメージファイルに含まれた形態で存在していても、ユーザーにより入力されたキーワードに対応するタグを有しているイメージファイル(またはこれを含むウェブページ)を簡易に検索してウェブコンテンツに対する検索効率を向上させることができる。
【0039】
以下では、このようなサーバー200の内部構成及び各構成要素の機能について詳細に説明する。
【0040】
サーバーの構成
図2は、本発明の一実施形態に係るサーバー200の内部構成を詳細に示す図面である。図2に示すように、本発明の一実施形態に係るサーバー200は、クローリング部210、文字読み取り部230、解釈部250、タギング部270、タグデータベース280及び検索部290を含むことができ、文字読み取り部230は、又、イメージ認識及び分析部231、文字/記号変換部233及びマークアップ言語変換部235から構成されることができる。本発明の一実施形態によれば、構成要素のうち、少なくとも一部は、ユーザー端末装置100と通信するプログラムモジュールである。このようなプログラムモジュールは、オペレーティングシステム、応用プログラムモジュール及びその他のプログラムモジュールの形態でサーバー200に含まれることができ、物理的に様々色々な公知の記憶装置内に格納されることもできる。また、このようなプログラムモジュールはサーバー200と通信可能な遠隔記憶装置に格納されることもできる。このようなプログラムモジュールは、後述する特定機能業務を実行したり特定の抽象データ型を実行したりするルーチン、サブルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを包括するが、これに限定されるものではない。
【0041】
まず、クローリング部210は、多数のウェブサーバー400から提供される多数のウェブページに周期的に接続して当該ウェブページの内容を読み込む。任意のウェブサーバー400が提供するウェブページに接続してクローリングする場合、当該ウェブページからリンクされたウェブページがさらに存在する場合には、このリンクされたウェブページにも接続して、当該ページの内容を読み込む。クローリング部210は、クローリングするウェブページの内容をXML(eXtensible Markup Language)またはHTML(Hyper Markup Language)などのマークアップ言語の形態に変換して出力する。一方、クローリングされるウェブサーバー400の範囲及びクローリングの周期などは、サーバー200を運営する者により決められる。このような情報は、別のデータベース(図示せず。)に格納されて管理されることができる。
【0042】
文字読み取り部230は、クローリング部210によりクローリングされたウェブページに含まれるイメージを認識し、当該イメージに含まれているテキストを読み取ってXMLまたはHTMLなどのマークアップ言語の形態で出力する。一方、前述したように、クローリング部210によりクローリングされたウェブページの以外にも、サーバー200にアップロードされたウェブコンテンツに対してもそれに含まれるイメージを認識して同一に処理することができる。
【0043】
文字読み取り部230のイメージ認識及び分析部231は、ウェブページに含まれるイメージを認識し、これを公知のイメージ分析アルゴリズムによって分析する。これに関連して、本発明が属する技術分野における通常の知識を有する者は、公知の技術文献である韓国情報科学会の「2007韓国コンピュータ総合学術大会論文集Vol.34、No.1(C)」に開示された文字認識技術などを参考することができる。
【0044】
文字/記号変換部233は、イメージ認識及び分析部231によって分析されたイメージに含まれると判断される文字または記号を抽出し、これを機械で読み取り可能な文字または記号に変換する。このような文字/記号変換には、公知の技術である光学文字認識(Optical Character Recognition:OCR)技術が用いられることができる。一方、本発明の好ましい実施形態によれば、文字/記号変換部233は、分析された特徴イメージと文字または記号との間の類似度を算出し、最大値の類似度を示す文字または記号に当該イメージを変換することができる。
【0045】
このような文字/記号の変換の際には文字 読み取りデータベース(図示せず。)を参照することができる。文字読み取りデータベースには、イメージとして表現されるテキストの文字または記号に対応する常用文字または常用記号に対する情報と共に、言語、フォント情報などがさらに格納されることができる。文字/記号変換部233は、このような文字読み取りデータベースを参照して、当該イメージに表現されているテキストを各種フォントで表現される各言語(例えば、韓国語、英語または日本語)に変換することができる。
【0046】
一方、通常的に文字を読み取る際には、多数の無意味な文字または記号が抽出されることがある。本発明においては、このような無意味な文字または記号を濾過するためのフィルターリング過程をさらに実行することができる。すなわち、常用文字または常用記号に関する情報が格納されている文字読み取りデータベースを参照して、常用文字または常用記号に対応していない文字または記号を文字の読み取り過程で削除することができる。このために、文字/記号変換部233内には、文字/記号フィルターリング部(図示せず。)をさらに含むことができる。
【0047】
そして、マークアップ言語変換部235は、文字/記号変換部233によりイメージから読み取られたテキストに関する結果情報をXMLまたはHTMLなどのマークアップ言語に変換する。
【0048】
このようにマークアップ言語に変換されて出力される文字の読み取り結果は、解釈部250に伝えられる。
【0049】
一方、クローリング部210によりクローリングされたウェブページがイメージファイルを含まない場合には、文字の読み取りを実行する必要がないので、クローリング部210が読み込んでマークアップ言語の形態に変換したウェブページが直ぐに解釈部250に伝えられることもできる。このために、クローリング部210と文字読み取り部230との間にはクローリングされたウェブページにイメージファイルが存在しているか否かを決定し、イメージファイルが存在する場合には当該ウェブページを文字読み取り部230に伝え、イメージファイルが存在しない場合には当該ウェブページを直ぐに解釈部250に伝える構成要素がさらに含まれてもよい。
【0050】
解釈部250は、文字読み取り部230のマークアップ言語変換部235がイメージ内のテキストをマークアップ言語の形態に変換して出力したテキストまたはクローリング部210によりクローリングされてマークアップ言語に変換されたテキストを受け取り、これをパーシング(parsing)する。すなわち、ウェブページのイメージに含まれたテキストを区分して今後のタグ付けに必要な情報だけを抽出する。例えば、今後のタグ付けのためにイメージに含まれるテキストを意味単位に区分したり、テキスト全体を結合したりするなどの過程をパーシングに含むことができる。
【0051】
タギング部270は、解釈部250によりパーシングされたウェブコンテンツ(すなわち、ウェブページまたはイメージファイル)に含まれるテキストのうち、タグ付けに必要な情報だけを抽出して一つ以上のタグデータを生成する。また、このように生成されたタグデータと当該ウェブコンテンツを関連させてタグを生成し、これをテーブル化した後、タグデータベース280に格納する。タグは、ウェブコンテンツに含まれる単語、文章または記号である。ここで、多数のタグが抽出されることもでき、当該ウェブコンテンツに含まれるテキスト全体の内容もタグとして使われることもできる。また、タグ情報として、当該ウェブコンテンツから所定の頻度数以上に出現する単語、テキストまたは記号を用いることもできる。一方、タグ情報は、当該ウェブコンテンツが有する識別子、例えば、イメージファイルのURLの少なくとも一部であってもよい。
【0052】
これにより、タグデータベース280には、クローリングされたウェブページまたはサーバー200にユーザーがアップロードしたウェブページとそれに対応するタグとの連関関係に関する情報が格納される。図2には、タグデータベース280がサーバー200内における一つの構成要素として示されたが、タグデータベース280は、当業者の必要によってサーバー200と別個に構成されることもできる。
【0053】
検索部290は、ユーザー端末装置100のリクエストによって、ウェブコンテンツに対する検索作業を実行する。例えば、ユーザーがユーザー端末装置100を利用してウェブブラウザを起動し、サーバー200の運営者が運営するインターネット検索ポータルサイトに接続して、クエリを入力すると、検索部290は、上記クエリに関するキーワード検索またはタグによる検索を実行する。検索部290によりキーワード検索が実行される場合については、その説明を省略する。
【0054】
一方、タグによる検索を実行する際に、ユーザーがクエリを入力すると、検索部290は、タグデータベース280を参照して当該クエリに対応するタグデータを検索する。次に、検索されたタグデータに基づいてそれに対応するウェブコンテンツを抽出し、これをユーザー端末装置100に伝送する。一方、このようにウェブコンテンツをユーザー端末装置100に直接的に伝送すること以外に、ウェブコンテンツに関するリンク情報を含むウェブページを提供することによって、タグによる検索を支援することもできる。
【0055】
以下では、多数のウェブサーバー400が提供する多数のウェブページをサーバー200によりクローリングし、クローリングしたイメージに対して文字の読み取りを実行し、当該ウェブページに対してタグ付けを実行する過程について説明する。
【0056】
クローリングされたウェブページに対するタグ付け過程
図3は、本発明の一実施形態によってサーバー200がクローリングされたウェブページに含まれるイメージに対して文字の読み取りを実行し、当該ウェブページにタグ付けを実行する過程を説明するフローチャートである。
【0057】
まず、サーバー200のクローリング部210は、多数のウェブサーバー400が提供するウェブページを周期的にクローリングする(S310)。前述したように、クローリングされたウェブページの内容は、XMLまたはHTMLなどのマークアップ言語の形態で出力される。
【0058】
文字読み取り部230は、クローリング部210によりクローリングされたウェブページに含まれるイメージを認識し、当該イメージに含まれているテキストを読み取ってXMLまたはHTMLなどのマークアップ言語の形態で出力する。まず、文字読み取り部230のイメージ認識及び分析部231は、ウェブページに含まれるイメージを認識し、これを公知のイメージ分析アルゴリズムにより分析する(S320)。次に、文字/記号変換部233は、分析されたイメージに含まれると判断される文字または記号を抽出し、これを機械で読み取り可能な文字または記号に変換する(S330)。その後、マークアップ言語変換部235は、文字/記号変換部233によりイメージから読み取られたテキストに関する結果情報をXMLまたはHTMLなどのマークアップ言語に変換する(S340)。このようにマークアップ言語に変換して出力された文字の読み取り結果は解釈部250に伝えられる。
【0059】
解釈部250は、文字読み取り部230のマークアップ言語変換部235によりマークアップ言語の形態に変換されて出力されたウェブコンテンツ、またはクローリング部210によりクローリングされてマークアップ言語の形態に変換されたウェブコンテンツの内容をパーシングする(S350)。すなわち、前述したように、ウェブコンテンツから今後のタグ付けに必要な情報だけを抽出する。
【0060】
次に、タギング部270は、解釈部250によりパーシングされたウェブコンテンツに含まれるテキストのうち、タグ付けに必要な情報だけを抽出して一つ以上のタグデータを生成した後、これを当該ウェブコンテンツと対応させると共に、その連関関係に関する情報をタグデータベース280に格納する(S360)。
【0061】
本発明によれば、イメージファイルを含むウェブページに関するウェブ検索の品質が非常に向上する。また、有効に検索可能なウェブページの数を増加させることによってウェブページの活用度を向上させると共に、ウェブページの情報的価値を高める。従って、本発明の産業上の利用可能性はきわめて高いものといえる。
【0062】
本発明に係る実施形態におけるウェブ検索のためのタグ付けを実行するための方法は、コンピュータ(CPU等)が所定のプログラム命令を実行することで実現可能である。そのようなプログラム命令は、コンピュータ読取可能な記録媒体で提供されてもよい。そのようなコンピュータ読取可能な記録媒体に格納されるプログラム命令は、通常のプログラム命令だけでなく、データファイル、データ構造などを単独でまたは組合せて含むことができる。このような記録媒体に記録されるプログラム命令は本発明のために特別に設計され構成されたものでもよく、コンピュータソフトウェアの当業者に知られ、使用されるものでもよい。コンピュータ読取可能な記録媒体の例は、ハードディスク、フロッピー(登録商標)ディスク及び磁気テープのような磁気媒体(magnetic media)、CD−ROM、DVDのような光記録媒体(optical media)、フロップティカルディスク(Floptical disk)のような磁気−光媒体(magneto−optical media)、及びリードオンリーメモリ(ROM)、ランダムアクセスメモリ(RAM)、フラッシュメモリなどのようなプログラム命令を格納して行うように特別に構成されたハードウェア装置を含む。プログラム命令の例には、コンパイラーにより作られるような機械語コードだけでなく、インタープリターなどを使用してコンピュータによって実行されることのできる高級言語コードが含まれる。前述したハードウェア装置は本発明の動作を行うために一つ以上のソフトウェアモジュールとして作動するように構成されることができ、その逆も同様である。
【0063】
以上のように、本発明では具体的な構成要素などのような特定事項と限定された実施形態及び図面により説明したが、これは本発明のより全体的な理解を助けるために提供されたものであり、本発明は前述の実施形態に限定されるものではなく、本発明が属する分野で通常的な知識を持った者であれば、このような記載から多様な修正及び変形が可能であるはずである。
【0064】
以上、本発明の詳細な説明では具体的な実施形態について説明したが、本発明の要旨から逸脱しない範囲内で多様に変形できる。よって、本発明の権利範囲は、上述の実施形態に限定されるものではなく、特許請求の範囲の記載及びこれと均等なものに基づいて定められるべきである。
【符号の説明】
【0065】
100 ユーザー端末装置
200 サーバー
400 ウェブサーバー
210 クローリング部
230 文字読み取り部
250 解釈部
270 タギング部
280 タグデータベース
290 検索部
231 イメージ認識及び分析部
233 文字/記号変換部
235 マークアップ言語変換部

【特許請求の範囲】
【請求項1】
ウェブページに含まれるイメージに対して、ウェブ検索のためのタグ付けを実行するための方法であって、
(a)ウェブページに含まれるイメージ上の文字及び/または記号を読み取るステップ、
(b)前記読み取り結果をパーシング(parsing)するステップ、及び
(c)前記パーシングによってタグ付けに必要なタグ情報を抽出し、前記ウェブページ及び前記イメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるステップを含む方法。
【請求項2】
前記(a)ステップは、
前記イメージを認識するステップ、
前記認識したイメージを分析し、前記イメージ上の文字及び/または記号をこれに対応する常用文字及び/または常用記号に変換するステップ、及び
前記常用文字及び/または前記常用記号をマークアップ言語に変換するステップを含む請求項1に記載の方法。
【請求項3】
前記マークアップ言語は、XML(eXtensible Markup Language)またはHTML(Hyper Markup Language)である請求項2に記載の方法。
【請求項4】
前記タグ情報は、前記パーシングによって抽出されるテキストのうち最も高い頻度で現われるテキストである請求項1に記載の方法。
【請求項5】
前記タグ情報は、前記イメージを含むファイルのURL(Uniform Resource Locator)の少なくとも一部である請求項1に記載の方法。
【請求項6】
多数のウェブページに含まれるイメージに対して、ウェブ検索のためのタグ付けを実行するための方法であって、
多数のウェブサーバーから多数のウェブページをクローリング(crawling)するステップ、及び
前記多数のウェブページのそれぞれに対して、請求項1ないし5のいずれかに記載の(a)ステップないし(c)ステップを実行するステップを含む方法。
【請求項7】
ウェブ検索サービスを提供する方法であって、
多数のウェブサーバーから多数のウェブページをクローリングするステップ、
前記多数のウェブページのそれぞれに含まれるイメージ上の文字及び/または記号を読み取るステップ、
前記読み取り結果をパーシングするステップ、
前記パーシングによってタグ付けに必要なタグ情報を抽出し、前記それぞれのウェブページ及びこれに含まれるイメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるステップ、
ユーザー端末装置からクエリの入力を受けるステップ、及び
前記クエリに対応するタグデータを検索して該当するウェブページを前記ユーザー端末装置に伝送するステップを含む方法。
【請求項8】
ウェブページに含まれるイメージに対して、ウェブ検索のためのタグ付けを実行するための装置であって、
ウェブページに含まれるイメージ上の文字及び/または記号を読み取る判読部、
前記判読部により読み取られた結果をパーシングする解釈部、及び
前記解釈部によるパーシングによってタグ付けに必要なタグ情報を抽出し、前記ウェブページ及び前記イメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるタギング部を含む装置。
【請求項9】
前記判読部は、
前記イメージを認識して分析するイメージ認識及び分析部、
前記イメージ上の文字及び/または記号をこれに対応する常用文字及び/または常用記号に変換する文字/記号変換部、及び
前記常用文字及び/または前記常用記号をマークアップ言語に変換するマークアップ言語変換部を含む請求項8に記載の装置。
【請求項10】
前記マークアップ言語は、XMLまたはHTMLである請求項9に記載の装置。
【請求項11】
前記タグ情報は、前記パーシングによって抽出されるテキストのうち最も高い頻度で現われるテキストである請求項8に記載の装置。
【請求項12】
前記タグ情報は、前記イメージを含むファイルのURLの少なくとも一部である請求項8に記載の装置。
【請求項13】
多数のウェブサーバーから多数のウェブページをクローリングするクローリング部をさらに含む請求項8に記載の装置。
【請求項14】
ウェブ検索サービスを提供する装置であって、
多数のウェブサーバーから多数のウェブページをクローリングするクローリング部、
前記多数のウェブページのそれぞれに含まれるイメージ上の文字及び/または記号を読み取る判読部、
前記判読部による読み取り結果をパーシングする解釈部、
前記解釈部によるパーシングによってタグ付けに必要なタグ情報を抽出し、前記それぞれのウェブページ及びこれに含まれるイメージのうち少なくとも一つに前記タグ情報を対応させてタグデータを与えるタギング部、及び
ユーザー端末装置から入力されたクエリに対応するタグデータを検索して該当するウェブページを前記ユーザー端末装置に伝送する検索部を含む装置。
【請求項15】
前記タギング部により与えられたタグデータを格納するタグデータベースをさらに含む請求項14に記載の装置。
【請求項16】
請求項1ないし5及び7のいずれかに記載の方法を実行させるためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。
【請求項17】
請求項6に記載の方法を実行させるためのコンピュータプログラムを記録したコンピュータ読み取り可能な記録媒体。

【図1】
image rotate

【図2】
image rotate

【図3】
image rotate


【公開番号】特開2009−259248(P2009−259248A)
【公開日】平成21年11月5日(2009.11.5)
【国際特許分類】
【出願番号】特願2009−97249(P2009−97249)
【出願日】平成21年4月13日(2009.4.13)
【出願人】(505205812)エヌエイチエヌ コーポレーション (408)
【Fターム(参考)】