説明

コミュニティによって生成されたウェブサイトをメタデータに用いる方法、機械読取可能な媒体、装置及びシステム

【課題】コミュニティによって生成されたウェブサイトをメタデータに用いる方法及びシステムを提供する。
【解決手段】カテゴリデータセットは、カテゴリと関係データの名前を含み、関係データは、カテゴリとコンテンツとの関係を定義する。コンテンツのためのカテゴリは、ウィキペディアウェブサイトのようにオンラインコミュニティによって生成され、特定のコンテンツに関連するウェブサイトからウェブページを検索し、コンテンツメタデータのためにウェブページを分析することにより生成される。そのコンテンツのためのカテゴリデータは、コンテンツメタデータから抽出される。さらに、カテゴリデータセット内の用語は、カテゴリ及び関係データに基づいて削減される。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、マルチメディアに関し、特に、マルチメディアメタデータを生成するために、コミュニティによって生成されたデータ情報源を用いるマルチメディアに関する。
【背景技術】
【0002】
クラスタリング及び分類は、あるデータマイニングアプリケーションにおいて重要な操作である傾向がある。例えば、録画されたテレビ番組や電子番組ガイドの項目及びその他の種類のマルチメディアコンテンツ等のコンテンツを、ユーザが検索して自動的に整理することを支援する目的を有するデータシステムにおいて、データセットの中のデータはクラスタリング及び/または分類される必要がある可能性がある。
【0003】
一般に、多くのクラスタリング及び分類アルゴリズムは、データセットが数値で示されるとき、例えば、データセット内のデータが全て固有の類似点の連続または自然な順序によって関連付けられているときに効果がある。数値で示されるデータセットは、単一の属性またはカテゴリを表すことが多い。一方、カテゴリ別のデータセットは、複数の属性またはカテゴリを表し、またそれらは個別的(discrete、不連続)であり、したがって、それらの間には、自然な距離または近接した基準が欠如していることが多い。
【発明の開示】
【課題を解決するための手段】
【0004】
カテゴリデータセットは、カテゴリの名前と、関係データとを含み、関係データは、カテゴリとコンテンツとの関係を定義する。コンテンツのためのカテゴリは、ウィキペディア(WIKIPEDIA)ウェブサイトのような、オンラインコミュニティが生成した、特定のあるコンテンツに関連するウェブサイトからウェブページを取り出し、コンテンツメタデータのためにウェブページを解析することによって生成される。あるコンテンツのためのカテゴリデータは、コンテンツメタデータから抽出される。さらに、カテゴリデータセットの中の用語は、カテゴリ及び関係データに基づいて削減される。
【0005】
本発明は、異なる範囲のシステム、クライアント、サーバ、方法及び機械読取可能な媒体に関連して説明される。ここで説明された本発明の側面に加えて、本発明のさらなる側面は、図面を参照し、以下の詳細な説明を読むことによって明らかにされるであろう。
【発明を実施するための最良の形態】
【0006】
本特許文書の開示の一部は、著作権保護の対象となる構成要素を含む。著作権者は、特許商標局の特許ファイルまたは記録において開示される特許文書または特許公開のいずれによる複製に対しても全く異議はないが、それ以外については全ての著作権を保有する。以下の通知(Copyright (c) 2005, Sony Electronics, Incorporated, All Rights Reserved.)は、図面において説明されるようなソフトウェア及びデータに対し適用される。
【0007】
以下の本発明の実施形態の詳細な説明においては、同様の参照符号は同様の要素を示し、実施の可能性のある特定の実施形態を図示することによって示される添付図面が参照される。これらの実施形態は、当業者が発明の実施をすることができる程度に詳細に説明され、他の実施形態は、利用されることができ、論理的、機械的、電気的、機能的、及びその他の変更を本発明の範囲から逸脱しない範囲で行うことができると理解される。したがって、以下の詳細な説明は、制限する意味に解釈されるものではなく、本発明の範囲は、添付されたクレームのみによって定義される。
【0008】
図1Aは、コンテンツのような、カテゴリデータ11による特徴付けが可能な情報を自動的に推薦または選択することが可能なデータシステム10の図である。カテゴリデータは、カテゴリデータセットとしても参照され、複数の属性やカテゴリを記述する。各カテゴリは、カテゴリ名と関係データとを備える。関係データは、カテゴリと1または2以上の特定のコンテンツとの間の関係を定義する。ここで用いられる「用語(term、項目)」という語は、カテゴリ名である。ある実施形態においては、カテゴリデータは、用語と用語の関係の数に基づく次元を有する。カテゴリデータ内の用語及び/または用語の関係が多くなるほど、カテゴリデータの次元数は大きくなる。逆に、用語及び/または用語の関係が少なくなるほど、カテゴリデータの次元数は小さくなる。
【0009】
さらに、カテゴリデータは、疎である(sparse)場合があり、これは、カテゴリデータは大きな次元数を有することを意味する。ある実施形態においては、カテゴリデータは疎である。なぜならば、カテゴリは不連続であり、カテゴリ間の自然な類似の基準が欠如しているからである。カテゴリデータには、例えば、電子番組ガイド(EPG;electronic program guide)データやコンテンツメタデータが含まれる。データシステム10は、前処理を行ってデータベース入力8A−Nからカテゴリデータ11をロードするための入力処理モジュール9を含む。ある実施形態において、データベース入力8A−Nは、ウィキペディア(WIKIPEDIA)等の、コミュニティによって生成されたいくつかの情報源のうちの1つであることができる。
【0010】
カテゴリデータ11は、クラスタリング/分類モジュール12によって、クラスタに分類され、かつ/あるいは、フォルダに分類される。モジュール12によって行われるクラスタリング及び分類の詳細については、後述する。クラスタリング/分類モジュール12の出力は、クラスタツリーや系統樹(樹状図)のような組織的なデータ構造13である。クラスタツリーは、カテゴリデータのインデックスつきの組織として用いられてもよく、あるいは、データの最適なクラスタを選択するために用いられてもよい。
【0011】
多くのクラスタリングアプリケーションは、カテゴリデータ内に存在するパターンの分布を最もよく示すクラスタツリー内の特定のレイヤを識別する必要がある。ある実施形態において、組織的なデータ構造13には、最適な数のクラスタを含む唯一のクラスタグループを含む最適なレイヤが含まれる。
【0012】
データ分析モジュール14は、フォルダベースの分類子及び/またはクラスタリング操作によって生成された分類子を用いて、コンテンツを自動的に推薦または選択するようにしてもよい。データ分析モジュール14は、ユーザにとって興味のあるコンテンツや、ユーザによって選択されたコンテンツに類似または関連するコンテンツを自動的に推薦または提供するようにしてもよい。ある実施形態においては、ユーザは、特定のコンテンツ項目を分類するカテゴリデータレコードの複数のフォルダを特定し、データ分析モジュール14は、類似度に基づいて適切なフォルダを有する新しいコンテンツ項目のためにカテゴリデータレコードを割り当てる。
【0013】
また、図1Aに示すユーザーインタフェース15は、ユーザがデータシステム10を用いてコンテンツを検索し、自動的に組織化することを支援するために設計されている。このようなコンテンツは、例えば、録画されたテレビ番組、電子番組ガイド(EPG)の項目及びマルチメディアコンテンツ等であってもよい。
【0014】
クラスタリングは、カテゴリデータ間のいくつかの類似の基準に従ってカテゴリデータを複数のクラスタに組織化する処理である。モジュール12は、初期値(seed)ベースの階層型クラスタリング、順序(order)不変クラスタリング及び部分空間有界帰納(再帰)クラスタリングを含む、1または2以上のクラスタリング処理を用いることによって、カテゴリデータをクラスタリングする。ある実施形態においては、クラスタリング/分類モジュール12は、カテゴリデータを受け取った順番とは無関係の方法で、クラスタを結合する。
【0015】
ある実施形態においては、ユーザによって生成されたフォルダのグループは、新しいカテゴリデータレコードが、ユーザが生成したフォルダグループに対し比較され最も適切なフォルダの中に自動的に分類されるような分類子としてふるまうことがある。他の実施形態においては、クラスタリング/分類モジュール12は、ユーザのフィードバックに基づいて、フォルダベースの分類子を実装する。フォルダベースの分類子は、自動的にフォルダの集合を生成し、自動的にフォルダを集合に追加及び集合から削除する。フォルダベースの分類子はまた、集合の中にない他のフォルダのコンテンツを自動的に変更してもよい。
【0016】
ある実施形態においては、クラスタリンク/分類モジュール12は、クラスタリングまたは分類を行う前、あるいは行っている間にカテゴリデータを増加させるようにしてもよい。増加させるための1つの方法は、カテゴリデータの属性を割り振ることである。増加させることにより、クラスタリングと分類処理を支援するためのカテゴリデータの総合的な品質が高められつつ、カテゴリデータのどのような不足も緩和することができる。
【0017】
クラスタリング/分類モジュール12、組織的なデータ構造13及びデータ分析モジュール14は、図1Aでは特に分離されたモジュールとして示したが、異なる分離されたモジュールとして実装されてもよく、あるいは、1または2以上のモジュールに結合されてもよい。
【0018】
図1Aに示すように、データベース入力モジュール9は、データベース8−Nからの情報を処理し、カテゴリデータセット11に情報をロードする。データベース入力モジュール9は、上述したコミュニティによって生成された情報源から利用可能なデータを処理する公共情報源処理装置(パブリックソースプロセッサ)17をさらに備える。ある実施形態において、公共情報源処理装置(パブリックソースプロセッサ)17は、あるコンテンツのために情報を要求し、結果得られる情報をコンテンツメタデータに入力できる形式に加工する。
【0019】
データベース入力モジュール9は、データベース次元減少モジュール16をさらに備える。上述したように、カテゴリデータセットは、疎であることができる。データセットの次元数を減らすことによって、データセットを使用するモジュールの効果や品質が向上する。なぜなら、データセットは密度がより高く検索及び/または処理するのがより簡単になるからである。ある実施形態において、データベース次元減少モジュール16は、カテゴリデータセット11内の用語とコンテンツとの間の用語関係を変更することによって、カテゴリデータセット11の次元数を減少させる。用語関係は、カテゴリデータ11内の用語と、その用語に関連する1または2以上の特定のコンテンツとの関係を定義するデータである。他の実施形態においては、データベース次元減少モジュール16は、カテゴリデータセット内の用語の数を減らすことによってカテゴリデータセット11の次元数を減少させる。カテゴリデータの次元を減少させるための個々の方法論は、「コンテンツカテゴリデータのための次元数減少」(出願番号11/435,494、代理人整理番号80398.P655)と題する同時係属中の米国特許出願に記載されている。出願番号11/435,494に記載されているように、カテゴリデータの次元数は、カテゴリデータセットの中のカテゴリ名及び関係データに基づいて減少される。関係データは、カテゴリデータセットとカテゴリデータセットに関連するコンテンツとの関係を定義している。
【0020】
ある実施形態において、データベース入力モジュール9は、コンテンツメタデータから、特定のコンテンツのためのカテゴリデータを抽出する。コンテンツメタデータは、データシステム10によって用いられるコンテンツを記述する情報である。図1Bは、データベース入力モジュール9によって処理される特定のコンテンツのためのコンテンツメタデータ150の一実施形態を示す。図1Bにおいて、コンテンツメタデータ150は、プログラム識別子152と、放送局(Station Broadcaster:ステーションブロードキャスタ、放送装置)154と、放送地域156と、カテゴリデータ158と、ジャンル160と、日付162と、開始時間164と、終了時間166と、(放送)期間(duration)168と、を備える。コンテンツメタデータ150は、さらに、付加的な領域(図示せず)を含んでもよい。プログラム識別子は、データシステム10によって用いられるコンテンツを特定する。放送局(Station Broadcaster)154及び放送地域156は、放送局と、コンテンツが表示された地域とを特定する。さらに、コンテンツメタデータ150は、日付162、開始時間164及び終了時間166をもって、コンテンツが表示された日付と時間とを特定する。(放送)期間(duration)168は、コンテンツの(放送)期間である。さらに、ジャンルは、コンテンツに関するジャンルを示す。
【0021】
特定のコンテンツのためのカテゴリデータは、コンテンツの断片に関連する異なるカテゴリを説明する1または2以上の用語(term、項目)である。図1Bに示すように、カテゴリデータ158は、ベスト、進行中(Underway)、スポーツ、ゴルフカテゴリ、ゴルフ、芸術、0サブカルチャー、アニメーション、家族、家族世代(FamilyGeneration)、子供(Child)、子供(Kids)、家族、家族世代(FamilyGeneration)及び子供(Child)等の用語を備える。したがって、カテゴリデータ158は、プログラムを説明する15の用語を備える。用語のいくつかは関連しており、例えば、「スポーツ、ゴルフカテゴリ、ゴルフ」はスポーツに関連する。また、「家族、家族世代(FamilyGeneration)、子供(Child)、子供(Kids)」は家族に関連する。さらに、カテゴリデータ158は、重複した用語や場合によっては未定義の用語(0サブカルチャー)を含んでいる。定義が不明であるので、未定義の用語は1つのプログラムに関連している。
【0022】
正確かつ最新のコンテンツ150を生成することに関する1つの問題は、大量のコンテンツを維持することである。例えば、1週間のテレビ番組編成には、プログラムについて説明する何千もの個々の用語を有する何千ものプログラムがある可能性がある。大量のコンテンツデータを維持するためのコストや時間を削減するための可能な方法の1つは、wikiベースのウェブサイトのようにコミュニティによって生成されたウェブサイトからコンテンツメタデータを抽出することである。wikiベースのウェブサイトは、多言語でコンテンツ無料のウェブベース百科事典であり、ユーザが簡単にコンテンツを追加したり編集したりすることができるようになっている。一例としては、公に利用可能なウィキペディア(WIKIPEDIA)サービスがある。このように、wiki百科事典は、多くのユーザの協力によって書かれたものであり、記事の殆どをウェブブラウザを用いて誰でも編集することが可能である。これにより、コンテンツのためのメタデータを生成することが比較的安価な方法により可能となっている。
【0023】
図2は、コミュニティによって生成されたウェブサイトからコンテンツメタデータを生成するための方法200の一実施形態のフローチャートである。一実施形態においては、方法200は、wikiタイプのウェブサイトからコンテンツ情報を検索する。他の実施形態にといては、方法200は、他のコミュニティまたは商業ウェブサイト、例えば、ウィキペディア(WIKIPEDIA)、グレースノート(GRACENOTE)、インターネット・ムービー・データベース(IMDB;The Internet Movie Database)、ムードロジック(MOODLOGIC)、ROTTEN TOMATOES、AMG、AMAZON等からコンテンツ情報を検索する。
【0024】
方法200は、ウェブ検索を通して情報を取り込むことによって、wikiに含まれる情報を利用することができる。ブロック202では、方法200は、興味のあるコンテンツに関する情報を受け取る。例えば、ある実施形態においては、方法200は、タイトル、ジャンル及び俳優、女優、プロデューサ、ディレクター等の情報を受け取る。ブロック204で、方法200は、受け取ったコンテンツ情報に基づいて、コンテンツに関連するウェブページを検索する。検索されたウェブの一実施形態について、図3でさらに説明する。
【0025】
ブロック206では、方法200は、検索されたウェブページからテキストを抽出する。テキストの抽出は、興味のあるコンテンツについて記述あるいは関連する用語を抽出する。テキスト抽出の一実施形態について、図4でさらに説明する。
【0026】
ブロック208で、方法200は、任意に、抽出されたテキストから停止語を取り除く。ある実施形態では、停止語は、文、節などを区別する句読点である。あるいは、停止語は、a、the、an、of、in、but、or等の他の指標を含むことができる。停止語を取り除くことによって、抽出されたテキストは、コンテンツ及び停止語ではない他の用語に関連する用語と共に残される。
【0027】
ブロック210で、方法200は、任意に、本技術分野において既知の語幹抽出アルゴリズムの1つを用いて、抽出されたテキストから語幹抽出用語を取り除く。語幹抽出アルゴリズムは、例えば、Paice/Husk、Porter、Lovins、Dawson、Krovetz等であるがこれに限られない。語幹抽出は、用語をその語幹または原形に変える。例えば、単語「計算する」と「計算」は、「計算」という語幹を有する。語幹抽出によって、抽出されたテキスト内の用語の数が減少されるように、用語の語幹抽出は、抽出されたテキストの中の用語の変形をさらに減少させる。
【0028】
ブロック212では、方法200は、変更された抽出テキストからそのコンテンツのためのメタデータに用語を追加する。例えば、方法200は、コンテンツのジャンル、俳優、女優、賞、プロデューサ、ディレクター、レビュー、さらなる情報へのリンク等に関する用語を抽出する。ある実施形態においては、方法200は、抽出された用語をカテゴリデータに追加する。本実施形態には、方法200は、コンテンツを分類するのに役立つカテゴリデータ11に抽出された用語を追加する。カテゴリデータ11は、ジャンル、俳優、女優、賞、プロデューサ、ディレクター等であるが、これに限られない。あるいは、方法200は、データを分類することができる。別の実施形態では、方法200は、コンテンツメタデータを格納するのに用いられる、別のメタデータデータベースに用語を追加する。
【0029】
図3は、コンテンツウェブページを検索するための方法300の一実施形態のフローチャートである。ブロック302では、方法300は、興味のあるコンテンツに関する情報を受け取る。例えば、ある実施形態では、方法300は、コンテンツのタイトル、ジャンル、コンテンツの長さ、製作年、及び俳優、女優、プロデューサ、ディレクター等についての情報を受け取る。受け取った情報に基づいて、方法300は、コンテンツのためのURL(uniform resource locator)を形成する。例えば、方法300が、公開ウィキペディア(WIKIPEDIA)から“スター・ウォーズ エピソード4/新たなる希望(Star Wars IV: A New Hope)”についての情報を検索する場合、方法300は、情報源(“en.wikipedia.org/wiki/”)及びタイトル(“Star Wars IV: A New Hope”)に基づいてURLを生成する。各コミュニティの情報源は、アクセスに用いられるそれぞれのフォーマットを持つことができる。
【0030】
ブロック306で、方法300は、ブロック304で形成されたURLを開く。ある実施形態においては、方法306はHTTP(Hypertext transfer protocol)リクエストを行うことによってURLを開くが、別の実施形態では、方法300は、他のプロトコル(HTTPS等)を用いてURLを開く。方法308は、ブロック308で、URLコンテンツを返す。
【0031】
図4は、コンテンツウェブページを構文解析(パース)するための方法400の一実施形態のフローチャートである。ブロック402で、方法400は、ウェブページを受け取る。ある実施形態においては、ウェブページは、HTML(hypertext markup language)ページである。あるいは、ウェブページは、本技術分野において既知の他の種類のテキストフォーマット(Extended HTML (XHTML)、extended markup language(XML)、standard generalized markup language(SGML)等)であってもよい。
【0032】
ブロック404では、方法400は、HTML構文解析の動作を指定する。構文解析の動作は、HTML構文解析ツール(パーサ)が受け取ったウェブページから単語をどのようにして抽出するかを定義する。例えば、方法400は、HTMLタグ内の全テキストを除去したり、HTMLの“META”タグを除く全てのHTMLタグを除去したり、数字で始まる単語を無視したりするように指定することができる。さらに、他の実施形態においては、方法400は、他のフォーマットの種類(XHTML、XML、SGML等)に基づいて構文解析の動作を指定することができる。指定された構文解析の動作に基づいて、方法400は、ブロック406で本技術分野において既知のアルゴリズム、例えば本実施形態において既知の構文解析の動作、例えば空白で単語を分離する(“Mr. X”、“Joe Public”等の場合を除く)等の方法を用いて、HTMLページの構文解析を行い単語を分離する。ブロック408で、方法400は、最初のN個の単語を構文解析が行われたHTMLページから抽出する。一実施形態においては、Nは、単語の大まかな制限である。あるいは、Nは、例えば、テキストの最初のN段落から選択された単語といったように、処理された段落の数に基づく制限であってもよい。抽出されたメタデータは、カテゴリデータ11への入力として用いられるため、抽出された単語の数を制限することにより、カテゴリデータの大きさをより小さく維持することができる。あるいは、方法400は、全ての単語を構文解析が行われたHTMLページから抽出する。
【0033】
図5は、コミュニティによって生成されたウェブサイトからコンテンツメタデータを生成する装置の一実施形態を示すブロック図である。ある実施形態においては、入力プロセッサ11が、公共情報源処理装置(パブリックソースプロセッサ)17を含む。あるいは、入力プロセッサ11は、公共情報源処理装置17を含まないが、公共情報源処理装置17と結合されている。公共情報源処理装置17は、情報検索モジュール502と、テキスト抽出モジュール504と、停止語処理モジュール506と、語幹抽出処理モジュール508と、メタデータ出力モジュール510とを備える。情報検索モジュール502は、図2のブロック204に示されるように、特定のコンテンツに関する、コミュニティによって生成された情報源から情報を検索する。テキスト抽出モジュール504は、図2のブロック206に示されるように、要求された情報から用語を抽出する。停止語処理モジュール506は、図2のブロック208に示すように、抽出された用語から停止語を除去する。語幹抽出処理モジュール506は、図2のブロック210に示されるように、抽出された用語を関連する語幹にする処理を行う。メタデータ出力モジュール510は、図2のブロック212に示すように、抽出された用語を特定のコンテンツのためのメタデータに追加する。
【0034】
以下の図6〜7の説明は、上述した本発明にかかる方法を実行するのに好適なコンピュータハードウェア及び他の操作コンポーネントの概略を提供することを意図するものであるが、適用可能な環境はこれに限られることを意味するものではない。当業者であれば、本発明の実施形態は他のコンピュータシステム構成で実現されることも可能であることを直ちに理解するであろう。他のコンピュータシステム構成は、例えば、携帯端末、マルチプロセッサシステム、マイクロプロセッサベースの、あるいはプログラム可能な家電、ネットワークPC、ミニコンピュータ、メインフレーム・コンピュータ及び同様のものを含む。本発明の実施形態は、ピアツーピアネットワーク基盤のような通信ネットワークを通じてリンクされている遠隔処理装置によってタスクが実行される分散コンピューティング環境において、実現されることも可能である。
【0035】
実際には、ここで説明した方法は、機械実行可能な命令からなる1または2以上のプログラムを構成するようにしてもよい。図2〜4のフローチャートを参照して方法を説明することにより、当業者は、好適に構成された機械(機械読取可能な媒体から命令を実行する機械のプロセッサ)上で論理ブロックによって表された操作(行為)を実行するための命令を含む、プログラムを開発することが可能となる。機械実行可能な命令は、コンピュータプログラミング言語で記述されてもよく、あるいは、ファームウェア論理回路またはハードウェア回路で実装されてもよい。認識されている規格に従うプログラミング言語で記述された命令の場合、様々なハードウェアプラットホーム上で、そして様々なオペレーティングシステムへのインタフェースに対し実行されることができる。さらに、本発明は、いかなる特定のプログラミング言語に関して説明されるものではない。ここで説明されるような本発明の内容を実装するためには、多様なプログラミング言語を用いることができると理解されたい。さらに、動作を行いまたは結果をもたらすようなソフトウェアを、一または他の形式(例えば、プログラム、手続き、プロセス、アプリケーション、モジュール、ロジック等)で呼ぶことは、本技術分野においては一般的である。このような表現は、単に、機械によるソフトウェアの実行が機械のプロセッサに動作を実行させ、あるいは結果を生成させることを言うための省略表現に過ぎない。さらに、発明の範囲から逸脱しない範囲で、より多くまたはより少ないプロセスをフローチャートに図示された方法に組み入れるようにしてもよく、いかなる特定の順番もここに示され説明されたブロックの配列によって暗黙に定義されるものではないと理解されたい。
【0036】
図6は、インターネット等のネットワーク602を通じて互いに連結されるいくつかのコンピュータシステム600を示す。ここで用いられる「インターネット」という語は、WWW(World Wide Web)を構成するハイパーテキストマークアップ言語(HyperText Markup Language;HTML)文書にTCP/IPプロトコルや、場合によってはHTTP(hypertext transfer protocol)等の他のプロトコルなどの所定のプロトコルを用いるネットワークのことを呼ぶ。インターネットの物理接続及びインターネットのプロトコル及び通信手順は、当業者に周知である。インターネット602へのアクセスは、一般に、ISP604及び606のようなインターネットサービスプロバイダ(Internet Service Providers;ISP)によって提供される。クライアントコンピュータシステム612、616、624及び626のようなクライアントシステム上のユーザは、ISP604及び606のようなインターネットサービスプロバイダを通じてインターネットへのアクセスを行う。インターネットにアクセスすることによってクライアントコンピュータシステムのユーザは、情報の交換、電子メールの送受信、HTML形式で作成されている文書等の文書の閲覧が可能となる。これらの文書は、インターネット「上に」あると見なされているウェブサーバ608のようなウェブサーバによって提供されていることが多い。コンピュータシステムは、本技術分野において周知のISPでもあるシステムなしで構成され、インターネットに接続されることができるが、多くの場合、これらのウェブサーバは、ISP604等のISPによって提供されている。
【0037】
ウェブサーバ608は、通常少なくとも1つのサーバコンピュータシステムとして動作し、WWWのプロトコルを用いて動作するように構成され、インターネットに接続されるコンピュータシステムである。任意に、ウェブサーバ608は、クライアントシステムにインターネットへのアクセスを提供するISPの一部であることができる。ウェブサーバ608は、それ自体がウェブコンテンツ640に連結されるサーバコンピュータシステム610に接続されるように表され、ウェブコンテンツ640は、メディアデータベースの一形式であると見なすことができる。図6には、2つのコンピュータシステム608及び610が示されているが、ウェブサーバシステム608及びサーバコンピュータシステム610は、ウェブサーバ機能と、以下でさらに説明されるサーバコンピュータシステム610によって提供されるサーバ機能とを提供する異なるソフトウェアコンポーネントを有する1つのコンピュータシステムであってもよい。
【0038】
クライアントコンピュータシステム612、616、624及び626は、それぞれ、適当なウェブブラウザソフトウェアを備え、ウェブサーバ608によって提供されるHTMLページを閲覧することができる。ISP604は、クライアントコンピュータシステム612の一部であると見なされることができるモデムインタフェース614を通じて、クライアントコンピュータシステム612にインターネット接続を提供する。クライアントコンピュータシステムは、パーソナルコンピュータシステム、ネットワークコンピュータ、ウェブTVシステム、携帯端末、またはその他のコンピュータシステムであってもよい。同様に、ISP606は、図6に示されるこれら3つのコンピュータシステムに対する接続と同一ではないが、クライアントシステム616、624及び626にインターネット接続を提供する。クライアントコンピュータシステム616は、クライアントコンピュータシステム624及び626がLANの一部であると同時に、モデムインタフェース618を通じて結合される。図6には、インタフェース614及び618が、総称してモデムとして示されるが、これらのインタフェースの各々は、アナログモデム、ISDNモデム、ケーブルモデム、衛星通信インタフェース、または一のコンピュータシステムを他のコンピュータシステムに結合するための他のインタフェースであってもよいと理解されたい。クライアントコンピュータシステム624及び626は、イーサネット(登録商標)ネットワークまたは他のネットワークインタフェースであることができるネットワークインタフェース630及び632を通じてLAN622に接続される。LAN622はまた、ファイアウォール及び他のローカルエリアネットワーク向けのインターネット関連サービスを提供可能なゲートウェイコンピュータシステム620に接続される。ゲートウェイコンピュータシステム620は、インターネット接続をクライアントコンピュータシステム624及び626に提供するためにISP606に接続される。ゲートウェイコンピュータシステム620は、従来のサーバコンピュータシステムであってもよい。また、ウェブサーバシステム608は、従来のサーバコンピュータシステムであってもよい。
【0039】
あるいはまた、周知のように、サーバコンピュータシステム628は、ファイル636及び他のサービスをクライアント624、626に提供するために、ゲートウェイシステム620を通じてインターネットに接続せずに、ネットワークインタフェース634を通じて直接LAN622に接続されてもよい。さらにクライアントシステム612、616、624及び626のいずれかの組み合わせが、LAN622、インターネット602、または通信媒体としての組み合わせを用いて、ピアツーピアネットワークで同時に接続されるようにしてもよい。一般に、ピアツーピアネットワークは、中央サーバまたはサーバ群を用いないで、記憶及び検索のための複数の機械のネットワーク全体にデータを配布する。従って、各ピアネットワークノードは、上述したクライアント及びサーバの両方の機能を組み込むようにしてもよい。
【0040】
図7は、エンコーダまたはデコーダとして使用可能な従来のコンピュータシステムの一実施形態を示している。コンピュータシステム700は、モデムまたはネットワークインタフェース702を通じて外部のシステムに連結する。モデムまたはネットワークインタフェース702は、コンピュータシステム700の一部であると見なすことができると理解されたい。このインタフェース702は、アナログモデム、ISDNモデム、ケーブルモデム、トークンリングインタフェース、衛星通信インタフェース、またはコンピュータシステムを他のコンピュータシステムと結合するための他のインタフェースであってもよい。コンピュータシステム702は、処理装置704を含み、処理装置704は、インテルペンティアム(登録商標)マイクロプロセッサまたはモトローラパワーPCマイクロプロセッサ等の従来のマイクロプロセッサであってもよい。メモリ708は、バス706によってプロセッサ704に結合される。メモリ708は、ダイナミック・ランダム・アクセス・メモリ(dynamic random access memory;DRAM)であってもよく、また、スタティック・ランダム・アクセス・メモリ(SRAM)を含むようにしてもよい。バス706は、メモリ708と、不揮発性記憶装置714と、ディスプレイ制御装置710と、入力/出力(入出力)制御装置716ともプロセッサ704を結合する。ディスプレイ制御装置710は、ディスプレイ装置712上の表示を従来の方法で制御し、ディスプレイ装置712は、ブラウン管(cathode ray tube;CRT)ディスプレイまたは液晶ディスプレイ(liquid crystal display;LCD)であってもよい。入力/出力装置718は、キーボード、ディスクドライブ、プリンタ、スキャナ、及び、マウスや他のポインティングデバイスを含む他の入出力装置を含むことができる。ディスプレイ制御装置710及び入出力制御装置716は、従来周知技術を用いて実装されることができる。ディジタル画像入力装置720は、デジタルカメラからの画像をコンピュータシステム700に入力できるようにするために入出力制御装置716と結合されるデジタルカメラであってもよい。不揮発性記憶装置714は、磁気ハードディスク、光ディスク、または大量データのための別の形式の記憶装置であることが多い。このいくつかのデータは、ダイレクトメモリアクセスプロセスによって、コンピュータシステム700でソフトウェアが実行される間に度々メモリ708に書き込みされる。当業者であれば、「コンピュータ読取可能な媒体」及び「機械読取可能な媒体」という用語が、プロセッサ704によってアクセス可能ないかなる種類の記憶装置も含み、データ信号をコード化する搬送波をも網羅することは直ちに理解されるであろう。
【0041】
ネットワークコンピュータは、本発明の実施形態と共に用いることが可能な別の種類のコンピュータシステムである。ネットワークコンピュータは、通常、ハードディスクや他の大容量記憶装置を含まず、かつ、実行可能なプログラムが、プロセッサ704によって実行されるためにネットワーク接続からメモリ708にロードされる。本技術分野において既知のウェブテレビのシステムも、本発明の実施形態に沿ったコンピュータシステムであると考えられるが、所定の入力または出力装置のような図7に示される特徴のいくつかが欠けていてもよい、一般的なコンピュータシステムは、通常、少なくとも1つのプロセッサ、メモリ、及びメモリをプロセッサに結合するバスを含む。
【0042】
コンピュータシステム700は、異なるアーキテクチャを有する多くの可能なコンピュータシステムの一例であると理解されたい。例えば、インテルマイクロプロセッサを基礎とするパーソナルコンピュータは、複数のバスを備えることが多く、その1つは、周辺機器と、プロセッサ704及びメモリ708(メモリバスと呼ばれることが多い)に直接接続するものとのための入力/出力(入出力)バスであってもよい。バスは、異なるバスプロトコルのために必要とされる任意の変換を実行するブリッジコンポーネントを通じて同時に接続される。
【0043】
また、コンピュータシステム700は、オペレーティングシステムソフトウェアの一部であるディスクオペレーティングシステム等のファイル管理システムを含む、オペレーティングシステムソフトウェアによって制御されると理解されたい。関連するファイル管理システムソフトウェアを備えるオペレーティングシステムソフトウェアの一例が、ワシントン州レッドモンドのマイクロソフト社のWindows(登録商標)として知られるオペレーティングシステムのファミリー及びそれらの関連するファイル管理システムである。ファイル管理システムは、一般に、不揮発性記憶装置714に格納され、不揮発性記憶装置714に格納されているファイルを含むデータを入出力しメモリにデータを格納するためにオペレーティングシステムによって必要とされる様々な動作をプロセッサ704に実行させる。
【0044】
以上の明細書において、本発明は、その特定の模範的な実施形態に関して説明された。それに加えて以下のクレームに詳しく説明されるように、本発明のより広い精神と範囲から逸脱しない範囲で様々な変更が可能であることは言うまでもない。従って、明細書及び図面は、制限的な意味よりもむしろ説明に役立てる意味に取られるべきものである。
【図面の簡単な説明】
【0045】
【図1A】マルチメディアデータベースシステムの一実施形態を示す図である。
【図1B】コンテンツメタデータの一実施形態を示す図である。
【図2】コミュニティによって生成されたウェブサイトから得られるコンテンツのためのメタデータを生成する方法の一実施形態を示すフローチャートである。
【図3】図3の方法において用いられるコンテンツのウェブページを検索する方法の一実施形態を示すフローチャートである。
【図4】コンテンツのウェブページを構文解析する方法の一実施形態を示すフローチャートである。
【図5】コミュニティによって生成されたウェブサイトからコンテンツメタデータを生成する装置の一実施形態を示すブロック図である。
【図6】本発明を実施するのに適切な動作環境の一実施形態の図である。
【図7】図2〜4の動作環境において用いられるのに適切なコンピュータシステムの一実施形態の図である。

【特許請求の範囲】
【請求項1】
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する段階と、
前記ウェブページから複数の用語を抽出する段階と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する段階と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する段階と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む段階と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる段階と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする、コンピュータ化された方法。
【請求項2】
前記複数の用語を抽出する段階は、
前記ウェブページの中の用語を語幹抽出する段階と、
前記ウェブページから停止語を除去する段階と、
前記ウェブページから限定された数の用語を抽出する段階と、
のうち少なくとも1つをさらに備えることを特徴とする、請求項1に記載のコンピュータ化された方法。
【請求項3】
前記複数の用語を抽出する段階は、前記ウェブページのフォーマットにおける構文解析動作を定義する段階をさらに備えることを特徴とする、請求項1に記載のコンピュータ化された方法。
【請求項4】
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項1に記載のコンピュータ化された方法。
【請求項5】
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する段階と、
前記ウェブページから複数の用語を抽出する段階と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する段階と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する段階と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む段階と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる段階と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする、機械読取可能な媒体。
【請求項6】
前記複数の用語を抽出する段階は、
前記ウェブページの中の用語を語幹抽出する段階と、
前記ウェブページから停止語を除去する段階と、
前記ウェブページから限定された数の用語を抽出する段階と、
のうち少なくとも1つをさらに備えることを特徴とする、請求項5に記載の機械読取可能な媒体。
【請求項7】
前記複数の用語を抽出する段階は、前記ウェブページのフォーマットにおける構文解析動作を定義する段階をさらに備えることを特徴とする、請求項5に記載の機械読取可能な媒体。
【請求項8】
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項5に記載の機械読取可能な媒体。
【請求項9】
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信する手段と、
前記ウェブページから複数の用語を抽出する手段と、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加する手段と、
前記コンテンツメタデータから特定のカテゴリデータを抽出する手段と、
前記特定のカテゴリデータをカテゴリテータセットに取り込む手段と、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させる手段と、を備え、
前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義することを特徴とする装置。
【請求項10】
前記複数の用語を抽出する手段は、
前記ウェブページの中の用語を語幹抽出することと、
前記ウェブページから停止語を除去することと、
前記ウェブページから限定された数の用語を抽出することと、
のうち少なくとも1つをさらに備えることを特徴とする、請求項9に記載の装置。
【請求項11】
前記複数の用語を抽出する手段は、前記ウェブページのフォーマットにおける構文解析動作を定義することをさらに備えることを特徴とする、請求項9に記載の装置。
【請求項12】
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項9に記載の装置。
【請求項13】
プロセッサと、
バスを介して前記プロセッサと結合されたメモリと、
前記プロセッサが、
コミュニティによって生成されたウェブサイトから、特定のコンテンツに関連するウェブページを受信し、
前記ウェブページから複数の用語を抽出し、
前記コンテンツに関連するコンテンツメタデータに前記複数の用語を追加し、
前記コンテンツメタデータから特定のカテゴリデータを抽出し、
前記特定のカテゴリデータをカテゴリテータセットに取り込み、
前記カテゴリデータセットと関係データに基づく前記カテゴリデータセットの次元数を減少させ、前記関係データは、前記カテゴリデータセットと前記カテゴリデータセットに関連するコンテンツとの関係を定義するように、前記プロセッサによって前記メモリから実行されるプロセスと、
を備えるシステム。
【請求項14】
前記複数の用語を抽出することは、
前記ウェブページの中の用語を語幹抽出することと、
前記ウェブページから停止語を除去することと、
前記ウェブページから限定された数の用語を抽出することと、
のうち少なくとも1つをさらに備えることを特徴とする、請求項13に記載のシステム。
【請求項15】
前記複数の用語を抽出することは、前記ウェブページのフォーマットにおける構文解析動作を定義することをさらに備えることを特徴とする、請求項13に記載のシステム。
【請求項16】
前記メタデータは、前記カテゴリデータであることを特徴とする、請求項13に記載のシステム。

【図1A】
image rotate

【図1B】
image rotate

【図2】
image rotate

【図3】
image rotate

【図4】
image rotate

【図5】
image rotate

【図6】
image rotate

【図7】
image rotate


【公開番号】特開2008−4080(P2008−4080A)
【公開日】平成20年1月10日(2008.1.10)
【国際特許分類】
【外国語出願】
【出願番号】特願2007−130736(P2007−130736)
【出願日】平成19年5月16日(2007.5.16)
【出願人】(000002185)ソニー株式会社 (34,172)
【出願人】(593181638)ソニー エレクトロニクス インク (371)
【Fターム(参考)】