説明

株式会社ジャストシステムにより出願された特許

51 - 60 / 123


【課題】構造化文書ファイルに含まれる情報の中からユーザに提供すべき情報を合理的に選択する。
【解決手段】本実施例に示す文書処理装置は、XMLやXHTML、HTMLなどによる構造化文書ファイルを処理対象とする。文書処理装置は、構造化文書ファイルから基準タグと比較タグを選択し、基準タグと比較タグの階層構造上における位置の近さをタグ隣接度として算出する。基準タグに対するタグ隣接度が所定の閾値以上となる比較タグを、近傍タグとして特定し、1以上の近傍タグによって特定されるデータを基準タグに対する近傍データとして出力する。 (もっと読む)


【課題】不完全な経路式に基づいて構造化文書ファイル中から所望のデータを効率的に検索する。
【解決手段】構造化文書ファイルから所望のデータを検索するための文書検索装置に関する。この装置は、構造化文書ファイルにおいて階層的に上下関係にあるタグセットと、経路式の一部にそのタグセットを含む1以上の位置とを対応づけたインデックス情報を保持する。この装置は、部分経路式の入力を受け付けると、インデックス情報を参照して、部分経路式に含まれるタグセットが経路式の一部としてあらわれる位置を検索対象位置の候補位置として特定する。 (もっと読む)


【課題】自然言語に基づく文書検索の精度を改善する。
【解決手段】所定のコーパスから、検索用テキストと関連する内容の文書ファイルを検索するための文書検索装置に関する。この装置は、グラムごとの文書内位置や形態素内位置を示すインデックス情報を保持する。文書検索装置は、ユーザから検索用テキストの入力を受け付け、形態素とグラムを抽出する。そして、形態素のコーパスにおける稀少性を推定数により指標化し、形態素を含む文書ファイルを検出した上で、そのような形態素が文書ファイルに出現する回数を出現頻度として計数する。形態素についての推定数と出現頻度から、検索用テキストと文書ファイルの内容の関連性を関連スコアとして指標化する。 (もっと読む)


【課題】Ngram解析を用いた文書検索は検索処理に時間がかかる場合がある。
【解決手段】新たな文書ファイルをインデックスに登録する際、登録済みのデータを含め、ポスティングデータを1つ有する登録キーからの、登録キーの個数の累積割合を算出する(S30)。しきい値N以下の数のポスティングデータを有する登録キーのポスティングデータは、登録キーで構成されるB+ツリーのリーフページに格納し(S46)、しきい値Nより大きい数のポスティングデータを有する登録キーのポスティングデータは、ポスティング格納部のページへ格納する(S40、S48)。累積登録文書数iが所定の文書数目であった場合は(S32のY)、ポスティングデータ数のしきい値Nを、累積割合が60%を超えない登録キーが有する最大のポスティングデータ数に変更する(S34)。 (もっと読む)


【課題】文書データから必要な情報を取得するのは容易でない。
【解決手段】情報表示装置は、文書集合をユーザが設定した第1、第2の分類手法で分類する。情報表示装置に表示するマトリクス50は、第1、第2の分類手法で分類した際の分類項目をそれぞれ表示する列の分類項目欄52および行の分類項目欄54、分類された行と列の文書集合の積集合に係る数値を2次元マトリクス上のドットの色で表す図形表示欄56を含む。設定された分類手法がクラスタリングであった場合は、クラスタリングの実施に際し各文書から抽出した語句から所定の基準により選択した代表語句を分類項目として表示する。 (もっと読む)


【課題】データ入力の利便性を向上させる技術を提供する。
【解決手段】UI提供部40は、UIエミュレータ42を備えており、プロファイル保持部50に保持されたプロファイル情報の中から、ユーザが希望するUIを実現するためのプロファイル情報を読み出し、UIエミュレータ42にそのUIを実現させる。プロファイル情報には、ボタンに割り当てる機能を示すキーアサイン情報、変換元データを受け付ける際の入力方法を示す情報、変換対象となる変換元データの表示形態や、予測変換候補や変換候補などを画面に提示する際の表示形態などを含んでいる。UIエミュレータ42は、これらのプロファイル情報に基づいてUIを提供し、ユーザの操作を入力エンジン30へ伝達する。また、入力エンジン30から出力される変換先データをアプリケーション群に出力する。 (もっと読む)


【課題】文書ファイルからの情報抽出精度を向上させる。
【解決手段】学習コーパス200の単語は、複数のクラスのいずれかに分類されている。文書処理装置100は、学習コーパス200における単語の素性をクラスごとのクラス素性情報としてクラス素性保持部170に保持する。文書処理装置100は、加工前検査対象文書210から単語を抽出し、加工前検査対象文書210におけるその単語の素性とクラス素性情報の適合度を複数のクラスのそれぞれについて算出し、所定のクラスに対して算出された適合度を調整した上で、各クラスに対する適合度に基づいて抽出した単語に対応するクラスを特定する。そして、特定されたクラス名をタグとして追記することにより加工済検査対象文書212を生成する。 (もっと読む)


【課題】入力誤り修復支援装置において、利用者が入力誤りを迅速に修正できるようにする。
【解決手段】入力された読み文字列を解析して前記読み文字列に対する解析結果を記憶手段312に格納する解析部311と、前記読み文字列を辞書4を索引してかな漢字変換文字列に変換するかな漢字変換実行部32と、前記解析部311での解析結果及び前記かな漢字変換実行部32での変換結果に基づき前記入力された読み文字列を検査し、検査値が閾値以上であれば入力誤りの可能性が高いと判断して前記読み文字列の中から入力誤り推定文字を摘出する入力誤り摘出部31Aと、特定キーの入力により前記入力誤り摘出部で摘出された入力誤り推定文字の位置にカーソルを移動させる入力誤り指摘部31Bとを備える。 (もっと読む)


【課題】動向情報の変化とその要因を分かりやすく表示する。
【解決手段】コーパス取得部41は、動向情報を抽出するもとになる情報として、コーパス提供装置20からコーパスを取得する。動向情報抽出部42は、取得したコーパスから、処理対象となる動向情報を抽出する。要因情報抽出部43は、抽出された動向情報の変化の要因となったと推測される情報を抽出する。重要語抽出部44は、動向情報の分析に有用であると推測される重要語を抽出する。動向情報表示部45は、抽出された動向情報の変動を示すグラフを生成する。要因情報表示部46は、動向情報表示部45が生成したグラフに、動向情報の変動の要因となった要因情報を合わせて表示する。要因情報表示部46は、所定の条件にしたがって、動向情報の分析に有用な要因情報を抽出して表示する。 (もっと読む)


【課題】電子データ交換において、複数者間における知識共有を促進する。
【解決手段】ウェブブラウザを搭載したクライアント端末であるウェブ表示端末と通信ネットワークを介して接続される注釈管理装置に関する。この装置は、注釈データをページIDと共にウェブ表示端末から受信し、注釈データとページIDを対応づけて注釈リストとして保持する。この装置は、ウェブ表示端末がウェブページを取得要求するときに、取得対象となるウェブページのページIDに対応づけられている注釈データを注釈リストから検出し、検出された注釈データを送信する。注釈データが受信されたときには、注釈データを送信したウェブ表示端末とは別のウェブ表示端末に対して注釈データが設定された旨が通知される。 (もっと読む)


51 - 60 / 123