ここでは、クロール全般に関わる設定について説明します。
+管理者アカウントでログイン後、メニューのクロール全般をクリックします。
+利用者が検索を入力して検索したときにログを出力します。検索の統計を取得したい場合には有効にしてください。
+検索した利用者の情報を保存します。検索利用者を識別することが可能になります。
+利用者が良いと判断した検索結果を収集することができます。検索結果一覧画面で結果に投票リンクが表示されるので、そのリンクを押下したものを記録します。収集した結果をクロール時にインデックスに反映することもできます。
+検索結果のリンクに検索語を付加します。PDF では検索語を検索した状態で表示することが可能になります。
+XML形式で検索結果が取得可能になります。http://localhost:8080/fess/xml?query=検索語 にアクセスすることで取得できます。
+JSON形式で検索結果が取得可能になります。http://localhost:8080/fess/json?query=検索語 にアクセスすることで取得できます。
+ラベルが表示可能な場合にデフォルトで表示するラベルを指定することができます。ラベルの値を指定します。
+検索画面を表示するかどうかを指定できます。利用不可とした場合は、検索画面を利用できません。インデックス作成専用サーバーとする場合などに利用不可を選択します。
+JSON形式で検索が多い検索語が取得可能になります。http://localhost:8080/fess/json?type=hotsearchword にアクセスすることで取得できます。
+指定した日数以前の検索ログを削除します。一日一回のログパージで古いログは削除されます。
+指定した日数以前のジョブログを削除します。一日一回のログパージで古いログは削除されます。
+指定した日数以前の利用者情報を削除します。一日一回のログパージで古いログは削除されます。
+検索ログから削除したい Bots のログをカンマ (,) 区切りでユーザーエージェントに含まれる Bots 名を指定します。一日一回のログパージでログは削除されます。
+クロールを完了時にクロールに関する情報を送信するメールアドレスを指定します。
+バックアップ・リストアで利用される CSV のエンコーディングを指定します。
+差分クロールを有効にすると、lastModifiedフィールドの値と対象ドキュメントの更新日時(HTTPの場合はLAST_MODIFIEDの値、ファイルの場合はタイムスタンプ)を比較して、更新されたものだけをクロールします。
+ファイル付加されているグループのアクセス権情報をロールに追加します。
+Fess は複数の Solr サーバーをグループとしてまとめることができ、そのグループを複数管理できます。 更新用と検索用の Solr サーバーグループは異なるグループを利用します。 たとえば、2 つのグループがあった場合、更新用がグループ 2 を利用し、検索用がグループ 1 を利用します。 サーバー切り替えを有効にしている場合は、クロールが完了した後に更新用がグループ 1 になり、検索用がグループ 2 に切り替わります。複数の Solr サーバーグループを登録している場合にだけ有効です。
+Fess のドキュメントクロールはウェブクロール、ファイルシステムクロールの順に行われます。それぞれのクロールにおいて、ここで指定した値の数だけ、設定したクロール先を複数同時に実行することができます。たとえば、同時実行のクロール設定数を 3 として、ウェブクロールに設定 1 から設定 10 まで登録してある場合、クロール実行時には設定 1 から設定 3 までの 3 つが実行されます。 それらのどれかのクロールが完了すると、設定 4 のクロールが開始されます。 同様に、設定 10 まで 1 つ完了するごとに 1 つ起動していきます。
+クロール設定でスレッド数を指定することができますが、ここでの同時実行のクロール設定数は起動するスレッド数を示すものではありません。たとえば、同時実行のクロール設定数が 3 で、各クロール設定のスレッド数を 5 としている場合は、3 x 5 = 15 のスレッド数が起動してクロールすることになります。
+インデックスされているデータを新規データ登録後に自動的に削除することができます。インデックスの有効期限で 5 日を選択している場合は、5 日以上前に登録して更新がなかったものが削除されます。コンテンツが削除されてしまったデータなどを検索対象から外す場合などに利用できます。
+障害 URL に登録された URL は、障害回数を超えると次回のクロール時にクロール対象外になります。監視する必要のない障害種類はこの値を指定することで次回もクロール対象となります。
+障害回数を超えた障害 URL はクロール対象外になります。
+ここでは、セッション情報に関わる設定について説明します。1 回のクロールした結果を 1 つのセッション情報として保存されます。実行した時間やインデックスされた数を確認することができます。
+管理者アカウントでログイン後、メニューのセッション情報をクリックします。
+すべて削除リンクをクリックすると実行中でないすべてのセッション情報を削除することができます。 + 期限が切れたセッションは次回クロール時に削除されます。
+セッション ID のクロール内容を確認できます。クロールの開始や終了時間、インデックスされたドキュメント数などが一覧されます。
+ここでは、Fess の設定情報のバックアップとリストア方法について説明します。
+管理者アカウントでログイン後、メニューのバックアップ/リストアをクリックします。
+ダウンロードリンクをクリックすると、Fess の設定情報を XML 形式で出力します。保存される設定情報は以下のものです。
+セッション情報、検索ログ、クリックログはCSV形式で取得できます。
+Solr 内のインデックスデータやクロール中のデータはバックアップ対象にはなりません。それらのデータは Fess の設定情報をリストア後、クロールすることで再生成することができます。Solr のインデックスをバックアップする必要がある場合は、solr ディレクトリをバックアップしてください。
+バックアップで出力した XML または CSV をアップロードすることで設定情報、各種ログを復元することができます。ファイルを指定してデータのリストアボタンをクリックしてください。
+XML ファイルの設定情報指定の際にデータの上書きを有効にすると、既に同じデータがある場合は既存のデータの更新を行います。
+Fess ではデータベースやCSVなどのデータソースをクロール対象とすることができます。ここでは、そのために必要なデータストアの設定について説明します。
+管理者アカウントでログイン後、メニューのデータストアをクリックします。
+例として、以下のようなテーブルが MySQL の testdb というデータベースにあり、ユーザ名 hoge 、パスワード fuga で接続することができるとして、説明を行います。
+ここでは、データは以下のようなものを入れておきます.
+パラメータの設定例は以下のようになります。
+パラメータは「キー=値」形式となっています。キーの説明は以下です。
+driver | +ドライバクラス名 | +
url | +URL | +
username | +DBに接続する際のユーザ名 | +
password | +DBに接続する際のパスワード | +
sql | +クロール対象を得るための SQL 文 | +
スクリプトの設定例は以下のようになります。
++ パラメータは「キー=値」形式になっています。キーの説明は以下です。 +
++ 値の側は、OGNL で記述します。文字列はダブルクォーテーションで閉じてください。データベースのカラム名でアクセスすれば、その値になります。 +
+url | +URL(検索結果に表示されるリンク) | +
host | +ホスト名 | +
site | +サイトパス | +
title | +タイトル | +
content | +コンテンツ(インデックス対象文字列) | +
cache | +コンテンツのキャッシュ(インデックス対象ではない) | +
digest | +検索結果に表示されるダイジェスト部分 | +
anchor | +コンテンツに含まれるリンク(普通は指定する必要はありません) | +
contentLength | +コンテンツの長さ | +
lastModified | +コンテンツの最終更新日 | +
データベースに接続する際にはドライバが必要となります。webapps/fess/WEB-INF/cmd/lib に jar ファイルを置いてください。
+検索結果に latitude_s のような項目値を表示する場合は webapps/fess/WEB-INF/classes/app.dicon に以下のように設定してください。 + 追加後は searchResults.jsp などで ${doc.latitude_s} とすることで表示されます。
+ここでは、検索画面のデザインに関する設定について説明します。
+管理者アカウントでログイン後、メニューのデザインをクリックします。
+以下の画面で検索画面を編集することができます。
+Fess でクロールして登録した日時や取得するファイルの更新日時を検索結果に表示したい場合は、検索結果ページ (コンテンツ)に次のように記述します。
+tstampDate がクロール時の登録日時、lastModifiedDate がドキュメントの更新日時になります。出力する日付フォーマットは fmt:formateDate の仕様に従います。
+検索画面で利用可能なファイルをダウンロードや削除することができます。
+検索画面で使用するファイルをアップロードすることができます。サポートしている画像ファイル名は jpg、gif、png、css、js です。
+アップロードするファイルにファイル名を指定したい場合に利用します。省略した場合はアップロードしたファイル名が利用されます。
+検索画面の JSP ファイルを編集することができます。対象の JSP ファイルの編集ボタンを押下することで、現在の JSP ファイルを編集することができます。また、デフォルトを使用ボタンを押下すると、インストール時の JSP ファイルとして編集することができます。編集画面で更新ボタンで保存することで、変更が反映されます。
+以下に記述方法の例を示します。
+トップページ (フレーム) | +検索トップページの JSP ファイルです。この JSP ファイルが各部分の JSP ファイルを include しています。 | +
ヘッダー | +ヘッダーのJSPファイルです。 | +
フッター | +フッターのJSPファイルです。 | +
検索結果ページ (フレーム) | +検索結果一覧ページの JSP ファイルです。この JSP ファイルが各部分の JSP ファイルを include しています。 | +
検索結果ページ (コンテンツ) | +検索結果一覧ページの検索結果部分を表現する JSP ファイルです。検索結果があるときに利用される JSP ファイルです。検索結果の表現をカスタマイズしたい場合に変更します。 | +
検索結果ページ (結果なし) | +検索結果一覧ページの検索結果部分を表現する JSP ファイルです。検索結果がないときに利用される JSP ファイルです。 | +
ヘルプページ(フレーム) | +ヘルプページのJSPファイルです。 | +
検索エラーページ | +検索エラーページのJSPファイルです。検索エラーの表現をカスタマイズしたい場合に変更します。 | +
ファイル起動ページ | +ファイル起動ページのJSPファイルです。ファイルシステムクロールを利用して検索結果の表示にJavaプラグインの表示を有効にした場合に利用される画面です。 | +
エラーページ(ヘッダー) | +エラーページのヘッダー部分を表現するJSPファイルです。 | +
エラーページ(フッター) | +エラーページのフッター部分を表現するJSPファイルです。 | +
エラーページ(ページが見つかりません) | +ページが見つからない場合に表示されるエラーページのJSPファイルです。 | +
エラーページ(システムエラー) | +システムエラーの場合に表示されるエラーページのJSPファイルです。 | +
エラーページ(リダイレクト) | +HTTPリダイレクト発生時に表示されるエラーページのJSPファイルです。 | +
エラーページ(不正なリクエスト) | +不正なリクエストが発生時に表示されるエラーページのJSPファイルです。 | +
ここでは、辞書に関する設定について説明します。
+管理者アカウントでログイン後、メニューの辞書をクリックします。編集可能な各種辞書が一覧されます。
+人名、固有名詞、専門用語などの登録することができます。 + ユーザー辞書のパスをクリックすると辞書に登録された単語一覧が表示されます。
+編集したい単語をクリックすると編集画面が表示されます。
+検索対象とする単語を入力します。
+単語が複合語の場合、分割した単語で検索されてもヒットするようにできます。 + たとえば、「全文検索エンジン」を「全文 検索 エンジン」と入力することで、分割した単語でも検索できるようにします。
+単語の読みをカタカナで入力します。分割を行った場合は分割して入力します。 + たとえば、「ゼンブン ケンサク エンジン」と入力します。
+入力した単語の品詞を入力します。
+意味が同じ単語(GB、gigabyteなど)を登録することができます。 + 同義語辞書のパスをクリックすると辞書に登録された単語一覧が表示されます。
+編集したい単語をクリックすると編集画面が表示されます。
+同義語として扱う対象となる単語を入力します。
+変換元で入力した単語を変換後の単語で展開します。 + たとえば、「TV」を「TV」と「テレビ」として扱いたい場合は、変換元に「TV」を入力して、変換後に「TV」と「テレビ」を入力します。
+ここでは、インデックスに関する設定について説明します。
+管理者アカウントでログイン後、メニューのインデックスをクリックします。
+サーバーグループに対して、インデックスのコミット、最適化を発行することができます。
+特に問題がなければ、手動でコミットや最適化を実行する必要はありません。
+セッション ID を指定して、特定の検索対象を削除することができます。URL を指定することで特定のドキュメントだけを削除することもできます。
+各セッションで登録されたドキュメント数が多い順に表示されます。セッション名をクリックすることでその結果一覧を確認できます。
+ここでは、障害URLについて説明します。クロール時に取得できなかった URL が記録され、障害 URL として確認することができます。
+管理者アカウントでログイン後、メニューの障害 URL をクリックします。
+障害 URL の確認リンクをクリックすると、詳細が表示されます。
+クロールできなかった URL と日時が一覧できます。
+ここでは、人気URLログについて説明します。人気URLログは利用者が検索画面で投票リンクをクリックしたときにお気に入りのリンクとして登録します。クロール全般の設定で本機能を無効にすることができます。
+管理者アカウントでログイン後、メニューの人気URLをクリックします。
+人気URLが一覧されます。
+ここでは、ファイルシステムを対象としたクロールに対してファイルシステム認証が必要な場合の設定方法について説明します。Fess は Windows の共有フォルダに対するクロールに対応しています。
+管理者アカウントでログイン後、メニューのファイルシステム認証をクリックします。
+認証が必要なサイトのホスト名を指定します。省略した場合は、指定したファイルシステムクロール設定において、任意のホスト名で適用されます。
+認証が必要なサイトのポートを指定します。すべてのポートに対して適用したい場合は -1 を指定します。その場合は、指定したファイルシステムクロール設定において、任意のポートで適用されます。
+認証方法を選択します。SAMBA (Windows共有フォルダ認証) を利用することができます。
+認証サイトにログインするためのユーザー名を指定します。
+認証サイトにログインするためのパスワードを指定します。
+認証サイトにログインするために必要な設定値がある場合に設定します。SAMBA の場合、domainの値を設定することができます。設定する場合には以下のように記述します。
+上記の認証設定を適用するファイルシステムクロールの設定名を選択します。ファイルシステムクロール設定を事前に登録しておく必要があります。
+ここでは、ファイルシステムを対象としたクロールに関する設定について説明します。
+Fess で数十万件以上のドキュメントをインデックス化したい場合は、1 つのクロール設定を数万件以下にすることを推奨しています。1 つのクロール設定で数十万件を対象すると、インデックス化のパフォーマンスが低下する場合があります。
+管理者アカウントでログイン後、メニューのファイルシステムをクリックします。
+一覧ページで表示される名前です。
+パスは複数指定できます。file: または smb: で始まるように指定します。たとえば、
+のように指定します。指定されたディレクトリ以下を巡回します。
+Windows 環境の場合は URI で記述する必要があるので、c:\Documents\taro というパスであれば file:/c:/Documents/taro と指定します。
+Windows の共有フォルダについては、たとえば、host1のshareフォルダをクロール対象にしたい場合は、クロール設定でsmb://host1/share/とします(最後に/が必要)。共有フォルダに認証がある場合にはファイルシステム認証画面で認証情報を設定します。
+正規表現で指定することによって、特定のパスパターンをクロールや検索の対象にしたり、除外できます。
+クロール対象とするパス | +指定された正規表現のパスをクロールします。 | +
---|---|
クロール対象から除外するパス | +指定された正規表現のパスをクロール対象としません。クロール対象とするパスが指定されていても、ここでの指定が優先されます。 | +
検索対象とするパス | +指定された正規表現のパスを検索対象します。検索除外対象とするパスと指定されていても、ここでの指定が優先されます。 | +
検索対象から除外するパス | +指定された正規表現のパスを検索対象としません。クロール対象から除外してしまうと以降の全てのリンクが検索対象とすることができませんが、クロール対象の一部だけ検索対象としない場合に指定します。 | +
たとえば、/home/ 以下しかクロールしない場合は、対象とするパスに
+また、拡張子が png のものを対象から除外したい場合は、除外するパスに
+と指定します。改行をすることで複数指定することが可能です。
+指定方法はjava.io.File が扱う URI に従います。以下のようになります。
+クロールに必要な設定情報を指定することができます。
+ディレクトリ階層の深さを指定します。
+クロールして取得するドキュメント数を指定できます。
+クロールするスレッド数を指定します。5 を指定した場合、5 個のスレッドで同時にウェブサイトをクロールします。
+ドキュメントをクロールする間隔です。5000 とした場合は 1 つのスレッドが 5 秒間隔でドキュメントを取得しにいきます。
+スレッド数を 5 個、間隔を 1000 ミリ秒とした場合、1 秒間で 5 ドキュメントを取得しにいくことになります。
+このクロール設定で検索対象とした URL に重みを付けることができます。検索結果において、他のものより上に表示したい場合に利用します。標準では 1 です。大きい値ほど優先されて、検索結果の上位に表示されます。他の結果より確実に優先して表示したい場合は、10000 などの十分に大きな値を指定します。
+指定できる値は 0 以上の整数です。この値は Solr にドキュメントを追加する際のブースト値として利用されます。
+利用するユーザーが特定のロールのときだけに検索結果に表示できるように制御することができます。ロールはあらかじめ設定しておく必要があります。たとえば、ポータルサーバーなどログインを必要とするシステムにおいて、利用するユーザーにより検索結果を出し分けたい場合に利用できます。
+検索結果をラベル付けすることができます。ラベルを指定すると、検索画面において、ラベルごとの検索などが可能になります。
+有効にすることで、設定されているクロール時刻にクロールされます。一時的にクロールしないようにしたい場合に利用できます。
++このドキュメントはFessの管理作業を担当するユーザーを対象にしています。 +
++このドキュメントでは、Fessの設定管理の方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
+管理 UI がサポートするブラウザは以下の通りです。
+実行したジョブの結果を一覧として表示します。
+管理者アカウントでログイン後、メニューの利用者をクリックします。
+実行したジョブのログが一覧されます。ジョブ名、ステータス、開始・完了時刻を確認することができます。また、詳細を選択して、各ログの詳細を確認することができます。
+ジョブのログ内容を確認できます。ジョブ名、ステータス、開始・完了時刻、結果などを表示します。
+ここでは、ラベルに関する設定について説明します。ラベルはクロール設定で選択することで、検索結果に表示されるドキュメントを分類することができます。また、クロール設定で設定していない場合でもラベルの設定でラベルを付加するパスを正規表現で指定することができます。ラベルを登録している場合には、検索語入力欄の右側にラベル選択のプルダウンボックスが表示されます。
+管理者アカウントでログイン後、メニューのラベルをクリックします。
+検索時のラベル選択プルダウンボックスに表示される名前を指定します。
+ドキュメントを分類するときの識別子を指定します。この値は Solr に送信されます。英数字で指定してください。
+ラベルを付加するパスを正規表現で設定します。複数行記述することで複数指定することができます。ここで指定したパスにマッチするドキュメントはクロール設定にかかわらず、ラベルが設定されます。
+クロール対象とするパスで対象から除外したいものを正規表現で設定します。複数行記述することで複数指定することができます。
+ラベルを表示するロールを指定します。
+ラベルの表示順を指定します。
+ここでは、Fess で出力されるログファイルのダウンロードについて説明します。
+管理者アカウントでログイン後、メニューのログファイルをクリックします。
+表示されているログファイル名をクリックすると、ログファイルをダウンロードすることができます。
+ここでは、重複ホストに関する設定について説明します。重複ホストはクロール時に異なるホスト名を同一のものとして扱いたいときに利用します。たとえば、www.example.com と example.com を同じサイトとして扱いたい場合などで利用できます。
+管理者アカウントでログイン後、メニューの重複ホストをクリックします。
+正規ホスト名を指定します。重複ホスト名は正規ホスト名に置き換えます。
+重複しているホスト名を指定します。置き換えたいホスト名を指定します。
+ここでは、パスマッピングに関する設定について説明します。 パスマッピングは検索結果に表示するリンクを置き換えたい場合などに利用することができます。
+管理者アカウントでログイン後、メニューのパスマッピングをクリックします。
+パスマッピングは指定した正規表現でマッチする部分を置き換え文字列で置換します。 ローカルなファイルシステムをクロールした場合、環境によっては検索結果のリンクが有効でない場合があります。 そのような場合にパスマッピングを利用して、検索結果のリンクを制御できます。 パスマッピングは複数指定できます。
+置換したい文字列を指定します。記述方法は Java 6 の正規表現に従います。
+一致した正規表現を置き換える文字列を指定します。
+ここでは、リクエストヘッダーに関する設定について説明します。リクエストヘッダーの機能はドキュメントをクロールして取得するときのリクエストに付加するリクエストヘッダー情報になります。たとえば、認証システムでヘッダー情報を見て、特定の値があれば自動でログインした状態にするなどの場合に利用できます。
+管理者アカウントでログイン後、メニューのリクエストヘッダーをクリックします。
+リクエストに付加するときのリクエストヘッダー名を指定します。
+リクエストに付加するときのリクエストヘッダー値を指定します。
+リクエストヘッダーを付加するウェブクロール設定名を選択します。選択したクロール設定だけでリクエストヘッダーに付加されます。
+ここでは、ロールに関する設定について説明します。ロールはクロール設定で選択することで、検索結果に表示されるドキュメントを分類することができます。利用方法については、ロールの設定を参照してください。
+管理者アカウントでログイン後、メニューのロールをクリックします。
+一覧に表示される名前を指定します。
+ドキュメントを分類するときの識別子を指定します。この値は Solr に送信されます。英数字で指定してください。
+ここでは、ジョブに関する設定について説明します。
+管理者アカウントでログイン後、メニューのジョブ管理をクリックします。
+一覧で表示される名前です。
+対象はジョブをバッチ等で直接コマンド実行するときに実行するかどうかの識別子として利用することができます。クロールをコマンド実行などしない場合は、「all」を指定してください。
+スケジュールの設定を行います。ここで設定したスケジュールでスクリプトで記述したジョブが実行されます。
+記述形式はCronのような「秒 分 時 日 月 曜日 年(省略可)」の形式で記述します。たとえば、「0 0 12 ? * WED」の場合は、毎週水曜日の12:00pmにジョブを実行します。より細かい指定方法については「Quartz」を参照してください。
+スクリプトの実行環境を指定します。現時点では「groovy」だけをサポートしています。
+ジョブの実行内容を実行方法で指定した言語で記述します。
+たとえば、3つのクロール設定のみをクロールジョブとして実行させたい場合は、以下のように記述します(前提としてウェブクロール設定のIDを1と2としファイルシステムクロール設定のIDを1とします)。
+有効にすることでジョブログへ記録されます。
+有効にすることでクロールジョブとして扱われます。「システムの設定」でクロールの起動・停止対象となります。
+ジョブの有効・無効の状態を指定します。無効にした場合はジョブは実行されません。
+ジョブ一覧での表示順を指定します。
+ここでは、管理用検索について説明します。
+管理者アカウントでログイン後、メニューの検索をクリックします。
+指定した条件で検索することができます。通常の検索画面ではロールやブラウザの条件が暗黙的に付加されますが、この管理用検索では付加されません。表示された検索結果から特定なドキュメントをインデクスから削除することもできます。
+ここでは、検索ログについて説明します。検索ログは利用者が検索画面で検索を行ったときにログされます。検索ログは検索語や日時が記録されます。また、検索結果をクリックした場合にクリックしURLも記録することができます。
+管理者アカウントでログイン後、メニューの検索ログをクリックします。
+検索語と日時が一覧されます。詳細でクリックした URL なども確認することができます。
+ここでは、統計について説明します。 検索ログおよびクリックログを集計することができます。
+管理者アカウントでログイン後、メニューの統計をクリックします。
+レポート種別を選択することで、確認する対象を選択することができます。指定された条件で多い順に表示されます。
+ここでは、クロールに関するサーバー設定や Fess で登録している Solr に関する設定について説明します。Solr サーバーは設定ファイルによりグループ化されて登録されています。
+管理者アカウントでログイン後、メニューのシステム設定をクリックします。
+更新用のサーバーがドキュメントの追加など処理中の場合、実行中として表示されます。クロール処理が実行中の場合にはセッション ID が表示されます。Fess サーバーをシャットダウンする場合は、実行中ではないときにシャットダウンすると安全にシャットダウンすることができます。実行中に Fess をシャットダウンした場合は、クロール処理が終了するまでプロセスが終了しない場合があります。
+停止中の場合はクロールの開始ボタンを押下することで、クロールを手動で実行することができます。
+検索用、更新用に利用されているサーバーグループ名が表示されます。
+Fess では Solr サーバーをサーバー状態とインデックス状態の状態管理を行なっています。サーバー状態は Solr サーバーにアクセス可能かどうかを管理しています。インデックス状態はクロールが正しく完了できたかどうかを管理しています。検索はサーバー状態が有効であれば、インデックスの状態にかかわらず利用することができます。クロールはサーバー状態が有効かつインデックスの状態が準備中または完了の場合に正しく実行することができます。手動でクロールの開始を実行した場合は、インデックスの状態が準備中に自動で変化します。サーバー状態はサーバーが復旧すると自動で有効の状態に復旧します。
+Solr サーバーのインスタンス状態を確認することができます。また、各インスタンスに対して、起動、停止、リロードのリクエストを発行することができます。
+ここでは、現在稼働中のシステムに関する環境変数などのプロパティ情報を確認できます。
+管理者アカウントでログイン後、メニューのシステム情報をクリックします。
+サーバーの環境変数を一覧できます。
+Fess に設定されたシステムプロパティを一覧できます。
+Fess の設定情報を確認できます。
+バグを報告する際に添付するためのプロパティ一覧です。個人情報が含まれない値を抽出しています。
+ここでは、利用者ログについて説明します。利用者ログは利用者が検索画面で検索を行ったときに利用者を識別します。検索ログや人気URLの情報と結びつけて利用することができます。クロール全般の設定で本機能を無効にすることができます。
+管理者アカウントでログイン後、メニューの利用者をクリックします。
+利用者のIDが一覧されます。検索ログまたは人気URLのリンクを選択して、各ログの一覧を確認することができます。
+ここでは、ウェブを対象としたクロールに対してウェブ認証が必要な場合の設定方法について説明します。Fess は BASIC 認証と DIGEST 認証に対するクロールに対応しています。
+管理者アカウントでログイン後、メニューのウェブ認証をクリックします。
+認証が必要なサイトのホスト名を指定します。省略した場合は、指定したウェブクロール設定において、任意のホスト名で適用されます。
+認証が必要なサイトのポートを指定します。すべてのポートに対して適用したい場合は -1 を指定します。その場合は、指定したウェブクロール設定において、任意のポートで適用されます。
+認証が必要なサイトのレルム名を指定します。省略した場合は、指定したウェブクロール設定において、任意のレルム名で適用されます。
+認証方法を選択します。BASIC 認証、DIGEST 認証または NTLM 認証を利用することができます。
+認証サイトにログインするためのユーザー名を指定します。
+認証サイトにログインするためのパスワードを指定します。
+認証サイトにログインするために必要な設定値がある場合に設定します。NTLM認証の場合、workstationとdomainの値を設定することができます。設定する場合には以下のように記述します。
+上記の認証設定を適用するウェブ設定名を選択します。ウェブクロール設定を事前に登録しておく必要があります。
+ここでは、ウェブを対象としたクロールに関する設定について説明します。
+Fess で数十万件以上のドキュメントをインデックス化したい場合は、1 つのクロール設定を数万件以下にすることを推奨しています。1 つのクロール設定で数十万件を対象すると、インデックス化のパフォーマンスが低下する場合があります。
+管理者アカウントでログイン後、メニューのウェブをクリックします。
+一覧ページで表示される名前です。
+URL は複数指定できます。http: または https: で始まるように指定します。たとえば、
+のように指定します。
+正規表現で指定することによって、特定の URL パターンをクロールや検索の対象にしたり、除外できます。
+クロール対象とする URL | +指定された正規表現の URL をクロールします。 | +
---|---|
クロール対象から除外するURL | +指定された正規表現の URL をクロール対象としません。クロール対象とする URL が指定されていても、ここでの指定が優先されます。 | +
検索対象とするURL | +指定された正規表現の URL を検索対象します。検索除外対象とする URL と指定されていても、ここでの指定が優先されます。 | +
検索対象から除外するURL | +指定された正規表現の URL を検索対象としません。クロール対象から除外してしまうと以降の全てのリンクが検索対象とすることができませんが、クロール対象の一部だけ検索対象としない場合に指定します。 | +
たとえば、http://localhost/ 以下しかクロールしない場合は、クロール対象とする URL に
+また、拡張子が png のものを対象から除外したい場合は、除外する URL に
+と指定します。改行することで複数指定することが可能です。
+クロールに必要な設定情報を指定することができます。
+クロールしたドキュメント内に含まれるリンクを順に辿っていきますがその辿る深さを指定できます。
+クロールして取得するドキュメント数を指定できます。指定しない場合は、100,000件になります。
+クロール時に利用するユーザーエージェントを指定できます。
+クロールするスレッド数を指定します。5 を指定した場合、5 個のスレッドで同時にウェブサイトをクロールします。
+ドキュメントをクロールする間隔 (ミリ秒) です。5000 とした場合は 1 つのスレッドが 5 秒間隔でドキュメントを取得しにいきます。
+スレッド数を 5 個、間隔を 1000 ミリ秒とした場合、1 秒間で 5 ドキュメントを取得しにいくことになります。ウェブサイトをクロールするときにはウェブサーバー側の負荷にもなるので、負荷をかけない十分な値を設定してください。
+このクロール設定で検索対象とした URL に重みを付けることができます。検索結果において、他のものより上に表示したい場合に利用します。標準では 1 です。大きい値ほど優先されて、検索結果の上位に表示されます。他の結果より確実に優先して表示したい場合は、10000 などの十分に大きな値を指定します。
+指定できる値は 0 以上の整数です。この値は Solr にドキュメントを追加する際のブースト値として利用されます。
+利用するユーザーが特定のロールのときだけに検索結果に表示できるように制御することができます。ロールはあらかじめ設定しておく必要があります。たとえば、ポータルサーバーなどログインを必要とするシステムにおいて、利用するユーザーにより検索結果を出し分けたい場合に利用できます。
+検索結果をラベル付けすることができます。ラベルを指定すると、検索画面において、ラベルごとの検索などが可能になります。
+有効にすることで、設定されているクロール時刻にクロールされます。一時的にクロールしないようにしたい場合に利用できます。
+Fess ではサイトマップファイルをクロールして、その中に定義されている URL をクロール対象とすることができます。サイトマップは http://www.sitemaps.org/ の仕様に従います。利用可能なフォーマットは XML Sitemaps、XML Sitemaps Index、テキスト (URL を改行で記述したもの) です。
+サイトマップは URL に指定します。サイトマップは普通の XML ファイルやテキストであるため、クロール時にその URL が普通の XML ファイルなのかサイトマップなのかが区別できません。ですので、デフォルトでは sitemap.*.xml、sitemap.*.gz、sitemap.*txt であるファイル名の URL であればサイトマップとして処理します(webapps/fess/WEB-INF/classes/s2robot_rule.dicon でカスタマイズは可能)。
+HTML ファイルをクロールするとリンクが次のクロール対象になりますが、サイトマップファイルをクロールするとその中の URL が次のクロール対象になります。
+ここでは、設定ウィザードの紹介をします。
+設定ウィザードを利用することで、簡単に Fess をセットアップすることができます。
+管理者アカウントでログイン後、メニューの設定ウィザードをクリックします。
+クロール設定を行います。 + クロール設定は、検索対象するURIを登録するものです。 + クロール設定名の部分は、識別しやすい任意の名前をいれてください。 + クロールパスの部分には、検索対象としたい URI を入れてください。
+例えば、http://fess.codelibs.org/ を検索対象としたい場合、以下のようになります。
+ファイルシステムであれば、c:\Users\taro などのように入力します。
+これで設定は完了です。「クロール開始」ボタンを押下することで、クロールが開始されます。「完了」ボタンを押下した場合、スケジューリングの設定で指定した時間になるまでは、クロールが開始されません。
+設定ウィザードで設定した内容は、クロール全般、ウェブ、ファイルシステムから変更できます。
+利用するデータベースには H2 Database と MySQL を利用するバイナリを提供しています。ソースコードを用いて設定を変更してビルドすることで他のデータベースを利用することができます。
+MySQL の文字コードの設定をします。/etc/mysql/my.cnf などに以下の設定がなければ追加します。
+MySQL 用のバイナリをダウンロードして展開します。
+データベースを作成します。
+作成したデータベースにテーブルを作成します。DDL ファイルは extension/mysql にあります。
+webapps/fess/WEB-INF/lib に mysql ドライバの jar を配置します。
+webapps/fess/WEB-INF/classes/jdbc.dicon を編集します。
+webapps/fess/WEB-INF/classes/s2robot_jdbc.dicon を編集します。
+Fess のクロールするファイルサイズ上限を指定することができます。デフォルトでは HTML ファイルは 2.5M バイト、それ以外は 10M バイトまで処理します。扱うファイルサイズを変更したい場合は webapps/fess/WEB-INF/classes/s2robot_contentlength.dicon を編集します。標準の s2robot_contentlength.dicon は以下の通りです。
+デフォルト値を変更したい場合は defaultMaxLength の値を変更します。扱うファイルサイズはコンテンツタイプごとに指定できます。HTML ファイルであれば、text/html と扱うファイルサイズの上限を記述します。
+扱うファイルサイズの上限値を変更する場合は、使用するヒープメモリ量にも注意してください。設定方法についてはメモリ関連を参照してください。
+緯度経度の位置情報を持つドキュメントをGoogleマップなどと連携して、ジオサーチを利用することができます。
+位置情報を格納するフィードとして location が定義されています。 + インデックス生成時に Solr に緯度経度を 45.17614,-93.87341 のような形式で location フィードに設定して、ドキュメントを登録します。 + また、緯度経度を検索結果として表示したい場合は、latitude_sとlongitude_sのようなフィールドとして値を設定します。 + *_s は Solr の文字列のダイナミックフィールドとして利用できます。
+検索時にはリクエストパラメータにlatitude、longitude、distanceで値を指定します。 + 緯度情報 (latitude, longitude) を中心にした distance で指定した距離 (km) に存在する結果を表示します。 + 緯度経度および距離は Double 型として扱われます。
+インデックスデータは Solr により管理されています。インデックスデータは数ギガなどのサイズにもなるケースもあり、Fess の管理画面からはバックアップすることはできません。
+インデックスデータのバックアップが必要な場合は、Fess を停止してから solr/core1/data および solr/core1-suggest/data ディレクトリをバックアップしてください。また、リストアする場合はバックアップしたインデックスデータを元に戻してください。
++このドキュメントは、Fessの設定作業を担当するユーザーを対象にしています。 +
++このドキュメントでは、Fessの設定方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
++ Fess の標準配布物は Tomcat に配備済みの状態で配布されています。 + Fess は Tomcat に依存していないので、任意の Java アプリケーションサーバーに配備することも可能です。 + ここでは、既に利用している Tomcat に Fess を配備する方法を説明します。 +
+Fess サーバーをここからダウンロードします。
++ ダウンロードした Fess サーバーを展開します。 + 展開した Fess サーバーのトップディレクトリを $FESS_HOME とします。 + 既存の Tomcat 7 のトップディレクトリを $TOMCAT_HOME とします。 + 必要な Fess サーバーのデータをコピーします。 +
++ コピー先のファイルに変更など加えている場合は、diff コマンドなどで更新差分を確認して差分だけを適用します。 +
+startup.* で通常の Tomcat と同様に起動して http://localhost:8080/fess/ にアクセスします。
+Fess が出力するログファイルを以下にまとめます。
+ファイル名 | +内容 | +
---|---|
webapps/fess/WEB-INF/logs/fess.out | +Fess サーバのログ。管理画面や検索画面で操作した時のログなどが出力される。 | +
webapps/fess/WEB-INF/logs/fess_crawler.out | +クロール時のログ。クロール実行時のログが出力される。 | +
logs/catalina.out | +Fess サーバ(Tomcat)のログ。Tomcat 関連のログが出力される。 | +
logs/solr.log | +Fess サーバ(Solr)のログ。Solr 関連のログが出力される。 | +
動作に問題が発生した場合には上記のログを確認してください。
+ログを出力する内容は、webapps/fess/WEB-INF/classes/log4j.xml で設定します。デフォルトでは INFO レベルとして出力しています。
+たとえば、Fess が Solr に対してドキュメントを投入処理をするログをより出力したい場合は log4j.xml で以下の部分をコメントアウトから外します。
+ログ出力に関する細かい設定が必要な場合は、Log4J のドキュメントを参照してください。
+問題解決するために、クロール時の HTTP アクセスの内容を確認したい場合は、HttpClient のログレベルを変更することで確認することができます。
+priorityタグのvalue属性をinfoからdebugに変更しクロールする事で、全てのdebugログを出力する事ができます。
+Java ではプロセスごとに使用する最大メモリが設定されています。ですので、サーバーに 8G の物理メモリがあったとしてもプロセスでの上限以上のメモリを使用することはありません。クロールのスレッド数や間隔により消費するメモリも大きく変わります。メモリが足りない状況になった場合は以降の説明の手順で設定を変更してください。
+クロール設定の内容によっては以下のような OutOfMemory エラーが発生する場合があります。
+発生した場合は ヒープメモリの最大値を増やしてください。 bin/setenv.[sh|bat] に -Xmx1g のように変更します(この場合は最大値を 1G に設定)。
++ クローラ側のメモリーの最大値も変更可能です。デフォルトでは、512Mとなっています。 +
++ 変更するには、webapps/fess/WEB-INF/classes/fess.dicon の crawlerJavaOptions のコメントアウトを外し、-Xmx1g のように変更します(この場合は最大値を 1G に設定)。 +
+携帯端末情報はValueEngine社より提供されるものを利用しています。最新の携帯端末情報を利用したい場合は、端末プロファイルをダウンロードして、webapps/fess/WEB-INF/classes/device / に _YYYY-MM-DD を取り除いて保存します。 再起動後に変更が有効になります。
+html以外のファイルで、参照元とファイル名の文字コードが異なる場合、検索結果のリンクの文字列が文字化けします。
+たとえば、テスト.txt というファイルの中身がUTF-8 で書かれていて、ファイル名が Shift_JIS の場合、リンクの文字列が文字化けします。
+例えば下記のように webapps/fess/WEB-INF/classes/s2robot_transformer.dicon を修正することで、パスを Shift_JIS で解決するようになります。
++ パスワードが設定されたPDFを検索対象にするためには設定ファイルで対象ファイルのパスワードを登録しておく必要があります. +
++ まず、webapps/fess/WEB-INF/classes/s2robot_extractor.dicon を以下のように作成します。 + 今回は,test_〜.pdf というファイルに pass というパスワードが設定されている場合です. + 対象ファイルが複数ある場合は,addPassword で複数設定します. +
+次に、webapps/fess/WEB-INF/classes/s2robot_rule.dicon に以下を編集します。
+上記を設定したら、Fess を起動してクロールを実行してください。基本的な利用方法は特に変わりません。
+Fess ではインデックス作成や検索の際、ステミングという処理が行われています。
+これは英単語を正規化する処理であり、例えば、recharging や rechargable といった単語は recharg という形に正規化されます。これによって、recharging という語で検索を行った場合でもrechargableという語にヒットし、検索漏れが少なくなることが期待されます。
+ステミング処理は基本的にルールベースの処理であるため、意図しない正規化が行われてしまう可能性があります。例えば、Maine(アメリカの州の名前)という語は main に正規化されてしまいます。
+このような場合、protwords.txt に Maine を追加することで、ステミング処理の対象から除外できます。
+イントラネット内から外部サイトをクロールするような場合は、ファイアフォールにクロールがブロックされてしまうかもしれません。そのような場合にはクローラ用のプロキシを設定してください。
+下記の内容で webapps/fess/WEB-INF/classes/s2robot_client.dicon を作成することでプロキシが設定されます。
+インデックスのレプリケーションは Solr のレプリケーション機能で設定します。クロールおよびインデックス作成用の Fess と検索用 Fess の 2 台のサーバーを構築することで、インデックス作成時にかかる負荷を分散することができます。
+Fess をダウンロードして、インストールします。ここでは、MasterServer という名前のホストにインストールしたとします。/opt/fess_master/
にインストールしたとします。solr/core1/conf/solrconfig.xml を以下のように編集します。
Fess の起動後、通常の構築と同様にクロール設定を登録します。インデックス作成用 Fess の構築手順は通常の構築手順と特に変わりません。
+Fess をダウンロードして、インストールします。/opt/fess_slave/
にインストールしたとします。solr/core1/conf/solrconfig.xml を以下のように編集します。
Fess を起動します。
+上記までの設定で、インデックス作成用 Fess がクロール後、最適化 (optimize) されると、検索用 Fess にインデックスがコピーされます。
+Fess では任意の認証システムで認証されたユーザーの認証情報を元に検索結果を出し分けることができます。たとえば、ロールaを持つユーザーAは検索結果にロールaの情報が表示されるが、ロールaを持たないユーザーBは検索してもそれが表示されません。この機能を利用することで、ポータルやシングルサインオン環境でログインしているユーザーの所属する部門別や役職別などに検索を実現することができます。
+Fess のロールベース検索ではロール情報を以下より取得できます。
+ポータルやエージェント型シングルサインオンシステムでは認証時に Fess の稼働しているドメインとパスに対してクッキーで認証情報を保存することで、ロール情報を取得することができます。また、リバースプロキシ型シングルサインオンシステムでは Fess へのアクセス時にリクエストパラメータやリクエストヘッダーに認証情報を付加することでロール情報を取得することができます。
+ここでは J2EE の認証情報を利用したロールベース検索の設定方法を説明します。
+conf/tomcat-users.xml にロールとユーザーを追加します。今回は role1 ロールでロールベース検索を行います。ログインするユーザーは role1 になります。
+webapps/fess/WEB-INF/classes/fess.dicon を以下のように設定します。
+defaultRoleList を設定することで、認証情報がない場合のロール情報を設定できます。設定することでログインしていないユーザーに対して、ロールが必要な検索結果を表示させないようにできます。
+webapps/fess/WEB-INF/web.xml を以下のように設定します。
+Fess を起動して管理者としてログインします。メニューのロールから設定名を Role1 (設定名は任意)、値を role1 でロールを登録します。あとは role1 を持つユーザーで利用したいクロール設定で、Role1 を選択してクロール設定を登録してクロールします。
+管理画面からログアウトします。role1 ユーザーでログインします。ログインに成功すると検索画面のトップにリダイレクトされます。
+通常通り検索すると、クロール設定で Role1 のロール設定されたものだけが表示されます。
+また、ログインしていない状態での検索は、guest ユーザーによる検索となります。
+管理者以外のロールでログインした状態で http://localhost:8080/fess/admin にアクセスすると、ログアウトするかどうかの画面が表示されます。ログアウトボタンを押下することでログアウトされます。
+Fess がデフォルトで利用するポートは 8080 になります。 変更するには以下の手順で変更します。
+Fess が利用している Tomcat のポートを変更します。 変更は conf/server.xml に記述されている以下のものを変更します。
+標準構成では、Solr も同じ Tomcat の設定を利用しているので、Tomcat のポートを変更した場合は、Fess の Solr サーバーの参照先情報も変更する必要があります。
+webapps/fess/WEB-INF/classes/app.dicon の以下の箇所を変更します。
+webapps/fess/WEB-INF/classes/solrlib.dicon の以下の箇所を変更します。
+solr/core1/conf/solrconfig.xml の以下の箇所を変更します。
++ 注: Tomcat のポートを変更した場合は上記のポートを同様に変更しないと、Solr サーバーにアクセスできないために検索画面やインデックス更新時にエラーが表示されます。 +
+Solr は対象ドキュメントを項目(フィールド)ごとに登録するためにスキーマを定義されています。Fess で利用する Solr のスキーマは solr/core1/conf/schema.xml に定義されています。title や content など標準のフィールドと、自由にフィールド名を定義できるダイナミックフィールドが定義されています。詳細なパラメータ値については Solr のドキュメントを参照してください。
+ダイナミックフィールドを利用する場面が多いのはデータベースクロールなどでデータストアクロール設定で登録するなどだと思います。データベースクロールでダイナミックフィールドに登録する方法は、スクリプトに other_t = hoge のように記述することで hoge カラムのデータを Solr の other_t フィールドに入れることができます。
+次にダイナミックフィールドに保存されたデータを検索するためには webapps/fess/WEB-INF/classes/app.dicon に利用するフィールドを追加する必要があります。以下のように other_t を追加します。
+また、ダイナミックフィールドに保存されたデータを Solr から取り出すためには利用するフィールドを追加する必要があります。以下のように other_t を追加します。
+上記の設定で Solr から値を取得できているので、ページ上に表示するために JSP ファイルを編集します。管理画面にログインして、デザインを表示します。検索結果の表示は検索結果ページ(コンテンツ)で表示されるので、この JSP ファイルを編集します。other_t の値を表示したい箇所で ${f:h(doc.other_t)} とすることで登録した値を表示することができます。
+Fess では Solr サーバーをグループ化して、複数のグループを管理することができます。Fess はサーバーおよびグループの情報を保持して、Solr サーバーにアクセスできなくなった場合はサーバー及びグループの状態を変更します。
+Solr サーバーの状態情報は、管理画面のシステム設定で変更することができます。minActiveServer、maxErrorCount、maxRetryStatusCheckCount、maxRetryUpdateQueryCount は webapps/fess/WEB-INF/classes/solrlib.dicon で定義することができます。
+検索のためのインデックスを作成する際、索引として登録するために文書を切り分ける必要があります。このために使用されるのが、トークナイザーです。
+基本的に、トークナイザーによって切り分けられた単位よりも小さいものは、検索を行ってもヒットしません。例えば、「東京都に住む」という文を考えます。いま、この文が「東京都」「に」「住む」というようにトークナイザーによって分割されたとします。この場合、「東京都」という語で検索を行った場合はヒットします。しかし、「京都」という語で検索を行った場合はヒットしません。そのためトークナイザーの選択は重要です。
+Fess の場合デフォルトでは StandardTokenizer+CJKBigramFilter が使用されていますが、schema.xml の analyzer 部分を設定することでトークナイザーを変更することができます。
+ +StandardTokenizer+CJKBigramFilter は日本語のようなマルチバイトの文字列に対しては bi-gram 、つまり二文字ずつインデックスを作成します。この場合、1文字の語を検索することはできません。
+StandardTokenizer は日本語のようなマルチバイトの文字列に対しては uni-gram 、つまり一文字ずつインデックスを作成します。そのため、検索漏れが少なくなります。また、CJKTokenizerの場合、1文字のクエリを検索することができませんが、StandardTokenizerを使用すると検索可能になります。しかし、インデックスサイズが増えるので注意してください。
+下記の例のように solr/core1/conf/schema.xml の analyzer 部分を変更することで、StandardTokenizer を使用できます。
+また、webapps/fess/WEB-INF/classes/app.diconでデフォルトで有効になっているuseBigramをfalseに変更します。
+設定後、Fessを再起動します。
++ 標準のFess環境において、Apache POI を用いた MS Office 系ドキュメントのクロールが可能です。 + オフィス系ドキュメントのクロールに関して、OpenOfficeやLibreOfficeを利用して、ドキュメントからより高精度なテキスト抽出も行うことができます。 +
+JodConverter を Fess サーバーにインストールします。http://jodconverter.googlecode.com/ からjodconverter-core-3.0-beta-4-dist.zipをダウンロードします。展開して jar ファイルを Fess サーバーにコピーします。
+次にs2robot_extractor.diconを作成します。
+s2robot_extractor.diconは以下のような内容でjodExtractorを有効にします。
+設定後、通常通りにクロールしてインデックスを生成します。
+Windows 環境であれば Fess を Windows のサービスとして登録することができます。サービスの登録方法は Tomcat と同様です。
+Windows のサービスとして登録する場合、クロールプロセスは Windows のシステムの環境変数を見にいくため、Java の JAVA_HOME をシステムの環境変数に登録し、同様に %JAVA_HOME%\bin も Path に追加する必要があります。
+webapps\fess\WEB-INF\classes\fess.dicon を編集して、-server オプションを取り除きます。
+まず、Fess のインストール後、コマンドプロンプトから service.bat を実行します (Vista などでは管理者として起動する必要があります)。Fess は C:\Java\fess-server-9.2.0 にインストールしたものとします。
+以下のようにすることで Fess 用のプロパティを確認できます。以下を実行すると、Tomcat のプロパティ設定ウィンドウが表示されます。
+コントロールパネル - 管理ツール - サービスで管理ツールを表示して、通常の Windows のサービスと同様に自動起動などが設定できます。
+Fess で配布しているものは 64bit Windows 用の Tomcat バイナリをベースにビルドされています。 + 32bit Windows で利用する場合は Tomcat のサイトから 32bit Windows zip などを取得して、tomcat7.exe, tomcat7w.exe, tcnative-1.dll を差し替えてください。
++このドキュメントは、Fessのインストール作業およびアンインストール作業を担当するユーザーを対象にしています。 +
++このドキュメントでは、Fessのインストール方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
++Fess は以下の環境で利用することができます。 +
++Fess を利用したい環境に Java がインストールされていない場合は、http://java.sun.com/ より Java 7 以上の JDK を取得してインストールしてください。 +
++http://sourceforge.jp/projects/fess/releases/ から最新の Fess パッケージをダウンロードします。 +
++ダウンロードした fess-server-x.y.zip を展開します。Unix 環境にインストールした場合、bin 以下にあるスクリプトに実行権を付加します。 +
++管理者アカウントはアプリケーションサーバーにより管理されています。標準の Fess サーバーは Tomcat を利用しているので、Tomcat のユーザー変更方法と同様になります。変更する場合は、conf/tomcat-user.xml の admin アカウントのパスワードを修正してください。 +
++tomcat-user.xml のファイルによる管理方法以外を利用する場合は、Tomcat のドキュメントや JAAS 認証の仕様を参照してください。 +
++Fess サーバーには Solr が組み込まれていますが、アクセスするためにはパスワードが必要になります。実運用などにおいては、デフォルトのパスワードを変更してください。 +
++パスワードの変更方法は、まず、conf/tomcat-user.xml の solradmin のパスワード属性を変更します。 +
++次に webapps/fess/WEB-INF/classes/solrlib.dicon、fess_suggest.dicon および solr/core1/conf/solrconfig.xml の3ファイルを変更します。以下のパスワードの箇所へ tomcat-user.xml で指定したものを記述します。 +
++solrlib.dicon の対象箇所を以下のように修正します。 +
++fess_suggest.dicon は以下の箇所です。 +
++solrconfig.xml は以下の箇所です。 +
++Fess サーバーから Tomcat に配置した Solr のコンテキストを管理することができますが、管理するためにはパスワードが必要になります。実運用などにおいては、デフォルトのパスワードを変更してください。 +
++パスワードの変更方法は、conf/tomcat-user.xml の manager のパスワード属性を変更します。 +
+ ++次に webapps/fess/WEB-INF/classes/app.dicon の以下のパスワードの箇所を tomcat-user.xml で指定したものを記述します。 +
+ ++ログイン時の戻りパスの設定などで暗号化/復号化が利用されています。実運用などにおいてはデフォルトのパスワードを変更してください。 +
++変更方法は、webapps/fess/WEB-INF/classes/app.dicon で key の値を変更します。16 文字の半角英数字を設定してください。 +
++startup スクリプトを実行して Fess を起動します。 +
+ ++http://localhost:8080/fess/ にアクセスすることによって、起動を確認できます。 +
+ ++管理 UI は http://localhost:8080/fess/admin/ です。 +デフォルトの管理者アカウントのユーザー名/パスワードは、admin/admin になります。 +管理者アカウントはアプリケーションサーバーにより管理されています。 +Fess の管理 UI では、アプリケーションサーバーで fess ロールで認証されたユーザーを管理者として利用します。 +
++shutdown スクリプトを実行して Fess を停止します。 +
+ ++クロールまたはインデックス作成中にシャットダウンした場合、完全に停止するまで時間がかかる場合があります。 +
++Fess を停止後、インストールした fess-server-x.y ディレクトリを削除することでアンインストールすることができます。 +
++このドキュメントはFessを利用するユーザーを対象にしています。 +
++このドキュメントでは、Fessでの検索方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
+Fessの検索結果をJSONにより出力することができます。JSONにより出力するためには管理画面のクロール全般の設定でJSON応答を有効にしておく必要があります。
+JSONにより出力結果を得るためには http://localhost:8080/fess/json?query=検索語
のようなリクエストを送ります。リクエストパラメータについては以下の通りです。
query | +検索語。URLエンコードして渡します。 | +
---|---|
start | +開始する件数位置。0から始まります。 | +
num | +表示件数。デフォルトは20件です。100件まで表示できます。 | +
fields.label | +ラベル値。ラベルを指定する場合に利用します。 | +
callback | +JSONPを利用する場合のコールバック名。JSONPを利用しない場合は指定する必要はありません。 | +
以下のようなレスポンスが返ります。
+各要素については以下の通りです。
+response | +ルート要素。 | +
---|---|
version | +フォーマットバージョン。 | +
status | +レスポンスのステータス。status値は、0:正常、1:検索エラー、2または3:リクエストパラメータエラー、9:サービス停止中、-1:API種別エラーです。 | +
query | +検索語。 | +
execTime | +応答時間。単位は秒。 | +
pageSize | +表示件数。 | +
pageNumber | +ページ番号。 | +
recordCount | +検索語に対してヒットした件数。 | +
pageCount | +検索語に対してヒットした件数のページ数。 | +
result | +検索結果の親要素。 | +
site | +サイト名。 | +
contentDescription | +コンテンツの説明。 | +
host | +ホスト名。 | +
lastModified | +最終更新日時。 | +
cache | +コンテンツの内容。 | +
score | +ドキュメントのスコア値。 | +
digest | +ドキュメントのダイジェスト文字列。 | +
created | +ドキュメントの生成日時。 | +
url | +ドキュメントのURL。 | +
id | +ドキュメントのID。 | +
mimetype | +MIMEタイプ。 | +
title | +ドキュメントのタイトル。 | +
contentTitle | +表示用のドキュメントのタイトル。 | +
contentLength | +ドキュメントのサイズ。 | +
urlLink | +検索結果としてのURL。 | +
画面上には検索条件の文字列を表示せずに特定の検索条件を引き回したい場合にadditionalパラメータを利用することができます。additionalの値はページングで画面が更新されてもadditionalの値は保持されます。
+検索が実行される際に (たとえば、検索フォームなど) hidden フォームで additional の値を付加して検索を実行すると、ページングで画面遷移しても、その条件を画面に表示することなく、条件を保持することができます。
+複数の検索語がすべて含まれるドキュメントを検索したい場合には AND 検索を利用します。AND を省略してスペース区切りで検索語入力欄に複数単語を記述した場合も AND 検索になります。
+AND 検索を利用する場合は検索語間に AND を記述します。AND は大文字で記述して、前後にスペースが必要になります。AND は省略することも可能です。
+たとえば、「検索語1」と「検索語2」が含まれるドキュメントを検索したい場合は以下のように検索フォームに入力します。
+AND で複数語をつなぐことも可能です。
+検索語のうち、特定の検索語を優先したい場合にはブースト検索を利用します。ブースト検索を利用することで、検索語の重要度に応じた検索が可能になります。
+ブースト検索を利用するためには、検索語の後に「^ブースト値」という形式でブースト値 (重み付け値) を指定します。
+たとえば、「りんご みかん」を検索したい場合に「りんご」がより含まれるページを検索したい場合は以下のように検索フォームに入力します。
+ブースト値は 1 以上の整数を指定します。
+Fess でクロールした結果はタイトルや本文などの各フィールドごとに保存されています。それらのフィールドを指定して検索することができます。フィールドを指定して検索することで、ドキュメントの種類別やサイズ別など細かい検索条件の指定をすることができます。
+デフォルトでは以下のフィールドを指定して検索することができます。
+フィールド名 | +説明 | +
---|---|
url | +クロールした URL | +
host | +クロールした URL に含まれていたホスト名 | +
site | +クロールした URL に含まれていたサイト名 | +
title | +タイトル | +
content | +本文 | +
contentLength | +クロールしたコンテンツサイズ | +
lastModified | +クロールしたコンテンツの最終更新日時 | +
mimetype | +コンテンツの MIME タイプ | +
フィールド指定をしていない場合は、content を対象に検索します。フィールドはSolrのダイナミックフィールドを利用することで独自のフィールドも利用することができます。
+HTMLファイルを検索対象としている場合、titleタグがtitleフィールド、bodyタグ以下の文字列がbodyフィールドに登録されています。
+フィールド指定検索をする場合は、「フィールド名:検索語」のようにフィールド名と検索語をコロン(:)で区切って検索フォームに入力して検索します。
+titleフィールドに対して、Fess を検索語として検索する場合は以下のように入力します。
+上記の検索により、titleフィールドにFessが含まれるドキュメントが検索結果として表示されます。
+検索語に完全一致しない単語も検索する場合にはあいまい検索が利用可能です。Fess ではレーベンシュタイン距離に基づくあいまい検索 (ファジー検索) に対応しています。
+曖昧検索を適用したい検索語の後に「~」を付加します。
+たとえば、「Solr」という単語をあいまい検索したい場合、以下のように検索フォームに入力することで、「Solr」に近い語(「Solar」など) を含むドキュメントを検索できます。 +
+また、「~」の後に 0 ~ 1 の数値を指定することで、1 に近い場合はより類似したものだけに絞り込めます。たとえば、「Solr~0.8」という形になります。数値を指定しないときのデフォルト値は 0.5 になります。
+インデックス生成時に各ドキュメントに対して緯度経度の位置情報を付加することで、検索時に位置情報を用いた検索が可能になります。
+標準では以下のパラメータが利用可能です。
+geo.latitude | +緯度の度分秒をDouble型で指定します。 | +
---|---|
geo.longitude | +経度の度分秒をDouble型で指定します。 | +
geo.distance | +ドキュメントとの距離をキロメータ単位で指定します。Double型で指定します。 | +
検索対象のドキュメントにカテゴリ分けするためのラベル情報を付加することで、検索時にラベルを指定した絞り込み検索が可能です。ラベル情報は管理画面で登録しておくことで、検索画面でラベルによる検索が可能になります。利用可能なラベル情報は検索時にプルダウンで複数選択することができます。ラベルを登録していない場合は、ラベルのプルダウンボックスは表示されません。
+検索時にラベル情報を選択することができます。ラベル情報はオプションボタンを押下することで表示される検索オプションダイアログで選択することができます。
+ラベルを設定してインデックスを作成することで、ラベルが設定されたドキュメントごとに検索をすることができます。ラベルを指定しない検索は通常と同様の全件検索になります。ラベル情報を変更した場合は、インデックスの更新が必要になります。
+ある単語を含まないドキュメントを検索する場合に NOT 検索が利用できます。
+NOT 検索は含まない単語の前に NOT を付けて検索します。NOT は半角大文字で前後にスペースが必要です。
+たとえば、「検索語1」が含まれるが「検索語2」を含まないドキュメントを検索したい場合は以下のように入力して検索します。
+他社製検索エンジンから移行しやすいように任意の検索条件を渡すことができます。渡した検索条件はQueryHelperImpl#buildOptionQueryで処理を実装してください。
+標準では以下のパラメータが利用可能です。
+options.q | +通常のqueryと同様です。複数のoptions.qを指定することができます。複数指定した場合はAND検索として扱われます。URLエンコードして渡します。 | +
---|---|
options.cq | +完全一致の検索クエリーとして扱われます。たとえば、「Fess Project」を指定した場合は、「"Fess Project"」として検索します。URLエンコードして渡します。 | +
options.oq | +OR検索として扱われます。たとえば、「Fess Project」を指定した場合は、「Fess OR Project」として検索します。URLエンコードして渡します。 | +
options.nq | +NOT検索として扱われます。たとえば、「Fess」を指定した場合は、「NOT Fess」として検索します。URLエンコードして渡します。 | +
検索語のどれかが含まれるドキュメントを検索したい場合には OR 検索を利用します。検索語入力欄に複数単語を記述した場合、デフォルトでは AND 検索になります。
+OR 検索を利用する場合は検索語間に OR を記述します。OR は大文字で記述して、前後にスペースが必要になります。
+たとえば、「検索語1」と「検索語2」のどちらかが含まれるドキュメントを検索したい場合は以下のように検索フォームに入力します。
+OR で複数語をつなぐことも可能です。
+数値など範囲指定が可能でデータをフィールドに格納している場合、そのフィールドに対して範囲指定検索が可能です。
+範囲指定検索をするためには、「フィールド名:[値 TO 値]」 を検索フォームに入力します。
+たとえば、contentLength フィールドに対して、1kバイトから10kバイトにあるドキュメントを検索する場合は以下のように検索フォームに入力します。
+時間の範囲指定検索をするためには、「lastModified:[日時1 TO 日時2]」(日時1<日時2) を検索フォームに入力します。
+日時はISO 8601を基準にしています。
+年月日および時分秒および小数部分 | +現在日時を基準にする場合 | +
YYYY-MM-DDThh:mm:ss.sZ(例:2013-08-02T10:45:23.5Z) | +NOW(現在の日時)、YEAR(今年)、MONTH(今月)、DAY(本日) | +
NOWやDAYなどの現在日時を基準にした場合には+、-(加算、減産)や/(丸め)といった記号を付けることができます。
+/は/の後ろの単位で丸める記号です。NOW-1DAY/DAYは本日何時に実行したとしても、本日00:00から-1日した前日の00:00を表します。
+たとえば、lastModified フィールドに対して、2012年2月21日20時(現在日時とする)から30日前までに更新されたドキュメントを検索する場合は以下のように検索フォームに入力します。
+検索日時などのフィールドを指定して検索結果をソートすることができます。
+デフォルトでは以下のフィールドを指定してソートすることができます。
+フィールド名 | +説明 | +
---|---|
tstamp | +クロールした日時 | +
contentLength | +クロールしたコンテンツサイズ | +
lastModified | +クロールしたコンテンツの最終更新日時 | +
カスタマイズすることで独自のフィールドをソート対象として追加することもできます。
+検索時にソート条件を選択することができます。ソート条件はオプションボタンを押下することで表示される検索オプションダイアログで選択することができます。
+また、検索フィールドでソートをする場合は、「sort:フィールド名」のようにsortとフィールド名をコロン(:)で区切って検索フォームに入力して検索します。
+以下は Fess を検索語として、コンテンツサイズを昇順にソートします。
+降順にソートする場合は以下のようにします。
+複数のフィールドでソートする場合は以下のように , 区切りで指定します。
+検索語内で 1 文字または複数文字のワイルドカードを利用することができます。? は 1 文字のワイルドカードとして指定でき、* は複数文字のワイルドカードとして指定することができます。ワイルドカードは先頭文字では利用できません。また、ワイルドカードを利用できる対象は単語になります。文に対するワイルドカード検索はできません。
+1 文字のワイルドカードを利用する場合は以下のように ? を利用します。
+上記の場合は、textやtestなど、1 文字のワイルドカードとして扱われます。
+複数文字のワイルドカードを利用する場合は以下のように * を利用します。
+上記の場合は、test、testsやtesterなど、複数文字のワイルドカードとして扱われます。また、
+のように検索語内に利用することもできます。
+ワイルドカードはインデックスに登録された文字列を対象に利用されます。そのため、bi-gram などでインデックスを作成した場合は、日本語は意味のない固定文字列長で扱われるため、日本語でのワイルドカードは期待する動作になりません。日本語でワイルドカードを利用する場合は形態素解析を利用しているフィールドで利用してください。
+Fessの検索結果をXMLにより出力することができます。XMLで出力するためには管理画面のクロール全般の設定でXML応答を有効にしておく必要があります。
+XMLにより出力結果を得るためには http://localhost:8080/fess/xml?query=検索語
のようなリクエストを送ります。リクエストパラメータについては以下の通りです。
query | +検索語。URLエンコードして渡します。 | +
---|---|
start | +開始する件数位置。0から始まります。 | +
num | +表示件数。デフォルトは20件です。100件まで表示できます。 | +
fields.label | +ラベル値。ラベルを指定する場合に利用します。 | +
以下のようなレスポンスが返ります。
+各要素については以下の通りです。
+response | +ルート要素。 | +
---|---|
version | +フォーマットバージョン。 | +
status | +レスポンスのステータス。status値は、0:正常、1:検索エラー、2または3:リクエストパラメータエラー、9:サービス停止中、-1:API種別エラーです。 | +
query | +検索語。 | +
exec-time | +応答時間。単位は秒。 | +
page-size | +表示件数。 | +
page-number | +ページ番号。 | +
record-count | +検索語に対してヒットした件数。 | +
page-count | +検索語に対してヒットした件数のページ数。 | +
result | +検索結果の親要素。 | +
doc | +検索結果の要素。 | +
site | +サイト名。 | +
content-description | +コンテンツの説明。 | +
host | +ホスト名。 | +
last-modified | +最終更新日時。 | +
cache | +コンテンツの内容。 | +
score | +ドキュメントのスコア値。 | +
digest | +ドキュメントのダイジェスト文字列。 | +
created | +ドキュメントの生成日時。 | +
url | +ドキュメントのURL。 | +
id | +ドキュメントのID。 | +
mimetype | +MIMEタイプ。 | +
title | +ドキュメントのタイトル。 | +
content-title | +表示用のドキュメントのタイトル。 | +
content-length | +ドキュメントのサイズ。 | +
url-link | +検索結果としてのURL。 | +
ここでは、クロール全般に関わる設定について説明します。
+管理者アカウントでログイン後、メニューのクロール全般をクリックします。
+利用者が検索を入力して検索したときにログを出力します。検索の統計を取得したい場合には有効にしてください。
+検索した利用者の情報を保存します。検索利用者を識別することが可能になります。
+利用者が良いと判断した検索結果を収集することができます。検索結果一覧画面で結果に投票リンクが表示されるので、そのリンクを押下したものを記録します。収集した結果をクロール時にインデックスに反映することもできます。
+検索結果のリンクに検索語を付加します。PDF では検索語を検索した状態で表示することが可能になります。
+XML形式で検索結果が取得可能になります。http://localhost:8080/fess/xml?query=検索語 にアクセスすることで取得できます。
+JSON形式で検索結果が取得可能になります。http://localhost:8080/fess/json?query=検索語 にアクセスすることで取得できます。
+ラベルが表示可能な場合にデフォルトで表示するラベルを指定することができます。ラベルの値を指定します。
+検索画面を表示するかどうかを指定できます。利用不可とした場合は、検索画面を利用できません。インデックス作成専用サーバーとする場合などに利用不可を選択します。
+JSON形式で検索が多い検索語が取得可能になります。http://localhost:8080/fess/json?type=hotsearchword にアクセスすることで取得できます。
+指定した日数以前の検索ログを削除します。一日一回のログパージで古いログは削除されます。
+指定した日数以前のジョブログを削除します。一日一回のログパージで古いログは削除されます。
+指定した日数以前の利用者情報を削除します。一日一回のログパージで古いログは削除されます。
+検索ログから削除したい Bots のログをカンマ (,) 区切りでユーザーエージェントに含まれる Bots 名を指定します。一日一回のログパージでログは削除されます。
+クロールを完了時にクロールに関する情報を送信するメールアドレスを指定します。
+バックアップ・リストアで利用される CSV のエンコーディングを指定します。
+差分クロールを有効にすると、lastModifiedフィールドの値と対象ドキュメントの更新日時(HTTPの場合はLAST_MODIFIEDの値、ファイルの場合はタイムスタンプ)を比較して、更新されたものだけをクロールします。
+ファイル付加されているグループのアクセス権情報をロールに追加します。
+Fess は複数の Solr サーバーをグループとしてまとめることができ、そのグループを複数管理できます。 更新用と検索用の Solr サーバーグループは異なるグループを利用します。 たとえば、2 つのグループがあった場合、更新用がグループ 2 を利用し、検索用がグループ 1 を利用します。 サーバー切り替えを有効にしている場合は、クロールが完了した後に更新用がグループ 1 になり、検索用がグループ 2 に切り替わります。複数の Solr サーバーグループを登録している場合にだけ有効です。
+Fess のドキュメントクロールはウェブクロール、ファイルシステムクロールの順に行われます。それぞれのクロールにおいて、ここで指定した値の数だけ、設定したクロール先を複数同時に実行することができます。たとえば、同時実行のクロール設定数を 3 として、ウェブクロールに設定 1 から設定 10 まで登録してある場合、クロール実行時には設定 1 から設定 3 までの 3 つが実行されます。 それらのどれかのクロールが完了すると、設定 4 のクロールが開始されます。 同様に、設定 10 まで 1 つ完了するごとに 1 つ起動していきます。
+クロール設定でスレッド数を指定することができますが、ここでの同時実行のクロール設定数は起動するスレッド数を示すものではありません。たとえば、同時実行のクロール設定数が 3 で、各クロール設定のスレッド数を 5 としている場合は、3 x 5 = 15 のスレッド数が起動してクロールすることになります。
+インデックスされているデータを新規データ登録後に自動的に削除することができます。インデックスの有効期限で 5 日を選択している場合は、5 日以上前に登録して更新がなかったものが削除されます。コンテンツが削除されてしまったデータなどを検索対象から外す場合などに利用できます。
+障害 URL に登録された URL は、障害回数を超えると次回のクロール時にクロール対象外になります。監視する必要のない障害種類はこの値を指定することで次回もクロール対象となります。
+障害回数を超えた障害 URL はクロール対象外になります。
+ここでは、セッション情報に関わる設定について説明します。1 回のクロールした結果を 1 つのセッション情報として保存されます。実行した時間やインデックスされた数を確認することができます。
+管理者アカウントでログイン後、メニューのセッション情報をクリックします。
+すべて削除リンクをクリックすると実行中でないすべてのセッション情報を削除することができます。 + 期限が切れたセッションは次回クロール時に削除されます。
+セッション ID のクロール内容を確認できます。クロールの開始や終了時間、インデックスされたドキュメント数などが一覧されます。
+ここでは、Fess の設定情報のバックアップとリストア方法について説明します。
+管理者アカウントでログイン後、メニューのバックアップ/リストアをクリックします。
+ダウンロードリンクをクリックすると、Fess の設定情報を XML 形式で出力します。保存される設定情報は以下のものです。
+セッション情報、検索ログ、クリックログはCSV形式で取得できます。
+Solr 内のインデックスデータやクロール中のデータはバックアップ対象にはなりません。それらのデータは Fess の設定情報をリストア後、クロールすることで再生成することができます。Solr のインデックスをバックアップする必要がある場合は、solr ディレクトリをバックアップしてください。
+バックアップで出力した XML または CSV をアップロードすることで設定情報、各種ログを復元することができます。ファイルを指定してデータのリストアボタンをクリックしてください。
+XML ファイルの設定情報指定の際にデータの上書きを有効にすると、既に同じデータがある場合は既存のデータの更新を行います。
+Fess ではデータベースやCSVなどのデータソースをクロール対象とすることができます。ここでは、そのために必要なデータストアの設定について説明します。
+管理者アカウントでログイン後、メニューのデータストアをクリックします。
+例として、以下のようなテーブルが MySQL の testdb というデータベースにあり、ユーザ名 hoge 、パスワード fuga で接続することができるとして、説明を行います。
+ここでは、データは以下のようなものを入れておきます.
+パラメータの設定例は以下のようになります。
+パラメータは「キー=値」形式となっています。キーの説明は以下です。
+driver | +ドライバクラス名 | +
url | +URL | +
username | +DBに接続する際のユーザ名 | +
password | +DBに接続する際のパスワード | +
sql | +クロール対象を得るための SQL 文 | +
スクリプトの設定例は以下のようになります。
++ パラメータは「キー=値」形式になっています。キーの説明は以下です。 +
++ 値の側は、OGNL で記述します。文字列はダブルクォーテーションで閉じてください。データベースのカラム名でアクセスすれば、その値になります。 +
+url | +URL(検索結果に表示されるリンク) | +
host | +ホスト名 | +
site | +サイトパス | +
title | +タイトル | +
content | +コンテンツ(インデックス対象文字列) | +
cache | +コンテンツのキャッシュ(インデックス対象ではない) | +
digest | +検索結果に表示されるダイジェスト部分 | +
anchor | +コンテンツに含まれるリンク(普通は指定する必要はありません) | +
contentLength | +コンテンツの長さ | +
lastModified | +コンテンツの最終更新日 | +
データベースに接続する際にはドライバが必要となります。webapps/fess/WEB-INF/cmd/lib に jar ファイルを置いてください。
+検索結果に latitude_s のような項目値を表示する場合は webapps/fess/WEB-INF/classes/app.dicon に以下のように設定してください。 + 追加後は searchResults.jsp などで ${doc.latitude_s} とすることで表示されます。
+ここでは、検索画面のデザインに関する設定について説明します。
+管理者アカウントでログイン後、メニューのデザインをクリックします。
+以下の画面で検索画面を編集することができます。
+Fess でクロールして登録した日時や取得するファイルの更新日時を検索結果に表示したい場合は、検索結果ページ (コンテンツ)に次のように記述します。
+tstampDate がクロール時の登録日時、lastModifiedDate がドキュメントの更新日時になります。出力する日付フォーマットは fmt:formateDate の仕様に従います。
+検索画面で利用可能なファイルをダウンロードや削除することができます。
+検索画面で使用するファイルをアップロードすることができます。サポートしている画像ファイル名は jpg、gif、png、css、js です。
+アップロードするファイルにファイル名を指定したい場合に利用します。省略した場合はアップロードしたファイル名が利用されます。
+検索画面の JSP ファイルを編集することができます。対象の JSP ファイルの編集ボタンを押下することで、現在の JSP ファイルを編集することができます。また、デフォルトを使用ボタンを押下すると、インストール時の JSP ファイルとして編集することができます。編集画面で更新ボタンで保存することで、変更が反映されます。
+以下に記述方法の例を示します。
+トップページ (フレーム) | +検索トップページの JSP ファイルです。この JSP ファイルが各部分の JSP ファイルを include しています。 | +
ヘッダー | +ヘッダーのJSPファイルです。 | +
フッター | +フッターのJSPファイルです。 | +
検索結果ページ (フレーム) | +検索結果一覧ページの JSP ファイルです。この JSP ファイルが各部分の JSP ファイルを include しています。 | +
検索結果ページ (コンテンツ) | +検索結果一覧ページの検索結果部分を表現する JSP ファイルです。検索結果があるときに利用される JSP ファイルです。検索結果の表現をカスタマイズしたい場合に変更します。 | +
検索結果ページ (結果なし) | +検索結果一覧ページの検索結果部分を表現する JSP ファイルです。検索結果がないときに利用される JSP ファイルです。 | +
ヘルプページ(フレーム) | +ヘルプページのJSPファイルです。 | +
検索エラーページ | +検索エラーページのJSPファイルです。検索エラーの表現をカスタマイズしたい場合に変更します。 | +
ファイル起動ページ | +ファイル起動ページのJSPファイルです。ファイルシステムクロールを利用して検索結果の表示にJavaプラグインの表示を有効にした場合に利用される画面です。 | +
エラーページ(ヘッダー) | +エラーページのヘッダー部分を表現するJSPファイルです。 | +
エラーページ(フッター) | +エラーページのフッター部分を表現するJSPファイルです。 | +
エラーページ(ページが見つかりません) | +ページが見つからない場合に表示されるエラーページのJSPファイルです。 | +
エラーページ(システムエラー) | +システムエラーの場合に表示されるエラーページのJSPファイルです。 | +
エラーページ(リダイレクト) | +HTTPリダイレクト発生時に表示されるエラーページのJSPファイルです。 | +
エラーページ(不正なリクエスト) | +不正なリクエストが発生時に表示されるエラーページのJSPファイルです。 | +
ここでは、辞書に関する設定について説明します。
+管理者アカウントでログイン後、メニューの辞書をクリックします。編集可能な各種辞書が一覧されます。
+人名、固有名詞、専門用語などの登録することができます。 + ユーザー辞書のパスをクリックすると辞書に登録された単語一覧が表示されます。
+編集したい単語をクリックすると編集画面が表示されます。
+検索対象とする単語を入力します。
+単語が複合語の場合、分割した単語で検索されてもヒットするようにできます。 + たとえば、「全文検索エンジン」を「全文 検索 エンジン」と入力することで、分割した単語でも検索できるようにします。
+単語の読みをカタカナで入力します。分割を行った場合は分割して入力します。 + たとえば、「ゼンブン ケンサク エンジン」と入力します。
+入力した単語の品詞を入力します。
+意味が同じ単語(GB、gigabyteなど)を登録することができます。 + 同義語辞書のパスをクリックすると辞書に登録された単語一覧が表示されます。
+編集したい単語をクリックすると編集画面が表示されます。
+同義語として扱う対象となる単語を入力します。
+変換元で入力した単語を変換後の単語で展開します。 + たとえば、「TV」を「TV」と「テレビ」として扱いたい場合は、変換元に「TV」を入力して、変換後に「TV」と「テレビ」を入力します。
+ここでは、インデックスに関する設定について説明します。
+管理者アカウントでログイン後、メニューのインデックスをクリックします。
+サーバーグループに対して、インデックスのコミット、最適化を発行することができます。
+特に問題がなければ、手動でコミットや最適化を実行する必要はありません。
+セッション ID を指定して、特定の検索対象を削除することができます。URL を指定することで特定のドキュメントだけを削除することもできます。
+各セッションで登録されたドキュメント数が多い順に表示されます。セッション名をクリックすることでその結果一覧を確認できます。
+ここでは、障害URLについて説明します。クロール時に取得できなかった URL が記録され、障害 URL として確認することができます。
+管理者アカウントでログイン後、メニューの障害 URL をクリックします。
+障害 URL の確認リンクをクリックすると、詳細が表示されます。
+クロールできなかった URL と日時が一覧できます。
+ここでは、人気URLログについて説明します。人気URLログは利用者が検索画面で投票リンクをクリックしたときにお気に入りのリンクとして登録します。クロール全般の設定で本機能を無効にすることができます。
+管理者アカウントでログイン後、メニューの人気URLをクリックします。
+人気URLが一覧されます。
+ここでは、ファイルシステムを対象としたクロールに対してファイルシステム認証が必要な場合の設定方法について説明します。Fess は Windows の共有フォルダに対するクロールに対応しています。
+管理者アカウントでログイン後、メニューのファイルシステム認証をクリックします。
+認証が必要なサイトのホスト名を指定します。省略した場合は、指定したファイルシステムクロール設定において、任意のホスト名で適用されます。
+認証が必要なサイトのポートを指定します。すべてのポートに対して適用したい場合は -1 を指定します。その場合は、指定したファイルシステムクロール設定において、任意のポートで適用されます。
+認証方法を選択します。SAMBA (Windows共有フォルダ認証) を利用することができます。
+認証サイトにログインするためのユーザー名を指定します。
+認証サイトにログインするためのパスワードを指定します。
+認証サイトにログインするために必要な設定値がある場合に設定します。SAMBA の場合、domainの値を設定することができます。設定する場合には以下のように記述します。
+上記の認証設定を適用するファイルシステムクロールの設定名を選択します。ファイルシステムクロール設定を事前に登録しておく必要があります。
+ここでは、ファイルシステムを対象としたクロールに関する設定について説明します。
+Fess で数十万件以上のドキュメントをインデックス化したい場合は、1 つのクロール設定を数万件以下にすることを推奨しています。1 つのクロール設定で数十万件を対象すると、インデックス化のパフォーマンスが低下する場合があります。
+管理者アカウントでログイン後、メニューのファイルシステムをクリックします。
+一覧ページで表示される名前です。
+パスは複数指定できます。file: または smb: で始まるように指定します。たとえば、
+のように指定します。指定されたディレクトリ以下を巡回します。
+Windows 環境の場合は URI で記述する必要があるので、c:\Documents\taro というパスであれば file:/c:/Documents/taro と指定します。
+Windows の共有フォルダについては、たとえば、host1のshareフォルダをクロール対象にしたい場合は、クロール設定でsmb://host1/share/とします(最後に/が必要)。共有フォルダに認証がある場合にはファイルシステム認証画面で認証情報を設定します。
+正規表現で指定することによって、特定のパスパターンをクロールや検索の対象にしたり、除外できます。
+クロール対象とするパス | +指定された正規表現のパスをクロールします。 | +
---|---|
クロール対象から除外するパス | +指定された正規表現のパスをクロール対象としません。クロール対象とするパスが指定されていても、ここでの指定が優先されます。 | +
検索対象とするパス | +指定された正規表現のパスを検索対象します。検索除外対象とするパスと指定されていても、ここでの指定が優先されます。 | +
検索対象から除外するパス | +指定された正規表現のパスを検索対象としません。クロール対象から除外してしまうと以降の全てのリンクが検索対象とすることができませんが、クロール対象の一部だけ検索対象としない場合に指定します。 | +
たとえば、/home/ 以下しかクロールしない場合は、対象とするパスに
+また、拡張子が png のものを対象から除外したい場合は、除外するパスに
+と指定します。改行をすることで複数指定することが可能です。
+指定方法はjava.io.File が扱う URI に従います。以下のようになります。
+クロールに必要な設定情報を指定することができます。
+ディレクトリ階層の深さを指定します。
+クロールして取得するドキュメント数を指定できます。
+クロールするスレッド数を指定します。5 を指定した場合、5 個のスレッドで同時にウェブサイトをクロールします。
+ドキュメントをクロールする間隔です。5000 とした場合は 1 つのスレッドが 5 秒間隔でドキュメントを取得しにいきます。
+スレッド数を 5 個、間隔を 1000 ミリ秒とした場合、1 秒間で 5 ドキュメントを取得しにいくことになります。
+このクロール設定で検索対象とした URL に重みを付けることができます。検索結果において、他のものより上に表示したい場合に利用します。標準では 1 です。大きい値ほど優先されて、検索結果の上位に表示されます。他の結果より確実に優先して表示したい場合は、10000 などの十分に大きな値を指定します。
+指定できる値は 0 以上の整数です。この値は Solr にドキュメントを追加する際のブースト値として利用されます。
+利用するユーザーが特定のロールのときだけに検索結果に表示できるように制御することができます。ロールはあらかじめ設定しておく必要があります。たとえば、ポータルサーバーなどログインを必要とするシステムにおいて、利用するユーザーにより検索結果を出し分けたい場合に利用できます。
+検索結果をラベル付けすることができます。ラベルを指定すると、検索画面において、ラベルごとの検索などが可能になります。
+有効にすることで、設定されているクロール時刻にクロールされます。一時的にクロールしないようにしたい場合に利用できます。
++このドキュメントはFessの管理作業を担当するユーザーを対象にしています。 +
++このドキュメントでは、Fessの設定管理の方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
+管理 UI がサポートするブラウザは以下の通りです。
+実行したジョブの結果を一覧として表示します。
+管理者アカウントでログイン後、メニューの利用者をクリックします。
+実行したジョブのログが一覧されます。ジョブ名、ステータス、開始・完了時刻を確認することができます。また、詳細を選択して、各ログの詳細を確認することができます。
+ジョブのログ内容を確認できます。ジョブ名、ステータス、開始・完了時刻、結果などを表示します。
+ここでは、ラベルに関する設定について説明します。ラベルはクロール設定で選択することで、検索結果に表示されるドキュメントを分類することができます。また、クロール設定で設定していない場合でもラベルの設定でラベルを付加するパスを正規表現で指定することができます。ラベルを登録している場合には、検索語入力欄の右側にラベル選択のプルダウンボックスが表示されます。
+管理者アカウントでログイン後、メニューのラベルをクリックします。
+検索時のラベル選択プルダウンボックスに表示される名前を指定します。
+ドキュメントを分類するときの識別子を指定します。この値は Solr に送信されます。英数字で指定してください。
+ラベルを付加するパスを正規表現で設定します。複数行記述することで複数指定することができます。ここで指定したパスにマッチするドキュメントはクロール設定にかかわらず、ラベルが設定されます。
+クロール対象とするパスで対象から除外したいものを正規表現で設定します。複数行記述することで複数指定することができます。
+ラベルを表示するロールを指定します。
+ラベルの表示順を指定します。
+ここでは、Fess で出力されるログファイルのダウンロードについて説明します。
+管理者アカウントでログイン後、メニューのログファイルをクリックします。
+表示されているログファイル名をクリックすると、ログファイルをダウンロードすることができます。
+ここでは、重複ホストに関する設定について説明します。重複ホストはクロール時に異なるホスト名を同一のものとして扱いたいときに利用します。たとえば、www.example.com と example.com を同じサイトとして扱いたい場合などで利用できます。
+管理者アカウントでログイン後、メニューの重複ホストをクリックします。
+正規ホスト名を指定します。重複ホスト名は正規ホスト名に置き換えます。
+重複しているホスト名を指定します。置き換えたいホスト名を指定します。
+ここでは、パスマッピングに関する設定について説明します。 パスマッピングは検索結果に表示するリンクを置き換えたい場合などに利用することができます。
+管理者アカウントでログイン後、メニューのパスマッピングをクリックします。
+パスマッピングは指定した正規表現でマッチする部分を置き換え文字列で置換します。 ローカルなファイルシステムをクロールした場合、環境によっては検索結果のリンクが有効でない場合があります。 そのような場合にパスマッピングを利用して、検索結果のリンクを制御できます。 パスマッピングは複数指定できます。
+置換したい文字列を指定します。記述方法は Java 6 の正規表現に従います。
+一致した正規表現を置き換える文字列を指定します。
+ここでは、リクエストヘッダーに関する設定について説明します。リクエストヘッダーの機能はドキュメントをクロールして取得するときのリクエストに付加するリクエストヘッダー情報になります。たとえば、認証システムでヘッダー情報を見て、特定の値があれば自動でログインした状態にするなどの場合に利用できます。
+管理者アカウントでログイン後、メニューのリクエストヘッダーをクリックします。
+リクエストに付加するときのリクエストヘッダー名を指定します。
+リクエストに付加するときのリクエストヘッダー値を指定します。
+リクエストヘッダーを付加するウェブクロール設定名を選択します。選択したクロール設定だけでリクエストヘッダーに付加されます。
+ここでは、ロールに関する設定について説明します。ロールはクロール設定で選択することで、検索結果に表示されるドキュメントを分類することができます。利用方法については、ロールの設定を参照してください。
+管理者アカウントでログイン後、メニューのロールをクリックします。
+一覧に表示される名前を指定します。
+ドキュメントを分類するときの識別子を指定します。この値は Solr に送信されます。英数字で指定してください。
+ここでは、ジョブに関する設定について説明します。
+管理者アカウントでログイン後、メニューのジョブ管理をクリックします。
+一覧で表示される名前です。
+対象はジョブをバッチ等で直接コマンド実行するときに実行するかどうかの識別子として利用することができます。クロールをコマンド実行などしない場合は、「all」を指定してください。
+スケジュールの設定を行います。ここで設定したスケジュールでスクリプトで記述したジョブが実行されます。
+記述形式はCronのような「秒 分 時 日 月 曜日 年(省略可)」の形式で記述します。たとえば、「0 0 12 ? * WED」の場合は、毎週水曜日の12:00pmにジョブを実行します。より細かい指定方法については「Quartz」を参照してください。
+スクリプトの実行環境を指定します。現時点では「groovy」だけをサポートしています。
+ジョブの実行内容を実行方法で指定した言語で記述します。
+たとえば、3つのクロール設定のみをクロールジョブとして実行させたい場合は、以下のように記述します(前提としてウェブクロール設定のIDを1と2としファイルシステムクロール設定のIDを1とします)。
+有効にすることでジョブログへ記録されます。
+有効にすることでクロールジョブとして扱われます。「システムの設定」でクロールの起動・停止対象となります。
+ジョブの有効・無効の状態を指定します。無効にした場合はジョブは実行されません。
+ジョブ一覧での表示順を指定します。
+ここでは、管理用検索について説明します。
+管理者アカウントでログイン後、メニューの検索をクリックします。
+指定した条件で検索することができます。通常の検索画面ではロールやブラウザの条件が暗黙的に付加されますが、この管理用検索では付加されません。表示された検索結果から特定なドキュメントをインデクスから削除することもできます。
+ここでは、検索ログについて説明します。検索ログは利用者が検索画面で検索を行ったときにログされます。検索ログは検索語や日時が記録されます。また、検索結果をクリックした場合にクリックしURLも記録することができます。
+管理者アカウントでログイン後、メニューの検索ログをクリックします。
+検索語と日時が一覧されます。詳細でクリックした URL なども確認することができます。
+ここでは、統計について説明します。 検索ログおよびクリックログを集計することができます。
+管理者アカウントでログイン後、メニューの統計をクリックします。
+レポート種別を選択することで、確認する対象を選択することができます。指定された条件で多い順に表示されます。
+ここでは、クロールに関するサーバー設定や Fess で登録している Solr に関する設定について説明します。Solr サーバーは設定ファイルによりグループ化されて登録されています。
+管理者アカウントでログイン後、メニューのシステム設定をクリックします。
+更新用のサーバーがドキュメントの追加など処理中の場合、実行中として表示されます。クロール処理が実行中の場合にはセッション ID が表示されます。Fess サーバーをシャットダウンする場合は、実行中ではないときにシャットダウンすると安全にシャットダウンすることができます。実行中に Fess をシャットダウンした場合は、クロール処理が終了するまでプロセスが終了しない場合があります。
+停止中の場合はクロールの開始ボタンを押下することで、クロールを手動で実行することができます。
+検索用、更新用に利用されているサーバーグループ名が表示されます。
+Fess では Solr サーバーをサーバー状態とインデックス状態の状態管理を行なっています。サーバー状態は Solr サーバーにアクセス可能かどうかを管理しています。インデックス状態はクロールが正しく完了できたかどうかを管理しています。検索はサーバー状態が有効であれば、インデックスの状態にかかわらず利用することができます。クロールはサーバー状態が有効かつインデックスの状態が準備中または完了の場合に正しく実行することができます。手動でクロールの開始を実行した場合は、インデックスの状態が準備中に自動で変化します。サーバー状態はサーバーが復旧すると自動で有効の状態に復旧します。
+Solr サーバーのインスタンス状態を確認することができます。また、各インスタンスに対して、起動、停止、リロードのリクエストを発行することができます。
+ここでは、現在稼働中のシステムに関する環境変数などのプロパティ情報を確認できます。
+管理者アカウントでログイン後、メニューのシステム情報をクリックします。
+サーバーの環境変数を一覧できます。
+Fess に設定されたシステムプロパティを一覧できます。
+Fess の設定情報を確認できます。
+バグを報告する際に添付するためのプロパティ一覧です。個人情報が含まれない値を抽出しています。
+ここでは、利用者ログについて説明します。利用者ログは利用者が検索画面で検索を行ったときに利用者を識別します。検索ログや人気URLの情報と結びつけて利用することができます。クロール全般の設定で本機能を無効にすることができます。
+管理者アカウントでログイン後、メニューの利用者をクリックします。
+利用者のIDが一覧されます。検索ログまたは人気URLのリンクを選択して、各ログの一覧を確認することができます。
+ここでは、ウェブを対象としたクロールに対してウェブ認証が必要な場合の設定方法について説明します。Fess は BASIC 認証と DIGEST 認証に対するクロールに対応しています。
+管理者アカウントでログイン後、メニューのウェブ認証をクリックします。
+認証が必要なサイトのホスト名を指定します。省略した場合は、指定したウェブクロール設定において、任意のホスト名で適用されます。
+認証が必要なサイトのポートを指定します。すべてのポートに対して適用したい場合は -1 を指定します。その場合は、指定したウェブクロール設定において、任意のポートで適用されます。
+認証が必要なサイトのレルム名を指定します。省略した場合は、指定したウェブクロール設定において、任意のレルム名で適用されます。
+認証方法を選択します。BASIC 認証、DIGEST 認証または NTLM 認証を利用することができます。
+認証サイトにログインするためのユーザー名を指定します。
+認証サイトにログインするためのパスワードを指定します。
+認証サイトにログインするために必要な設定値がある場合に設定します。NTLM認証の場合、workstationとdomainの値を設定することができます。設定する場合には以下のように記述します。
+上記の認証設定を適用するウェブ設定名を選択します。ウェブクロール設定を事前に登録しておく必要があります。
+ここでは、ウェブを対象としたクロールに関する設定について説明します。
+Fess で数十万件以上のドキュメントをインデックス化したい場合は、1 つのクロール設定を数万件以下にすることを推奨しています。1 つのクロール設定で数十万件を対象すると、インデックス化のパフォーマンスが低下する場合があります。
+管理者アカウントでログイン後、メニューのウェブをクリックします。
+一覧ページで表示される名前です。
+URL は複数指定できます。http: または https: で始まるように指定します。たとえば、
+のように指定します。
+正規表現で指定することによって、特定の URL パターンをクロールや検索の対象にしたり、除外できます。
+クロール対象とする URL | +指定された正規表現の URL をクロールします。 | +
---|---|
クロール対象から除外するURL | +指定された正規表現の URL をクロール対象としません。クロール対象とする URL が指定されていても、ここでの指定が優先されます。 | +
検索対象とするURL | +指定された正規表現の URL を検索対象します。検索除外対象とする URL と指定されていても、ここでの指定が優先されます。 | +
検索対象から除外するURL | +指定された正規表現の URL を検索対象としません。クロール対象から除外してしまうと以降の全てのリンクが検索対象とすることができませんが、クロール対象の一部だけ検索対象としない場合に指定します。 | +
たとえば、http://localhost/ 以下しかクロールしない場合は、クロール対象とする URL に
+また、拡張子が png のものを対象から除外したい場合は、除外する URL に
+と指定します。改行することで複数指定することが可能です。
+クロールに必要な設定情報を指定することができます。
+クロールしたドキュメント内に含まれるリンクを順に辿っていきますがその辿る深さを指定できます。
+クロールして取得するドキュメント数を指定できます。指定しない場合は、100,000件になります。
+クロール時に利用するユーザーエージェントを指定できます。
+クロールするスレッド数を指定します。5 を指定した場合、5 個のスレッドで同時にウェブサイトをクロールします。
+ドキュメントをクロールする間隔 (ミリ秒) です。5000 とした場合は 1 つのスレッドが 5 秒間隔でドキュメントを取得しにいきます。
+スレッド数を 5 個、間隔を 1000 ミリ秒とした場合、1 秒間で 5 ドキュメントを取得しにいくことになります。ウェブサイトをクロールするときにはウェブサーバー側の負荷にもなるので、負荷をかけない十分な値を設定してください。
+このクロール設定で検索対象とした URL に重みを付けることができます。検索結果において、他のものより上に表示したい場合に利用します。標準では 1 です。大きい値ほど優先されて、検索結果の上位に表示されます。他の結果より確実に優先して表示したい場合は、10000 などの十分に大きな値を指定します。
+指定できる値は 0 以上の整数です。この値は Solr にドキュメントを追加する際のブースト値として利用されます。
+利用するユーザーが特定のロールのときだけに検索結果に表示できるように制御することができます。ロールはあらかじめ設定しておく必要があります。たとえば、ポータルサーバーなどログインを必要とするシステムにおいて、利用するユーザーにより検索結果を出し分けたい場合に利用できます。
+検索結果をラベル付けすることができます。ラベルを指定すると、検索画面において、ラベルごとの検索などが可能になります。
+有効にすることで、設定されているクロール時刻にクロールされます。一時的にクロールしないようにしたい場合に利用できます。
+Fess ではサイトマップファイルをクロールして、その中に定義されている URL をクロール対象とすることができます。サイトマップは http://www.sitemaps.org/ の仕様に従います。利用可能なフォーマットは XML Sitemaps、XML Sitemaps Index、テキスト (URL を改行で記述したもの) です。
+サイトマップは URL に指定します。サイトマップは普通の XML ファイルやテキストであるため、クロール時にその URL が普通の XML ファイルなのかサイトマップなのかが区別できません。ですので、デフォルトでは sitemap.*.xml、sitemap.*.gz、sitemap.*txt であるファイル名の URL であればサイトマップとして処理します(webapps/fess/WEB-INF/classes/s2robot_rule.dicon でカスタマイズは可能)。
+HTML ファイルをクロールするとリンクが次のクロール対象になりますが、サイトマップファイルをクロールするとその中の URL が次のクロール対象になります。
+ここでは、設定ウィザードの紹介をします。
+設定ウィザードを利用することで、簡単に Fess をセットアップすることができます。
+管理者アカウントでログイン後、メニューの設定ウィザードをクリックします。
+クロール設定を行います。 + クロール設定は、検索対象するURIを登録するものです。 + クロール設定名の部分は、識別しやすい任意の名前をいれてください。 + クロールパスの部分には、検索対象としたい URI を入れてください。
+例えば、http://fess.codelibs.org/ を検索対象としたい場合、以下のようになります。
+ファイルシステムであれば、c:\Users\taro などのように入力します。
+これで設定は完了です。「クロール開始」ボタンを押下することで、クロールが開始されます。「完了」ボタンを押下した場合、スケジューリングの設定で指定した時間になるまでは、クロールが開始されません。
+設定ウィザードで設定した内容は、クロール全般、ウェブ、ファイルシステムから変更できます。
+利用するデータベースには H2 Database と MySQL を利用するバイナリを提供しています。ソースコードを用いて設定を変更してビルドすることで他のデータベースを利用することができます。
+MySQL の文字コードの設定をします。/etc/mysql/my.cnf などに以下の設定がなければ追加します。
+MySQL 用のバイナリをダウンロードして展開します。
+データベースを作成します。
+作成したデータベースにテーブルを作成します。DDL ファイルは extension/mysql にあります。
+webapps/fess/WEB-INF/lib に mysql ドライバの jar を配置します。
+webapps/fess/WEB-INF/classes/jdbc.dicon を編集します。
+webapps/fess/WEB-INF/classes/s2robot_jdbc.dicon を編集します。
+Fess のクロールするファイルサイズ上限を指定することができます。デフォルトでは HTML ファイルは 2.5M バイト、それ以外は 10M バイトまで処理します。扱うファイルサイズを変更したい場合は webapps/fess/WEB-INF/classes/s2robot_contentlength.dicon を編集します。標準の s2robot_contentlength.dicon は以下の通りです。
+デフォルト値を変更したい場合は defaultMaxLength の値を変更します。扱うファイルサイズはコンテンツタイプごとに指定できます。HTML ファイルであれば、text/html と扱うファイルサイズの上限を記述します。
+扱うファイルサイズの上限値を変更する場合は、使用するヒープメモリ量にも注意してください。設定方法についてはメモリ関連を参照してください。
+緯度経度の位置情報を持つドキュメントをGoogleマップなどと連携して、ジオサーチを利用することができます。
+位置情報を格納するフィードとして location が定義されています。 + インデックス生成時に Solr に緯度経度を 45.17614,-93.87341 のような形式で location フィードに設定して、ドキュメントを登録します。 + また、緯度経度を検索結果として表示したい場合は、latitude_sとlongitude_sのようなフィールドとして値を設定します。 + *_s は Solr の文字列のダイナミックフィールドとして利用できます。
+検索時にはリクエストパラメータにlatitude、longitude、distanceで値を指定します。 + 緯度情報 (latitude, longitude) を中心にした distance で指定した距離 (km) に存在する結果を表示します。 + 緯度経度および距離は Double 型として扱われます。
+インデックスデータは Solr により管理されています。インデックスデータは数ギガなどのサイズにもなるケースもあり、Fess の管理画面からはバックアップすることはできません。
+インデックスデータのバックアップが必要な場合は、Fess を停止してから solr/core1/data および solr/core1-suggest/data ディレクトリをバックアップしてください。また、リストアする場合はバックアップしたインデックスデータを元に戻してください。
++このドキュメントは、Fessの設定作業を担当するユーザーを対象にしています。 +
++このドキュメントでは、Fessの設定方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
++ Fess の標準配布物は Tomcat に配備済みの状態で配布されています。 + Fess は Tomcat に依存していないので、任意の Java アプリケーションサーバーに配備することも可能です。 + ここでは、既に利用している Tomcat に Fess を配備する方法を説明します。 +
+Fess サーバーをここからダウンロードします。
++ ダウンロードした Fess サーバーを展開します。 + 展開した Fess サーバーのトップディレクトリを $FESS_HOME とします。 + 既存の Tomcat 7 のトップディレクトリを $TOMCAT_HOME とします。 + 必要な Fess サーバーのデータをコピーします。 +
++ コピー先のファイルに変更など加えている場合は、diff コマンドなどで更新差分を確認して差分だけを適用します。 +
+startup.* で通常の Tomcat と同様に起動して http://localhost:8080/fess/ にアクセスします。
+Fess が出力するログファイルを以下にまとめます。
+ファイル名 | +内容 | +
---|---|
webapps/fess/WEB-INF/logs/fess.out | +Fess サーバのログ。管理画面や検索画面で操作した時のログなどが出力される。 | +
webapps/fess/WEB-INF/logs/fess_crawler.out | +クロール時のログ。クロール実行時のログが出力される。 | +
logs/catalina.out | +Fess サーバ(Tomcat)のログ。Tomcat 関連のログが出力される。 | +
logs/solr.log | +Fess サーバ(Solr)のログ。Solr 関連のログが出力される。 | +
動作に問題が発生した場合には上記のログを確認してください。
+ログを出力する内容は、webapps/fess/WEB-INF/classes/log4j.xml で設定します。デフォルトでは INFO レベルとして出力しています。
+たとえば、Fess が Solr に対してドキュメントを投入処理をするログをより出力したい場合は log4j.xml で以下の部分をコメントアウトから外します。
+ログ出力に関する細かい設定が必要な場合は、Log4J のドキュメントを参照してください。
+問題解決するために、クロール時の HTTP アクセスの内容を確認したい場合は、HttpClient のログレベルを変更することで確認することができます。
+priorityタグのvalue属性をinfoからdebugに変更しクロールする事で、全てのdebugログを出力する事ができます。
+Java ではプロセスごとに使用する最大メモリが設定されています。ですので、サーバーに 8G の物理メモリがあったとしてもプロセスでの上限以上のメモリを使用することはありません。クロールのスレッド数や間隔により消費するメモリも大きく変わります。メモリが足りない状況になった場合は以降の説明の手順で設定を変更してください。
+クロール設定の内容によっては以下のような OutOfMemory エラーが発生する場合があります。
+発生した場合は ヒープメモリの最大値を増やしてください。 bin/setenv.[sh|bat] に -Xmx1g のように変更します(この場合は最大値を 1G に設定)。
++ クローラ側のメモリーの最大値も変更可能です。デフォルトでは、512Mとなっています。 +
++ 変更するには、webapps/fess/WEB-INF/classes/fess.dicon の crawlerJavaOptions のコメントアウトを外し、-Xmx1g のように変更します(この場合は最大値を 1G に設定)。 +
+携帯端末情報はValueEngine社より提供されるものを利用しています。最新の携帯端末情報を利用したい場合は、端末プロファイルをダウンロードして、webapps/fess/WEB-INF/classes/device / に _YYYY-MM-DD を取り除いて保存します。 再起動後に変更が有効になります。
+html以外のファイルで、参照元とファイル名の文字コードが異なる場合、検索結果のリンクの文字列が文字化けします。
+たとえば、テスト.txt というファイルの中身がUTF-8 で書かれていて、ファイル名が Shift_JIS の場合、リンクの文字列が文字化けします。
+例えば下記のように webapps/fess/WEB-INF/classes/s2robot_transformer.dicon を修正することで、パスを Shift_JIS で解決するようになります。
++ パスワードが設定されたPDFを検索対象にするためには設定ファイルで対象ファイルのパスワードを登録しておく必要があります. +
++ まず、webapps/fess/WEB-INF/classes/s2robot_extractor.dicon を以下のように作成します。 + 今回は,test_〜.pdf というファイルに pass というパスワードが設定されている場合です. + 対象ファイルが複数ある場合は,addPassword で複数設定します. +
+次に、webapps/fess/WEB-INF/classes/s2robot_rule.dicon に以下を編集します。
+上記を設定したら、Fess を起動してクロールを実行してください。基本的な利用方法は特に変わりません。
+Fess ではインデックス作成や検索の際、ステミングという処理が行われています。
+これは英単語を正規化する処理であり、例えば、recharging や rechargable といった単語は recharg という形に正規化されます。これによって、recharging という語で検索を行った場合でもrechargableという語にヒットし、検索漏れが少なくなることが期待されます。
+ステミング処理は基本的にルールベースの処理であるため、意図しない正規化が行われてしまう可能性があります。例えば、Maine(アメリカの州の名前)という語は main に正規化されてしまいます。
+このような場合、protwords.txt に Maine を追加することで、ステミング処理の対象から除外できます。
+イントラネット内から外部サイトをクロールするような場合は、ファイアフォールにクロールがブロックされてしまうかもしれません。そのような場合にはクローラ用のプロキシを設定してください。
+下記の内容で webapps/fess/WEB-INF/classes/s2robot_client.dicon を作成することでプロキシが設定されます。
+インデックスのレプリケーションは Solr のレプリケーション機能で設定します。クロールおよびインデックス作成用の Fess と検索用 Fess の 2 台のサーバーを構築することで、インデックス作成時にかかる負荷を分散することができます。
+Fess をダウンロードして、インストールします。ここでは、MasterServer という名前のホストにインストールしたとします。/opt/fess_master/
にインストールしたとします。solr/core1/conf/solrconfig.xml を以下のように編集します。
Fess の起動後、通常の構築と同様にクロール設定を登録します。インデックス作成用 Fess の構築手順は通常の構築手順と特に変わりません。
+Fess をダウンロードして、インストールします。/opt/fess_slave/
にインストールしたとします。solr/core1/conf/solrconfig.xml を以下のように編集します。
Fess を起動します。
+上記までの設定で、インデックス作成用 Fess がクロール後、最適化 (optimize) されると、検索用 Fess にインデックスがコピーされます。
+Fess では任意の認証システムで認証されたユーザーの認証情報を元に検索結果を出し分けることができます。たとえば、ロールaを持つユーザーAは検索結果にロールaの情報が表示されるが、ロールaを持たないユーザーBは検索してもそれが表示されません。この機能を利用することで、ポータルやシングルサインオン環境でログインしているユーザーの所属する部門別や役職別などに検索を実現することができます。
+Fess のロールベース検索ではロール情報を以下より取得できます。
+ポータルやエージェント型シングルサインオンシステムでは認証時に Fess の稼働しているドメインとパスに対してクッキーで認証情報を保存することで、ロール情報を取得することができます。また、リバースプロキシ型シングルサインオンシステムでは Fess へのアクセス時にリクエストパラメータやリクエストヘッダーに認証情報を付加することでロール情報を取得することができます。
+ここでは J2EE の認証情報を利用したロールベース検索の設定方法を説明します。
+conf/tomcat-users.xml にロールとユーザーを追加します。今回は role1 ロールでロールベース検索を行います。ログインするユーザーは role1 になります。
+webapps/fess/WEB-INF/classes/fess.dicon を以下のように設定します。
+defaultRoleList を設定することで、認証情報がない場合のロール情報を設定できます。設定することでログインしていないユーザーに対して、ロールが必要な検索結果を表示させないようにできます。
+webapps/fess/WEB-INF/web.xml を以下のように設定します。
+Fess を起動して管理者としてログインします。メニューのロールから設定名を Role1 (設定名は任意)、値を role1 でロールを登録します。あとは role1 を持つユーザーで利用したいクロール設定で、Role1 を選択してクロール設定を登録してクロールします。
+管理画面からログアウトします。role1 ユーザーでログインします。ログインに成功すると検索画面のトップにリダイレクトされます。
+通常通り検索すると、クロール設定で Role1 のロール設定されたものだけが表示されます。
+また、ログインしていない状態での検索は、guest ユーザーによる検索となります。
+管理者以外のロールでログインした状態で http://localhost:8080/fess/admin にアクセスすると、ログアウトするかどうかの画面が表示されます。ログアウトボタンを押下することでログアウトされます。
+Fess がデフォルトで利用するポートは 8080 になります。 変更するには以下の手順で変更します。
+Fess が利用している Tomcat のポートを変更します。 変更は conf/server.xml に記述されている以下のものを変更します。
+標準構成では、Solr も同じ Tomcat の設定を利用しているので、Tomcat のポートを変更した場合は、Fess の Solr サーバーの参照先情報も変更する必要があります。
+webapps/fess/WEB-INF/classes/app.dicon の以下の箇所を変更します。
+webapps/fess/WEB-INF/classes/solrlib.dicon の以下の箇所を変更します。
+solr/core1/conf/solrconfig.xml の以下の箇所を変更します。
++ 注: Tomcat のポートを変更した場合は上記のポートを同様に変更しないと、Solr サーバーにアクセスできないために検索画面やインデックス更新時にエラーが表示されます。 +
+Solr は対象ドキュメントを項目(フィールド)ごとに登録するためにスキーマを定義されています。Fess で利用する Solr のスキーマは solr/core1/conf/schema.xml に定義されています。title や content など標準のフィールドと、自由にフィールド名を定義できるダイナミックフィールドが定義されています。詳細なパラメータ値については Solr のドキュメントを参照してください。
+ダイナミックフィールドを利用する場面が多いのはデータベースクロールなどでデータストアクロール設定で登録するなどだと思います。データベースクロールでダイナミックフィールドに登録する方法は、スクリプトに other_t = hoge のように記述することで hoge カラムのデータを Solr の other_t フィールドに入れることができます。
+次にダイナミックフィールドに保存されたデータを検索するためには webapps/fess/WEB-INF/classes/app.dicon に利用するフィールドを追加する必要があります。以下のように other_t を追加します。
+また、ダイナミックフィールドに保存されたデータを Solr から取り出すためには利用するフィールドを追加する必要があります。以下のように other_t を追加します。
+上記の設定で Solr から値を取得できているので、ページ上に表示するために JSP ファイルを編集します。管理画面にログインして、デザインを表示します。検索結果の表示は検索結果ページ(コンテンツ)で表示されるので、この JSP ファイルを編集します。other_t の値を表示したい箇所で ${f:h(doc.other_t)} とすることで登録した値を表示することができます。
+Fess では Solr サーバーをグループ化して、複数のグループを管理することができます。Fess はサーバーおよびグループの情報を保持して、Solr サーバーにアクセスできなくなった場合はサーバー及びグループの状態を変更します。
+Solr サーバーの状態情報は、管理画面のシステム設定で変更することができます。minActiveServer、maxErrorCount、maxRetryStatusCheckCount、maxRetryUpdateQueryCount は webapps/fess/WEB-INF/classes/solrlib.dicon で定義することができます。
+検索のためのインデックスを作成する際、索引として登録するために文書を切り分ける必要があります。このために使用されるのが、トークナイザーです。
+基本的に、トークナイザーによって切り分けられた単位よりも小さいものは、検索を行ってもヒットしません。例えば、「東京都に住む」という文を考えます。いま、この文が「東京都」「に」「住む」というようにトークナイザーによって分割されたとします。この場合、「東京都」という語で検索を行った場合はヒットします。しかし、「京都」という語で検索を行った場合はヒットしません。そのためトークナイザーの選択は重要です。
+Fess の場合デフォルトでは StandardTokenizer+CJKBigramFilter が使用されていますが、schema.xml の analyzer 部分を設定することでトークナイザーを変更することができます。
+ +StandardTokenizer+CJKBigramFilter は日本語のようなマルチバイトの文字列に対しては bi-gram 、つまり二文字ずつインデックスを作成します。この場合、1文字の語を検索することはできません。
+StandardTokenizer は日本語のようなマルチバイトの文字列に対しては uni-gram 、つまり一文字ずつインデックスを作成します。そのため、検索漏れが少なくなります。また、CJKTokenizerの場合、1文字のクエリを検索することができませんが、StandardTokenizerを使用すると検索可能になります。しかし、インデックスサイズが増えるので注意してください。
+下記の例のように solr/core1/conf/schema.xml の analyzer 部分を変更することで、StandardTokenizer を使用できます。
+また、webapps/fess/WEB-INF/classes/app.diconでデフォルトで有効になっているuseBigramをfalseに変更します。
+設定後、Fessを再起動します。
++ 標準のFess環境において、Apache POI を用いた MS Office 系ドキュメントのクロールが可能です。 + オフィス系ドキュメントのクロールに関して、OpenOfficeやLibreOfficeを利用して、ドキュメントからより高精度なテキスト抽出も行うことができます。 +
+JodConverter を Fess サーバーにインストールします。http://jodconverter.googlecode.com/ からjodconverter-core-3.0-beta-4-dist.zipをダウンロードします。展開して jar ファイルを Fess サーバーにコピーします。
+次にs2robot_extractor.diconを作成します。
+s2robot_extractor.diconは以下のような内容でjodExtractorを有効にします。
+設定後、通常通りにクロールしてインデックスを生成します。
+Windows 環境であれば Fess を Windows のサービスとして登録することができます。サービスの登録方法は Tomcat と同様です。
+Windows のサービスとして登録する場合、クロールプロセスは Windows のシステムの環境変数を見にいくため、Java の JAVA_HOME をシステムの環境変数に登録し、同様に %JAVA_HOME%\bin も Path に追加する必要があります。
+webapps\fess\WEB-INF\classes\fess.dicon を編集して、-server オプションを取り除きます。
+まず、Fess のインストール後、コマンドプロンプトから service.bat を実行します (Vista などでは管理者として起動する必要があります)。Fess は C:\Java\fess-server-9.3.0 にインストールしたものとします。
+以下のようにすることで Fess 用のプロパティを確認できます。以下を実行すると、Tomcat のプロパティ設定ウィンドウが表示されます。
+コントロールパネル - 管理ツール - サービスで管理ツールを表示して、通常の Windows のサービスと同様に自動起動などが設定できます。
+Fess で配布しているものは 64bit Windows 用の Tomcat バイナリをベースにビルドされています。 + 32bit Windows で利用する場合は Tomcat のサイトから 32bit Windows zip などを取得して、tomcat7.exe, tomcat7w.exe, tcnative-1.dll を差し替えてください。
++このドキュメントは、Fessのインストール作業およびアンインストール作業を担当するユーザーを対象にしています。 +
++このドキュメントでは、Fessのインストール方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
++Fess は以下の環境で利用することができます。 +
++Fess を利用したい環境に Java がインストールされていない場合は、http://java.sun.com/ より Java 7 以上の JDK を取得してインストールしてください。 +
++http://sourceforge.jp/projects/fess/releases/ から最新の Fess パッケージをダウンロードします。 +
++ダウンロードした fess-server-x.y.zip を展開します。Unix 環境にインストールした場合、bin 以下にあるスクリプトに実行権を付加します。 +
++管理者アカウントはアプリケーションサーバーにより管理されています。標準の Fess サーバーは Tomcat を利用しているので、Tomcat のユーザー変更方法と同様になります。変更する場合は、conf/tomcat-user.xml の admin アカウントのパスワードを修正してください。 +
++tomcat-user.xml のファイルによる管理方法以外を利用する場合は、Tomcat のドキュメントや JAAS 認証の仕様を参照してください。 +
++Fess サーバーには Solr が組み込まれていますが、アクセスするためにはパスワードが必要になります。実運用などにおいては、デフォルトのパスワードを変更してください。 +
++パスワードの変更方法は、まず、conf/tomcat-user.xml の solradmin のパスワード属性を変更します。 +
++次に webapps/fess/WEB-INF/classes/solrlib.dicon、fess_suggest.dicon および solr/core1/conf/solrconfig.xml の3ファイルを変更します。以下のパスワードの箇所へ tomcat-user.xml で指定したものを記述します。 +
++solrlib.dicon の対象箇所を以下のように修正します。 +
++fess_suggest.dicon は以下の箇所です。 +
++solrconfig.xml は以下の箇所です。 +
++Fess サーバーから Tomcat に配置した Solr のコンテキストを管理することができますが、管理するためにはパスワードが必要になります。実運用などにおいては、デフォルトのパスワードを変更してください。 +
++パスワードの変更方法は、conf/tomcat-user.xml の manager のパスワード属性を変更します。 +
+ ++次に webapps/fess/WEB-INF/classes/app.dicon の以下のパスワードの箇所を tomcat-user.xml で指定したものを記述します。 +
+ ++ログイン時の戻りパスの設定などで暗号化/復号化が利用されています。実運用などにおいてはデフォルトのパスワードを変更してください。 +
++変更方法は、webapps/fess/WEB-INF/classes/app.dicon で key の値を変更します。16 文字の半角英数字を設定してください。 +
++startup スクリプトを実行して Fess を起動します。 +
+ ++http://localhost:8080/fess/ にアクセスすることによって、起動を確認できます。 +
+ ++管理 UI は http://localhost:8080/fess/admin/ です。 +デフォルトの管理者アカウントのユーザー名/パスワードは、admin/admin になります。 +管理者アカウントはアプリケーションサーバーにより管理されています。 +Fess の管理 UI では、アプリケーションサーバーで fess ロールで認証されたユーザーを管理者として利用します。 +
++shutdown スクリプトを実行して Fess を停止します。 +
+ ++クロールまたはインデックス作成中にシャットダウンした場合、完全に停止するまで時間がかかる場合があります。 +
++Fess を停止後、インストールした fess-server-x.y ディレクトリを削除することでアンインストールすることができます。 +
++このドキュメントはFessを利用するユーザーを対象にしています。 +
++このドキュメントでは、Fessでの検索方法を示しています。コンピュータ操作の基礎的な知識が必要になります。 +
++ダウンロード、専門的サービス、サポート、その他の開発者情報については、次にアクセスしてください。 +
++本製品に関する技術的質問で、ドキュメント内に解決策が得られない場合は、次にアクセスしてください。 +
++本製品に関する技術的対応や保守などの商用サポートが必要な場合は、N2SM, Inc.にご相談ください。 +
++Fess プロジェクトでは、このドキュメントに記載されているサードパーティーの Web サイトの有効性については責任を持ちません。 +Fess プロジェクトはそのようなサイトやリソースを通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどについて、保証、責任、義務を負いません。 +Fess プロジェクトはそのようなサイトやリソースと通じて、利用可能なコンテンツ、広告、製品、サービス、その他のドキュメントなどを、使用または信用したり、それに関連して発生または申し立てられた、一切の損傷や損害に対しては責任または義務を負いません。 +
++Fess プロジェクトは、このドキュメントの改善に努めており、読者からのコメントおよび提案などを歓迎しています。 +
+Fessの検索結果をJSONにより出力することができます。JSONにより出力するためには管理画面のクロール全般の設定でJSON応答を有効にしておく必要があります。
+JSONにより出力結果を得るためには http://localhost:8080/fess/json?query=検索語
のようなリクエストを送ります。リクエストパラメータについては以下の通りです。
query | +検索語。URLエンコードして渡します。 | +
---|---|
start | +開始する件数位置。0から始まります。 | +
num | +表示件数。デフォルトは20件です。100件まで表示できます。 | +
fields.label | +ラベル値。ラベルを指定する場合に利用します。 | +
callback | +JSONPを利用する場合のコールバック名。JSONPを利用しない場合は指定する必要はありません。 | +
以下のようなレスポンスが返ります。
+各要素については以下の通りです。
+response | +ルート要素。 | +
---|---|
version | +フォーマットバージョン。 | +
status | +レスポンスのステータス。status値は、0:正常、1:検索エラー、2または3:リクエストパラメータエラー、9:サービス停止中、-1:API種別エラーです。 | +
query | +検索語。 | +
execTime | +応答時間。単位は秒。 | +
pageSize | +表示件数。 | +
pageNumber | +ページ番号。 | +
recordCount | +検索語に対してヒットした件数。 | +
pageCount | +検索語に対してヒットした件数のページ数。 | +
result | +検索結果の親要素。 | +
site | +サイト名。 | +
contentDescription | +コンテンツの説明。 | +
host | +ホスト名。 | +
lastModified | +最終更新日時。 | +
cache | +コンテンツの内容。 | +
score | +ドキュメントのスコア値。 | +
digest | +ドキュメントのダイジェスト文字列。 | +
created | +ドキュメントの生成日時。 | +
url | +ドキュメントのURL。 | +
id | +ドキュメントのID。 | +
mimetype | +MIMEタイプ。 | +
title | +ドキュメントのタイトル。 | +
contentTitle | +表示用のドキュメントのタイトル。 | +
contentLength | +ドキュメントのサイズ。 | +
urlLink | +検索結果としてのURL。 | +
画面上には検索条件の文字列を表示せずに特定の検索条件を引き回したい場合にadditionalパラメータを利用することができます。additionalの値はページングで画面が更新されてもadditionalの値は保持されます。
+検索が実行される際に (たとえば、検索フォームなど) hidden フォームで additional の値を付加して検索を実行すると、ページングで画面遷移しても、その条件を画面に表示することなく、条件を保持することができます。
+複数の検索語がすべて含まれるドキュメントを検索したい場合には AND 検索を利用します。AND を省略してスペース区切りで検索語入力欄に複数単語を記述した場合も AND 検索になります。
+AND 検索を利用する場合は検索語間に AND を記述します。AND は大文字で記述して、前後にスペースが必要になります。AND は省略することも可能です。
+たとえば、「検索語1」と「検索語2」が含まれるドキュメントを検索したい場合は以下のように検索フォームに入力します。
+AND で複数語をつなぐことも可能です。
+検索語のうち、特定の検索語を優先したい場合にはブースト検索を利用します。ブースト検索を利用することで、検索語の重要度に応じた検索が可能になります。
+ブースト検索を利用するためには、検索語の後に「^ブースト値」という形式でブースト値 (重み付け値) を指定します。
+たとえば、「りんご みかん」を検索したい場合に「りんご」がより含まれるページを検索したい場合は以下のように検索フォームに入力します。
+ブースト値は 1 以上の整数を指定します。
+Fess でクロールした結果はタイトルや本文などの各フィールドごとに保存されています。それらのフィールドを指定して検索することができます。フィールドを指定して検索することで、ドキュメントの種類別やサイズ別など細かい検索条件の指定をすることができます。
+デフォルトでは以下のフィールドを指定して検索することができます。
+フィールド名 | +説明 | +
---|---|
url | +クロールした URL | +
host | +クロールした URL に含まれていたホスト名 | +
site | +クロールした URL に含まれていたサイト名 | +
title | +タイトル | +
content | +本文 | +
contentLength | +クロールしたコンテンツサイズ | +
lastModified | +クロールしたコンテンツの最終更新日時 | +
mimetype | +コンテンツの MIME タイプ | +
フィールド指定をしていない場合は、content を対象に検索します。フィールドはSolrのダイナミックフィールドを利用することで独自のフィールドも利用することができます。
+HTMLファイルを検索対象としている場合、titleタグがtitleフィールド、bodyタグ以下の文字列がbodyフィールドに登録されています。
+フィールド指定検索をする場合は、「フィールド名:検索語」のようにフィールド名と検索語をコロン(:)で区切って検索フォームに入力して検索します。
+titleフィールドに対して、Fess を検索語として検索する場合は以下のように入力します。
+上記の検索により、titleフィールドにFessが含まれるドキュメントが検索結果として表示されます。
+検索語に完全一致しない単語も検索する場合にはあいまい検索が利用可能です。Fess ではレーベンシュタイン距離に基づくあいまい検索 (ファジー検索) に対応しています。
+曖昧検索を適用したい検索語の後に「~」を付加します。
+たとえば、「Solr」という単語をあいまい検索したい場合、以下のように検索フォームに入力することで、「Solr」に近い語(「Solar」など) を含むドキュメントを検索できます。 +
+また、「~」の後に 0 ~ 1 の数値を指定することで、1 に近い場合はより類似したものだけに絞り込めます。たとえば、「Solr~0.8」という形になります。数値を指定しないときのデフォルト値は 0.5 になります。
+インデックス生成時に各ドキュメントに対して緯度経度の位置情報を付加することで、検索時に位置情報を用いた検索が可能になります。
+標準では以下のパラメータが利用可能です。
+geo.latitude | +緯度の度分秒をDouble型で指定します。 | +
---|---|
geo.longitude | +経度の度分秒をDouble型で指定します。 | +
geo.distance | +ドキュメントとの距離をキロメータ単位で指定します。Double型で指定します。 | +
検索対象のドキュメントにカテゴリ分けするためのラベル情報を付加することで、検索時にラベルを指定した絞り込み検索が可能です。ラベル情報は管理画面で登録しておくことで、検索画面でラベルによる検索が可能になります。利用可能なラベル情報は検索時にプルダウンで複数選択することができます。ラベルを登録していない場合は、ラベルのプルダウンボックスは表示されません。
+検索時にラベル情報を選択することができます。ラベル情報はオプションボタンを押下することで表示される検索オプションダイアログで選択することができます。
+ラベルを設定してインデックスを作成することで、ラベルが設定されたドキュメントごとに検索をすることができます。ラベルを指定しない検索は通常と同様の全件検索になります。ラベル情報を変更した場合は、インデックスの更新が必要になります。
+ある単語を含まないドキュメントを検索する場合に NOT 検索が利用できます。
+NOT 検索は含まない単語の前に NOT を付けて検索します。NOT は半角大文字で前後にスペースが必要です。
+たとえば、「検索語1」が含まれるが「検索語2」を含まないドキュメントを検索したい場合は以下のように入力して検索します。
+他社製検索エンジンから移行しやすいように任意の検索条件を渡すことができます。渡した検索条件はQueryHelperImpl#buildOptionQueryで処理を実装してください。
+標準では以下のパラメータが利用可能です。
+options.q | +通常のqueryと同様です。複数のoptions.qを指定することができます。複数指定した場合はAND検索として扱われます。URLエンコードして渡します。 | +
---|---|
options.cq | +完全一致の検索クエリーとして扱われます。たとえば、「Fess Project」を指定した場合は、「"Fess Project"」として検索します。URLエンコードして渡します。 | +
options.oq | +OR検索として扱われます。たとえば、「Fess Project」を指定した場合は、「Fess OR Project」として検索します。URLエンコードして渡します。 | +
options.nq | +NOT検索として扱われます。たとえば、「Fess」を指定した場合は、「NOT Fess」として検索します。URLエンコードして渡します。 | +
検索語のどれかが含まれるドキュメントを検索したい場合には OR 検索を利用します。検索語入力欄に複数単語を記述した場合、デフォルトでは AND 検索になります。
+OR 検索を利用する場合は検索語間に OR を記述します。OR は大文字で記述して、前後にスペースが必要になります。
+たとえば、「検索語1」と「検索語2」のどちらかが含まれるドキュメントを検索したい場合は以下のように検索フォームに入力します。
+OR で複数語をつなぐことも可能です。
+数値など範囲指定が可能でデータをフィールドに格納している場合、そのフィールドに対して範囲指定検索が可能です。
+範囲指定検索をするためには、「フィールド名:[値 TO 値]」 を検索フォームに入力します。
+たとえば、contentLength フィールドに対して、1kバイトから10kバイトにあるドキュメントを検索する場合は以下のように検索フォームに入力します。
+時間の範囲指定検索をするためには、「lastModified:[日時1 TO 日時2]」(日時1<日時2) を検索フォームに入力します。
+日時はISO 8601を基準にしています。
+年月日および時分秒および小数部分 | +現在日時を基準にする場合 | +
YYYY-MM-DDThh:mm:ss.sZ(例:2013-08-02T10:45:23.5Z) | +NOW(現在の日時)、YEAR(今年)、MONTH(今月)、DAY(本日) | +
NOWやDAYなどの現在日時を基準にした場合には+、-(加算、減産)や/(丸め)といった記号を付けることができます。
+/は/の後ろの単位で丸める記号です。NOW-1DAY/DAYは本日何時に実行したとしても、本日00:00から-1日した前日の00:00を表します。
+たとえば、lastModified フィールドに対して、2012年2月21日20時(現在日時とする)から30日前までに更新されたドキュメントを検索する場合は以下のように検索フォームに入力します。
+検索日時などのフィールドを指定して検索結果をソートすることができます。
+デフォルトでは以下のフィールドを指定してソートすることができます。
+フィールド名 | +説明 | +
---|---|
tstamp | +クロールした日時 | +
contentLength | +クロールしたコンテンツサイズ | +
lastModified | +クロールしたコンテンツの最終更新日時 | +
カスタマイズすることで独自のフィールドをソート対象として追加することもできます。
+検索時にソート条件を選択することができます。ソート条件はオプションボタンを押下することで表示される検索オプションダイアログで選択することができます。
+また、検索フィールドでソートをする場合は、「sort:フィールド名」のようにsortとフィールド名をコロン(:)で区切って検索フォームに入力して検索します。
+以下は Fess を検索語として、コンテンツサイズを昇順にソートします。
+降順にソートする場合は以下のようにします。
+複数のフィールドでソートする場合は以下のように , 区切りで指定します。
+検索語内で 1 文字または複数文字のワイルドカードを利用することができます。? は 1 文字のワイルドカードとして指定でき、* は複数文字のワイルドカードとして指定することができます。ワイルドカードは先頭文字では利用できません。また、ワイルドカードを利用できる対象は単語になります。文に対するワイルドカード検索はできません。
+1 文字のワイルドカードを利用する場合は以下のように ? を利用します。
+上記の場合は、textやtestなど、1 文字のワイルドカードとして扱われます。
+複数文字のワイルドカードを利用する場合は以下のように * を利用します。
+上記の場合は、test、testsやtesterなど、複数文字のワイルドカードとして扱われます。また、
+のように検索語内に利用することもできます。
+ワイルドカードはインデックスに登録された文字列を対象に利用されます。そのため、bi-gram などでインデックスを作成した場合は、日本語は意味のない固定文字列長で扱われるため、日本語でのワイルドカードは期待する動作になりません。日本語でワイルドカードを利用する場合は形態素解析を利用しているフィールドで利用してください。
+Fessの検索結果をXMLにより出力することができます。XMLで出力するためには管理画面のクロール全般の設定でXML応答を有効にしておく必要があります。
+XMLにより出力結果を得るためには http://localhost:8080/fess/xml?query=検索語
のようなリクエストを送ります。リクエストパラメータについては以下の通りです。
query | +検索語。URLエンコードして渡します。 | +
---|---|
start | +開始する件数位置。0から始まります。 | +
num | +表示件数。デフォルトは20件です。100件まで表示できます。 | +
fields.label | +ラベル値。ラベルを指定する場合に利用します。 | +
以下のようなレスポンスが返ります。
+各要素については以下の通りです。
+response | +ルート要素。 | +
---|---|
version | +フォーマットバージョン。 | +
status | +レスポンスのステータス。status値は、0:正常、1:検索エラー、2または3:リクエストパラメータエラー、9:サービス停止中、-1:API種別エラーです。 | +
query | +検索語。 | +
exec-time | +応答時間。単位は秒。 | +
page-size | +表示件数。 | +
page-number | +ページ番号。 | +
record-count | +検索語に対してヒットした件数。 | +
page-count | +検索語に対してヒットした件数のページ数。 | +
result | +検索結果の親要素。 | +
doc | +検索結果の要素。 | +
site | +サイト名。 | +
content-description | +コンテンツの説明。 | +
host | +ホスト名。 | +
last-modified | +最終更新日時。 | +
cache | +コンテンツの内容。 | +
score | +ドキュメントのスコア値。 | +
digest | +ドキュメントのダイジェスト文字列。 | +
created | +ドキュメントの生成日時。 | +
url | +ドキュメントのURL。 | +
id | +ドキュメントのID。 | +
mimetype | +MIMEタイプ。 | +
title | +ドキュメントのタイトル。 | +
content-title | +表示用のドキュメントのタイトル。 | +
content-length | +ドキュメントのサイズ。 | +
url-link | +検索結果としてのURL。 | +
This page is generated by Machine Translation from Japanese.
+Describes the settings related to crawling.
+In Administrator account click crawl General menu after login.
+When the user enters a search, the search the output log. If you want to get search statistics to enable.
+Save the information you find. Identifying the users becomes possible.
+You can collect the search result was judged good by the user. Search result voting link appears to result in list screen, so that link press made the record. You can also reflect the results collected during the crawl index.
+Search results link attaches to the search term. To display the find search terms in PDF becomes possible.
+Search results can be retrieved in XML format. http://localhost:8080/Fess/XML? can get access query = search term.
+Search results available in JSON format. http://localhost:8080/Fess/JSON? can get access query = search term.
+You can specify the label to see if the label by default,. Specifies the value of the label.
+You can specify whether or not to display a search screen. If not available not available search screen. And if you want to create a dedicated index server and select not available.
+In JSON format often find search words becomes available. http://localhost:8080/Fess/JSON? can be retrieved by accessing the type = hotsearchword.
+Delete a search log for the specified number of days ago. One day in the one log purge old log is deleted.
+Delete the job days before the specified date. One day in the one log purge old log is deleted.
+Delete the user information for the specified number of days ago. One day in the one log purge old log is deleted.
+Specifies the Bots name Bots you want to remove from the search log logs included in the user agent by commas (,). Log is deleted by log purge once a day.
+Specifies the email address to send information about crawl upon completion crawl.
+Specifies the encoding for the CSV will be available in the backup and restore.
+Crawl as been updated to enable incremental crawl compared lastModified field value and the target document's modification date (if the HTTP's timestamp if LAST_MODIFIED values, file).
+File additional group access rights information added to the role.
+Fess can combine multiple Solr server as a group, the group can manage multiple. Solr server group for updates and search for different groups to use. For example, if you had two groups using the Group 2 for update, search for use of Group 1. After the crawl has been completed if switching server updates for Group 1, switches to group 2 for the search. It is only valid if you have registered multiple Solr server group.
+Fess document crawling is done on Web crawling, and file system CROLL. You can crawl to a set number of values in each crawl specified here only to run simultaneously multiple. For example, crawl setting number of concurrent as 3 Web crawling set 1-set 10 if the crawling runs until the set 3 3 set 1-. Complete crawl of any of them, and will start the crawl settings 4. Similarly, setting 10 to complete one each in we will start one.
+But you can specify the number of threads in the crawl settings simultaneously run crawl setting number is not indicates the number of threads to start. For example, if 3 in the number of concurrent crawls settings, number of threads for each crawl settings and 5 3 x 5 = 15 thread count up and crawling.
+You can automatically delete data after the data has been indexed. If you select the 5, with the expiration of index register at least 5 days before and had no update is removed. If you omit data content has been removed, can be used.
+Registered disabled URL URL exceeds the failure count next time you crawl to crawl out. Does not need to monitor the fault type is being crawled next time by specifying this value.
+Disaster URL exceeds the number of failures will crawl out.
+This page is generated by Machine Translation from Japanese.
+Describes the settings related to the session information. One time the crawl results saved as a single session information. You can check the run time and the number of indexed.
+In Administrator account after logging in, click the session information menu.
+You can remove all session information and click the Delete link all in the running. Session has expired will be removed at next crawl.
+Sure you can crawl the contents of session ID. Crawl start and finish time, number of documents indexed and listed.
+This page is generated by Machine Translation from Japanese.
+Here, describes Fess information backup and restore methods.
+In Administrator account after logging in, click the menu backup and restore.
+Click the download link and Fess information output in XML format. Saved settings information is below.
+Session information, search log, click log is available in CSV format.
+In the SOLR index data and data being crawled is not backed up. Those data can Fess setting information to crawl after the restore, regenerate. If you need to back up the SOLR index backs solr directory.
+You can restore settings information, various log in to upload XML output by backup or CSV. To specify the files, please click the restore button on the data.
+If enable overwrite data in XML file configuration information specified when the same data is updating existing data.
+This page is generated by Machine Translation from Japanese.
+You can crawl data sources such as databases and CSV in Fess. Here are required to store settings.
+In Administrator account after logging in, click menu data store.
+As an example, the following table database named testdb MySQL, user name hoge, fuga password connection and the will to make it.
+Here the data is put something like the following.
+Parameter settings example looks like the following.
+Parameter is a "key = value" format. Description of the key is as follows.
+driver | +Driver class name | +
URL | +URL | +
username | +To connect to the DB user name | +
password | +To connect to the DB password | +
SQL | +Want to crawl to get SQL statement | +
Script configuration example looks like the following.
++ Parameter is a "key = value" format. + Description of the key is as follows.
++ Side of the value written in OGNL. Close the string in double quotation marks. + Access in the database column name, its value.
+URL | +URLs (links appear in search results) | +
host | +Host name | +
site | +Site pass | +
title | +Title | +
content | +Content (string index) | +
cache | +Content cache (not indexed) | +
Digest | +Digest piece that appears in the search results | +
anchor | +Links to content (not usually required) | +
contentLength | +The length of the content | +
lastModified | +Content last updated | +
To connect to the database driver is needed. keep the jar file in webapps/fess/WEB-INF/cmd/lib.
+Set the following in the webapps/fess/WEB-INF/classes/app.dicon if you see the item value, such as latitude_s in the search results. After adding to $ {doc.latitude_s}, searchResults.jsp;
+This page is generated by Machine Translation from Japanese.
+Here are settings for the design of search screens.
+In Administrator account after logging in, click the menu design.
+You can edit the search screen in the screen below.
+If you want to display in the search results crawl in Fess and registered or modified files to get the search results page (content), write the following.
+tstampDate will crawl during registration on the lastModifiedDate modified date of the document. Output date formats follow the fmt:formateDate specification.
+On the search screen files are available to download and can be removed.
+You can upload the file to use in the search screen. Image file names are supported are jpg, gif, png, css, and js.
+Use if you want to specify the file name file to upload. Uploaded if you omit the file name will be used.
+You can edit the JSP files in the search screen. You can by pressing the Edit button of the JSP file, edit the current JSP files. And pressing the button will default to edit as a JSP file when you install. To keep with the update button in the Edit screen, changes are reflected.
+Following are examples of how to write.
+Top page (frame) | +Is a JSP file search home page. This JSP include JSP file of each part. | +
Header | +It is a JSP file's header. | +
Footer | +This is the footer JSP files. | +
Search results pages (frames) | +Search result is a list page of JSP files. This JSP include JSP file of each part. | +
Search results pages (content) | +Search results search results list page is a JSP file to represent the part. Is the search results when the JSP file. If you want to customize the search result representation change. | +
Search results page (result no) | +Search results search results list page is a JSP file to represent the part. Is a JSP file when the search result is not used. | +
Help pages (frames) | +Is the help page of JSP files. | +
Search error page | +It is a JSP file search error page. If you want to customize the search error expression change. | +
File boot page | +Is the file boot page JSP file. Is the screen used when displaying Java plug-in is enabled to display the search results by using the file system CROLL. | +
Error page (header) | +Is a JSP file that represents the header of the page. | +
Error page (footer) | +It is a JSP file that represents the footer part of the page. | +
Error page (page not found) | +It is displayed if the page cannot be found error page JSP file. | +
Error (System error) | +JSP error page that appears if the system error is. | +
Error pages (redirects) | +This is the JSP error page displayed when an HTTP redirect occurs. | +
Error (bad request) | +Is the error bad request appears when the JSP file. | +
This page is generated by Machine Translation from Japanese.
+Here are settings for the dictionary.
+In Administrator account after logging in, click the menu Dictionary. List the various dictionaries available for editing.
+You can register names, nouns, terminology. Registered click path to user dictionaries and dictionary word list is displayed.
+Displays the Edit screen and click the word you want to edit.
+Type a Word to search for.
+Been searching the words compound word splitting the Word can to hit. For example, you can search any word by entering the full-text search engine and full-text search engine, have split.
+Enter the word reading in katakana. + Enter the split when you split. For example, enter Sembene search engine.
+Enter the words you entered.
+You can register the same meaning words (GB, gigabyte, etc.). Click the path of the synonym dictionary registered on dictionary word list is displayed.
+Displays the Edit screen and click the word you want to edit.
+Type the word being treated as synonyms.
+Expand the words you enter in the source in the word after the conversion. For example, 'TV', 'TV' and 'television' If you want to convert type 'TV', 'TV' and 'TV' type after conversion.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the index.
+In Administrator account after logging in, click the menu index.
+You can publish index commit, optimize for server groups.
+No problem, manually commit or optimization to do.
+You can remove a specific search for the session ID. You can remove only the specific documents by specifying the URL.
+Shown by the number of documents registered in each session. Can verify the results list by clicking the session name.
+This page is generated by Machine Translation from Japanese.
+Here the failure URL. URL could not be obtained at crawl time are recorded and confirmed as the failure URL.
+In Administrator account click menu disabled URL after login.
+Clicking the confirmation link failure URL displayed for more information.
+A glance could not crawl the URL and date.
+This page is generated by Machine Translation from Japanese.
+Here are popular URL log. When the popular URL log user clicks voting link on the search screen registers as a favorite link. You can disable this feature in the General crawl settings.
+In Administrator account after logging in, click the menu popular URL.
+Lists popular URL.
+This page is generated by Machine Translation from Japanese.
+Crawls using file system here, describes how to set file system authentication is required. Fess is corresponding to a crawl for a shared folder in Windows.
+In Administrator account after logging in, click the menu file system authentication.
+Specifies the host name of the site that requires authentication. Is omitted, the specified file system Kroll set applicable in any host name.
+Specifies the port of the site that requires authentication. Specify-1 to apply for all ports. File system Crawl settings specified in that case applies on any port.
+Select the authentication method. You can use SAMBA (Windows shared folder authentication).
+Specifies the user name to log in authentication.
+Specifies the password to log into the certification site.
+Sets if the authentication site login required settings. SAMBA, the set value of the domain. If you want to write as.
+Select the set name to apply the authentication settings for the above file system CROLL. Must be registered ago you file system CROLL.
+This page is generated by Machine Translation from Japanese.
+Describes the settings for crawl here, using file system.
+Recommends that if you want to index document number 100000 over in Fess crawl settings for one to several tens of thousands of these. One crawl setting a target number 100000 from the indexed performance degrades.
+In Administrator account after logging in, click menu file.
+Is the name that appears on the list page.
+You can specify multiple paths. file: or smb: in the specify starting. For example,
+The so determines. Patrolling below the specified directory.
+So there is need to write URI if the Windows environment path that c:\Documents\taro in file/c: /Documents/taro and specify.
+Windows shared folder, for example, if you want to crawl to host1 share folder crawl settings for smb: (last / to) the //host1/share/. If authentication is in the shared folder on the file system authentication screen set authentication information.
+By specifying regular expressions you can exclude the crawl and search for given path pattern.
+Path to crawl | +Crawl the path for the specified regular expression. | +
---|---|
The path to exclude from being crawled | +The path for the specified regular expression does not crawl. The path you want to crawl, even WINS here. | +
Path to be searched | +The path for the specified regular expression search. Even if specified path to find excluded and WINS here. | +
Path to exclude from searches | +Not search the path for the specified regular expression. Unable to search all links since they exclude from being crawled and crawled when the search and not just some. | +
For example, the path to target if you don't crawl less than/home /
+Also the path to exclude if extension of png want to exclude from
+It specifies. It is possible to specify multiple line breaks in.
+How to specify the URI handling java.io.File: Looks like:
+You can specify the crawl configuration information.
+Specify the depth of a directory hierarchy.
+You can specify the number of documents to retrieve crawl.
+Specifies the number of threads you want to crawl. Value of 5 in 5 threads crawling the website at the same time.
+Is the time interval to crawl documents. 5000 when one thread is 5 seconds at intervals Gets the document.
+Number of threads, 5 pieces, will be to go to and get the 5 documents per second between when 1000 millisecond interval,.
+You can search URL in this crawl setting to weight. Available in the search results on other than you want to. The standard is 1. Priority higher values, will be displayed at the top of the search results. If you want to see results other than absolutely in favor, including 10,000 sufficiently large value.
+Values that can be specified is an integer greater than 0. This value is used as the boost value when adding documents to Solr.
+You can control only when a particular user role can appear in search results. You must roll a set before you. For example, available by the user in the system requires a login, such as portal servers, search results out if you want.
+You can label with search results. Search on each label, such as enable, in the search screen, specify the label.
+Crawl crawl time, is set to enable. If you want to avoid crawling temporarily available.
+This page is generated by Machine Translation from Japanese.
++This document is subject to users responsible for the management work of the Fess. +
++This document demonstrates Fess configuration management methods. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+Management UI to support browser as follows.
+This page is generated by Machine Translation from Japanese.
+Job performed results appear as a list.
+In Administrator account after logging in, click menu users.
+Lists the job run log. You can determine the job name, status, start and finish times. You can also select more information, to check the details of each log.
+You can check job log contents. Job name, status, start and completion time, displays the results, such as.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the label. Label can classify documents that appear in search results, select the crawl settings in. You can pass even if you do not set the crawl settings in the settings of the label to add labels to specify regular expressions. If you register the label shown select label drop-down box to the right of the search box.
+In Administrator account after logging in, click the menu label.
+Specifies the name that is displayed when the search label drop-down select.
+Specifies the identifier when a classified document. This value will be sent to Solr. Must be alphanumeric characters.
+Sets the path to label in the regular expression. You can specify multiple in multiple line description. Notwithstanding the crawl configuration document to match the path specified here, will be labeled.
+In the path and crawled on regular expressions set from what you want to exclude. You can specify multiple in multiple line description.
+Specifies the role to view the label.
+Specifies the order of the labels.
+This page is generated by Machine Translation from Japanese.
+Describes the log files will be output in the Fess download.
+In Administrator account after logging in, click log file menu.
+You can download the log file and click the log file name.
+This page is generated by Machine Translation from Japanese.
+Here are settings on the duplicate host. Available when the duplicate host to be treated as the same thing crawling at a different host name. For example, if you want the same site www.example.com and example.com in available.
+In Administrator account after logging in, click the menu duplicate host.
+Specify the canonical host name. Duplicate host names replace the canonical host name.
+Specify the host names are duplicated. Specifies the host name you want to replace.
+This page is generated by Machine Translation from Japanese.
+Here are settings for path mapping. You can use if you want replaced path mapping links appear in search results.
+In Administrator account after logging in, click menu path mappings.
+Path mapping is replaced by parts to match the specified regular expression, replace the string with. When crawling a local filesystem environment may search result links are not valid. Such cases using path mapping, you can control the search results link. You can specify multiple path mappings.
+Specifies the string you want to replace. How to write aRegular expressions in Java 6To follow.
+Specifies the string to replace the matched regular expression.
+This page is generated by Machine Translation from Japanese.
+Here the request header. Feature request headers request header information added to requests when you get to crawl documents. Available if, for example, to see header information in the authentication system, if certain values are logged automatically.
+In Administrator account after logging in, click request header menu.
+Specifies the request header name to append to the request.
+Specifies the request header value to append to the request.
+Select a Web crawl setting name to add request headers. Only selected the crawl settings in appended to the request header.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the role. Role is selected in the crawl settings, you can classify the document appears in the search results. About how to use theSettings for a rolePlease see the.
+In Administrator account after logging in, click menu role.
+Specifies the name that appears in the list.
+Specifies the identifier when a classified document. This value will be sent to Solr. Must be alphanumeric characters.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the job.
+In Administrator account after logging in, click the job management.
+It is the name that appears in the list.
+You can use as an identifier for whether or not to run when the target job command to run directly in the batch, etc.. If the crawl command execution, do not specify 'all'.
+Configure schedule settings. Run jobs written in script on a schedule you set here.
+Description format describes the format such as Cron seconds minutes date month day year (optional)". For example, "0 0 12? * WED ' for if the weekly Wednesday 12:00 pm job to run. About how to specify the finer "Quartz"Please see.
+Specifies the script execution environment. At the moment supports only the 'groovy'.
+Written in the language specified in how to perform job run.
+For example, if you want to run crawl jobs only three crawl settings describes as (assuming Web crawl configuration ID 1 and file system Kroll set ID to 1 and 2).
+To enable records to the job log.
+In turn treated as crawl jobs. In establishing the system crawl started and stopped.
+Specifies the enabled or disabled status of the job. If the job will not run.
+Specifies the display order in the job list.
+This page is generated by Machine Translation from Japanese.
+Here the search for management.
+In Administrator account after logging in, click the menu search.
+You can search by criteria you specify. In the regular search screen role and browser requirements is added implicitly, but do not provide management for search. You can document a certain remove from index from the search results.
+This page is generated by Machine Translation from Japanese.
+Here the search log. When you search in the search screen users search logs are logged. Search log search term or date is recorded. You can also record the URL, then you want the search results to.
+In Administrator account after logging in, click menu search logs.
+Search language and date are listed. You can review and detailed, you click the URL.
+This page is generated by Machine Translation from Japanese.
+Here are statistics. You can search log and click log.
+In Administrator account after logging in, click the menu statistics.
+You can select the target by selecting the type of report, to make sure. Displayed in order by the specified criteria.
+This page is generated by Machine Translation from Japanese.
+Describes the settings related to Solr, here are registered in the server settings for crawling and Fess. SOLR servers are grouped by file, has been registered.
+In Administrator account after logging in, click menu system settings.
+Update server appears as a running if additional documents, such as the. Crawl process displays the session ID when running. You can safely shut down and Fess server to shut down is not running when shut down. If the process does not terminate if you shut a Fess is running to finish crawling process.
+You can manually crawling under the crawl start button press stop if it is that.
+Server group name to search for and update available will be shown.
+In Fess Solr Server conducts a management server and index State States. Whether or not the server state can be access to the Solr Server manages. Whether or not successfully crawl index the State could manage. You can use search server status is in effect, regardless of the State of the index. The crawl Server State is enabled and can index State runs correctly if the preparation or completion. Running start crawl manually index State preparing changes automatically. Server recovery server status and auto-recovery enabled state.
+You can be sure SOLR server instance state. You can also, for each instance, start, stop, reload request.
+This page is generated by Machine Translation from Japanese.
+Here, you can currently check property information such as system environment variables.
+In Administrator account after logging in, click system information menu.
+You can list the server environment variable.
+You can list the system properties on Fess.
+Fess setup information available.
+Is a list of properties to attach when reporting a bug. Extract the value contains no personal information.
+This page is generated by Machine Translation from Japanese.
+Here the user log. Identifies the user when you search in the search screen users the user log in. You can search log and popular URL information and the use. You can disable this feature in the General crawl settings.
+In Administrator account after logging in, click menu users.
+Lists the ID of the user. You can select the search logs or popular URL links, to see a list of each log.
+This page is generated by Machine Translation from Japanese.
+Describes Web authentication is required when set against here, using Web crawling. Fess is corresponding to a crawl for BASIC authentication and DIGEST authentication.
+In Administrator account after logging in, click menu Web authentication.
+Specifies the host name of the site that requires authentication. Web crawl settings you specify if applicable in any host name.
+Specifies the port of the site that requires authentication. Specify-1 to apply for all ports. Web crawl settings you specified and if applicable on any port.
+Specifies the realm name of the site that requires authentication. Web crawl settings you specify if applicable in any realm name.
+Select the authentication method. You can use BASIC authentication, DIGEST authentication or NTLM authentication.
+Specifies the user name to log in authentication.
+Specifies the password to log into the certification site.
+Sets if the authentication site login required settings. You can set the workstation and domain values for NTLM authentication. If you want to write as.
+Select to apply the above authentication settings Web settings name. Must be registered in advance Web crawl settings.
+This page is generated by Machine Translation from Japanese.
+Describes the settings here, using Web crawling.
+Recommends that if you want to index document number 100000 over in Fess crawl settings for one to several tens of thousands of these. One crawl setting a target number 100000 from the indexed performance degrades.
+In Administrator account after logging in, click menu Web.
+Is the name that appears on the list page.
+You can specify multiple URLs. http: or https: in the specify starting. For example,
+The so determines.
+By specifying regular expressions you can exclude the crawl and search for specific URL pattern.
+URL to crawl | +Crawl the URL for the specified regular expression. | +
---|---|
Excluded from the crawl URL | +The URL for the specified regular expression does not crawl. The URL to crawl, even WINS here. | +
To search for URL | +The URL for the specified regular expression search. Even if specified and the URL to the search excluded WINS here. | +
To exclude from the search URL | +URL for the specified regular expression search. Unable to search all links since they exclude from being crawled and crawled when the search and not just some. | +
For example, http: URL to crawl if not crawl //localhost/ less than the
+Also be excluded if the extension of png want to exclude from the URL
+It specifies. It is possible to specify multiple in the line for.
+You can specify the crawl configuration information.
+That will follow the links contained in the document in the crawl order can specify the tracing depth.
+You can specify the number of documents to retrieve crawl. If you do not specify people per 100,000.
+You can specify the user agent to use when crawling.
+Specifies the number of threads you want to crawl. Value of 5 in 5 threads crawling the website at the same time.
+Is the interval (in milliseconds) to crawl documents. 5000 when one thread is 5 seconds at intervals Gets the document.
+Number of threads, 5 pieces, will be to go to and get the 5 documents per second between when 1000 millisecond interval,. Set the adequate value when crawling a website to the Web server, the load would not load.
+You can search URL in this crawl setting to weight. Available in the search results on other than you want to. The standard is 1. Priority higher values, will be displayed at the top of the search results. If you want to see results other than absolutely in favor, including 10,000 sufficiently large value.
+Values that can be specified is an integer greater than 0. This value is used as the boost value when adding documents to Solr.
+You can control only when a particular user role can appear in search results. You must roll a set before you. For example, available by the user in the system requires a login, such as portal servers, search results out if you want.
+You can label with search results. Search on each label, such as enable, in the search screen, specify the label.
+Crawl crawl time, is set to enable. If you want to avoid crawling temporarily available.
+Fess and crawls sitemap file, as defined in the URL to crawl. Sitemaphttp://www.sitemaps.org/ Of the specification. Available formats are XML Sitemaps and XML Sitemaps Index the text (URL line written in).
+Site map the specified URL. Sitemap is a XML files and XML files for text, when crawling that URL of ordinary or cannot distinguish between what a sitemap. Because the file name is sitemap.*.xml, sitemap.*.gz, sitemap.*txt in the default URL as a Sitemap handles (in webapps/fess/WEB-INF/classes/s2robot_rule.dicon can be customized).
+Crawls sitemap file to crawl the HTML file links will crawl the following URL in the next crawl.
+This page is generated by Machine Translation from Japanese.
+Introduction to the Configuration Wizard.
+You can use Settings Wizard, to set you up on the Fess.
+In Administrator account after logging in, click menu Settings Wizard.
+Do the crawl settings. + Crawl settings is to register a URI to look for. + The crawl settings name please put name of any easy to identify. Put the URI part de-indexed, want to search for.
+For example, if you want and search for http://fess.codelibs.org/, less looks like.
+The type, such as c:\Users\taro file.
+In this setting is complete. Crawl start button press the start crawling. Not start until in the time specified in the scheduling settings by pressing the Finish button if the crawl.
+Settings in the Setup Wizard you can change from crawl General, Web, file system.
+This page is generated by Machine Translation from Japanese.
+Provides binaries to use H2 Database with MySQL database. You can use the other database in to change the settings using the source code and build it.
+The MySQL character code setting. /etc/mysql/my.cnf and the added must have the following settings.
+Download MySQL binaries and expand.
+Create a database.
+Create a table in the database. DDL file is located in extension/mysql.
+webapps/fess/WEB-INF/lib on mysql driver jar.
+Edit the webapps/fess/WEB-INF/classes/jdbc.dicon.
+Edit the webapps/fess/WEB-INF/classes/s2robot_jdbc.dicon.
+This page is generated by Machine Translation from Japanese.
+You can specify the file size limit crawl of Fess. In the default HTML file is 2.5 MB, otherwise handles up to 10 m bytes. Edit the webapps/fess/WEB-INF/classes/s2robot_contentlength.dicon if you want to change the file size handling. Standard s2robot_contentlength.dicon is as follows.
+Change the value of defaultMaxLength if you want to change the default value. Dealing with file size can be specified for each content type. Describes the maximum file size to handle text/HTML and HTML files.
+Note the amount of heap memory to use when changing the maximum allowed file size handling. About how to set upMemory-relatedPlease see the.
+This page is generated by Machine Translation from Japanese.
+You can document with latitude and longitude location information in conjunction with Google maps, including the use of Dios arch.
+Location is defined as a feed that contains the location information. + When generating the index in Solr latitude longitude set to location feeds in formats such as 45.17614,-93.87341, register the document. + Also sets the value as the latitude_s and longitude_s fields if you want to display latitude and longitude as a search result. * _s is available as a dynamic field of Solr string.
+During the search specifies in the request parameter to latitude and longitude, the distance. + View the results in the distance (km) specified by distance-based latitude information (latitude, longitude). Latitude and longitude and distances is treated as double.
+This page is generated by Machine Translation from Japanese.
+The index data is managed by Solr. Backup from the Administration screen of the Fess, and cases will be in the size and number of Gigabit can not index data.
+If you need to index data backup stopped the Fess from back solr/core1/data and solr/core1-suggest/data directories. Also, index data backed up to restore to undo.
+This page is generated by Machine Translation from Japanese.
++This document is subject to users responsible for setting work of the Fess. +
++This document demonstrates setting Fess. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+This page is generated by Machine Translation from Japanese.
++ The standard distribution of Fess Tomcat is distributed in the deployed State. + Because Fess is not dependent on Tomcat, deploying on any Java application server is available. + Describes how to deploy a Fess Tomcat here is already available.
+Fess ServerHereFrom the download.
++ Expand the downloaded Fess server. + Expanded Fess Server home directory to $FESS_HOME. + $TOMCAT_HOME the top directory of an existing Tomcat 7. + Copy the Fess Server data.
++ If you have, such as changing the destination file diff commands, updates your diff only applies. +
+to start the Tomcat in normal as well as in startup.* / http://localhost:8080/Fess To access the.
+This page is generated by Machine Translation from Japanese.
+The following summarizes the log file to output the Fess.
+File name | +Contents | +
---|---|
webapps/fess/WEB-INF/logs/fess.out | +Fess server log. Output logging operation in the management and search screens, etc. | +
webapps/fess/WEB-INF/logs/fess_crawler.out | +Crawl log. Crawling log output. | +
logs/Catalina.out | +Log of the Fess Server (Tomcat). Tomcat logs are output. | +
logs/SOLR.log | +Log server Fess (Solr). SOLR relevant log output. | +
If you encounter problems to work check the log.
+Sets the output log information is at webapps/fess/WEB-INF/classes/log4j.xml. By default output INFO level.
+For example, better Fess up to document for Solr log if you want to output in log4j.xml disconnect the commented-out section below.
+See the Log4J documentation if you need detailed settings for the log output.
+You can check by changing the logging level of the HttpClient if you want to check HTTP access when crawling content to solve the problem.
+to crawl, and change the priority tag from info to debug the output debug log of all things.
+This page is generated by Machine Translation from Japanese.
+Set the maximum memory per process in Java. So, do not use the upper memory in the process also had 8 GB of physical memory on the server. Memory consumption depending on the number of crawl threads and interval will also change significantly. If not enough memory please change settings in the subsequent procedure.
+If the contents of the crawl settings cause OutOfMemory error similar to the following.
+Increase the maximum heap memory occur. bin/setenv. [sh | bat] to (in this case maximum value set to 1 G)-xmx1g to change.
++ Crawler side memory maximum value can be changed. + The default is 512 m.
++ Unplug the commented out webapps/fess/WEB-INF/classes/fess.dicon crawlerJavaOptions to change, change the-xmx1g (in this case maximum value set to 1 G). +
+This page is generated by Machine Translation from Japanese.
+The mobile device informationValueEngine Inc.That provided more available. If you want to use the latest mobile device information downloaded device profile save the removed _YYYY-MM-DD and webapps/fess/WEB-INF/classes/device. After the restart to enable change.
+This page is generated by Machine Translation from Japanese.
+in non-HTML file, different character set precedents and the file name if the search result link text is garbled.
+For example, test.txt file contents are written in UTF-8, file name Shift_JIS, the link text is garbled.
+For example by revising the webapps/fess/WEB-INF/classes/s2robot_transformer.dicon as shown below, to resolve paths in Shift_JIS.
+This page is generated by Machine Translation from Japanese.
++ You should password files to register the settings file to PDF password is configured to search for. +
++ First of all, create the webapps/fess/WEB-INF/classes/s2robot_extractor.dicon. + This is test _ ~ is a pass that password set to a.pdf file. + If you have multiple files, multiple settings in addPassword.
+Next, edit the following to webapps/fess/WEB-INF/classes/s2robot_rule.dicon.
+Fess up after setting the above and please run the crawl. How to use Basic remains especially.
+This page is generated by Machine Translation from Japanese.
+In Fess when indexing and searching the stemming process done.
+This is to normalize the English word processing, for example, words such as recharging and rechargable is normalized to form recharg. Hit and even if you search by recharging the word this word rechargable, less search leakage is expected.
+You may not intended for the stemming process basic rule-based processing, normalization is done. For example, Maine (state name) Word will be normalized in the main.
+In this case, by adding Maine to protwords.txt, you can exclude the stemming process.
+This page is generated by Machine Translation from Japanese.
+ +If you like crawling external sites from within the intranet firewall may end up blocked crawl. Set the proxy for the crawler in that case.
+Proxy is set in to create webapps/Fess/Web-INF/classes/s9robot_client.dicon with the following contents.
+This page is generated by Machine Translation from Japanese.
+Sets the replication of the index Solr replication features. You can distribute load during indexing to build two in Fess of the crawl and index creation and search for Fess servers.
+Fess, download and install the. When you install MasterServer named host./ /opt/fess_master
To assume you installed. Edit the SOLR/core1/conf/solrconfig.XML like the following.
Register the crawl settings as well as Fess starts after the normal construction. Steps to building the index for Fess remains especially as normal building procedures.
+Fess, download and install the./ /opt/fess_slave
To assume you installed. Edit the SOLR/core1/conf/solrconfig.XML like the following.
Start the Fess.
+Until the above settings copied to search for Fess index crawl after the optimization (optimize) the index for Fess.
+This page is generated by Machine Translation from Japanese.
+You can divide out search results in Fess in any authentication system authenticated users credentials to. For example, find rolls a does appears role information in search results with the roles a user a user b will not display it. By using this feature, user login in the portal and single sign-on environment belongs to you can enable search, sector or job title.
+In role-based search of the Fess roll information available below.
+To save authentication information in cookies for authentication when running of Fess in portal and agent-based single sign-on system domain and path that can retrieve role information. You can also reverse proxy type single sign-on system access to Fess adding authentication information in the request headers and request parameters to retrieve role information.
+Describes how to set up role-based search using J2EE authentication information.
+conf/Tomcat-users.XML the add roles and users. This time the role1 role perform role-based search. Login to role1.
+sets the webapps/fess/WEB-INF/classes/fess.dicon shown below.
+You can set the role information by setting the defaultRoleList, there is no authentication information. Do not display the search results need roles for users not logged in you.
+sets the webapps/fess/WEB-INF/web.xml shown below.
+Fess up and log in as an administrator. From the role of the menu set name Role1 (any name) and value register role at role1. After the crawl settings want to use in the user with the role1 in, crawl Crawl Settings select Role1.
+Log out from the management screen. log in as user Role1. A successful login and redirect to the top of the search screen.
+Only thing was the Role1 role setting in the crawl settings search as usual, and displayed.
+Also, search not logged in will be search by guest user.
+Whether or not logged out, logged in a non-Admin role to access http://localhost:8080/fess/admin screen appears. By pressing the logout button will log out.
+This page is generated by Machine Translation from Japanese.
+Fess by default, you use the port 8080. Change in the following steps to change.
+Change the port Tomcat is Fess available. Modifies the following described conf/server.xml changes.
+May need to change if you change the Tomcat port using the settings in the standard configuration, the same Solr-Tomcat, so Fess Solr server referenced information.
+change the webapps/fess/WEB-INF/classes/app.dicon the following points.
+change the webapps/fess/WEB-INF/classes/solrlib.dicon the following points.
+change the SOLR/core1/conf/solrconfig.XML the following points.
++ Note: to display the error on search and index update: cannot access the Solr server and do not change if you change the Tomcat port similar to the above ports. +
+This page is generated by Machine Translation from Japanese.
+SOLR is document items (fields) for each to the schema defined in order to register. Available in Fess Solr schema is defined in solr/core1/conf/schema.xml. dynamic fields and standard fields such as title and content can be freely defined field names are defined. Advanced parameter values see a Solr document.
+I think scenes using the dynamic field of many, in database scrawl's, such as registering in datastore crawl settings. How to register dynamic fields in database scrawl by placing the script other_t = hoge hoge column data into Solr other_t field.
+You need to add a field to use to retrieve data that is stored in the dynamic field next to the webapps/fess/WEB-INF/classes/app.dicon. Add the other_t.
+You must add a field to use to retrieve data that is stored in the dynamic field from Solr. Add the other_t.
+Edit the JSP file has made returns from Solr in the above settings, so to display on the page. Login to the manage screen, displays the design. Display of search results the search results displayed on the page (the content), so edit the JSP file. where you want to display the other_t value in $ {f:h(doc.other_t)} and you can display the value registered in.
+This page is generated by Machine Translation from Japanese.
+Solr server group in the Fess, managing multiple groups. Change the status of servers and groups if the server and group information that keeps a Fess, inaccessible to the Solr server.
+SOLR server state information can change in system setting. maxErrorCount, maxRetryStatusCheckCount, maxRetryUpdateQueryCount and minActiveServer can be defined in the webapps/fess/WEB-INF/classes/solrlib.dicon.
+This page is generated by Machine Translation from Japanese.
+ +You must isolate the document in order to register as the index when creating indexes for the search. Tokenizer is used for this.
+Basically, carved by the tokenizer units smaller than go find no hits. For example, statements of living in Tokyo, Japan. Was split by the tokenizer now, this statement is in Tokyo, living and so on. In this case, in Tokyo, Word search, you will get hit. However, when performing a search with the word 'Kyoto' will not be hit. For selection of the tokenizer is important.
+You can change the tokenizer by setting the schema.xml analyzer part is if the Fess in the default StandardTokenizer CJKBigramFilter used.
+ +StandardTokenizer CJKBigramFilter index bi-gram, in other words two characters to like Japan Japanese multibyte string creates. In this case, can't find one letter words.
+StandardTokenizer creates index uni-gram, in other words one by one for the Japan language of multibyte-character strings. Therefore, the less search leakage. Also, with StandardTokenizer can't CJKTokenizer the search query letter to search to. However, please note that the index size increases.
+The following example to change the analyzer part like solr/core1/conf/schema.xml, you can use the StandardTokenizer.
+Also, useBigram is enabled by default in the webapps/fess/WEB-INF/classes/app.dicon change to false.
+After the restart the Fess.
+This page is generated by Machine Translation from Japanese.
++ It is possible to crawl using the Apache POI Fess environmental standard in MS Office system document. + You can crawl Office system document regarding LibreOffice, OpenOffice, do even more accurate text extraction from documents.
+JodConverter Fess server install. from http://jodconverter.googlecode.com/jodconverter-core-3.0-Beta-4-Dist.zipThe download. Expand and copy the jar file to Fess server.
+Create a s2robot_extractor.dicon to the next.
+s2robot_extractor.dicon effective jodExtractor with following contents.
+Index to generate the settings later, usually crawled into the street.
+This page is generated by Machine Translation from Japanese.
+You can register the Fess as a Windows service in a Windows environment. How to register a service is similar to the Tomcat.
+Because if you registered as a Windows service, the crawling process is going to see Windows system environment variablesIs Java JAVA_HOME environment variables for the system to register, As well as Add %JAVA_HOME%\bin to PathYou must.
+to edit the webapps \fess\WEB-INF\classes\fess.dicon, remove the-server option.
+First, after installing the Fess from the command prompt service.bat performs (such as Vista to launch as administrator you must). Fess was installed on C:\Java\fess-server-9.2.0.
+By making the following you can review properties for Fess. To run the following, Tomcat Properties window appears.
+Control Panel - to display the management tool in administrative tools - services, you can set automatic start like normal Windows services.
+Distributed in the Fess is 64-bit binaries for Windows Tomcat builds based on. If you use 32-bit WindowsTomcat Of the site from, such as 32-bit Windows zip, please replace tomcat7.exe, tomcat7w.exe, tcnative-1.dll.
+This page is generated by Machine Translation from Japanese.
++This document is subject to users responsible for Fess installation and uninstallation tasks. +
++This document shows how to install Fess. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+This page is generated by Machine Translation from Japanese.
++Fess can be available in these environments. +
++If Java is not installed in the environment we want to Fess from http://java.sun.com/ get JDK for Java 7 and above, please install. +
++http://sourceforge.jp/projects/Fess/releases/ From the download the latest Fess package. +
++Expand the downloaded fess-server-x.y.zip. +If you installed in the UNIX environment, in the bin added the performing rights to a script.
++Administrator account is managed by the application server. Fess Server standard available Tomcat, as well as to the user changing the Tomcat. +Modify the password for the admin account of the conf/tomcat-user.xml if you want to change.
++see the Tomcat documentation or JAAS authentication specification to use Tomcat-user.XML file management method other than. +
++To access the Solr into Fess server is password becomes necessary. +Change the default passwords in production, etc.
++How to change the password, you must first change the password attribute of the conf/tomcat-user.xml solradmin. +
++Modifies the following three files webapps/fess/WEB-INF/classes/solrlib.dicon, fess_suggest.dicon and solr/core1/conf/solrconfig.xml. +Write what you specified in tomct-user.XML to the following password.
++modify the following areas of the solrlib.dicon. +
++fess_suggest.dicon is the following. +
++where the following is the solrconfig.Xml. +
++To manage can manage Solr from Fess server deployed on Tomcat context need a password. +Change the default passwords in production, etc.
++How to change password the change manager conf/tomcat-user.xml password attributes. +
+ ++Describes the provided password webapps/fess/WEB-INF/classes/app.dicon the following points tomcat-user.xml to the next. +
+ ++Login at return path settings, in the use encryption and decryption. +Please change the default password, especially in production.
++How to change the change the key value in the webapps/fess/WEB-INF/classes/app.dicon. +Set the 16-character alphanumeric.
+This page is generated by Machine Translation from Japanese.
++to run the startup script, start the Fess. +
+ ++access to / http://localhost:8080/Fess ensures startup. +
+ ++Management UI is / http://localhost:8080/fess/admin. +Default Administrator account user name / password is admin/admin. +Administrator account is managed by the application server. +In the management UI of the Fess, authenticate with the application server in fess role available as an administrator.
++Fess to stop the running shutdown scripts. +
+ ++Crawl or may take a while to completely stop during the index creation if you. +
+This page is generated by Machine Translation from Japanese.
++You can uninstall by deleting the installation stops after the Fess fess-server-x.y directory. +
+This page is generated by Machine Translation from Japanese.
++This document is targeted to users to Fess. +
++This document demonstrates how to search in the Fess. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+This page is generated by Machine Translation from Japanese.
+Outputs a JSON results of Fess. You must in order to emit JSON enabled keep JSON response in the General Management screen crawl settings.
+To get JSON output http://localhost:8080/Fess/JSON? query = search terms
Of these sends a request. Request parameters are as follows.
query | +Search language. Pass the URL encoding. | +
---|---|
Start | +The number of where to start. Starts at 0. | +
NUM | +The number of display. The default is 20. You can display up to 100. | +
fields.label | +The label value. Use to specify the label. | +
callback | +If you use the JSONP callback name. You do not need to specify if you do not use the JSONP. | +
Returns the following response.
+Each element is as follows.
+response | +The root element. | +
---|---|
version | +Format version. | +
status | +The status of the response. the status value is 0: normal, 1: search error, 2 or 3: request parameter error, 9: in service, 1: API type of error is. | +
query | +Search language. | +
execTime | +Response time. Unit is seconds. | +
pageSize | +The number of display. | +
pageNumber | +Page number. | +
recordCount | +Number of hits for the search term. | +
pageCount | +Page number of the number of hits for the search term. | +
result | +Parent element of the search results. | +
site | +The name of the site. | +
contentDescription | +A description of the content. | +
host | +The name of the host. | +
lastModified | +Last update date. | +
cache | +The contents of the content. | +
score | +Score values of the document. | +
Digest | +Digest a string of documents. | +
created | +Document creation date. | +
URL | +The URL of the document. | +
ID | +The ID of the document. | +
mimetype | +The MIME type. | +
title | +The title of the document. | +
contentTitle | +The title of the document for viewing. | +
contentLength | +The size of the document. | +
urlLink | +The URL as the search results. | +
This page is generated by Machine Translation from Japanese.
+You can use the additional parameters if the search string is shown on the screen without the specific search criteria like persuasion. additional value is retained but in the paging screen additional value.
+Without the conditions show screen and run a search when searches are performed by appending additional values in hidden forms, such as (for example, a search form) in the paging screen transitions and also the condition holds.
+This page is generated by Machine Translation from Japanese.
+Use the search if you want to search for documents that contain all search words of more than one. When describing multiple words in the search box separated by spaces, AND skip AND search.
+If you use the search search words written AND. Write in capital letters AND the space required to back and forth. AND is possible can be omitted.
+For example, if you want to find documents that contain the search terms 1 and 2 search terms, type the following search form.
+Connecting multiple words with AND are available.
+This page is generated by Machine Translation from Japanese.
+Use the boost search if you want to prioritize, search for specific search terms. Enabling search in boost search, depending on the severity of the search words.
+To boost search after the search term ' ^ boost value "that specifies the boost value (weighted) in the format.
+For example, if you want to find the page if you want to find apples oranges contained more 'apples', type the following search form.
+Boost value specifies an integer greater than 1.
+This page is generated by Machine Translation from Japanese.
+You crawl in Fess results are saved for each field, such as title and full text. You can search for a field of them. You can specify the search criteria in search for a field, such as document type or size small.
+You can search for a the following fields by default.
+Field name | +Description | +
---|---|
URL | +The crawl URL | +
host | +Were included in the crawl URL host name | +
site | +Site name was included in the crawl URL | +
title | +Title | +
content | +Text | +
contentLength | +You crawl the content size | +
lastModified | +Last update of the content you want to crawl | +
mimetype | +The MIME type of the content | +
If you do not specify the fields subject to find the content. Fields are custom fields are also available by using the dynamic field of Solr.
+If HTML file and search for the title tag that string in the title field, below the body tag registered in the body field.
+If a field specifying the search field name: search words in separated by colons (:) field name and search word fill in the search form, the search.
+If you search the Fess as a search term for the title field, type.
+Document, the title field in Fess above search appears as a search result.
+This page is generated by Machine Translation from Japanese.
+Ambiguity in the case does not match the words word search to search is available. Based on the Levenshtein distance in Fess ambiguous corresponds to the search (fuzzy search).
+After the search word you want to apply the fuzzy search adds '~'.
+For example, ambiguous word "Solr", you can find documents that contain the word, near the "Solr" If you want to find, type as the search form, such as ("Solar"). +
+Furthermore, if by '~' after the number 0 and 1, 1 just like in refine. For example, in the form of 'Solr~0.8'. Do not specify numeric default value is 0.5.
+This page is generated by Machine Translation from Japanese.
+Search using location information when you search, adding latitude and longitude location information for each document when generating the index becomes possible.
+Following parameters is available in the standard.
+GEO.latitude | +Latitude degrees minutes seconds specifies double. | +
---|---|
GEO.longitude | +Longitude degrees minutes seconds specifies double. | +
GEO.distance | +Specifies the distance between documents in units of the coast. Specified in the double type. | +
This page is generated by Machine Translation from Japanese.
+Narrow your search by adding the categories to search the document for label information the label is specified when the search is possible. Label information by registering in the Administration screen, will enable search by labels in the search screen. Label information available can multiple selections in the drop-down when you search. If you do not register the label displayed the label drop-down box.
+You can select the label information at search time. Label information can be selected in the search options dialog by pressing the options button will appear.
+You can search each document to create an index, set the label to the label. All results search search do not specify a label is usually the same. If you change the label information to update the index.
+This page is generated by Machine Translation from Japanese.
+If the document does not contain a word search NOT searching is available.
+Locate the NOT search as NOT in front of the Word does not contain. Is NOT in uppercase characters ago and need space.
+For example, enter the following if you want to find documents that contain the search term 1 does not contain a search term 2 and the search.
+This page is generated by Machine Translation from Japanese.
+You can pass any search criteria from third-party search engines move and easy to like. Pass search criteria Please implement processing in QueryHelperImpl #buildOptionQuery.
+Following parameters is available in the standard.
+options.q | +This is similar to the normal query. You can specify multiple options.q. If you specify multiple is treated as a search. Pass the URL encoding. | +
---|---|
options.CQ | +Treated as exact match search queries. For example, if you specify the Fess Project searches as "Fess Project". Pass the URL encoding. | +
options.OQ | +Is treated as an OR search. For example, if you specify the Fess Project search as a Fess OR Project. Pass the URL encoding. | +
options.NQ | +Treated as NOT search. For example, if you specify 'Fess' search as NOT Fess. Pass the URL encoding. | +
This page is generated by Machine Translation from Japanese.
+If you want to find documents that contain any of the search terms OR search use. When describing the multiple words in the search box, by default will search.
+To use search OR search words written OR. OR write in capital letters, the space required to back and forth.
+For example, if you want to search for documents that contain either search term 2 search term 1 and type the following search form.
+OR between multiple languages are available.
+This page is generated by Machine Translation from Japanese.
+If in the field containing the data in specified range, such as the number range search is possible for that field.
+To limit "field name: value TO value ' fill in the search form.
+For example, type to search document contentLength field against 1 k to 10 k bytes is shown below the search form.
+To time range specified search ' lastModified: [date 1 TO date 2] "(Re 1 [Re 2) fill out the search form.
+ISO 8601 with respect to re.
+Date and time-resolved second and fractional part | +If the current relative to the date | +
YYYY-MM-DDThh:mm:ss.sZ( example :2013-08-02T10:45:23.5Z) | +NOW (the current date), YEAR (this year), MONTH (month), DAY (today) | +
To relative to the current date and time NOW and DAY-(Adder, and production) and can sign and (round) like.
+And a symbol for round / behind unit. Even if now-1DAY/day does today what time today 00: represents the day from 00 -1, the 00: 00.
+For example, if you search for lastModified field from 2/21/2012 20: (current to date) 30 days prior to the updated document, type the following search form.
+This page is generated by Machine Translation from Japanese.
+To sort the search results by specifying the fields such as search time.
+You can sort the following fields by default.
+Field name | +Description | +
---|---|
Tstamp | +On the crawl | +
contentLength | +You crawl the content size | +
lastModified | +Last update of the content you want to crawl | +
Adding custom fields as sort in Customizing.
+You can select the sorting criteria when you search. Sorting criteria can be selected in the search options dialog by pressing the options button will appear.
+Also, for sorting in the search field sort: the field name to sort and field names separated by colon (:) fill out the search form, the search.
+In ascending order sort the content size as a search term, Fess is below.
+To sort in descending order as below.
+If you sort by multiple fields separated list, shown below.
+This page is generated by Machine Translation from Japanese.
+You can use one or multiple character wildcard search terms within. The can be specified as a one-character wildcard, * is specified as the multiple-character wildcard. Wildcards are not available in the first character. You can use wildcards for words. Wildcard search for the sentence.
+If you use one character wildcard shown below? The available.
+If the above is treated as a wildcard for one character, such as text or test.
+If you use the multiple character wildcard use * below
+If the above is treated as a wildcard for multiple characters, such as test, tests or tester. Also,
+The so can be also used in the search term.
+The wildcard string indexed using target. Therefore, because if the index has been created, such as bi-gram be treated meaning fixed string length in Japan Japanese wildcard in Japan, not expected behavior. Use in the field, if you use a wildcard in Japan, that used morphological analysis.
+This page is generated by Machine Translation from Japanese.
+To emit the XML results of Fess. You need to do this output in XML Management screen crawl settings XML response enabled by you.
+To get the output XML http://localhost:8080/Fess/XML? query = search terms
Of these sends a request. Request parameters are as follows.
query | +Search language. Pass the URL encoding. | +
---|---|
Start | +The number of where to start. Starts at 0. | +
NUM | +The number of display. The default is 20. You can display up to 100. | +
fields.label | +The label value. Use to specify the label. | +
Returns the following response.
+Each element is as follows.
+response | +The root element. | +
---|---|
version | +Format version. | +
status | +The status of the response. the status value is 0: normal, 1: search error, 2 or 3: request parameter error, 9: in service, 1: API type of error is. | +
query | +Search language. | +
exec-time | +Response time. Unit is seconds. | +
page-size | +The number of display. | +
page-number | +Page number. | +
record-count | +Number of hits for the search term. | +
page-count | +Page number of the number of hits for the search term. | +
result | +Parent element of the search results. | +
doc | +The elements of the search results. | +
site | +The name of the site. | +
content-description | +A description of the content. | +
host | +The name of the host. | +
last-modified | +Last update date. | +
cache | +The contents of the content. | +
score | +Score values of the document. | +
Digest | +Digest a string of documents. | +
created | +Document creation date. | +
URL | +The URL of the document. | +
ID | +The ID of the document. | +
mimetype | +The MIME type. | +
title | +The title of the document. | +
content-title | +The title of the document for viewing. | +
content-length | +The size of the document. | +
URL-link | +The URL as the search results. | +
This page is generated by Machine Translation from Japanese.
+Describes the settings related to crawling.
+In Administrator account click crawl General menu after login.
+When the user enters a search, the search the output log. If you want to get search statistics to enable.
+Save the information you find. Identifying the users becomes possible.
+You can collect the search result was judged good by the user. Search result voting link appears to result in list screen, so that link press made the record. You can also reflect the results collected during the crawl index.
+Search results link attaches to the search term. To display the find search terms in PDF becomes possible.
+Search results can be retrieved in XML format. http://localhost:8080/Fess/XML? can get access query = search term.
+Search results available in JSON format. http://localhost:8080/Fess/JSON? can get access query = search term.
+You can specify the label to see if the label by default,. Specifies the value of the label.
+You can specify whether or not to display a search screen. If not available not available search screen. And if you want to create a dedicated index server and select not available.
+In JSON format often find search words becomes available. http://localhost:8080/Fess/JSON? can be retrieved by accessing the type = hotsearchword.
+Delete a search log for the specified number of days ago. One day in the one log purge old log is deleted.
+Delete the job days before the specified date. One day in the one log purge old log is deleted.
+Delete the user information for the specified number of days ago. One day in the one log purge old log is deleted.
+Specifies the Bots name Bots you want to remove from the search log logs included in the user agent by commas (,). Log is deleted by log purge once a day.
+Specifies the email address to send information about crawl upon completion crawl.
+Specifies the encoding for the CSV will be available in the backup and restore.
+Crawl as been updated to enable incremental crawl compared lastModified field value and the target document's modification date (if the HTTP's timestamp if LAST_MODIFIED values, file).
+File additional group access rights information added to the role.
+Fess can combine multiple Solr server as a group, the group can manage multiple. Solr server group for updates and search for different groups to use. For example, if you had two groups using the Group 2 for update, search for use of Group 1. After the crawl has been completed if switching server updates for Group 1, switches to group 2 for the search. It is only valid if you have registered multiple Solr server group.
+Fess document crawling is done on Web crawling, and file system CROLL. You can crawl to a set number of values in each crawl specified here only to run simultaneously multiple. For example, crawl setting number of concurrent as 3 Web crawling set 1-set 10 if the crawling runs until the set 3 3 set 1-. Complete crawl of any of them, and will start the crawl settings 4. Similarly, setting 10 to complete one each in we will start one.
+But you can specify the number of threads in the crawl settings simultaneously run crawl setting number is not indicates the number of threads to start. For example, if 3 in the number of concurrent crawls settings, number of threads for each crawl settings and 5 3 x 5 = 15 thread count up and crawling.
+You can automatically delete data after the data has been indexed. If you select the 5, with the expiration of index register at least 5 days before and had no update is removed. If you omit data content has been removed, can be used.
+Registered disabled URL URL exceeds the failure count next time you crawl to crawl out. Does not need to monitor the fault type is being crawled next time by specifying this value.
+Disaster URL exceeds the number of failures will crawl out.
+This page is generated by Machine Translation from Japanese.
+Describes the settings related to the session information. One time the crawl results saved as a single session information. You can check the run time and the number of indexed.
+In Administrator account after logging in, click the session information menu.
+You can remove all session information and click the Delete link all in the running. Session has expired will be removed at next crawl.
+Sure you can crawl the contents of session ID. Crawl start and finish time, number of documents indexed and listed.
+This page is generated by Machine Translation from Japanese.
+Here, describes Fess information backup and restore methods.
+In Administrator account after logging in, click the menu backup and restore.
+Click the download link and Fess information output in XML format. Saved settings information is below.
+Session information, search log, click log is available in CSV format.
+In the SOLR index data and data being crawled is not backed up. Those data can Fess setting information to crawl after the restore, regenerate. If you need to back up the SOLR index backs solr directory.
+You can restore settings information, various log in to upload XML output by backup or CSV. To specify the files, please click the restore button on the data.
+If enable overwrite data in XML file configuration information specified when the same data is updating existing data.
+This page is generated by Machine Translation from Japanese.
+You can crawl data sources such as databases and CSV in Fess. Here are required to store settings.
+In Administrator account after logging in, click menu data store.
+As an example, the following table database named testdb MySQL, user name hoge, fuga password connection and the will to make it.
+Here the data is put something like the following.
+Parameter settings example looks like the following.
+Parameter is a "key = value" format. Description of the key is as follows.
+driver | +Driver class name | +
URL | +URL | +
username | +To connect to the DB user name | +
password | +To connect to the DB password | +
SQL | +Want to crawl to get SQL statement | +
Script configuration example looks like the following.
++ Parameter is a "key = value" format. + Description of the key is as follows.
++ Side of the value written in OGNL. Close the string in double quotation marks. + Access in the database column name, its value.
+URL | +URLs (links appear in search results) | +
host | +Host name | +
site | +Site pass | +
title | +Title | +
content | +Content (string index) | +
cache | +Content cache (not indexed) | +
Digest | +Digest piece that appears in the search results | +
anchor | +Links to content (not usually required) | +
contentLength | +The length of the content | +
lastModified | +Content last updated | +
To connect to the database driver is needed. keep the jar file in webapps/fess/WEB-INF/cmd/lib.
+Set the following in the webapps/fess/WEB-INF/classes/app.dicon if you see the item value, such as latitude_s in the search results. After adding to $ {doc.latitude_s}, searchResults.jsp;
+This page is generated by Machine Translation from Japanese.
+Here are settings for the design of search screens.
+In Administrator account after logging in, click the menu design.
+You can edit the search screen in the screen below.
+If you want to display in the search results crawl in Fess and registered or modified files to get the search results page (content), write the following.
+tstampDate will crawl during registration on the lastModifiedDate modified date of the document. Output date formats follow the fmt:formateDate specification.
+On the search screen files are available to download and can be removed.
+You can upload the file to use in the search screen. Image file names are supported are jpg, gif, png, css, and js.
+Use if you want to specify the file name file to upload. Uploaded if you omit the file name will be used.
+You can edit the JSP files in the search screen. You can by pressing the Edit button of the JSP file, edit the current JSP files. And pressing the button will default to edit as a JSP file when you install. To keep with the update button in the Edit screen, changes are reflected.
+Following are examples of how to write.
+Top page (frame) | +Is a JSP file search home page. This JSP include JSP file of each part. | +
Header | +It is a JSP file's header. | +
Footer | +This is the footer JSP files. | +
Search results pages (frames) | +Search result is a list page of JSP files. This JSP include JSP file of each part. | +
Search results pages (content) | +Search results search results list page is a JSP file to represent the part. Is the search results when the JSP file. If you want to customize the search result representation change. | +
Search results page (result no) | +Search results search results list page is a JSP file to represent the part. Is a JSP file when the search result is not used. | +
Help pages (frames) | +Is the help page of JSP files. | +
Search error page | +It is a JSP file search error page. If you want to customize the search error expression change. | +
File boot page | +Is the file boot page JSP file. Is the screen used when displaying Java plug-in is enabled to display the search results by using the file system CROLL. | +
Error page (header) | +Is a JSP file that represents the header of the page. | +
Error page (footer) | +It is a JSP file that represents the footer part of the page. | +
Error page (page not found) | +It is displayed if the page cannot be found error page JSP file. | +
Error (System error) | +JSP error page that appears if the system error is. | +
Error pages (redirects) | +This is the JSP error page displayed when an HTTP redirect occurs. | +
Error (bad request) | +Is the error bad request appears when the JSP file. | +
This page is generated by Machine Translation from Japanese.
+Here are settings for the dictionary.
+In Administrator account after logging in, click the menu Dictionary. List the various dictionaries available for editing.
+You can register names, nouns, terminology. Registered click path to user dictionaries and dictionary word list is displayed.
+Displays the Edit screen and click the word you want to edit.
+Type a Word to search for.
+Been searching the words compound word splitting the Word can to hit. For example, you can search any word by entering the full-text search engine and full-text search engine, have split.
+Enter the word reading in katakana. + Enter the split when you split. For example, enter Sembene search engine.
+Enter the words you entered.
+You can register the same meaning words (GB, gigabyte, etc.). Click the path of the synonym dictionary registered on dictionary word list is displayed.
+Displays the Edit screen and click the word you want to edit.
+Type the word being treated as synonyms.
+Expand the words you enter in the source in the word after the conversion. For example, 'TV', 'TV' and 'television' If you want to convert type 'TV', 'TV' and 'TV' type after conversion.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the index.
+In Administrator account after logging in, click the menu index.
+You can publish index commit, optimize for server groups.
+No problem, manually commit or optimization to do.
+You can remove a specific search for the session ID. You can remove only the specific documents by specifying the URL.
+Shown by the number of documents registered in each session. Can verify the results list by clicking the session name.
+This page is generated by Machine Translation from Japanese.
+Here the failure URL. URL could not be obtained at crawl time are recorded and confirmed as the failure URL.
+In Administrator account click menu disabled URL after login.
+Clicking the confirmation link failure URL displayed for more information.
+A glance could not crawl the URL and date.
+This page is generated by Machine Translation from Japanese.
+Here are popular URL log. When the popular URL log user clicks voting link on the search screen registers as a favorite link. You can disable this feature in the General crawl settings.
+In Administrator account after logging in, click the menu popular URL.
+Lists popular URL.
+This page is generated by Machine Translation from Japanese.
+Crawls using file system here, describes how to set file system authentication is required. Fess is corresponding to a crawl for a shared folder in Windows.
+In Administrator account after logging in, click the menu file system authentication.
+Specifies the host name of the site that requires authentication. Is omitted, the specified file system Kroll set applicable in any host name.
+Specifies the port of the site that requires authentication. Specify-1 to apply for all ports. File system Crawl settings specified in that case applies on any port.
+Select the authentication method. You can use SAMBA (Windows shared folder authentication).
+Specifies the user name to log in authentication.
+Specifies the password to log into the certification site.
+Sets if the authentication site login required settings. SAMBA, the set value of the domain. If you want to write as.
+Select the set name to apply the authentication settings for the above file system CROLL. Must be registered ago you file system CROLL.
+This page is generated by Machine Translation from Japanese.
+Describes the settings for crawl here, using file system.
+Recommends that if you want to index document number 100000 over in Fess crawl settings for one to several tens of thousands of these. One crawl setting a target number 100000 from the indexed performance degrades.
+In Administrator account after logging in, click menu file.
+Is the name that appears on the list page.
+You can specify multiple paths. file: or smb: in the specify starting. For example,
+The so determines. Patrolling below the specified directory.
+So there is need to write URI if the Windows environment path that c:\Documents\taro in file/c: /Documents/taro and specify.
+Windows shared folder, for example, if you want to crawl to host1 share folder crawl settings for smb: (last / to) the //host1/share/. If authentication is in the shared folder on the file system authentication screen set authentication information.
+By specifying regular expressions you can exclude the crawl and search for given path pattern.
+Path to crawl | +Crawl the path for the specified regular expression. | +
---|---|
The path to exclude from being crawled | +The path for the specified regular expression does not crawl. The path you want to crawl, even WINS here. | +
Path to be searched | +The path for the specified regular expression search. Even if specified path to find excluded and WINS here. | +
Path to exclude from searches | +Not search the path for the specified regular expression. Unable to search all links since they exclude from being crawled and crawled when the search and not just some. | +
For example, the path to target if you don't crawl less than/home /
+Also the path to exclude if extension of png want to exclude from
+It specifies. It is possible to specify multiple line breaks in.
+How to specify the URI handling java.io.File: Looks like:
+You can specify the crawl configuration information.
+Specify the depth of a directory hierarchy.
+You can specify the number of documents to retrieve crawl.
+Specifies the number of threads you want to crawl. Value of 5 in 5 threads crawling the website at the same time.
+Is the time interval to crawl documents. 5000 when one thread is 5 seconds at intervals Gets the document.
+Number of threads, 5 pieces, will be to go to and get the 5 documents per second between when 1000 millisecond interval,.
+You can search URL in this crawl setting to weight. Available in the search results on other than you want to. The standard is 1. Priority higher values, will be displayed at the top of the search results. If you want to see results other than absolutely in favor, including 10,000 sufficiently large value.
+Values that can be specified is an integer greater than 0. This value is used as the boost value when adding documents to Solr.
+You can control only when a particular user role can appear in search results. You must roll a set before you. For example, available by the user in the system requires a login, such as portal servers, search results out if you want.
+You can label with search results. Search on each label, such as enable, in the search screen, specify the label.
+Crawl crawl time, is set to enable. If you want to avoid crawling temporarily available.
+This page is generated by Machine Translation from Japanese.
++This document is subject to users responsible for the management work of the Fess. +
++This document demonstrates Fess configuration management methods. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+Management UI to support browser as follows.
+This page is generated by Machine Translation from Japanese.
+Job performed results appear as a list.
+In Administrator account after logging in, click menu users.
+Lists the job run log. You can determine the job name, status, start and finish times. You can also select more information, to check the details of each log.
+You can check job log contents. Job name, status, start and completion time, displays the results, such as.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the label. Label can classify documents that appear in search results, select the crawl settings in. You can pass even if you do not set the crawl settings in the settings of the label to add labels to specify regular expressions. If you register the label shown select label drop-down box to the right of the search box.
+In Administrator account after logging in, click the menu label.
+Specifies the name that is displayed when the search label drop-down select.
+Specifies the identifier when a classified document. This value will be sent to Solr. Must be alphanumeric characters.
+Sets the path to label in the regular expression. You can specify multiple in multiple line description. Notwithstanding the crawl configuration document to match the path specified here, will be labeled.
+In the path and crawled on regular expressions set from what you want to exclude. You can specify multiple in multiple line description.
+Specifies the role to view the label.
+Specifies the order of the labels.
+This page is generated by Machine Translation from Japanese.
+Describes the log files will be output in the Fess download.
+In Administrator account after logging in, click log file menu.
+You can download the log file and click the log file name.
+This page is generated by Machine Translation from Japanese.
+Here are settings on the duplicate host. Available when the duplicate host to be treated as the same thing crawling at a different host name. For example, if you want the same site www.example.com and example.com in available.
+In Administrator account after logging in, click the menu duplicate host.
+Specify the canonical host name. Duplicate host names replace the canonical host name.
+Specify the host names are duplicated. Specifies the host name you want to replace.
+This page is generated by Machine Translation from Japanese.
+Here are settings for path mapping. You can use if you want replaced path mapping links appear in search results.
+In Administrator account after logging in, click menu path mappings.
+Path mapping is replaced by parts to match the specified regular expression, replace the string with. When crawling a local filesystem environment may search result links are not valid. Such cases using path mapping, you can control the search results link. You can specify multiple path mappings.
+Specifies the string you want to replace. How to write aRegular expressions in Java 6To follow.
+Specifies the string to replace the matched regular expression.
+This page is generated by Machine Translation from Japanese.
+Here the request header. Feature request headers request header information added to requests when you get to crawl documents. Available if, for example, to see header information in the authentication system, if certain values are logged automatically.
+In Administrator account after logging in, click request header menu.
+Specifies the request header name to append to the request.
+Specifies the request header value to append to the request.
+Select a Web crawl setting name to add request headers. Only selected the crawl settings in appended to the request header.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the role. Role is selected in the crawl settings, you can classify the document appears in the search results. About how to use theSettings for a rolePlease see the.
+In Administrator account after logging in, click menu role.
+Specifies the name that appears in the list.
+Specifies the identifier when a classified document. This value will be sent to Solr. Must be alphanumeric characters.
+This page is generated by Machine Translation from Japanese.
+Here are settings for the job.
+In Administrator account after logging in, click the job management.
+It is the name that appears in the list.
+You can use as an identifier for whether or not to run when the target job command to run directly in the batch, etc.. If the crawl command execution, do not specify 'all'.
+Configure schedule settings. Run jobs written in script on a schedule you set here.
+Description format describes the format such as Cron seconds minutes date month day year (optional)". For example, "0 0 12? * WED ' for if the weekly Wednesday 12:00 pm job to run. About how to specify the finer "Quartz"Please see.
+Specifies the script execution environment. At the moment supports only the 'groovy'.
+Written in the language specified in how to perform job run.
+For example, if you want to run crawl jobs only three crawl settings describes as (assuming Web crawl configuration ID 1 and file system Kroll set ID to 1 and 2).
+To enable records to the job log.
+In turn treated as crawl jobs. In establishing the system crawl started and stopped.
+Specifies the enabled or disabled status of the job. If the job will not run.
+Specifies the display order in the job list.
+This page is generated by Machine Translation from Japanese.
+Here the search for management.
+In Administrator account after logging in, click the menu search.
+You can search by criteria you specify. In the regular search screen role and browser requirements is added implicitly, but do not provide management for search. You can document a certain remove from index from the search results.
+This page is generated by Machine Translation from Japanese.
+Here the search log. When you search in the search screen users search logs are logged. Search log search term or date is recorded. You can also record the URL, then you want the search results to.
+In Administrator account after logging in, click menu search logs.
+Search language and date are listed. You can review and detailed, you click the URL.
+This page is generated by Machine Translation from Japanese.
+Here are statistics. You can search log and click log.
+In Administrator account after logging in, click the menu statistics.
+You can select the target by selecting the type of report, to make sure. Displayed in order by the specified criteria.
+This page is generated by Machine Translation from Japanese.
+Describes the settings related to Solr, here are registered in the server settings for crawling and Fess. SOLR servers are grouped by file, has been registered.
+In Administrator account after logging in, click menu system settings.
+Update server appears as a running if additional documents, such as the. Crawl process displays the session ID when running. You can safely shut down and Fess server to shut down is not running when shut down. If the process does not terminate if you shut a Fess is running to finish crawling process.
+You can manually crawling under the crawl start button press stop if it is that.
+Server group name to search for and update available will be shown.
+In Fess Solr Server conducts a management server and index State States. Whether or not the server state can be access to the Solr Server manages. Whether or not successfully crawl index the State could manage. You can use search server status is in effect, regardless of the State of the index. The crawl Server State is enabled and can index State runs correctly if the preparation or completion. Running start crawl manually index State preparing changes automatically. Server recovery server status and auto-recovery enabled state.
+You can be sure SOLR server instance state. You can also, for each instance, start, stop, reload request.
+This page is generated by Machine Translation from Japanese.
+Here, you can currently check property information such as system environment variables.
+In Administrator account after logging in, click system information menu.
+You can list the server environment variable.
+You can list the system properties on Fess.
+Fess setup information available.
+Is a list of properties to attach when reporting a bug. Extract the value contains no personal information.
+This page is generated by Machine Translation from Japanese.
+Here the user log. Identifies the user when you search in the search screen users the user log in. You can search log and popular URL information and the use. You can disable this feature in the General crawl settings.
+In Administrator account after logging in, click menu users.
+Lists the ID of the user. You can select the search logs or popular URL links, to see a list of each log.
+This page is generated by Machine Translation from Japanese.
+Describes Web authentication is required when set against here, using Web crawling. Fess is corresponding to a crawl for BASIC authentication and DIGEST authentication.
+In Administrator account after logging in, click menu Web authentication.
+Specifies the host name of the site that requires authentication. Web crawl settings you specify if applicable in any host name.
+Specifies the port of the site that requires authentication. Specify-1 to apply for all ports. Web crawl settings you specified and if applicable on any port.
+Specifies the realm name of the site that requires authentication. Web crawl settings you specify if applicable in any realm name.
+Select the authentication method. You can use BASIC authentication, DIGEST authentication or NTLM authentication.
+Specifies the user name to log in authentication.
+Specifies the password to log into the certification site.
+Sets if the authentication site login required settings. You can set the workstation and domain values for NTLM authentication. If you want to write as.
+Select to apply the above authentication settings Web settings name. Must be registered in advance Web crawl settings.
+This page is generated by Machine Translation from Japanese.
+Describes the settings here, using Web crawling.
+Recommends that if you want to index document number 100000 over in Fess crawl settings for one to several tens of thousands of these. One crawl setting a target number 100000 from the indexed performance degrades.
+In Administrator account after logging in, click menu Web.
+Is the name that appears on the list page.
+You can specify multiple URLs. http: or https: in the specify starting. For example,
+The so determines.
+By specifying regular expressions you can exclude the crawl and search for specific URL pattern.
+URL to crawl | +Crawl the URL for the specified regular expression. | +
---|---|
Excluded from the crawl URL | +The URL for the specified regular expression does not crawl. The URL to crawl, even WINS here. | +
To search for URL | +The URL for the specified regular expression search. Even if specified and the URL to the search excluded WINS here. | +
To exclude from the search URL | +URL for the specified regular expression search. Unable to search all links since they exclude from being crawled and crawled when the search and not just some. | +
For example, http: URL to crawl if not crawl //localhost/ less than the
+Also be excluded if the extension of png want to exclude from the URL
+It specifies. It is possible to specify multiple in the line for.
+You can specify the crawl configuration information.
+That will follow the links contained in the document in the crawl order can specify the tracing depth.
+You can specify the number of documents to retrieve crawl. If you do not specify people per 100,000.
+You can specify the user agent to use when crawling.
+Specifies the number of threads you want to crawl. Value of 5 in 5 threads crawling the website at the same time.
+Is the interval (in milliseconds) to crawl documents. 5000 when one thread is 5 seconds at intervals Gets the document.
+Number of threads, 5 pieces, will be to go to and get the 5 documents per second between when 1000 millisecond interval,. Set the adequate value when crawling a website to the Web server, the load would not load.
+You can search URL in this crawl setting to weight. Available in the search results on other than you want to. The standard is 1. Priority higher values, will be displayed at the top of the search results. If you want to see results other than absolutely in favor, including 10,000 sufficiently large value.
+Values that can be specified is an integer greater than 0. This value is used as the boost value when adding documents to Solr.
+You can control only when a particular user role can appear in search results. You must roll a set before you. For example, available by the user in the system requires a login, such as portal servers, search results out if you want.
+You can label with search results. Search on each label, such as enable, in the search screen, specify the label.
+Crawl crawl time, is set to enable. If you want to avoid crawling temporarily available.
+Fess and crawls sitemap file, as defined in the URL to crawl. Sitemaphttp://www.sitemaps.org/ Of the specification. Available formats are XML Sitemaps and XML Sitemaps Index the text (URL line written in).
+Site map the specified URL. Sitemap is a XML files and XML files for text, when crawling that URL of ordinary or cannot distinguish between what a sitemap. Because the file name is sitemap.*.xml, sitemap.*.gz, sitemap.*txt in the default URL as a Sitemap handles (in webapps/fess/WEB-INF/classes/s2robot_rule.dicon can be customized).
+Crawls sitemap file to crawl the HTML file links will crawl the following URL in the next crawl.
+This page is generated by Machine Translation from Japanese.
+Introduction to the Configuration Wizard.
+You can use Settings Wizard, to set you up on the Fess.
+In Administrator account after logging in, click menu Settings Wizard.
+Do the crawl settings. + Crawl settings is to register a URI to look for. + The crawl settings name please put name of any easy to identify. Put the URI part de-indexed, want to search for.
+For example, if you want and search for http://fess.codelibs.org/, less looks like.
+The type, such as c:\Users\taro file.
+In this setting is complete. Crawl start button press the start crawling. Not start until in the time specified in the scheduling settings by pressing the Finish button if the crawl.
+Settings in the Setup Wizard you can change from crawl General, Web, file system.
+This page is generated by Machine Translation from Japanese.
+Provides binaries to use H2 Database with MySQL database. You can use the other database in to change the settings using the source code and build it.
+The MySQL character code setting. /etc/mysql/my.cnf and the added must have the following settings.
+Download MySQL binaries and expand.
+Create a database.
+Create a table in the database. DDL file is located in extension/mysql.
+webapps/fess/WEB-INF/lib on mysql driver jar.
+Edit the webapps/fess/WEB-INF/classes/jdbc.dicon.
+Edit the webapps/fess/WEB-INF/classes/s2robot_jdbc.dicon.
+This page is generated by Machine Translation from Japanese.
+You can specify the file size limit crawl of Fess. In the default HTML file is 2.5 MB, otherwise handles up to 10 m bytes. Edit the webapps/fess/WEB-INF/classes/s2robot_contentlength.dicon if you want to change the file size handling. Standard s2robot_contentlength.dicon is as follows.
+Change the value of defaultMaxLength if you want to change the default value. Dealing with file size can be specified for each content type. Describes the maximum file size to handle text/HTML and HTML files.
+Note the amount of heap memory to use when changing the maximum allowed file size handling. About how to set upMemory-relatedPlease see the.
+This page is generated by Machine Translation from Japanese.
+You can document with latitude and longitude location information in conjunction with Google maps, including the use of Dios arch.
+Location is defined as a feed that contains the location information. + When generating the index in Solr latitude longitude set to location feeds in formats such as 45.17614,-93.87341, register the document. + Also sets the value as the latitude_s and longitude_s fields if you want to display latitude and longitude as a search result. * _s is available as a dynamic field of Solr string.
+During the search specifies in the request parameter to latitude and longitude, the distance. + View the results in the distance (km) specified by distance-based latitude information (latitude, longitude). Latitude and longitude and distances is treated as double.
+This page is generated by Machine Translation from Japanese.
+The index data is managed by Solr. Backup from the Administration screen of the Fess, and cases will be in the size and number of Gigabit can not index data.
+If you need to index data backup stopped the Fess from back solr/core1/data and solr/core1-suggest/data directories. Also, index data backed up to restore to undo.
+This page is generated by Machine Translation from Japanese.
++This document is subject to users responsible for setting work of the Fess. +
++This document demonstrates setting Fess. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+This page is generated by Machine Translation from Japanese.
++ The standard distribution of Fess Tomcat is distributed in the deployed State. + Because Fess is not dependent on Tomcat, deploying on any Java application server is available. + Describes how to deploy a Fess Tomcat here is already available.
+Fess ServerHereFrom the download.
++ Expand the downloaded Fess server. + Expanded Fess Server home directory to $FESS_HOME. + $TOMCAT_HOME the top directory of an existing Tomcat 7. + Copy the Fess Server data.
++ If you have, such as changing the destination file diff commands, updates your diff only applies. +
+to start the Tomcat in normal as well as in startup.* / http://localhost:8080/Fess To access the.
+This page is generated by Machine Translation from Japanese.
+The following summarizes the log file to output the Fess.
+File name | +Contents | +
---|---|
webapps/fess/WEB-INF/logs/fess.out | +Fess server log. Output logging operation in the management and search screens, etc. | +
webapps/fess/WEB-INF/logs/fess_crawler.out | +Crawl log. Crawling log output. | +
logs/Catalina.out | +Log of the Fess Server (Tomcat). Tomcat logs are output. | +
logs/SOLR.log | +Log server Fess (Solr). SOLR relevant log output. | +
If you encounter problems to work check the log.
+Sets the output log information is at webapps/fess/WEB-INF/classes/log4j.xml. By default output INFO level.
+For example, better Fess up to document for Solr log if you want to output in log4j.xml disconnect the commented-out section below.
+See the Log4J documentation if you need detailed settings for the log output.
+You can check by changing the logging level of the HttpClient if you want to check HTTP access when crawling content to solve the problem.
+to crawl, and change the priority tag from info to debug the output debug log of all things.
+This page is generated by Machine Translation from Japanese.
+Set the maximum memory per process in Java. So, do not use the upper memory in the process also had 8 GB of physical memory on the server. Memory consumption depending on the number of crawl threads and interval will also change significantly. If not enough memory please change settings in the subsequent procedure.
+If the contents of the crawl settings cause OutOfMemory error similar to the following.
+Increase the maximum heap memory occur. bin/setenv. [sh | bat] to (in this case maximum value set to 1 G)-xmx1g to change.
++ Crawler side memory maximum value can be changed. + The default is 512 m.
++ Unplug the commented out webapps/fess/WEB-INF/classes/fess.dicon crawlerJavaOptions to change, change the-xmx1g (in this case maximum value set to 1 G). +
+This page is generated by Machine Translation from Japanese.
+The mobile device informationValueEngine Inc.That provided more available. If you want to use the latest mobile device information downloaded device profile save the removed _YYYY-MM-DD and webapps/fess/WEB-INF/classes/device. After the restart to enable change.
+This page is generated by Machine Translation from Japanese.
+in non-HTML file, different character set precedents and the file name if the search result link text is garbled.
+For example, test.txt file contents are written in UTF-8, file name Shift_JIS, the link text is garbled.
+For example by revising the webapps/fess/WEB-INF/classes/s2robot_transformer.dicon as shown below, to resolve paths in Shift_JIS.
+This page is generated by Machine Translation from Japanese.
++ You should password files to register the settings file to PDF password is configured to search for. +
++ First of all, create the webapps/fess/WEB-INF/classes/s2robot_extractor.dicon. + This is test _ ~ is a pass that password set to a.pdf file. + If you have multiple files, multiple settings in addPassword.
+Next, edit the following to webapps/fess/WEB-INF/classes/s2robot_rule.dicon.
+Fess up after setting the above and please run the crawl. How to use Basic remains especially.
+This page is generated by Machine Translation from Japanese.
+In Fess when indexing and searching the stemming process done.
+This is to normalize the English word processing, for example, words such as recharging and rechargable is normalized to form recharg. Hit and even if you search by recharging the word this word rechargable, less search leakage is expected.
+You may not intended for the stemming process basic rule-based processing, normalization is done. For example, Maine (state name) Word will be normalized in the main.
+In this case, by adding Maine to protwords.txt, you can exclude the stemming process.
+This page is generated by Machine Translation from Japanese.
+ +If you like crawling external sites from within the intranet firewall may end up blocked crawl. Set the proxy for the crawler in that case.
+Proxy is set in to create webapps/Fess/Web-INF/classes/s9robot_client.dicon with the following contents.
+This page is generated by Machine Translation from Japanese.
+Sets the replication of the index Solr replication features. You can distribute load during indexing to build two in Fess of the crawl and index creation and search for Fess servers.
+Fess, download and install the. When you install MasterServer named host./ /opt/fess_master
To assume you installed. Edit the SOLR/core1/conf/solrconfig.XML like the following.
Register the crawl settings as well as Fess starts after the normal construction. Steps to building the index for Fess remains especially as normal building procedures.
+Fess, download and install the./ /opt/fess_slave
To assume you installed. Edit the SOLR/core1/conf/solrconfig.XML like the following.
Start the Fess.
+Until the above settings copied to search for Fess index crawl after the optimization (optimize) the index for Fess.
+This page is generated by Machine Translation from Japanese.
+You can divide out search results in Fess in any authentication system authenticated users credentials to. For example, find rolls a does appears role information in search results with the roles a user a user b will not display it. By using this feature, user login in the portal and single sign-on environment belongs to you can enable search, sector or job title.
+In role-based search of the Fess roll information available below.
+To save authentication information in cookies for authentication when running of Fess in portal and agent-based single sign-on system domain and path that can retrieve role information. You can also reverse proxy type single sign-on system access to Fess adding authentication information in the request headers and request parameters to retrieve role information.
+Describes how to set up role-based search using J2EE authentication information.
+conf/Tomcat-users.XML the add roles and users. This time the role1 role perform role-based search. Login to role1.
+sets the webapps/fess/WEB-INF/classes/fess.dicon shown below.
+You can set the role information by setting the defaultRoleList, there is no authentication information. Do not display the search results need roles for users not logged in you.
+sets the webapps/fess/WEB-INF/web.xml shown below.
+Fess up and log in as an administrator. From the role of the menu set name Role1 (any name) and value register role at role1. After the crawl settings want to use in the user with the role1 in, crawl Crawl Settings select Role1.
+Log out from the management screen. log in as user Role1. A successful login and redirect to the top of the search screen.
+Only thing was the Role1 role setting in the crawl settings search as usual, and displayed.
+Also, search not logged in will be search by guest user.
+Whether or not logged out, logged in a non-Admin role to access http://localhost:8080/fess/admin screen appears. By pressing the logout button will log out.
+This page is generated by Machine Translation from Japanese.
+Fess by default, you use the port 8080. Change in the following steps to change.
+Change the port Tomcat is Fess available. Modifies the following described conf/server.xml changes.
+May need to change if you change the Tomcat port using the settings in the standard configuration, the same Solr-Tomcat, so Fess Solr server referenced information.
+change the webapps/fess/WEB-INF/classes/app.dicon the following points.
+change the webapps/fess/WEB-INF/classes/solrlib.dicon the following points.
+change the SOLR/core1/conf/solrconfig.XML the following points.
++ Note: to display the error on search and index update: cannot access the Solr server and do not change if you change the Tomcat port similar to the above ports. +
+This page is generated by Machine Translation from Japanese.
+SOLR is document items (fields) for each to the schema defined in order to register. Available in Fess Solr schema is defined in solr/core1/conf/schema.xml. dynamic fields and standard fields such as title and content can be freely defined field names are defined. Advanced parameter values see a Solr document.
+I think scenes using the dynamic field of many, in database scrawl's, such as registering in datastore crawl settings. How to register dynamic fields in database scrawl by placing the script other_t = hoge hoge column data into Solr other_t field.
+You need to add a field to use to retrieve data that is stored in the dynamic field next to the webapps/fess/WEB-INF/classes/app.dicon. Add the other_t.
+You must add a field to use to retrieve data that is stored in the dynamic field from Solr. Add the other_t.
+Edit the JSP file has made returns from Solr in the above settings, so to display on the page. Login to the manage screen, displays the design. Display of search results the search results displayed on the page (the content), so edit the JSP file. where you want to display the other_t value in $ {f:h(doc.other_t)} and you can display the value registered in.
+This page is generated by Machine Translation from Japanese.
+Solr server group in the Fess, managing multiple groups. Change the status of servers and groups if the server and group information that keeps a Fess, inaccessible to the Solr server.
+SOLR server state information can change in system setting. maxErrorCount, maxRetryStatusCheckCount, maxRetryUpdateQueryCount and minActiveServer can be defined in the webapps/fess/WEB-INF/classes/solrlib.dicon.
+This page is generated by Machine Translation from Japanese.
+ +You must isolate the document in order to register as the index when creating indexes for the search. Tokenizer is used for this.
+Basically, carved by the tokenizer units smaller than go find no hits. For example, statements of living in Tokyo, Japan. Was split by the tokenizer now, this statement is in Tokyo, living and so on. In this case, in Tokyo, Word search, you will get hit. However, when performing a search with the word 'Kyoto' will not be hit. For selection of the tokenizer is important.
+You can change the tokenizer by setting the schema.xml analyzer part is if the Fess in the default StandardTokenizer CJKBigramFilter used.
+ +StandardTokenizer CJKBigramFilter index bi-gram, in other words two characters to like Japan Japanese multibyte string creates. In this case, can't find one letter words.
+StandardTokenizer creates index uni-gram, in other words one by one for the Japan language of multibyte-character strings. Therefore, the less search leakage. Also, with StandardTokenizer can't CJKTokenizer the search query letter to search to. However, please note that the index size increases.
+The following example to change the analyzer part like solr/core1/conf/schema.xml, you can use the StandardTokenizer.
+Also, useBigram is enabled by default in the webapps/fess/WEB-INF/classes/app.dicon change to false.
+After the restart the Fess.
+This page is generated by Machine Translation from Japanese.
++ It is possible to crawl using the Apache POI Fess environmental standard in MS Office system document. + You can crawl Office system document regarding LibreOffice, OpenOffice, do even more accurate text extraction from documents.
+JodConverter Fess server install. from http://jodconverter.googlecode.com/jodconverter-core-3.0-Beta-4-Dist.zipThe download. Expand and copy the jar file to Fess server.
+Create a s2robot_extractor.dicon to the next.
+s2robot_extractor.dicon effective jodExtractor with following contents.
+Index to generate the settings later, usually crawled into the street.
+This page is generated by Machine Translation from Japanese.
+You can register the Fess as a Windows service in a Windows environment. How to register a service is similar to the Tomcat.
+Because if you registered as a Windows service, the crawling process is going to see Windows system environment variablesIs Java JAVA_HOME environment variables for the system to register, As well as Add %JAVA_HOME%\bin to PathYou must.
+to edit the webapps \fess\WEB-INF\classes\fess.dicon, remove the-server option.
+First, after installing the Fess from the command prompt service.bat performs (such as Vista to launch as administrator you must). Fess was installed on C:\Java\fess-server-9.3.0.
+By making the following you can review properties for Fess. To run the following, Tomcat Properties window appears.
+Control Panel - to display the management tool in administrative tools - services, you can set automatic start like normal Windows services.
+Distributed in the Fess is 64-bit binaries for Windows Tomcat builds based on. If you use 32-bit WindowsTomcat Of the site from, such as 32-bit Windows zip, please replace tomcat7.exe, tomcat7w.exe, tcnative-1.dll.
+This page is generated by Machine Translation from Japanese.
++This document is subject to users responsible for Fess installation and uninstallation tasks. +
++This document shows how to install Fess. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+This page is generated by Machine Translation from Japanese.
++Fess can be available in these environments. +
++If Java is not installed in the environment we want to Fess from http://java.sun.com/ get JDK for Java 7 and above, please install. +
++http://sourceforge.jp/projects/Fess/releases/ From the download the latest Fess package. +
++Expand the downloaded fess-server-x.y.zip. +If you installed in the UNIX environment, in the bin added the performing rights to a script.
++Administrator account is managed by the application server. Fess Server standard available Tomcat, as well as to the user changing the Tomcat. +Modify the password for the admin account of the conf/tomcat-user.xml if you want to change.
++see the Tomcat documentation or JAAS authentication specification to use Tomcat-user.XML file management method other than. +
++To access the Solr into Fess server is password becomes necessary. +Change the default passwords in production, etc.
++How to change the password, you must first change the password attribute of the conf/tomcat-user.xml solradmin. +
++Modifies the following three files webapps/fess/WEB-INF/classes/solrlib.dicon, fess_suggest.dicon and solr/core1/conf/solrconfig.xml. +Write what you specified in tomct-user.XML to the following password.
++modify the following areas of the solrlib.dicon. +
++fess_suggest.dicon is the following. +
++where the following is the solrconfig.Xml. +
++To manage can manage Solr from Fess server deployed on Tomcat context need a password. +Change the default passwords in production, etc.
++How to change password the change manager conf/tomcat-user.xml password attributes. +
+ ++Describes the provided password webapps/fess/WEB-INF/classes/app.dicon the following points tomcat-user.xml to the next. +
+ ++Login at return path settings, in the use encryption and decryption. +Please change the default password, especially in production.
++How to change the change the key value in the webapps/fess/WEB-INF/classes/app.dicon. +Set the 16-character alphanumeric.
+This page is generated by Machine Translation from Japanese.
++to run the startup script, start the Fess. +
+ ++access to / http://localhost:8080/Fess ensures startup. +
+ ++Management UI is / http://localhost:8080/fess/admin. +Default Administrator account user name / password is admin/admin. +Administrator account is managed by the application server. +In the management UI of the Fess, authenticate with the application server in fess role available as an administrator.
++Fess to stop the running shutdown scripts. +
+ ++Crawl or may take a while to completely stop during the index creation if you. +
+This page is generated by Machine Translation from Japanese.
++You can uninstall by deleting the installation stops after the Fess fess-server-x.y directory. +
+This page is generated by Machine Translation from Japanese.
++This document is targeted to users to Fess. +
++This document demonstrates how to search in the Fess. +Basic knowledge of computer operation becomes necessary.
++Download, professional services, support, and other developer information, visit the following. +
++Technical questions about our products, don't produce the document in solution, visit the following. +
++If you need commercial support, maintenance and technical support for this productN2SM, Inc....To consult. +
++About the effectiveness of the Web site's third party in the Fess project, described in this document has no responsibility. +The Fess project through any such site or resource available content, advertising, products, services, and other documents regarding assumes no responsibility, obligations, guarantees. +For the Fess project through such sites or resources and use of available content, advertising, products, services, and other documents, or or credit, related to it caused or alleged, any injury or damage assumes no responsibility or obligation.
++Fess project is committed to the improvement of this document, and welcomes comments from readers, such as proposed. +
+This page is generated by Machine Translation from Japanese.
+Outputs a JSON results of Fess. You must in order to emit JSON enabled keep JSON response in the General Management screen crawl settings.
+To get JSON output http://localhost:8080/Fess/JSON? query = search terms
Of these sends a request. Request parameters are as follows.
query | +Search language. Pass the URL encoding. | +
---|---|
Start | +The number of where to start. Starts at 0. | +
NUM | +The number of display. The default is 20. You can display up to 100. | +
fields.label | +The label value. Use to specify the label. | +
callback | +If you use the JSONP callback name. You do not need to specify if you do not use the JSONP. | +
Returns the following response.
+Each element is as follows.
+response | +The root element. | +
---|---|
version | +Format version. | +
status | +The status of the response. the status value is 0: normal, 1: search error, 2 or 3: request parameter error, 9: in service, 1: API type of error is. | +
query | +Search language. | +
execTime | +Response time. Unit is seconds. | +
pageSize | +The number of display. | +
pageNumber | +Page number. | +
recordCount | +Number of hits for the search term. | +
pageCount | +Page number of the number of hits for the search term. | +
result | +Parent element of the search results. | +
site | +The name of the site. | +
contentDescription | +A description of the content. | +
host | +The name of the host. | +
lastModified | +Last update date. | +
cache | +The contents of the content. | +
score | +Score values of the document. | +
Digest | +Digest a string of documents. | +
created | +Document creation date. | +
URL | +The URL of the document. | +
ID | +The ID of the document. | +
mimetype | +The MIME type. | +
title | +The title of the document. | +
contentTitle | +The title of the document for viewing. | +
contentLength | +The size of the document. | +
urlLink | +The URL as the search results. | +
This page is generated by Machine Translation from Japanese.
+You can use the additional parameters if the search string is shown on the screen without the specific search criteria like persuasion. additional value is retained but in the paging screen additional value.
+Without the conditions show screen and run a search when searches are performed by appending additional values in hidden forms, such as (for example, a search form) in the paging screen transitions and also the condition holds.
+This page is generated by Machine Translation from Japanese.
+Use the search if you want to search for documents that contain all search words of more than one. When describing multiple words in the search box separated by spaces, AND skip AND search.
+If you use the search search words written AND. Write in capital letters AND the space required to back and forth. AND is possible can be omitted.
+For example, if you want to find documents that contain the search terms 1 and 2 search terms, type the following search form.
+Connecting multiple words with AND are available.
+This page is generated by Machine Translation from Japanese.
+Use the boost search if you want to prioritize, search for specific search terms. Enabling search in boost search, depending on the severity of the search words.
+To boost search after the search term ' ^ boost value "that specifies the boost value (weighted) in the format.
+For example, if you want to find the page if you want to find apples oranges contained more 'apples', type the following search form.
+Boost value specifies an integer greater than 1.
+This page is generated by Machine Translation from Japanese.
+You crawl in Fess results are saved for each field, such as title and full text. You can search for a field of them. You can specify the search criteria in search for a field, such as document type or size small.
+You can search for a the following fields by default.
+Field name | +Description | +
---|---|
URL | +The crawl URL | +
host | +Were included in the crawl URL host name | +
site | +Site name was included in the crawl URL | +
title | +Title | +
content | +Text | +
contentLength | +You crawl the content size | +
lastModified | +Last update of the content you want to crawl | +
mimetype | +The MIME type of the content | +
If you do not specify the fields subject to find the content. Fields are custom fields are also available by using the dynamic field of Solr.
+If HTML file and search for the title tag that string in the title field, below the body tag registered in the body field.
+If a field specifying the search field name: search words in separated by colons (:) field name and search word fill in the search form, the search.
+If you search the Fess as a search term for the title field, type.
+Document, the title field in Fess above search appears as a search result.
+This page is generated by Machine Translation from Japanese.
+Ambiguity in the case does not match the words word search to search is available. Based on the Levenshtein distance in Fess ambiguous corresponds to the search (fuzzy search).
+After the search word you want to apply the fuzzy search adds '~'.
+For example, ambiguous word "Solr", you can find documents that contain the word, near the "Solr" If you want to find, type as the search form, such as ("Solar"). +
+Furthermore, if by '~' after the number 0 and 1, 1 just like in refine. For example, in the form of 'Solr~0.8'. Do not specify numeric default value is 0.5.
+This page is generated by Machine Translation from Japanese.
+Search using location information when you search, adding latitude and longitude location information for each document when generating the index becomes possible.
+Following parameters is available in the standard.
+GEO.latitude | +Latitude degrees minutes seconds specifies double. | +
---|---|
GEO.longitude | +Longitude degrees minutes seconds specifies double. | +
GEO.distance | +Specifies the distance between documents in units of the coast. Specified in the double type. | +
This page is generated by Machine Translation from Japanese.
+Narrow your search by adding the categories to search the document for label information the label is specified when the search is possible. Label information by registering in the Administration screen, will enable search by labels in the search screen. Label information available can multiple selections in the drop-down when you search. If you do not register the label displayed the label drop-down box.
+You can select the label information at search time. Label information can be selected in the search options dialog by pressing the options button will appear.
+You can search each document to create an index, set the label to the label. All results search search do not specify a label is usually the same. If you change the label information to update the index.
+This page is generated by Machine Translation from Japanese.
+If the document does not contain a word search NOT searching is available.
+Locate the NOT search as NOT in front of the Word does not contain. Is NOT in uppercase characters ago and need space.
+For example, enter the following if you want to find documents that contain the search term 1 does not contain a search term 2 and the search.
+This page is generated by Machine Translation from Japanese.
+You can pass any search criteria from third-party search engines move and easy to like. Pass search criteria Please implement processing in QueryHelperImpl #buildOptionQuery.
+Following parameters is available in the standard.
+options.q | +This is similar to the normal query. You can specify multiple options.q. If you specify multiple is treated as a search. Pass the URL encoding. | +
---|---|
options.CQ | +Treated as exact match search queries. For example, if you specify the Fess Project searches as "Fess Project". Pass the URL encoding. | +
options.OQ | +Is treated as an OR search. For example, if you specify the Fess Project search as a Fess OR Project. Pass the URL encoding. | +
options.NQ | +Treated as NOT search. For example, if you specify 'Fess' search as NOT Fess. Pass the URL encoding. | +
This page is generated by Machine Translation from Japanese.
+If you want to find documents that contain any of the search terms OR search use. When describing the multiple words in the search box, by default will search.
+To use search OR search words written OR. OR write in capital letters, the space required to back and forth.
+For example, if you want to search for documents that contain either search term 2 search term 1 and type the following search form.
+OR between multiple languages are available.
+This page is generated by Machine Translation from Japanese.
+If in the field containing the data in specified range, such as the number range search is possible for that field.
+To limit "field name: value TO value ' fill in the search form.
+For example, type to search document contentLength field against 1 k to 10 k bytes is shown below the search form.
+To time range specified search ' lastModified: [date 1 TO date 2] "(Re 1 [Re 2) fill out the search form.
+ISO 8601 with respect to re.
+Date and time-resolved second and fractional part | +If the current relative to the date | +
YYYY-MM-DDThh:mm:ss.sZ( example :2013-08-02T10:45:23.5Z) | +NOW (the current date), YEAR (this year), MONTH (month), DAY (today) | +
To relative to the current date and time NOW and DAY-(Adder, and production) and can sign and (round) like.
+And a symbol for round / behind unit. Even if now-1DAY/day does today what time today 00: represents the day from 00 -1, the 00: 00.
+For example, if you search for lastModified field from 2/21/2012 20: (current to date) 30 days prior to the updated document, type the following search form.
+This page is generated by Machine Translation from Japanese.
+To sort the search results by specifying the fields such as search time.
+You can sort the following fields by default.
+Field name | +Description | +
---|---|
Tstamp | +On the crawl | +
contentLength | +You crawl the content size | +
lastModified | +Last update of the content you want to crawl | +
Adding custom fields as sort in Customizing.
+You can select the sorting criteria when you search. Sorting criteria can be selected in the search options dialog by pressing the options button will appear.
+Also, for sorting in the search field sort: the field name to sort and field names separated by colon (:) fill out the search form, the search.
+In ascending order sort the content size as a search term, Fess is below.
+To sort in descending order as below.
+If you sort by multiple fields separated list, shown below.
+This page is generated by Machine Translation from Japanese.
+You can use one or multiple character wildcard search terms within. The can be specified as a one-character wildcard, * is specified as the multiple-character wildcard. Wildcards are not available in the first character. You can use wildcards for words. Wildcard search for the sentence.
+If you use one character wildcard shown below? The available.
+If the above is treated as a wildcard for one character, such as text or test.
+If you use the multiple character wildcard use * below
+If the above is treated as a wildcard for multiple characters, such as test, tests or tester. Also,
+The so can be also used in the search term.
+The wildcard string indexed using target. Therefore, because if the index has been created, such as bi-gram be treated meaning fixed string length in Japan Japanese wildcard in Japan, not expected behavior. Use in the field, if you use a wildcard in Japan, that used morphological analysis.
+This page is generated by Machine Translation from Japanese.
+To emit the XML results of Fess. You need to do this output in XML Management screen crawl settings XML response enabled by you.
+To get the output XML http://localhost:8080/Fess/XML? query = search terms
Of these sends a request. Request parameters are as follows.
query | +Search language. Pass the URL encoding. | +
---|---|
Start | +The number of where to start. Starts at 0. | +
NUM | +The number of display. The default is 20. You can display up to 100. | +
fields.label | +The label value. Use to specify the label. | +
Returns the following response.
+Each element is as follows.
+response | +The root element. | +
---|---|
version | +Format version. | +
status | +The status of the response. the status value is 0: normal, 1: search error, 2 or 3: request parameter error, 9: in service, 1: API type of error is. | +
query | +Search language. | +
exec-time | +Response time. Unit is seconds. | +
page-size | +The number of display. | +
page-number | +Page number. | +
record-count | +Number of hits for the search term. | +
page-count | +Page number of the number of hits for the search term. | +
result | +Parent element of the search results. | +
doc | +The elements of the search results. | +
site | +The name of the site. | +
content-description | +A description of the content. | +
host | +The name of the host. | +
last-modified | +Last update date. | +
cache | +The contents of the content. | +
score | +Score values of the document. | +
Digest | +Digest a string of documents. | +
created | +Document creation date. | +
URL | +The URL of the document. | +
ID | +The ID of the document. | +
mimetype | +The MIME type. | +
title | +The title of the document. | +
content-title | +The title of the document for viewing. | +
content-length | +The size of the document. | +
URL-link | +The URL as the search results. | +