SharePoint Searchのアーキテクチャ概要

SharePointの検索を簡単にまとめてみます。

  • コンテンツソース
    • コンテンツ(ファイル、Webページなど)を格納する場所
  • プロトコルハンドラ
    • コンテンツの保存場所をクロール(インデックスを作る)する為のツール
    • 例えば、Notesをクロールする為にNotesにアクセスする為のツール
    • MSが公開している拡張のプロトコルハンドラは
      • EMC Documentum
      • IBM FileNet
      • Lotus Notes
  • iFilter
    • Word等のファイルからキーワードを抽出する為のツールです。
    • iFilterをインストールする事で、新しいファイル形式から検索用インデックス情報を抽出できます。

SharePointと、プロトコルハンドラと、IFilterの関係を書くと下記の様になります。
下記の図では、
■”Notes”や”Documentum”にアクセスする為にプロトコルハンドラがあります。
■特定のファイルの種類からTextインデックスを抽出する為にiFilterがあります。
image

 
簡単に言うと、PDFファイルからインデックスを抽出するには、PDFのIFilterが必要で、
ファイルを置く場所が、Notesなら、Notes用のプロトコルハンドラが必要だという事です。