ElasticオープンWebクローラー

インテリジェント&直感的なインデックスツール

サーバーレス、クラウド、またはオンプレミスでウェブコンテンツをElasticsearchにインデックスする最速の方法

Video thumbnail

今すぐクロールを開始してください!

ターミナルとElasticsearchを使用して、ウェブコンテンツ用のクローラーをセットアップしてデプロイします。

  • Dockerイメージを実行

    SourceまたはDockerから実行して、ウェブクローラーコードを独自のインフラストラクチャーにデプロイしましょう。

  • クロールのURLを設定

    クロールするURLを1つ以上設定します。

  • 構成して接続

    クローラーを構成してElasticsearchに接続。

Elasticsearch — 最も広く導入されているベクトル検索

コピーして2分でローカルで試す

curl -fsSL https://elastic.co/start-local | sh
ドキュメントを読む
または

オープンコードで制御する

Elastic Open Web Crawler(オープンクローラー)をニーズに合わせてカスタマイズしましょう。プロジェクトを検査、修正、寄与するとともに、大量のドキュメントを処理し、変換を実行し、希望する形式でデータを取得します。

柔軟で高速: Open Crawlerの利点

制限なくインデックスに名前を付け、クロール前にカスタムマッピングを使用する機能を享受できます。クロール結果を1ページずつではなく、一括インデックスしてパフォーマンスを向上させます。

導入を簡単に管理

シンプルなCLIコマンドを使用して、Open Web Crawlerをプログラムで管理します。TerraformまたはPuppetを使用して導入を簡単にスケールし、必要に応じてスピンアップまたはスピンダウンします。不要な依存関係を排除し、管理を簡素化できます。サーバーレス環境を含むあらゆる場所にデプロイし、小型でシンプルなツールを使って簡単に接続できます。

  • シンプル

    オープンソースコード

    GitHubで完全に透明で変更可能なコードベースで作業しましょう。

  • カスタマイズ可能

    自身の条件でクロール

    xPathセレクターとCSSセレクターで精度を向上し、ページから必要なものを正確に絞り込みましょう。

  • 徹底的に

    PDFを含む、すべてのデータを抽出

    バイナリコンテンツ抽出を通じて、必要なすべてのデータタイプを抽出し、取り込み、検索可能なコンテンツに変換できます。

  • 検索可能

    セマンティック検索を実行

    簡単に統合して、ハイブリッドで会話型の検索体験を強化します。