Elastic Open Web-Crawler

Intelligentes, intuitives Indexierungs-Tool

Der schnellste Weg, Webinhalte in Elasticsearch serverlos, in der Cloud oder On-Prem zu indizieren

Video thumbnail

Beginnen Sie jetzt mit dem Crawling!

Richten Sie einen Crawler für Ihre Webinhalte mit einem Terminal und Elasticsearch ein und stellen Sie ihn bereit.

  • Docker-Image ausführen

    Stellen Sie den Webcrawler-Code auf Ihrer eigenen Infrastruktur bereit, indem Sie ihn von Source oder Docker ausführen.

  • URL für den Crawl festlegen

    Legen Sie eine oder mehrere URLs fest, die Sie crawlen möchten.

  • Konfigurieren und verbinden

    Konfigurieren Sie Ihren Crawler und verbinden Sie ihn mit Elasticsearch.

Elasticsearch – die am weitesten verbreitete Vektordatenbank

Kopieren Sie, um es in zwei Minuten lokal auszuprobieren

curl -fsSL https://elastic.co/start-local | sh
Dokumentation lesen
ODER

Für die Produktion bereitstellen

Kostenlose Cloud-Testversion starten

oder, On-Prem herunterladen

Übernehmen Sie die Kontrolle mit offenem Code

Passen Sie den Elastic Open Web-Crawler (Open Crawler) an Ihre Bedürfnisse an. Prüfen Sie Ihr Projekt, ändern Sie es und tragen Sie dazu bei, während Sie große Dokumente bearbeiten, Transformationen durchführen und Daten in Ihrem gewünschten Format abrufen.

Flexibel und schnell: Der Vorteil von Open Crawler

Profitieren Sie von einer uneingeschränkten Indexbenennung und der Möglichkeit, vor dem Crawlen individuelle Mappings zu verwenden. Steigern Sie die Leistung, indem Sie die Ergebnisse des Crawlings in großen Mengen in Elasticsearch indizieren, anstatt jeweils nur eine Webseite auf einmal.

Verwalten Sie Deployments mühelos

Verwalten Sie Ihren Open Web-Crawler programmatisch mit einfachen CLI-Befehlen. Skalieren Sie Deployments einfach mit Terraform oder Puppet – und fahren Sie sie nach Bedarf hoch oder herunter. Beseitigen Sie unnötige Abhängigkeiten für eine vereinfachte Verwaltung. Setzen Sie ihn überall ein, auch in serverlosen Umgebungen, und verbinden Sie ihn mühelos mit kleinen, einfachen Werkzeugen.

  • Unkompliziert

    Offener Code

    Arbeiten Sie mit einer vollständig transparenten und modifizierbaren Codebasis auf GitHub.

  • ANPASSBAR

    Crawlen Sie zu Ihren Bedingungen

    Werden Sie präzise mit xPath-Selektoren und CSS-Selektoren, um genau zu verfeinern, was Sie von Ihren Seiten benötigen.

  • GRÜNDLICH

    Extrahieren Sie alle Daten – einschließlich PDFs

    Durch die binäre Inhaltsextraktion können alle erforderlichen Datentypen extrahiert, integriert und in durchsuchbare Inhalte umgewandelt werden.

  • DURCHSUCHBAR

    Semantische Suche durchführen

    Einfache Integration für hybride, dialogorientierte Suchvorgänge.