Elastic Open Web-Crawler

Intelligentes, intuitives Indexierungs-Tool

Der schnellste Weg, Webinhalte in Elasticsearch serverlos, in der Cloud oder On-Prem zu indizieren

Kostenlosen Test starten

Jetzt herunterladen

Beginnen Sie jetzt mit dem Crawling!

Richten Sie einen Crawler für Ihre Webinhalte mit einem Terminal und Elasticsearch ein und stellen Sie ihn bereit.

GitHub anzeigen

Docker-Image ausführen
Stellen Sie den Webcrawler-Code auf Ihrer eigenen Infrastruktur bereit, indem Sie ihn von Source oder Docker ausführen.
Einrichtung
URL für den Crawl festlegen
Legen Sie eine oder mehrere URLs fest, die Sie crawlen möchten.
Konfigurieren und verbinden
Konfigurieren Sie Ihren Crawler und verbinden Sie ihn mit Elasticsearch.
Konfigurieren

Elasticsearch – die am weitesten verbreitete Vektordatenbank

Kopieren Sie, um es in zwei Minuten lokal auszuprobieren

curl -fsSL https://elastic.co/start-local | sh

Dokumentation lesen

ODER

Für die Produktion bereitstellen

Kostenlose Cloud-Testversion starten

oder, On-Prem herunterladen

Übernehmen Sie die Kontrolle mit offenem Code

Passen Sie den Elastic Open Web-Crawler (Open Crawler) an Ihre Bedürfnisse an. Prüfen Sie Ihr Projekt, ändern Sie es und tragen Sie dazu bei, während Sie große Dokumente bearbeiten, Transformationen durchführen und Daten in Ihrem gewünschten Format abrufen.

Mehr über Open Crawler erfahren

Flexibel und schnell: Der Vorteil von Open Crawler

Profitieren Sie von einer uneingeschränkten Indexbenennung und der Möglichkeit, vor dem Crawlen individuelle Mappings zu verwenden. Steigern Sie die Leistung, indem Sie die Ergebnisse des Crawlings in großen Mengen in Elasticsearch indizieren, anstatt jeweils nur eine Webseite auf einmal.

Lernen Sie mehr über die Entwicklung mit Open Crawler

Verwalten Sie Deployments mühelos

Verwalten Sie Ihren Open Web-Crawler programmatisch mit einfachen CLI-Befehlen. Skalieren Sie Deployments einfach mit Terraform oder Puppet – und fahren Sie sie nach Bedarf hoch oder herunter. Beseitigen Sie unnötige Abhängigkeiten für eine vereinfachte Verwaltung. Setzen Sie ihn überall ein, auch in serverlosen Umgebungen, und verbinden Sie ihn mühelos mit kleinen, einfachen Werkzeugen.

Unkompliziert
Offener Code
Arbeiten Sie mit einer vollständig transparenten und modifizierbaren Codebasis auf GitHub.
ANPASSBAR
Crawlen Sie zu Ihren Bedingungen
Werden Sie präzise mit xPath-Selektoren und CSS-Selektoren, um genau zu verfeinern, was Sie von Ihren Seiten benötigen.
GRÜNDLICH
Extrahieren Sie alle Daten – einschließlich PDFs
Durch die binäre Inhaltsextraktion können alle erforderlichen Datentypen extrahiert, integriert und in durchsuchbare Inhalte umgewandelt werden.
DURCHSUCHBAR
Semantische Suche durchführen
Einfache Integration für hybride, dialogorientierte Suchvorgänge.

Elastic Open Web-Crawler

Intelligentes, intuitives Indexierungs-Tool

Beginnen Sie jetzt mit dem Crawling!

Docker-Image ausführen

URL für den Crawl festlegen

Konfigurieren und verbinden

Elasticsearch – die am weitesten verbreitete Vektordatenbank

Kopieren Sie, um es in zwei Minuten lokal auszuprobieren

Für die Produktion bereitstellen

Übernehmen Sie die Kontrolle mit offenem Code

Flexibel und schnell: Der Vorteil von Open Crawler

Verwalten Sie Deployments mühelos

Unkompliziert

Offener Code

ANPASSBAR

Crawlen Sie zu Ihren Bedingungen

GRÜNDLICH

Extrahieren Sie alle Daten – einschließlich PDFs

DURCHSUCHBAR

Semantische Suche durchführen