Rastreador da web aberto da Elastic

Uma ferramenta de indexação inteligente e intuitiva

A maneira mais rápida de indexar conteúdo da web no Elasticsearch em ambientes serverless, na nuvem ou no local

Video thumbnail

Comece a rastrear agora!

Configure e implante um rastreador para o seu conteúdo da web com um terminal e o Elasticsearch.

  • Execute a imagem Docker

    Implante o código do rastreador da Web na sua própria infraestrutura executando a partir do Source ou do Docker.

  • Defina o URL para o rastreamento

    Defina um ou mais URLs que você deseja rastrear.

  • Configure e conecte

    Configure seu rastreador e conecte-o ao Elasticsearch.

O Elasticsearch é o banco de dados vetorial mais amplamente implantado

Copie para testar localmente em dois minutos

```
curl -fsSL https://elastic.co/pt/start-local
``` | sh
Leia os documentos
OU

Assuma o controle com código aberto

Personalize o rastreador da web aberto da Elastic (rastreador aberto) para atender às suas necessidades. Inspecione, modifique e contribua para o seu projeto enquanto lida com documentos grandes, executa transformações e recupera dados no formato desejado.

Flexível e rápido: a vantagem do Open Crawler

Aproveite a nomeação de índices sem limitações e a possibilidade de usar mapeamentos personalizados antes do rastreamento. Melhore o desempenho indexando em massa os resultados do rastreamento no Elasticsearch, em vez de uma página da web por vez.

Gerencie implantações com facilidade

Gerencie seu rastreador da web aberto programaticamente com comandos simples de CLI. Redimensione as implantações facilmente com o Terraform ou o Puppet — e crie ou desative conforme necessário. Elimine dependências desnecessárias para simplificar o gerenciamento. Implemente em qualquer lugar, incluindo ambientes serverless, e conecte-se facilmente com ferramentas pequenas e simples.

  • Simples

    Código aberto

    Trabalhe com uma base de código totalmente transparente e modificável no GitHub.

  • PERSONALIZÁVEL

    Rastreie do seu jeito

    Seja preciso com seletores XPath e seletores CSS para refinar exatamente o que você precisa nas suas páginas.

  • COMPLETO

    Extraia todos os dados — incluindo PDFs

    Através da extração de conteúdo binário, todos os tipos de dados necessários podem ser extraídos e transformados em conteúdo pesquisável.

  • PESQUISÁVEL

    Realizar busca semântica

    Realize integrações facilmente para melhorar experiências de busca híbridas e conversacionais.