자연어 처리(NLP)를 배포하는 방법: 시작하기
Elastic Stack 8.0이 출시되면서 PyTorch 머신 러닝 모델을 Elasticsearch로 업로드하는 기능이 도입되어 Elastic Stack에서 최신 자연어 처리(NLP)를 제공할 수 있게 되었습니다. NLP는 정보 추출, 텍스트 분류, 고밀도 벡터 및 근사 최근접 이웃 검색을 통해 더 정확한 검색을 제공할 수 있도록 지원합니다.
여러 파트로 구성된 이 블로그 시리즈에서는 다양한 PyTorch NLP 모델을 사용하여 여러 예제를 포괄적으로 살펴봅니다.
파트 1: 텍스트 임베딩 및 벡터 검색을 배포하는 방법
파트 2: 명명된 엔티티 인식(NER)
파트 3: 정서 분석
각 예에서는 Hugging Face 모델 허브의 사전 구축된 NLP 모델을 사용합니다. 그런 다음 NLP 모델 배포 및 수집 파이프라인에 NLP 추론 추가에 대한 Elastic의 문서화된 지침을 따릅니다. 정의된 사용 사례를 사용하고 모델에서 처리할 텍스트 데이터를 이해하는 것에서부터 시작하는 것은 언제나 좋은 방법이므로, NLP를 사용하는 목표와 누구나 사용해 볼 수 있는 공유 데이터 세트를 정의하는 것으로 시작해 보겠습니다.
NLP 예제를 준비하려면 버전 8.0 이상을 실행하는 Elasticsearch 클러스터와 최소 2GB 이상의 RAM이 있는 ML 노드가 필요하며, 명명된 엔티티 인식(NER) 예제에는 필요한 mapper-annotated-text 플러그인을 사용하겠습니다. 시작하는 가장 쉬운 방법 중 하나는 Elastic Cloud의 14일 무료 체험판 클러스터를 사용하여 이러한 NLP 예제를 따라 해보는 것입니다. Cloud 체험판은 최대 2개의 2GB ML 노드로 확장할 수 있으므로 여러 파트로 구성된 이 블로그 시리즈에서 한 번에 하나 또는 두 개의 예제를 배포할 수 있습니다.