자연어 처리(NLP)를 배포하는 방법: 시작하기

blog-thumb-community-discussion.png

Elastic Stack 8.0이 출시되면서 PyTorch 머신 러닝 모델을 Elasticsearch로 업로드하는 기능이 도입되어 Elastic Stack에서 최신 자연어 처리(NLP)를 제공할 수 있게 되었습니다. NLP는 정보 추출, 텍스트 분류, 고밀도 벡터 및 근사 최근접 이웃 검색을 통해 더 정확한 검색을 제공할 수 있도록 지원합니다.

여러 파트로 구성된 이 블로그 시리즈에서는 다양한 PyTorch NLP 모델을 사용하여 여러 예제를 포괄적으로 살펴봅니다.

파트 1: 텍스트 임베딩 및 벡터 검색을 배포하는 방법
파트 2: 명명된 엔티티 인식(NER)
파트 3: 정서 분석

각 예에서는 Hugging Face 모델 허브의 사전 구축된 NLP 모델을 사용합니다. 그런 다음 NLP 모델 배포수집 파이프라인에 NLP 추론 추가에 대한 Elastic의 문서화된 지침을 따릅니다.  정의된 사용 사례를 사용하고 모델에서 처리할 텍스트 데이터를 이해하는 것에서부터 시작하는 것은 언제나 좋은 방법이므로, NLP를 사용하는 목표와 누구나 사용해 볼 수 있는 공유 데이터 세트를 정의하는 것으로 시작해 보겠습니다.

NLP 예제를 준비하려면 버전 8.0 이상을 실행하는 Elasticsearch 클러스터와 최소 2GB 이상의 RAM이 있는 ML 노드가 필요하며, 명명된 엔티티 인식(NER) 예제에는 필요한 mapper-annotated-text 플러그인을 사용하겠습니다. 시작하는 가장 쉬운 방법 중 하나는 Elastic Cloud의 14일 무료 체험판 클러스터를 사용하여 이러한 NLP 예제를 따라 해보는 것입니다. Cloud 체험판은 최대 2개의 2GB ML 노드로 확장할 수 있으므로 여러 파트로 구성된 이 블로그 시리즈에서 한 번에 하나 또는 두 개의 예제를 배포할 수 있습니다.