LLM 선택: 2024년 오픈 소스 LLM 시작 안내서
2023년에 AI가 도약했다고 말하는 것은 너무나 약한 표현입니다. 수천 개의 새로운 AI 도구가 출시되었고, 기존 앱에 AI 기능이 추가되었으며, 할리우드는 기술에 대한 우려로 비명을 지르며 중단되었습니다. 여러분이 프레디 머큐리처럼 노래를 얼마나 잘하는지 평가하는 AI 도구도 있습니다. 당연히 있으니까요!
그러나 모든 AI 도구나 기능 뒤에는 모든 어려운 작업을 수행하는 대규모 언어 모델(LLM)이 있으며 그 중 대부분은 오픈 소스입니다. LLM은 언어를 이해하고 생성하기 위해 엄청난 양의 데이터를 소비할 수 있는 딥 러닝 알고리즘입니다. 콘텐츠 생성, 번역, 분류 및 기타 다양한 사용 사례와 같은 다양한 자연어 처리(NLP) 작업을 수행하도록 훈련할 수 있는 신경망 아키텍처를 기반으로 구축되었습니다. 이는 오픈 소스 LLM의 가용성과 결합되어 고객 지원 챗봇 개발, 사기 탐지, 백신 개발과 같은 R&D 지원과 같은 주요 비즈니스 작업은 물론 여러 산업에 걸친 다양한 기타 사용 사례를 훨씬 쉽게 자동화할 수 있습니다. LLM은 또한 데이터 처리 및 분석 방법을 확장하여 클라우드 보안, 검색, Observability를 향상시키는 데 중요한 역할을 할 수 있습니다.
다른 신기술과 마찬가지로 LLM 사용에도 고려하고 해결해야 할 과제가 있습니다. 출력의 품질은 전적으로 제공된 데이터의 품질에 따라 달라집니다. 많은 LLM은 대규모 공개 데이터 저장소에 대해 교육을 받았으며 영역별 데이터에 대한 교육을 받지 않은 경우 "환각"을 느끼거나 부정확한 응답을 제공하는 경향이 있습니다. 또한 개인정보 및 사용자 생성 콘텐츠의 수집, 저장, 보유와 관련하여 개인정보 보호 및 저작권 문제가 있습니다.
대규모 언어 모델이란 무엇인가요? 페이지에서 LLM에 대해 자세히 알아보세요.
오픈 소스 LLM이란 무엇인가?
오픈 소스 LLM은 무료로 제공되며 누구나 수정하고 맞춤 설정할 수 있는 LLM입니다.
오픈 소스 LLM을 사용하면 모든 개인이나 기업이 라이선스 비용을 지불하지 않고도 원하는 대로 LLM을 사용할 수 있습니다. 여기에는 LLM을 자체 인프라에 배포하고 필요에 맞게 미세 조정하는 작업이 포함됩니다.
이는 대중이 이용할 수 없는 단일 개인 또는 조직이 소유한 독점 모델인 비공개 소스 LLM과 반대되는 것입니다. 이에 대한 가장 유명한 예는 OpenAI의 GPT 모델 시리즈입니다.
최고의 LLM 사용 사례
LLM의 잠재적인 사용 사례는 무궁무진하지만 LLM이 할 수 있는 다양한 작업을 보여주는 몇 가지 주요 기능은 다음과 같습니다.
정서 분석: LLM은 피드백, 소셜 미디어 등에서 수집된 주관적인 의견을 식별하고 분류하는 데 사용할 수 있습니다.
콘텐츠 제작: 몇몇 LLM은 기사, 마케팅 카피, 제품 설명과 같이 상황에 맞는 콘텐츠를 생성할 수 있습니다.
챗봇: LLM을 미세 조정하여 챗봇 지원으로 사용하거나 고객과 소통할 수 있습니다.
번역: 다국어 텍스트 데이터를 사용하면 LLM을 사용하여 인간 언어를 번역하여 의사소통을 지원할 수 있습니다.
- 연구: LLM은 엄청난 양의 데이터를 소비 및 처리하고 가장 정확도가 높은 정보를 반환할 수 있어 연구 작업의 부담을 덜어줍니다.
2024년 인기 오픈 소스 LLM
회사나 프로젝트에 맞는 오픈 소스 LLM을 더 쉽게 선택할 수 있도록 가장 흥미로운 오픈 소스 LLM 8개를 요약했습니다. 이 목록은 활발한 AI 커뮤니티와 머신 러닝 리포지토리인 Hugging Face의 인기도 신호를 기반으로 작성되었습니다.
1. GPT-NeoX-20B
EleutherAI에서 개발한 GPT-NeoX-20B는 구조적으로 GPT-3과 유사하도록 설계된 자동 회귀 언어 모델입니다. The Eye에서 호스팅하는 800GB 오픈 소스 데이터 세트인 The Pile의 데이터와 함께 GPT-NeoX 라이브러리를 사용하여 학습되었습니다.
GPT-NeoX-20B는 주로 연구 목적으로 개발되었으며 사용하고 맞춤 설정할 수 있는 200억 개의 매개변수가 있습니다.
적합한 대상
GPT-NeoX-20B는 마케팅 대행사, 미디어 회사 등 고급 콘텐츠 생성이 필요한 중소기업에 이상적입니다. 이들 회사는 대규모 LLM을 운영하는 데 필요한 숙련된 인력과 컴퓨팅 능력을 모두 보유해야 합니다.
적합하지 않은 대상
이 LLM은 계산 요구 사항을 관리할 재정적, 기술적 자원이 없는 소규모 기업이나 개인에게는 적합하지 않습니다.
사용의 복잡성
그대로 배포하기 위한 것이 아니기 때문에 특정 작업과 요구 사항에 맞게 GPT-NeoX-20B를 배포하고 미세 조정하려면 기술 전문 지식이 필요합니다.
2. GPT-J-6b
또한 EleutherAI에서 개발한 GPT-J-6b는 프롬프트에서 인간과 유사한 텍스트를 생성하도록 설계된 사전 학습된 생성형 트랜스포머 모델입니다. GPT-J 모델을 사용하여 구축되었으며 훈련 가능한 매개변수가 60억 개입니다(이 ‘60억’이라는 것에 따라 이름이 붙여졌습니다).
영어 전용 데이터 세트로 학습되었기 때문에 영어가 아닌 언어로 번역하거나 텍스트를 생성하는 데 적합하지 않습니다.
적합한 대상
사용하기 쉽고 크기가 상대적으로 작은 GPT-J-6b는 성능과 리소스 소비 간의 균형을 원하는 스타트업 및 중소 기업에 적합합니다.
적합하지 않은 대상
이 LLM은 고급 모델 성능과 맞춤 설정이 필요한 기업에게는 최선의 선택이 아닐 수도 있습니다. 또한 다국어 지원이 필요한 회사에는 적합하지 않습니다.
사용의 복잡성
GPT-J-6b는 지원 커뮤니티의 이점을 활용하여 중간 수준의 기술 노하우를 갖춘 기업이 액세스할 수 있는 중간 수준의 사용자 친화적인 LLM입니다.
3. Llama 2
Google 및 OpenAI의 인기 있는 LLM에 대한 Meta의 대응책인 Llama 2는 공개적으로 사용 가능한 온라인 데이터 소스를 통해 교육되었으며 AI 기반 경험을 만들도록 설계되었습니다. 특정 작업에 맞게 미세 조정할 수 있으며 연구 및 상업적 용도로는 완전 무료입니다.
LLaMA에 대한 Meta의 작업을 기반으로 구축된 Llama 2는 70억, 130억, 700억 개 매개변수 등 세 가지 모델 크기로 제공되므로 동적이며 확장 가능한 옵션이 됩니다.
적합한 대상
모델 크기 옵션으로 인해 Llama 2는 광범위한 언어 모델을 활용하려는 연구원 및 교육 개발자에게 훌륭한 옵션입니다. 일반 소비자용 컴퓨터에서도 실행할 수 있으므로 취미로 즐기는 사람들에게 좋은 옵션입니다.
적합하지 않은 대상
Llama 2는 고도로 전문화된 작업을 위한 것이 아니기 때문에 위험도가 높거나 틈새 응용 분야에 적합하지 않으며 출력의 신뢰성에 대한 우려가 있습니다.
사용의 복잡성
교육 응용 분야에 초점을 맞춘 상대적으로 사용하기 쉬운 LLM이지만 최적의 결과를 얻으려면 맞춤 설정이 필요할 가능성이 높습니다.
4. BLOOM
BLOOM은 1,760억 개의 대규모매개변수를 자랑하는 디코더 전용 트랜스포머 언어 모델입니다. 이는 프롬프트에서 텍스트를 생성하도록 설계되었으며 텍스트 생성, 요약, 임베딩, 분류 및 의미 검색과 같은 특정 작업을 수행하도록 미세 조정할 수 있습니다.
46개 언어로 된 수백 개의 소스로 구성된 데이터 세트에 대해 학습되었으므로 언어 번역 및 다국어 출력을 위한 훌륭한 옵션이기도 합니다.
적합한 대상
BLOOM은 다국어 지원이 필요한 전 세계 고객을 대상으로 하는 대규모 기업에 적합합니다. 모델의 규모로 인해 기업에서는 모델을 실행하기 위한 충분한 리소스가 필요합니다.
적합하지 않은 대상
영어권 시장에서만 사업을 운영하는 회사는 다국어 기능이 불필요하다고 생각할 수 있습니다. 특히 대규모 모델을 맞춤 설정하고 교육하는 데 필요한 상당한 리소스를 고려할 때 더욱 그렇습니다.
사용의 복잡성
언어의 뉘앙스를 이해하고 다양한 언어적 맥락에서 배포해야 하는 BLOOM의 복잡성은 중간 정도에서 높은 정도까지입니다.
5. Falcon
Falcon은 BLOOM을 보고 “치이, 매개변수가 1,760억 개밖에 없지?”라고 말한 LLM입니다.
네, 사실 실제로 그렇게 말하지는 않았지만 오픈 소스 언어 모델은 70억, 400억, 1,800억이라는 세 가지 인상적인 크기로 제공됩니다.
Apache 라이선스 2.0에 따라 라이선스가 부여된 Falcon은 프롬프트에서 텍스트를 생성하도록 설계된 자동 회귀 LLM이며 고품질 RefinedWeb 데이터 세트를 기반으로 합니다.
적합한 대상
뛰어난 성능과 확장성으로 인해 Falcon은 웹사이트 및 마케팅 제작, 투자 분석, 사이버 보안과 같은 다국어 솔루션에 관심이 있는 대기업에 이상적입니다.
적합하지 않은 대상
70억 개의 옵션이 있지만 이는 여전히 콘텐츠 생성을 위한 간단한 플러그 앤 플레이 솔루션을 찾는 기업에 가장 적합하지 않습니다. 이러한 유형의 작업에는 모델을 맞춤 설정하고 교육하는 데 드는 비용이 여전히 너무 높습니다.
사용의 복잡성
가장 큰 모델의 엄청난 크기에도 불구하고 Falcon은 다른 LLM에 비해 상대적으로 사용하기 쉽습니다. 하지만 최상의 결과를 얻으려면 특정 작업의 미묘한 차이를 알아야 합니다.
6. CodeGen
Salesforce의 이 LLM은 텍스트 답변이나 콘텐츠를 출력하는 대신 컴퓨터 코드를 출력한다는 점에서 이 목록의 다른 LLM과 다릅니다. CodeGen은 '코드 생성(code generation)'의 약어이며 이것이 바로 그 역할을 합니다. 기존 코드나 자연어 프롬프트를 기반으로 코드를 출력하도록 학습되었습니다.
70억, 130억, 340억 개의 매개변수 크기로 제공되는 CodeGen은 소프트웨어 개발에 대한 간소화된 접근 방식을 만들기 위해 만들어졌습니다.
적합한 대상
CodeGen은 코딩 작업을 자동화하고 개발자 생산성을 향상시키려는 기술 회사 및 소프트웨어 개발팀을 위한 것입니다.
적합하지 않은 대상
여러분의 회사가 컴퓨터 코드를 작성하지 않거나 사용하지 않는다면 이 LLM은 여러분에게 적합하지 않습니다!
사용의 복잡성
CodeGen은 기존 개발 워크플로우에 통합하기가 복잡할 수 있으며 소프트웨어 엔지니어링에 대한 탄탄한 배경 지식이 필요합니다.
7. BERT
최초의 최신 LLM 중 하나인 BERT는 Google이 2018년에 만든 인코더 전용 트랜스포머 아키텍처입니다. 인간의 언어를 이해하고, 생성하고, 조작하도록 설계되었습니다.
BERT는 Google 검색에서 검색어 이해를 향상시키기 위해 자체적으로 사용되었으며 텍스트 생성, 질문 답변, 정서 분석과 같은 다른 작업에도 효과적이었습니다.
적합한 대상
Google 자체 검색의 핵심 부분이라는 점을 고려할 때 BERT는 검색 엔진에 맞게 사이트와 콘텐츠를 최적화하고 콘텐츠 관련성을 향상시키려는 SEO 전문가 및 콘텐츠 제작자에게 가장 적합한 옵션입니다.
적합하지 않은 대상
SEO 외에, BERT는 더 크고 새로운 대안에 비해 중복되기 때문에 아마도 많은 상황에서 최선의 선택이 아닐 것입니다.
사용의 복잡성
BERT는 SEO 및 콘텐츠 최적화에 익숙한 사람들에게는 매우 간단하지만 Google의 최신 SEO 권장 사항 변경 사항을 따라가려면 세부 조정이 필요할 수 있습니다.
8. T5
T5(눈에 확 띄는 Text-to-Text Transfer Transformer의 약어)는 텍스트-텍스트 접근 변환을 사용하는 트랜스포머 기반 아키텍처입니다. NLP 문제를 입력과 출력이 항상 텍스트 스트링인 형식으로 변환하므로 T5를 번역, 질문 답변, 분류 등 다양한 작업에 활용할 수 있습니다. 매개변수 6천만 개에서 최대 110억 개에 이르는 5가지 크기로 제공됩니다.
적합한 대상
T5는 요약, 번역, 분류 등 다양한 텍스트 간 처리 작업을 위한 다목적 도구가 필요한 기업에 적합합니다.
적합하지 않은 대상
T5의 상대적인 유연성에도 불구하고 텍스트가 아닌 출력이 필요한 작업에는 적합하지 않습니다.
사용의 복잡성
T5는 일반적으로 다양한 사전 학습된 모델을 사용할 수 있어 다른 LLM에 비해 사용하기 쉬운 것으로 간주됩니다. 하지만 좀 더 틈새 시장이나 특정 작업에 적용하려면 여전히 어느 정도 전문 지식이 필요할 수 있습니다.
고지 사항: 모든 매개변수와 모델 크기는 게시 당시 정확하지만 이후 변경되었을 수 있습니다.
여러분의 비즈니스에 적합한 LLM 선택
어떤 오픈 소스 LLM을 사용할지 결정할 때 고려해야 할 몇 가지 주요 기준이 있습니다.
비용: 이러한 LLM은 오픈 소스이므로 모델 자체에 대한 비용을 지불할 필요가 없습니다. 하지만 호스팅, 교육, 리소스 등의 비용을 고려해야 합니다. LLM이 더 크고 복잡할수록 비용이 더 많이 들 가능성이 높습니다. 이는 LLM이 커지면 더 많은 데이터 저장 비용, 처리 능력, 더 큰 인프라 및 유지 관리 비용이 필요하기 때문입니다.
정확성: 옵션의 정확성을 평가하는 것은 필수적입니다. 다양한 LLM이 필요한 작업 유형을 얼마나 정확하게 수행할 수 있는지 비교해야 합니다. 예를 들어, 일부 모델은 특정 분야에 특화되어 있고 일부 모델은 미세 조정 또는 검색 증강 생성(RAG)을 통해 개선될 수 있습니다.
성과: LLM의 성과는 언어 유창성, 일관성, 맥락 이해 등으로 측정됩니다. LLM이 이러한 분야에 더 능숙할수록 더 나은 성과를 낼 수 있습니다. 이를 통해 사용자 경험과 작업 효율성이 향상되고 경쟁 우위를 확보할 수 있습니다.
데이터 보안: 데이터 보안은 또 다른 주요 고려 사항입니다. 민감한 데이터나 PII 데이터를 처리하는 경우 특히 중요합니다. 이는 문서 수준 보안을 사용하여 데이터에 대한 액세스를 제어하고 특정 데이터에 대한 보안 권한을 제한할 수 있으므로 RAG가 유용할 수 있는 또 다른 영역입니다.
작업별과 범용 비교: 보다 구체적인 사용 사례를 해결하는 LLM이 필요한지 아니면 더 광범위한 작업을 포괄하는 LLM이 필요한지 고려하세요. 일부 모델은 도메인 특정이므로 해당 도메인 내에서 하나를 선택하거나 더 넓은 범위의 모델을 찾을 때 주의해야 합니다.
학습 데이터 품질: 데이터의 품질이 좋지 않으면 결과도 좋지 않습니다. 각 LLM이 사용하는 데이터를 평가하고 신뢰할 수 있는 데이터를 선택하세요. 또한 RAG는 출력 품질을 직접적으로 향상시키기 위해 준비하고 미세 조정할 수 있는 맞춤 데이터를 사용할 수 있으므로 이 작업에도 도움이 됩니다.
기술: 고려해야 할 또 다른 큰 요소는 프로젝트 팀 내에서 보유하고 있는 기존 기술입니다. 데이터 과학, MLOps, NLP 등의 경험이 필수입니다. LLM이 복잡할수록 팀이 보유해야 할 기술의 심도가 더 깊어집니다. 이 분야에 더 제한이 있다면 더 간단한 LLM에 집중하거나 더 많은 전문 지식을 가져오는 것이 좋습니다.
이러한 기준을 사용하여 우리가 다룬 LLM 중 여러분의 고유한 상황에 가장 적합한 LLM을 결정할 수 있습니다.
가장 좋은 접근 방식은 시간을 들여 나열된 옵션을 살펴보고 문제 해결에 가장 도움이 될 수 있는 방법을 기준으로 옵션을 평가하는 것입니다. 이러한 모든 오픈 소스 LLM은 매우 강력하며 효과적으로 활용하면 혁신을 가져올 수 있습니다.
이 게시물에 설명된 기능의 릴리즈 및 시기는 Elastic의 단독 재량에 따릅니다. 현재 이용할 수 없는 기능은 정시에 또는 전혀 제공되지 않을 수도 있습니다.
이 블로그 포스팅에서, Elastic은 각 소유자가 소유하고 운영하는 서드파티 생성형 AI 도구를 사용했거나 참조했을 수 있습니다. Elastic은 서드파티 도구에 대한 어떠한 통제권도 없으며 당사는 그 내용, 작동 또는 사용에 대한 책임이나 법적 의무가 없고 이러한 도구의 사용으로 인해 발생할 수 있는 손실 또는 손상에 대해 책임을 지지 않습니다. 개인 정보, 민감한 정보 또는 기밀 정보와 함께 AI 도구를 사용할 때 주의하세요. 제출하신 모든 데이터는 AI 교육을 위해 또는 다른 목적으로 사용될 수 있습니다. 제공하시는 정보가 안전하게 유지되거나 기밀로 유지된다는 보장은 없습니다. 사용 전에 생성형 AI 도구의 개인 정보 보호 관행 및 사용 약관을 숙지하셔야 합니다.
Elastic, Elasticsearch, ESRE, Elasticsearch Relevance Engine 및 관련 마크는 미국 및 기타 국가에서 Elasticsearch N.V.의 상표, 로고 또는 등록 상표입니다. 기타 모든 회사 및 제품 이름은 해당 소유자의 상표, 로고 또는 등록 상표입니다.