정서 분석이란 무엇인가?
정의된 정서 분석
정서 분석은 디지털 텍스트의 정서적 톤을 식별하기 위해 NLP, 컴퓨터 언어학 및 머신 러닝을 적용합니다. 이를 통해 조직은 브랜드, 제품, 서비스 또는 아이디어에 대한 긍정적, 중립적 또는 부정적인 정서를 파악할 수 있습니다. 궁극적으로, 고객을 더 잘 이해할 수 있도록 함으로써 기업에 실행 가능한 인사이트를 제공합니다.
정서 분석의 예로, 스트리밍 플랫폼은 소셜 미디어 게시물의 텍스트 분석을 통해 시리즈가 얼마나 인기 있는지 확인할 수 있습니다. 이 경우, 정서 분석을 통해 대중이 콘텐츠에 대해 긍정적인지, 중립적인지, 부정적인지를 스트리머가 이해할 수 있습니다. 정서 분석 결과를 통해 플랫폼은 시리즈를 취소하거나 시리즈를 갱신하거나 다양한 캐스팅 및/또는 창의적인 고용 결정을 내릴 수 있는 실행 가능한 인사이트를 얻을 수 있습니다.
정서 분석과 자연어 처리(NLP) 비교
정서 분석은 자연어 처리의 하위 범주로, NLP가 수행하는 많은 작업 중 하나일 뿐입니다. 자연어 처리는 컴퓨터가 인간의 쓰여진 언어 또는 구어를 이해할 수 있는 능력을 제공합니다. NLP 작업에는 명명된 엔티티 인식, 질문 답변, 텍스트 요약, 언어 식별 및 자연어 생성이 포함됩니다.
정서 분석과 머신 러닝(ML) 비교
정서 분석은 머신 러닝을 사용하여 주어진 텍스트를 분석합니다. 머신 러닝은 교육 데이터를 제공받을 때 "학습"하는 알고리즘을 사용합니다. 머신 러닝을 사용함으로써 정서 분석은 분석하는 언어를 더 잘 해석하기 위해 끊임없이 진화하고 있습니다.
정서 분석과 인공 지능(AI) 비교
정서 분석은 인공 지능과 혼동해서는 안 됩니다. 인공 지능은 인간의 학습과 문제 해결 능력을 모방하는 기계의 능력을 더 폭넓게 의미합니다. 머신 러닝은 AI의 하위 집합이므로 머신 러닝 정서 분석도 AI의 하위 집합입니다. 세 가지가 모두 연결되어 있지만, 동일하지는 않습니다.
정서 분석과 데이터 마이닝 비교
정서 분석은 특히 분석을 위해 텍스트 데이터를 마이닝하는 데이터 마이닝의 한 형태입니다. 데이터 마이닝은 단순히 다양한 유형의 정보와 패턴을 발견하기 위해 대규모 데이터 세트를 추출하고 분석하는 프로세스를 말합니다.
정서 분석의 유형
정서 분석에는 규칙 기반 분석, 머신 러닝 분석 또는 하이브리드 분석 등 여러 가지 유형이 있습니다. 여기에는 다음이 포함됩니다.
- 세분화된 분석
- 측면 기반 분석
- 감정 감지
- 의도 기반 분석
세분화된 정서 분석 또는 등급화된 정서 분석을 통해 기업은 리뷰에서 고객 등급을 연구할 수 있습니다. 세분화된 분석은 또한 극성을 매우 긍정적, 긍정적, 중립적, 부정적 및 매우 부정적인 범주로 세분화합니다. 예를 들어, 1성급 리뷰는 매우 부정적이고, 3성급 리뷰는 중립적이며, 5성급 리뷰는 매우 긍정적인 것으로 간주됩니다.
측면 기반 정서 분석은 서비스 또는 제품의 단일 측면에 대한 정서에 초점을 맞춥니다. 예를 들어, 한 기술 회사에서 새로운 무선 헤드폰 세트를 출시합니다. 고려해야 할 몇 가지 측면은 연결성, 미적 디자인 및 음질일 수 있습니다. 요청된 분석 분류를 통해 기업은 측면 기반 정서 분석을 통해 고객이 제품 또는 서비스의 특정 부분에 대해 어떻게 느끼는지 파악할 수 있습니다. "이 새 귀는 섹시하다"는 것은 헤드폰의 미적 디자인에 대한 정서를 나타낼 것입니다. "이러한 외관은 마음에 들지만 볼륨 제어가 문제다"는 기업에게 실제적인 설계 결함에 대해 경고해줄 수 있습니다.
감정 감지 정서 분석은 극성 감지를 넘어 행복, 슬픔, 분노 등 고객의 느낌을 파악합니다. 이런 유형의 분석은 어휘를 사용하여 주관적인 언어를 평가할 수 있습니다. 끔찍하고 수치스러운 말은 분노를 암시합니다. 비참하고 파괴적인 것은 슬픔을 나타낼 수 있습니다. 신이 났거나 들뜬 것은 행복을 암시할 수 있습니다. 물론, 어휘는 문맥을 설명하지 않으며, 사람들은 자신의 감정을 다른 방식으로 표현합니다. 이 예를 고려해 보세요.
"꼼짝 못함"과 "답답함"과 같은 단어는 부정적인 감정을 나타내는 반면, "너그러움"은 긍정적입니다. 이 정서는 미묘한 것이고 감정은 분류하기 어렵습니다.
의도 기반 정서 분석을 통해 기업은 고객의 의도와 관심 수준을 파악할 수 있습니다. 구매, 업그레이드, 다운그레이드, 취소, 구독 취소 등 다양한 유형의 의도가 있습니다. 의도 기반 분석에는 고객 이메일 또는 쿼리와 같은 관련 텍스트에 대한 분류 교육이 필요합니다. 예를 들어, "저장 공간이 부족한데 어떻게 해야 하나요?"를 업그레이드 기회로 분류할 수 있습니다. "제가 받는 샘플이 마음에 안 들어요, 아이라이너가 더 필요 없어요"라는 취지는 취소로 분류될 수 있지만, 서비스 개선 기회에 대해 기업에게 경고하기도 합니다. 이러한 유형의 분석을 통해 기업은 고객 기반을 관리 및 유지하고 판매 기회를 극대화할 수 있습니다.
정서 분석 적용 방법
정서 분석을 완료하려면 다음 작업을 수행해야 합니다.
- 문장 토큰화, 루트 형식으로 표제어 추출 및 불용어 제거를 포함하여 텍스트를 전처리합니다.
- 표제어를 추출한 토큰을 숫자 표현으로 변환하거나 임베딩을 생성하는 등의 기능을 추출합니다.
- 데이터에 정서 분류기를 적용합니다.
정서 분석은 다음 세 가지 방법으로 접근할 수 있습니다.
- 규칙 기반
- 머신 러닝
- 하이브리드
규칙 기반 정서 분석은 수동으로 작성된 알고리즘 또는 규칙을 사용하여 언어를 평가합니다. 이러한 규칙은 토큰화, 표제어 추출, 어간 추출 및 품사 태그 지정과 같은 컴퓨터 언어학적 방법을 사용합니다. 또한 어휘집(워드 뱅크)을 사용할 수도 있습니다.
이러한 유형의 분석은 문장에서 특정 단어를 분석하고 정서와 의도를 결정하기 위해 그들의 극성과 주관성을 평가할 것입니다. 단어에 극성(긍정적, 부정적)이 할당되면 규칙 기반 접근 방식은 해당 텍스트에 나타나는 긍정 또는 부정 단어 수를 계산하여 전체 정서를 결정합니다.
명백한 단점은 이러한 유형의 시스템은 모든 규칙을 만들기 위해 상당한 노력이 필요하다는 것입니다. 게다가, 이 규칙들은 문장에서 단어가 어떻게 사용되는지 고려하지 않습니다. 복잡성을 수용하기 위해 새 규칙을 작성할 수 있지만, 이는 분석의 전체 복잡성에 영향을 미칩니다. 이 접근 방식을 정확하게 유지하려면 정기적인 평가와 미세 조정도 필요합니다.
머신 러닝 정서 분석은 규칙 기반 정서 분석의 자동화된 버전으로, 대신 머신 러닝(ML) 기능에 의존합니다. 이 모델은 ML 정서 분석 도구가 어떤 단어가 어떤 극성에 해당하는지 배울 수 있도록 훈련 데이터를 제공해야 합니다. 교육 데이터의 일반적인 예로는 영화 리뷰, 아마존 제품 리뷰 또는 Yelp의 평가를 받은 사업장이 있습니다. AI 커뮤니티인 Hugging Face는 정서 분석 도구를 구축하고 훈련할 수 있는 오픈 소스 라이브러리, 데이터 세트 및 모델을 제공합니다.
머신 러닝 정서 분석 교육이 완료되면 프로세스는 특징 추출 및 분류로 요약됩니다. 결과를 내기 위해 머신 러닝 정서 분석 방법은 딥 러닝, 네이브 베이즈, 선형 회귀 또는 지원 벡터 머신과 같은 다양한 분류 알고리즘에 의존합니다.
하이브리드 정서 분석은 규칙 기반 정서 분석 방법과 머신 러닝 정서 분석 방법을 결합합니다. 기업이나 사용자의 특정 요구에 맞춰 조정할 경우 가장 정확한 도구가 될 수 있습니다. 부정적인 정서가 좀 더 전문적인 방식으로 표현되는 B2B(Business-to-Business) 커뮤니케이션과 같이 정서가 더 미묘할 때 특히 유용합니다.
정서 분석을 위한 사용 사례
정서 분석은 다음을 식별하여 기업에서 실행 가능한 인사이트를 제공합니다.
- 사용된 언어의 극성(긍정적인가, 중립인가, 부정적인가?)
- 소비자 반응의 정서적인 어조(화가 났는가, 행복한가, 슬픈가?)
- 어조가 급한가 아닌가
- 소비자의 의도 또는 관심 수준은 무엇인가
의견 분석은 자동화된 의견 마이닝으로서 다양한 비즈니스 목적에 도움이 될 수 있습니다.
리뷰
기업은 정서 분석 도구를 사용하여 소셜 플랫폼, 블로그 게시물 및 다양한 토론 또는 리뷰 포럼에서 의견, 리뷰 및 언급을 수집하고 분석할 수 있습니다. 이것은 기업이 브랜드의 인식을 평가할 수 있도록 해주는 매우 귀중한 정보입니다.
긍정적인 정서를 발견하는 것은 기업이 계속해야 할 일을 지시하는 데 도움이 될 수 있고, 부정적인 정서는 기업이 중단하고 시작해야 할 일을 식별하는 데 도움이 될 수 있습니다. 이 사용 사례에서 정서 분석은 마케팅 및 브랜딩 팀에 유용한 도구입니다. 분석 인사이트를 바탕으로 브랜드 인지도와 평판을 유지하고 개선하기 위해 전략을 조정할 수 있습니다.
소셜 미디어 모니터링
제품 또는 서비스에 대한 고객 피드백은 인터넷의 다양한 위치에 나타날 수 있습니다. 이러한 의견을 수동으로 개별적으로 수집하고 분석하는 것은 비효율적입니다.
정서 분석 도구는 모든 언급을 즉시 감지하고 고객 서비스 팀에 즉시 경고할 수 있습니다. 이를 통해 기업은 고객의 태도를 파악하고 고객 경험을 보다 효과적으로 관리할 수 있습니다. 정서 분석 도구를 모니터링에 사용할 수도 있습니다. 브랜드 인식 모니터링의 확장으로서, 정서 분석은 매우 귀중한 위기 예방 도구가 될 수 있습니다. 이를 통해 팀은 소프트웨어 업그레이드 및 신규 출시를 주의 깊게 모니터링하여 문제가 발생할 경우 대응 시간을 단축할 수 있습니다.
시장 동향
정서 분석은 조직이 전체 시장, 틈새시장, 특정 제품 및 서비스에 대한 광범위한 검토를 수행하여 고객의 요구와 기대를 더 잘 평가하는 태도에서 인사이트를 얻을 수 있기 때문에 시장 조사를 수행할 때 유용한 도구입니다.
정서 분석의 일반적인 어려움
언어는 복잡하고 불완전하며 끊임없이 진화하는 인간의 의사소통 도구입니다. 정서 분석은 언어 해석에 의존하기 때문에 본질적으로 어렵습니다.
기업 간 검토
경쟁업체의 리뷰를 이해하는 것은 정서 분석 과제입니다. 기업이 비즈니스에 대한 정서를 긍정적으로 설명하는 특정 언어를 식별하는 규칙을 설정하는 경우, 경쟁업체를 설명하는 데 사용되는 동일한 언어도 긍정적으로 간주됩니다. 예를 들어,
[귀사가] 제품을 그렇게 빨리 배송해주시는 게 마음에 들어요.
[귀사의 경쟁업체]와 함께 배송 기간을 설정할 수 있다는 점이 마음에 들어요.
이 두 가지 진술 모두 긍정적이지만, 정서 분석 도구는 경쟁업체들과 관련해 긍정적인 것을 부정적으로 인식하도록 교육되지 않는 한 어떤 회사와 그 경쟁업체들을 구분하지 못합니다.
반어적 표현, 풍자, 컨텍스트
반어적 표현과 풍자를 직접 감지하고 이해하는 것의 어려움은 정서 분석으로도 확장됩니다. 풍자는 부정적인 느낌을 묘사하기 위해 긍정적인 단어를 사용하는데, 문제는 기계가 종종 풍자나 반어적 표현에서 진지한 심각성을 구별할 수 있는 텍스트 단서가 없다는 것입니다. 예를 들어, "오렌지 주스에 과육이 들어있는 것을 좋아하시나요?"라는 질문에 대해, "맙소사. 말해 뭐해요."는 저자가 진심이라면 긍정적인 것으로 이해될 수도 있고, 저자가 풍자적으로 표현한 것이라면 부정적인 것으로 이해될 수도 있습니다.
상황에 따라 정서가 왜곡될 수도 있습니다. 다음 두 가지 반응을 고려해 보세요.
“아주 조금이요.”
“많이요!”
"이 제품을 추천할 가능성이 얼마나 됩니까?"와 같은 질문에 대한 답변이라면 첫 번째 응답은 부정적인 것으로 간주되고 두 번째 응답은 긍정적입니다. 하지만 "가격 조정 때문에 얼마나 불편했습니까?"라는 질문이 나오면 양쪽 응답의 뜻은 반전됩니다.
문화적 차이
문화적으로 특정한 언어 사용은 정서 분석의 주요 과제 중 하나입니다. 유머가 문화마다 얼마나 다른지 생각해보세요. 영어에서도 변증법적 차이는 의미를 구별하는 것을 복잡하게 만듭니다. 예를 들어,
"pants"는 미국 영어로 바지를 말합니다. 영국에서, "pants"는 속옷을 의미합니다.
이러한 차이는 분석 정확도에 영향을 미칩니다. 관용구는 또한 문화마다 다릅니다. 그러한 관용구의 분석도 비슷하게 어려운 과제입니다.
주관성
정서 분석의 주요 어려움 중 하나는 언어가 주관적이라는 것입니다. 이것은 깔끔한 범주, 측면 또는 극성으로 분류하는 것을 복잡하게 만듭니다. 이 예를 고려해 보세요.
"This phone is great(이 전화는 훌륭하다)"는 것은 분명히 긍정적인 정서를 나타냅니다.
"This phone is small(이 전화기는 작다)"는 분류하기가 더 어렵습니다. 크기에 대한 저자의 감정에 따라 긍정적인 진술, 중립적인 진술 또는 부정적인 진술이 될 수 있습니다.
주어진 단어의 의미는 문맥, 빈정거림 또는 빈정거림의 사용, 그리고 다른 연설의 특수성 때문에 주관적일 수 있습니다.
정서 분석의 이점
정서 분석은 사용자에게 실행 가능한 인사이트를 제공합니다. 도구로서의 장점은 다음과 같습니다.
실시간으로 고객의 정서를 실행 가능한 상태로 만듭니다
정서 분석 도구는 불만과 혼란을 방지하고 제품 또는 서비스를 옹호할 고객을 찾는 데 도움이 될 수 있습니다. 이 도구는 설문 조사 또는 고객 서비스 상호 작용을 분석하여 어떤 고객이 프로모터 또는 챔피언인지 식별할 수 있습니다. 반대로, 정서 분석은 불만족 고객을 식별하는 데 도움이 될 수 있으며, 고객의 제품 및 서비스 응답은 개선 영역에 대한 귀중한 인사이트를 제공합니다.
규모에 맞는 고객 정서를 위한 마이닝 텍스트
정서 분석 도구는 실시간 분석을 제공하며, 이는 위기 예방 및 관리에 필수적입니다. 문제가 발생하는 즉시 경고를 받고 임박한 위기를 사전에 해결합니다. 의견 마이닝 도구로서, 정서 분석은 또한 PR 팀에게 전략을 수립하고 진행 중인 위기를 관리할 수 있는 귀중한 인사이트를 제공합니다.
고객 서비스 개선
정서 분석 도구는 이메일, 트윗, 댓글, 설문 조사, 설문 조사 및 리뷰와 같은 다양한 소스에서 광범위한 데이터 세트를 동시에 가져옵니다. 텍스트 분석 도구는 관리자가 까다로운 고객을 처리하는 고객 서비스 옹호자를 교육할 수 있도록 함으로써 고객 서비스 운영을 보다 효율적으로 관리하고 쿼리의 우선 순위를 지정하고 불량 상호 작용 추적을 자동화할 수 있도록 지원합니다.
정서 분석에 대한 일반적인 접근 방식
정서 분석에는 몇 가지 접근법이 있습니다. 직접 구축하거나, 클라우드 서비스 제공자 추가 기능을 구입하거나, 미리 제작된 정서 분석 도구에 투자할 수 있습니다. 다양한 서비스형 소프트웨어(SaaS) 정서 분석 도구를 사용할 수 있으며, Python 또는 Java와 같은 오픈 소스 라이브러리를 사용하여 자체 도구를 구축할 수 있습니다. 또는 클라우드 서비스 제공자는 자체 AI 제품군을 제공합니다.
나만의 감성 모델 구축
spaCy 또는 NLTK와 같은 NLP 라이브러리를 사용하여 여러분만의 감성 모델을 구축할 수 있습니다. 정말로 꿈이 크신 분들은 심지어 아주 처음부터 만드실 수도 있습니다! Python 또는 Javascript를 사용한 정서 분석을 통해 보다 많은 사용자 정의 제어를 제공합니다. 커스터마이징의 이점도 중요하지만, 의사 결정을 내릴 때는 자체 도구를 구축하는 데 필요한 비용과 시간을 고려해야 합니다.
턴키 정서 분석 제품 사용
표준 클라우드 서비스 제공자가 제공하는 SaaS 제품과 같은 솔루션을 구입할 수도 있습니다. 여기에는 Amazon Comprehend, Google AI 및 머신 러닝 제품 또는 Azure’s Cognitive Services가 포함될 수 있습니다. SaaS 정서 분석 도구의 장점은 맞춤형 도구의 몇 분의 1 비용으로 신속하게 배포할 수 있다는 것입니다. 도구 교육 프로세스가 간소화되어 전체 엔지니어 팀과 전문가가 설치할 필요가 없습니다.
서드파티 정서 분석 통합
Elastic과 같은 서드파티 솔루션을 사용하면 자체 또는 공개적으로 사용 가능한 정서 모델을 Elastic 플랫폼에 업로드할 수 있습니다. 그런 다음 Elastic에 저장된 텍스트 데이터의 정서를 분석하는 애플리케이션을 구현할 수 있습니다.
클라우드 서비스 제공자 AI 제품군
클라우드 서비스 제공자는 AI 제품군의 일부로 정서 분석 도구도 포함합니다. 옵션으로는 Google AI와 머신 러닝 제품, 또는 Azure의 Cognitive Services 등이 있습니다.
AI 기술이 학습하고 개선됨에 따라 정서 분석에 대한 접근 방식은 계속 진화하고 있습니다. 성공적인 정서 분석 접근 방식을 위해서는 교육 모델에 대한 일관된 조정 또는 구입한 소프트웨어에 대한 빈번한 업데이트가 필요합니다.
Elastic을 통한 정서 분석 시작하기
Elastic을 사용하여 정서 분석 도구를 시작하면, 자신의 의견 마이닝을 수행하고 필요한 실행 가능한 인사이트를 얻을 수 있습니다.
정서 분석 용어집
알고리즘: 컴퓨터가 따르는 프로세스 또는 규칙 집합.
인공 지능: 기계와 컴퓨터 시스템에 의한 인간의 지능 시뮬레이션.
컴퓨터 언어학: 언어와 음성을 분석하고 합성하기 위해 컴퓨터 과학 이론을 사용하는 언어학의 한 분야.
상호참조해결:텍스트에서 명명된 엔터티에 속하는 모든 단어를 식별하는 프로세스.
표제어 추출: 같은 단어의 다른 굴절된 형태들을 함께 묶는 과정.
어휘: 언어의 단어 목록.
머신 러닝: 데이터와 알고리즘을 사용하여 컴퓨터가 프롬프트를 표시하지 않고 학습할 수 있도록 하는 인공 지능의 하위 집합.
명명된 엔티티 인식: 단어를 고유한 이름 또는 엔티티로 인식하는 프로세스
자연어 처리: 인공 지능의 하위 집합으로서 컴퓨터 시스템이 인간의 언어를 이해하도록 돕는 것과 관련된 컴퓨터 과학의 한 분야.
품사 태그 지정: 텍스트에서 단어가 품사의 어느 부분에 속하는지 분류하기 위해 단어를 표시하는 과정(예: 사과 = 명사, 느린 = 부사, 닫힌 = 형용사).
어간 추출: 단어를 줄기나 뿌리 형태로 줄이는 과정.
토큰화: 텍스트를 토큰이라고 하는 더 작은 단위로 분리하는 프로세스.
단어 감각의 모호성: 문맥에서 사용되는 단어 감각을 식별하는 과정.