비정형 데이터란 무엇인가?
비정형 데이터 정의
비정형 데이터는 설계된 모델이나 구조로 구성되지 않은 데이터를 말합니다. 비정형 데이터는 일반적으로 질적인 것으로 분류되며 인간 또는 기계가 생성할 수 있습니다. 비정형 데이터는 사용 가능한 가장 풍부한 유형의 데이터이며, 분석 후에는 비즈니스 의사 결정을 안내하고 다른 많은 사용 사례 중에서 비즈니스 목표를 달성하는 데 사용할 수 있습니다.
비정형 데이터는 일반적으로 기본 형식으로 저장됩니다. 따라서 이 데이터를 실행 가능한 인사이트로 변환하는 데 어려움이 있습니다. 비정형 데이터는 정형 데이터보다 작업하기가 더 어려울 수 있지만, 정형 데이터에서는 사용할 수 없는 풍부하고 상세한 정보도 포함하는 경우가 많습니다. 그 결과 많은 조직이 비정형 데이터를 더 잘 분석하고 인사이트를 얻기 위해 머신 러닝(ML) 및 자연어 처리(NLP)와 같은 기술에 투자하고 있습니다.
비정형 데이터의 예
비정형 데이터는 질적이며 텍스트, 이미지, 오디오 또는 비디오 형식으로 존재합니다. 비정형 데이터의 다양한 예는 다음과 같습니다.
- 오디오 또는 비디오 데이터, 보안 감시 데이터, 지리 공간 데이터, 이미지 및 날씨 데이터와 같은 리치 미디어.
- 장치의 티커 또는 센서 데이터와 같은 사물 인터넷(IoT) 데이터.
- 이메일, 문자 메시지, 인보이스, 레코드 및 생산성 애플리케이션 통신 데이터와 같은 텍스트 데이터.
- 기계가 생성한 우주 탐사 또는 지진 보고서와 같은 과학적 데이터.
- MRI, X선 및 CT 스캔과 같은 의료 데이터와 영상, 의사의 노트 및 처방전과 같은 의료 데이터 및 이미징.
새로운 데이터 캡처 기술이 발전함에 따라 자연스럽게 추가적인 비정형 데이터 사례가 등장할 것입니다.
정형 데이터와 비정형 데이터 비교
정형 데이터는 비정형 데이터와 달리 사전 정의된 구조 또는 모델에 존재하는 정량적 데이터입니다. 이 데이터는 매우 체계적이므로 비즈니스 및 머신 러닝 알고리즘에 의해 쉽게 처리됩니다.
정형 데이터는 SQL, MySQL 및 PostgreSQL과 같은 관계형 데이터베이스나 스프레드시트에 깔끔하게 맞는 데이터 유형이라고 생각할 수 있습니다. 따라서 사전 정의된 구조로 쉽게 매핑할 수 있습니다. 구조화된 데이터는 로그, 메트릭, 날짜, 이름, 우편 번호, 신용 카드 번호 등 해석하기 쉬운 정보를 제공하므로 고객 관계를 관리하는 데 사용됩니다.
이와 대조적으로 비정형 데이터는 질적 데이터이며 일관된 내부 구조를 가지고 있지 않습니다. 결과적으로, 비정형 데이터는 적절한 도구와 전문 지식 없이는 해석하기 어렵습니다.
구조화된 데이터는 이름, 구매 내역 및 지리적 위치와 같은 고객의 행동에 대한 개요를 제공할 수 있습니다. 비정형 데이터는 제품 리뷰, 지원 티켓, 웹사이트 탐색 패턴과 같은 이유와 방법 등 고객의 의도와 행동을 보다 깊이 이해하는 데 적합합니다.
비정형 데이터의 어려움
비정형 데이터의 볼륨, 다양성 및 이질적인 품질은 데이터를 처리, 관리 및 분석하려는 조직에 공통적인 어려움입니다.
- 데이터 볼륨: 비정형 데이터는 풍부합니다. 기존 데이터의 80%를 차지하며1 지속적으로 생성되고 있습니다. 조사 기관인 ITC는 데이터 볼륨이 2018년부터 2025년까지 430% 증가할 것으로 예상합니다.2
- 데이터 다양성: 비정형 데이터는 텍스트 데이터, 이미지 또는 비디오와 같은 매우 다양한 데이터 유형으로 구성됩니다. 비정형 데이터를 한 곳에 저장하려면 데이터 레이크와 같은 대규모 데이터 저장소가 필요합니다. 또한 다양한 비정형 데이터가 내재되어 있기 때문에 ‘이미지, 비디오 및 텍스트를 어떻게 상호 참조할 수 있는가?’라는 연결된 어려움도 발생합니다.
- 데이터 품질: 비정형 데이터의 품질은 부분적으로 다양하기 때문에 일관성이 없습니다. 비정형 데이터에는 오류, 불일치 또는 관련 없는 정보가 포함되어 정확한 정보를 얻기 어려울 수 있습니다. 품질을 향상시키기 위해 비정형 데이터를 전처리하거나 치료하는 것은 시간이 많이 걸리고 복잡한 작업일 수 있습니다.
- 분석: 신속하게 쿼리하고 분석할 수 있는 구조화된 데이터와 달리, 구조화되지 않은 데이터는 텍스트가 많고 데이터베이스에 제대로 맞지 않는 경우가 많습니다. 비정형 데이터는 기본 형식으로 저장되며 볼 때만 처리됩니다.
- 보안 및 개인정보보호: 비정형 데이터에는 중요한 정보가 포함될 수 있습니다. 이 데이터의 보안을 보장하고 개인 정보를 유지하는 것은 어려울 수 있습니다.
- 통합: 전체적인 뷰를 위해 비정형 데이터와 정형 데이터를 통합하는 것은 사전 정의된 데이터 모델이 없기 때문에 복잡할 수 있습니다.
따라서 비정형 데이터를 관리하고 분석해야 하는 문제는 주로 데이터의 양 때문입니다. 조직에서는 이메일과 같이 몇 기가바이트(GB)에서 몇 페타바이트(PB)에 이르는 전체 미디어 파일과 같은 항목, 개체 또는 파일을 볼 수 있습니다. 따라서 수동으로 관리할 수는 있지만 많은 데이터베이스와 도구가 이러한 볼륨과 다양한 비정형 데이터를 처리할 수 없습니다. 기하급수적으로 증가하는 데이터를 저장하고 처리하려면 특정 도구와 기술이 필요합니다.
비정형 데이터의 적용 분야
분석 시 비정형 데이터는 기업에 다양한 기회를 제공합니다. 비정형 데이터는 질적 데이터로서 기업이 고객, 고객 의도 및 시장 변화를 더 잘 이해하는 데 도움이 될 수 있습니다. 이를 통해 기업은 보다 우수하고 안전하며 복원력이 뛰어난 고객 환경을 제공할 수 있습니다.
비정형 데이터의 일부 적용 분야는 다음과 같습니다.
- 고객 경험 개선: 고객 지원 채팅, 이메일 및 통화 내용을 분석하면 일반적인 고객 문제를 식별하고, 지원 프로토콜을 개선하며, 고객 검색 경험을 개인화하고, 고객 서비스 담당자를 보다 효과적으로 교육할 수 있습니다.
- 환자 의료 결과 예측: 환자 의료 기록에는 종종 의사의 메모와 같은 비정형 데이터가 포함되어 있으며, 분석을 통해 패턴을 식별하고 환자 결과를 예측하거나 치료 계획을 알 수 있습니다.
- 부정 행위 탐지: 금융 서비스에서는 비정형 데이터를 사용하여 부정 행위를 탐지할 수 있습니다. 예를 들어 이메일 통신을 분석하면 부정 행위를 나타내는 의심스러운 패턴이 나타날 수 있습니다.
- 추천 제공: 전자상거래 플랫폼 및 스트리밍 서비스는 제품 설명 또는 동영상 스크립트와 같은 비정형 데이터를 분석하여 추천 알고리즘을 개선할 수 있습니다.
- 자연어 처리(NLP) 모델 교육: 비정형 데이터는 NLP에서 AI 모델을 교육하는 데 중요합니다. 예를 들어, 챗봇은 본질적으로 구조화되지 않은 대규모 텍스트 데이터 말뭉치에서 학습합니다.
- 이미지 인식을 위한 AI 교육: 이미지 형태의 비정형 데이터는 얼굴 인식, 물체 감지 등과 같은 작업을 위한 머신 러닝 모델을 훈련하는 데 기본적입니다.
- 예측 데이터 분석 제공: 비정형 데이터를 분석하면 기업은 시장 동향을 예측하고 그에 따라 조정할 수 있습니다.
- 정서 분석 수행: 비정형 데이터 마이닝을 통해 기업은 고객의 정서, 행동 및 구매 패턴에 대한 인사이트를 얻을 수 있습니다. 또한 기업은 소셜 미디어 게시물, 제품 리뷰 및 고객 피드백의 데이터를 분석하여 제품, 서비스 또는 브랜드에 대한 고객의 전반적인 감정을 파악할 수 있습니다.
이러한 비정형 데이터 애플리케이션은 기업에 다양한 이점을 제공합니다.
보안 위험 완화
원격 측정 데이터를 분석하면 귀중한 인사이트를 수집하고 사용자에게 실제 사이버 보안 위협 현상 및 동향을 계속 알려줄 수 있습니다. 보안 팀은 최신 보안 정보 및 이벤트 관리(SIEM) 도구를 사용하여 비정형 데이터를 포함한 모든 종류의 데이터를 대규모로 검색하여 모니터링 및 규정 준수, 위협 감지, 예방 및 헌팅 및 사고 대응을 지원할 수 있습니다.
운영 복원력 향상
애플리케이션이 가용성과 성능에 최적화되도록 보장해야 하기 때문에 조직은 시스템에서 생성되는 비정형 데이터를 관찰할 수 있어야 합니다. 로그 및 메트릭은 사용자 요구가 용량을 초과하거나 서버 오류가 성능에 영향을 미치고 있음을 실시간으로 나타낼 수 있습니다. 근본 원인을 알면 해결할 수 있습니다.
고객 경험 개선
기업은 비정형 데이터를 관리하여 고객에게 더 나은 검색 경험을 제공함으로써 더 나은 사용자 경험을 전할 수 있습니다. 풍부한 검색 기능이 추가되어 고객과 개발자 모두가 프런트 엔드 및 백엔드 검색 환경을 개선할 수 있습니다. 고객은 자녀를 위한 줄무늬가 있는 노란색 장난감이나 직원이 어떤 환경에 있든 필요한 파일, 이미지 또는 비디오 클립을 쉽게 찾을 수 있습니다.
비정형 데이터 관리 및 분석 방법
기본적으로 비정형 데이터에는 간편한 관리 및 분석을 가능하게 하는 사전 정의된 구조가 없습니다. 따라서 비정형 데이터를 분석하려면 먼저 구조를 정의하여 데이터를 관리해야 합니다. 이를 통해 비정형 데이터를 저장, 구성 및 보호할 수 있습니다.
그런 다음 정리된 비정형 데이터를 처리 및 분석할 수 있습니다. 이러한 분석은 조직에 실행 가능한 인사이트를 제공합니다.
비정형 데이터를 관리하고 분석할 수 있는 다양한 도구와 기술을 사용할 수 있습니다.
자연어 처리(NLP): NLP는 자연어를 통해 컴퓨터와 인간 간의 상호 작용에 초점을 맞춘 기술입니다. NLP의 목표는 가치 있는 방식으로 인간의 언어를 읽고, 해독하고, 이해하고, 이해하는 것입니다.
머신 러닝(ML): 머신 러닝은 컴퓨터가 학습하고 데이터 기반 결정을 내릴 수 있게 해주는 인공 지능(AI)의 하위 집합으로, 명시적으로 프로그래밍되지 않고 시간이 지남에 따라 성능을 향상시킵니다. 통계적 기법을 사용하여 정형 및 비정형 데이터의 패턴을 식별하여 예측 또는 결정을 내립니다.
데이터 레이크: 다양하고 볼륨이 크기 때문에 비정형 데이터는 데이터 레이크나 데이터가 생성되는 곳("엣지")에 저장될 수 있습니다. 데이터 레이크는 다양한 유형의 데이터를 대량으로 저장하는 데 적합합니다. 데이터 레이크는 기본 형식의 데이터를 수용하므로 비디오, 오디오, 텍스트 및 문서를 모두 함께 저장할 수 있습니다.
콘텐츠 관리 시스템(CMS): CMS는 기업이 웹에서 비정형 데이터를 저장, 검색 및 검색, 색인 및 게시할 수 있도록 지원합니다.
조직이 비정형 데이터를 활용하는 방법
다양한 업계의 조직은 다양한 방식으로 비정형 데이터를 활용합니다. 의료 서비스에서 제조에 이르기까지 비정형 데이터를 통해 조직은 인사이트를 기반으로 더 나은 서비스를 제공할 수 있습니다.
의료
의료 산업은 다양한 운영 계층에서 비정형 데이터의 혜택을 받습니다. 정교한 챗봇은 의료 전문가들이 특정 질병을 나타내는 언어 패턴을 이해할 수 있도록 합니다. 상태 로깅 앱은 데이터가 처리될 때 상태 위험을 식별하는 데 도움이 됩니다. 비정형 데이터와 정형 데이터를 결합함으로써 의료 전문가는 환자 치료 결과를 도출할 수 있습니다.
금융 서비스
예측 데이터 분석은 시장 동향과 변화를 추적하기 위해 금융계에 매우 중요합니다. 이러한 인텔리전스를 통해 조직은 그에 따라 조정할 수 있습니다. 세분화된 수준에서 비정형 데이터는 대출, 모기지, 비즈니스 계획 및 계약에 대한 문서를 작성하는 데 사용됩니다. 비정형 데이터 분석은 또한 금융 범죄와의 싸움을 지원합니다. 조직은 부정한 서명을 식별하거나 피싱 스캠을 식별하여 대응할 수 있습니다.
공공 부문
공공 부문 조직의 경우 데이터는 전략적 자산입니다. 조직은 사이버 보안, 로깅 및 AIOps를 통합하는 전체적인 데이터 전략을 통해 비용을 절감하고, 운영을 단순화하며, 도구 및 데이터의 무질서한 증가를 줄이기 위해 가치를 극대화할 수 있습니다.
통신
통신 회사는 사일로를 해체하여 서비스형 통신을 제공하고 네트워크의 가용성을 향상시킴으로써 데이터를 더 많이 활용할 수 있습니다. 비정형 데이터를 사용함으로써 더 빠른 데이터 분석을 제공하고 프로세스를 자동화하여 더 나은 고객 경험을 제공할 수 있습니다.
마케팅
데이터 마이닝 및 예측 데이터 분석은 시장 기회 및 동향, 고객 요구, 고객 행동 및 의도를 식별하고 이해하는 데 사용되는 일반적인 마케팅 관행입니다. 마케팅 전문가는 비정형 데이터를 생성하고 소비하여 고객과 더 나은 의사소통을 하고 궁극적으로 고객 경험을 개선합니다.
제조
계획, 모델 및 청사진과 같은 비정형 데이터는 제조 관행의 필수 구성 요소입니다. 농업에서 비정형 데이터를 관리하고 분석하는 기능은 수확량을 예측하고 관리하는 데 도움이 될 수 있습니다. 자동차 산업은 수요를 이해하고 충족하기 위해 비정형 데이터에 의존합니다.
비정형 데이터를 관리하고 분석하는 기술이 발전함에 따라 조직이 비정형 데이터를 활용할 수 있는 능력도 발전할 것입니다.
비정형 데이터의 향후 동향
최근 인공지능(AI) 및 머신 러닝(ML) 개발은 비정형 데이터 사용의 새로운 시대를 열고 있습니다. AI와 머신 러닝 기술이 발전함에 따라, 비정형 데이터를 처리하고 비정형 데이터와 통합하여 비즈니스 인사이트를 향상시킬 수 있는 기능도 마찬가지입니다.
새로운 데이터 캡처 방법이 개발됨에 따라 비정형 데이터의 애플리케이션은 계속해서 증가하고 있습니다. 얼굴 인식은 이미 대부분의 스마트폰 사용자들에게 흔한 일입니다. 얼굴 인식 기술 개발은 이제 의료 및 고객 서비스에서 핵심이 될 수 있는 정서 인식을 가능하게 합니다.
가상 개인 비서 기술이 쉽게 사용 가능해짐에 따라 비정형 데이터도 생산성을 높이는 데 도움이 될 것입니다. 사용자가 효율성과 출력을 개선할 수 있도록 특정 작업이 자동화됩니다. 가상 개인 비서를 사용하면 의사가 환자와 더 많은 시간을 보내고 서류 작성 시간을 줄일 수 있습니다.
Elastic을 통한 비정형 데이터 관리 및 분석
비정형 데이터를 가져오면서 이를 사용할 수 있는 구조를 처리하고 적용할 수 있습니다. Elastic은 다양한 비정형 데이터 관리 솔루션을 제공합니다.
Elasticsearch Relevance Engine for AI는 비정형 데이터를 활용하는 AI 기반 검색 애플리케이션을 구축하기 위한 강력한 도구 세트를 조직에 제공합니다.
검색, Observability 및 보안을 포함한 사용 사례를 위해 비정형 데이터를 저장, 검색 및 분석하는 Elasticsearch를 찾아보세요.
각주
1 "The Future of Data Revolution will be Unstructured Data" by Priya Dialani, Analytics Insight, October 2020, https://www.analyticsinsight.net/the-future-of-data-revolution-will-be-unstructured-data/ (Accessed June 1, 2023)
2 "Possibilities and limitations, of unstructured data(비정형 데이터의 가능성과 한계)" by Robert Heeg, ESOMAR Global Market Research 2022(Research World를 통해 액세스)