본문 바로가기

[빅데이터 분석방법] 텍스트 마이닝, 오피니언 마이닝, 웹 마이닝

1. 텍스트 마이닝(Text Mining)

텍스트 마이닝(text mining)은 비정형 텍스트에서 자연어 처리와 형태소 분석 기술에 기반을 두어 유용한 단어를 추출해 빈도수를 분석하고, 맥락(context) 수준의 의미를 찾아내는 분석방법이다. 즉, 일반적으로 텍스트 마이닝은 방대한 분량의 텍스트를 바탕으로 SNS상에서 의미 있는 자료를 추출하여, 다른 다양한 정보와 연계하여 파악함으로써, 다양한 텍스트가 갖고 있는 범주를 찾아 그 결과를 도출하여 의사결정을 하거나 미래를 예측함으로써, 기대하지 못한 현상 및 패턴, 새로운 관계 및 법칙 등을 발견해가는 기법이다

 

텍스트마이닝-처리기술-예시

 

 

 

텍스트 마이닝에서는 일반적으로, 어떠한 주제나 용어와 관련된 소셜 텍스트 안에서 다른 데이터와의 연계성을 파악하고 추출한 텍스트 단어에서 빈도를 추출하여 중요 키워드나 핵심 개념 등을 활용할 수 있는 주요 키워드 분석을 실행하였다. 이러한 추출을 통한 텍스트는 클리닝(cleaning) 즉, 정제 작업으로 단․복수형, 축약어 및 띄어쓰기, 오타 등을 수정하였다. 통제 작업에서는 형태소를 분석하고 유사어, 협의어, 동의어 등을 통제하여 유사한 단어를 통일하고 정리하게 된다. 정리된 자료는 일련의 자료로부터 주제어의 빈도 분석(Keyword Frequency Analysis)을 수행하였고 TF-IDF(Term Frequency-Inverse Document Frequency) 값을 함께 산출하였다. TF-IDF는 그동안 정보 검색과 텍스트 마이닝에서 텍스트의 주제어를 추출하는 데 사용된 기법으로 국외의 경우 이미 구축된 대규모 코퍼스로부터 주제어를 추출하거나 웹 문서의 검색 결과 성능을 향상하기 위한 방법으로 많이 사용되고 있다. 국내에서도 TF-IDF는 주제어를 추출하거나 가중치를 계산하는데 많이 활용되고 있다.

 

 

 

2. 오피니언 마이닝(Opinion Mining)

오피니언 마이닝은 오늘날 다양한 여론 분석기술 분야에서 주목을 받는 기법이다. 즉, 소셜미디어 및 웹사이트 등에서 여론 및 다양한 의견을 분석하여 유용한 정보로 재가공하는 기술이다. 오피니언 마이닝((OpinionMining) 혹은 감정분석(emotional anaysis)을 활용하여, 정보를 활용하는 네티즌은 그들의 이야기에 대한 댓글 등에 긍정 및 부정 또는 중립으로 분류하여 객관적 및 보다 정확한 파악이 가능하다.

 

이러한 오피니언 마이닝에 대한 연구는 다음과 같이 3단계로 이루어진다. 첫째, ‘주관성 분석’단계이다. 즉, 주어진 텍스트를 우선적으로 객관적인지 주관적인지를 파악하는 것으로, 이를 바탕으로 저자의 감정과 태도를 판단한다. 둘째로는 ‘극성 분석’ 단계이다. 즉, 텍스트가 만일 주관적 의견을 갖고 있다면, 그것이 긍정적인지 부정적인지를 분류해야 하는 단계이다. 셋째는 ‘극성의 정보분석’ 단계이다. 즉, 일련의 텍스트에 대한 긍정 정도 및 부정 정도를 측정하는 단계이다.

 

 

 

이와 같이 오피니언 마이닝은 어떠한 특정 상품이나 서비스에 대하여 현재의 시장을 진단하고 향후를 예측, 소비자의 반응 및 입소문을 진단 및 분석하는데 활용된다. 또한, 공공분야에서는 민원의 근본적인 원인을 파악하고, 그 문제를 해결하기 위한 방안을 모색할 수 있다. 또한 기업의 경우에는 생산 및 판매할 제품에 대한 소비자의 반응을 진단하고, 이에 대한 대응 및 향후에 대한 선호도 등을 예측하는데 유용하게 활용할 수 있다.

 

오피니언 마이닝은 웹사이트와 소셜미디어에서 특정 주제에 대한 여론이나 정보(댓글이나 게시글) 등 주관적 의견을 수집 및 분석해 객관적 정보로 도출하는 빅데이터 처리 기술이다. 웹 문서를 의미를 가진 가장 작은 단위로 나누어 분석하고, 주제에 관한 객관적인 정보뿐만 아니라, 글로 나타낸 감정 표현까지 분석할 수 있다는 점이 특징이다. 이런 특징 때문에 ‘감정 분석’(sentiment analysis)이라고도 불린다.

 

오피니언마이닝-설명-이미지
오피니언마이닝

 

3. 웹 마이닝(Web Mining

인테넷상에서 수집된 정보를 데이터 마이닝 방법으로 분석하여 통합하는 기법으로, 웹 마이닝은 콘텐츠 마이닝, 구조 마이닝, 활용 마이닝 등으로 세분될 수 있다.

 

 

 

우선, 웹 콘텐츠 마이닝(web contents mining)은 웹 데이터의 속성이 반정형 혹은 비정형이고, 링크 구조를 형성하고 있기 때문에 별도의 분석기법이 필요하다. 따라서, 콘텐츠 마이닝은 패턴 발견, 패턴 분석, 개인화 등의 유형으로 활용할 수 있다. 또한, 웹 활용 마이닝(web usage mining)은 주로 검색이나 정보 필터링을 위한 것으로, 지능형 검색, 정보 필터링, 개인화, 다주순의 DB구축, 웹 질의 시스템 등에 유용하게 활용할 수 있다. 웹 구조 마이닝(web structure mining)은 사이트의 구조적 요약정보를 추출하여 참조 정보를 이용하는 경우에 유용하게 활용할 수 있다.

 

웹마이닝-처리과정-이미지
웹마이닝 처리과정

facebook twitter kakaoTalk kakaostory naver band

본 사이트는 쿠팡 파트너스 활동을 통해 일정액의 수수료를 제공받을 수 있습니다.

Copyright © Weekly Clip All rights reserved.