본문 바로가기

Database/BigData

(4)
텍스트 마이닝_text mining ※ 텍스트 마이닝– 비정형의 텍스트 데이터로부터 패턴을 찾아내어 의미 있는 정보를 추출하는 분석 과정 또는 기법– 데이터 마이닝과 자연어 처리, 정보 검색 등의 분야가 결합된 분석 기법을 사용– 텍스트 마이닝의 프로세스   텍스트 전처리 → 특성 벡터화 → 머신러닝 모델 구축 및 학습/평가 프로세스 수행     » 텍스트 전처리에는 토큰화, 불용어 제거, 표제어 추출, 형태소 분석 등의 작업이 포함※ 특성 벡터화와 특성 추출–  머신러닝 알고리즘으로 분석하기 위해서는 텍스트를 구성하는 단어 기반의 특성 추출을 하고 이를 숫자형 값인 벡터 값 으로 표현해야 함– 특성 벡터화의 대표적인 방법으로 BoW와 Word2ve가 있음– BOW : 순서는 무시한 채 빈도만 고려하여 단어가 얼마나 자주 등장하는지로 특성..
군집 분석_cluster analysis ※ 비지도 학습– 훈련 데이터에 타깃값이 주어지지 않은 상태에서 학습을 수행하는 방식– 훈련 데이터를 학습하여 모델을 생성하면서 유사한 특성(관계, 패턴 등)을 가지는 데이터를 클러스터로 구성– 새로운 데이터의 특성을 분석하여 해당하는 클러스터를 예측※ 군집화– 데이터를 클러스터(군집)으로 구성하는 작업 1. K-means (K-평균 알고리즘)- k개의 중심점을 임의 위치로 잡고 중심점을 기준으로 가까이 있는 데이터를 확인한 뒤 그들과의 거리의 평균 지점으로 중심점을 이동하는 방식 ▶ 장점직관적이고 구현이 쉽다대용량 데이터에 적용 가능하다▶ 단점사전에 클러스터 개수와 초기값을 지정해야 한다초기값에 따라 결과가 달라질 수 있다데이터 양이 많아지면 수행시간이 오래걸린다이상치에 영향을 받는다범주형 변수가 있다..
분류 분석_classification analysis ※ 회귀 분석과 분류 분석의 차이- 회귀 분석(regression) : y값이 수치형(숫자) 데이터- 분류 분석(classification) : y값이 범주형(0과 1) 데이터 (1) 이진 분류( logistic regression )– 로지스틱 회귀 모델은 이진 분류 결과를 평가하기 위해 오차 행렬에 기반한 성능 지표인 정밀도, 재현율, F1 스코어, ROC_AUC를 사용 (2) 분류 분석( classification ) 1. 이진 분류( logistic regression ) ※  시그모이드 함수– 로지스틱 회귀에서 사용하는 S자 함수– x의 값이 커지면 y의 값은 1에 근사하게 되고 x의 값이 작아지면 y의 값은 0에 근사하게 되어 S자 형태의 그래프가 됨– 두 개의 값을 분류하는 이진 분류에 많이..
회귀 분석_regression analysis ※ 빅데이터 분석 기초 지식(1) 범주형 변수(질적 자료) : 범주형은 모두 숫자로 바꿔야 데이터 저리가 가능하다명목형 변수 : 순서 없음, 값을 구분하기 위한 변수 (성별, 혈액형, 국가, 직업)서열형(순위형) 변수 : 순서 있음, 순위형 (학점, 제품 만족도)(2) 수치형 변수(양적 자료)구간형(정수형) 변수 : 등간형(Interval), 셀 수는 있지만 특정 구간이 존재하는 변수, 사칙연산 (년도, 발생횟수, 자녀수)비율형 변수 : 연속형(continuous), 연속적인 값을 가지며 차이와 비율에 의미가 있는 변수(소득, 키, 몸무게)※ 독립변수와 종속변수- 독립변수 : 어떤 실험에서 실험자가 직접 변경하는 변수(결과에 영향을 주는 변수들)- 종속변수 : 독립변수의 값이 변함에 따라 달라지는 수량(..