Data Science/이론

DS 이론 24- 군집분석, 비계층적 K-means

에너지_2 2024. 12. 10. 22:44
728x90
반응형

 

Unsupervised learning

- 입력 데이터에 Label이 없어 데이터의 특징만으로 패턴을 찾는 학습방법

- 비지도 학습을 사용 하는 이유

 1) 알려지지 않은 모든 종류의 패턴을 찾으려 시도

 2) 범주화에 도움이되는 특징과 패턴을 알아내는 데 도움

 3) Label이 되지 않은 데이터가 더 확보하기 쉬움 -> Lable은 시간이 오래 걸림

 

Clustering, 군집분석

- 계층적/ 비계층적

- 주어진 입력 값(들)을 바탕으로 유사한 값들로 데이터를 몇 개의 그룹으로 묶어주는 것 -> 유사도를 기반으로 함

   -> 유사하다는 근거는?  distance 계산.  KNN 알고리즘과 동일.

- 데이터 전체의 구조에 대한 이해를 높이는 탐색적 분석방법

 

[유형]

- 상호 배반적 군집: 각 관찰치가 상호 배반적인 여러 군집 가운데 하나에만 속하는 경우

- 계보적 군집: 한 군집이 다른 군집 내부에 포함되는 형태로 군집간 중복은 없음

- 중복 군집 : 두 개 이상의 군집에 한 관찰치가 동시에 속사는 것이 허용되는 경우

- 퍼지 군집: 관찰치가 각  군집에 속할 확률을 표현하는 방법

군집 대상의 중복여부, 유 -> 비계측정 군집분석: 중복군집
                             , 무 -> 자료의 크기, 작음 -> 계층적 군집분석: 최단/최장/평균/와드 연결법
                                                       , 제약없음 -> 비계층적 군집분석: K-means 군집화

 


비계층적 군집분석: K-means 군집화

- k : 클러스터 갯수

- Non-hierarchicla Clustering

- 원하는 군집의 수, "무조건" k를 사전에 지정( 알고 있다고 가정)

   k값을 증가시켜가면서 최적의 값을 찾아가는 것임

 

[클러스터 개수 선정]- Elbow Method : 팔꿈치처럼 가파른 경사로부터 완만하게 변하는 변곡점을 최적의 k 로 제안. y축 SSE / x축 k  -> 문제: 애매한 판단일 수도 있음-  Silhouette coefficient : 결과값이 크게 나오는 것을 최적의 k로 제안.

 

 

 

[표준화 방법]

- Min-max scaling: 0~1 scale

- Z-score/Standard scaling: 정규화 z-core

- Robust scaling:

- Max-Absolute scaling

 

 

2024.12.06 - [Data Science/실습] - DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)

 

DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)

12차시 비계층적 군집분석k-means - 임의의 k개의 점을 기반으로 가까운 거리의 데이터를 묶는 것과 더불어 평균을 활용하는 군집분석 기법- 군집 개수(k)를 확정하기 위해 여러 번의 시행착오 필

sometipsfor.tistory.com

 


반응형
300x250

 

728x90
반응형