DS 이론 24- 군집분석, 비계층적 K-means

Data Science/이론

DS 이론 24- 군집분석, 비계층적 K-means

에너지_2 2024. 12. 10. 22:44

728x90

Unsupervised learning

- 입력 데이터에 Label이 없어 데이터의 특징만으로 패턴을 찾는 학습방법

- 비지도 학습을 사용 하는 이유

1) 알려지지 않은 모든 종류의 패턴을 찾으려 시도

2) 범주화에 도움이되는 특징과 패턴을 알아내는 데 도움

3) Label이 되지 않은 데이터가 더 확보하기 쉬움 -> Lable은 시간이 오래 걸림

Clustering, 군집분석

- 계층적/ 비계층적

- 주어진 입력 값(들)을 바탕으로 유사한 값들로 데이터를 몇 개의 그룹으로 묶어주는 것 -> 유사도를 기반으로 함

-> 유사하다는 근거는? distance 계산. KNN 알고리즘과 동일.

- 데이터 전체의 구조에 대한 이해를 높이는 탐색적 분석방법

[유형]

- 상호 배반적 군집: 각 관찰치가 상호 배반적인 여러 군집 가운데 하나에만 속하는 경우

- 계보적 군집: 한 군집이 다른 군집 내부에 포함되는 형태로 군집간 중복은 없음

- 중복 군집 : 두 개 이상의 군집에 한 관찰치가 동시에 속사는 것이 허용되는 경우

- 퍼지 군집: 관찰치가 각 군집에 속할 확률을 표현하는 방법

군집 대상의 중복여부, 유 -> 비계측정 군집분석: 중복군집
, 무 -> 자료의 크기, 작음 -> 계층적 군집분석: 최단/최장/평균/와드 연결법
, 제약없음 -> 비계층적 군집분석: K-means 군집화

비계층적 군집분석: K-means 군집화

- k : 클러스터 갯수

- Non-hierarchicla Clustering

- 원하는 군집의 수, "무조건" k를 사전에 지정( 알고 있다고 가정)

k값을 증가시켜가면서 최적의 값을 찾아가는 것임

[클러스터 개수 선정]- Elbow Method : 팔꿈치처럼 가파른 경사로부터 완만하게 변하는 변곡점을 최적의 k 로 제안. y축 SSE / x축 k -> 문제: 애매한 판단일 수도 있음- Silhouette coefficient : 결과값이 크게 나오는 것을 최적의 k로 제안.

[표준화 방법]

- Min-max scaling: 0~1 scale

- Z-score/Standard scaling: 정규화 z-core

- Robust scaling:

- Max-Absolute scaling

2024.12.06 - [Data Science/실습] - DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)

DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)

12차시 비계층적 군집분석k-means - 임의의 k개의 점을 기반으로 가까운 거리의 데이터를 묶는 것과 더불어 평균을 활용하는 군집분석 기법- 군집 개수(k)를 확정하기 위해 여러 번의 시행착오 필

sometipsfor.tistory.com

300x250

728x90

저작자표시 비영리 변경금지

'Data Science > 이론' 카테고리의 다른 글

왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까? (0)	2024.12.16
선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기 (0)	2024.12.16
DS 이론 23- 의사결정나무,앙상블-랜덤포레스트 (1)	2024.12.10
DS 이론 22- 나이브베이즈분류, 예제 (0)	2024.12.08
DS 이론 21- KNN 알고리즘 (0)	2024.12.08

현재글DS 이론 24- 군집분석, 비계층적 K-means

에너지와 함께

정보공유, IT, 일상

160x600

에너지와 함께