Unsupervised learning
- 입력 데이터에 Label이 없어 데이터의 특징만으로 패턴을 찾는 학습방법
- 비지도 학습을 사용 하는 이유
1) 알려지지 않은 모든 종류의 패턴을 찾으려 시도
2) 범주화에 도움이되는 특징과 패턴을 알아내는 데 도움
3) Label이 되지 않은 데이터가 더 확보하기 쉬움 -> Lable은 시간이 오래 걸림
Clustering, 군집분석
- 계층적/ 비계층적
- 주어진 입력 값(들)을 바탕으로 유사한 값들로 데이터를 몇 개의 그룹으로 묶어주는 것 -> 유사도를 기반으로 함
-> 유사하다는 근거는? distance 계산. KNN 알고리즘과 동일.
- 데이터 전체의 구조에 대한 이해를 높이는 탐색적 분석방법
[유형]
- 상호 배반적 군집: 각 관찰치가 상호 배반적인 여러 군집 가운데 하나에만 속하는 경우
- 계보적 군집: 한 군집이 다른 군집 내부에 포함되는 형태로 군집간 중복은 없음
- 중복 군집 : 두 개 이상의 군집에 한 관찰치가 동시에 속사는 것이 허용되는 경우
- 퍼지 군집: 관찰치가 각 군집에 속할 확률을 표현하는 방법
군집 대상의 중복여부, 유 -> 비계측정 군집분석: 중복군집
, 무 -> 자료의 크기, 작음 -> 계층적 군집분석: 최단/최장/평균/와드 연결법
, 제약없음 -> 비계층적 군집분석: K-means 군집화
비계층적 군집분석: K-means 군집화
- k : 클러스터 갯수
- Non-hierarchicla Clustering
- 원하는 군집의 수, "무조건" k를 사전에 지정( 알고 있다고 가정)
k값을 증가시켜가면서 최적의 값을 찾아가는 것임
[클러스터 개수 선정]- Elbow Method : 팔꿈치처럼 가파른 경사로부터 완만하게 변하는 변곡점을 최적의 k 로 제안. y축 SSE / x축 k -> 문제: 애매한 판단일 수도 있음- Silhouette coefficient : 결과값이 크게 나오는 것을 최적의 k로 제안.
[표준화 방법]
- Min-max scaling: 0~1 scale
- Z-score/Standard scaling: 정규화 z-core
- Robust scaling:
- Max-Absolute scaling
'Data Science > 이론' 카테고리의 다른 글
왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까? (0) | 2024.12.16 |
---|---|
선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기 (0) | 2024.12.16 |
DS 이론 23- 의사결정나무,앙상블-랜덤포레스트 (0) | 2024.12.10 |
DS 이론 22- 나이브베이즈분류, 예제 (0) | 2024.12.08 |
DS 이론 21- KNN 알고리즘 (0) | 2024.12.08 |