728x90
반응형
2024.11.19 - [Data Science/이론] - DS 이론07~08-추론통계(점/구간추정),상관분석
2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석
계산식이 비슷하면서도
상관분석에서는 표준편차를, 회귀분석에서는 분산을 이용하여 계산하는 차이가 궁금했다.
사용하는 척도 | 이유 | |
상관분석 | 표준편차 (σ) | - 단위를 제거해 상대적 관계를 측정 - 상관계수는 무단위 척도로 패턴 강도를 비교 |
회귀분석 | 분산 (Var) | - 기울기 계산에서 변동성을 반영. - 변수의 단위를 유지해 예측 모델과 절대적 크기를 다룸 |
- 상관분석: "두 변수의 상대적 관계가 중요 → 단위 제거(표준화) → 표준편차 사용"
- 회귀분석: "한 변수가 다른 변수에 미치는 영향(원인-결과) 분석 → 변동성(분산) 사용"
1. 상관분석: 표준편차를 사용하는 이유
상관분석에서는 두 변수 간의 상대적인 관계나 패턴의 강도를 측정합니다.
상관계수의 단위 제거
- 상관계수는 두 변수 간의 선형적 관계를 0~1 범위에서 측정합니다.
- 이를 위해 단위를 제거해야 하는데, 표준편차가 변수의 단위를 맞추는 데 사용됩니다.
- 예: 공분산(Cov(x,y))을 표준편차(σ , σy)로 나누어 무단위화
상관분석은 비율적 해석을 원함
- 상관계수는 단위에 민감하지 않고, 단순히 두 변수의 관계 강도를 나타냅니다.
- 따라서 표준편차로 표준화해 단위나 스케일 차이의 영향을 제거합니다.
2. 회귀분석: 분산을 사용하는 이유
회귀분석에서는 변수 간의 인과관계나 예측 모델을 만드는 것이 주된 목적입니다.
예측과 분산의 역할
- 회귀분석은 예측의 오차를 최소화하는 것이 목적입니다.
- 분산은 독립변수의 변동성을 기반으로 종속변수의 변화를 설명하는 데 사용됩니다.
(즉, x의 변동성이 클수록 예측이 불안정해지거나, 더 큰 y 변화에 영향을 줄 수 있음.)
회귀는 절대적 크기를 분석
- 회귀분석은 예측값의 크기를 다룹니다. 즉, 변수의 실제 값과 단위를 유지하며 분석합니다.
- 분산은 스케일을 유지하므로, 회귀모형에서 더 적합합니다.
728x90
반응형
'Data Science > 이론' 카테고리의 다른 글
선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기 (0) | 2024.12.16 |
---|---|
DS 이론 24- 군집분석, 비계층적 K-means (0) | 2024.12.10 |
DS 이론 23- 의사결정나무,앙상블-랜덤포레스트 (0) | 2024.12.10 |
DS 이론 22- 나이브베이즈분류, 예제 (0) | 2024.12.08 |
DS 이론 21- KNN 알고리즘 (0) | 2024.12.08 |