Data Science/이론

왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까?

에너지_2 2024. 12. 16. 13:31
728x90
반응형

2024.11.19 - [Data Science/이론] - DS 이론07~08-추론통계(점/구간추정),상관분석

 

DS 이론07~08-추론통계(점/구간추정),상관분석

※ 학습자료 정리한 내용입니다.  추론 통계1_추정 Q. 계산 문제. 의미 문제. 많이 나옴 추정, Estimation: 표본을 통하여 모집단의 특성이 어떠한 가에 대해 추측하는 과정 - 추정량: 표본정보에 의

sometipsfor.tistory.com

2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석

 

DS 이론09- 선형회귀분석

※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 통해서) 두 개의 변수가 선

sometipsfor.tistory.com

 

계산식이 비슷하면서도

상관분석에서는 표준편차를, 회귀분석에서는 분산을 이용하여 계산하는 차이가 궁금했다.


  사용하는 척도 이유
상관분석 표준편차 (σ) - 단위를 제거해 상대적 관계를 측정
- 상관계수는 무단위 척도로 패턴 강도를 비교
회귀분석 분산 (Var) - 기울기 계산에서 변동성을 반영.
- 변수의 단위를 유지해 예측 모델절대적 크기를 다룸

 

 

  • 상관분석: "두 변수의 상대적 관계가 중요 → 단위 제거(표준화) → 표준편차 사용"
  • 회귀분석: "한 변수가 다른 변수에 미치는 영향(원인-결과) 분석 → 변동성(분산) 사용"

 

1. 상관분석: 표준편차를 사용하는 이유

상관분석에서는 두 변수 간의 상대적인 관계패턴의 강도를 측정합니다. 

상관계수의 단위 제거

  • 상관계수는 두 변수 간의 선형적 관계를 0~1 범위에서 측정합니다.
  • 이를 위해 단위를 제거해야 하는데, 표준편차가 변수의 단위를 맞추는 데 사용됩니다.
  • 예: 공분산(Cov(x,y))을 표준편차(σ, σy)로 나누어 무단위화

상관분석은 비율적 해석을 원함

  • 상관계수는 단위에 민감하지 않고, 단순히 두 변수의 관계 강도를 나타냅니다.
  • 따라서 표준편차로 표준화해 단위나 스케일 차이의 영향을 제거합니다.

 

2. 회귀분석: 분산을 사용하는 이유

회귀분석에서는 변수 간의 인과관계예측 모델을 만드는 것이 주된 목적입니다.

예측과 분산의 역할

  • 회귀분석은 예측의 오차를 최소화하는 것이 목적입니다.
  • 분산은 독립변수의 변동성을 기반으로 종속변수의 변화를 설명하는 데 사용됩니다.
    (즉, x의 변동성이 클수록 예측이 불안정해지거나, 더 큰 y 변화에 영향을 줄 수 있음.)

회귀는 절대적 크기를 분석

  • 회귀분석은 예측값의 크기를 다룹니다. 즉, 변수의 실제 값과 단위를 유지하며 분석합니다.
  • 분산은 스케일을 유지하므로, 회귀모형에서 더 적합합니다.

 

728x90
반응형