※ 학습자료 정리한 내용입니다.
- 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음!
회귀분석 (Regression Analysis)
- (상관분석을 통해서) 두 개의 변수가 선형성이 있고, (회귀분석은) 인과관계를 알고 싶을 때 사용
ex) 마케팅 횟수를 늘리면 매출이 늘어나는가? 얼마나 늘어나는 가?
- 개념: 연속형 변수들 사이의 모형을 구한 뒤, 적합도를 측정해 내는 분석 방법
- 목적 **
- 설명: 종속변수에 대한 설명변수(독립변수)의 영향을 측정, 설명
- 예측: 설명변수(독립변수) 정보가 있을 때 이에 따른 종속변수를 예측
- 종류
- 예측함수의 형태에 따라 선형회귀/ 비선형회귀
- 독립변수의 개수에 따라 단순회귀/ 다중회귀
- 종속변수의 개수에 따라 단변량회귀/ 다변량회귀
[수학적 표현]
$$y=ax+b$$
y:종속변수, x:독립변수
a: 기울기, b: 절편
▼
[통계적 표현]
$$ y= \alpha+\beta x $$
y:종속변수, x:독립변수
\({\beta}\) : 기울기, \({\alpha}\) : 절편
- 인과관계는 독립변수(x) 값이 증가할 때마다 종속변수(y)에 얼마나 영향이 가는지 알아야 하기 때문에, 기울기와 절편이 중요함
Q. 아버지의 키를 바탕으로 아들의 키를 예측할 수 있는 가?
1,000개 이상의 데이터를 그린 산점도 그래프에서 하나의 x 값에 수많은 y 값이 존재함
아버지의 키(x)가 170 일 때, 아들의 키 (y)는 다양할 수 있음.
-> 선형식에 따르면 하나의 x값에 대해 y 값은 1개만 나와야 하지만, 실제 관측 데이터 (target) 에는 하나의 x 값에 대해 다양한 y 값이 나옴
-> 선형회귀분석의 오차 발생 \(\varepsilon\)
- "오차" (= 잔차)
Error = Target - Model 결괏값
( 통계에서 사용하는 error는 틀린 게 아니라 오차임)
- 오차를 줄이는 방법을 선호 = 성능 높임 = 가중치 높임 = 제곱합(SSE)이 가장 작은 것
이때 가장 간략하게 설명할 기울기를 찾기 위해서는....
회귀계수 \( \alpha \)와 \({\beta}\) 의 추정
- 최소제곱법
오차가 최소가 되도록 \( \alpha \)와 \({\beta}\) 를 추정하는 방법
-
- 단순회귀모형 \(Y_i=\alpha +\beta x_i+\varepsilon _i\) 에서 오차의 제곱합(SSE, sum of squares)
$$SS(\alpha ,\beta ) = \sum_{i=1}^{n} \varepsilon _i^{2}= \sum_{i=1}^{n}{(y_i-\alpha -\beta x_i)}^2$$
target : \( y_i \)
model: \(-(\alpha+\beta x_i)\)
- 잔차의 제곱합(SS)이 최소가 되는 회귀계수 \( \alpha \) 와 \({\beta}\)를 최소제곱추정량이라고 함
-> \(\hat {\alpha}\),\(\hat {\beta}\) 로 표현
- 절댓값은 미분을 할 수 없다는 단점이 있기 때문에 제곱을 사용함
- 추정된 회귀선 (regression line)
- 데이터들 사이의 거리가 최소가 되도록 하는 직선식
- 최소제곱법을 통해서 오차를 최소화
- 오차제곱합(SSE)이 가장 작은 것이 데이터를 가장 잘 표현하고 있는 것
$$\hat{y} = \hat{\alpha }+\hat{\beta x}$$
- 가장 오차를 최소화하기 위한 최소제곱추정량 을 구하고 정규방정식 (회귀식)을 활용한다.
단순 선형회귀분석 정규방정식 ***
Q. x, y 좌표를 주고 이 좌표들을 선형회귀분석 모델로 표현할 때 \(\hat {\alpha}\),\(\hat {\beta}\) 을 구해라
1. \(\bar{X}\), \(\bar{Y}\) 평균값 구하기
- 평균 = (X or Y 전체 값) / N
2. \( {\beta} \) 기울기 구하기 -> 절편 구할 때 \( {\beta} \) 들어가기 때문에 먼저 찾기
- 앞에 기울기 구하는 식이 있음
3. \({\alpha}\) 절편 구하기
Q. SS(Error) = 49.2
오차의 제곱합이 가장 작은 것이 현재 이 데이터를 가장 잘 표현하고 있는 선형식
공부하면서 궁금했던 것들 정리한 페이지..
2024.12.16 - [Data Science/이론] - 선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기
2024.12.16 - [Data Science/이론] - 왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까?
'Data Science > 이론' 카테고리의 다른 글
DS 이론 11-선형회귀분석3_이슈처리,성능평가지표,명목형변수 (0) | 2024.11.22 |
---|---|
DS 이론10-선형회귀분석2_통계파트(주요 가정) (0) | 2024.11.22 |
DS 이론07~08-추론통계(점/구간추정),상관분석 (0) | 2024.11.19 |
DS 이론 06- 연속확률분포(지수,정규,t,카이제곱,f) (0) | 2024.11.18 |
DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송) (1) | 2024.11.17 |