Data Science/이론

DS 이론09- 선형회귀분석

에너지_2 2024. 11. 20. 21:36
728x90
반응형

 

 

※ 학습자료 정리한 내용입니다.
  

- 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음!

 

회귀분석 (Regression Analysis)

- (상관분석을 통해서) 두 개의 변수가 선형성이 있고, (회귀분석은) 인과관계를 알고 싶을 때 사용

ex) 마케팅 횟수를 늘리면 매출이 늘어나는가? 얼마나 늘어나는 가?
 

  • 개념: 연속형 변수들 사이의 모형을 구한 뒤, 적합도를 측정해 내는 분석 방법
  • 목적 **
    • 설명: 종속변수에 대한 설명변수(독립변수)의 영향을 측정, 설명
    • 예측: 설명변수(독립변수) 정보가 있을 때 이에 따른 종속변수를 예측
  • 종류
    • 예측함수의 형태에 따라 선형회귀/ 비선형회귀
    • 독립변수의 개수에 따라 단순회귀/ 다중회귀
    • 종속변수의 개수에 따라 단변량회귀/ 다변량회귀

 
[수학적 표현]
$$y=ax+b$$

y:종속변수, x:독립변수
a: 기울기, b: 절편


[통계적 표현]
$$ y= \alpha+\beta x $$

y:종속변수, x:독립변수
\({\beta}\) : 기울기, \({\alpha}\) : 절편

 

- 인과관계는 독립변수(x) 값이 증가할 때마다 종속변수(y)에 얼마나 영향이 가는지 알아야 하기 때문에, 기울기와 절편이 중요함

 
 
Q. 아버지의 키를 바탕으로 아들의 키를 예측할 수 있는 가? 
1,000개 이상의 데이터를 그린 산점도 그래프에서 하나의 x 값에 수많은 y 값이 존재함
아버지의 키(x)가 170 일 때, 아들의 키 (y)는 다양할 수 있음.
-> 선형식에 따르면 하나의 x값에 대해 y 값은 1개만 나와야 하지만, 실제 관측 데이터 (target) 에는 하나의 x 값에 대해 다양한 y 값이 나옴
-> 선형회귀분석의 오차 발생  \(\varepsilon\)

 

https://walkingwithus.tistory.com/606


 

- "오차" (= 잔차)

    Error  = Target - Model 결괏값
   ( 통계에서 사용하는 error는 틀린 아니라 오차임)

- 오차를 줄이는 방법을 선호 = 성능 높임 = 가중치 높임 = 제곱합(SSE)이 가장 작은 것

 
 
이때 가장 간략하게 설명할 기울기를 찾기 위해서는....

 

회귀계수 \( \alpha \)와 \({\beta}\) 의 추정

    • 최소제곱법

오차가 최소가 되도록 \( \alpha \)와 \({\beta}\) 를 추정하는 방법

    • 단순회귀모형 \(Y_i=\alpha +\beta x_i+\varepsilon _i\) 에서 오차의 제곱합(SSE, sum of squares)

$$SS(\alpha ,\beta ) = \sum_{i=1}^{n} \varepsilon _i^{2}= \sum_{i=1}^{n}{(y_i-\alpha -\beta x_i)}^2$$

 

target : \( y_i \)
model: \(-(\alpha+\beta x_i)\)

 
- 잔차의 제곱합(SS)이 최소가 되는 회귀계수  \( \alpha \) 와 \({\beta}\) 최소제곱추정량이라고 함
   -> \(\hat {\alpha}\),\(\hat {\beta}\) 로 표현
- 절댓값은 미분을 할 수 없다는 단점이 있기 때문에 제곱을 사용함
 

  • 추정된 회귀선 (regression line)
    • 데이터들 사이의 거리가 최소가 되도록 하는 직선식
    • 최소제곱법을 통해서 오차를 최소화
    • 오차제곱합(SSE)이 가장 작은 것이 데이터를 가장 잘 표현하고 있는 것

$$\hat{y} = \hat{\alpha }+\hat{\beta x}$$

 

 

- 가장 오차를 최소화하기 위한 최소제곱추정량 을 구하고 정규방정식 (회귀식)을 활용한다. 

단순 선형회귀분석 정규방정식 ***

 

\(\hat {\alpha}\) : 절편, \(\hat {\beta}\) : 기울기 (출처: https://enook.jbnu.ac.kr/contents/44/#!/p/28)


Q. x, y 좌표를 주고 이 좌표들을 선형회귀분석 모델로 표현할 때 \(\hat {\alpha}\),\(\hat {\beta}\) 을 구해라
 1. \(\bar{X}\), \(\bar{Y}\)  평균값  구하기
     - 평균  = (X or Y 전체 값) / N
 2. \( {\beta} \) 기울기 구하기 -> 절편 구할 때 \( {\beta} \)  들어가기 때문에 먼저 찾기
     - 앞에 기울기 구하는 식이 있음
 3. \({\alpha}\)  절편 구하기

\(\hat {\alpha}\) : 2.5, \(\hat {\beta}\) :0.7

 
 
Q. SS(Error) = 49.2
오차의 제곱합이 가장 작은 것이 현재 이 데이터를 가장 잘 표현하고 있는 선형식

 


공부하면서 궁금했던 것들 정리한 페이지..
 

2024.12.16 - [Data Science/이론] - 선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기

 

선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기

2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수

sometipsfor.tistory.com

2024.12.16 - [Data Science/이론] - 왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까?

 

왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까?

2024.11.19 - [Data Science/이론] - DS 이론07~08-추론통계(점/구간추정),상관분석 DS 이론07~08-추론통계(점/구간추정),상관분석※ 학습자료 정리한 내용입니다.  추론 통계1_추정 Q. 계산 문제. 의미 문제.

sometipsfor.tistory.com

 

반응형
300x250

 

728x90
반응형