Data Science/이론

DS 이론 11-선형회귀분석3_이슈처리,성능평가지표,명목형변수

에너지_2 2024. 11. 22. 12:41
728x90
반응형

 

※ 학습자료 정리한 내용입니다.

[이전 내용]

2024.11.22 - [Data Science/이론] - DS 이론10-선형회귀분석2_통계파트(주요 가정)

 

DS 이론10-선형회귀분석2_통계파트(주요 가정)

※ 학습자료 정리한 내용입니다.  선형회귀분석의 4가지 가정 ***출처: http://kocw-n.xcache.kinxcdn.com/data/keris/2021/leeyoonmo1021/3-4.pdf 선형성 : 독립변수와 종속변수 간 선형관계정규성 * : 오차 분산의 형

sometipsfor.tistory.com


- 앞선 선형회귀분석 4가지 가정 관련 이슈 이외 다른 이슈에 대해 설명

 

다른 이슈가 있는 데이터일 때

[이상치 이슈]

  • 확인방법
    • 히스토그램, 막대그래프 등
  • 대응방법
    • 데이터 변환 : 이상치 데이터를 지움
    • Robust Regression : 잔차의 제곱 \(\varepsilon^2\) 대신 절댓값의 합이 최소가 되도록 계수를 추정하는 방식 -> 제곱을 하면 값이 커지기 때문에, 이를 합산으로 바꿔서 값을 줄 
    • Quantile Regression : 평균이 아닌 특정 분위 값을 추정 -> 구간 별로 선형회귀선을 그려서 전체 데이터가 아닌 특정 구간의 데이터 평균을 기준으로 이상치 판단. z 값이 A 구간에서는 이상치이지만, B 구간에서는 이상치가 안 되게 이슈 처리

[다중공선성 이슈]

- 독립변수 간에 강한 상관관계가 있는 경우

  • 확인방법
    • 상관분석
    • VIF(Variance Inflation Factor) : 클수록 다중공선성이 존재한다고 판단
  • 대응방법 **
    • Feature Engineering : 알고리즘을 통해 Feature 데이터 처리(새로운 데이터 생성 등),  Feature selection 기법을 통해 이슈가 있는 것은 버리고 나머지 데이터를 통해서만 분석
    • Regularization 정규화
      • Ridge Regression/ LASSO/ Elastic Net 
        1. Ridge Regression: 이슈데이터를 제거하진 않고, 가중치 값을 확 줄임 -> 이슈데이터의 영향력을 줄여버림
        2. LASSO: 이슈데이터 제거
        3. Elastic Net: 1,2 방법을 사용
      • PCR(Principal Component Regression) : 다른 차원으로 매핑하여 다중공선성 관계를 없앰 (뒤에 주성분분석 내용 나옴) 
      • PLS(Partial Least Square Regression) : 종속변수와 독립변수를 모두 변형

 

 

선형회귀모델 평가**

- 회귀 모델의 적합도와 성능을 평가하는 방법

- 평가지표 라고 칭함

[잔차분석] 

- 잔차 시각화를 통한 회귀분석 가정을 검토

- Raw data 선점도를 봤을 때는 선형성을 갖고 있어서 선형회귀분석이 가능하다고 판단했지만,

   잔차 분석을 통해 등분산성을 알 수 있음 -> 등분산성 이슈가 있으면 선형회귀분석 사용 불가

x축:예측, y축: 잔차 / (왼) 가정을 대체로 만족하고 모형 적합이 잘 된 경우 (오) 등분산 가정 위배
(왼) 잔차 데이터 모형에 기울기가 존재하면 안됨

 

[Goodness of fit]  

! 동영상 다시 듣기

 

R^2  (결정계수, coefficient of determination) [0, 1] ***

- 변수간 영향을 주는 정도 or 인과 관계의 정도를 정량화 해서 나타낸 수치

- 추정한 선형의 모형이 주어진 자료에 대해 얼마나 적합한가를 나타냄

   ex) 회귀분석이 얼마나 인과관계를 잘 표현하고 있는 지를 알 수 있음

- 1 에 가까울수록 인과관계가 높음

\({R^2=\frac{SSR}{SST}}\)

 

SST: 총 변동, SSE: 오차에 의한 변동=잔차, SSR: 회귀선에 의한 변동

 

- SSR 이 있다는 것은 회귀식이 존재한다는 뜻으로 이해하기

- ANOVA에서는 SSR 가 SSTR (그룹 간의 변동성) 이였는데.

 

Q. R^2 값이 동일한 두 집단 중 어떤 게 좋은 집단인지?

A. 각 집단에 들어가 있는 변수의 개수가 작은 것

 

 

R^2 의 문제

- 독립변수를 추가하면 값이 상승함 -> Adjusted R^2  사용

 

 

R^2   활용 시 고려할 사항

- 적합성에 대한 '완전한' 지표가 아니고, 선형적합도를 측정하는 한 가지 방법일 뿐이다

- 예측 오차에 대한 지표가 아니다

- 하나의 변수가 다른 변수에 대하여 얼마나 설명하는 가를 측정하는 것은 아니다

회귀모델 적절 &  R^2  값 ↓ or R^2  값 ↑ & 회귀모델 부적절

   ▶ 다른 평가 지표와 함께 활용하도록!

 

 

- 다른 평가 지표는 뭐가 더 있습니까?

[Error Metrics]

- 회귀 모형에 대한 오차 지표

 

 

현재까지 상관분석을 통해 변수 간의 선형관계를 알고, 회귀분석을 통해 인과관계성을 배웠다.

기울기, 절편을 구하며 회귀식을 구할 수 있었던 것은 x 와 y 변수가 수치형 데이터였기 때문이다. (상관분석의 전제 조건)

 

그런데, 문자형 데이터가 들어오는 경우에는 어떻게 처리해야하는 가?

회귀모형에서 명목형 변수의 처리

 one-hot-encoding

- 범주형 데이터를 수치형으로 변환하여 사용 

- 범주형 데이터를 각각의 colume 으로 변경하고, 0과 1로 표현

 

가변수(Dummy Variable)

- 데이터가 많아지는 경우, colume 늘어나는 것을 해결하는 방법

- 변수 하나를 기준값으로 정하고 나머지를 추가

 

 

Q. 명목형(문자형) 데이터 처리를 위한 방법은? 보기

 

 

반응형
300x250

참고)

https://bluediary8.tistory.com/158

https://www.ssacstat.com/base/cs/cs_05.php?com_board_basic=read_form&topmenu=5&left=5&&com_board_search_code=&com_board_search_value1=&com_board_search_value2=&com_board_page=18&&com_board_id=12&&com_board_idx=818

728x90
반응형