※ 학습자료 정리한 내용입니다.
[이전 내용]
2024.11.22 - [Data Science/이론] - DS 이론10-선형회귀분석2_통계파트(주요 가정)
- 앞선 선형회귀분석 4가지 가정 관련 이슈 이외 다른 이슈에 대해 설명
다른 이슈가 있는 데이터일 때
[이상치 이슈]
- 확인방법
- 히스토그램, 막대그래프 등
- 대응방법
- 데이터 변환 : 이상치 데이터를 지움
- Robust Regression : 잔차의 제곱 \(\varepsilon^2\) 대신 절댓값의 합이 최소가 되도록 계수를 추정하는 방식 -> 제곱을 하면 값이 커지기 때문에, 이를 합산으로 바꿔서 값을 줄
- Quantile Regression : 평균이 아닌 특정 분위 값을 추정 -> 구간 별로 선형회귀선을 그려서 전체 데이터가 아닌 특정 구간의 데이터 평균을 기준으로 이상치 판단. z 값이 A 구간에서는 이상치이지만, B 구간에서는 이상치가 안 되게 이슈 처리
[다중공선성 이슈]
- 독립변수 간에 강한 상관관계가 있는 경우
- 확인방법
- 상관분석
- VIF(Variance Inflation Factor) : 클수록 다중공선성이 존재한다고 판단
- 대응방법 **
- Feature Engineering : 알고리즘을 통해 Feature 데이터 처리(새로운 데이터 생성 등), Feature selection 기법을 통해 이슈가 있는 것은 버리고 나머지 데이터를 통해서만 분석
- Regularization 정규화
- Ridge Regression/ LASSO/ Elastic Net
- Ridge Regression: 이슈데이터를 제거하진 않고, 가중치 값을 확 줄임 -> 이슈데이터의 영향력을 줄여버림
- LASSO: 이슈데이터 제거
- Elastic Net: 1,2 방법을 사용
- PCR(Principal Component Regression) : 다른 차원으로 매핑하여 다중공선성 관계를 없앰 (뒤에 주성분분석 내용 나옴)
- PLS(Partial Least Square Regression) : 종속변수와 독립변수를 모두 변형
- Ridge Regression/ LASSO/ Elastic Net
선형회귀모델 평가**
- 회귀 모델의 적합도와 성능을 평가하는 방법
- 평가지표 라고 칭함
[잔차분석]
- 잔차 시각화를 통한 회귀분석 가정을 검토
- Raw data 선점도를 봤을 때는 선형성을 갖고 있어서 선형회귀분석이 가능하다고 판단했지만,
잔차 분석을 통해 등분산성을 알 수 있음 -> 등분산성 이슈가 있으면 선형회귀분석 사용 불가
[Goodness of fit]
! 동영상 다시 듣기
R^2 (결정계수, coefficient of determination) [0, 1] ***
- 변수간 영향을 주는 정도 or 인과 관계의 정도를 정량화 해서 나타낸 수치
- 추정한 선형의 모형이 주어진 자료에 대해 얼마나 적합한가를 나타냄
ex) 회귀분석이 얼마나 인과관계를 잘 표현하고 있는 지를 알 수 있음
- 1 에 가까울수록 인과관계가 높음
\({R^2=\frac{SSR}{SST}}\)
SST: 총 변동, SSE: 오차에 의한 변동=잔차, SSR: 회귀선에 의한 변동
- SSR 이 있다는 것은 회귀식이 존재한다는 뜻으로 이해하기
- ANOVA에서는 SSR 가 SSTR (그룹 간의 변동성) 이였는데.
Q. R^2 값이 동일한 두 집단 중 어떤 게 좋은 집단인지?
A. 각 집단에 들어가 있는 변수의 개수가 작은 것
R^2 의 문제
- 독립변수를 추가하면 값이 상승함 -> Adjusted R^2 사용
R^2 활용 시 고려할 사항
- 적합성에 대한 '완전한' 지표가 아니고, 선형적합도를 측정하는 한 가지 방법일 뿐이다
- 예측 오차에 대한 지표가 아니다
- 하나의 변수가 다른 변수에 대하여 얼마나 설명하는 가를 측정하는 것은 아니다
- 회귀모델 적절 & R^2 값 ↓ or R^2 값 ↑ & 회귀모델 부적절
▶ 다른 평가 지표와 함께 활용하도록!
- 다른 평가 지표는 뭐가 더 있습니까?
[Error Metrics]
- 회귀 모형에 대한 오차 지표
현재까지 상관분석을 통해 변수 간의 선형관계를 알고, 회귀분석을 통해 인과관계성을 배웠다.
기울기, 절편을 구하며 회귀식을 구할 수 있었던 것은 x 와 y 변수가 수치형 데이터였기 때문이다. (상관분석의 전제 조건)
그런데, 문자형 데이터가 들어오는 경우에는 어떻게 처리해야하는 가?
회귀모형에서 명목형 변수의 처리
one-hot-encoding
- 범주형 데이터를 수치형으로 변환하여 사용
- 범주형 데이터를 각각의 colume 으로 변경하고, 0과 1로 표현
가변수(Dummy Variable)
- 데이터가 많아지는 경우, colume 늘어나는 것을 해결하는 방법
- 변수 하나를 기준값으로 정하고 나머지를 추가
Q. 명목형(문자형) 데이터 처리를 위한 방법은? 보기
참고)
'Data Science > 이론' 카테고리의 다른 글
DS 이론16~18-머신러닝, 특성공학(Under/Over fitting, 모델평가기법) (0) | 2024.12.02 |
---|---|
DS 이론13~15-데이터 전처리(결측치, 정규화, 변환) (0) | 2024.11.23 |
DS 이론10-선형회귀분석2_통계파트(주요 가정) (0) | 2024.11.22 |
DS 이론09- 선형회귀분석 (0) | 2024.11.20 |
DS 이론07~08-추론통계(점/구간추정),상관분석 (0) | 2024.11.19 |