728x90
반응형

Data Science/이론 17

왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까?

2024.11.19 - [Data Science/이론] - DS 이론07~08-추론통계(점/구간추정),상관분석 DS 이론07~08-추론통계(점/구간추정),상관분석※ 학습자료 정리한 내용입니다.  추론 통계1_추정 Q. 계산 문제. 의미 문제. 많이 나옴 추정, Estimation: 표본을 통하여 모집단의 특성이 어떠한 가에 대해 추측하는 과정 - 추정량: 표본정보에 의sometipsfor.tistory.com2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 ..

Data Science/이론 2024.12.16

선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기

2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 통해서) 두 개의 변수가 선sometipsfor.tistory.com $$ y= \alpha+\beta x $$y:종속변수, x:독립변수\({\beta}\) : 기울기, \({\alpha}\) : 절편   \( {\beta} \) 기울기 계산법을 무작정 외우기보다는 이해하고 싶어서 작성하는 글... \( {\beta} \)  기울기의 의미 - x 가 1 단위 증가할 때 y가 얼마나 변하는지를 나타냄 분자 (공..

Data Science/이론 2024.12.16

DS 이론 24- 군집분석, 비계층적 K-means

Unsupervised learning- 입력 데이터에 Label이 없어 데이터의 특징만으로 패턴을 찾는 학습방법- 비지도 학습을 사용 하는 이유 1) 알려지지 않은 모든 종류의 패턴을 찾으려 시도 2) 범주화에 도움이되는 특징과 패턴을 알아내는 데 도움 3) Label이 되지 않은 데이터가 더 확보하기 쉬움 -> Lable은 시간이 오래 걸림 Clustering, 군집분석- 계층적/ 비계층적- 주어진 입력 값(들)을 바탕으로 유사한 값들로 데이터를 몇 개의 그룹으로 묶어주는 것 -> 유사도를 기반으로 함   -> 유사하다는 근거는?  distance 계산.  KNN 알고리즘과 동일.- 데이터 전체의 구조에 대한 이해를 높이는 탐색적 분석방법 [유형]- 상호 배반적 군집: 각 관찰치가 상호 배반적인 여러..

Data Science/이론 2024.12.10

DS 이론 23- 의사결정나무,앙상블-랜덤포레스트

2024.12.08 - [Data Science/실습] - DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무 DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무분류 나무(Classification Tree)- 종속변수가 명목형인 경우 사용- 각 노드 분류 알고리즘은 이진 분류 시 Gini Index 기반의 CART(Classification And Regression Tree) 사용 회귀 나무(Regression Tree)- 종속변수가 연속sometipsfor.tistory.com의사결정나무- 데이터를 특정 기준에 따라 재귀적으로 분리하면서 나무 형태의 구조를 형성합니다.   분류나무 - 범주형 목표 변수를 기준으로 마디를 나눔- 끝마디에 포함된 자료의 범주가 분류 결과 값이 됨 회귀나무- ..

Data Science/이론 2024.12.10

DS 이론 22- 나이브베이즈분류, 예제

https://sometipsfor.tistory.com/39 DS 실습 16- 나이브 베이즈- 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확률(prior) 설정이 중요   ex) "이전까지 이러이러한 빈sometipsfor.tistory.com- Feature 들이 확률적으로 '독립'이라는 가정으로 확률 계산을 용이하게 함 - 베이즈 법칙 (확률)에 기반한 분류 기법2024.11.16 - [Data Science/이론] - DS 이론 2- 확률실험, 베이즈정리  ... 베이즈 법칙을 알면 나이브베이즈분류 이해가 쉬움베이즈 정리 - P(A) : 사전확률 - 사건 B가 일어나기 전 사건. A가 일어날 확률 (이미 알고..

Data Science/이론 2024.12.08

DS 이론 21- KNN 알고리즘

2024.12.07 - [Data Science/실습] - DS 실습 17- KNN(K-Nearest Neighbor) DS 실습 17- KNN(K-Nearest Neighbor)- 새로운 값은 기존의 데이터를 기준으로 가장 가까운 k개의 최근접 값을 기준으로 분류됨- k가 짝수되는 것은 피하도록- 과적합: k 가 1에 가까울수록 과소적합: k가 클수록 KNN 회귀(Regression)- 분sometipsfor.tistory.com kNN 알고리즘 - 특정 데이터를 k개의 인접한 요소를 기반으로 예측하는 지도학습 알고리즘   -> "가깝다"는 판단의 기준 필요 => distance  거리계산이 필요  - k 값이 1에 가까우면 과적합이 되며, 값이 커질수록 모델이 단순해지지만 과소적합이 되기에 적절한 k..

Data Science/이론 2024.12.08

DS 이론19~20- 선형회귀분석(머신러닝),로지스틱 회귀분석*

※ 학습자료 정리한 내용입니다. 19차시 선형회귀분석_머신러닝파트앞에서 배운 통계파트의 선형회귀분석과 접근방식,관심사가 다름. 정확히 딱 분류되어 학습하기! - 선형회귀분석  1) 독립변수 X로 종속변수Y를 설명할 때, 선형 관계인 경우  2) 독립변수 X가 여러 개일 수 있다 - 선형회귀분석 머신러닝에서는 통계학적 가정(선형성, 정규성, 등분산성, 독립성)이 없음- 대신, 머신러닝에서도 데이터를 보고 절편, 기울기를 구할 수 있어야 함  선형모델의 핵심은 실제 값($y_i$)과 모델이 예측한 값($\hat{y_i}$)사이의 오차를 최소화하는 것이다.오차는 MSE(Mean Squared Error) 로 측정한다.MSE:  실제 값과 예측 값 간의 차이의 제곱의 평균  머신러닝에서는 미분을 통해 MSE의 ..

Data Science/이론 2024.12.03

DS 이론16~18-머신러닝, 특성공학(Under/Over fitting, 모델평가기법)

※ 학습자료 정리한 내용입니다. 16차시 머신러닝 개요 및 유형Q. 용어 개념 - 머신러닝: '자동으로' 개선되는 컴퓨터 알고리즘에 대한 학문- Artifical Intelligence ⊃ Machine Learning ⊃ Deep Learning (가장 유명한 알고리즘) Machine Learning 종류 **Machine LearningSupervised LearningUnsupervised LearningReinforcement LearningTask Driven( Regression / Classification)Data Driven(Clustering / 차원축소)Algorithm learns form mistakes [Supervised Learning, 지도학습]= '교사학습', Deep..

Data Science/이론 2024.12.02

DS 이론13~15-데이터 전처리(결측치, 정규화, 변환)

※ 학습자료 정리한 내용입니다. [Level 2] 13 데이터 전처리 1_데이터클리닝 13차시 데이터 전처리 1_데이터클리닝: 데이터를 분석하기 좋은 형태로 만드는 과정 [데이터 전처리의 필요성]  ** : 데이터 품질은 분석 결과 품질의 출발점이며,  데이터 품질이 높은 경우에도 데이터 전처리는 필요하다 - 데이터 전처리가 필요한 경우구조적 형태가 분석 목적에 적합하지 않은 경우 사용하는 툴, 기법에서 요구하는 데이터 형태가 있는 경우데이터가 너무 많은 경우데이터 품질이 낮은 경우불완전(Incomplete) : 데이터의 필드가 비어있는 경우 "결측치"잡음(Noise) : 데이터에 오류가 포함된 경우 "이상치" ex) 수치형 데이터 중 문자형 존재모순(Inconsistency) : 데이터 간 정합성, 일..

Data Science/이론 2024.11.23

DS 이론 11-선형회귀분석3_이슈처리,성능평가지표,명목형변수

※ 학습자료 정리한 내용입니다.[이전 내용]2024.11.22 - [Data Science/이론] - DS 이론10-선형회귀분석2_통계파트(주요 가정) DS 이론10-선형회귀분석2_통계파트(주요 가정)※ 학습자료 정리한 내용입니다.  선형회귀분석의 4가지 가정 ***출처: http://kocw-n.xcache.kinxcdn.com/data/keris/2021/leeyoonmo1021/3-4.pdf 선형성 : 독립변수와 종속변수 간 선형관계정규성 * : 오차 분산의 형sometipsfor.tistory.com- 앞선 선형회귀분석 4가지 가정 관련 이슈 이외 다른 이슈에 대해 설명 다른 이슈가 있는 데이터일 때[이상치 이슈]확인방법히스토그램, 막대그래프 등대응방법데이터 변환 : 이상치 데이터를 지움Robus..

Data Science/이론 2024.11.22
728x90
반응형