728x90
반응형

Data Science 33

왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까?

2024.11.19 - [Data Science/이론] - DS 이론07~08-추론통계(점/구간추정),상관분석 DS 이론07~08-추론통계(점/구간추정),상관분석※ 학습자료 정리한 내용입니다.  추론 통계1_추정 Q. 계산 문제. 의미 문제. 많이 나옴 추정, Estimation: 표본을 통하여 모집단의 특성이 어떠한 가에 대해 추측하는 과정 - 추정량: 표본정보에 의sometipsfor.tistory.com2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 ..

Data Science/이론 2024.12.16

선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기

2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 통해서) 두 개의 변수가 선sometipsfor.tistory.com $$ y= \alpha+\beta x $$y:종속변수, x:독립변수\({\beta}\) : 기울기, \({\alpha}\) : 절편   \( {\beta} \) 기울기 계산법을 무작정 외우기보다는 이해하고 싶어서 작성하는 글... \( {\beta} \)  기울기의 의미 - x 가 1 단위 증가할 때 y가 얼마나 변하는지를 나타냄 분자 (공..

Data Science/이론 2024.12.16

KMeans와 Silhouette Score를 활용한 클러스터링 평가

2024.12.06 - [Data Science/실습] - DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score) DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)12차시 비계층적 군집분석 GhatGPT 답:K-Means 군집분석은 데이터셋에서 **유사한 특성을 가진 그룹(클러스터)**을 찾기 위해 사용됩니다.이는 데이터 분석, 분류, 예측 등 여러 작업에 도움이 됩니sometipsfor.tistory.com KMeans를 사용하여 데이터를 클러스터링하고, Silhouette Score를 이용해 각 클러스터링 결과를 평가하는 예제 - KMeans..

Data Science/실습 2024.12.14

DS 이론 24- 군집분석, 비계층적 K-means

Unsupervised learning- 입력 데이터에 Label이 없어 데이터의 특징만으로 패턴을 찾는 학습방법- 비지도 학습을 사용 하는 이유 1) 알려지지 않은 모든 종류의 패턴을 찾으려 시도 2) 범주화에 도움이되는 특징과 패턴을 알아내는 데 도움 3) Label이 되지 않은 데이터가 더 확보하기 쉬움 -> Lable은 시간이 오래 걸림 Clustering, 군집분석- 계층적/ 비계층적- 주어진 입력 값(들)을 바탕으로 유사한 값들로 데이터를 몇 개의 그룹으로 묶어주는 것 -> 유사도를 기반으로 함   -> 유사하다는 근거는?  distance 계산.  KNN 알고리즘과 동일.- 데이터 전체의 구조에 대한 이해를 높이는 탐색적 분석방법 [유형]- 상호 배반적 군집: 각 관찰치가 상호 배반적인 여러..

Data Science/이론 2024.12.10

DS 이론 23- 의사결정나무,앙상블-랜덤포레스트

2024.12.08 - [Data Science/실습] - DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무 DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무분류 나무(Classification Tree)- 종속변수가 명목형인 경우 사용- 각 노드 분류 알고리즘은 이진 분류 시 Gini Index 기반의 CART(Classification And Regression Tree) 사용 회귀 나무(Regression Tree)- 종속변수가 연속sometipsfor.tistory.com의사결정나무- 데이터를 특정 기준에 따라 재귀적으로 분리하면서 나무 형태의 구조를 형성합니다.   분류나무 - 범주형 목표 변수를 기준으로 마디를 나눔- 끝마디에 포함된 자료의 범주가 분류 결과 값이 됨 회귀나무- ..

Data Science/이론 2024.12.10

A_1['B'].value_counts(nomalize = True) 와 pd.crosstab(A, B, nomalize = True) 가 다른 이유?

[비율] 선택 시 데이터가 응답 비율(%)로 나타납니다.[빈도] 선택 시 응답자 수(명)으로 나타납니다정확한 비율을 계산하려면 각 그룹을 필터링한 후, 전배 희망자의 비율을 계산하고 그 비율을 나누어야 합니다.문제:A == 1 인 것 중 B == 1인 비율,A == 0 인 것 중 B == 1 인 비율을 구하여라.답변:문제의 핵심은 두 그룹 (관련 경험이 있는 그룹과 없는 그룹)에서 전배 희망 여부에 따른 비율을 계산하고, 그 비율의 비율을 구하는 것입니다. 이를 위해 crosstab을 사용했을 때 결과가 다르게 나오는 이유는 crosstab을 어떻게 사용하느냐에 따라 계산 방식이 달라지기 때문입니다.### 1. 데이터 처리 방식먼저, 관련 경험이 없는 사람과 있는 사람을 필터링한 후, 각 그룹에서 '전배..

Data Science/실습 2024.12.09

DS 이론 22- 나이브베이즈분류, 예제

https://sometipsfor.tistory.com/39 DS 실습 16- 나이브 베이즈- 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확률(prior) 설정이 중요   ex) "이전까지 이러이러한 빈sometipsfor.tistory.com- Feature 들이 확률적으로 '독립'이라는 가정으로 확률 계산을 용이하게 함 - 베이즈 법칙 (확률)에 기반한 분류 기법2024.11.16 - [Data Science/이론] - DS 이론 2- 확률실험, 베이즈정리  ... 베이즈 법칙을 알면 나이브베이즈분류 이해가 쉬움베이즈 정리 - P(A) : 사전확률 - 사건 B가 일어나기 전 사건. A가 일어날 확률 (이미 알고..

Data Science/이론 2024.12.08

DS 이론 21- KNN 알고리즘

2024.12.07 - [Data Science/실습] - DS 실습 17- KNN(K-Nearest Neighbor) DS 실습 17- KNN(K-Nearest Neighbor)- 새로운 값은 기존의 데이터를 기준으로 가장 가까운 k개의 최근접 값을 기준으로 분류됨- k가 짝수되는 것은 피하도록- 과적합: k 가 1에 가까울수록 과소적합: k가 클수록 KNN 회귀(Regression)- 분sometipsfor.tistory.com kNN 알고리즘 - 특정 데이터를 k개의 인접한 요소를 기반으로 예측하는 지도학습 알고리즘   -> "가깝다"는 판단의 기준 필요 => distance  거리계산이 필요  - k 값이 1에 가까우면 과적합이 되며, 값이 커질수록 모델이 단순해지지만 과소적합이 되기에 적절한 k..

Data Science/이론 2024.12.08

DataScience 예제, 샘플문항

DataScience 공부하면서 정말 그 개념에 맞는 문제만 말고, 조금 복잡한 것도 풀고 싶은 마음에 열심히 구글링 해보았는데...아래 링크에 샘플문항이 있네요, 이렇게 난이도 있는 문제는 찾기 어려웠는데 감사합니다 😉 멀티캠퍼스 https://certi.multicampus.com/ie/intro/sampleTest?p_menu=MTMxMDkjTUFJTg==&p_gubun=Qw== 멀티캠퍼스 :: 직무교육전문데이터사이언스, 프로그래밍, UXUI, 마케팅, 블록체인, 보안, 웹개발, 디자인 실무교육www.multicampus.com   ADP 실기 문제 풀이도 있습니다.https://statisticsplaybook.com/adp-past-exam-questions/ ADP 실기 기출 문제 모음.zi..

Data Science/실습 2024.12.08

DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무

분류 나무(Classification Tree)- 종속변수가 명목형인 경우 사용- 각 노드 분류 알고리즘은 이진 분류 시 Gini Index 기반의 CART(Classification And Regression Tree) 사용 회귀 나무(Regression Tree)- 종속변수가 연속형인 경우 사용- 각 노드 분류에는 평균, 표준편차를 활용하여 모델을 만들어 나가고 노드를 분류함 - 과적합 방지, 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용 from sklearn.tree import DecisionTreeClassifierfrom sklearn.tree import DecisionTreeRegressor sklearn - DecisionTreeClassifier()- 분류나무를 ..

Data Science/실습 2024.12.08
728x90
반응형