728x90
반응형

Data Science/실습 16

KMeans와 Silhouette Score를 활용한 클러스터링 평가

2024.12.06 - [Data Science/실습] - DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score) DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)12차시 비계층적 군집분석 GhatGPT 답:K-Means 군집분석은 데이터셋에서 **유사한 특성을 가진 그룹(클러스터)**을 찾기 위해 사용됩니다.이는 데이터 분석, 분류, 예측 등 여러 작업에 도움이 됩니sometipsfor.tistory.com KMeans를 사용하여 데이터를 클러스터링하고, Silhouette Score를 이용해 각 클러스터링 결과를 평가하는 예제 - KMeans..

Data Science/실습 2024.12.14

A_1['B'].value_counts(nomalize = True) 와 pd.crosstab(A, B, nomalize = True) 가 다른 이유?

[비율] 선택 시 데이터가 응답 비율(%)로 나타납니다.[빈도] 선택 시 응답자 수(명)으로 나타납니다정확한 비율을 계산하려면 각 그룹을 필터링한 후, 전배 희망자의 비율을 계산하고 그 비율을 나누어야 합니다.문제:A == 1 인 것 중 B == 1인 비율,A == 0 인 것 중 B == 1 인 비율을 구하여라.답변:문제의 핵심은 두 그룹 (관련 경험이 있는 그룹과 없는 그룹)에서 전배 희망 여부에 따른 비율을 계산하고, 그 비율의 비율을 구하는 것입니다. 이를 위해 crosstab을 사용했을 때 결과가 다르게 나오는 이유는 crosstab을 어떻게 사용하느냐에 따라 계산 방식이 달라지기 때문입니다.### 1. 데이터 처리 방식먼저, 관련 경험이 없는 사람과 있는 사람을 필터링한 후, 각 그룹에서 '전배..

Data Science/실습 2024.12.09

DataScience 예제, 샘플문항

DataScience 공부하면서 정말 그 개념에 맞는 문제만 말고, 조금 복잡한 것도 풀고 싶은 마음에 열심히 구글링 해보았는데...아래 링크에 샘플문항이 있네요, 이렇게 난이도 있는 문제는 찾기 어려웠는데 감사합니다 😉 멀티캠퍼스 https://certi.multicampus.com/ie/intro/sampleTest?p_menu=MTMxMDkjTUFJTg==&p_gubun=Qw== 멀티캠퍼스 :: 직무교육전문데이터사이언스, 프로그래밍, UXUI, 마케팅, 블록체인, 보안, 웹개발, 디자인 실무교육www.multicampus.com   ADP 실기 문제 풀이도 있습니다.https://statisticsplaybook.com/adp-past-exam-questions/ ADP 실기 기출 문제 모음.zi..

Data Science/실습 2024.12.08

DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무

분류 나무(Classification Tree)- 종속변수가 명목형인 경우 사용- 각 노드 분류 알고리즘은 이진 분류 시 Gini Index 기반의 CART(Classification And Regression Tree) 사용 회귀 나무(Regression Tree)- 종속변수가 연속형인 경우 사용- 각 노드 분류에는 평균, 표준편차를 활용하여 모델을 만들어 나가고 노드를 분류함 - 과적합 방지, 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용 from sklearn.tree import DecisionTreeClassifierfrom sklearn.tree import DecisionTreeRegressor sklearn - DecisionTreeClassifier()- 분류나무를 ..

Data Science/실습 2024.12.08

DS 실습 17- KNN(K-Nearest Neighbor)

- 새로운 값은 기존의 데이터를 기준으로 가장 가까운 k개의 최근접 값을 기준으로 분류됨- k가 짝수되는 것은 피하도록- 과적합: k 가 1에 가까울수록 과소적합: k가 클수록 KNN 회귀(Regression)- 분류모델과 같고, k 개의 인접한 자료의 (가중)평균으로 예  KNN알고리즘은 종속변수가 어떤 것인지에 따라  분류/ 회귀로 나뉘어짐 분류(Classification): 종속변수가 범주형(categorical) 데이터일 때.예: "고객이 구매할 것이다(Yes/No)", "이메일이 스팸이다/아니다". 클래스 레이블 (0, 1, "Yes", "No") 회귀(Regression): 종속변수가 연속형(continuous) 데이터일 때.예: "아파트의 가격은 얼마인가?", "내일의 주식 가격은 얼마일까..

Data Science/실습 2024.12.07

DS 실습 16- 나이브 베이즈, 예측 확률값의 두번째 열이 1이 될 확률?

2024.12.08 - [Data Science/이론] - DS 이론 22- 나이브베이즈분류, 예제 DS 이론 22- 나이브베이즈분류, 예제https://sometipsfor.tistory.com/39 DS 실습 16- 나이브 베이즈- 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확sometipsfor.tistory.com - 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확률(prior) 설정이 중요   ex) "이전까지 이러이러한 빈도로 어떤 게 나왔다. 이 정도의 확률을 가진다" -> 사후확률 추론- 각 데이터의 사전 확률을 기..

Data Science/실습 2024.12.07

DS 실습 15- 로지스틱 회귀분석

2024.12.03 - [Data Science/이론] - DS 이론19~20- 선형회귀분석(머신러닝),로지스틱 회귀분석* DS 이론19~20- 선형회귀분석(머신러닝),로지스틱 회귀분석*※ 학습자료 정리한 내용입니다. 19차시 선형회귀분석_머신러닝파트앞에서 배운 통계파트의 선형회귀분석과 접근방식,관심사가 다름. 정확히 딱 분류되어 학습하기! - 선형회귀분석  1) 독립변sometipsfor.tistory.com   - 로지스틱 회귀분석은 확률 기반 이진/다중 분류 문제를 해결하기 위한 간단하고 효과적인 방법- 이항 로지스틱 회귀분석은 종속변수가 0 / 1이며, 베르누이 분포를 따를 경우 사용- 모델의 산출 값은 각 데이터가 1이 될 확률이며, 이진 분류를 위해서 경계값(threshold) 필요. defa..

Data Science/실습 2024.12.07

DS 실습 13~14- 단순/다중 회귀분석

13차시 단순 회귀분석- 독립변수가 하나- 연속형 종속변수와 독립변수 간 선형관계 및 설명력을 확인하는 기법- 종속변수와 독립변수가 각각 하나인 경우의 단순 선형 회귀 모형- 설명력과 더불어 오차 평가 지표로 모델의 성능을 평가 statsmodels - ols()- 선형회귀 분석을 위한 statsmodels의 함수- ols 함수 내에 attribute 'formula' 에 종속변수와 독립변수를 선언 -> 종속 변수와 독립 변수 간의 관계를 정의하는 문자열   formula  = '종속변수 ~ 독립변수1 + 독립변수2 + ...' -> 순서 중요. 바뀌면 결과가 달라짐- fit() 메서드로 모델 적합시킴 -> predict() 예측- 변수명에 점 등 특정 특수문자가 있는 경우 오류 발생 ex) Sepal...

Data Science/실습 2024.12.07

실기시험 준비 Python 기초

DataFrame 객체# arr_orarray([[0.00217286, 0.97222611, 1.10051618, 0.99907654, 0.859011 , 0.89337182, 0.46505065, 1.67512136, 0.75848875, 1.42281812, 1.04913786, 1.36414132, 1.1309326 , 1.30456154, 1.52551612, 0.64745381]])# pd.DataFrame(arr_or, columns = df_job2.columns[2:]) 데이터 색인, 필터링인덱서- df. loc [ row, column ] - DataFrame 객체는 2차원 객체 -> 인덱서를 사용하면 [ ] 사이에 , 쓰는 것을 권장-..

Data Science/실습 2024.12.06

DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)

12차시 비계층적 군집분석k-means - 임의의 k개의 점을 기반으로 가까운 거리의 데이터를 묶는 것과 더불어 평균을 활용하는 군집분석 기법- 군집 개수(k)를 확정하기 위해 여러 번의 시행착오 필요- 결과 고정을 위해 seed 설정 필요 KMeans 모델링 전 보통 데이터 정규화를 많이 하기 때문에MinMaxScaler / StandardScaler 먼저 설명한다.# scikit-learn 패키지의 MinMaxScaler 클래스를 불러옵니다.from sklearn.preprocessing import MinMaxScalerfrom sklearn.preprocessing import StandardScalersklearn - MinMaxScaler()- MinMax 정규화를 실시하는 함수  - 데이터를..

Data Science/실습 2024.12.06
728x90
반응형