728x90
반응형

Data Science/실습 20

이.데.분 03 - 예측분석

- 지도 학습과 비지도 학습의 개념- 회귀 분석으로 예측 수행- 시계열 데이터의 트렌드 예측- 수학적 기법을 활용하여 평점을 예측git 자료의 예제입니다. 독자 여러분의 의견을 수렴하여 상시 업데이트 진행중입니다. - yoonkt200/python-data-analysis" data-og-host="github.com" data-og-source-url="https://github.com/yoonkt200/python-data-analysis/tree/master/chapter1" data-og-url="https://github.com/yoonkt200/python-data-analysis/tree/master/chapter1" data-og-image="https://scrap.kakaocdn.net..

Data Science/실습 2025.02.10

pandas.Series.str 접근자와 정규표현식

다음은 pandas.Series.str 접근자와 정규표현식을 활용한 문제들입니다. 데이터 분석 실무에서 유용하게 사용할 수 있도록 다양한 유형으로 구성했습니다.문제 1: 이메일 주소 필터링다음과 같은 이메일 주소 리스트가 있습니다.올바른 이메일 주소만 필터링하는 코드를 작성하세요.(이메일 주소는 username@domain.com 형식을 따라야 합니다.)import pandas as pdemails = pd.Series([ "user1@example.com", "user2.gmail.com", "user3@example.co.kr", "hello@domain", "valid.email@company.org", "wrong@domain@com"])문제 2: 전화번호 변환다음과 같은 전화번호 리스..

Data Science/실습 2025.02.03

이.데.분 01 - 탐색적 데이터 분석(EDA)

1.1 탐색적 데이터 분석의 과정 1. 데이터 정보 확인- 데이터의 출처와 주제에 대해 이해- 데이터의 크기 - 데이터의 구성요소(Feature) 2. 데이터의 속성 탐색- Feature의 속성 탐색- Feature 간의 상관관계 탐색   : 여러 개의 Feature 가 서로에게 미치는 영향력 파악. 공분산/ 상관계수와 같은 개념을 포함 3. 데이터 시각화- 패턴/인사이트 도출  ex) 단순 수치적 자료만으로 Feature 간의 상관관계를 알 수 없고, 산점도를 통해 직관적으로 상관관계 파악 git 자료 의 예제입니다. 독자 여러분의 의견을 수렴하여 상시 업데이트 진행중입니다. - yoonkt200/python-data-analysis" data-og-host="github.com" data-og-sou..

Data Science/실습 2025.02.02

DataScience 예제

출처는 chatGPT 문제: 고객 연령대 분석 및 구매 패턴 예측한 온라인 쇼핑몰에서 고객의 연령과 구매 금액을 분석하여 특정 연령대의 구매 패턴을 예측하려고 합니다. 고객 데이터를 분석하고, quantile을 이용해 연령별 특징을 파악한 후, 구매 가능성을 예측하는 간단한 모델을 구축하세요. 더보기주어진 데이터 (샘플)import pandas as pdimport numpy as npnp.random.seed(42)data = pd.DataFrame({ 'customer_id': range(1, 101), 'age': np.random.randint(18, 70, 100), 'purchase_amount': np.random.randint(10, 1000, 100)})서브 문제 1: 연..

Data Science/실습 2025.02.01

이.데.분 - 이것이 데이터 분석이다 with 파이썬

이것이 데이터 분석이다 with 파이썬도구일 뿐입니다. 진짜 중요한 것은 문제해결 능력입니다. 이 책은 주어진 문제를 어떻게 단계적으로 접근하면 좋을지에 대해 독자 친화적으로 가이드를 주는 책입니다. 프로그래밍 기초 지식만 있다면 통계에 대한 지식이 전혀 없는 비전공자도 데이터 분석에 입문할 수 있도록 쉽게 풀어썼습니다. 종합 예제를 통해 학습 내용을 입체적으로 실전에 적용해본다. 중고 휴대폰 거래 가격 예측, 구매 데이터를 분석하여 상품 추천하기 등 종합적인 예제를 통해 앞에서 배운 내용을저자윤기태출판한빛미디어출판일2020.02.10 파이썬으로 배우는 데이터 분석 입문Pandas, Numpy, Matplotlib 활용githubhttps://github.com/yoonkt200/python-data-a..

Data Science/실습 2025.02.01

KMeans와 Silhouette Score를 활용한 클러스터링 평가

2024.12.06 - [Data Science/실습] - DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score) DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)12차시 비계층적 군집분석 GhatGPT 답:K-Means 군집분석은 데이터셋에서 **유사한 특성을 가진 그룹(클러스터)**을 찾기 위해 사용됩니다.이는 데이터 분석, 분류, 예측 등 여러 작업에 도움이 됩니sometipsfor.tistory.com KMeans를 사용하여 데이터를 클러스터링하고, Silhouette Score를 이용해 각 클러스터링 결과를 평가하는 예제 - KMeans..

Data Science/실습 2024.12.14

A_1['B'].value_counts(nomalize = True) 와 pd.crosstab(A, B, nomalize = True) 가 다른 이유?

[비율] 선택 시 데이터가 응답 비율(%)로 나타납니다.[빈도] 선택 시 응답자 수(명)으로 나타납니다정확한 비율을 계산하려면 각 그룹을 필터링한 후, 전배 희망자의 비율을 계산하고 그 비율을 나누어야 합니다.문제:A == 1 인 것 중 B == 1인 비율,A == 0 인 것 중 B == 1 인 비율을 구하여라.답변:문제의 핵심은 두 그룹 (관련 경험이 있는 그룹과 없는 그룹)에서 전배 희망 여부에 따른 비율을 계산하고, 그 비율의 비율을 구하는 것입니다. 이를 위해 crosstab을 사용했을 때 결과가 다르게 나오는 이유는 crosstab을 어떻게 사용하느냐에 따라 계산 방식이 달라지기 때문입니다.### 1. 데이터 처리 방식먼저, 관련 경험이 없는 사람과 있는 사람을 필터링한 후, 각 그룹에서 '전배..

Data Science/실습 2024.12.09

DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무

분류 나무(Classification Tree)- 종속변수가 명목형인 경우 사용- 각 노드 분류 알고리즘은 이진 분류 시 Gini Index 기반의 CART(Classification And Regression Tree) 사용 회귀 나무(Regression Tree)- 종속변수가 연속형인 경우 사용- 각 노드 분류에는 평균, 표준편차를 활용하여 모델을 만들어 나가고 노드를 분류함 - 과적합 방지, 모델 단순화를 위해 Depth, Impurity 등 관련 설정 활용 from sklearn.tree import DecisionTreeClassifierfrom sklearn.tree import DecisionTreeRegressor sklearn - DecisionTreeClassifier()- 분류나무를 ..

Data Science/실습 2024.12.08

DS 실습 17- KNN(K-Nearest Neighbor)

- 새로운 값은 기존의 데이터를 기준으로 가장 가까운 k개의 최근접 값을 기준으로 분류됨- k가 짝수되는 것은 피하도록- 과적합: k 가 1에 가까울수록 과소적합: k가 클수록 KNN 회귀(Regression)- 분류모델과 같고, k 개의 인접한 자료의 (가중)평균으로 예  KNN알고리즘은 종속변수가 어떤 것인지에 따라  분류/ 회귀로 나뉘어짐 분류(Classification): 종속변수가 범주형(categorical) 데이터일 때.예: "고객이 구매할 것이다(Yes/No)", "이메일이 스팸이다/아니다". 클래스 레이블 (0, 1, "Yes", "No") 회귀(Regression): 종속변수가 연속형(continuous) 데이터일 때.예: "아파트의 가격은 얼마인가?", "내일의 주식 가격은 얼마일까..

Data Science/실습 2024.12.07

DS 실습 16- 나이브 베이즈, 예측 확률값의 두번째 열이 1이 될 확률?

2024.12.08 - [Data Science/이론] - DS 이론 22- 나이브베이즈분류, 예제 DS 이론 22- 나이브베이즈분류, 예제https://sometipsfor.tistory.com/39 DS 실습 16- 나이브 베이즈- 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확sometipsfor.tistory.com - 사전 확률 및 추가 정보를 기반으로 사후 확률을 추론하는 통계적 방법인 베이즈 추정 기반 분류- 종속변수 각 범주의 등장 빈도인 사전확률(prior) 설정이 중요   ex) "이전까지 이러이러한 빈도로 어떤 게 나왔다. 이 정도의 확률을 가진다" -> 사후확률 추론- 각 데이터의 사전 확률을 기..

Data Science/실습 2024.12.07
728x90
반응형