728x90
반응형

Data Science 46

pandas.Series.str 접근자와 정규표현식

다음은 pandas.Series.str 접근자와 정규표현식을 활용한 문제들입니다. 데이터 분석 실무에서 유용하게 사용할 수 있도록 다양한 유형으로 구성했습니다.문제 1: 이메일 주소 필터링다음과 같은 이메일 주소 리스트가 있습니다.올바른 이메일 주소만 필터링하는 코드를 작성하세요.(이메일 주소는 username@domain.com 형식을 따라야 합니다.)import pandas as pdemails = pd.Series([ "user1@example.com", "user2.gmail.com", "user3@example.co.kr", "hello@domain", "valid.email@company.org", "wrong@domain@com"])문제 2: 전화번호 변환다음과 같은 전화번호 리스..

Data Science/실습 2025.02.03

이.데.분 01 - 탐색적 데이터 분석(EDA)

1.1 탐색적 데이터 분석의 과정 1. 데이터 정보 확인- 데이터의 출처와 주제에 대해 이해- 데이터의 크기 - 데이터의 구성요소(Feature) 2. 데이터의 속성 탐색- Feature의 속성 탐색- Feature 간의 상관관계 탐색   : 여러 개의 Feature 가 서로에게 미치는 영향력 파악. 공분산/ 상관계수와 같은 개념을 포함 3. 데이터 시각화- 패턴/인사이트 도출  ex) 단순 수치적 자료만으로 Feature 간의 상관관계를 알 수 없고, 산점도를 통해 직관적으로 상관관계 파악 git 자료 의 예제입니다. 독자 여러분의 의견을 수렴하여 상시 업데이트 진행중입니다. - yoonkt200/python-data-analysis" data-og-host="github.com" data-og-sou..

Data Science/실습 2025.02.02

DataScience 예제

출처는 chatGPT 문제: 고객 연령대 분석 및 구매 패턴 예측한 온라인 쇼핑몰에서 고객의 연령과 구매 금액을 분석하여 특정 연령대의 구매 패턴을 예측하려고 합니다. 고객 데이터를 분석하고, quantile을 이용해 연령별 특징을 파악한 후, 구매 가능성을 예측하는 간단한 모델을 구축하세요. 더보기주어진 데이터 (샘플)import pandas as pdimport numpy as npnp.random.seed(42)data = pd.DataFrame({ 'customer_id': range(1, 101), 'age': np.random.randint(18, 70, 100), 'purchase_amount': np.random.randint(10, 1000, 100)})서브 문제 1: 연..

Data Science/실습 2025.02.01

이.데.분 - 이것이 데이터 분석이다 with 파이썬

이것이 데이터 분석이다 with 파이썬도구일 뿐입니다. 진짜 중요한 것은 문제해결 능력입니다. 이 책은 주어진 문제를 어떻게 단계적으로 접근하면 좋을지에 대해 독자 친화적으로 가이드를 주는 책입니다. 프로그래밍 기초 지식만 있다면 통계에 대한 지식이 전혀 없는 비전공자도 데이터 분석에 입문할 수 있도록 쉽게 풀어썼습니다. 종합 예제를 통해 학습 내용을 입체적으로 실전에 적용해본다. 중고 휴대폰 거래 가격 예측, 구매 데이터를 분석하여 상품 추천하기 등 종합적인 예제를 통해 앞에서 배운 내용을저자윤기태출판한빛미디어출판일2020.02.10 파이썬으로 배우는 데이터 분석 입문Pandas, Numpy, Matplotlib 활용githubhttps://github.com/yoonkt200/python-data-a..

Data Science/실습 2025.02.01

왜 상관분석에서는 표준편차를, 회귀분석에서는 분산 개념을 사용할까?

2024.11.19 - [Data Science/이론] - DS 이론07~08-추론통계(점/구간추정),상관분석 DS 이론07~08-추론통계(점/구간추정),상관분석※ 학습자료 정리한 내용입니다.  추론 통계1_추정 Q. 계산 문제. 의미 문제. 많이 나옴 추정, Estimation: 표본을 통하여 모집단의 특성이 어떠한 가에 대해 추측하는 과정 - 추정량: 표본정보에 의sometipsfor.tistory.com2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 ..

Data Science/이론 2024.12.16

선형회귀분석 정규방정식(추정회귀선)에서 기울기 계산식 이해하기

2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 통해서) 두 개의 변수가 선sometipsfor.tistory.com $$ y= \alpha+\beta x $$y:종속변수, x:독립변수\({\beta}\) : 기울기, \({\alpha}\) : 절편   \( {\beta} \) 기울기 계산법을 무작정 외우기보다는 이해하고 싶어서 작성하는 글... \( {\beta} \)  기울기의 의미 - x 가 1 단위 증가할 때 y가 얼마나 변하는지를 나타냄 분자 (공..

Data Science/이론 2024.12.16

KMeans와 Silhouette Score를 활용한 클러스터링 평가

2024.12.06 - [Data Science/실습] - DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score) DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)12차시 비계층적 군집분석 GhatGPT 답:K-Means 군집분석은 데이터셋에서 **유사한 특성을 가진 그룹(클러스터)**을 찾기 위해 사용됩니다.이는 데이터 분석, 분류, 예측 등 여러 작업에 도움이 됩니sometipsfor.tistory.com KMeans를 사용하여 데이터를 클러스터링하고, Silhouette Score를 이용해 각 클러스터링 결과를 평가하는 예제 - KMeans..

Data Science/실습 2024.12.14

DS 이론 24- 군집분석, 비계층적 K-means

Unsupervised learning- 입력 데이터에 Label이 없어 데이터의 특징만으로 패턴을 찾는 학습방법- 비지도 학습을 사용 하는 이유 1) 알려지지 않은 모든 종류의 패턴을 찾으려 시도 2) 범주화에 도움이되는 특징과 패턴을 알아내는 데 도움 3) Label이 되지 않은 데이터가 더 확보하기 쉬움 -> Lable은 시간이 오래 걸림 Clustering, 군집분석- 계층적/ 비계층적- 주어진 입력 값(들)을 바탕으로 유사한 값들로 데이터를 몇 개의 그룹으로 묶어주는 것 -> 유사도를 기반으로 함   -> 유사하다는 근거는?  distance 계산.  KNN 알고리즘과 동일.- 데이터 전체의 구조에 대한 이해를 높이는 탐색적 분석방법 [유형]- 상호 배반적 군집: 각 관찰치가 상호 배반적인 여러..

Data Science/이론 2024.12.10

DS 이론 23- 의사결정나무,앙상블-랜덤포레스트

2024.12.08 - [Data Science/실습] - DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무 DS 실습 18 - 의사결정나무 모델: 분류 및 회귀나무분류 나무(Classification Tree)- 종속변수가 명목형인 경우 사용- 각 노드 분류 알고리즘은 이진 분류 시 Gini Index 기반의 CART(Classification And Regression Tree) 사용 회귀 나무(Regression Tree)- 종속변수가 연속sometipsfor.tistory.com의사결정나무- 데이터를 특정 기준에 따라 재귀적으로 분리하면서 나무 형태의 구조를 형성합니다.   분류나무 - 범주형 목표 변수를 기준으로 마디를 나눔- 끝마디에 포함된 자료의 범주가 분류 결과 값이 됨 회귀나무- ..

Data Science/이론 2024.12.10

A_1['B'].value_counts(nomalize = True) 와 pd.crosstab(A, B, nomalize = True) 가 다른 이유?

[비율] 선택 시 데이터가 응답 비율(%)로 나타납니다.[빈도] 선택 시 응답자 수(명)으로 나타납니다정확한 비율을 계산하려면 각 그룹을 필터링한 후, 전배 희망자의 비율을 계산하고 그 비율을 나누어야 합니다.문제:A == 1 인 것 중 B == 1인 비율,A == 0 인 것 중 B == 1 인 비율을 구하여라.답변:문제의 핵심은 두 그룹 (관련 경험이 있는 그룹과 없는 그룹)에서 전배 희망 여부에 따른 비율을 계산하고, 그 비율의 비율을 구하는 것입니다. 이를 위해 crosstab을 사용했을 때 결과가 다르게 나오는 이유는 crosstab을 어떻게 사용하느냐에 따라 계산 방식이 달라지기 때문입니다.### 1. 데이터 처리 방식먼저, 관련 경험이 없는 사람과 있는 사람을 필터링한 후, 각 그룹에서 '전배..

Data Science/실습 2024.12.09
728x90
반응형