728x90
반응형

분류 전체보기 42

DS 실습 12- 비계층적 군집분석(KMeans,MinMaxScaler,StandardScaler,shilhouette_score)

12차시 비계층적 군집분석k-means - 임의의 k개의 점을 기반으로 가까운 거리의 데이터를 묶는 것과 더불어 평균을 활용하는 군집분석 기법- 군집 개수(k)를 확정하기 위해 여러 번의 시행착오 필요- 결과 고정을 위해 seed 설정 필요 KMeans 모델링 전 보통 데이터 정규화를 많이 하기 때문에MinMaxScaler / StandardScaler 먼저 설명한다.# scikit-learn 패키지의 MinMaxScaler 클래스를 불러옵니다.from sklearn.preprocessing import MinMaxScalerfrom sklearn.preprocessing import StandardScalersklearn - MinMaxScaler()- MinMax 정규화를 실시하는 함수  - 데이터를..

Data Science/실습 2024.12.06

DS 실습 11- 상관분석(Pandas.corr, scipy)

※ 학습자료 정리한 내용입니다. 11차시 상관 분석- 두 변수의 선형관계를 확인- 두 수치형 변수의 비교는 Pearson' Correlation Coefficient를 확인하며 그 외 다양한 상관계수 존재- 상관계수가 0 에 가까울수록 선형관계가 약하며, 절댓값이 1에 가까울수록 강함- 기울기는 상관없음! QuantitiativeOrdinal  Quantitiative Pearson 's   Ordinal  Spearman  Pandas - corr ( )  - 각 열 간의 상관 계수를 반환하는 메서드 Parameters----------method : {'pearson', 'kendall', 'spearman'} or callable Method of correlation: * pearson..

Data Science/실습 2024.12.05

DS 이론19~20- 선형회귀분석(머신러닝),로지스틱 회귀분석*

※ 학습자료 정리한 내용입니다. 19차시 선형회귀분석_머신러닝파트앞에서 배운 통계파트의 선형회귀분석과 접근방식,관심사가 다름. 정확히 딱 분류되어 학습하기! - 선형회귀분석  1) 독립변수 X로 종속변수Y를 설명할 때, 선형 관계인 경우  2) 독립변수 X가 여러 개일 수 있다 - 선형회귀분석 머신러닝에서는 통계학적 가정(선형성, 정규성, 등분산성, 독립성)이 없음- 대신, 머신러닝에서도 데이터를 보고 절편, 기울기를 구할 수 있어야 함  선형모델의 핵심은 실제 값($y_i$)과 모델이 예측한 값($\hat{y_i}$)사이의 오차를 최소화하는 것이다.오차는 MSE(Mean Squared Error) 로 측정한다.MSE:  실제 값과 예측 값 간의 차이의 제곱의 평균  머신러닝에서는 미분을 통해 MSE의 ..

Data Science/이론 2024.12.03

DS 이론16~18-머신러닝, 특성공학(Under/Over fitting, 모델평가기법)

※ 학습자료 정리한 내용입니다. 16차시 머신러닝 개요 및 유형Q. 용어 개념 - 머신러닝: '자동으로' 개선되는 컴퓨터 알고리즘에 대한 학문- Artifical Intelligence ⊃ Machine Learning ⊃ Deep Learning (가장 유명한 알고리즘) Machine Learning 종류 **Machine LearningSupervised LearningUnsupervised LearningReinforcement LearningTask Driven( Regression / Classification)Data Driven(Clustering / 차원축소)Algorithm learns form mistakes [Supervised Learning, 지도학습]= '교사학습', Deep..

Data Science/이론 2024.12.02

DS 실습9~10-데이터전처리(정렬 및 변환-crosstab, sort_values, melt/ def)

9차시 데이터 전처리: 정렬 및 변환정렬- 특정 변수의 최대값, 최소값을 확인할 때 사용 - 시간 순서대로 데이터를 정렬할 때 활용  Pandas - crosstab( )  교차분석(cross tabulations)  : 범주형 변수로 되어있는 요인별로 교차분석(cross tabulations) 해서, 행, 열 요인 기준 별로 빈도를 세어서 도수분포표, 교차표 를 만들어줌  (명목척도 - 교차분석) - 데이터프레임의 두 변수의 원소 조합 빈도를 확인하는 함수- normalize 설정으로 각 조합의 비율을 계산 = 정규화      Q. workingday 가 아니면서 holiday가 아닌 날의 비율은? - value , aggfunc 설정하면 빈도가 아닌 별도 산술연산 가능 -> groupby 와 유사한 ..

Data Science/실습 2024.12.01

청약 특별공급 기관추천! 어디서? 당첨되면? 포기하면?

'기관추천'은 어디서 신청하는지, 주의사항은 무엇인 지 작성했습니다. 일반공급보다 경쟁률이 낮아 청약 당첨 확률이 높기 때문에 조건이 된다면 꼭 특별공급 도전해보세요~!  특별공급 기관추천 중 중소기업근로자 유형(이외 국가유공자, 장애인, 장기복무(제대) 군인 유형이 있고, *각 유형에 따라 담당기관이 다르니 참고해 주세요)  - 특별공급 기관추천은 일반 청약자들과 경쟁을 하지 않고 아파트를 분양받을 수 있도록 하는 제도입니다.- 본 입주자모집공고일 이전에, 해당기관에 특별공급 신청을 해야 합니다. 신청은 어디서? 중소기업인력지원사업 종합관리시스템  중소기업인력지원사업 종합관리시스템성과공유, 특성화고, 계약학과, 기술사관, 산학맞춤, 산업기능요원, 인재육성, 주택특별공급 등 사업관리 및 채용정보를 관리w..

정보공유 2024.11.24

DS 실습6~8- 데이터전처리(결측치,이상치,파생변수,데이터병합)

이론) 2024.11.23 - [공부는해야지/data science] - DS 이론 10-데이터 전처리1_데이터크리닝6차시 데이터 전처리: 결측치, 이상치[이상치]- 중심 경향성에서 멀리 떨어진 값- 처리방법1. 이상치 처리에 절대적인 기준은 없음2. Carling, Tukey 방법3. 분포 기반으로 처리 [결측치]-값이 기록되지 않고 비어있음-처리방법1. 결측치 처리에 절대적인 기준은 없음2. 단순 제거와 특정 값으로 대체3. 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우, 단순 제거하는 경우가 많음pandas - isna(), isnull()- 결측치 원소를 True, 관측치를 False로 변환하는 메서드- isna(), isnull() 동일 함수이며, isnull 은 isna의 Alias na..

Data Science/실습 2024.11.24

DS 이론13~15-데이터 전처리(결측치, 정규화, 변환)

※ 학습자료 정리한 내용입니다. [Level 2] 13 데이터 전처리 1_데이터클리닝 13차시 데이터 전처리 1_데이터클리닝: 데이터를 분석하기 좋은 형태로 만드는 과정 [데이터 전처리의 필요성]  ** : 데이터 품질은 분석 결과 품질의 출발점이며,  데이터 품질이 높은 경우에도 데이터 전처리는 필요하다 - 데이터 전처리가 필요한 경우구조적 형태가 분석 목적에 적합하지 않은 경우 사용하는 툴, 기법에서 요구하는 데이터 형태가 있는 경우데이터가 너무 많은 경우데이터 품질이 낮은 경우불완전(Incomplete) : 데이터의 필드가 비어있는 경우 "결측치"잡음(Noise) : 데이터에 오류가 포함된 경우 "이상치" ex) 수치형 데이터 중 문자형 존재모순(Inconsistency) : 데이터 간 정합성, 일..

Data Science/이론 2024.11.23

DS 실습5- 표본 추출(sample, random_state, train_test_split)

(확률적) 표본 추출의 종류[단순 임의 추출]-  Simple Random Sampling- 별도의 규칙이 존재하지 않은 보통의 임의 추출 ex) 여 50, 남 50 -> 20 추출-> 남 20 만 뽑을 수도 있음단순임의추출은 편향적이라, 이를 보완한 방법이 층화표본추출 [층화 표본 추출] - Stratified  Random Sampling- 군집별로 지정한 비율만큼의 데이터를 임의추출 [계통 추출] - Systematic Sampling- 첫 표본을 무작위로 추출하고 표집 간격 k 만큼 떨어진 곳의 데이터 추출 [군집 추출] - Cluster Sampling- 소수의 군집으로 분할하고 일정의 소집단을 임의 표본 추출ex) 5개 조 중에 2조만 뽑아서 발표시킬 거야 Pandas - sample(n, f..

Data Science/실습 2024.11.23

DS 실습4- Numpy, pandas(Series,DataFrame)*

- 데이터를 다루고 분석하기 위해서는 수만 개의 데이터셋을 불러오고 가공하고 분석해야 함- 그래프나 통계적인 방법 - EDA 를 위해 Numpy, pandas 사용 - Numpy 와 pandas 차이 NumPy는 다차원 배열을 다루는 데 특화되어 있으며, Pandas는 데이터 조작과 분석을 위한 테이블 형식의 데이터를 다루는 데 특화되어 있습니다. - https://challenge.tistory.com/32- https://cleancode-ws.tistory.com/13 01 Numpy 객체 기본- 주로 array 함수 사용- 이 외에도 특수한 행렬의 형태를 생성하기 위한 함수 다수 존재- 배열 생성은 1~다차원 구조 가능- 전차행렬 등 선형대수 관련 연산 가능 배열 생성 - .reshape : 행렬..

Data Science/실습 2024.11.22
728x90
반응형