728x90
반응형

2024/11/23 2

DS 이론13~15-데이터 전처리(결측치, 정규화, 변환)

※ 학습자료 정리한 내용입니다. [Level 2] 13 데이터 전처리 1_데이터클리닝 13차시 데이터 전처리 1_데이터클리닝: 데이터를 분석하기 좋은 형태로 만드는 과정 [데이터 전처리의 필요성]  ** : 데이터 품질은 분석 결과 품질의 출발점이며,  데이터 품질이 높은 경우에도 데이터 전처리는 필요하다 - 데이터 전처리가 필요한 경우구조적 형태가 분석 목적에 적합하지 않은 경우 사용하는 툴, 기법에서 요구하는 데이터 형태가 있는 경우데이터가 너무 많은 경우데이터 품질이 낮은 경우불완전(Incomplete) : 데이터의 필드가 비어있는 경우 "결측치"잡음(Noise) : 데이터에 오류가 포함된 경우 "이상치" ex) 수치형 데이터 중 문자형 존재모순(Inconsistency) : 데이터 간 정합성, 일..

Data Science/이론 2024.11.23

DS 실습5- 표본 추출(sample, random_state, train_test_split)

(확률적) 표본 추출의 종류[단순 임의 추출]-  Simple Random Sampling- 별도의 규칙이 존재하지 않은 보통의 임의 추출 ex) 여 50, 남 50 -> 20 추출-> 남 20 만 뽑을 수도 있음단순임의추출은 편향적이라, 이를 보완한 방법이 층화표본추출 [층화 표본 추출] - Stratified  Random Sampling- 군집별로 지정한 비율만큼의 데이터를 임의추출 [계통 추출] - Systematic Sampling- 첫 표본을 무작위로 추출하고 표집 간격 k 만큼 떨어진 곳의 데이터 추출 [군집 추출] - Cluster Sampling- 소수의 군집으로 분할하고 일정의 소집단을 임의 표본 추출ex) 5개 조 중에 2조만 뽑아서 발표시킬 거야 Pandas - sample(n, f..

Data Science/실습 2024.11.23
728x90
반응형