728x90
반응형

Data Science 33

DS 실습6~8- 데이터전처리(결측치,이상치,파생변수,데이터병합)

이론) 2024.11.23 - [공부는해야지/data science] - DS 이론 10-데이터 전처리1_데이터크리닝6차시 데이터 전처리: 결측치, 이상치[이상치]- 중심 경향성에서 멀리 떨어진 값- 처리방법1. 이상치 처리에 절대적인 기준은 없음2. Carling, Tukey 방법3. 분포 기반으로 처리 [결측치]-값이 기록되지 않고 비어있음-처리방법1. 결측치 처리에 절대적인 기준은 없음2. 단순 제거와 특정 값으로 대체3. 분석 데이터에서 결측치가 차지하는 비중이 낮은 경우, 단순 제거하는 경우가 많음pandas - isna(), isnull()- 결측치 원소를 True, 관측치를 False로 변환하는 메서드- isna(), isnull() 동일 함수이며, isnull 은 isna의 Alias na..

Data Science/실습 2024.11.24

DS 이론13~15-데이터 전처리(결측치, 정규화, 변환)

※ 학습자료 정리한 내용입니다. [Level 2] 13 데이터 전처리 1_데이터클리닝 13차시 데이터 전처리 1_데이터클리닝: 데이터를 분석하기 좋은 형태로 만드는 과정 [데이터 전처리의 필요성]  ** : 데이터 품질은 분석 결과 품질의 출발점이며,  데이터 품질이 높은 경우에도 데이터 전처리는 필요하다 - 데이터 전처리가 필요한 경우구조적 형태가 분석 목적에 적합하지 않은 경우 사용하는 툴, 기법에서 요구하는 데이터 형태가 있는 경우데이터가 너무 많은 경우데이터 품질이 낮은 경우불완전(Incomplete) : 데이터의 필드가 비어있는 경우 "결측치"잡음(Noise) : 데이터에 오류가 포함된 경우 "이상치" ex) 수치형 데이터 중 문자형 존재모순(Inconsistency) : 데이터 간 정합성, 일..

Data Science/이론 2024.11.23

DS 실습5- 표본 추출(sample, random_state, train_test_split)

(확률적) 표본 추출의 종류[단순 임의 추출]-  Simple Random Sampling- 별도의 규칙이 존재하지 않은 보통의 임의 추출 ex) 여 50, 남 50 -> 20 추출-> 남 20 만 뽑을 수도 있음단순임의추출은 편향적이라, 이를 보완한 방법이 층화표본추출 [층화 표본 추출] - Stratified  Random Sampling- 군집별로 지정한 비율만큼의 데이터를 임의추출 [계통 추출] - Systematic Sampling- 첫 표본을 무작위로 추출하고 표집 간격 k 만큼 떨어진 곳의 데이터 추출 [군집 추출] - Cluster Sampling- 소수의 군집으로 분할하고 일정의 소집단을 임의 표본 추출ex) 5개 조 중에 2조만 뽑아서 발표시킬 거야 Pandas - sample(n, f..

Data Science/실습 2024.11.23

DS 실습4- Numpy, pandas(Series,DataFrame)*

- 데이터를 다루고 분석하기 위해서는 수만 개의 데이터셋을 불러오고 가공하고 분석해야 함- 그래프나 통계적인 방법 - EDA 를 위해 Numpy, pandas 사용 - Numpy 와 pandas 차이 NumPy는 다차원 배열을 다루는 데 특화되어 있으며, Pandas는 데이터 조작과 분석을 위한 테이블 형식의 데이터를 다루는 데 특화되어 있습니다. - https://challenge.tistory.com/32- https://cleancode-ws.tistory.com/13 01 Numpy 객체 기본- 주로 array 함수 사용- 이 외에도 특수한 행렬의 형태를 생성하기 위한 함수 다수 존재- 배열 생성은 1~다차원 구조 가능- 전차행렬 등 선형대수 관련 연산 가능 배열 생성 - .reshape : 행렬..

Data Science/실습 2024.11.22

DS 실습1~3- Python 기본문법

cmd > jupyter notebook Q1. 주피터 노트북에 대한 설명 중 옳지 않은 것은? 31. 셀에는 코드를 입력할 수 없다.2. 셀은 명령모드와 편집모드가 있다.3. 한번 지운 셀은 되살릴 수 없다. -> 단축키 Z , Edit-Undo Delete Cells 사용4. 셀에는 주석을 입력할 수 있다. Q2. 주피터 노트북의 파일명이 있는 영역은? 11. 헤더2. 툴바3. 셀4. 네임스페이스 Q3. 셀의 코드를 실행하는 단축키 : Ctrl + Enter   print- 구분자로 쓸 값을 sep 사용print(1, 2, sep="/")  -> 1/2  02 자료형 - index 0부터 시작하고, 마이너스 개념은 마지막 index부터 옴- [2:] : index 2부터 끝까지- [:3] : 처음부터..

Data Science/실습 2024.11.22

DS 이론 11-선형회귀분석3_이슈처리,성능평가지표,명목형변수

※ 학습자료 정리한 내용입니다.[이전 내용]2024.11.22 - [Data Science/이론] - DS 이론10-선형회귀분석2_통계파트(주요 가정) DS 이론10-선형회귀분석2_통계파트(주요 가정)※ 학습자료 정리한 내용입니다.  선형회귀분석의 4가지 가정 ***출처: http://kocw-n.xcache.kinxcdn.com/data/keris/2021/leeyoonmo1021/3-4.pdf 선형성 : 독립변수와 종속변수 간 선형관계정규성 * : 오차 분산의 형sometipsfor.tistory.com- 앞선 선형회귀분석 4가지 가정 관련 이슈 이외 다른 이슈에 대해 설명 다른 이슈가 있는 데이터일 때[이상치 이슈]확인방법히스토그램, 막대그래프 등대응방법데이터 변환 : 이상치 데이터를 지움Robus..

Data Science/이론 2024.11.22

DS 이론10-선형회귀분석2_통계파트(주요 가정)

※ 학습자료 정리한 내용입니다.  [이전 내용]2024.11.20 - [Data Science/이론] - DS 이론09- 선형회귀분석 DS 이론09- 선형회귀분석※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 통해서) 두 개의 변수가 선sometipsfor.tistory.com선형회귀분석의 4가지 가정 ***출처: http://kocw-n.xcache.kinxcdn.com/data/keris/2021/leeyoonmo1021/3-4.pdf 선형성 : 독립변수와 종속변수 간 선형관계정규성 * : 오차 분산의 형태. 한 개의 x 가 가진 y 값의 오차 분산 형태.등분산성 ..

Data Science/이론 2024.11.22

DS 이론09- 선형회귀분석

※ 학습자료 정리한 내용입니다.  - 상관분석을 통하여 두 변수 간에 선형성이 있음을 알았으나, 인과관계를 알 수는 없음! 회귀분석 (Regression Analysis)- (상관분석을 통해서) 두 개의 변수가 선형성이 있고, (회귀분석은) 인과관계를 알고 싶을 때 사용 ex) 마케팅 횟수를 늘리면 매출이 늘어나는가? 얼마나 늘어나는 가? 개념: 연속형 변수들 사이의 모형을 구한 뒤, 적합도를 측정해 내는 분석 방법목적 **설명: 종속변수에 대한 설명변수(독립변수)의 영향을 측정, 설명예측: 설명변수(독립변수) 정보가 있을 때 이에 따른 종속변수를 예측종류예측함수의 형태에 따라 선형회귀/ 비선형회귀독립변수의 개수에 따라 단순회귀/ 다중회귀종속변수의 개수에 따라 단변량회귀/ 다변량회귀 [수학적 표현]$$y..

Data Science/이론 2024.11.20

DS 이론07~08-추론통계(점/구간추정),상관분석

※ 학습자료 정리한 내용입니다.  추론 통계1_추정 Q. 계산 문제. 의미 문제. 많이 나옴 추정, Estimation: 표본을 통하여 모집단의 특성이 어떠한 가에 대해 추측하는 과정 - 추정량: 표본정보에 의존하는 확률변수로서, 모수를 추정하는 데 사용되는 표본통계량- 추정치: 추정량을 평가하여 얻게되는  특정한 수치점추정- 모집단의 특성을 단일한 값으로 추정하는 방법 (고정된 값)- 모르는 모수를 가장 잘 대표할 수 있는 표본을 추출하고 필요한 계산을 하여 얻는 하나의 수치- 표본이 모집단의 특성을 잘 표현하지 못할 경우에는 통계량과 모수 간의 오차가 클 수 있음- 점추정방법: 적률, 최대우도 -> 표본평균이 모평균의 점추정량이 됨 구간추정 ★- 모수의 참값이 포함되리라고 기대하는 추정치를 일정한 범..

Data Science/이론 2024.11.19

DS 이론 06- 연속확률분포(지수,정규,t,카이제곱,f)

※ 학습자료 정리한 내용입니다. - 공식을 말로도 풀 수 있어야 함- 어떤 경우에 어떤 분포를 사용해야하는 지, 계산식 외우기 * 분포 간의 관계표본평균, 표본분산으로 정의되는 확률변수들로써,표본의 수가 많아질수록 중심극한정리에 의해 결국 정규분포에 수렴 특징지수분포정규분포t 분포카이제곱 분포F 분포형태비대칭 단봉형,오른쪽 꼬리 대칭형 종 모양 대칭형,꼬리 두꺼움  비대칭 단봉형, 오른쪽 꼬리 비대칭 단봉형, 오른쪽 꼬리 평균​1 / λ μ 0  (ν > 1)  k  분산 ​1 / (λ^2) σ^2 ν​ / (ν−2) (ν > 2)  2 k  꼬리 두께 오른쪽 꼬리 두꺼움 꼬리 얇음 정규분포보다꼬리 두꺼움  오른쪽 꼬리 두꺼움 오른쪽 꼬리 두꺼움 사용사례 대기 시간, 서비스 시간 분석 자..

Data Science/이론 2024.11.18
728x90
반응형