728x90
반응형
※ 학습자료 정리한 내용입니다.
기본용어
- 모집단: 통계 분석 방법을 적용할 분석 대상의 전체 집합
- 모수: 모집단을 분석하여 얻어진 결과 수치. 모집단의 특성을 나타내는 값/변수. 통계적 추론에서 분석자의 최종목표!
- 평균, 분산, 표준편차, 비율 등의 모집단 특성: 모평균(μ, 뮤) . 모분산(σ^2), 모표준편차(σ), 모비율(p)
- 표본: 모집단으로부터 무작위 추출된 일부(sample). 모집단을 대표하는 분석 대상!
- 통계량: 표본을 분석하여 얻어진 결과 수치. 표본들의 함수
- 평균, 분산, 표준편차, 비율 등의 표본의 특성: 표본평균(x^2), 표본분산(s^2), 표본표준편차(s), 표본비율(p^ '피 햇')
모집단 ≫ ≫ ≫ 추출(sampling) ≫ ≫ ≫ 표본
모수 ≪ ≪ ≪ 추론/추정 ≪ ≪ ≪ 통계량
자료의 수집
- 개체(item) : 연구자 또는 관찰자가 관심을 갖는 대상 ex) 신입사원
- 요인(Factor) : 개체에 관한 특성 중 연구자가 특별히 관심을 갖는 특성 ex) 신입사원의 신체조건
- 변수 : 요인을 구성하고 있는 요소 ex) 키, 몸무게, 허리둘레.. = 열(colume)
- 변수 = 열 = 특성 feature= 속성 attribute
- 행 = instance
- 값 = label = target
변수 ex) Y = 1 + 2X
- X : 독립 변수 = 요인(범주형 자료_factor) = 공변량(연속형 자료)
- Y : 종속변수 = target 변수
ex) 평균 기온이 20도 일 때 음료별 판매량은 얼마나 될까?
평균 기온으로 판매량을 설명하려는 분석! -> X: 평균기온, Y: 판매량
변수의 타입과 활용 **범주형/ 수치형
변수의 범주 타입으로, 데이터의 특성을 이해하고 분석 방법을 선택하는 데 중요한 기준
측정 척도로, 데이터를 측정하고 표현하는 방식에 따라 구분
척도 | 특징 | 분석 가능 수준 | |
명목척도 | 구분만 가능. 순서와 간격 없음 | 성별, 혈액형 | 빈도, 비율, 모드 |
서열척도 | 순서 비교 가능. 간격은 알 수 없음 | 만족도, 순위,직급(1,2,3) | 순위 분석, 중위값 |
등간척도 | 순서와 간격 비교 가능. 절대적 0 없음 | 온도, 직무만족도 | 평균, 분산, 더하기/빼기 가능 |
비율척도 | 순서, 간격, 비율 비교 가능. 절대적 0 있음 | 인구증가율, 나이, 소득 | 모든 통계 분석 가능 |
변수 타입 별 통계 분석 **
- X 수치형 + Y 수치형 = 상관분석, 회귀분석
- X 수치형 + Y 범주형 = 로지스틱 회귀분석 ex) 등급, 학점 -> 분류 문제를 푼다!
- X 범주형 + Y 수치형 = t-test, ANOVA
- X 범주형 + Y 범주형 = 카이제곱 검정 -> 빈도 기반으로 작업해야겠다!
- 종속변수 X 이 범주형이면 분류 문제
일변량 차트 (Univariate Chart) / 다변량 차트 (Multivariate Chart)
구분 | 일변량 차트 | 다변량 차트 |
변수 수 | 한 변수 (1개) | 두 개 이상 (2개 이상) |
목적 | 한 변수의 분포나 요약 정보 확인 | 변수 간 관계, 패턴, 상호작용 탐색 |
복잡성 | 단순하고 직관적 | 분석과 해석이 더 복잡함 |
범주형 | Bar Chart(막대차트), Pie Chart | |
수치형 | Histogram(히스토그램), Box plot | |
범주+수치 | (여러 개) Box plot , Bar Chart | |
수치+수치 | Scatter plot(산점도) | |
범주+범주 | Mosaic Plot | |
범주+범주+수치 | 누적 세로막대형 차크(Cluster Stack Column Chart) |
구분 | 표현 | 데이터 확인 |
Histogram (히스토그램) |
도수분포표를 정보 그림으로 표현 | 그룹, 이상치 존재 여부 확인 |
Box plot | 사분위수(Quartile)로 표현 | Box 갯수가 그룹의 수, 하한/상한을 벗어난 점이 이상치 |
Scatter plot (산점도) |
점으로 표현 | 데이터 간의 선형 관계성 확인, 그룹 이상치 확인 |
- 도수분포표 : 범주형/수치형 자료에서 사용
- 기술통계(Descriptive statistics) : 주어진 데이터 세트를 설명하고 요약하기 위한 통계 기법.
- (표본) 통계량: 표본을 분석하여 얻어진 결과 수치( 평균, 분산, 표준편차 )
- "데이터가 어떻게 생겼는 지 알고 싶다" -> 기술통계 (Descriptive statistics) 로 데이터셋을 시각화 한다 (탐색적 분석)
(기술) 통계량의 종류
위치 통계량 | 대표값과 그 위치 | 평균, 중앙값, 최빈값 |
변이 통계량 | 데이터가 대표값으로부터 흩어져 있는 정도 | 범위, 분산, 표준편차 |
모양 통계량 | 데이터의 분포모양, 대칭성을 설명 | 왜도, 첨도 |
분포 분석(수치형 변수)
- 위치 통계량 : 자료가 어느 위치에 집중되어 있는 지를 나타내는 척도.
- 평균(Mean) : 수치형 데이터에 대한 대표값
- 분산의 계산, 모수 추정, 가설 점증 등 통계 분석의 대표적인 값
- 극단적인 값(outline)에 민감. 자료의 수가 적고 극단 값이 N 개이면 대푯값의 기능 상실
- 기대값 E(X) : 모집단 데이터에 대한 평균값 **
- 중앙값(Median) = 분포의 한가운데 수를 의미하며, 양쪽 면적이 동일
- 극단적인값(outline)에 민감하지 않기에, 평균 대신 대푯값으로 사용 (outline이 있는 경우)
- 최빈값(Mode) : 빈도가 가장 많은 관측치
- 존재하지 않을 수도 (ex 1,2,3,4,5) , 유일하지 않을 수도 (ex 1,2,2,2,5,5,5)
- 질적 변수에서도 활용 가능 -> 명목/ 서열자료에서 대푯값으로 사용 (평균,중앙값 계산 못함)
- 평균을 대표값으로 사용할 수 없는 자료에서 '중앙값' 과 '최빈값'을 대푯값으로 사용
- 개방 구간을 갖는 도수분포표 -> 중앙값 or 최빈값
- 오른쪽 꼬리/ 왼쪽 꼬리 모양 *
- 평균(Mean) : 수치형 데이터에 대한 대표값
- 변이 통계량(산포도 = 분산도) ** : 흩어짐을 측정
- 최소값 , 최대값, 범위(range)
- 분산(Variance): 두 분포에서 자료의 흩어짐을 비교하는 데 이용
- 모든 편차를 제곱하고, 합한 후 자료의 총수로 나눈 값 = 편차 제곱 합의 평균
- 분산은 각 자료에 대한 편차 제곱으로 구하므로 원자료의 단위와 달라짐
- $$\sigma ^2=\frac{\sum (X_i-\mu )^2}{N}$$
- $$s^2=\frac{\sum (X_i-\overline{X})^2}{n-1}$$
- 계산식, 불편추정치(자유도,,) 본문 참고
- 자유도 : 전체 데이터 중 실질적으로 독립적인 데이터들의 개수
- 자유도 = N - 1
- 극단적으로 자료의 개수가 1개인 경우 ->
- 데이터의 값들이 얼마나 자유롭게 변할 수 있는지의 정도를 나타내며, 데이터에서 제약을 받지 않고 독립적으로 선택할 수 있는 값들의 수입니다. 주로 표본을 이용해 모집단에 대한 추정치를 계산할 때 사용.
- 표준편차(Standard Deviation): 분산의 제곱근. 원래 자료의 단위로 환원!
- 같은 단위로 측정된 평균 or 다른 통계량과 비교
- 변이 통계량 특징 **
- 범위, 분산, 표준편차가 클수록 자료가 흩어짐을 뜻함
- 범위, 분산, 표준편차가 작을 수록, 자료가 평균 주위로 집중함
- 표준편차 = 0 은, 자료가 모두 동일함
- 범위, 분산, 표준편차는 양수(+)
- 분산, 표준편차는 데이터의 불규칙성 변동성, 데이터의 특수성을 알고 싶을 때 사용
- 변동계수(CV, Coefficient of variation) = 상대표준편차, 변이계수
- 데이터의 상대적인 변동성을 평가할 수 있음
- 서로 다른 데이터 간의 편차를 비교하는 방법
- ex) 키와 몸무게를 측정하기 위해 같은 범위 안에서 보고 싶을 때 사용
- 평균이 0에 가까우면 CV 값이 매우 커지거나 계산이 불가능해짐 -> 신뢰성 떨어짐
- 음수 값이 있는 데이터에 적합하지 않을 수 있음
- 모변동계수 CV = σ / μ , 표변동계수 CV = s / x (편차 / 평균)
- 백분위수
- 사분위수(Quartile): Q1 (100분위수 중 25번째), Q2(50번째), Q3(75번째)
- 사분위수범위(IQR) - Box plot **
- Box plot : 자료분포의 특성을 그래프로 요약하는 방법
- 4 구간에 포함된 자료의 개수는 동일
- 모양 통계량(분포의 모양) ** : 데이터 분포의 형태/ 대칭성을 설명
- 왜도(skewness) : 분포의 대칭성을 알아보는 측도 = 기울어진 정도
- 통계량 양수 (positive) -> 오른꼬리
- 통계량 음수 (negative) -> 왼꼬리
- 첨도(kurtosis) : 정규분포 대비 봉오리의 높이를 알아보는 측도 = 뽀족함의 정도
- 통계량 양수 -> 정규분포보다 뽀족
- 통계량 음수 -> 정규분포보다 평평
- 왜도(skewness) : 분포의 대칭성을 알아보는 측도 = 기울어진 정도
728x90
반응형
'Data Science > 이론' 카테고리의 다른 글
DS 이론09- 선형회귀분석 (0) | 2024.11.20 |
---|---|
DS 이론07~08-추론통계(점/구간추정),상관분석 (0) | 2024.11.19 |
DS 이론 06- 연속확률분포(지수,정규,t,카이제곱,f) (0) | 2024.11.18 |
DS 이론 05- 확률변수, 이산확률분포(베르누이, 이항, 포아송) (1) | 2024.11.17 |
DS 이론 04- 확률실험, 베이즈정리 (1) | 2024.11.16 |