Data Science/이론

DS 이론 01~03- 변수, 일변량/다변량차트, 위치/변이/모양 통계량

에너지_2 2024. 11. 16. 11:20
728x90
반응형

※ 학습자료 정리한 내용입니다.

기본 내용. 연결고리


기본용어

  1. 모집단: 통계 분석 방법을 적용할 분석 대상의 전체 집합 
  2. 모수: 모집단을 분석하여 얻어진 결과 수치. 모집단의 특성을 나타내는 값/변수. 통계적 추론에서 분석자의 최종목표!
    • 평균, 분산, 표준편차, 비율 등의 모집단 특성: 모평균(μ, 뮤) . 모분산(σ^2), 모표준편차(σ), 모비율(p)
  3. 표본: 모집단으로부터 무작위 추출된 일부(sample). 모집단을 대표하는 분석 대상!
  4. 통계량: 표본을 분석하여 얻어진 결과 수치. 표본들의 함수
    • 평균, 분산, 표준편차, 비율 등의 표본의 특성: 표본평균(x^2), 표본분산(s^2), 표본표준편차(s), 표본비율(p^ '피 햇')

 
 
모집단    ≫    추출(sampling)   표본
모수            추론/추정         통계량
 

자료의 수집

  1. 개체(item) : 연구자 또는 관찰자가 관심을 갖는 대상 ex) 신입사원
  2. 요인(Factor) : 개체에 관한 특성 중 연구자가 특별히 관심을 갖는 특성 ex) 신입사원의 신체조건
  3. 변수 : 요인을 구성하고 있는 요소 ex) 키, 몸무게, 허리둘레.. = 열(colume)
    • 변수 = 열 = 특성 feature= 속성 attribute 
    • 행 = instance
    • 값 = label = target

변수 ex) Y = 1 + 2X

  1. X : 독립 변수 = 요인(범주형 자료_factor) = 공변량(연속형 자료)
  2. Y : 종속변수 = target 변수 

ex) 평균 기온이 20도 일 때 음료별 판매량은 얼마나 될까?
평균 기온으로 판매량을 설명하려는 분석! -> X: 평균기온, Y: 판매량

 
 

변수의 타입과 활용  **범주형/ 수치형

변수의 범주 타입으로, 데이터의 특성을 이해하고 분석 방법을 선택하는 데 중요한 기준

 

 

측정 척도로, 데이터를 측정하고 표현하는 방식에 따라 구분

척도 특징   분석 가능 수준
명목척도 구분만 가능. 순서와 간격 없음 성별, 혈액형 빈도, 비율, 모드
서열척도 순서 비교 가능. 간격은 알 수 없음 만족도, 순위,직급(1,2,3) 순위 분석, 중위값
등간척도 순서와 간격 비교 가능. 절대적 0 없음 온도, 직무만족도 평균, 분산, 더하기/빼기 가능
비율척도 순서, 간격, 비율 비교 가능. 절대적 0 있음 인구증가율, 나이, 소득 모든 통계 분석 가능

 

변수 타입 별 통계 분석 **

  1. X 수치형 + Y 수치형 = 상관분석, 회귀분석
  2. X 수치형 + Y 범주형 = 로지스틱 회귀분석 ex) 등급, 학점  -> 분류 문제를 푼다!
  3. X 범주형 + Y 수치형 = t-test, ANOVA
  4. X 범주형 + Y 범주형 = 카이제곱 검정 -> 빈도 기반으로 작업해야겠다!

- 종속변수 X 이 범주형이면 분류 문제 


일변량 차트 (Univariate Chart) / 다변량 차트 (Multivariate Chart)

구분 일변량 차트 다변량 차트
변수 수 한 변수 (1개) 두 개 이상 (2개 이상)
목적 한 변수의 분포나 요약 정보 확인 변수 간 관계, 패턴, 상호작용 탐색
복잡성 단순하고 직관적 분석과 해석이 더 복잡함
     
범주형 Bar Chart(막대차트), Pie Chart  
수치형 Histogram(히스토그램), Box plot  
범주+수치   (여러 개) Box plot , Bar Chart 
수치+수치   Scatter plot(산점도)
범주+범주   Mosaic Plot  
범주+범주+수치   누적 세로막대형 차크(Cluster Stack Column Chart)

 

Box Plort 에서 Box 갯수에 따라 일변량/다변량으로 나뉨

 

구분 표현 데이터 확인
Histogram
(히스토그램)
도수분포표를 정보 그림으로 표현 그룹, 이상치 존재 여부 확인
Box plot 사분위수(Quartile)로 표현 Box 갯수가 그룹의 수,
하한/상한을 벗어난 점이 이상치
Scatter plot
(산점도)
점으로 표현 데이터 간의 선형 관계성 확인,
그룹 이상치 확인

 

 

- 도수분포표 : 범주형/수치형 자료에서 사용


- 기술통계(Descriptive statistics) : 주어진 데이터 세트를 설명하고 요약하기 위한 통계 기법.

- (표본) 통계량: 표본을 분석하여 얻어진 결과 수치( 평균, 분산, 표준편차 )

 

- "데이터가 어떻게 생겼는 지 알고 싶다"  -> 기술통계 (Descriptive statistics) 로 데이터셋을 시각화 한다 (탐색적 분석)

(기술) 통계량의 종류

위치 통계량  대표값과 그 위치 평균, 중앙값, 최빈값
변이 통계량 데이터가 대표값으로부터 흩어져 있는 정도 범위, 분산, 표준편차
모양 통계량 데이터의 분포모양, 대칭성을 설명 왜도, 첨도

 

분포 분석(수치형 변수)

  1. 위치 통계량 : 자료가 어느 위치에 집중되어 있는 지를 나타내는 척도. 
    1. 평균(Mean) : 수치형 데이터에 대한 대표값
      • 분산의 계산, 모수 추정, 가설 점증 등 통계 분석의 대표적인 값
      • 극단적인 값(outline)에 민감. 자료의 수가 적고 극단 값이 N 개이면 대푯값의 기능 상실
      • 기대값 E(X) : 모집단 데이터에 대한 평균값  **
    2. 중앙값(Median) = 분포의 한가운데 수를 의미하며, 양쪽 면적이 동일
      • 극단적인값(outline)에 민감하지 않기에, 평균 대신 대푯값으로 사용 (outline이 있는 경우)
    3. 최빈값(Mode) : 빈도가 가장 많은 관측치
      • 존재하지 않을 수도 (ex 1,2,3,4,5) , 유일하지 않을 수도 (ex 1,2,2,2,5,5,5)
      • 질적 변수에서도 활용 가능 -> 명목/ 서열자료에서 대푯값으로 사용 (평균,중앙값 계산 못함)
      • 평균을 대표값으로 사용할 수 없는 자료에서 '중앙값' 과 '최빈값'을 대푯값으로 사용
      • 개방 구간을 갖는 도수분포표 -> 중앙값 or 최빈값
    4. 오른쪽 꼬리/ 왼쪽 꼬리 모양 *
      오른꼬리 (모메민) , 왼꼬리 (민❘메❘모)
  2. 변이 통계량(산포도 = 분산도) **  : 흩어짐을 측정
    1. 최소값 , 최대값, 범위(range)
    2. 분산(Variance): 두 분포에서 자료의 흩어짐을 비교하는 데 이용
      • 모든 편차를 제곱하고, 합한 후 자료의 총수로 나눈 값 = 편차 제곱 합의 평균
      • 분산은 각 자료에 대한 편차 제곱으로 구하므로 원자료의 단위와 달라짐
      • $$\sigma ^2=\frac{\sum (X_i-\mu )^2}{N}$$
      • $$s^2=\frac{\sum (X_i-\overline{X})^2}{n-1}$$
      • 계산식, 불편추정치(자유도,,) 본문 참고
    3. 자유도 : 전체 데이터 중 실질적으로 독립적인 데이터들의 개수
      1. 자유도 = N - 1
      2. 극단적으로 자료의 개수가 1개인 경우 -> 
      3. 데이터의 값들이 얼마나 자유롭게 변할 수 있는지의 정도를 나타내며, 데이터에서 제약을 받지 않고 독립적으로 선택할 수 있는 값들의 수입니다. 주로 표본을 이용해 모집단에 대한 추정치를 계산할 때 사용.
    4. 표준편차(Standard Deviation): 분산의 제곱근. 원래 자료의 단위로 환원!
      • 같은 단위로 측정된 평균 or 다른 통계량과 비교
    5. 변이 통계량 특징  ** 
      • 범위, 분산, 표준편차가 클수록 자료가 흩어짐을 뜻함
      • 범위, 분산, 표준편차가 작을 수록, 자료가 평균 주위로 집중함
      • 표준편차 = 0 은, 자료가 모두 동일함
      • 범위, 분산, 표준편차는 양수(+)
      • 분산, 표준편차는 데이터의 불규칙성 변동성, 데이터의 특수성을 알고 싶을 때 사용
    6. 변동계수(CV, Coefficient of variation) = 상대표준편차, 변이계수

      • 데이터의 상대적인 변동성을 평가할 수 있음
      • 서로 다른 데이터 간의 편차를 비교하는 방법
      • ex) 키와 몸무게를 측정하기 위해 같은 범위 안에서 보고 싶을 때 사용
      • 평균이 0에 가까우면 CV 값이 매우 커지거나 계산이 불가능해짐 -> 신뢰성 떨어짐
      • 음수 값이 있는 데이터에 적합하지 않을 수 있음
      • 모변동계수 CV = σ / μ , 표변동계수   CV = s / x (편차 / 평균)
    7. 백분위수
    8. 사분위수(Quartile): Q1 (100분위수 중 25번째), Q2(50번째), Q3(75번째)
    9. 사분위수범위(IQR) - Box plot **
      • Box plot : 자료분포의 특성을 그래프로 요약하는 방법
      • 4 구간에 포함된 자료의 개수는 동일
  3. 모양 통계량(분포의 모양) ** : 데이터 분포의 형태/ 대칭성을 설명
    1. 왜도(skewness) : 분포의 대칭성을 알아보는 측도 = 기울어진 정도
      • 통계량 양수 (positive) -> 오른꼬리 
      • 통계량 음수 (negative) -> 왼꼬리 
    2. 첨도(kurtosis) : 정규분포 대비 봉오리의 높이를 알아보는 측도 = 뽀족함의 정도
      • 통계량 양수 -> 정규분포보다 뽀족
      • 통계량 음수 -> 정규분포보다 평평
728x90
반응형