1 life 2 live

[통계 공부] 메타코드M - 데이터 분석 (통계 기초의 모든것) 1장 본문

빅데이터

[통계 공부] 메타코드M - 데이터 분석 (통계 기초의 모든것) 1장

대희투 2024. 1. 19. 15:49

개인적으로 공부한 내용을 정리하려고 한다.

아래 사이트에서 동영상을 보고 공부 중이다.

상당히 효과적인 것 같다.

https://mcode.co.kr/

 

메타코드M

빅데이터 , AI 강의 플랫폼 & IT 현직자 모임 플랫폼ㅣ메타코드 커뮤니티 일원이 되시기 바랍니다.

mcode.co.kr

 

[통계 기초] 1 - 오리엔테이션

1. 통계

통계

데이터의 수집, 분석, 추론, 요약 등의 방법론

(The art and science of learning from data)

  • Design(설계/계획)
  • Description(요약)

데이터를 요약/표현하기 위한 시각적(Graphical)/수치적(numerical) 방법

  • Inference(추론)

표본에 기반한 모집단에 대한 추론/예측

모집단(Population): 통계학에서 관심/조사의 대상이 되는 개체의 전체 집합

모수(Parameter): 모집단에 대한 수치적 요약

  • 고등학생의 1일 평균 온라인 게임 플레이 시간
  • 강아지보다 고양이를 좋아하는 성인의 비율

표본(Sample): 모집단을 적절히 대표하는 모집단의 일부

통계량(Static): 표본에 대한 수치적 요약

  • 고등학생 1000명의 1일 평균 온라인 게임 플레이 시간
  • 강아지보다 고양이를 좋아하는 성인의 비율(1000)

sample statistic → population parameter!

통계의 기본 흐름: 표본 통계량을 통해 모집단의 모수를 추론하고 파악한다.

2. 자료의 종류

  1. 범주형 자료: 속성의 범주화, 상대적 서열도 표현
  2. 양적 자료: 자료자체가 숫자로 표현됨

자료의 속성을 파악해 시각화나 모델링을 위한 길잡이로 활용할 수 있음

 

3. 통계량 - 중심

통계량데이터의 수치적 요약

  1. 최빈값(mode)
사이즈 수량
S 5
M 25
L 10
XL 0

 2. 중앙값(median)

1 2 3 4 5 6 7 8 9

1 2 3 4 5 6 7 8 9 10 → 5.5

 3. 산술 평균(Arithmetic Mean)

모든 자료의 값을 더하여 자료의 수로 나누어준 값

모든 값을 반영하므로 극단 값에 영향을 받음

4. 가중 평균(Weighted Mean)

자료의 중요성이 각기 다를 경우 중요도에 따라 가중치를 부여한 평균

-> 산술 평균은 가중 평균에서 가중치들이 모두 1로 부여된 것과 같다.(n=w들의 수)

 

 5. 기하평균(Geometric Mean)

자료가 성장률, 증가율 등 앞 시점에 대한 비율로 나타난 경우 유용한 통계량

음수가 아닌 자료 값 only

연간 물가 상승률

Ex) 일일 주가 상승률: 1%, 3%, 5%, 10% : 1.0374…

 

 

728x90
반응형
Comments