Knowledge๐Ÿฆข/ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ

# ํšŒ๊ท€๋ถ„์„์˜ ํŠน์ง•  # ํšŒ๊ท€๋ถ„์„์˜ ์ข…๋ฅ˜ ํšŒ๊ท€๋ถ„์„์€ ํšŒ๊ท€ ๊ณ„์ˆ˜์˜ ์„ ํ˜•์—ฌ๋ถ€, ๋…๋ฆฝ๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜, ์ข…์†๋ณ€์ˆ˜์˜ ๊ฐœ์ˆ˜์— ๋”ฐ๋ผ ์—ฌ๋Ÿฌ๊ฐ€์ง€์œ ํ˜•์œผ๋กœ ๋‚˜๋ˆŒ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์šฐ๋ฆฌ๋Š” ์ด ์ค‘ ๋ฐ์ดํ„ฐ๋ถ„์„์—์„œ ๊ฐ€์žฅ ๋งŽ์ด ์‚ฌ์šฉ๋˜๋Š” ์„ ํ˜•ํšŒ๊ท€๋ถ„์„๊ณผ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€๋ถ„์„์˜ ๊ฐœ๋…์„ ํ•™์Šตํ•˜๊ฒ ์Šต๋‹ˆ๋‹ค.       # 1. ํšŒ๊ท€๋ชจ๋ธ์ด ์–ผ๋งˆ๋‚˜ ์„ค๋ช…๋ ฅ์„ ๊ฐ–๋Š”์ง€?        import pandas as pdimport numpy as np# ๋ฐ์ดํ„ฐ ๋ถ„ํฌ ํ™•์ธ์„ ์œ„ํ•œ plt ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ import import matplotlib.pyplot as plt#sklearn ์—์„œ ์ œ๊ณตํ•˜๋Š” ๋ฐ์ดํ„ฐ ์…‹ ์ค‘ ํ•˜๋‚˜์ธ diabetes ๋ถˆ๋Ÿฌ์˜ค๊ธฐ from sklearn.datasets import load_diabetes#ํšŒ๊ท€๋ถ„์„ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ import from sklearn..
# ํ”„๋กœ์„ธ์Šค  = ์˜ค๋ฅ˜ ํ—ˆ์šฉ ๋ฒ”์œ„ ์œ ์˜์ˆ˜์ค€: ๊ท€๋ฌด๊ฐ€์„ค์ด ๋งž์„ ๋•Œ ์˜ค๋ฅ˜ํ—ˆ์šฉ ๊ธฐ์ค€(ํ™•๋ฅ )  ํ‘œ๋ณธ์„ ์ถ”์ถœํ•˜๋Š” ์ˆœ๊ฐ„ ๋ชจ์ง‘๋‹จ๊ณผ 100% ์ผ์น˜ํ•  ์ˆ˜ ์—†๊ธฐ ๋•Œ๋ฌธ์—, ์˜ค๋ฅ˜์˜๊ฐ€๋Šฅ์„ฑ์ด ์กด์žฌํ•œ๋‹ค๊ณ  ํ•™์Šตํ•˜์˜€์Šต๋‹ˆ๋‹ค. ๊ฐ€์„ค ๊ฒ€์ •์—์„œ ๊ฒฐ๋ก ์„ ํ•ด์„ํ•˜๊ธฐ ์œ„ํ•ด์„œ๋Š” ๊ธฐ์ค€์„ ์„ธ์šฐ๊ณ , ๊ทธ ๊ธฐ์ค€์„ ๋งŒ์กฑํ•˜๋Š”์ง€ ํ™•์ธํ•ด์•ผ ํ•ฉ๋‹ˆ๋‹ค. ์—ฌ๊ธฐ์„œ ๊ธฐ์ค€์ด ๋˜๋Š” ๊ฒƒ์ด ์œ ์˜์ˆ˜์ค€์ž…๋‹ˆ๋‹ค.     ๊ฒ€์ •ํ†ต๊ณ„๋Ÿ‰์ด๋ž€ ๊ท€๋ฌด๊ฐ€์„ค์„ ์ฑ„ํƒ ๋˜๋Š” ๊ธฐ๊ฐํ•˜๊ธฐ ์œ„ํ•ด ์‚ฌ์šฉํ•˜๋Š” ํ™•๋ฅ ๋ณ€์ˆ˜๋ฅผ ์˜๋ฏธํ•ฉ๋‹ˆ๋‹ค.     p-value: ์–ด๋–  ์‚ฌ๊ฑด์ด ์šฐ์—ฐํžˆ ๋ฐœ์ƒํ•  ํ™•๋ฅ     # ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ๋ถˆ๋Ÿฌ์˜ค๊ธฐ# ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ ํ˜ธ์ถœ import pandas as pdimport numpy as np # ๊ณผํ•™ ๊ณ„์‚ฐ์šฉ ํŒŒ์ด์ฌ ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ import scipy.stats as statsfrom PIL import Imagedf..
01. ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜02. ํŽธ์ฐจ, ๋ถ„์‚ฐ, ํ‘œ์ค€ํŽธ์ฐจ, ํ‘œ๋ณธ๋ถ„ํฌ03. ์ •๊ทœ๋ถ„ํฌ, ์‹ ๋ขฐ๊ตฌ๊ฐ„ 01. ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜ Q) ์™œ ๋ฐ์ดํ„ฐ์˜ ์ข…๋ฅ˜๋ฅผ ์•Œ์•„์•ผ ํ•˜๋‚˜์š”..? ๊ทธ๋ƒฅ ๋ฐ์ดํ„ฐ ๋ถ„์„ํ•˜๋ฉด ์•ˆ๋˜๋‚˜์š”?A) ๋ฐ์ดํ„ฐ์˜ ์ƒ๊น€์ƒˆ์— ๋”ฐ๋ผ ์‹œ๊ฐํ™”, ํ•ด์„, ํ†ต๊ณ„๋ชจ๋ธ ๊ฒฐ์ •์— ์ค‘์š”ํ•œ ์—ญํ• ์„ ํ•˜๊ธฐ ๋•Œ๋ฌธ์ด์˜ˆ์š”.    02. ํŽธ์ฐจ, ๋ถ„์‚ฐ, ํ‘œ์ค€ํŽธ์ฐจ, ํ‘œ๋ณธ๋ถ„ํฌ ๋ฐ์ดํ„ฐ EDA ๋ฅผ ์ง„ํ–‰ํ•˜๋ฉด์„œ ์šฐ๋ฆฌ๋Š” Pandas ๋ผ๋Š” ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ๋ฅผ ํ†ตํ•ด, ๋ฐ์ดํ„ฐํ”„๋ ˆ์ž„ ์ด๋ผ๋Š”  ํ…Œ์ด๋ธ” ํ˜•ํƒœ์˜ ๋ฐ์ดํ„ฐ ๊ตฌ์กฐ๋ฅผ ์‚ดํŽด๋ณด์•˜์Šต๋‹ˆ๋‹ค. ์ด๋Š” ๊ธฐ๋ณธ์ ์œผ๋กœ ํ–‰๊ณผ ์—ด๋กœ ๊ตฌ์„ฑ๋œ ์ด์ฐจ์›์˜ ํ–‰๋ ฌ์„ ๋œปํ•ฉ๋‹ˆ๋‹ค.   ์šฐ๋ฆฌ๋Š” ํ…Œ์ด๋ธ”์ด ์–ด๋–ป๊ฒŒ ์ƒ๊ฒผ๋Š”์ง€ info, describe ๋“ฑ์˜ ํ•จ์ˆ˜๋ฅผ ์‚ฌ์šฉํ•˜๋ฉฐ ์•Œ์•„๋ณด์•˜์—ˆ์ฃ !ํ…Œ์ด๋ธ”์ด ์ฃผ์–ด์กŒ์„ ๋•Œ ์ด๋ฅผ ์‚ดํŽด๋ณด๋Š” ๊ฐ€์žฅ ๊ธฐ์ดˆ์ ์ธ ๋‹จ๊ณ„๋Š” ๊ฐ ์ปฌ๋Ÿผ์˜ ‘๋Œ€ํ‘œ๊ฐ’’ ์„ ๊ตฌํ•˜๋Š” ๊ฒƒ์ž…..
# ์ •์˜๋ชจ์ˆ˜๊ฐ€ ์–ด๋А ๋ฒ”์œ„ ์•ˆ์— ์žˆ๋Š”์ง€๋ฅผ ํ™•๋ฅ ์ ์œผ๋กœ ๋ณด์—ฌ์ฃผ๋Š” ๋ฐฉ๋ฒ•์ด๋‹ค ์˜ˆ๋ฅผ ๋“ค์–ด์„œ, ์ง‘์— ๊ฐ€๋Š”๊ธธ์— ์–ธ์ œ์ฏค ๋„์ฐฉํ•  ๊ฒƒ ๊ฐ™๋ƒ๋Š” ์งˆ๋ฌธ์—"10์—์„œ 15๋ถ„์ด๋ฉด ๋„์ฐฉํ• ๊บผ์•ผ" ๋ผ๊ณ  ๋‹ต๋ณ€ํ–ˆ๋‹ค๋ฉด ์šฐ๋ฆฌ๋Š” 10~15์‚ฌ์ด์˜ ์‹ ๋ขฐ๊ตฌ๊ฐ„์„ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋Š” ๊ฒƒ์ด๋‹ค  ๊ทธ๋ ‡๋‹ค๋ฉด ์™œ 12.5๋ถ„์ด ์•„๋‹ˆ๋ผ10๋ถ„์—์„œ 15๋ถ„ ์‚ฌ์ด๋ผ๊ณ  ๋งํ•˜๋Š” ๊ฒƒ์ผ๊นŒ?? ๊ทธ๊ฒƒ์€ ๋ถˆํ™•์‹คํ•จ์ด ๋‚ดํฌ๋˜์–ด ์žˆ๊ธฐ ๋•Œ๋ฌธ์ด๋‹ค  [ ์˜ˆ์‹œ ] ๋ชจ์ง‘๋‹จ ์ค‘ ๋žœ๋คํ•˜๊ฒŒ ์ƒ˜ํ”Œ์„ ์„ ํƒํ•œ ํ›„ ์„ ํƒ๋œ ํ‘œ๋ณธ์˜ ํ‰๊ท ์„ ๊ณ„์‚ฐํ•ด ํ‘œ์‹œํ–ˆ์„๋•Œ, ๋ชจ์ง‘๋‹จ์˜ ์ƒ˜ํ”Œ์„ ์„ ํƒํ•˜๋Š” ๊ฒฝ์šฐ์˜ ์ˆ˜๋Š” ๋ฌด์ˆ˜ํžˆ ๋งŽ๋‹ค๋”ฐ๋ผ์„œ ์šฐ๋ฆฌ๊ฐ€ ๊ฒฐ๊ณผ๋ฅผ ์–ป์—ˆ์„ ์ˆ˜ ์žˆ๋Š” ํ‰๊ท ๊ฐ’ ๋˜ํ•œ ๋ฌด์ˆ˜ํžˆ ๋งŽ๋‹ค ๊ฒฐ๊ตญ ํ‘œ๋ณธํ‰๊ท ์˜ ๋ถ„ํฌ๋Š” ๋ชจํ‰๊ท ์„ ์ค‘์‹ฌ์œผ๋กœ ํ•˜๋Š” ์ •๊ทœ๋ถ„ํฌ๋ฅผ ๋”ฐ๋ฅด๊ฒŒ ๋œ๋‹ค ๊ทธ๋ฆฌ๊ณ  ์ •๊ทœ๋ถ„ํฌ๋Š” ํ‰๊ท ๊ฐ’์„ ์ค‘์‹ฌ์œผ๋กœ +- 2ํ‘œ์ค€ํŽธ์ฐจ์˜ ๋ฒ”์œ„๊ฐ€ ์•ฝ 95%์˜ ๋ฉด์ ์„ ์ฐจ์ง€ํ•œ๋‹ค..
# ์ •์˜๋‘ ์ง‘๋‹จ์˜ ํ‰๊ท ์ด ์–ผ๋งˆ๋‚˜ ๋‹ค๋ฅธ์ง€ ํ†ต๊ณ„์ ์œผ๋กœ ๋น„๊ตํ•˜๋Š” ํ…Œ์ŠคํŠธ์ด๋‹ค ์˜ˆ๋ฅผ ๋“ค์–ด์„œ, ๋Œ€ํ•œ๋ฏผ๊ตญ 20๋Œ€ ๋‚จ๋…€ ํ‰๊ท ํ‚ค๋ฅผ ๋น„๊ตํ•œ๋‹ค๊ณ  ๊ฐ€์ •ํ•ด๋ณด์ž.๊ทธ๋ ‡๋‹ค๋ฉด ์ž„์˜๋กœ ๋‚จ์ž 30๋ช…, ์—ฌ์ž30๋ช…์„ ์กฐ์‚ฌํ•˜์—ฌ ํ‰๊ท ํ‚ค๋ฅผ ๋น„๊ตํ•˜๋ฉด ๋˜๋Š” ๊ฒƒ์ด๋‹ค์ด๊ฒƒ์„ ๋…ผ๋ฆฌ์ ์œผ๋กœ ์ž˜ ๋น„๊ตํ•˜๋Š” ๊ธฐ๋ฒ•์ด t-test ์ด๋‹ค   Question )์•„๋‹ˆ ๊ทธ๋Ÿฌ๋ฉด ์ž๊พธ t๋ผ๋Š” ๊ฐ’์ด ๋‚˜์˜ค๋Š”๋ฐ t์˜ ๋œป์ด ๋ญ”๊ฐ€์š”~~? Answer )๋ฐฉ์ •์‹์—์„œ์˜ x๊ฐ™์ด ์ž„์˜์˜ ๋ณ€์ˆ˜๋ช…์ด๋‹ค๋น„์Šทํ•œ ๋งฅ๋ฝ์—์„œ t๋Š” ๊ทธ๋ฃน๊ฐ„ ํ‰๊ท  ์ฐจ์ด๊ฐ€ ํด ๋•Œ ํฐ ๊ฐ’์„ ๊ฐ€์ง€๊ฒŒ ์„ธํŒ…๋œ ๋ณ€์ˆ˜์ด๋‹ค์ฆ‰, t๋Š” ๊ทธ๋ฃน๊ฐ„ ์ฐจ์ด์— ๋น„๋ก€ํ•˜๋Š” ๋ณ€์ˆ˜์ด๋‹ค    ๊ทธ๋ ‡๋‹ค๋ฉด ์—ฌ์ž์˜ ํ‰๊ท ํ‚ค๊ฐ€ 161์ด๊ณ  ๋‚จ์ž์˜ ํ‰๊ท ํ‚ค๊ฐ€ 173์ผ๋•Œ ์ด๋•Œ์˜ t๋Š” 173 - 161 = 12์ผ๊นŒ.....??? ๋‹ต์€ ์•„๋‹ˆ๋‹ค!!!!  ์™œ ์•„๋‹Œ๊ฑฐ์ฃ ...?!!!!  20๋Œ€ ๋‚จ..
# ํ‰๊ท ๋ฐ์ดํ„ฐ ์ง‘ํ•ฉ์„ ๊ฐ€์žฅ ์ž˜ ๋‚˜ํƒ€๋‚ด๋Š” ๋‹จ์ผ ๋˜๋Š” ์ˆซ์ž ๊ฐ’์ผ๋ฐ˜์ ์œผ๋กœ ์ƒ๊ฐํ•˜๋Š” ํ‰๊ท ์€ ์‚ฐ์ˆ ํ‰๊ท   # ํ‰๊ท ์„ ๋ง์น˜๋Š” ์™œ๋„์™€ ์ด์ƒ์น˜ 1. ์™œ๋„ (Skewness) ์™œ๋„๋Š” ํŠน์ •ํ•œ ๋ฐฉํ–ฅ์œผ๋กœ ๋ฐ์ดํ„ฐ๊ฐ€ ์ ๋ ค์žˆ๋Š” ๊ฒƒ. ๋ณดํ†ต ๊ผฌ๋ฆฌtail๋ฅผ ๋‹น๊ธด ๊ฒƒ์ฒ˜๋Ÿผ ์ƒŒ๊ฒผ๋‹ค๊ณ  ํ‘œํ˜„ํ•ฉ๋‹ˆ๋‹ค.    ์™œ๋„๊ฐ€ ์žˆ์œผ๋ฉด ํ‰๊ท ์ด ์ „์ฒด ๋ฐ์ดํ„ฐ๋ฅผ ๋Œ€ํ‘œํ•˜์ง€ ๋ชปํ•ฉ๋‹ˆ๋‹ค   2. ์ด์ƒ์น˜ (Outlier)   โ€ป ์ด์ƒ์น˜๋ฅผ ๊ณต๋ถ€ํ•˜๊ธฐ์— ์•ž์„œ์„œ ๋ฐ•์Šคํ”Œ๋กฏ์— ๋Œ€ํ•ด์„œ ์•Œ์•„๋ณด์ž!  # Q1, Q2, Q3 ๋จผ์ € ๊ฐ€์šด๋ฐ ์žˆ๋Š” ๋„ค๋ชจ ๋ฐ•์Šค๋ฅผ ๋ด…์‹œ๋‹ค. ์„ธ๊ฐœ์˜ ์„ธ๋กœ์ค„์ด ์žˆ๊ณ  Q1,Q2,Q3๋ผ๊ณ  ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค. Q๋Š” quartile ์˜ ์•ž๊ธ€์ž์ž…๋‹ˆ๋‹ค. quartile ์€ ์‚ฌ๋ถ„์œ„์ˆ˜๋ผ๋Š” ๋œป์ž…๋‹ˆ๋‹ค. ์‚ฌ๋ถ„์œ„์ˆ˜๋Š” ์ „์ฒด๋ฅผ ๋„ท์œผ๋กœ ๋‚˜๋ˆˆ ์ˆ˜๋ผ๋Š” ๋œป์ž…๋‹ˆ๋‹ค.  ์ „์ฒด๋ฅผ ๋„ท์œผ๋กœ ๋‚˜๋ˆ„๊ธฐ ์œ„ํ•ด์„œ๋Š” ~ ?!์ •๋‹ต! ..
ํŒŒ์นดํŒŒ์˜ค
'Knowledge๐Ÿฆข/ํ†ต๊ณ„ํ•™ ๊ธฐ์ดˆ' ์นดํ…Œ๊ณ ๋ฆฌ์˜ ๊ธ€ ๋ชฉ๋ก