# ํ๊ท
๋ฐ์ดํฐ ์งํฉ์ ๊ฐ์ฅ ์ ๋ํ๋ด๋ ๋จ์ผ ๋๋ ์ซ์ ๊ฐ
์ผ๋ฐ์ ์ผ๋ก ์๊ฐํ๋ ํ๊ท ์ ์ฐ์ ํ๊ท
# ํ๊ท ์ ๋ง์น๋ ์๋์ ์ด์์น
1. ์๋ (Skewness)
์๋๋ ํน์ ํ ๋ฐฉํฅ์ผ๋ก ๋ฐ์ดํฐ๊ฐ ์ ๋ ค์๋ ๊ฒ.
๋ณดํต ๊ผฌ๋ฆฌtail๋ฅผ ๋น๊ธด ๊ฒ์ฒ๋ผ ์๊ฒผ๋ค๊ณ ํํํฉ๋๋ค.
์๋๊ฐ ์์ผ๋ฉด ํ๊ท ์ด ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ๋ํํ์ง ๋ชปํฉ๋๋ค
2. ์ด์์น (Outlier)
โป ์ด์์น๋ฅผ ๊ณต๋ถํ๊ธฐ์ ์์์ ๋ฐ์คํ๋กฏ์ ๋ํด์ ์์๋ณด์!
# Q1, Q2, Q3
๋จผ์ ๊ฐ์ด๋ฐ ์๋ ๋ค๋ชจ ๋ฐ์ค๋ฅผ ๋ด ์๋ค. ์ธ๊ฐ์ ์ธ๋ก์ค์ด ์๊ณ Q1,Q2,Q3๋ผ๊ณ ๋์ด ์์ต๋๋ค.
Q๋ quartile ์ ์๊ธ์์ ๋๋ค. quartile ์ ์ฌ๋ถ์์๋ผ๋ ๋ป์ ๋๋ค. ์ฌ๋ถ์์๋ ์ ์ฒด๋ฅผ ๋ท์ผ๋ก ๋๋ ์๋ผ๋ ๋ป์ ๋๋ค.
์ ์ฒด๋ฅผ ๋ท์ผ๋ก ๋๋๊ธฐ ์ํด์๋ ~ ?!
์ ๋ต! 3๋ฑ๋ถ์ ํ๋ฉด ๋ฉ๋๋ค!!
์ด ์ธ ์ฌ๋ถ์์๋ฅผ ๊ฐ๊ฐ 1์ฌ๋ถ์์, 2์ฌ๋ถ์์, 3์ฌ๋ถ์์๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ์ ์ฒด๋ฅผ ๊ฐ์ ๊ฐ๊ฒฉ์ผ๋ก ๋๋๊ธฐ ๋๋ฌธ์ 1์ฌ๋ถ์์๋ 25% ์์น, 2์ฌ๋ถ์์๋ 50% ์์น, 3์ฌ๋ถ์์๋ 75% ์์น์ ์์ต๋๋ค. ์์๋ฅผ ๊ธฐ์ค์ผ๋กํ ์์น์ ๋๋ค.
Q1 : 1์ฌ๋ถ์์ (25% ์์น)
Q2 : 2์ฌ๋ถ์์ (50% ์์น)
Q3 : 3์ฌ๋ถ์์ (75% ์์น)
# IQR์ด๋?
IQR ์ Interquartile range์ ์ค์๋ง์ ๋๋ค. ์ฐ๋ฆฌ๋ง๋ก ์ฌ๋ถ์๋ฒ์ ๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. ์ฌ๋ถ์์์ ๋ฒ์๋ผ๋ ๋ง์ธ๋ฐ์. 3์ฌ๋ถ์์์์ 1์ฌ๋ถ์์๋ฅผ ๋บ ๊ฐ์ผ๋ก ์ ์๋ฉ๋๋ค.
IQR = Q3-Q1
< ๋ฐ์คํ๋กฏ >
๋ฐ์คํ๋กฏ์ ์ ๊ท ๋ช ์นญ์ ์์์์ผ๊ทธ๋ฆผ์ด๋ค
# ์ฌ๊ธฐ์ ์ฃผ์ํ ์
์ค์ ์์ ๊ทธ๋ํ์์ ํ ์ด๋ธ.describe() ํจ์๋ฅผ ์ํํ์๋ max()์ min()์ ํ์ธํ๋ฉด ์์ผ ๋ถ๋ถ์ ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ด ๋์ค์ง ์๊ณ , ์ด์์น ์ค ์ต๋๊ฐ๊ณผ ์ต์๊ฐ์ด ๋์ค๊ฒ ๋๋ค.
์ฆ, ์ค์ ์ต๋๊ฐ์ ์ด์์น ์ค ์ต๋๊ฐ์ด์ง๋ง ์ฐ๋ฆฌ๋ ์ด์์น์ ๊ฒฝ๊ณ ๋ฒ์ ์์ ๋ค์ด์๋ ๊ฐ ์ค ์ต๋๊ฐ(์ด์์น ์ ์ธ)๋ฅผ ์์ผ์ผ๋ก ํ์ํ๊ธฐ ๋๋ฌธ์ด๋ค
๊ทธ๋ํ์ ylim()์ ์ด์ฉํ์ฌ ๋ณด๊ณ ์ถ์ y์ถ์ ๋ฒ์๋ฅผ ์ง์ ํ์๋ ์ด์๊ฐ์ด ๋ชจ๋๊ฐ ํ์๋์ง ์์ง๋ง ๊ทธ๋ํ๋ฅผ ์ ๋ช ํ๊ฒ ๊ด์ธกํ ์ ์๋ค
[ ์์ ]
ylim()์ ์ฌ์ฉํ์๋ค - ๋ฒ์ ํ์
# ์ฐ์ ๋
# ๋์ด์ ์ฐ๊ฐ์๋๊ฐ์ ์๊ด๊ด๊ณ
# ylim์ผ๋ก 0๋ถํฐ 250000๊น์ง๋ง ์๋ผ์ ๋์ค๊ฒ ํด์ ๊ทธ์์ ๊ฐ์ ์๋ณด์
sns.boxplot(data=customer, x='age_group', y = 'Annual_Income', palette='husl')
plt.ylim(0,250000)
๋ง์ฝ ylim()ํจ์๋ฅผ ์ฌ์ฉํ์ง ์๋๋ค๋ฉด ์์์์ผ ๊ทธ๋ํ๋ฅผ ์ ๋ช ํ๊ฒ ๊ด์ฐฐํ ์ ์์ง๋ง ๋ชจ๋ ์ด์๊ฐ (์ค์ ์ต๋๊ฐ) ์ ๋ณผ ์ ์๋ค
[ ์์2 ]
ylim()์ ์ฌ์ฉํ์ง ์์๋ค - ๋ฒ์ํ์ X
# x ์ถ ํ์ ํ์์ ๋ณ๊ฒฝํ๋ ํจ์ ์ ์
from matplotlib.ticker import FuncFormatter
# x ์ถ ํ์ ํ์์ ๋ณ๊ฒฝํ๋ ํจ์ ์ ์
def format_func(x, pos):
return '{:,.0f}'.format(x/1000) # #,### ํ์์ผ๋ก ํฌ๋งทํ
plt.figure(figsize=(16,9))
sns.boxplot(data=customer,x='Annual_Income')
# x ์ถ์ ์ ์ฉํ Formatter ์ค์
formatter = FuncFormatter(format_func)
plt.gca().xaxis.set_major_formatter(formatter)
# ๊ทธ๋ํ ํ์
plt.xlabel('Annual_Income($1k)')
ylim()์์ฐ๋๊น ์ ์๋ณด์ด์ฅฌ..?
# ๋ง์ฝ ํ๊ท ๋ณด๋ค ํ์คํธ์ฐจ๊ฐ ๋ ํฌ๋ค๋ฉด?
ํ์คํธ์ฐจ๋ ๊ฐ๋ค์ด ํฉ์ด์ ธ ์๋ ์ ๋๋ฅผ ์ธก์ ํ๋ ๋จ์๋ก ๋ง์ด ์ฐ์ธ๋ค.
ํ์คํธ์ฐจ๊ฐ ํฌ๋ค๋ ๊ฒ์ ํ๊ท ๊ฐ์ผ๋ก๋ถํฐ ๊ฐ์ด ๋ฉ๋ฆฌ ๋จ์ด์ ธ ์๋ค๋ ๋ป์ด๋ค.
ํ์คํธ์ฐจ๊ฐ ํฌ๋ค๋ ๊ฒ์ ๊ตฌ์ฑํ๋ ์๋ค์ ๋ํ๋ก ํ๊ท ๊ฐ์ ์ฌ์ฉํ๋ค๋ ๊ฒ ๋ถ์ ์ ํด์ง๋ค.
๋ฐ๋ผ์ ํ๊ท ๊ฐ๋ณด๋ค๋ ์ค์๊ฐ์ ์ฌ์ฉํ๋ ๊ฒ์ด ๋ ์ ์ ํ
์ต๋น๊ฐ : ์ฌ๋ฌ ์ ์ค์์ ๊ฐ์ ์์ ๋ฑ์ฅ ํ์๊ฐ ๊ฐ์ฅ ๋ง์ ์
์ค์๊ฐ : ์ซ์๋ฅผ 1๋ถํฐ ํฐ ๊ฐ ์์ผ๋ก ๋์ดํ์ ๋ ์ค์์ ์์นํ๋ ๊ฐ.
์ฐ์ ํ๊ท : ๋ชจ๋ ์๋ฅผ ๋ํด์ ๊ทธ ์์ ๊ฐ์๋ก ๋๋ ์ฐ๋ฆฌ๊ฐ ํํ ์ฌ์ฉํ๋ ํ๊ท ๊ฐ.
< ํ๊ท 3๋์ฅ >
1. ์ฐ์ ํ๊ท (MEAN)
๋ชจ๋ ๋ฐ์ดํฐ๋ฅผ ๋ํ ๋ค ์ ์ฒด ๋ฐ์ดํฐ์ ์๋ก ๋๋ ์ค ๊ฒ
๊ฐ์ฅ ์ผ๋ฐ์ ์ผ๋ก ๋ง์ด ์ฐธ์กฐ๋๋ ํ๊ท
์๋(Skewness)์ ์ด์์น(Outlier)์ ์ทจ์ฝํฉ๋๋ค
2. ์ค์๊ฐ (MEDIAN)
์ฝ๊ฒ ๋งํด ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฌํ์ฌ ๊ฐ์ด๋ฐ ์๋ ๊ด์ธก์น
์๋์ ์ด์์น์ ๊ฐ์ธ(robust)ํ์ฌ ํ๊ท ์ ๋์์ผ๋ก ๋ง์ด ํ์ฉํฉ๋๋ค.
3. ์ต๋น๊ฐ (MODE)
๊ฐ์ฅ ๋น๋ฒํ๊ฒ ๋ฑ์ฅํ๋ ๊ด์ธก์น
๋ฑ์ฅํ๋ ๊ด์ธก์น์ ๊ฐ์ด ๋ค์ํ์ง ์์ ๊ฒฝ์ฐ ํจ๊ณผ์ ์ผ๋ก ์ฐ์ผ ์ ์๋ ๋ํฏ๊ฐ
ํ์ง๋ง ํ๊ท ์ ์๋ฏธ๋ก๋ ๋ฐ๋์งํ์ง ์์ผ๋ฉฐ, ์ ํ์ ์ผ๋ก ์ฌ์ฉํ ๋ ์ ์ฉํฉ๋๋ค.
[ ์์ ]
< ๊ธฐํ ํ๊ท >
- ๊ต๊ณผ์์์ ๋ช
์์ ์ผ๋ก๋ ์ ์ ์๋ ค์ฃผ๋ ํ๊ท ์
๋๋ค
- ์ค์ ๋ก๋ ๊ต์ฅํ ๋ง์ด ์ฐ๋ฉฐ, ์ ์ฉํฉ๋๋ค
1. ๋ก๊ทธ ํ๊ท
๊ฐ ๊ด์ธก์น๋ฅผ ๋ก๊ทธ ๋ณํํ ๋ค ์ฐ์ ํ๊ท ์ ์ง๊ณํฉ๋๋ค
์ค์๊ฐ๊ณผ ์ ์ฌํ๊ฒ ์ด์์น์ ์๋์ ๊ฐ๊ฑดํฉ๋๋ค
๋ก๊ทธ์ ๋ฐ์ผ๋ก๋ ์ค์ผ๋ฌ ์์ e=2.781828...์ ์ผ๋ฐ์ ์ผ๋ก ์ฌ์ฉํฉ๋๋ค
๋ก๊ทธ ๋ณํ์ผ๋ก ์ธํด ๊ฒฐ๊ณผ๊ฐ์ ๋ํ ์ง์ ์ ์ธ ํด์์ด ์ด๋ ค์, ์๋์ ์ธ ๋น๊ต์ ์ ์ฉํฉ๋๋ค
๋ก๊ทธ ํ๊ท ์ ์ฃผ๋ก ๋ฐ์ดํฐ ๊ฐ๋ค์ด ๊ณฑ์
์ ๊ด๊ณ์ ์์ ๋ ์ฌ์ฉ๋๋ฉฐ, ๋น์จ์ด๋ ์ฑ์ฅ๋ฅ ์ ํ๊ท ํ ๋ ์ ํฉํฉ๋๋ค.
๋ก๊ทธ ํ๊ท ์ ๊ทน๋จ๊ฐ์ ์ง์ ์ ๊ฑฐํ์ง ์์ต๋๋ค.
2. ์ ์ญ ํ๊ท
์/ํ์ ๋ฐ์ดํฐ๋ฅผ ์ผ๋ถ(k%) ์ ๊ฑฐํ ๋ค ์ฐ์ ํ๊ท ์ ๊ตฌํฉ๋๋ค
๊ทน๋จ์ ์ธ ๊ฐ๋ค์ ์ ๊ฑฐํ์์ผ๋ฏ๋ก ์ด์์น์ ๊ฐ๊ฑดํฉ๋๋ค.
๋จ, ์๋์๋ ์ฌ์ ํ ์ทจ์ฝํ ์ ์์ต๋๋ค
๋ณํ์ด ์๊ธฐ ๋๋ฌธ์ ๊ฒฐ๊ณผ๊ฐ์ ๋ํ ์ง์ ์ ์ธ ํด์์ด ๊ฐ๋ฅํฉ๋๋ค
์ ์ญ ํ๊ท ์ ๊ทน๋จ๊ฐ์ ๋ฏผ๊ฐํ ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ ๋ ์ฌ์ฉ๋๋ฉฐ, ๋ฐ์ดํฐ์ ์๊ณก์ ์ค์ด๊ธฐ ์ํด ์ฌ์ฉ๋ฉ๋๋ค.
# Reference
https://dining-developer.tistory.com/17
Skew(์๋) ์ Kurtosis(์ฒจ๋) - ๋ฐ์ดํฐ ๊ณผํ์์ ์์์ผ ํ ๋๊ฐ์ง ์ค์ํ ํต๊ณ ์ฉ์ด
์ค๋์ Skew์ Kurtosis, ์ฆ ์๋์ ์ฒจ๋์ ๋ํด์ ์์๋ณด์. Skewness / ์๋ symmetrical bell curve ํน์ normal distribution์์ ์๊ณก ์ ๋๋ฅผ ๋งํ๋ค. ๋ฐ์ดํฐ ๋ถํฌ์ ๋์นญ์ฑ์ด ์ผ๋ง๋ ๊ฒฐํ๋์๋์ง๋ฅผ ์ธก์ ํ๋ค.
dining-developer.tistory.com
https://hsm-edu.tistory.com/1542#google_vignette
[๋ถ์์์ ์ดํด] 1. ์์์์ผ๊ทธ๋ฆผ ์ฝ๊ณ ์์ธํ ์ค๋ช
์์์์ผ๊ทธ๋ฆผ์ ์๋์ ๊ฐ์ ๊ทธ๋ํ๋ฅผ ๋งํฉ๋๋ค. ์ด์ถฉ ์คํ๋ ์ด ์ข ๋ฅ์ ๊ณค์ถฉ ์ ๋ฐ์ดํฐ๋ฅผ ์ฌ์ฉํ์ฌ ๊ทธ๋ฆฐ ์์์์ผ๊ทธ๋ฆผ์ ๋๋ค. R์ด๋ผ๋ ํต๊ณํ๋ก๊ทธ๋จ์์ ์ ๊ณตํ๋ ๋ด์ฅ๋ฐ์ดํฐ์ ๋๋ค. x์ถ์ด ์ด
hsm-edu.tistory.com
๋ก๊ทธ ์ฐ์ฐ
https://calcproject.tistory.com/94
[์ํI] 4. ๋ก๊ทธ์ ์ฑ์ง, ๋ก๊ทธ๊ฐ ๋ค์ด๊ฐ ๊ณต์ (๊ฐ๋ +์ํ๋ฌธ์ )
์๋ ํ์ธ์, ํ์ต์ง์ ์์์ ๋๋ค. ์ด๋ฒ ํฌ์คํ ์ ์ํI ๋ค ๋ฒ์งธ ํ์ต์ง๋ก, ๋ก๊ทธ์ ์ฐ์ฐ์ ๋ํด ์ด์ผ๊ธฐํด๋ณด๋ ค๊ณ ํฉ๋๋ค. ์ง๋ ์ธ ๋ฒ์งธ ํ์ต์ง์์๋ ๋ก๊ทธ์ ์๋ฏธ๋ฅผ ๊ณต๋ถํด๋ณด์๋๋ฐ์, ์ค๋์ ๋ก
calcproject.tistory.com
'Knowledge๐ฆข > ํต๊ณํ ๊ธฐ์ด' ์นดํ ๊ณ ๋ฆฌ์ ๋ค๋ฅธ ๊ธ
[ํต๊ณ์ผ ๋์ 3] ์ ํ ํ๊ท๋ถ์, ๋ก์ง์คํฑ ํ๊ท๋ถ์ (0) | 2024.06.10 |
---|---|
[ํต๊ณ์ผ ๋์ 2] A/B ํ ์คํธ, ์ ์์์ค, p-value (1) | 2024.06.10 |
[ํต๊ณ์ผ ๋์ 1] ๋ฐ์ดํฐ์ ์ข ๋ฅ, ๋ถ์ฐ, ํ์คํธ์ฐจ, ์ ๊ท๋ถํฌ (1) | 2024.06.05 |
[ํต๊ณํ ๊ธฐ์ด] ์ ๋ขฐ๊ตฌ๊ฐ์ ๋ํด์ (0) | 2024.06.01 |
[ํต๊ณํ ๊ธฐ์ด] t-value, t-test๊ฐ ๋ญ๊น? (0) | 2024.05.31 |