[ํด๊ทผํ๋ด์ง] ๋น ๋ฐ์ดํฐ ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ (์์ ํ1,2,3)
๋น์ ๊ณต์, ์ ๋ฌธ์๊ฐ ๋น ๋ฐ์ดํฐ ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ๋ฅผ ๋น ๋ฅด๊ฒ ์ทจ๋ํ ์ ์๋๋ก ์๋ดํด๋๋ ค์! ์ด๋ก ์ ๊ฐ๋ณ๊ฒ, ์ค์ ์ ํ์คํ๊ฒ ๋ณต์กํ ๋ฐฐ๊ฒฝ์ง์ ์์ด๋, ๊ธฐ์ถ๋ฌธ์ ๋ฅผ ์ค์ฌ์ผ๋ก ์ํ์ ๊ผญ ๋์ค๋ ํฌ์ธํธ๋ง ์ง์ค ํ์ตํฉ๋๋ค.
์๊ฐ์ 4,974๋ช
๋์ด๋ ์ ๋ฌธ
์๊ฐ๊ธฐํ 12๊ฐ์

11ํ ๋น ๋ฐ์ดํฐ ๋ถ์๊ธฐ์ฌ ์ค๊ธฐ ๊ฒฐ๊ณผ๊ฐ ์ต์ข ๋ฐํ๋์์ต๋๋ค!
ํฉ๊ฒฉํ์ ๋ถ๋ค ์ง์ฌ์ผ๋ก ์ถํ๋๋ฆฝ๋๋ค. ํน์ ์์ฌ์ด ๊ฒฐ๊ณผ๋ฅผ ๋ฐ์ผ์ ๋ถ๋ค์ ์ด๋ฒ ๊ฒฝํ์ ๋ฐํ ์ผ์ ๋ด๋ ์ ๋ ์ฑ์ฅํ๊ฒ ๋ค๋ ๋ง์์ผ๋ก ํ๋ฒ ๋ ํจ๊ป ํ์์ฃ !!
์ ๋ ์ด๋ฒ ์ํ ๋ด์ฉ๊ณผ ์ฌ๋ฌ๋ถ๊ป์ ๋จ๊ฒจ์ฃผ์ ํผ๋๋ฐฑ์ ๋ฐ์ํด์, ๋ด๋ ์๋ ๋์ฑ ์ ๋ฐ์ดํธ๋ ๊ฐ์๋ก ์ฐพ์๋ต๊ฒ ์ต๋๋ค. ๐ช๐ช๐ช
๊ทธ๋ฆฌ๊ณ
์ฅ์ค๋ฝ์ง๋ง, ์ฌ๋ฌ๋ถ ๋๋ถ์ ์ด์ ์ธํ๋ฐ ์ด์๋์์ ์์ ๋ฐ์์ต๋๋ค! ์ ๋ง ๊ฐ์ฌ๋๋ฆฝ๋๋ค :)
์ฐ๋ง ๋ง๋ฌด๋ฆฌ ์ํ์๊ณ ํ๋ณตํ ํฌ๋ฆฌ์ค๋ง์ค์ ์ํด ๋ณด๋ด์ธ์! ๐๐ผโโ๏ธ๐๐ผโโ๏ธ๐๐ผโโ๏ธ
๊ฒฐ๊ณผ๊ฐ ๋์๋ด์ผ ์๊ฒ ์ง๋ง 11ํ ์ํ ์์์ผ๋ก ์ ๋ฆฌํด ๋ดค์ต๋๋ค.
๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ ์ํ ๋ณด์ ๋ถ๋ค ๊ณ ์ ๋ง์ผ์ จ์ต๋๋ค!
ttest์ ๋ฏผ๊ฐ๋๋ฅผ ์ ์ธํ๋ฉด
์ง๋ ๊ธฐ์ถ๊ณผ ์ ์ฌํด ๋ฌด๋ํ๋ค๋ ์๊ฒฌ์ธ๋ฐ ์ฌ๋ฌ๋ถ๋ค์ ์ด๋ ์ จ๋์? (๊ถ๊ธ)
๋ฑ๋ถ์ฐ์ด๋ผ๋ ๋ด์ฉ์ด ๋ฌธ์ ์ ์๋๋ฐ ์
equal_var=True์ธ๊ฐ์?
์ง๋ฌธ ์ฃผ์ ์ก**๋๊ป ๊ฐ์ฌ๋๋ฆฝ๋๋ค.์ฒดํ ๋ฌธ์ ์ ์์ ํ 3 โ ์๋ฌธ์ 3๋ฒ์์
๋ฌธ์ ํ ์คํธ์๋ โ๋ฑ๋ถ์ฐโ์ด๋ผ๋ ํํ์ด ์ง์ ๋ฑ์ฅํ์ง ์์ต๋๋ค.๊ทธ๋ฐ๋ฐ ํ์ด์์๋ ์๋์ ๊ฐ์ด
#3 from scipy import stats result = stats.ttest_ind(df[cond1]['Resistin'], df[cond2]['Resistin'], equal_var = True) print(round(result.pvalue,3))๋ฑ๋ถ์ฐ ๊ฐ์ (Student t-test)์ ์ฌ์ฉํ์ต๋๋ค.
๊ทธ ์ด์ ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.๋ฌธ์ ๋ ๋ค์ ํ๋ฆ์ผ๋ก ๊ตฌ์ฑ๋ ์ ํ์ ์ธ 3๋จ๊ณ ๊ฒ์ ๋ฌธ์ ์์ต๋๋ค.
F-๊ฒ์ ์ผ๋ก ๋ ์ง๋จ์ ๋ถ์ฐ ์ฐจ์ด๋ฅผ ํ์ธ
ํฉ๋ ๋ถ์ฐ ์ถ์ ๋ ๊ณ์ฐ
๊ทธ ํฉ๋ ๋ถ์ฐ์ ์ด์ฉํด ๋ ๋ฆฝํ๋ณธ t-๊ฒ์ ์ํ
ํฉ๋ ๋ถ์ฐ์ ๊ตฌํ๋ค๋ ๋ง ์์ฒด๊ฐ ์ด๋ฏธ ๋ ์ง๋จ์ ๋ถ์ฐ์ด ๋์ผํ๋ค๋ ๊ฐ์ ์ ์ ์ ๋ก ํฉ๋๋ค.
๋ฐ๋ผ์
equal_var=True๋ฅผ ์ฌ์ฉํ ํ์ด๋ก ์ ๊ทผํ์ต๋๋ค.
์ถ๊ฐ๋ก๋จ์ผํ๋ณธ t๊ฒ์ : ๋ฑ๋ถ์ฐ ๊ฒ์ ๋ถํ์ (๋น๊ตํ ๋ ๊ทธ๋ฃน์ด ์์)
๋์ํ๋ณธ t๊ฒ์ : ๋ฑ๋ถ์ฐ ๊ฒ์ ๋ถํ์ (์ฐจ์ด๊ฐ๋ง ์ฌ์ฉ)
๋ ๋ฆฝํ๋ณธ t๊ฒ์ : ๋ฑ๋ถ์ฐ ๊ฒ์ ๊ณ ๋ ค
๋ด์ผ ๋น ๋ถ๊ธฐ ์ํ์ด๋ค์
์ํ ์ ๋ณด๊ณ ์ค์๊ธธ ๊ธฐ์ํ๋ฉฐ ์์ ํ3 ๋ฌธ์ ํํ ์์ ์ ๋ฆฌํ์ต๋๋ค.
์ํ ์ ๋ณด๊ณ ์ค์ธ์ ๐๐

+์์๋ฌธ์ ์ ํ ํ์ต
-๋น๋ชจ์๋ ์ฐ์ ์์๊ฐ ๋ฎ์ ์ ์ธ
๊ธฐ์ถ vs ์ฐ์ต๋ฌธ์ ์ ์ฐจ์ด์
๊ธฐ์ถ๋ฌธ์ ๋ ์์๋ฌธ์ ์์๋ ์ปฌ๋ผ์ ์ญ์ ํ๋ ๊ฒฝ์ฐ๊ฐ ์์์ต๋๋ค.
ํ์ง๋ง ์ฐ์ต/๋ชจ์ ๋ฌธ์ ์์ ๋ ๋ณต์กํ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๋ค ๋ณด๋ฉด ์ปฌ๋ผ ์ญ์ ๊ฐ ํ์ํ ์ํฉ์ด ์๊น๋๋ค.
1โฃ ๋ชจ๋ ๊ฐ์ด ์ ๋ํฌ(Unique)ํ ๋
# ์: ID, ๊ณ ๊ฐ๋ฒํธ, ์ฃผ๋ฌธ๋ฒํธ ๋ฑ df['customer_id'].nunique() == len(df) # True๋ฉด ์ญ์ ๊ณ ๋ ค์ซ์ํ: ๊ทธ๋ฅ ๋์ด๋ ๋ชจ๋ธ์ด ์์์ ์ค์๋๋ฅผ ๋ฎ๊ฒ ํ๊ฐํจ
์ญ์ ํ์ง ์์๋ ํฐ ๋ฌธ์ ์์
๋ฌธ์ํ: ์ธ์ฝ๋ฉ ์ ์ฐจ์์ด ํญ๋ฐํ๋ฏ๋ก ์ญ์ ์ถ์ฒ! โ
Label Encodingํ๋ฉด ์๋ฏธ ์๋ ์์ ๊ด๊ณ ์์ฑ
One-Hot Encodingํ๋ฉด ์ปฌ๋ผ ์ = ํ ์๊ฐ ๊ธ์ฆํฉ๋๋ค.(1๋ถ๋ด ์ํ ๋ถ๊ณผ)
2โฃ ์ธ์ฝ๋ฉ์ด ์ด๋ ค์ธ ๋
# ์: ์์ ํ ์คํธ, ์ฃผ์, ์ด๋ฉ์ผ ๋ฑ df['comment'].head() # "๋ฐฐ์ก์ด ๋นจ๋ผ์", "ํฌ์ฅ์ด ๊น๋ํฉ๋๋ค", "์ฌ๊ตฌ๋งค ์์ฌ ์์"...๋ฒ ์ด์ค๋ผ์ธ: ์ผ๋จ ์ญ์ ํ๊ณ ๋ชจ๋ธ ๋๋ฆฌ๊ธฐ
์ฌํ ์ ๋ต: ์๊ฐ์ด ๋จ์ผ๋ฉด ์ด๋ฆด ๋ฐฉ๋ฒ ๊ณ ๋ฏผ
ํ ์คํธ ๊ธธ์ด, ํน์ ํค์๋ ํฌํจ ์ฌ๋ถ ๋ฑ ํ์๋ณ์ ์์ฑ
ex) ํญ๊ณตํธ๋ช (KE1234) โ ํญ๊ณต์ฌ(KE) + ํธ๋ช (1234) ๋ฐ๋ก ์ถ์ถ
3โฃ ๊ฒฐ์ธก์น๊ฐ ๊ณผ๋ํ๊ฒ ๋ง์ ๋ (80~90% ์ด์)
df['์ปฌ๋ผ'].isnull().sum() / len(df)๋ฒ ์ด์ค๋ผ์ธ: ์ผ๋จ ์ญ์ ํ๊ณ ์์ ํ๊ฒ ๊ฐ๊ธฐ
์ฌํ ์ ๋ต: ์๊ฐ์ด ๋จ์ผ๋ฉด ์ด๋ฆด ๋ฐฉ๋ฒ ๊ณ ๋ฏผ
๊ฒฐ์ธก ์ฌ๋ถ ์์ฒด๋ฅผ ์์๊ฐ์ผ๋ก ๋์
์ญ์ ํ ํ๊ฐ์งํ ๊ฒฐ๊ณผ์ ์ฑ์ด ํ ๊ฒฐ๊ณผ ๋น๊ต
๐ก ์์ ๊ฐ์ด ์ฒ๋ฆฌ๊ฐ ์ด๋ ค์ด ์ปฌ๋ผ์ด ๋์จ๋ค๋ฉด?
1์ฐจ: ๋ฒ ์ด์ค๋ผ์ธ ๋น ๋ฅด๊ฒ ์์ฑ (30~40๋ถ)
2๋ฒ, 3๋ฒ ์ผ์ด์ค๋ ๊ณผ๊ฐํ ์ญ์
1๋ฒ์ ๋ฌธ์ํ์ด๋ฉด ์ญ์ , ์ซ์ํ์ด๋ฉด ๊ทธ๋๋ก ๋ฌ๋ OK
์ผ๋จ ์ ์ถ ๊ฐ๋ฅํ ์ฝ๋ ์์ฑ
2์ฐจ: ์๊ฐ์ด ๋จ์ผ๋ฉด ์ฌํ (์ฌ์ ์์ ๋๋ง)
์ญ์ ํ๋ ์ปฌ๋ผ ์ด๋ฆด ๋ฐฉ๋ฒ ์๋
์ฑ๋ฅ ๊ฐ์ ์ฌ๋ถ ํ์ธ
โ ์ฃผ์์ฌํญ
์๊ฐ ๊ด๋ฆฌ๊ฐ ์ต์ฐ์ ! ์๋ฒฝํ ์ ์ฒ๋ฆฌ๋ณด๋ค ์ ์ถ ๊ฐ๋ฅํ ์ฝ๋๊ฐ ์ค์
๋ฒ ์ด์ค๋ผ์ธ์์๋ ์ญ์ ํ๊ณ 1์ฐจ ์ ์ถ ํ, ์๊ฐ ๋จ์ ๋ ์ฌ๋์ ! 2์ฐจ ์ ์ถ
โ 1. ANOVA / ์ด์๋ถ์ฐ๋ถ์ / ์ผ์๋ถ์ฐ๋ถ์
โ ๋ฒ์ฃผํ ์์ธ์
C()์ฌ์ฉ์ด ์ ์์:
model = ols("y ~ C(group)", data=df).fit() anova_lm(model)ANOVA๋ ์ ์ด์ โ์ง๋จ ๊ฐ ํ๊ท ์ฐจ์ดโ๋ฅผ ๋น๊ตํ๋ ๋ถ์ โ ์์ธ์ด ๋ฒ์ฃผํ.
๋ฐ๋ผ์ ๋ฌธ์ ์์ ๋ง๋ก โ๋ฒ์ฃผํโ์ด๋ผ๊ณ ์ ์จ์ค๋,
์์ธ ์์ฒด๊ฐ ๊ทธ๋ฃน ๋ณ์์ด๋ฏ๋ก C()๊ฐ ๊ธฐ๋ณธ๊ฐ์ ๋๋ค.
์ฆ,
โ ์ซ์๋ก ๋์ด ์์ด๋ โ C()
โ ๋ฌธ์๋ก ๋์ด ์์ด๋ โ C()โ2. ํ๊ท๋ถ์ (ols)
โก๋ฌธ์ ์์ ๋ฒ์ฃผํ์ด๋ผ๊ณ ๋ช ์๋ ๋ณ์๋ง C()
์:
ols("y ~ x1 + region", data=df)์ซ์๋ก ๋์ด ์๋ค๊ณ ํด์ ์๋์ผ๋ก ๋ฒ์ฃผํ ์ฒ๋ฆฌํ๋ ๊ฒ์ ์๋ชป
๋ฌธ์ ์์ โ๋ฒ์ฃผํ ๋ณ์์ด๋คโ๋ผ๊ณ ํ์ง ์์ ์ซ์ํ์ ์ฐ์ํ์ผ๋ก ์ทจ๊ธ
โ3. ๋ก์ง์คํฑ ํ๊ท( logit)
โกols์ ๋์ผ ์์น
์:
logit("target ~ x1 + job_type", data=df)logit ๋ ๋ฌธ์ ์์ โ๋ฒ์ฃผํโ์ด๋ผ๊ณ ์ ํ ์์ ๋๋ง C() ํ์.
๊ทธ ์ธ์๋ ์ ๋ ์์์ C() ๋ฃ์ง ์์.
์์ฝ์ง๋ง ์คํ ๋จ์ถํค๋ ์์ต๋๋ค.
์ฃผ์ : Ctrl + /
์ฌ๋ฌ์ค ์ฃผ์: ๋ธ๋ก ์ก์ ๋ค์ Ctrl + /ํ๋: Ctrl + โ+โ
์ถ์: Ctrl + โ-โ
๋ชจ๋ํฐ๊ฐ ์์ผ๋ฉด...์ค ์ ์ด๋: Ctrl + ์ผ์ชฝ ๋ฐฉํฅํค
๊ดํธํ ๋ ์ฃผ๋ก ์ฌ์ฉ์ค ๋ค ์ด๋: Ctrl + ์ค๋ฅธ์ชฝ ๋ฐฉํฅํค
๊ดํธํ ๋ ์ฃผ๋ก ์ฌ์ฉ์ฐพ๊ธฐ(๊ฒ์):Ctrl + f
Ctrl + f๋ ๊ธฐ๋ณธ ๋ฐ์ดํฐ ํญ์์๋ ์ฌ์ฉ๊ฐ๋ฅํจ

dir๊ณผ help๋ก ์ถ๋ ฅ๋ ๋ด์ฉ์ '๋ฉ๋ชจ์ฅ'์ผ๋ก ๋ณต์ฌ-๋ถ์ฌ๋ฃ๊ธฐ(๋ง์ฐ์ค๋ก ํด์ผํจ)
๊ฒ์ ๊ธฐ๋ฅ์ ์ฌ์ฉํ ์ ์์
์คํ ๊ฒฐ๊ณผ(์ถ๋ ฅ) ์์ฒด์์๋ ๊ฒ์ ๋ถ๊ฐํจ

์ค๊ธฐ ์ฒดํ ํ๊ธฐ ๋งํฌ






