๋ฐ์ดํฐ ์ฌ์ด์ธํฐ์คํธ ๊น๋๊ท์ ๋๋ค.
ํ์ฌ AI์ฐ๊ตฌ์์ผ๋ก ์ฌ์งํ๊ณ ์์ต๋๋ค.
Courses
Reviews
- One-shot finish! Big Data Analysis Engineer Practical Work Type
- One-shot finish! Big Data Analysis Engineer Practical Work Type
- One-shot finish! Big Data Analysis Engineer Practical Work Type
- One-shot finish! Big Data Analysis Engineer Practical Work Type
- One-shot finish! Big Data Analysis Engineer Practical Work Type
Posts
Q&A
Futurewarning ์๋ฌ ๊ด๋ จํด์ ๋ฌธ์๋๋ฆฝ๋๋ค
์๋ ํ์ธ์ ์ด์คํ๋!๋ง์ํ์ ์ฌํญ์ ์ฝ๋ ์คํ์ ์์ด์ ๋ฌธ์ ๊ฐ ์์ผ๋ฉฐ ์ด์ ๋ํ ์ฌํญ์ ์ฌ์ ์ ์งํฅ์์ ์ง์์๋ต์ ๋ง์ณ๋์์ต๋๋ค.warning์ ํ์ฌ ์ฝ๋์ ์ฃผ์ํ ์ ์ด ์์ง๋ง ์คํ์ ์ ์์ ์ผ๋ก ์ด๋ค์ง๋ค๋ ๋ป์ด๋ ๊ฑฑ์ ํ์ง ์์ผ์ ๋ ๋ฉ๋๋ค.๊ฐ์ฌํฉ๋๋ค.
- 0
- 1
- 588
Q&A
์ฑ๋ฅํ์ธ ์ง๋ฌธ
์๋ ํ์ธ์, wjsgns745๋!์ง๋ฌธ์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค.์ง๋ฌธ์ฃผ์ ๋ถ๋ถ์ ์ฝ๋๋ ์ค์ ์ํํ๊ฒฝ์์๋ ์กด์ฌํ์ง ์๋ '์ ๋ต' ๋ฐ์ดํฐ์ ๋๋ค.๋ํ ๊ธฐ๋ณธ์ ์ผ๋ก ๊ฐ์์์ ์ ์ํ๋ '์ค์์ฝ'์์๋ Holdout๊ณผ ๊ฐ์ ๊ณผ์ ์ด ์๋ต๋์ด ์๋๋ฐ์,๊ทธ ์ด์ ๋ ์ด๋ ์ต๋๋ค.1 ) Holdout์ ๋บ์ผ๋ก์จ split, validation&tuning cycle ์๋ต2) ๋ ์ ์ ์ฝ๋๋ฅผ ์ธ์๋ ๋จ์ผ๋ก์จ ๊ธด์ฅ๋๋ ์ํํ๊ฒฝ์์ ๋ณด๋ค ์ฝ๊ฒ ์ ์ฉ๋ค๋ง Holdout์ ์งํํ์ง ์์์ผ๋ก์ ์ ๊ฐ ์ ์๋๋ฆฐ ํ์ด๋ฐฉ๋ฒ์ด ์ค์ ๋ก ์ฑ๋ฅ์ด ์ด๋ป๊ฒ ๋๋์ง ๊ถ๊ธํ๊ฑฐ๋, ์ฑ๋ฅ์ด ์ถฉ๋ถํ์ง ์์๊น๋ด ๋ถ์ํ์ค ์ ์์ต๋๋ค.์ด๋ฌํ ์ด์ ๋ก ์์ ๊ฐ์ด ์ฑ๋ฅ์ ์ฆ๋ช ํ๋ ์ฝ๋๋ฅผ ์ถ๊ฐํ ๊ฒ์ ๋๋ค.๋ง์ฝ ๋ค์์ ์ฌ์ ๊ฐ ์์ด holdout๊ณผ ensemble ๋ฑ์ ๊ณผ์ ์ ์ ์ฉํ๊ณ ์ถ์ผ์๋ค๋ฉด,์ํ ํ๊ฒฝ์์ ์ ์๋๋ train data๋ฅผ splitํด ํ์ต์ฉ๊ณผ ํ๊ฐ์ฉ ๋ฐ์ดํฐ๋ก ๋๋ ๋ค(Holdout),ํ์ต์ฉ ๋ฐ์ดํฐ์ ๋ํด ํ์ต์ํจ ๋ค ํ๊ฐ ๋ฐ์ดํฐ์ ์ ํตํด ์ ์๋ ํ๊ฐ์งํ๋ก ํ๊ฐํด๋ณด๋ฉฐ,์ฑ๋ฅ์ด ์ข์ ๋ชจ๋ธ์ ์ ํํ๊ณ , ์์๋ธ์ ๋น์จ์ ๋ฐ๊ฟ ์ ์์ต๋๋ค.ํ์ง๋ง ๊ทธ๋์์ ์ํ ๊ฒฝํฅ๊ณผ ์ ํ๋ ํ๊ฒฝ์ผ๋ก ์ธํด ๊ตณ์ด ์ํํ๊ฒฝ์์๋ ํ๋์์์ด๋ ๋ณ๋์ ํ๋์์ด ์ค์์ฝ๋ง ์ ์ ์ฉํด๋ ์ถฉ๋ถํ ๋ง์ ์ ๋ฐ์ผ์ค ์ ์์ผ๋, ์ด๋ฅผ ์ค์ฌ์ผ๋ก ์์ 1์ ํ์ ๋ ์ง์คํ์๋ ๊ฒ์ ์ถ์ฒ๋๋ฆฝ๋๋ค.๊ฐ์ฌํฉ๋๋ค.
- 0
- 1
- 255
Q&A
๊ธฐ์ถ ๋ฌธ์ ํ์ด ์ง๋ฌธ
์๋ ํ์ธ์, blair๋! ์ง๋ฌธ์ฃผ์ ์ ๊ฐ์ฌํฉ๋๋ค.์ฐ์ ํด๋น ๋ถ๋ถ์ ์กฐ๊ธ ๊น์ ๋ด์ฉ์ผ ์ ์๋๋ฐ์, ๊ฐ๋จํ ๋ง์๋๋ฆฌ๋ฉด pandas ๋ผ์ด๋ธ๋ฌ๋ฆฌ์ ๋ด๋ถ ๋งค์๋(groupby, sort_values ๋ฑ)๋ฅผ ํตํด ์ถ๋ ฅ๋๋ ๊ฒฐ๊ณผ๋ฌผ์ ์๋ณธ์ ์ํฅ์ ์ฃผ์ง ์๋ ์๋ก์ด ๊ฒฐ๊ณผ๋ฌผ์ด๊ธฐ์ ๊ทธ๋ ์ต๋๋ค. ๋๋ฌธ์ ํด๋น ๊ฒฐ๊ณผ๋ฌผ์ ๋ณด์ฌ์ฃผ๊ธฐ๋ง ํ ๋ฟ, ์๋ณธ ๋ฐ์ดํฐ์๋ ๋ ๋ฆฝ์ ์ธ ๋ณ๊ฐ์ ๊ฒ์ ๋๋ค.๋๋ฌธ์ ์ด๋ฌํ ๊ธฐ๋ฅ์ ์ฌ์ฉํ ๋ฐ์ดํฐ๋ฅผ ๊ทธ๋๋ก ์ฌ์ฉํ๊ณ ์ถ๋ค๋ฉด ํด๋น ๋ฉ์๋๋ฅผ ์ฌ์ฉํ ๊ฐ์ ๋ณ์๋ช ์ผ๋ก ์ง์ ํด ์ฌ์ฉํ๊ฑฐ๋, ๋ด๋ถ ํ๋ผ๋ฏธํฐ ์ค inplace=True๋ฅผ ์ด์ฉํด ์๋ณธ ๋ฐ์ดํฐ๊น์ง ์์ ํด์ผ ํฉ๋๋ค.๊ทธ๋ก ์ธํด ํด๋ต ์ฝ๋๋ก ์ ์ํ ๊ณผ์ ์์๋ df2์ ์๋ก์ด ์ ๋ ฌ๊ธฐ์ค์ ์ ์ฉํ ๋ฐ์ดํฐํ๋ ์์ ์ง์ ํ ํ, ์ด๋ฅผ ์ด์ฉํด ์งํํ ๊ฒ์ ๋๋ค.๋ง์ผ ์๋ก์ด ๋ฐ์ดํฐ๋ก ์ง์ ํ์ง ์๊ณ ์ฌ์ฉํ๊ณ ์ถ์ผ์๋ค๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์ฌ์ฉํ ์๋ ์์ต๋๋ค.df = pd.read_csv("https://raw.githubusercontent.com/leadbreak/inflearn_lecture/main/datasets/%EA%B8%B0%EC%B6%9C02/1_1.csv") df.sort_values(by=['CRIM'], ascending=False, inplace=True, ignore_index=True) df['CRIM'][:50] = min(df['CRIM'][:50]) print(df[df['AGE'] >= 90 ]['CRIM'].mean()) ๋ํ ์ถ๊ฐ์ ์ผ๋ก ์ต์๊ฐ์ผ๋ก ๋์ฒดํ๋ ๊ณผ์ ์์ ํด๋น ๊ฐ์ min์ผ๋ก ์ง์ ํ์ จ๋๋ฐ์. ์ด๋ ์ง๊ด์ฑ์ ์ธก๋ฉด์์ ์์ฃผ ํ๋ฅญํ ์ ์์ง๋ง ๋์ผํ ์ด๋ฆ์ ๋ฉ์๋๊ฐ ๋ค์ ์กด์ฌํ๋ฉฐ,์ด๋ฅผ ๋ณ์๋ช ์ผ๋ก ์ง์ ํ์ ๋ ์ดํ ๋ค๋ฅธ ์์ ๊ณผ์ ์์ ํด๋น ๋ฉ์๋๊ฐ ์ ์์ ์ผ๋ก ์๋ํ์ง ์์ ์๋ ์์ต๋๋ค. ์ด๋ฌํ ๋ฌธ์ ๋ ์ถํ ์ค๋ฌด์์ ๋ชจ๋ธ๋ง์ ํ๊ฑฐ๋, ์ทจ์ ์ ์ํ ์ฝ๋ฉํ ์คํธ์์๋ ๋น๋ฒํ๊ฒ ๋ฐ์ํ๋ ์ค์์ด๊ธฐ์ ์ฃผ์๊ฐ ํ์ํ๋ค๋ ๊ฒ ๋ง์๋๋ฆฌ๋ฉฐ ๋ต๋ณ ๋ง์น๊ฒ ์ต๋๋ค.๊ฐ์ฌํฉ๋๋ค.
- 0
- 1
- 271
Q&A
predict ์ predict_proba ์ฐจ์ด
์๋ ํ์ธ์ mouse๋!์ง๋ฌธ์ฃผ์ ์ฌํญ ๋ต๋ณ๋๋ฆฌ๊ฒ ์ต๋๋ค.predict๋ ๊ฐ๊ฐ์ ๋ชจ๋ธ์ ์ต์ข ์ ์ธ ์์ธก๊ฐ์ ์ถ๋ ฅํ๋ ๊ฒฐ๊ณผ์ธ๋ฐ์.ํ๊ท ๋ชจ๋ธ์ ๊ฒฝ์ฐ 0.98733...๊ณผ ๊ฐ์ด ๊ตฌ์ฒด์ ์ผ๋ก ํน์ ๊ฐ์ ์ถ๋ ฅํ๊ฒ ๋๊ณ ,๋ถ๋ฅ ๋ชจ๋ธ์ ๊ฒฝ์ฐ 0, 1, 2์ ๊ฐ์ด ๊ฐ์ฅ ํ๋ฅ ์ด ๋์ ํด๋์ค๋ฅผ ์ถ๋ ฅํ๊ฒ ๋ฉ๋๋ค.๊ทธ๋ฆฌ๊ณ ์ด๋ ๋ถ๋ฅ ๋ชจ๋ธ์ด ๊ฐ ํด๋์ค์ ๋ํ ํ๋ฅ ์ ์ผ์ผํ ์ถ๋ ฅํ๋ ๊ฒ์ด predict_proba ์ ๋๋ค.(predict_proba๋ predict probability, ์ฆ ๊ฐ ํด๋์ค์ ํ๋ฅ ์ ์์ธกํ๋ผ๋ ์๋ฏธ์ ๋๋ค)๋ฐ๋ผ์ ํ๊ท ๋ชจ๋ธ์๋ predict_proba๋ฅผ ์ฌ์ฉํ ์ ์์ผ๋ฉฐ, ์ถ๋ ฅ๋๋ ๊ฐ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.[ํด๋์ค๊ฐ 3๊ฐ์ธ ๋ฌธ์ ๋ฅผ ํ ๊ฒฝ์ฐ]Input -> [ํด๋์ค 0์ผ ํ๋ฅ , ํด๋์ค 1์ผ ํ๋ฅ , ํด๋์ค 2์ผ ํ๋ฅ ]๋น์ฐํ ์ฌ๋ฌ ๊ฐ์ input์ ๋ฃ์ ๊ฒฝ์ฐ ๊ทธ input๋งํผ์ ๊ฐ ํด๋์ค ํ๋ฅ ์ ์ถ๋ ฅํ๊ฒ ๋ฉ๋๋ค.๋ฐ๋ผ์ ๊ฐ์์์์ ์ ์๋ predict_proba[:,1]๊ณผ ๊ฐ์ ๋ฐฉ์์ ์ด์ง๋ถ๋ฅ ๋ฌธ์ ์ผ ๋, ํ๊ท๋ฌธ์ ๋ฅผ ๋ถ๋ฅ๋ชจ๋ธ์ ํตํด ํธ๋ ๋ฐฉ์์ ๋ปํ๋ฉฐ ์ด๋ ๊ณง 1์ผ ํ๋ฅ (&0์ด ์๋ ํ๋ฅ )์ด๊ธฐ ๋๋ฌธ์ ์ด๋ ๊ฒ ์ฌ์ฉ๋ฉ๋๋ค. ๊ทธ๋ฆฌ๊ณ ๋ค์ค๋ถ๋ฅ์ผ ๋ ์ฐ๋ ๋ฐฉ๋ฒ์ ๋ํด์๋ ์ง๋ฌธ์ฃผ์ จ๋๋ฐ์.๋จ์ํ ๋ค์ค๋ถ๋ฅ ๋ชจ๋ธ์ ์ฌ์ฉํด์ 0, 1, 2 ์ค ํ๋๋ฅผ ์ถ๋ ฅํ๋ ๋ฐฉ๋ฒ์ด ์์ผ๋ฉฐ,์ด๋ฅผ predict_proba๋ก ์ถ๋ ฅํ ์ดํ ์ผ์ ๊ฐ ์ดํ์ธ ๊ฒฝ์ฐ ํํฐ๋งํด ์ฌ์ฉํ๊ธฐ๋ ํฉ๋๋ค.์ ๋ฐฉ๋ฒ์ ์ฌ์ฉํ๊ธฐ ์ํด์ np.argmax๋ฅผ ํตํด ๊ฐ row๋ณ ์ต๋๊ฐ์ index๋ฅผ ๊ตฌํ ํ ํด๋น ๊ฐ์ด ๊ธฐ์ค์น ์ด์์ธ์ง๋ฅผ ๋ฐ์ง ํ ์ถ๋ ฅํ๋ ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค. ์ถ๊ฐ์ ์ผ๋ก ๊ถ๊ธํ์ ์ฌํญ์ด๋, ์ ๋ต๋ณ์ผ๋ก ํด๊ฒฐ๋์ง ๋ชปํ ๋ถ๋ถ์ด ์๋ค๋ฉด ๋ค์ ์ง๋ฌธ์ฃผ์๋ฉด ์ต๋ํ ๋น ๋ฅด๊ฒ ๋ต๋ณ๋๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค.๊ฐ์ฌํฉ๋๋ค.
- 0
- 1
- 11K
Q&A
๋ค์ค๋ถ๋ฅ ๋ฐ์ดํฐ๊ฐ ์ซ์๊ฐ ์๋๊ฒฝ์ฐ
์๋ ํ์ธ์, mouse๋!์ง๋ฌธํด์ฃผ์ ์ฌํญ์ฒ๋ผ ์ข ์๊ฐ์ด ์ซ์๊ฐ ์๋ ๋ช ๋ชฉํ ๋ณ์์ ๊ฐ์ ํํ๋ผ๋ฉด ํ๊ท ๋ชจ๋ธ์ด ์ ์์ ์ผ๋ก ์๋ํ์ง ์์ต๋๋ค.๋๋ฌธ์ ์ด๋ฌํ ๊ฒฝ์ฐ์๋ ๋ถ๋ฅ ๋ชจ๋ธ์ ์ฌ์ฉํ๊ฑฐ๋, ํด๋น ๋ช ๋ชฉํ ๋ณ์์ ๋์ํ๋ ์ซ์๊ฐ์ผ๋ก ๋ฐ๊ฟ์ค ๋ค ์์ธกํ ๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๋ช ๋ชฉํ ๋ณ์์ ๋งค์นญ์ํค๋ ๊ณผ์ ์ด ํ์ํ๊ฒ ๋ฉ๋๋ค.์ด์ ๊ด๋ จํด ๋ช ๋ชฉํ ๋ณ์๋ฅผ ์ซ์ํ ๋ณ์๋ก ๋ฐ๊ฟ์ค ๋ค,ํ๊ท๋ก ์์ธกํ๊ณ , ์ด๋ฅผ ๋ค์ ๋งตํ์ํค๋ ์ฝ๋๋ฅผ ๊ณต์ ๋๋ฆด๊น ํ์ง๋ง์ ์ด์ ์ง๋ฌธํด์ฃผ์ ๋ฐฉ์์ ํ๊ท์ ์ผ๋ก ํ๊ธฐ์ ์ ํฉํ์ง ์์ผ๋ฉฐ์ํ ํฉ๊ฒฉ ๋ชฉ์ ์ผ๋ก๋ ๋ค๋ฅธ ๊ณต๋ชจ์ ์ ๋ชฉ์ ์ผ๋ก ํด๋ ์ฌ์ฉํ์ง ์์ ๋จ์ ๊ธฐ์ ์ ์ธ ๋ถ๋ถ์ด๊ธฐ์๋์ด๊ฐ๋๋ก ํ๊ฒ ์ต๋๋ค.๋ค๋ง ๋ง์ฝ ๋งตํ์ํค๋ ๊ณผ์ ์ด ๊ถ๊ธํ์๋ค๋ฉด ๋ณธ ๊ฐ์์ map๊ณผ lambda๋ฅผ ์ด์ฉํ ๋งตํ์ ์ฐธ๊ณ ํ์๊ฑฐ๋ ์ถ๊ฐ ์ง๋ฌธ์ฃผ์๋ฉด ๋ฐ๋ก ๊ณต์ ๋๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค.๊ฐ์ฌํฉ๋๋ค.
- 0
- 1
- 291
Q&A
๊ธฐ์ถ ์ ๋ต ๋ฌธ์
์๋ ํ์ธ์, abc๋!์ข์ ์ง๋ฌธ ๊ฐ์ฌ๋๋ฆฝ๋๋ค.์ ๊ฐ ๋ฏธ์ฒ ํ์ธํ์ง ๋ชปํ ์ค๋ฅ์๋ค์, ๋ง์ํ์ ์ฌํญ์ด ๋ง์ต๋๋ค.์ต์๊ฐ์ ์ํด mean์ด ์๋ min์ ์ฌ์ฉํด์ผ ํ๊ณ , loc๋ฅผ ์ด์ฉํ ์ฌ๋ผ์ด์ฑ์ ์นผ๋ผ๋ช ์ผ๋ก ํ๋ , ์ซ์๋ก ํ๋ ๋๊ฐ์ ํฌํจํ๊ฒ ๋ฉ๋๋ค.๋๋ฌธ์ ์ด๋ฅผ ์ ์ ํ๊ฒ ํ๊ฒ๋๋ฉด ๋ค์๊ณผ ๊ฐ์ด ์งํ๋๊ฒ ๋ฉ๋๋ค.(loc๋ฅผ ์ด์ฉํด์ ํ ๊ฒฝ์ฐ ์ง๊ด์ ์ด์ง ์์ ํน์ฌ๋ ์ ๊ฐ์ ์ค์๋ฅผ ํ ๊น์ถ์ด, ๊ฐ๋จํ ์ฌ๋ผ์ด์ฑ์ผ๋ก ์์ ํ์ต๋๋ค)(์ฌ์ง)์ค๊ฐ์ค๊ฐ ์์ฑํ ์ฝ๋๋ฅผ ํ์ธํ๋ฉฐ ๊ผผ๊ผผํ๊ฒ ํ์ตํ์๋ ๊ฒ์ ๋ณด๋ ์ข์ ๊ฒฐ๊ณผ๊ฐ ๊ธฐ๋๋ฉ๋๋ค.๋ค์๊ธ ์ข์ ์ง๋ฌธ ๊ฐ์ฌ๋๋ฆฌ๋ฉฐ, ์ข์ ์ผ ๊ฐ๋ํ์๊ธธ ๋น๊ฒ ์ต๋๋ค~
- 1
- 1
- 250
Q&A
์ง๋ฌธ๋๋ฆฝ๋๋ค.
์๋ ํ์ธ์, ๊ฐ๋๋. ํ์ธํด๋ณธ ๊ฒฐ๊ณผ ์์ ์ฝ๋๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ถ๋ถ์์ ๊ฒฝ๊ณ ๊ฐ ๋ฐ์ํ ๊ฒ์ธ๋ฐ์. ์ฒซ ๋ฒ์งธ๋ 6๋ฒ์งธ ์ค y_test = X_test[['cust_id']]๋ฅผ ํ๋ ๋ถ๋ถ์์ ๋ฐ์ํ ๊ฒฝ๊ณ ์ ๋๋ค. ์ดํ ๋ก์ง์์ ์ด๋ก ์ธํ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ์ฌ์ง๋ ์์ผ๋, ๋ง์ผ ํด๋น ์ด์ ๋ฅผ ์๊ณ ์ถ์ผ์๋ค๋ฉด [์น์ 4] ๋จธ์ ๋ฌ๋ ๊ฐ์ ์ค๊ฐ์ ๋ถ๋ก์ผ๋ก ๋ง๋ค์ด์ง ๊น์ ๋ณต์ฌ์ ์์ ๋ณต์ฌ ๋ผ๋ ์ ๋ชฉ์ ๊ฐ์๋ฅผ ํตํด ํ์ธํ์๋ฉด ๋ฉ๋๋ค. ๋ํ ์ด๋ฌํ ๊ฒฝ๊ณ ์ฐฝ์ ๊ธฐ์กด์ ์ฝ๋๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ์์ ํ๋ฉด ๋จ์ง ์๊ฒ ๋ฉ๋๋ค. y_test = X_test[['cust_id']] y_test = X_test[['cust_id']].copy() ์ด์ ๋ํด์๋ ๋ ธ์ ์ ์ค์์ฝ ๋ถ๋ถ์๋ ์์ ํด๋์์ต๋๋ค. ๋ ๋ฒ์งธ๋ก๋ ํด๋น ํ๊ฒฝ์์ xgboost๊ฐ ์ ์์ ์ผ๋ก ์ค์น๋์ง ์์ ๋ฐ์ํ ์ค๋ฅ์ ๋๋ค. ๋ถ๋ช ์ ๊ฐ ๊ฐ์๋ฅผ ๊ธฐํํ๊ณ ํ ์คํธํด๋ณผ ๋๊น์ง๋ ์ ์์ ์ผ๋ก ์คํ๋์๋ ์ฝ๋์ด๋, ์๋ฌด๋๋ ์ค๊ฐ์ ์ ๋ฐ์ดํธ๋ฅผ ํ๊ฑฐ๋ ํน์ ํด์ผํ ๊ฒ์ ํ์ง ์์ ๋ฐ์ํ ์ค๋ฅ๋ก ๋ณด์ ๋๋ค. ์ด๋ฅผ ๊ฐ์ ํ๊ธฐ ์ํด์๋ xgboost ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ์ฌ์ค์นํ๊ฑฐ๋, ๋ฒ์ ์ ๊ทธ๋ ์ด๋๋ฅผ ํด์ผํ๋๋ฐ ์ด๋ ์ํ์ ์ ์ฅ์์ ์งํํ ์ ์๋ ๋ถ๋ถ์ด๊ธฐ ๋๋ฌธ์ ํด๋น ํ๊ฒฝ์์ ๋น์ฅ xgboost๋ฅผ ํ ์คํธํด๋ณด๊ธด ์ด๋ ค์ธ ๊ฒ ๊ฐ์ต๋๋ค. ์ค์ ์ํํ๊ฒฝ์์๋ ์ด์ ๊ฐ์ ์ผ์ด ์๋๋ก ์๋์ ๊ฐ์ด ๊ณต์์ ์ผ๋ก ๋ฌธ์๋ฅผ ๋ฃ์ด๋์ ์ํ์ด๋ฉฐ, ๋ค๋ฅธ ํ๊ฒฝ์์ ํ ์คํธํด๋ณธ ๊ฒฐ๊ณผ ์ ์ฒด ์ฝ๋์ ๋ก์ง์ด๋ ๊ฒฐ๊ณผ์๋ ๋ฌธ์ ๊ฐ ์์์ ํ์ธํ์์ต๋๋ค. ๊ฐ์ฌํฉ๋๋ค. (์ฌ์ง)
- 0
- 3
- 408
Q&A
์ง๋ฌธ๋๋ฆฝ๋๋ค.
์๋ ํ์ธ์, ๊น๊ฐ๋๋! ์ฐ์ ์ฝ๋ ์คํ์ ์์ด ์ด๋ค ๋ฌธ์ ๊ฐ ์๋ค๋ฉฐ ๋จ๋ ๊ฒฝ์ฐ๋ ํฌ๊ฒ ๋ ๊ฐ์ง๊ฐ ์๋๋ฐ์ ํ๋๋ ์๋ฌ(Error), ํ๋๋ ๊ฒฝ๊ณ (Warning)์ ๋๋ค. ์๋ฌ(Error)์ ๊ฒฝ์ฐ์, ๋ฐ๋์ ๊ณ ์ณ์ผ ํ๋ ๊ฒฝ์ฐ๋ก์จ ์ ์์ ์ผ๋ก ์ฝ๋๊ฐ ์คํ๋์ง ์์์ ์๋ฏธํฉ๋๋ค. ๋ฐ๋ฉด ๊ฒฝ๊ณ (Warning)์ ๊ฒฝ์ฐ์, ๊ณ ์น๋ ๊ฒ์ ๊ถ์ฅํ๋ ์ฌํญ์ ๋ํด ์ธ๊ธ๋ ๋ฟ ์ฝ๋๋ ์ ์์ ์ผ๋ก ์๋ํจ์ ์๋ฏธํฉ๋๋ค. ๋ํ ์์ ๋ฌ ๊ฒฝ๊ณ ๋ฌธ์ ์ฝ์ด๋ณด๊ฑด๋ฐ, ๋ฏธ๋์ ๋ฒ์ ์์๋ ํด๋น ๋ฐฉ์์ ์ธ๋ฑ์ฑ์ด ์์ด์ง ๊ฒ์ด๊ธฐ์ ์ง๊ธ ๋น์ฅ์ ๊ด์ฐฎ์ง๋ง ๋ง์ฝ ๋ฒ์ ์ด ๋ฐ๋๋ค๋ฉด ์ด๋ฅผ ์์ ํด์ผ ํ๋ค๊ณ ํฉ๋๋ค. ์ฆ, ์ดํ์ ๋ฒ์ ์์๋ ์ง๊ธ์ ๊ฒฝ๊ณ ๊ฐ ์๋ฌ๋ก ๋ฐ๋ ์ ์์์ ์๋ฏธํ๋ ๊ฒ์ ๋๋ค. ์์ฑํ์ ์ ์ฒด ์ฝ๋๋ฅผ ํ์ธํ ์ ์์ด ๊ตฌ์ฒด์ ์ผ๋ก ์ด๋ค ๋ถ๋ถ์์ ๊ฒฝ๊ณ ๊ฐ ๋ฐ์ํ๋์ง๋ ์ด๋ ค์ฐ๋, ์๋ฌด๋๋ ์ค์ผ์ผ๋ง์ด๋ ํ์ต ๋ฐ์ดํฐ๋ก ๋๋๋ ๊ณผ์ ์์ ํด๋น ๊ฒฝ๊ณ ๊ฐ ๋ฐ์ํ์ง ์์๋ ์ถ์ต๋๋ค. ๋ง์ผ ํด๋น ๊ฒฝ๊ณ ๊ฐ ์ ๋ฐ์ํ๋์ง ์์ธํ ์๊ณ ์ถ์ผ์๋ค๋ฉด ์์ฑํ์ ์ ์ฒด ์ฝ๋์ ๊ฒฝ๊ณ ์ฐฝ์ ์ฐ์ด ์ฃผ์๋ฉด ๋ต๋ณ๋๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค. ๊ฐ์ฌํฉ๋๋ค.
- 0
- 3
- 408
Q&A
์ง๋ฌธ ๋๋ฆฝ๋๋ค. Quiz ๋ต์์ ์คํ์ ์๋ฌ ๋ฐ์์์ธ์ ์๊ณ ์ถ์ต๋๋ค.
์๋ ํ์ธ์, Jongdeok Heo๋! ์๋ง๋ pandas beginner #1์์ ์์ ๊ฐ์ ๋ฌธ์ ๊ฐ ๋ฐ์ํ ๊ฒ์ผ๋ก ๋ณด์ ๋๋ค. ์ ์ถ๋ ฅ ๊ฒฐ๊ณผ๋ ํด๋น ๋ฐ์ดํฐ ํ๋ ์์ด ๋น์ด์์์ ์๋ฏธํฉ๋๋ค. ์๋ฌด๋๋ ๋ฐ์ดํฐ ํ๋ ์์ ๋ถ๋ฌ์ค์ ๊ฒ์ด ์๋๋ผ, ์ง์ ์นผ๋ผ๊ณผ ๋ฐ์ดํฐ๋ฅผ ์ ๋ ฅ์ผ๋ก ์ฃผ๊ณ ์ฌ์ฉํ ๊ฒ์ด ์๋๊ฐ ์ถ์ต๋๋ค. ๋๋ฌธ์ colab์ ํด๋น ๋ฐ์ดํฐ๋ฅผ ๋ค์๊ณผ ๊ฐ์ด ํด๋ฆญํด ๋ค์ด๋ก๋ํ๊ณ , ๋ถ๋ฌ์ ์ฌ์ฉํ์๋ฉด ๋ณด๋ค ํธํ๊ฒ ํ์ตํ์ค ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค! (์ฌ์ง) ์ ์ด๋ฏธ์ง์ฒ๋ผ ์ฐ์ ์ฝ๋ฉ์ ์ฐ๊ฒฐํ ํ, ์ผ์ชฝ์ ์์ ํด๋๋ฅผ ์ด์ด, sample data ํด๋ ์์ ์ฐ๋ฆฌ๊ฐ ํ์ต์ฉ์ผ๋ก ์ฌ์ฉํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ค์ด๋ก๋ ํด์ฃผ์๋ฉด ๋ฉ๋๋ค. ๊ทธ ์ดํ์๋ ์์ ํ๋ ํ์ด์ฌ ์ฝ๋์ ๊ฐ์ ํด๋ ์์ ๋ฃ์ ๋ค ๋ค์๊ณผ ๊ฐ์ด ๋ถ๋ฌ์ ์ฌ์ฉํ์๋ฉด ๋ฉ๋๋ค. import pandas as pd pd.set_option('display.max_columns', None) df = pd.read_csv("./california_housing_train.csv") print(df) df1 = df[df.isnull() == True] print(df1) ๋ง์ฝ ์ ๋ต์ด ์ง๋ฌธ์ ๋ํ ์ ์ ํ ๋ต์ด ๋์ง ๋ชปํ๋ค๋ฉด ๋๊ธ์ด๋ ์ถ๊ฐ ์ง๋ฌธ์ผ๋ก ๋จ๊ฒจ์ฃผ์๋ฉด, ๋ค์ ๋ต๋ณ๋๋ฆฌ๋๋ก ํ๊ฒ ์ต๋๋ค. ์ด๋ฅธ ์์นจ๋ถํฐ ๊ณต๋ถํ๊ณ ์ง๋ฌธ์ ๋จ๊ธฐ์๋ค๋ ์์ฃผ ๋ฉ์ง์๋ค์! ๊ฐ์ฌํฉ๋๋ค.
- 0
- 3
- 451
Q&A
pandas beginner #2 ์ง๋ฌธ ์์ต๋๋ค!
์๋ ํ์ธ์, ์ ์ฐ๋. ๋ต๋ณ๋๋ฆฝ๋๋ค. # 1. ๋ ์ฝ๋์ ์ฐจ์ด - ์ฌ๋ผ์ด์ฑ์๋ ํฌ๊ฒ ๋ ๊ฐ์ง ๋ฐฉ์์ด ์์ต๋๋ค. - ํ๋๋ ํน์ ์ด์ ๊ฐ์ ธ์ค๋ ๊ฒ, ๋ค๋ฅธ ํ๋๋ ํน์ ํ์ ๊ฐ์ ธ์ค๋ ๊ฒ์ ๋๋ค. - ๊ฐ ํ์ด๋ ์ด์ ์ด๋ฆ์ด๋ index๋ฅผ ํตํด ๋ฐ๋ก ๊ฐ์ ธ์ค๋ ๋ฐฉ๋ฒ์ด ์๊ณ , - ์กฐ๊ฑด๋ฌธ์ ํตํด True์ ํด๋นํ๋ ํ์ด๋ ์ด๋ง์ ๊ฐ์ ธ์ค๋ ๋ฐฉ๋ฒ์ด ์์ต๋๋ค. - ์ด๋ฌํ ๋ ๋ฐฉ๋ฒ์ ๋์์ ์ฌ์ฉํ๊ฑฐ๋ ์ค๋ณต์ ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ๋ ๊ฐ๋ฅํฉ๋๋ค. - ์ ๋ ์ฝ๋์ ๊ฒฝ์ฐ, ํ๋๋ ์ด์ ์ด๋ฆ์ ํตํด ๋ถ๋ฌ์จ ์ํ์์ ํ์ ์กฐ๊ฑด๋ฌธ์ ํตํด ์กฐํํ๋ ๊ฒ๊ณผ ํ์ ์กฐ๊ฑด๋ฌธ์ ์กฐํํ ํ ์ด์ ์ด๋ฆ์ ๋ถ๋ฌ์ค๋ ๊ฒ์ ์ฐจ์ด์ด๋ฉฐ ๊ฒฐ๊ณผ์ ์ธ ์ฐจ์ด๋ ์์ต๋๋ค. - ์ดํ ๋ฐฐ์ฐ๊ฒ ๋ ์กฐ๊ฑด๋ฌธ์๋ ํ๋์ ๋๊ดํธ ์์ ์ฌ๋ฌ ์กฐ๊ฑด๋ฌธ์ ์ฌ์ฉํ๊ฑฐ๋, iloc, loc ์์ ์กฐ๊ฑด๋ฌธ์ ํฌํจ์ํค๋ ๋ฑ์ ๋ค์ ๋ณต์กํ ์ ์๋ ์คํฌ์ ๋ฐฐ์ฐ์๊ฒ ๋ ํ ๋ฐ์. ๊ทธ๋์๋ ์ง๊ธ ํ์๋ ๊ฒ์ฒ๋ผ ์ฌ๋ฌ ์กฐ๊ฑด์ ํ๋์ ๋๊ดํธ์ ์ฌ๋ฌ ๊ฐ์ ์กฐ๊ฑด์ ์ ๋ ๊ฒ๋ณด๋ค ๋๋ ์ ์ ๋ ๊ฒ์ด ํธํ ์ ์์ต๋๋ค. - ๊ธ๋ก๋ง ์ดํดํ๋ ๊ฒ์ ์ด๋ ค์ฐ๋ ์ฝ๋๋ก ํ์ธํด๋ณผ๊น์? -- ์ฐ์ ์๋์ ๊ฐ์ด ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์๋ณด๊ฒ ์ต๋๋ค. -- ์กฐํ ์ฑ๋ฅ์ ํ์ธํ๊ธฐ ์ํด ๋ฐ์ดํฐ ๊ท๋ชจ๋ฅผ ์ข ๋๋ ค์ ์งํํฉ๋๋ค. import pandas as pd from tqdm import tqdm def modifier(x) : return str(int(x) // 10 * 10) + "+ years" df = pd.read_csv('/content/sample_data/california_housing_train.csv') df['housing_period'] = df['housing_median_age'].apply(modifier) df['period_grade'] = df['housing_period'].map(lambda x : "good" if int(x[:-7]) 20 else ("normal" if int(x[:-7]) 40 else "bad")) for _ in tqdm(range(5)) : df = pd.concat([df, df], ignore_index=True) df.info() df -- ์ดํ ์ค๋ณต ์กฐ๊ฑด๋ฌธ์ ํตํด housing_median_age๊ฐ 10๊ณผ 30 ์ฌ์ด์ ์๋ 'total_bedrooms' ์นผ๋ผ๋ง์ ์กฐํํด๋ณด๋๋ก ํ๊ฒ ์ต๋๋ค. df1 = df[(df.housing_median_age > 10) & (df.housing_median_age 30)]['total_bedrooms'] df1 ์ ์ฝ๋์ ๊ฒฐ๊ณผ์ ์๋ ์ฝ๋์ ๊ฒฐ๊ณผ๋ ์์ ํ ๋์ผํฉ๋๋ค. df1 = df['total_bedrooms'][(df.housing_median_age > 10) & (df.housing_median_age 30)] df1 -- colab์ด๋ jupyter notebook ๊ณผ ๊ฐ์ ์์ ํ๊ฒฝ์์ ์ง์๋๋ magic function ์ค ํ๋์ธ %%timeit์ ์ด์ฉํด ์๋ ์๊ฐ์ ๋์์ ์ฒดํฌํด๋ณด๊ฒ ์ต๋๋ค. 1) ํ ์กฐ๊ฑด๋ฌธ ์ ์ฉ ํ ์ด ์กฐํ %%timeit -n 5 -r 5 df1 = df[(df.housing_median_age > 10) & (df.housing_median_age 30)]['total_bedrooms'] df1 (์ฌ์ง) 2) ์ด ์ ์ฉ ํ ํ ์กฐ๊ฑด๋ฌธ ์กฐํ %%timeit -n 5 -r 5 df1 = df['total_bedrooms'][(df.housing_median_age > 10) & (df.housing_median_age 30)] df1 (์ฌ์ง) ์๋์ ๋ฐฉ๋ฒ์ด ๋ ๋น ๋ฅธ ๊ฒฐ๊ณผ๋ฅผ ๋ด๊ฒ ๋ฉ๋๋ค! ์ฌ์ค ํ์ด์ฌ์ ํ๋ค์ค ๋ฐ์ดํฐ ํ๋ ์์ ๊ฒฝ์ฐ, ํ์ด์ ์กฐํํ๋ ๊ณผ์ ์์ ๋ง์ ๋ถ๋ถ์ ์บ์ํํด ์ฌ์ฉํ๊ธฐ์ ๋ ๊ธฐ๋ฅ์ ์ฐจ์ด๋ ํฌ์ง ์์ต๋๋ค. (์คํ๋ ค ์ผ์ ์ด์ ๋ฐ์ดํฐ ์ฌ์ด์ฆ๊ฐ ์ปค์ง๋ฉด ์ฐ์ด ๊ด๊ณ๊ฐ ์์ด์ง๊ฑฐ๋ ์ญ์ ๋๊ธฐ๋ ํฉ๋๋ค) ์ด๋ฌํ ์ด์ ๋ก ์ ๋ ๋ฐฉ๋ฒ์ ์ฑ๋ฅ์ฐจ์ด๋ฅผ ๊ตณ์ด ๊ณ ๋ คํ์ค ํ์๋ ์์ง๋ง, ์ถํ Time Series Data์ ๊ฐ์ด ์ด๋ง์ด๋งํ ์์ ๋ฐ์ดํฐ๋ฅผ ๋ค๋ฃจ๊ฒ ๋์ ๋ค๋ฉด ๊ทธ๋๋ ์์ ๊ฐ์ด Column ์ค์ฌ์ ๋ฐ์ดํฐ ์ฐ์ ์ ํ์ด ์ค์ํด์ง ์ ์์ต๋๋ค. -- ๋ง์ง๋ง์ผ๋ก ์์์ ์ธ๊ธํ ๋ฐ์ ๊ฐ์ด ๊ดํธ์ &๋ฅผ ์ด์ฉํด ํ๋์ ๋๊ดํธ ์์ ์ฌ๋ฌ ๊ฐ์ ์กฐ๊ฑด๋ฌธ์ ์ฌ์ฉํ์ ๋์ ์ฌ์ฉํ์ง ์์์ ๋๋ฅผ ๋น๊ตํด๋ณด๊ณ ๋ง์น๊ฒ ์ต๋๋ค. 1) ํ ์กฐ๊ฑด๋ฌธ์ ํตํด ์ ์กฐํ ํ ํด๋น ์นผ๋ผ ์กฐํ %%timeit -n 5 -r 5 df2 = df[(df.housing_median_age > 10)][(df.housing_median_age 30)]['total_bedrooms'] df2 (์ฌ์ง) 2) ์ด ์กฐํ ํ ์ด ์กฐ๊ฑด์ผ๋ก ์กฐํ %%timeit -n 5 -r 5 df2 = df['total_bedrooms'][(df.housing_median_age > 10)][(df.housing_median_age 30)] df2 (์ฌ์ง) ์คํ๋ ค ์ด ๊ฒฝ์ฐ์ ํ๋์ ๋๊ดํธ ์์ ์ค๋ณต์ผ๋ก ์ ์ฉํ ๊ฒ๋ณด๋ค ์ ์๋ฏธํ ์๋์ฐจ์ด๊ฐ ๋๊ฒ ๋ฉ๋๋ค. [ ์ ๋ฆฌ ] 1. ํ๋ค์ค ๋ฐ์ดํฐ ํ๋ ์์ ์ฌ๋ผ์ด์ฑ ๋ฐ ์กฐํ์ ์์ ์ฐจ์ด์ ๋ํ ์ฑ๋ฅ ์ฐจ์ด๋ ๊ฑฐ์ ์๋ค. ์์ด๋ ์ ์๋ฏธํ์ง ์์ผ๋ฉฐ, ์ ๋์ ์ด์ง๋ ์๋ค. 2. ์ฌ๋ฌ ์กฐ๊ฑด๋ฌธ์ ์ ์ฉํ ๋์๋ ์ฌ๋ฌ ๊ฐ๋ก ๋๋ ์ฐ๋ ๊ฒ๊ณผ ํ ๋ฒ์ ์ฐ๋ ๊ฒ์ ๊ฒฐ๊ณผ๋ฌผ ์ฐจ์ด๋ ์์ง๋ง, ์ฑ๋ฅ ์ฐจ์ด๋ ๋๊ฒ ๋๋ค. 3. ๋ค๋ง ์์ ๋ ๊ฒฝ์ฐ ๋ชจ๋ ๋น ๋ถ๊ธฐ ์ํ ๋ชฉ์ ์ผ๋ก๋ ๊ณ ๋ คํ์ง ์์๋ ์ถฉ๋ถํ๋ฉฐ, ํ์ ๋จ๊ณ์์๋ spark๋ฅผ ํตํ ๋๊ท๋ชจ ๋ฐ์ดํฐ ์ฒ๋ฆฌ, streaming ๋ฐ์ดํฐ์ ๊ฐ์ ์ํฉ์ด๋ผ๋ฉด ๊ณ ๋ คํด๋ณผ๋ง ํ๋ค. ์์์ ์ฌ์ฉํ ์ฝ๋๊ฐ ์ ์ฅ๋ COLAB notebook์ ๊ณต์ ๋๋ฆฝ๋๋ค. ์๋ ๋ฐ๋ก๊ฐ๊ธฐ๋ฅผ ํด๋ฆญํด์ ๋ณธ์ธ์ ๋๋ผ์ด๋ธ๋ก ๋ณต์ฌ๋ณธ์ ๋ง๋ ๋ค ๋ช ๋ฒ ํด๋ณด์๋ฉด ๊ธ๋ฐฉ ์ต์ํด์ง์ค ๊ฒ๋๋ค~ ๋ฐ๋ก๊ฐ๊ธฐ ์ ์ฐ๋๋ฟ ์๋๋ผ ๋ค๋ฅธ ์๊ฐ์๋ถ๋ค์๊ฒ๋ ๋์๋ ์ ์๋ ์ง๋ฌธ ๊ฐ์ฌ๋๋ฆฌ๋ฉฐ, ์ดํด์๋๋ ๊ฒ ์๊ฑฐ๋ ์ถ๊ฐ๋ก ๊ถ๊ธํ๊ฒ ์๊ธฐ๋ฉด ์ธ์ ๋ ์ง๋ฌธ์ฃผ์๋ฉด ๊ฐ์ฌํ๊ฒ ์ต๋๋ค.
- 0
- 1
- 232