โ KFoldํด๋์ค๋ฅผ ์ด์ฉํ ๋ฒกํฐ๊ธฐ๊ณ(SVM) ์๊ณ ๋ฆฌ์ฆ ๊ต์ฐจ ๊ฒ์ฆ
> ์คํ
1. ์ ์ผ ์ฑ๋ฅ์ด ์ข๋ค๋ ๋ฒกํฐ๊ธฐ๊ณ(SVM) ์๊ณ ๋ฆฌ์ฆ์ ์ด์ฉํ์ฌ ์ด์ ๋ชจ๋ธ์(MultinoialNBํด๋์ค) ์์ธก๋ณด๋ค ์ ํ๋๋ฅผ ํ๊ท 20%์ ๋ ์์น์์ผฐ๋ค. ๊ฒฐ๊ณผ ํธ์ฐจ๊ฐ ์๊ธดํด๋ ๋๋ต์ ์ผ๋ก ์ ํ๋ ํ๊ท ์ด 75%์ ๋๋ค(๊ต์ฅํ ์ ๊ธฐํ๋ค!). ํ์ต ์๋ฃ์ ํ
์คํธ ์๋ฃ๋ ๋๋คํ๊ฒ ๋ฝ์๊ณ ๋จ ํ๊ฐ๋ ์ค๋ณต๋์ง ์๊ฒ ๋ง๋ค์๋ค.
๊ทธ๋ฐ๋ฐ ์ข ์ด์ํ ๊ฒ์ ๊ทธ ๋ค์ KFoldํด๋์ค๋ฅผ ์ฌ์ฉํ์ ๋๋ค. ์ด ํด๋์ค์ ์ด ๋ฌธ์์๋ฅผ ๋ฃ๊ณ ๊ต์ฐจ๊ฒ์ฆ์ ํ๋ฉด ์๊ธฐ๊ฐ ์์์ ์์ด๋ ์ผ์ด ์๋๋ก ์ ํํ ๊ตฌ๋ถํ๋ค๊ณ ํ๋๋ฐ, ๊ทธ๋ ๋ค๋ฉด ๋ด๊ฐ ์ ์ ๋ง๋ค์๋ 9:1 ํ๋ จ ๋ฌธ์ ๋ถ๋ฅ ์์
๊ณผ ๋์ผํ ์์
์ด๋ผ๋ ๊ฑด๋ฐ ๊ฒฐ๊ณผ๋ ์ด๊ฒ ํจ์ฌ ๋์๊ฒ ๋์จ๋ค. ์๋๊ฐ ๊ทธ ๊ฒฐ๊ณผ๋ค.
Accuracy Precision Recall F10.59242 0.49665 0.52332 0.485130.75355 0.50795 0.51563 0.481330.77014 0.66157 0.61531 0.625120.56872 0.37439 0.38265 0.376120.17577 0.22627 0.16359 0.17597Avg Accuracy: 0.5721212189438373, Std Dev: 0.21431124575385863Avg Precision: 0.4533648469984103, Std Dev: 0.14561024367169234Avg Recall: 0.4400986255677289, Std Dev: 0.15690035193922436Avg F1: 0.4287327556310334, Std Ddev: 0.1491106614903449
๊ฒฐ๊ณผ๊ฐ ์ด์ํด์ fold๋ฅผ 5์์ 10์ผ๋ก ๋๋ ค๋ดค๋ค. ํฌ๊ฒ ์ข์์ก์ง๋ง ์ฌ์ ํ ๋์๋ค.
Accuracy Precision Recall F10.56872 0.38732 0.37059 0.370970.69668 0.55945 0.58298 0.563420.74882 0.54664 0.48895 0.504280.79147 0.65780 0.62903 0.598440.78673 0.79259 0.67680 0.697740.81043 0.83130 0.64801 0.685660.72038 0.62562 0.55983 0.560300.47867 0.26723 0.27148 0.262210.40284 0.23416 0.33309 0.192560.28095 0.30852 0.15568 0.19884Avg Accuracy: 0.6285691717445273, Std Dev: 0.17606564810343844Avg Precision: 0.5210634391275499, Std Dev: 0.20286311462199674Avg Recall: 0.47164299640376256, Std Dev: 0.16963090837090414Avg F1: 0.46344254182131894, Std Ddev: 0.1832991835545736
๋ง์ง๋ง ๊ฒ์ฆ์ผ๋ก ๊ฐ์๋ก ๊ฒฐ๊ณผ๊ฐ ๋๋น ์ง๋ค. ๊ทธ ์ ์ ๋ชจ๋ธ๋ก ์ฌ๋ฌ ๋ฒ ํ
์คํธ ํด๋ดค์ง๋ง ์ ํ๋๊ฐ ์ ๋ ๊ฒ ๋ฎ๊ฒ ๋์จ์ ์ด ์์๋๋ฐ ์ฌ๊ธฐ์๋ 10, 20%๋๊ฐ ๋์ค๊ธฐ๋ ํ๊ณ ํ์คํธ์ฐจ๊ฐ ๋ฌด๋ ค 18~21%๋ค. ๋๋จธ์ง factor๋ค์ ๋งํ ๊ฒ๋ ์๋ค. ์ฌ๋ฌ ๋ฒ ๋๋ ค๋ดค๋๋ฐ ๋งค๋ฒ ์์ ์์ ํ ๋์ผํ ๊ฐ์ด ๋์จ๋ค(๋ฌด์ธ๊ฐ ์๋ชป๋์๋ค๋ ์ง๊ฐ์ด๋คใ
ก,ใ
ก)
ํ
์คํธ ๊ฒฐ๊ณผ๊ฐ ๋์ผํ๋ค๋ ๊ฒ๋ ์ด์ํ์ง๋ง ๋ด๊ฐ ์ฒ์ ๋ง๋ค์๋ ๊ฐ์ ๋ฒกํฐ๊ธฐ๊ณ์๊ณ ๋ฆฌ์ฆ ๋ชจ๋ธ์' 9:1 ํ๋ จ๋ฐ์ดํฐ ๋ชจ๋'์์ ์ ํ๊ท ์ ํ๋๊ฐ ํจ์ฌ ๋์๊ณ ๊ฒฐ๊ณผ๋ ๋งค๋ฒ ๋ฐ๋์ด ๋์๋๋ฐ ์ด๊ฑด ๋ง์ด ์ด์ํด๋ณด์ธ๋ค. (๊ฐ์ฌ๋์ ๋ต๋ณ์ ๊ธฐ๋ค๋ฆฌ๊ณ ์๋ค..) โ ๋ต๋ณ์ ํด์ฃผ์
จ๋ค. ์์ค์ฝ๋์ ๋ฌธ์ ๊ฐ ์์๋ค.
์์ ๊ฐ์ด ๋์ shuffle=True ๊ฐ ๋ค์ด๊ฐ์ผ ํ๋ค. ์ฆ ์๋ฅด๊ธฐ ์ ์ ๋ค์์ด ๋์์ผ ํ๋ค!
KFold๋ ๊ธฐ๋ณธ์ ์ผ๋ก๋ ์ ํ๋ง์ ํ์ง ์๊ณ ํ์ต/์คํ ์งํฉ์ ์์ฑํ๊ธฐ ๋๋ฌธ์ ํญ์ ๊ฒฐ๊ณผ๊ฐ ๊ฐ์ต๋๋ค. ๊ทธ๋ฆฌ๊ณ ์์์๋ถํฐ ์ฃผ์ด์ง ์ ์์ ๋ฐ๋ผ ์๋ฅด๊ธฐ ๋๋ฌธ์ ๋ฐ์ดํฐ์ ๋ชฐ๋ฆผ ํ์์ด ์์ผ๋ฉด ์คํ ๊ฒฐ๊ณผ ์ญ์ ๊ท ์ผํ์ง ์๊ฒ ๋์ต๋๋ค.
2. ์ด์จ๋ ์ฌ์ธ๋ฅผ ๋ชฐ์ ํผ๋ํ๋ ฌ ์ด๋ฏธ์ง๋ ๋ง๋ค์๋ค.
matplotlib.pyplot๋ฅผ ์ด์ฉํ์ฌ ์์ธก์ ์ ํ์จ๊ณผ ์ฌํ์จ์ ์ด๋ฏธ์ง๋ก ๋ณด์ฌ์ค๋ค.
๋จ ํ๊ธ์ด ๊นจ์ง๋๋ฐ ํด๊ฒฐ๋ฐฉ๋ฒ์ ์๋์ ๊ฐ๋ค.
์ ๊ทํ ๋์ง ์์ ํผ๋ํ๋ ฌ
์ ๊ทํ ๋ ํผ๋ํ๋ ฌ
์ด ์ ๋๋ฉด ๋ญ ๋ณด๊ณ ์ ๋ด์ฉ๋ง ๋ณด๊ณ ๋ ์ด๋ค ๋ณด๊ณ ์์ธ์ง ๋ฑ๋ฑ ๋ง์ถ๋ ์ํ๊ณ ์์ค์ด๋ค. ์ด์ง์ธ ๋์๊ฒ๋ ๋๋ผ์ด ๊ฒฐ๊ณผ๊ฐ ์๋ ์ ์๋ค!
๋งค์ฐ ์ฌ๋ฐ๋ค.