โ ํ์ต ๋ชจ๋ธ ์ ์ฅ ๋ฐ ์ฝ์ด์ค๊ธฐ
> ๋ค์ด๊ฐ๋ ๋ง
ํ ์คํธ๋ฅผ ํ ๋๋ง๋ค ๋งค๋ฒ ํ์ต์ ์ํฌ ์ ์์ผ๋ ์ ์ฅํ๋ ๊ฑด ๋น์ฐํ๋ค.
1. ํ์ต ๋ชจ๋ธ์ ์ ์ฅ ๋ฐฉ์์๋ (ํ์ฌ ๋ด๊ฐ ์๊ณ ์๋ ๊ฒ์ด ๋ฑ) 2๊ฐ์ง ๋ฐฉ๋ฒ์ด ์๋ค.
2. pickle๋ชจ๋๋ก ์ง๋ ฌํํ๋ ๋ฐฉ๋ฒ์ด ํ๋๊ณ
3. skilearn.externals์ joblib๋ชจ๋์ด ๋ค๋ฅธ ํ๋๋ค.
> ๊ณผ์
1. pickle์ด ๊ฐ์ฅ ๋ณดํธ์ ์ด๋ผ๊ณ ํด์ ์ฌ์ฉํด ๋ณด๋ ํ์ผ ์ฉ๋์ด 42.5MB๊ฐ ๋์๋ค.
2. joblib๋ก compress=9๋ก ํด์ ์ ์ฅํด ๋ณด๋ ํ์ผ ์ฉ๋์ด 9.5MB๊ฐ ๋์๋ค.
3. ์๋๋ ๋๋ค ๋น์ท.
4. ํ์ต ๋ด์ฉ์ ๋ฐ์ด๋๋ฆฌ๋ก ์ ์ฅํด ๋จ๋ค๊ฐ ๋ค์ ๋ก๋ํด์ ์ฐ๋ ๋ฐฉ์์ด๋ค.
5. ์ง๊ธ๊น์ง๋ ํ์คํ๊ฒ joblib์ ์น๋ฆฌ๋ค.
> ์คํ
1. GridSearchCV()๋ฅผ ๋๋ ค ์ต์ ์ ํ๋ผ๋ฏธํฐ๋ค์ ์ฐพ์๋ดค๋ค.
Fitting 3 folds for each of 288 candidates, totalling 864 fits
[Parallel(n_jobs=-1)]: Done 42 tasks | elapsed: 24.0s
[Parallel(n_jobs=-1)]: Done 192 tasks | elapsed: 2.5min
[Parallel(n_jobs=-1)]: Done 442 tasks | elapsed: 6.5min
[Parallel(n_jobs=-1)]: Done 792 tasks | elapsed: 11.5min
[Parallel(n_jobs=-1)]: Done 864 out of 864 | elapsed: 13.4min finished
Best score: 0.60695468914647
Best parameter set:
clf__alpha: 1.0
vect__max_features: None
vect__ngram_range: (1, 2)
vect__norm: None
vect__smooth_idf: False
vect__sublinear_tf: True
vect__use_idf: True
์ด๊ฒ์ ๋ฐํ์ผ๋ก MultinomialNB() ํด๋์ค๋ฅผ ๋๋ ค์ ๋์จ ํ ์คํธ ๊ฒฐ๊ณผ๋ ์๋์ ๊ฐ๋ค. ๋ช๋ฒ ๋๋ ค๋ด๋ ๊ทธ๋ค์ง ์ข์์ง๊ฑธ ๋ชจ๋ฅด๊ฒ ๋ค ใ ก,ใ ก
์ต์ ํ๋ ์ข ๋ ๊ณต๋ถํ๊ณ ์ ์ฅ๊ณผ ๋ก๋๋ง ์๋ฌ์์ผ์ผ๊ฒ ๋ค.
2. SGDClassifier()ํด๋์ค๋ฅผ ์ด์ฉํด ํ์ต์ํจ ํ ์ ์ฅ ๋ฐ ๋ก๋๋ ํด๋ดค๋ค. ์ญ์ ์ข๋ค. MultinomialNB() ์๋ฌด๋ฆฌ ์ต์ ํ ์์ผ๋ดค์ SGDClassifier() ์๋ฐ์ ํผ๋ค.