๊ด€๋ฆฌ ๋ฉ”๋‰ด

๋ชฉ๋ก์ „์ฒด ๊ธ€ (174)

Wookang makes AI

ํ•™์Šต ๋ชจ๋ธ ์ €์žฅ ๋ฐ ์ฝ์–ด์˜ค๊ธฐ

โ— ํ•™์Šต ๋ชจ๋ธ ์ €์žฅ ๋ฐ ์ฝ์–ด์˜ค๊ธฐ > ๋“ค์–ด๊ฐ€๋Š” ๋งํ…Œ์ŠคํŠธ๋ฅผ ํ• ๋•Œ๋งˆ๋‹ค ๋งค๋ฒˆ ํ•™์Šต์„ ์‹œํ‚ฌ ์ˆ˜ ์—†์œผ๋‹ˆ ์ €์žฅํ•˜๋Š” ๊ฑด ๋‹น์—ฐํ•˜๋‹ค.1. ํ•™์Šต ๋ชจ๋ธ์„ ์ €์žฅ ๋ฐฉ์‹์—๋Š” (ํ˜„์žฌ ๋‚ด๊ฐ€ ์•Œ๊ณ  ์žˆ๋Š” ๊ฒƒ์ด ๋”ฑ) 2๊ฐ€์ง€ ๋ฐฉ๋ฒ•์ด ์žˆ๋‹ค.2. pickle๋ชจ๋“ˆ๋กœ ์ง๋ ฌํ™”ํ•˜๋Š” ๋ฐฉ๋ฒ•์ด ํ•˜๋‚˜๊ณ 3. skilearn.externals์˜ joblib๋ชจ๋“ˆ์ด ๋‹ค๋ฅธ ํ•˜๋‚˜๋‹ค. > ๊ณผ์ •1. pickle์ด ๊ฐ€์žฅ ๋ณดํŽธ์ ์ด๋ผ๊ณ  ํ•ด์„œ ์‚ฌ์šฉํ•ด ๋ณด๋‹ˆ ํŒŒ์ผ ์šฉ๋Ÿ‰์ด 42.5MB๊ฐ€ ๋‚˜์™”๋‹ค.2. joblib๋กœ compress=9๋กœ ํ•ด์„œ ์ €์žฅํ•ด ๋ณด๋‹ˆ ํŒŒ์ผ ์šฉ๋Ÿ‰์ด 9.5MB๊ฐ€ ๋‚˜์™”๋‹ค.3. ์†๋„๋Š” ๋‘˜๋‹ค ๋น„์Šท.4. ํ•™์Šต ๋‚ด์šฉ์„ ๋ฐ”์ด๋„ˆ๋ฆฌ๋กœ ์ €์žฅํ•ด ๋†จ๋‹ค๊ฐ€ ๋‹ค์‹œ ๋กœ๋“œํ•ด์„œ ์“ฐ๋Š” ๋ฐฉ์‹์ด๋‹ค.5. ์ง€๊ธˆ๊นŒ์ง€๋Š” ํ™•์‹คํ•˜๊ฒŒ joblib์˜ ์Šน๋ฆฌ๋‹ค. > ์‹คํ–‰1. GridSearchCV()๋ฅผ ๋Œ๋ ค ์ตœ์ ์˜ ํŒŒ๋ผ๋ฏธํ„ฐ..

๊ทธ ๋ฐ–์— AI 2016. 7. 8. 18:47
KFoldํด๋ž˜์Šค๋ฅผ ์ด์šฉํ•œ ๋ฒกํ„ฐ๊ธฐ๊ณ„(SVM) ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ต์ฐจ ๊ฒ€์ฆ

โ— KFoldํด๋ž˜์Šค๋ฅผ ์ด์šฉํ•œ ๋ฒกํ„ฐ๊ธฐ๊ณ„(SVM) ์•Œ๊ณ ๋ฆฌ์ฆ˜ ๊ต์ฐจ ๊ฒ€์ฆ > ์‹คํ–‰1. ์ œ์ผ ์„ฑ๋Šฅ์ด ์ข‹๋‹ค๋Š” ๋ฒกํ„ฐ๊ธฐ๊ณ„(SVM) ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์ด์šฉํ•˜์—ฌ ์ด์ „ ๋ชจ๋ธ์˜(MultinoialNBํด๋ž˜์Šค) ์˜ˆ์ธก๋ณด๋‹ค ์ •ํ™•๋„๋ฅผ ํ‰๊ท  20%์ •๋„ ์ƒ์Šน์‹œ์ผฐ๋‹ค. ๊ฒฐ๊ณผ ํŽธ์ฐจ๊ฐ€ ์žˆ๊ธดํ•ด๋„ ๋Œ€๋žต์ ์œผ๋กœ ์ •ํ™•๋„ ํ‰๊ท ์ด 75%์ •๋„๋‹ค(๊ต‰์žฅํžˆ ์‹ ๊ธฐํ•˜๋‹ค!). ํ•™์Šต ์ž๋ฃŒ์™€ ํ…Œ์ŠคํŠธ ์ž๋ฃŒ๋Š” ๋žœ๋คํ•˜๊ฒŒ ๋ฝ‘์•˜๊ณ  ๋‹จ ํ•œ๊ฐœ๋„ ์ค‘๋ณต๋˜์ง€ ์•Š๊ฒŒ ๋งŒ๋“ค์—ˆ๋‹ค. ๊ทธ๋Ÿฐ๋ฐ ์ข€ ์ด์ƒํ•œ ๊ฒƒ์€ ๊ทธ ๋’ค์— KFoldํด๋ž˜์Šค๋ฅผ ์‚ฌ์šฉํ–ˆ์„ ๋•Œ๋‹ค. ์ด ํด๋ž˜์Šค์— ์ด ๋ฌธ์„œ์ˆ˜๋ฅผ ๋„ฃ๊ณ  ๊ต์ฐจ๊ฒ€์ฆ์„ ํ•˜๋ฉด ์ž๊ธฐ๊ฐ€ ์•Œ์•„์„œ ์„ž์ด๋Š” ์ผ์ด ์—†๋„๋ก ์ •ํ™•ํžˆ ๊ตฌ๋ถ„ํ•œ๋‹ค๊ณ  ํ•˜๋Š”๋ฐ, ๊ทธ๋ ‡๋‹ค๋ฉด ๋‚ด๊ฐ€ ์ „์— ๋งŒ๋“ค์—ˆ๋˜ 9:1 ํ›ˆ๋ จ ๋ฌธ์„œ ๋ถ„๋ฅ˜ ์ž‘์—…๊ณผ ๋™์ผํ•œ ์ž‘์—…์ด๋ผ๋Š” ๊ฑด๋ฐ ๊ฒฐ๊ณผ๋Š” ์ด๊ฒŒ ํ›จ์”ฌ ๋‚˜์˜๊ฒŒ ๋‚˜์˜จ๋‹ค. ์•„๋ž˜๊ฐ€ ๊ทธ ๊ฒฐ๊ณผ๋‹ค. Accuracy P..

๊ทธ ๋ฐ–์— AI 2016. 7. 7. 01:41
ํ˜„๋Œ€๊ฒฝ์ œ์—ฐ๊ตฌ์› ๋ณด๊ณ ์„œ Scikit-learn ๋ชจ๋“ˆ์„ ์ด์šฉํ•œ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜ ์ ์šฉ

โ— ํ˜„๋Œ€๊ฒฝ์ œ์—ฐ๊ตฌ์› ๋ณด๊ณ ์„œ Scikit-learn ๋ชจ๋“ˆ์„ ์ด์šฉํ•œ ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜ ์ ์šฉ > ๋“ค์–ด๊ฐ€๋Š” ๋ง์ข…์ผ ๋น„๊ฐ€ ์˜ฌ ๊ฒƒ ๊ฐ™์•˜๋Š”๋ฐ ๋ฐค์ด ๋˜๋‹ˆ ๋น„๊ฐ€ ๋ฉˆ์ท„๋‹ค.๋•๋ถ„์— ๋น„๋ฅผ ๋งž์ง€ ์•Š๊ณ  ์šด๋™์„ ํ–ˆ๋‹ค. ๋นก์‹œ๊ฒŒ ํ–ˆ๋”๋‹ˆ ๋ชธ์ด ๋‚˜๋ฅธํ•˜๋‹ค. ๊ทธ๋ฆฌ๊ณ  ๋˜ ์ปดํ“จํ„ฐ ์•ž์— ์•‰์•˜๋‹ค. > ๊ณ„ํš1. ๋ฒ ์ด์ฆˆ ๋ถ„๋ฅ˜ ๋ชจ๋ธ์„ ์ ์šฉํ•˜๊ธฐ ์œ„ํ•ด์„œ 9:1 ๋น„์œจ๋กœ ๋ณด๊ณ ์„œ๋“ค์„ ๋จผ์ € ํ•™์Šต ์‹œํ‚จ ํ›„ ํ…Œ์ŠคํŠธ ๊ณผ์ •์„ ๊ฑฐ์นœ๋‹ค. ๋ณด๊ณ ์„œ๊ฐ€ ์ค‘๋ณต๋˜์ง€ ์•Š๊ฒŒ ์กฐ์‹ฌํ•œ๋‹ค.2. ํ˜„์žฌ 2,109๊ฐœ์˜ ์ž๋ฃŒ๊ฐ€ ์žˆ๊ณ  ์—ฌ๊ธฐ์— 7๊ฐœ์˜ MagazineID๊ฐ€ ์žˆ๋‹ค.3. ์ฆ‰, ์•ฝ 1900๊ฐœ์˜ ๋ฆฌํฌํŠธ๋กœ ํ•™์Šต์„ ์‹œํ‚จ ํ›„ ๋‚˜๋จธ์ง€ 200๊ฐœ๋ฅผ ๊ฐ€์ง€๊ณ  ๋ฆฌํฌํŠธ ๋‚ด์šฉ๋งŒ ๋ณด์—ฌ์ฃผ๊ณ  MagazineID๋ฅผ ๋งž์ถฐ๋ณด๊ฒŒ ํ•˜๋Š”๊ฑฐ๋‹ค. ์ตœ์ข… ์ •ํ™•๋„(accuracy)๋ฅผ ๋ณด์—ฌ์ค€๋‹ค. ๊ทธ๋ƒฅ ๋žœ๋คํ•˜๊ฒŒ ์ฐ๋Š”๋‹ค๋ฉด 14% ์ •ํ™•๋„๊ฐ€ ํ‰๊ท ์ด๊ณ  ์ˆซ์ž๊ฐ€ ..

๊ทธ ๋ฐ–์— AI 2016. 7. 6. 02:03
ํ˜„๋Œ€๊ฒฝ์ œ์—ฐ๊ตฌ์› ๋ณด๊ณ ์„œ Scikit-learn๊ณผ scipy๋ฅผ ์ด์šฉํ•œ ๋น„๊ณ„์ธต ๊ตฐ์ง‘ ๋ถ„์„

โ— ํ˜„๋Œ€๊ฒฝ์ œ์—ฐ๊ตฌ์› ๋ณด๊ณ ์„œ Scikit-learn๊ณผ scipy๋ฅผ ์ด์šฉํ•œ ๋น„๊ณ„์ธต ๊ตฐ์ง‘ ๋ถ„์„ > ๋“ค์–ด๊ฐ€๋Š” ๋ง 1. ์ด์ œ (์•ฝ๊ฐ„์˜)์ธ๊ณต์ง€๋Šฅ์ด ๋“ค์–ด๊ฐ„๋‹ค. ์•Œ์•„์„œ ๋ฌธ์„œ์˜ ์ค‘์‹ฌ(centroid)์„ ์„ค์ •ํ•˜๊ณ  ์ด๋กœ๋ถ€ํ„ฐ ๊ฐ ์ž๋ฃŒ์™€์˜ ๊ฑฐ๋ฆฌ์— ๋“œ๋Š” ๋น„์šฉ์„ ์ตœ์†Œํ•œํ•˜๋Š” ๊ตฐ์ง‘ ์•Œ๊ณ ๋ฆฌ์ฆ˜(K-ํ‰๊ท ๊ธฐ๋ฒ•)์„ ์ด์šฉํ•œ๋‹ค. ์ด๊ฒƒ๋„ ๊ฒฐ๊ณผ๊ฐ€ ๊ถ๊ธˆํ•˜๋‹ค. > ๊ณ„ํš1. scikit-learn ๋ผ์ด๋ธŒ๋Ÿฌ๋ฆฌ์—์„œ ์ด๋ฏธ K-ํ‰๊ท  ๊ตฐ์ง‘ํ™” ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹จ๋‹ค.2. ์ฒ˜๋ฆฌ ์†๋„๊ฐ€ ๋นจ๋ผ ๋งŽ์€ ๋ถ„์•ผ์—์„œ ์‚ฌ์šฉํ•˜๊ณ  ์žˆ๋‹จ๋‹ค.3. ๋ฌธ์„œ๋ฅผ ํ–‰๋ ฌ๋กœ ๋งŒ๋“ค๋•Œ ๊ฐœ๋ฐœ์ž๊ฐ€ ์ผ์ผ์ด ๋งŒ๋“ค ํ•„์š”์—†์ด vectorizer = TfidfVectorizer(min_df=1) doc_term_mat = vectorizer.fit_transform(documents) ์ด๋ ‡๊ฒŒ ํ•˜๋Š” ๊ฒƒ์œผ๋กœ ์›์ƒท ์ƒ์„ฑ์ด ๊ฐ€๋Šฅํ•˜๋‹ค..

๊ทธ ๋ฐ–์— AI 2016. 7. 4. 19:09