● μ‘°μ •λž˜ κ΅μˆ˜λ‹˜μ˜ μž‘ν’ˆ 'μ•„λ¦¬λž‘' ν…μŠ€νŠΈ 뢄석.

- μ΄λΌλŠ” κ±°μ°½ν•œ 이름을 λΆ™μ˜€μ§€λ§Œ 싀상은 νŒŒμ΄μ¬μ„ μ΄μš©ν•œ ν˜•νƒœμ†Œ 뢄석일 뿐.

- 이기황 박사(λ‹€μŒμ†Œν”„νŠΈ 이사)λ‹˜μ˜ μˆ˜μ—…μ„ λ°”νƒ•μœΌλ‘œ 진행.



> λ“€μ–΄κ°€λŠ” 말

λ‚œ μ‘°μ •λž˜ κ΅μˆ˜λ‹˜μ˜ μ—΄λ ¬ν•œ νŒ¬μ΄λ‹€. κ·Έλž˜μ„œ ν…μŠ€νŠΈ λ§ˆμ΄λ‹μ„ κ³΅λΆ€ν•˜λ©° 무엇보닀 λ¨Όμ € 그의 μž‘ν’ˆμ„ 뢄석해보고 μ‹Άμ—ˆλ‹€.

특히 νƒœλ°±μ‚°λ§₯을 μ’‹μ•„ν•˜λŠ”λ° 끝내 ν…μŠ€νŠΈ νŒŒμΌμ„ κ΅¬ν•˜μ§€ λͺ»ν–ˆλ‹€.

ν•˜μ§€λ§Œ λ‹€ν–‰μŠ€λŸ½κ²Œλ„ μœ νŠœλΈŒμ— 빠지신(?) 우리 μ–΄λ¨Έλ‹ˆλ§ˆμ € μ „κΆŒ λ…νŒŒλ₯Ό μžλž‘ν•˜μ‹  'μ•„λ¦¬λž‘' νŒŒμΌμ„ ꡬ할 수 μžˆμ–΄ μ΅œμ’… μ„ νƒν–ˆλ‹€.

(미리 밝히건데 μ’…μ΄μ±…μœΌλ‘œ 이미 전집을 가지고 μžˆλ‹€. 그리고 이 ν…μŠ€νŠΈ νŒŒμΌμ€ (λ―Έμ•ˆν•˜μ§€λ§Œ) λˆ„κ΅¬μ—κ²Œλ„ κ³΅μœ ν•  생각이 μ—†λ‹€.)



> λͺ©ν‘œ

아직 μ‹€λ ₯이 λ―Έμ•½ν•˜λ‹€.

κ·Έλž˜μ„œ ν˜„μž¬μ˜ λͺ©ν‘œλ₯Ό 'μ•„λ¦¬λž‘' μ†μ— 제일 많이 λ‚˜μ˜¨ 단어(μ‹€μ œλŠ” ν˜•νƒœμ†Œ) μˆœμ„œλŒ€λ‘œ λ½‘μ•„ 그림으둜 μ‹œκ°ν™”ν•˜λŠ” κ²ƒμœΌλ‘œ ν–ˆλ‹€.


1. λ¨Όμ € 각 κΆŒμ„ λ”°λ‘œλ”°λ‘œ λΆ„μ„ν•˜μ—¬ 12ꢌ 각각의 wordcloud 이미지λ₯Ό λ§Œλ“ λ‹€.

2. λ‹€μŒ μ „ ꢌ의 ν˜•νƒœμ†Œλ₯Ό ν•˜λ‚˜λ‘œ λ¬Άμ–΄ μ „μ²΄μ˜ wordcloud 이미지λ₯Ό λ§Œλ“ λ‹€.


+ 후에 κΈ°κ³„ν•™μŠ΅(machine learning)을 μ‹œν‚€λ©΄ 'μ–΄λ–€ μž‘ν’ˆμ„ μ»΄ν“¨ν„°μ—κ²Œ 보여주고 이게 λˆ„κ΅¬μ˜ μž‘ν’ˆμΈμ§€ λ§žμΆ”κ²Œ' ν•  μˆ˜λ„ μžˆμ„ 것 κ°™λ‹€.

+ 이것을 μ˜μ–΄λ²„μ „μœΌλ‘œ λ°”κΏ” 'μ„Έμ΅μŠ€ν”Όμ–΄μ˜ μž‘ν’ˆμ€ λͺ¨λ‘ μ„Έμ΅μŠ€ν”Όμ–΄μ˜ μž‘ν’ˆμΈκ°€'λ₯Ό μ•Œμ•„λ³Ό μˆ˜λ„ μžˆκ² λ‹€. 또 λ‹ΉλŒ€μ˜ λ‹€λ₯Έ μž‘κ°€λ“€κ³Ό λΉ„κ΅ν•˜μ—¬ κ°€μž₯ μœ μ‚¬ν•œ λ¬Έμ²΄λ‚˜ μ–΄νœ˜λ₯Ό κ΅¬μ‚¬ν•œ μž‘κ°€κ°€ λˆ„κ΅¬μΈμ§€λ„ μ•Œμ•„λ³Ό 수 μžˆκ² λ‹€. μ™œ μ„Έμ΅μŠ€ν”Όμ–΄κ°€ μ‹€μ œλŠ” 'λ‹€λ₯Έ λˆ„κ΅¬'μ΄κ±°λ‚˜ 'νŠΉμ • μž‘κ°€λ“€μ˜ 쑰직'μ΄λΌλŠ” 음λͺ¨λ‘ μ΄ μžˆμ§€ μ•Šμ€κ°€.

+ 그런데 μ˜μ–΄λ„ ν˜•νƒœμ†Œ 뢄석이 ν•„μš”ν•œμ§€λŠ” λͺ¨λ₯΄κ² λ‹€. μ–΄μ ˆλ‘œ λΆ„μ„ν•˜λŠ” 것이 더 μ’‹λ‹€λŠ” 이야기λ₯Ό λ“€μ—ˆλ˜ 것 같은데.. 

뭐.. κ·Έλ ‡λ‹€λ©΄ 더 μ‰¬μ›Œμ§€λ‹ˆ γ…‹ 상관없닀.



> μ‹€ν–‰ 

1. λ¨Όμ € μ•„λ¦¬λž‘ μ „κΆŒμ˜ ν…μŠ€νŠΈ νŒŒμΌμ„ (μ•Œμ•„μ„œ 잘) κ΅¬ν•œλ‹€.

2. ν•˜λ‚˜μ˜ 폴더에 12개 νŒŒμΌμ„ λͺ¨λ‘ 넣은 ν›„(txt폴더)

3. ν˜•νƒœμ†Œ λΆ„μ„ν•˜κΈ° μ•Œλ§žκ²Œ(여백을 μ œκ±°ν•΄) μ€€λΉ„ν•΄ μƒˆν΄λ”(ready폴더)에 μ €μž₯ν•œλ‹€. -  1.readyToMorph.py

3. Komoran λͺ¨λ“ˆμ˜ konlpy으둜 ν˜•νƒœμ†Œ λΆ„μ„ν•˜μ—¬ λ‹€μ‹œ μƒˆν΄λ”(morphed폴더)에 μ €μž₯ν•œλ‹€. - 2.morph_anal_output.py

(후에 이게 μ’€ λ¬Έμ œκ°€ λλŠ”λ°. konlpyλŠ” μ‚¬μš©μž 사전 λ§Œλ“€κΈ°κ°€ 어렡단닀. μΈλ¬Όλ“€μ˜ μ΄λ¦„κΉŒμ§€ ν˜•νƒœμ†Œ 뢄리해놓은 탓에 κ²°κ³Όκ°€ μ’€ ν›„μ§€κ²Œ λ‚˜μ™”λ‹€.  μ˜ˆλ₯Όλ“€μ–΄ '백쒅두'κ°€ 'λ°±μ’…'κ³Ό '두'둜 λΆ„λ¦¬λ˜μ–΄ '두'λŠ” λ‚ μ•„κ°€κ³  'λ°±μ’…'만 λž­ν‚Ήλ˜μ—ˆλ”λΌ) 


4. 3μ—μ„œ ν˜•νƒœμ†Œ λΆ„μ„λœ νŒŒμΌμ„ λ°”νƒ•μœΌλ‘œ rankingνŒŒμΌμ„ λ§Œλ“€μ–΄ μƒˆν΄λ”(ranked폴더)에 μ €μž₯ν•œλ‹€ - 3.count_morphs.py

5. wordcloudλͺ¨λ“ˆμ„ μ΄μš©ν•΄ 4μ—μ„œ λΉˆλ„μˆœμœΌλ‘œ μ •λ ¬λœ νŒŒμΌμ„ λ°”νƒ•μœΌλ‘œ μƒˆν΄λ”(result_wordcloud폴더)에 이미지 νŒŒμΌλ“€μ„ μ €μž₯ν•œλ‹€. - 4.draw_word_cloud.py


> κ²°κ³Ό 

1. 12ꢌ λͺ¨λ‘μ—μ„œ 'μ‚¬λžŒ'이 μ••λ„μ μœΌλ‘œ 1λ“±. μ²˜μŒμ—λŠ” 잘λͺ»λœκ²Œ μ•„λ‹Œκ°€ ν•΄μ„œ 각각의 raw file듀을 ν™•μΈν•΄λ΄€λŠ”λ° μ‹€μ œλ‘œ μ‚¬λžŒμ΄ λͺ¨λ‘ 1λ“±.

2. λ°±μ’…μœΌλ‘œ λ‚˜μ˜¨ 건 '백쒅두'λ₯Ό λ§ν•˜κ³  μž₯λ•μœΌλ‘œ λ‚˜μ˜¨ 건 'μž₯덕풍'을 λ§ν•œλ‹€ γ…‘,γ…‘ 이건 λ‚˜μ€‘μ— ν•œλ²ˆ μ‹Ή 손봐야겠닀.





3. 이제 12ꢌ 전체λ₯Ό ν•˜λ‚˜λ‘œ λ¬Άμ–΄ λž­ν‚Ήμ„ 정리해 보자.

 - λ¨Όμ € ν˜•νƒœμ†Œ 차별(?)ν•˜μ§€ μ•Šκ³  ν…μŠ€νŠΈλ‘œ 50μœ„κΉŒμ§€λ§Œ 정렬해보면 μ•„λž˜μ™€ κ°™λ‹€.

 - '같은 λ”°μ˜΄ν‘œ(SS)λ‚˜ 'λ‹€','μ—ˆ'같은 μ’…κ²°μ–΄λ―Έ(EF), 선어말 μ–΄λ―Έ(EP) 등이 λ‹Ή~μ—°νžˆ μ••λ„적이닀.


' SS 199729 (이건 ν…μŠ€νŠΈ νŒŒμ‹±ν•˜λ©° λ§Œλ“€μ–΄μ§„ 것이닀)

, SP 122673 (이 λ†ˆλ„ λ§ˆμ°¬κ°€μ§€. λ‹€λ§Œ λ¬Έμž₯κ³Ό λ¬Έμž₯을 κ΅¬λΆ„ν•˜λŠ” μš©λ„λ‘œ 쓰인 νŠΉμˆ˜λ¬Έμžμ΄λ―€λ‘œ μ•„λ¦¬λž‘ μ „μ²΄μ˜ λ¬Έμž₯ 수라고 보아도 될 것 κ°™λ‹€. λ¬Όλ‘  접속사에도 μ“°μ΄λ―€λ‘œ μ’€ λΉΌκΈ΄λΉΌμ•Όν•˜λŠ”λ° μ•„λž˜ λ§ˆμΉ¨ν‘œ 9λ§Œκ°œμ™€ λ¬ΌμŒν‘œ 7600개λ₯Ό 미루어 μ§μž‘ν•΄ 보자면 μ•½ 10만개 μ •λ„μ˜ λ¬Έμž₯이 μžˆλŠ” κ²ƒμœΌλ‘œ(κ·ΈλŸ¬λ‹ˆκΉŒ 그런 λŠλ‚ŒμœΌλ‘œ) 보인닀ㅑ,γ…‘ )


. SF 89962  

λ‹€ EF 58261

μ—ˆ EP 49996 (μš°λ¦¬λ‚˜λΌ μ†Œμ„€μ€ λͺ¨λ‘ κ³Όκ±°ν˜•μ„ μ“°λ‹€λ³΄λ‹ˆ 'μ—ˆ'이 λ§Žλ‹€)

이 VCP 43400

을 JKO 39047 (이햐~ '을'이 그의 κ²½μŸμƒλŒ€μΈ 'λ₯Ό' 을 2λ°°κ°€ λ„˜λŠ” 점수둜 μž¬κΌˆλ‹€. 이 정도면 라이벌이라 ν• μˆ˜λ„ μ—†κ² λ‹€. μ–΄λ–»κ²Œλ³΄λ©΄ μš°λ¦¬λ§μ— λ°›μΉ¨μ—†λŠ” λͺ…μ‚¬λ‚˜ λŒ€λͺ…사가 μ λ‹€λŠ” λœ»μ΄κΈ°λ„ ν•  κ±°λ‹€)


이 JKS 38248

κ³  EC 36615

" SS 34875 (큰 λ”°μ˜΄ν‘œλŠ” ν•˜λ‚˜μ˜ λ¬Έμž₯λ§ˆλ‹€ 2κ°œμ”© 가지고 μžˆμŒμ„ μΆ”λ‘ (?)ν•  수 있고 μ¦‰, μ†Œμ„€ 속 λŒ€ν™”λ¬Έμ€ 거의 1.7만개. 전체 λ¬Έμž₯ 쀑 μ•½ 17%λ₯Ό μ°¨μ§€ν•œλ‹€κ³  λ³Ό 수 μžˆμ§€ μ•Šμ„κΉŒ. μ‹œλŒ€ λ¬˜μ‚¬λ„ λ›°μ–΄λ‚˜μ§€λ§Œ μ—­μ‹œ (찰진)λŒ€ν™”κ°€ λ§Žμ•„ ν‘μž…λ ₯이 μ’‹μ•˜λ˜ 기얡이닀.λ‹€λ§Œ λŒ€ν™”κ°€ λ¬Έμž₯의 97%λ₯Ό μ°¨μ§€ν•˜λŠ” μ›Ήμ†Œμ„€κ³ΌλŠ” λΉ„κ΅μΉ˜ 말자.)


γ„΄ ETM 30802

ν•˜ XSV 23292

λŠ” ETM 23233 (였! 'λŠ”'κ³Ό '은'은 μ§„μ§œ 였..)

은 JX 23173

것 NNB 22931 (μˆ¨μ€ κ°•μžλž„κΉŒ)

μ–΄ EC 22411

μ•˜ EP 22163

에 JKB 21899

κ°€ JKS 20922

λŠ” JX 20265

λ“€ XSN 19392

의 JKG 18105 (생각보닀 적닀)

λ₯Ό JKO 18004

μ•„ EC 15144

게 EC 15023

도 JX 14832

γ„Ή ETM 14015

ν•˜ VV 12753

있 VX 11756

κ·Έ MM 10246

ν•˜ XSA 9508

말 NNG 9140

으둜 JKB 8632

지 EC 8406

둜 JKB 8235

λ©° EC 7768

있 VV 7692

? SF 7642

μ‚¬λžŒ NNG 7443 (이 μ‚¬λžŒμ΄λΌλŠ” λ‹¨μ–΄λŠ” μ–΄μ©Œλ©΄(이것도 λŠλ‚Œμ΄λ‹€λ§Œ) μ‘°μ •λž˜ μ„ μƒλ‹˜μ„ μ •μ˜ν•˜λŠ” 단어가 μ•„λ‹κΉŒ μ‹Άλ‹€. μ•„λ§ˆ λ‚΄ 글을 λΆ„μ„ν•˜λ©΄ μ‚¬λžŒλŒ€μ‹  '인간'μ΄λž€ 단어가 μŸμ•„μ§ˆ 것이닀)


κΈ° ETN 7371

μ—† VA 7309

κ·Έ NP 7169

은 ETM 7090

되 VV 6215

μ—μ„œ JKB 6090

던 ETM 6065

γ„΄ JX 5465

μ•„λ‹ˆ VCN 5451

μ•Š VX 5229

만 JX 4970


- 이제 μ‹€μ œλ‘œ μ˜λ―Έκ°€ κ°•ν•œ ν˜•νƒœμ†Œλ“€λ§Œ μΆ”λ €λ‚΄μ—¬ 이미지 νŒŒμΌμ„ λ§Œλ“€μ–΄ 보면 짜~μž”! μ΅œμ’… κ²°κ³Όλ‹€.




> λ°˜μ„±

1. 파이썬이 μ²˜μŒμ΄μ—ˆλŠ”λ° 이제 많이 μ΅μˆ™ν•΄μ§„ κΈ°λΆ„(?)이닀. 특히 파이썬의 μ§€λ…ν•œ ν•œκΈ€ 인코딩ㅋ


2. μˆ˜μ—… 쀑 κ°€μž₯ 감동(?)μ μ΄μ—ˆλ˜ 뢀뢄은 사싀 '크둀링'μ΄μ—ˆλ‹€. μˆ˜μ—…μ΄ λλ‚˜μžλ§ˆμž 정말 λ―ΈμΉœλ“―μ΄ ν¬λ‘€λ§ν•˜κ³  λ‹€λ…”λ‹€ γ…‘,γ…‘ κ·Έ ν›„λ‘œ λ‚˜ 혼자 μ—΄μ‹¬νžˆ μ½”λ”©ν•˜κ³  μžˆλŠ”λ° μ˜†μ— λ°μŠ€ν¬νƒ‘μ΄ λ†€κ³  있으면 왠지 λΆ„ν•œ 기뢄이 λ“€μ–΄ λ°μŠ€ν¬νƒ‘μ—κ²Œλ„ 뭐든 일을 μ‹œν‚€λŠ” 버릇이 생겼닀. λ―Έμ•ˆ. λ‚˜μ€‘μ— 인곡지λŠ₯ 덕뢄에 λ‚˜λ³΄λ‹€ 더 λ˜‘λ˜‘ν•΄μ Έλ„ λ‚˜ λ•Œλ¦¬λ©΄ μ•ˆλΌγ… 


3. ν•¨κ»˜ μˆ˜μ—…μ„ λ“£λŠ” λ‹€λ₯Έ μ‚¬λžŒλ“€μ˜ κ²½ν—˜μ΄ λ§Žμ€ 것인지 κ²½ν—˜μ΄ μ•„μ˜ˆ μ—†λŠ” 것인지 μ’…μž‘μ„ μˆ˜κ°€ μ—†λ‹€. μ‹€μ œλ‘œ '자기 μ†ŒμŠ€'λ₯Ό 가지고 μ½”λ“œλ₯Ό 돌렀보면 μ—¬λŸ¬ μ’…λ₯˜μ˜ λ‹€μ–‘ν•œ μ—λŸ¬κ°€ λ°œμƒν•˜λŠ”λ° 이에 λŒ€ν•΄ μ§ˆλ¬Έν•˜λŠ” μ‚¬λžŒλ“€μ΄ μ—†λ‹€. λ‹€λ“€ νŒŒμ΄μ¬μ— λŠ₯μˆ™ν•œ κ°œλ°œμžλΌμ„œ μ™ λ§Œν•œ μ—λŸ¬λŠ” μžκΈ°κ°€ 직접 μ²˜λ¦¬ν•˜λŠ” 건지도 λͺ¨λ₯΄κ² μ§€λ§Œ μˆ˜μ—… 쀑 λ‹€λ₯Έ μ‚¬λžŒλ“€μ˜ λͺ¨λ‹ˆν„°λ₯Ό 보면 λ‚˜μ²˜λŸΌ μ‹€μ œλ‘œ λŒλ €λ³΄λŠ” μ‚¬λžŒλ“€μ΄ 거의 μ—†κ³  κ·Έλƒ₯ λ°•μ‚¬λ‹˜μ˜ λ§μ”€λ§Œ λ“£κ³  μžˆλ‹€. μ‘°λ‚Έ μ‰½λ‹€λŠ” 건가.


또, μ μ–΄λ„ μ–΄λŠ μ •λ„μ˜ κ°œλ°œμžλΌλ©΄ 응당 μžμ‹ μ΄ λ°œκ²¬ν•œ 것듀을 κ³΅μœ ν•˜λŠ” 것이 κΈ°λ³Έ μ„±ν–₯일텐데 그것도 ν•˜λŠ” 뢄듀이 λ³„λ‘œ μ—†λŠ”κ±Έ 보면 λ­λž„κΉŒ, μ’€ μ΄μƒν•˜λ‹€. ν˜Ήμ‹œλ‚˜ 아무것도 λͺ¨λ₯΄λŠ” 것 같냐 ν•˜λ©΄ 그것도 μ•„λ‹ˆλ‹€. μ „ν˜€ 그렇지 μ•Šλ‹€. 였히렀 λ‚΄κ°€ μ•Œμ•„λ“£μ§€ λͺ»ν•˜λŠ” 'λ§Žμ€ κ²½ν—˜'μ—μ„œ μš°λŸ¬λ‚˜μ˜¨ λ“―ν•œ μ§ˆλ¬Έλ“€μ„ ν•˜λŠ”λ° κ·Έκ±Έ λ‚΄κ°€ μ΄ν•΄ν•˜μ§€ λͺ»ν•΄μ„œ 여기에 적을 μˆ˜λ„ μ—†λ‹€ γ…‘,γ…‘;;


λ‹€λ“€ κ·Έλƒ₯ μ‘°λ‚Έ μ©ŒλŠ” 것 κ°™λ‹€.


μ–΄μ¨Œλ“  μ‚¬λžŒλ§ˆλ‹€ λ‹€λ₯΄κ² μ§€λ§Œ λ‚˜μ˜ κ²½μš°μ—

μ½”λ“œκ°€ 아무리 μ–΄λ €μ›Œλ„ 그건 μ–΄λ–»κ²Œλ“  μ΄ν•΄ν•˜κ³  ν•΄κ²°ν•  수 μžˆλ‹€.

μˆ˜ν•™μ μœΌλ‘œ λ³΅μž‘ν•˜λ‹€λŠλ‹ˆ λ­λ‹ˆ ν•˜λŠ” κ±΄ μ†”μ§νžˆ λ³„λ‘œ 걱정도 μ•ˆλœλ‹€. (μš°λ¦¬μ—κ² ν’λΆ€ν•œ λΌμ΄λΈŒλŸ¬λ¦¬κ°€ μžˆμ§€ μ•Šμ€κ°€! ν¬ν•˜ν•˜)


ν•˜μ§€λ§Œ μ–΄μ ˆμ΄λΌλ‹ˆ ν˜•νƒœμ†ŒλΌλŠλ‹ˆ BOMμ΄λ‚˜ 곡기(μ§€κΈˆλ„ 이해가 μž˜γ…œ) 같은 μ–΄μƒ‰ν•œ 단어듀과 무슨무슨 기법듀은 '아직' κ²½ν—˜μ΄ λΆ€μ‘±ν•œ λ‚΄κ²Œ λ‚―μ„€λ‹€. μ–΄λ ΅μ§€λŠ” μ•Šμ€λ° λ‚―μ„€λ‹€λ³΄λ‹ˆ 처음 OOPκ°œλ…μ„ μ ‘ν•œ μ‚¬λžŒμ²˜λŸΌ 'κ·Έλž˜μ„œ μ§€κΈˆ λ‚΄κ°€ ν•΄μ•Όν•˜λŠ” 게 뭔지' ν—·κ°ˆλ¦¬κ²Œ λ§Œλ“ λ‹€.


4. νŒŒμ΄μ¬μ€ 정말 맀λ ₯적인 μ–Έμ–΄κ°™λ‹€. 


끝.



> 비ꡐ

참고둜 μ•„λž˜λŠ” μ‹ κ²½μˆ™μ˜ 'μ™Έλ”΄λ°©' 뢄석 κ²°κ³Όλ‹€. μΉœμ²™λ“€ μ°Έ 많이 λ‚˜μ˜¨λ‹€;; λΉ„ꡐ해 λ³Όλ§Œν•˜λ‹€.


+ Recent posts