파이썬으로 영단어 랜덤하게 500개 생성하기

Developments

파이썬으로 영단어 랜덤하게 500개 생성하기

푸른깃발🏳️ 2024. 7. 16. 01:30

파인튜닝 데이터를 만들던 중 아래처럼 영단어와 뜻으로 구성된 json파일이 필요했다. 대략 500개정도 있으면 충분할 거 같았다.

{
    "plain": "솔직한",
    "parallel": "평행한",
    "crack": "금이 가다",
    "Red": "빨간색",
    "deal": "거래",
    "size": "크기",
}

혹시나해서 chatgpt에게 물어보니 바로 만들어줬다. 그런데 단지 결과만 알려준게 아니라 파이썬 코드도 함께 알려줬다.

나는 코드를 요구한적도 없었는데 말이다. (아마도 이전 대화기록을 바탕으로 추론했을것이다)

더구나 나는 코드로 이런걸 만들어내는수가 있을거라 생각한적도 없었다.

코드를 보니 ntlk라는 라이브러리 안에 영어사전이 있고 이것을 가져와 구글 번역 api로 번역을 하는 것 같다.

막상 코드를 돌려보니 사람들이 거의 사용하지 않는 단어들을 무작위로 500개 가져오기에

한번 더 chatgpt의 힘을 빌려 코드를 보강했다.

기능은 아래와 같다.

1. 생성하고자 하는 영단어 수를 입력하면(아래 주석부분을 수정)
2. 상위빈도 5000개의 단어를 먼저 가져와(물론 이것도 아래 코드에서 5000을 원하는 값으로 수정하면된다)
3. 그 중 명사와 동사만 추려낸 후
4. 랜덤하게 500개만 json형식으로 파일로 저장하는 것이다.

* 이제 돌려보자

1. 먼저 설치할게 하나있다

pip install nltk googletrans==4.0.0-rc1

2. 다음 아래 코드를 그냥 붙여넣기하고 돌리면 된다.

- 처음에는 사전을 다운로드 하는데 시간이 좀 걸린다

import random, time
import nltk
from nltk.corpus import words, brown
from collections import Counter
from googletrans import Translator
import json

# NLTK 데이터 다운로드 (한번만 실행하면 됩니다)
nltk.download('words')
nltk.download('brown')
nltk.download('averaged_perceptron_tagger')

# 생성하고자 하는 영단어 개수를 입력
word_count = 500

# 모든 영어 단어 목록
word_list = words.words()

# Brown 코퍼스의 단어 목록과 빈도 계산
brown_words = brown.words()
word_freq = Counter(brown_words)

# 빈도가 높은 상위 단어 5000개 선택
common_words = {word for word, freq in word_freq.most_common(5000)}

# word_list에서 상위 빈도 단어만 선택
filtered_word_list = [word for word in word_list if word.lower() in common_words]

# 품사 태깅하여 명사와 동사만 필터링
tagged_words = nltk.pos_tag(filtered_word_list)

# 명사와 동사 품사 태그 목록
noun_tags = {'NN', 'NNS', 'NNP', 'NNPS'}
verb_tags = {'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ'}

# 명사와 동사만 필터링
filtered_nouns_and_verbs = [word for word, tag in tagged_words if tag in noun_tags or tag in verb_tags]

# 그 중 랜덤하게 500개의 단어를 선택합니다.
random_words = random.sample(filtered_nouns_and_verbs, word_count)
# Google Translate API를 사용하여 번역합니다.
translator = Translator()
translated_dict = {}

def save():
    with open('translated_words.json', 'w', encoding='utf-8') as f:
        json.dump(translated_dict, f, ensure_ascii=False, indent=4)

for idx, word in enumerate(random_words):
    try:
        translated_word = translator.translate(word, src='en', dest='ko').text
        print(idx+1, word, translated_word)
        translated_dict[word] = translated_word
        time.sleep(1)
    except:
        print('중간에 오류발생. 지금까지 작업한 것들 저장함')
        save()
        
    
# JSON 파일로 저장합니다.
save()

print(f"{len(random_words)}개의 단어가 번역되고 JSON 파일로 저장되었습니다.")

위 코드를 돌리면 아래 파일과 같은 결과를 얻을 수 있다.

translated_words.json

0.01MB

거의 100% chatgpt가 코딩한 결과이고 나는 편의를 위한 사소한 수정과 코드 조합만 했다.

이쪽 분야에 있으면서도 새삼 놀라운 세상임을 느낀 하루였다.

저작자표시 비영리 변경금지 (새창열림)