저장용

프로그래밍공부/파이썬

코퍼스중복제거툴

NLU업무에서 원어민들이 문장들 만들어주다보면 중복되는 문장이 상당히 많아진다. 그래서 이걸 제거해줘야 여러모로 편한데 이걸 또 손으로 일일이 할 순 없으니.. 역시 파이썬으로 간단하게 스크립트를 짰다. 이거 이전에 JAVA Swing으로 만든 버전도 있는데 여기 보안상 파일을 올릴 수가 없다 ㅜㅜ(이와 같은 이유로 덩치가 조금 큰 툴들은 다 버리게 생겼다 ㅠㅠ) 쩄든 map이 중복허용이 안되는 점을 이용하여 만들었다. import sys import re def main(argv): input_file_name = argv[1] corpus_map = {} data_list= [] outData_list = [] with open(input_file_name+".txt","r", encoding='UT..

프로그래밍공부/파이썬

코퍼스 검색툴

NLU업무중를 하다보면 훈련된 데이터가 실제 코퍼스파일에 어디있는지 찾거나 혹은 문장이 어떤식으로 훈련되어 있는지 액션과 익스퍼트를 직접 찾아야 하는일이 많은데, 사실 txt파일을 일일이 찾는게 좀 번거로워서 tkinter를 이용해서 간단한 검색툴을 만들었었다. 사실 만든지는 몇 달 되었고 이거 말고도 업무용으로 만든게 몇개 있는데 계약기간이 끝나기전에 기록으로 남겨둘려고 올려 놓는다 ^^ 이 자료가 누군가에게 도움이 됬으면 좋겠다. 참고로 실행이 정상적으로 되려면 config.txt파일이 아래와 같은 형식으로 같은 폴더에 있어야한다. TRAINING_PATH:C:/nlpworkspace/training/training SERVICE_PATH:C:/nlpworkspace/service/service EX..

중랑구보안관
'저장용' 태그의 글 목록