보안 상의 이유로 구체적인 서술 불가
데이터 정의
기존의 질문/답변 3개년 데이터 약 1,000만건
한글, 알파벳, 한자, 숫자, 특수문자 포함된 비정형 텍스트 데이터
데이터 수집
Oracle DBMS에서 Tod를 이용해 데이터 추출
질문 번호/질문 제목/질문 내용/답변 번호(PK)/답변 내용/기관 컬럼 추출
데이터 정제
한글, 알파벳 제외한 문자 삭제
불용어 제거
토크나이징
KoDiffCSE를 활용한 토큰화 및 벡터화
계산 알고리즘 설계
코사인 유사도를 활용한 문장 간 유사도 계산
유사도 상위 10개의 답변 번호 및 유사도 출력
사용자가 해당 결과를 업무에 참고할 수 있는 지표로 사용하게 함
배포 방식 선정
FastAPI 활용 JAVA 기반 기존 사이트에 API로 제공
벡터 불러오기에 시간 소요됨 ➔ h5 파일 형식으로 서버에 저장해서 사용 or 벡터 DB 도입
Comments