top of page
검색
  • 작성자 사진윤서윤

사례기반 유사도 분석 프로젝트


보안 상의 이유로 구체적인 서술 불가


데이터 정의

  • 기존의 질문/답변 3개년 데이터 약 1,000만건

  • 한글, 알파벳, 한자, 숫자, 특수문자 포함된 비정형 텍스트 데이터


데이터 수집

  • Oracle DBMS에서 Tod를 이용해 데이터 추출

  • 질문 번호/질문 제목/질문 내용/답변 번호(PK)/답변 내용/기관 컬럼 추출


데이터 정제

  • 한글, 알파벳 제외한 문자 삭제

  • 불용어 제거


토크나이징

  • KoDiffCSE를 활용한 토큰화 및 벡터화


계산 알고리즘 설계

  • 코사인 유사도를 활용한 문장 간 유사도 계산

  • 유사도 상위 10개의 답변 번호 및 유사도 출력

  • 사용자가 해당 결과를 업무에 참고할 수 있는 지표로 사용하게 함


배포 방식 선정

  • FastAPI 활용 JAVA 기반 기존 사이트에 API로 제공

  • 벡터 불러오기에 시간 소요됨 ➔ h5 파일 형식으로 서버에 저장해서 사용 or 벡터 DB 도입

조회수 3회댓글 0개

최근 게시물

전체 보기

Comments


게시물: Blog2_Post
bottom of page