top of page

본 사이트는

사이트 제작 도구로 제작되었습니다. 지금 나만의 사이트를 만들어보세요.시작하기

검색

사례기반 유사도 분석 프로젝트

윤서윤
2024년 6월 11일
1분 분량

보안 상의 이유로 구체적인 서술 불가

데이터 정의

기존의 질문/답변 3개년 데이터 약 1,000만건
한글, 알파벳, 한자, 숫자, 특수문자 포함된 비정형 텍스트 데이터

데이터 수집

Oracle DBMS에서 Tod를 이용해 데이터 추출
질문 번호/질문 제목/질문 내용/답변 번호(PK)/답변 내용/기관 컬럼 추출

데이터 정제

한글, 알파벳 제외한 문자 삭제
불용어 제거

토크나이징

KoDiffCSE를 활용한 토큰화 및 벡터화

계산 알고리즘 설계

코사인 유사도를 활용한 문장 간 유사도 계산
유사도 상위 10개의 답변 번호 및 유사도 출력
사용자가 해당 결과를 업무에 참고할 수 있는 지표로 사용하게 함

배포 방식 선정

FastAPI 활용 JAVA 기반 기존 사이트에 API로 제공
벡터 불러오기에 시간 소요됨 ➔ h5 파일 형식으로 서버에 저장해서 사용 or 벡터 DB 도입

최근 게시물

비정형 텍스트 주제 분류 프로젝트

비정형 텍스트 주제 분류 프로젝트

딥러닝 음성봇 웹배포 프로젝트

딥러닝 음성봇 웹배포 프로젝트

수도권과 비수도권의 인프라 격차 및 해소방안

수도권과 비수도권의 인프라 격차 및 해소방안

댓글

게시물: Blog2_Post

bottom of page