top of page

본 사이트는

사이트 제작 도구로 제작되었습니다. 지금 나만의 사이트를 만들어보세요.시작하기

검색

비정형 텍스트 주제 분류 프로젝트

윤서윤
2024년 6월 11일
1분 분량

보안상의 이유로 구체적 서술 불가

데이터 정의

3개년 데이터 최대 4000byte 문장 약 500만 건
한글, 알파벳, 숫자, 한자, 특수문자 모두 포함됨

데이터 수집

Oracle DBMS에서 Tod를 활용해 데이터 추출
이름/생년월일/주소/성별/제목/내용/기관 별 컬럼 추출

데이터 정제

한글, 알파벳 제외 모두 제거
연속 된 공백 제거
생년월일 ➔ 연령대 / 주소 ➔ 지역 변환
제목+내용 병합
중복 제거

훈련용 데이터 생성

분류 카테고리 설정
샘플 데이터 1만개 라벨링
불용어 사전 제작

데이터 모델링

fasttext를 활용한 가중치 설정
BiLSTM을 활용한 양방향 학습 진행
과정 반복을 통해 최적의 하이퍼 파라미터 탐색

결과 도출

지역별/연령별/성별 주제 분포 분석 및 시각화
분석 결과를 기반으로 효율적인 운영 방안 제시 eg. 출현 빈도가 높고 정형화 된 정보로 제공 가능한 카테고리 자동화 제시, 악성이용자 자동 처리 등

최근 게시물

사례기반 유사도 분석 프로젝트

사례기반 유사도 분석 프로젝트

딥러닝 음성봇 웹배포 프로젝트

딥러닝 음성봇 웹배포 프로젝트

수도권과 비수도권의 인프라 격차 및 해소방안

수도권과 비수도권의 인프라 격차 및 해소방안

댓글

게시물: Blog2_Post

bottom of page