top of page
검색
  • 작성자 사진윤서윤

비정형 텍스트 주제 분류 프로젝트




보안상의 이유로 구체적 서술 불가


데이터 정의

  • 3개년 데이터 최대 4000byte 문장 약 500만 건

  • 한글, 알파벳, 숫자, 한자, 특수문자 모두 포함됨


데이터 수집

  • Oracle DBMS에서 Tod를 활용해 데이터 추출

  • 이름/생년월일/주소/성별/제목/내용/기관 별 컬럼 추출


데이터 정제

  • 한글, 알파벳 제외 모두 제거

  • 연속 된 공백 제거

  • 생년월일 ➔ 연령대 / 주소 ➔ 지역 변환

  • 제목+내용 병합

  • 중복 제거


훈련용 데이터 생성

  • 분류 카테고리 설정

  • 샘플 데이터 1만개 라벨링

  • 불용어 사전 제작


데이터 모델링

  • fasttext를 활용한 가중치 설정

  • BiLSTM을 활용한 양방향 학습 진행

  • 과정 반복을 통해 최적의 하이퍼 파라미터 탐색


결과 도출

  • 지역별/연령별/성별 주제 분포 분석 및 시각화

  • 분석 결과를 기반으로 효율적인 운영 방안 제시 eg. 출현 빈도가 높고 정형화 된 정보로 제공 가능한 카테고리 자동화 제시, 악성이용자 자동 처리 등

조회수 4회댓글 0개

최근 게시물

전체 보기

Comments


게시물: Blog2_Post
bottom of page