보안상의 이유로 구체적 서술 불가
데이터 정의
3개년 데이터 최대 4000byte 문장 약 500만 건
한글, 알파벳, 숫자, 한자, 특수문자 모두 포함됨
데이터 수집
Oracle DBMS에서 Tod를 활용해 데이터 추출
이름/생년월일/주소/성별/제목/내용/기관 별 컬럼 추출
데이터 정제
한글, 알파벳 제외 모두 제거
연속 된 공백 제거
생년월일 ➔ 연령대 / 주소 ➔ 지역 변환
제목+내용 병합
중복 제거
훈련용 데이터 생성
분류 카테고리 설정
샘플 데이터 1만개 라벨링
불용어 사전 제작
데이터 모델링
fasttext를 활용한 가중치 설정
BiLSTM을 활용한 양방향 학습 진행
과정 반복을 통해 최적의 하이퍼 파라미터 탐색
결과 도출
지역별/연령별/성별 주제 분포 분석 및 시각화
분석 결과를 기반으로 효율적인 운영 방안 제시 eg. 출현 빈도가 높고 정형화 된 정보로 제공 가능한 카테고리 자동화 제시, 악성이용자 자동 처리 등
Comments