메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색

논문 기본 정보

자료유형
학위논문
저자정보

이강철 (전북대학교, 전북대학교 일반대학원)

지도교수
안정용
발행연도
2023
저작권
전북대학교 논문은 저작권에 의해 보호받습니다.

이용수12

표지
AI에게 요청하기
추천
검색

이 논문의 연구 히스토리 (2)

초록· 키워드

오류제보하기
토픽 모델(topic model)은 문서와 단어로 구성된 행렬(document-term matrix, DTM)을 기반으로 문서에 잠재되어 있는 토픽의 출현확률을 추정하는 기법이다. 이 기법은 문서-토픽(documents-topics) 비중과 토픽-단어(topics-terms) 비중을 통하여 각 문서의 핵심 토픽과 각 토픽의 특성을 직관적으로 파악할 수 있다는 장점이 있다. 그러나 서로 다른 토픽에서 동일 단어가 상위 비중을 차지하는 경우, 토픽 간 변별력이 있는 핵심어(keywords) 추출이 어렵다는 문제점이 있다. 또한, 이 기법은 단어의 출현 빈도수에 기반한 방법이기 때문에 핵심어와 의미적 유사성이 있으나 핵심어로 채택되지 못한 단어들이 존재하는 경우 정보의 누락이 발생한다. 이러한 문제점을 개선하기 위하여 본 연구에서는 핵심어를 추출할 때 연관성 척도(relevance)와 워드 임베딩(word embedding) 기법을 적용하는 방법을 제안한다. 또한, 분류 성능을 개선하기 위해 EDA(Easy Data Augmentation) 기법을 이용하여 데이터를 5배 증강한 후 KoBERT 모델을 적용하여 데이터를 분류하였다. 데이터 분석 결과, 토픽 간 변별력 있는 핵심어를 추출하여 해당 토픽의 구체적인 내용을 파악할 수 있었으며, 94% 정확한 분류 결과를 얻어 데이터 증강기법을 적용하지 않은 경우에 비해 9% 정도 개선된 결과를 얻을 수 있었다.

목차

제1장 서론 1
제2장 관련연구 4
2.1 토픽 모델링 4
2.2 LDA (Latent Dirichlet Allocation) 모형 5
2.2.1 깁스 샘플링 (Gibbs sampling) 7
2.2.2 혼란도 (perplexity) 8
2.2.3 연관성 (relevance) 9
2.3 워드 임베딩 10
2.3.1 원-핫 인코딩(one-hot encoding) 10
2.3.2 Word2Vec 11
2.3.3 Skip-Gram 12
2.3.4 Negative-Sampling 13
2.4 KoBERT 14
2.5 EDA 14
2.5.1 유의어 교체(SR) 15
2.5.2 임의 삽임(RI) 15
2.5.3 임의 교체(RS) 15
2.5.4 임의 삭제(RD) 15
제 3장 연구 방법 및 분석 결과 16
3.1 연구 방법 16
3.1.1 데이터 수집 16
3.1.2 데이터 전처리 16
3.1.3 토픽 모델링 18
3.2 데이터 분석 결과 19
3.2.1 LDA 모형에 의해 추출된 핵심어 19
3.2.2 relevance 척도와 skip-gram 기법을 이용한 핵심어 추출 20
3.2.3 토픽 분류 28
제 4 장 결론 31
참고문헌 33

최근 본 자료

전체보기

댓글(0)

0