오브젝트 디텍션을 통한 문서내의 특정 객체 탐지 및 추출 :

한상욱

추천

검색

자료유형: 학위논문

저자정보: 한상욱 (국민대학교, 국민대학교 일반대학원)

지도교수: 정여진

발행연도: 2019

저작권: 국민대학교 논문은 저작권에 의해 보호받습니다.

이용수25

이 논문의 연구 히스토리 (2)

2019

Object detection을 통한 문서내의 특정 객체 탐지 및 추출

한상욱 , 안성만 , 정여진 한국지능정보시스템학회 학술대회논문집 2019.06 학술대회자료

오브젝트 디텍션을 통한 문서내의 특정 객체 탐지 및 추출

한상욱 데이터사이언스학과 2019.01 학위논문

이 논문의 후속연구가 궁금하신가요?
연관 학술논문 또는 학술발표를 통해 보다 발전된 연구결과를 확인하실 수 있습니다.
이 논문의 연구 히스토리 확인하기

초록· 키워드

오류제보하기

오늘날, 많은 기업, 기관들은 다양한 종류의 업무들을 문서화하여 보관하고 있다. 이러한 문서들은 개인정보를 포함한 여러 종류의 정보들을 포함하고 있기에 중요하게 여겨지고 있다. 기업, 기관은 문서들에 포함된 정보들을 수집함으로써 마케팅 및 사업 전략을 세울 수 있게 된다.
또한 4차 산업혁명을 맞이하여 기업, 기관에서는 기존의 많은 업무들이 전산으로 대체되고 있는 추세다.
이러한 전산화 과정에서 문서들은 디지털 텍스트 화 되어 지고 있다. 기존 디지털 텍스트 화 하는 방법은 사람이 직접 수기로 타이핑을 하는 방법과 스캔을 이용한 이미지 데이터로 변환하여 저장하는 방법을 사용하였고 이는 매우 많은 시간과 비용이 발생하게 된다. 이를 극복하기 위해 기업, 기관들은 OCR을 도입하여 보다 효율적인 문서의 디지털 텍스트 화를 처리 하였다.
OCR은 전통적으로 확률 통계적 방법, 구조적 방법 과 같이 문자의 edge를 찾아 추출하는 edge 기반 방법과 인공신경망을 이용한 deep learning 기반의 접근 방법이 있다.
본 논문에서는 deep learning의 object detection 모델인 Faster-RCNN을 이용하여 문서 내 특정 class들을 탐지하고 다시 CNN을 통해서 디지털 텍스트 화 시키는 end-to-end system을 제안하였다. 본 논문에 사용된 데이터는 사전 동의를 받은 학생들의 학교 정보데이터를 사용하였다.
Faster-RCNN의 네트워크 모델은 Faster-RCNN Inception, Resnet, MobileNet 총 3가지를 가지고 학습을 하여 성능을 비교하였다. 문서 내 탐지된 텍스트 class중 한글 이미지는 초성, 중성, 종성의 각 음소 단위의 위치를 고려하여 CNN모델을 생성하였다.
실험 결과 object detection 모델의 성능은 AP(Average precision)과AR(Average recall)을 가지고 평가 하였으며 Faster-RCNN Inception 네트워크가 가장 성능이 좋았다. 또한 object detection모델을 다양한 test set에 대해서 실험을 하였고 test set에서 탐지된 이미지에 평가에서 accuracy는 100% 였다. 한글 이미지를 음소 단위로 class를 나누어 classification을 했던 결과 초성, 중성, 종성에 대한 성능은 accuracy, precision, recall로 평가 하였고 각각 99%이상의 성능을 보였다.
deep learning의 object detection 모델인 Faster-RCNN모델을 통한 OCR 작업은 학습을 시키면 원하는 특정 class를 문서의 노이즈에도 불구하고 탐지할 수 있어 기존 OCR방법보다 범용성이 높을 것으로 예상 된다.

Today, many companies and institutions document and store different kinds of work. These documents are considered important because they contain various kinds of information, including personal information. Companies and agencies will be able to make a business strategies by collecting the information contained in the documents.
In addition, many existing tasks in businesses and institutions are being replaced by computer systems in the face of the fourth industrial revolution.
In this process of computerization, documents are being digital text. Traditional methods of digital texting have been used by people to type manually and by converting to image data using scanning, which can be very time-consuming and costly. To overcome this, companies and institutions introduced OCR to handle digital textualization of more efficient documents. OCR traditionally has an edge based approach to finding and extracting edges of characters, such as probabilistic and structural methods, and a deep-learning based approach using artificial neural networks.
In this paper, an end-to-end system was proposed to detect specific classes in the document and to digitally text them again via CNN using Faster-RCNN, an object detection model of deep-learning. The data used in this paper used school information data from students with prior consent.
The network model of Faster-RCNN was studied with a total of three things: Faster-RCNN Inception, Resnet, and MobileNet to compare performance. The Korean image of the text class detected in the document was created by considering the location of each phonemic unit of the initial consonant, medial vowel, and final consonant.
The results of the experiment showed that the performance of the object detection model was evaluated with Average Precision (AP) and Average call (AR) and that the Faster-RCN Inception network performed the most. In addition, the object detection model was tested on various test sets and the acuracy was 100% in the evaluation of the image detected in the test set. As a result of classifying Korean images in phoneme units, the performance of initial consonants, medial vowels, and final consonants was evaluated with accuracy, determination, and recall, each with 99% or more performance.
OCR work through Deep-learning object detection model, the Faster-RCNN, is expected to be more general-purpose than the existing OCR method, as learning allows it to detect specific classes that it wants despite the noise of documents

그림 차례 ⅲ
표 차례 ⅳ
국문 요약 ⅴ
제1장 서론 1
1 연구 배경 1
2 연구 내용 2
3 논문 구성 3
제2장 관련연구 4
2.1 OCR 4
2.2 OCR ? edge detection 5
2.3 OCR ? Deeplearing 6
2.3.1 CNN 6
2.3.2 RCNN 7
2.3.3 Fast-RCNN 9
2.3.4 Faster-RCNN 10
2.3.5 OCR ? Deeplearing 11
2.3.6 연구 한계 11
2.4 한글 OCR 12
제3장 시스템 제안 14
3.1 object detection 15
3.1.1 문서 데이터 train test set 생성 16
3.1.2 데이터 전처리 17
2.1.3 학습 모델 생성 17
3.1.4 이미지 탐지 18
3.2 텍스트 이미지 classification 20
3.2.1 텍스트 이미지 데이터 수집 및 전처리 21
3.2.2 학습 모델 생성 22
3.2.3 디지털 텍스트 변환 23
제4장 실험 결과 26
4.1 object detection 성능 평가 26
4.2 텍스트 이미지 classification 성능 평가 27
제5장 결론 35
참 고 문 헌 37
Abstract 40

최근 본 자료

전체보기

구분	그룹	데이터 항목
AI 학습용 데이터	원문	원문 PDF 파일
AI 학습용 데이터	원문 + 메타 (기본/상세)	원문 PDF 파일 및 서지정보 CSV
대량 구매용 데이터	B2B 구독 방식	특정 자료 한정으로 원문 접근 권한 부여
대량 구매용 데이터	URL 전달 방식	바로 PDF 뷰어를 열람할 수 있는 URL 제공

구분	그룹	데이터 항목
AI 학습용 데이터	기본 메타	발행기관명, 간행물명, 권호명, 권(vol), 호(issue), 통권, 발행연도, 발행월, 논문명, 저자명, 시작페이지, 종료페이지, 전체페이지, 상세페이지URL
상세 메타 데이터	발행기관 메타	발행기관 이명, 영문명, 창립연도, 홈페이지URL, 발행기관 소개
	간행물 메타	부제목, 간행물 유형, ISSN, ISBN, 최초발행연도, 폐간연도, 간행빈도, 발행주기, 등재사항, 이용수, 피인용수, 권호수, 논문수, 표지이미지
	논문 메타	작성 언어, 부제목, 대등제목, 목차, 키워드, 초록, 이미지, 참고문헌, 이용수, 피인용수, 논문활용도, DBpia통합주제분류, KDC분류, DDC분류, 한국연구재단분류, UCI, DOI
	저자 메타	소속기관, 소속부서, 직급, 연구분야, 연구키워드, 이용수, 피인용수, 저자 논문활용도

구분	그룹	데이터 항목
※ 결합형/맞춤형 메타 데이터는 신청 내용에 따라 다양하게 제공 가능
이용순위 정보	주제분야별 많이 이용된 논문	“인문학”에서 많이 이용된 논문 TOP100
	이용기관별 많이 이용된 논문	“중고등학교”에서 많이 이용된 논문 TOP100
	세부기관별 많이 이용된 논문	“서울대학교”에서 많이 이용된 논문 TOP100
	키워드별 많이 이용된 논문	“Chat GPT”에서 많이 이용된 논문 TOP100
키워드 정보	많이 이용된 키워드	특정기간/분야/저널 내 많이 이용된 키워드
	많이 발행된 키워드	특정기간/분야/저널 내 많이 발행된 키워드
	많이 검색된 키워드	특정기간/분야/저널 내 많이 검색된 키워드
	연구 트렌드 키워드	특정 키워드 연관 연구동향 분석 데이터 키워드

논문 기본 정보

이 논문의 연구 히스토리 (2)

초록· 키워드

목차

최근 본 자료

댓글(0)