오늘날, 많은 기업, 기관들은 다양한 종류의 업무들을 문서화하여 보관하고 있다. 이러한 문서들은 개인정보를 포함한 여러 종류의 정보들을 포함하고 있기에 중요하게 여겨지고 있다. 기업, 기관은 문서들에 포함된 정보들을 수집함으로써 마케팅 및 사업 전략을 세울 수 있게 된다. 또한 4차 산업혁명을 맞이하여 기업, 기관에서는 기존의 많은 업무들이 전산으로 대체되고 있는 추세다. 이러한 전산화 과정에서 문서들은 디지털 텍스트 화 되어 지고 있다. 기존 디지털 텍스트 화 하는 방법은 사람이 직접 수기로 타이핑을 하는 방법과 스캔을 이용한 이미지 데이터로 변환하여 저장하는 방법을 사용하였고 이는 매우 많은 시간과 비용이 발생하게 된다. 이를 극복하기 위해 기업, 기관들은 OCR을 도입하여 보다 효율적인 문서의 디지털 텍스트 화를 처리 하였다. OCR은 전통적으로 확률 통계적 방법, 구조적 방법 과 같이 문자의 edge를 찾아 추출하는 edge 기반 방법과 인공신경망을 이용한 deep learning 기반의 접근 방법이 있다. 본 논문에서는 deep learning의 object detection 모델인 Faster-RCNN을 이용하여 문서 내 특정 class들을 탐지하고 다시 CNN을 통해서 디지털 텍스트 화 시키는 end-to-end system을 제안하였다. 본 논문에 사용된 데이터는 사전 동의를 받은 학생들의 학교 정보데이터를 사용하였다. Faster-RCNN의 네트워크 모델은 Faster-RCNN Inception, Resnet, MobileNet 총 3가지를 가지고 학습을 하여 성능을 비교하였다. 문서 내 탐지된 텍스트 class중 한글 이미지는 초성, 중성, 종성의 각 음소 단위의 위치를 고려하여 CNN모델을 생성하였다. 실험 결과 object detection 모델의 성능은 AP(Average precision)과AR(Average recall)을 가지고 평가 하였으며 Faster-RCNN Inception 네트워크가 가장 성능이 좋았다. 또한 object detection모델을 다양한 test set에 대해서 실험을 하였고 test set에서 탐지된 이미지에 평가에서 accuracy는 100% 였다. 한글 이미지를 음소 단위로 class를 나누어 classification을 했던 결과 초성, 중성, 종성에 대한 성능은 accuracy, precision, recall로 평가 하였고 각각 99%이상의 성능을 보였다. deep learning의 object detection 모델인 Faster-RCNN모델을 통한 OCR 작업은 학습을 시키면 원하는 특정 class를 문서의 노이즈에도 불구하고 탐지할 수 있어 기존 OCR방법보다 범용성이 높을 것으로 예상 된다.
Today, many companies and institutions document and store different kinds of work. These documents are considered important because they contain various kinds of information, including personal information. Companies and agencies will be able to make a business strategies by collecting the information contained in the documents. In addition, many existing tasks in businesses and institutions are being replaced by computer systems in the face of the fourth industrial revolution. In this process of computerization, documents are being digital text. Traditional methods of digital texting have been used by people to type manually and by converting to image data using scanning, which can be very time-consuming and costly. To overcome this, companies and institutions introduced OCR to handle digital textualization of more efficient documents. OCR traditionally has an edge based approach to finding and extracting edges of characters, such as probabilistic and structural methods, and a deep-learning based approach using artificial neural networks. In this paper, an end-to-end system was proposed to detect specific classes in the document and to digitally text them again via CNN using Faster-RCNN, an object detection model of deep-learning. The data used in this paper used school information data from students with prior consent. The network model of Faster-RCNN was studied with a total of three things: Faster-RCNN Inception, Resnet, and MobileNet to compare performance. The Korean image of the text class detected in the document was created by considering the location of each phonemic unit of the initial consonant, medial vowel, and final consonant. The results of the experiment showed that the performance of the object detection model was evaluated with Average Precision (AP) and Average call (AR) and that the Faster-RCN Inception network performed the most. In addition, the object detection model was tested on various test sets and the acuracy was 100% in the evaluation of the image detected in the test set. As a result of classifying Korean images in phoneme units, the performance of initial consonants, medial vowels, and final consonants was evaluated with accuracy, determination, and recall, each with 99% or more performance. OCR work through Deep-learning object detection model, the Faster-RCNN, is expected to be more general-purpose than the existing OCR method, as learning allows it to detect specific classes that it wants despite the noise of documents
목차
그림 차례 ⅲ표 차례 ⅳ국문 요약 ⅴ제1장 서론 11 연구 배경 12 연구 내용 23 논문 구성 3제2장 관련연구 42.1 OCR 42.2 OCR ? edge detection 52.3 OCR ? Deeplearing 62.3.1 CNN 62.3.2 RCNN 72.3.3 Fast-RCNN 92.3.4 Faster-RCNN 102.3.5 OCR ? Deeplearing 112.3.6 연구 한계 112.4 한글 OCR 12제3장 시스템 제안 143.1 object detection 153.1.1 문서 데이터 train test set 생성 163.1.2 데이터 전처리 172.1.3 학습 모델 생성 173.1.4 이미지 탐지 183.2 텍스트 이미지 classification 203.2.1 텍스트 이미지 데이터 수집 및 전처리 213.2.2 학습 모델 생성 223.2.3 디지털 텍스트 변환 23제4장 실험 결과 264.1 object detection 성능 평가 264.2 텍스트 이미지 classification 성능 평가 27제5장 결론 35참 고 문 헌 37Abstract 40