본 논문은 사용자 이상행위 분석 모델을 위한 개념 증빙 (Proof of Concept) 구현에서 필수적으로 요구되는 학습용 데이터셋에 관한 것으로 트랜스포머 기반의 사전학습 모델을 구현하기 위해 공개 데이터셋을 학습 모델의 입력 데이터로 가공하기 위한 탐색적 데이터 분석(EDA) 및 결과에 대해 설명한다. 본 EDA 과정에서 공개 데이터셋으로 CERT r6.2버전의 데이터셋에 대해 모델 학습용으로 사용할 다양한 종류의 특징 값을 추출하고 그 결과를 제시하였다.