본 연구는 AI기술의 활용과 학습분석학적 접근을 통해, 유아의 언어발달 상태를 대시보드 형태로 보여주는 시스템 개발을 목표로 하고 있다. 연구 대상자는 G시의 J어린이집 3세반 유아 5명이다. 유아가 어린이집 교실에서 교사 및 또래 유아들과 대화 혹은 혼잣말을 하는 음성 데이터를 수집하였다. 수집된 자료는 STT 기술을 적용하여 음성 데이터를 텍스트로 변환하고, 유아의 언어발달을 의미론적 측면(어휘다양성, 이해가능도, 주 사용 어휘)과 통사론적 측면(발화 길이, 조사개수, 복문·단문의 비율)으로 분석하였다. 그 결과 의미론적 분석에서는 유아의 언어표본 시간 대비 발화수와 총 낱말수, 서로 다른 낱말 수, 낱말 유형 비율, 전체 발화수 대비 이해 가능한 발화의 비율, 빈번하게 언급된 낱말들을 유목화한 그룹별 빈도를 도출하였다. 통사론적 분석에서는 유아의 전체 발화 횟수, 최장 발화 길이, 평균 발화 길이, 조사의 유형별 활용 빈도, 복문과 단문의 비율을 살펴보았다. 이러한 분석 과정을 통해 AI기술을 활용한 유아 언어발달 분석의 이점과 한계점을 논의하며, 향후 유아의 언어발달 상태를 보다 자동화된 방식으로 실시간 제시하는 시스템 개발을 위한 발전 과제에 대해 논하였다.
This study aims to develop a system that utilizes AI technology and a learning analytics approach to visualize the language development status of children through a dashboard. Five 3-year-old children from a preschool in G City were recruited, and voice data were collected as the children interacted with teachers, peers, or spoke to themselves in the classroom. The collected data were converted into text using Speech-to-Text (STT) technology, and then analyzed from semantic (e.g., lexical diversity, comprehensibility, frequently used words) and syntactic (e.g., utterance length, number of particles, ratio of complex to simple sentences) perspectives. Semantic analysis examined measures, such as the number of utterances per unit of time, total number of words, number of unique words, lexical type-token ratio, the proportion of comprehensible utterances to total utterances, and group frequencies of commonly mentioned words. Syntactic analysis examined total utterance counts, maximum and average utterance lengths, usage frequencies of different particle types, and the ratio of complex to simple sentences. Through this process, the study discussed the advantages and limitations of using AI for analyzing children's language development. It also outlined future tasks for developing a more automated, real-time system to present children's language development status.