BK21

사업성과

[논문] [참여대학원생] 박강윤(2021) 순환신경망 장단기 기억(LSTM)을 이용한 자동 채점의 가능성 탐색: 교육과정평가연구 24(4) N

No.4037065
  • 작성자 BK21 사무국
  • 등록일 : 2022.09.19 15:12
  • 조회수 : 205

순환신경망 장단기 기억(LSTM)을 이용한 자동 채점의 가능성 탐색


Exploring the Feasibility of an Automated Essay Scoring Model Based on LSTM



약어 : 교육과정평가


2021, vol.24, no.4, 통권 24호 pp. 223-238 (16 pages)


발행기관 : 한국교육과정평가원


1한국지능정보사회진흥원

2인하대학교

3광주교육대학교


초록 열기/닫기 버튼

본 연구에서는 순환신경망의 일종인 장단기 기억(Long-Short Term Memory: LSTM)를이용하여 영어 에세이 자동 채점 가능성을 탐색하였다. LSTM은 기존의 순환신경망(Recurrent Neural Network; RNN)이 갖는 장기의존성의 문제를 극복하기 위해 제안된 학습 모델로, 본연구에서는 이러한 LSTM 모델을 활용하여 영어 에세이 데이터를 학습시킨 후, 별도의 평가데이터를 통해 LSTM의 성능을 평가하였다. 이분(二分) 자료의 형태를 갖는 선다형 채점 데이터와달리 에세이 채점 데이터는 다분(多分) 자료의 형태를 가지므로 본 연구에서는 다항 분류가가능하도록 학습 모델을 구축하여 점수를 예측하였으며, 이러한 LSTM 학습 모델을 여섯 가지지표(정확성, 정밀도, 재현율, F1, 카파, 상관계수)로 평가하였다. 그 결과를 살펴보면, 본 연구에서구축한 LSTM 학습 모델이 학생들의 에세이 점수를 양호한 수준에서 예측할 수 있음을 확인하였다. 또한 학습 모델의 성능을 결정하는 주요 요인 중 하나가 데이터의 질과 양임을 감안할 때 향후충분한 양질의 데이터를 구축하여 학습할 경우 자동 채점의 정확성을 보다 향상시킬 수 있을 것으로기대된다. 후속 연구로는 최적의 에세이 자동 채점 알고리듬을 도출하기 위해 향후 다양한순환신경망 모델을 비교 검토하는 실증 연구들이 수행될 필요가 있다.


In the present study, the feasibility of an automated essay scoring of English was explored using Long-Short Term Memory (LSTM), a type of Recurrent Neural Network (RNN). LSTM is a deep learning model proposed to overcome the problem of long-term dependence of the existing RNN. In this study, an automated essay scoring model based on LSTM was adopted to score English essay data extracted from the open huge repository of data ‘kaggle,’ and the performance of the model was validated. Unlike multiple-choice scoring data which consisted of binary (true/false) data, essay scoring data had multiple facets, thus the data used for the deep learning model was constructed within a multinomial classification to order to predict scores of those essay data. For its validation, the six indices of ‘accuracy,’ ‘precision,’ ‘recall’, ‘F1-measure,’ ‘kappa,’ and ‘correlation coefficient’ were used. As a result, it turned out that the LSTM model could predict students' essay scores at an appropriate level. The performance of the deep learning model is closely related to the quality and quantity of data, thus it is expected that the accuracy of the automated essay scoring could be improved if sufficient quality data is composed and used for the deep learning process. To derive a more valid and reliable algorithm, it is necessary to conduct further empirical studies by testing various RNN models.