BK21

사업성과

[논문] [참여교수] 조규락(2021) 머신러닝을 활용한 중학교 수학 기초학력 미달 비율 예측모형 탐구: 교육공학연구 31(1) N

No.1679343
  • 작성자 장휘창
  • 등록일 : 2022.03.02 14:45
  • 조회수 : 234

머신러닝을 활용한 중학교 수학 기초학력 미달 비율 예측모형 탐구


A Study on the Prediction Model for the Ratio of Mathematics Low-Performing Students in Middle School Using Machine Learning


2021, vol.31, no.1, pp.95-129(35 pages)


DOI : 10.17232/KSET.37.1.095


발행기관 : 한국교육공학회


이종현 ( Jong-hyun Lee ) ;  조규락 ( Kyoo-lak Cho )


초록


교육당국의 노력에도 불구하고 기초학력 미달 학생의 비율이 지속적으로 증가추세에 있다. 기초학력 미달은 학습결손이 초등학교, 중학교, 고등학교로 이어지며 누적되기 때문에 시급히 해결해야 할 교육문제가 되었다. 이에 본 연구는 기초학력 미달에 영향을 미치는 요인을 밝히기 위해 중학교 수학 기초학력 미달 비율을 예측하는 모형을 개발하고, 이 예측모형의 성능 분석과 최적화를 수행하였다. 수집된 자료는 ‘에듀데이터 서비스 시스템’에서 운영하는 2009년부터 2017년까지의 다년간 학교정보 공시자료이며, 이를 11개의 머신 러닝 알고리즘을 이용한 예측모형 개발에 투입하고, 개발한 각 모형에 대해 예측유효성을 평가하였다. 연구 결과, 먼저 기초학력 미달 비율을 판단하는 기준으로 중위값 4.7619를 얻었다. 둘째, 머신러닝의 정보획득 지수를 통해서 파악한 중학교 수학 기초학력 미달 비율에 영향을 미치는 요인에는 ‘학생당 방과후학교 지원비’, ‘학생당 학교예산’, ‘남여 학생 비율’, ‘방과후학교 프로그램 참여학생수 비율’ 등의 순으로 나타났다. 셋째, 본 연구가 활용한 11개의 머신러닝 알고리즘 중에서 random forest를 통해 개발한 예측모형이 가장 높은 예측유효성을 보여 최적의 알고리즘으로 나타났다. 본 연구 결과를 바탕으로 random forest 머신러닝 알고리즘을 통해 개발한 예측모형이 중학교 수학 기초학력 미달 비율에 영향을 미치는 변인 파악에 유용함을 확인할 수 있었다. 하지만 예측모형의 변인들은 인과관계를 나타내지 않으므로 유의해서 해석해야 한다. 


Despite the endeavor of education authorities, the ratio of low-performing students continues to increase. Since the learning loss connects and cumulates from elementary to high school, this has become an urgent educational problem to solve. Thus, in order to find out factors affecting low-performing, this study developed models that predict the ratio of middle school low-performing students, and conducted performance analysis and optimization of the prediction models. Data collected was the education public disclosure information from 2009 to 2017, was put into the prediction models developed by 11 machine learning algorithms, and evaluated robustness of the models respectively. Findings were as follows: first, the study gained the median value as categorization criterion of low-performing was 4.7619. Second, according to the information gain index, factors affecting mathematics low-performing in middle school included ‘after school support budget per student’ ‘school budget per student’ ‘the ratio of male/female students’ ‘the number of students participating in after school programs’ in order. Third, random forest prediction model, which has the highest robustness, was identified as an optimal algorithm among the 11 machine learning algorithms utilized in the study. The results of the study confirmed that the prediction model developed by random forest machine learning algorithm was useful to find out factors affecting the ratio of mathematics low-performing students in middle school. However, since variables in the prediction model do not have causality, interpretation with care is required.