[영어시험이 왜 이래 ⑤] 인공지능 시대 영어 평가의 새로운 방향 - (1)
[영어시험이 왜 이래 ⑤] 인공지능 시대 영어 평가의 새로운 방향 - (1)
  • 장재훈 기자
  • 승인 2022.12.19 14:13
  • 댓글 0
이 기사를 공유합니다

이용원 서울대 영어영문학과 교수
이용원 서울대 영어영문학과 교수

오늘날 대한민국은 전 세계를 무대로 무역, 투자, 경제 협력을 하고 있는 무역대국일뿐만 아니라 세계적 한류열풍을 일으키며 다양한 문화 콘텐츠 상품을 수출하는 문화수출국이기도 하다.

또 인권, 환경, 팬데믹을 포함한 전지구적 사안에 대해서도 선도적 역할을 담당해야 할 신흥선진국이기도 하다.

이러한 한국의 대외지향적 경제구조와 국제적 위상을 고려하면 우리의 젊은 세대들이 국제공용어인 영어의 실질적인 구사능력을 갖추는 것은 매우 중요한 일이다.

아울러, 영어는 이제 국민 개개인이 자신의 직무수행, 사업, 친교를 위한 목적뿐만 아니라 세계 시민으로서 협력하고 연대하는 삶을 살아가는데도 중요한 소통 수단이 될 수도 있다.

이런 영어를 우리 자라나는 세대들이 가능하면 공교육의 테두리 내에서 그 구사능력을 최대한 계발할 수 있도록 도와주고 교과 외 활동과 일상생활 속에서도 지속적으로 활용하고 더 발전시킬 수 있는 환경을 조성해주는 것이 제일 바람직하다.

이런 정책 기조를 유지하는 것은 우리 사회 내에서 계층 간 영어 격차와 사회적 양극화의 심화를 막아주고 건강한 수준에서의 계층 이동의 가능성을 유지시켜 주는 방법이기도 하다.

그럼에도 불구하고, 우리 공교육 내에서의 영어교육은 최근 수년간 계속 뒷걸음질의 조짐을 보이고 있고, 영어의 중요성에 대한 사회적 인식도 약화되고 있다.

이러한 퇴행 추세의 저변에는, 앞서 지적했듯이, 국가영어시험(NEAT) 실패가 남긴 사회적 충격, 수능 영어 절대 평가와 토익 시험이 초래한 착시현상, 정부의 정책적 표류 등이 자리잡고 있다.

우선, 초·중·고 공교육 체제 내에서는 소위 수능 영어 절대평가가 도입되며 시험 난이도가 하향 조정되고 등급을 결정하는 방식이 변경되면서 그 이전 시기에 비해 높은 영어 등급을 받는 수험자의 비율이 현격히 상승하는 등급 인플레이션 현상이 일어났다.

이는 일반 국민들이 잘 인식하지 못하고 있는 부분일 수도 있는데, 최근에는 실제로 전체 수험자의 과반을 넘거나 이에 육박하는 인원이 9등급 척도에서 3등급 이상(1~3)의 높은 등급을 받게 되면서 학생들이 영어를 입시 교과목으로서 열심히 공부해야 할 동기는 이전 보다 많이 약화되어 있다.

보다 본질적인 문제는 절대 평가로 전환된 이후 수험자가 취득한 수능 영어 영역의 3등급은 정말로 어느 정도의 영어구사능력을 의미하는지도 검증된 바가 없고, 이런 정도의 영어 등급을 받게 되면 대학에서 공부하는데 필요한 영어능력 기준을 어느 정도 충족한 것인지를 판단할 근거도 불분명하다.

뿐만 아니라 현재의 수능 영어 절대평가 3등급은 절대 평가 실시 이전의 수능 영어 점수 등급과 비교할 때 대개 몇 등급 정도에 해당하는지도 알 길이 없다.

이렇게 대입 수능 영어 영역이 일종의 깜깜이 평가도구로 전락해 버리니, 수능 영어 점수나 점수 등급 데이터를 토대로 고교졸업생들의 영어능력 변화추이를 수년간에 걸쳐 공정하게 종단분석하고 평가하는 것이 불가능해져 버렸다.

최근 수년간 대학 신입생들의 전반적 영어능력 저하되는 하향평준화의 징후가 여러 측면에서 포착되고 있어도, 이를 객관적 데이터로 수치화 해 검증하고 필요한 대책이나 정책을 수립할 수 있는 과학적이고 체계적인 기반들이 거의 무너져 있는 셈이다.

이렇게 되면 영어교육과 입시 정책 토론의 장에선 과도한 이념 편향의 정치적 주장과 선동이 난무해도 막을 길이 없어지게 된다.

공교롭게도, 마치 무슨 평행 이론의 예측처럼, 국내 성인 영어시험 분야에서도 수능 절대 평가에서 일어난 것과 매우 유사한 점수 인플레이션 현상이 관찰되고 있다.

국내 성인 영어시험 시장에서 그 동안 지대한 영향력을 행사해오며 독과점에 가까운 체제를 구축한 토익이라는 외국의 특정한 영어능력시험은 지난 20여 년간 2 차례(2006, 2016)의 걸쳐 중요한 시험 개정 작업을 수행하면서도 동일한 점수 척도를 계속 사용해 왔고 그러한 과정에서 한국인 수험자의 시험 평균 점수가 엄청난 규모로 상승을 하는 결과가 나타났다.

이러한 추세는 같은 기간 토플이나 텝스 같은 다른 영어시험들에 응시한 한국인 수험자 집단의 비교적 안정적인 평균점수 변화 추이와는 너무 극명한 대조를 이루고 있다.

이러한 토익 시험의 엄청난 평균점수 상승이 실제적으로 한국인 수험자들의 영어능력 향상으로 인한 결과라면 정말 환영하고 반길 일이겠지만, 영어능력 향상과는 무관하게 영어학원가의 소위 족집게식 토익 수험 요령 집중 훈련의 결과나 혹은 인위적 점수 인플레이션 때문이라면 이는 심각한 문제가 아닐 수 없다.

이것은 한국인들의 실제 영어 능력은 거의 향상이 없었는데도 마치 엄청난 성과가 있는 것처럼 착각을 일으키게 하는 기만적인 현상이다.

그럼에도 불구하고 이런 현상의 본질을 꿰뚫어 보고 그 근본 원인을 검증하고 필요한 조치를 취해야 하는 정부의 관리감독 체계는 제대로 작동하지 못하고 있는 현실이다.

이런 착시 현상의 부작용은 정부나 일반 대중의 정확한 판단을 흐리고 잘못된 인식을 형성시키는 데서 그치는 것이 아니라, 이 특정 시험의 점수 의미 해석 체계를 붕괴시켜 버리게 되고, 이 시험과 다른 시험들 간에 존재하는 기존 점수환산표의 유효성과 공정성을 뿌리 채 흔들게 된다.

이는 공무원 임용 시험을 포함한 각종 채용 절차에서 이 특정 시험의 합격 기준 점수의 달성을 더 용이하게 만들어 주어 수험자들이 이 시험으로 몰리게 하는 상업적 성과를 창출해 낼 수는 있겠으나, 엄정한 영어능력 평가 도구로서의 시험의 가치는 상실하게 만든다.

사실, 수능 영어를 상대평가에서 절대평가로 전환하거나, 기존의 시험을 개정하여 새로운 형태의 시험으로 재탄생 시키려는 노력 자체를 반대해야 할 원천적인 이유가 있는 것은 아니다.

오히려 일정한 주기를 두고 관련 분야의 이론적∙기술적 발전이나 시대 변화상을 반영하는 방식으로 기존의 대단위 표준화 시험을 업그레이드 하거나 개정하는 것은 바람직한 일일 수 있다.

그럼에도 불구하고 이러한 시험 개정 작업을 수행하는 과정이나, 혹은 이런 개정된 시험을 시행해 나가는 과정에서, 꼭 준수해야 할 필수적인 절차와 원칙이 있다.

우선, 개정된 시험이 그 개정 이전 시험과 동일한 명칭을 계속 사용하게 되더라도, 그 개정 과정에서 시험의 성격, 구조, 내용 및 난이도에 현격한 변화가 일어나게 된다면, 이 두 시험은 측정학적으로는 별개의 시험처럼 취급하고 서로 다른 점수 척도를 사용하도록 하는 것이 권장된다.

아울러 이 두 시험의 점수를 공정하게 상호 비교하고 변환할 수 있도록 이들 신구 시험들 사이에도 점수환산표를 만들어 수험자와 시험점수 사용기관들에 제공해야 한다.

토플 지필 시험이 컴퓨터 기반 시험 그리고 인터넷 시험으로의 개정되는 과정에서, 혹은 구텝스가 신텝스로 개정되는 과정에서, 이루어진 점수 척도의 변화나 신구 시험 간에 제공된 점수 환산표가 바로 좋은 예가 될 수 있다.

둘째, 동일한 척도를 사용하는 동일 시험의 서로 다른 회차 간에는 점수 의미 해석 체계의 안정성을 유지시켜 주는 절차를 준수하는 것이 필수적이다.

다른 두 회차에서 얻은 동일한 점수가 동일 능력 수준을, 혹은 매우 유사한 수준을, 의미하게 하도록 하기 위하여, 매 시험 회차에 사용할 시험 세트는 난이도가 유사한 동형검사 형태로 제작해야 한다. 그럼에도 아직 각 회차 간에 남아있을 난이도 차이는 동등화라는 통계적 방법을 통해 보정해 준다.

셋째, 공인영어시험들 간의 점수환산표는 어느 한 시험이라도 개정되게 되면 점수 환산연구 연구를 다시 수행하도록 해야 하고 그 결과에 근거해 환산표를 다시 제작해 배포해야 한다. 뿐만 아니라, 시험 개정이 없더라도 일정한 주기로(5-10년) 그 환산표의 정확성과 공정성을 점검하는 연구가 수행돼야 하고, 그 결과에 따라 필요한 조치가 이루어져야 한다.

결론적으로 말하면, 대단위 영어 표준화 시험들은 연중 여러 번 시행할 수 있는 시행 체제를 갖춰 수험자가 자기의 최고의 능력을 증명할 수 기회를 갖을 수 있도록 해주는 동시에 위에 언급한 여러 핵심적인 표준화 시험 절차를 엄정히 준수해야만, 대단위 표준화 시험의 가치를 제대로 구현할 수 있게 되고, 시험 점수 인플레이션과 같은 여러 부작용과 교란 현상을 미리 예방할 수 있게 된다.

넓게 보면, NEAT 체제 구축이 실패한 근본적 원인도 바로 이러한 대단위 표준화 시험의 개발과 시행과정에서 준수해야 할 핵심적 절차와 원칙들에 대한 우리 정부나 국내 평가기관의 인식이나 실천 역량 수준과 무관하다고 할 수 없다.

특히, 정부는 연구개발 콘소시엄을 구성하여 이를 통해 NEAT 1급 시험을 개발함으로써, 국내 성인용 공인영어시험 시장에서 공정 거래 감시자나 심판의 역할을 뛰어넘어, 실질적으로는 선수나 당사자로 참여를 했던 것이나 다름없다.

그럼에도 불구하고 정부가 그 이전에 대단위 표준화 영어숙달도 시험을 직접 개발해 시행하고 운영해 본 경험이 충분히 있었던 것은 아니었다.

더욱이 이런 공인영어시험들이 표준화 시험의 원칙들을 엄정히 준수하고 있는지 실효성 있게 검증하고 관리해 본 경험과 전문성을 충분히 축적하고 심화시켜 왔던 것도 아니었다. 이를 뒷받침할 법적∙사회적∙문화적 토대와 저변이 든든하게 형성되어 있는 것도 아니었다.

거기다가, NEAT의 경우에는, 정부나 연구팀이 기존의 지필 시험이 아닌 인터넷 기반 시험(IBT) 시행 체제 안에서 이러한 표준화 절차와 원리를 새로이 적용하고 그 실천방안을 찾아내야 했고, 말하기∙쓰기 서답형 문항을 기존의 다지선다형 청해∙독해 문항에 추가해서 시험을 구성하고 이를 IBT 체제 내에서 시행해야 하는 매우 복잡하고 막중한 과제를 부여 받았었다.

이렇게 다면적이고 다층적으로 고난도 과업이었던 NEAT 개발 프로젝트를 그 프로젝트를 주도하고 주관한 정부나 관련 정부 기관조차도 필요한 비전과 전문성과 역량을 충분히 갖추지 못한 가운데 단일 행정부 임기 내에 상의하달식 의사결정 구조를 밀어부쳐서 성공적으로 마무리 하는 것은 거의 불가능에 가까운 일이었다.

정말로 오랜 기간 관련 전문가 집단과의 긴밀한 토론과 협의와 예비연구와 기획 기간을 거쳐 치밀하게 수립된 중장기 단계적 개발 및 실행 로드맵을 가지고 몇 개의 행정부의 임기를 뛰어 넘어 지속적으로 추진해나갈 때 성공할 수 있는 성격의 연구개발 프로젝트였다고 볼 수 있다.

이제는 NEAT도 십여 년 전의 과거의 일이 되어가고 있지만, 우리나라 영어교육에 미치는 그 부정적 영향은 수능 영어 절대 평가와 정책적 표류로 오늘날에도 계속 이어지고 있다.

사실 정부가 주도했던 NEAT의 시험 체제의 구축이라는 연구개발 프로젝트에는 영어교육계의 오래된 열망도 함께 투영되어 있었기에 이를 과도하게 비난하거나 경솔하게 논의할 주제는 절대 아니다.

해방 후 지난 수십 년 간 공교육 체제 내에서의 우리나라 영어교육은 학생들의 영어구사능력을 증진시키는 방향으로 계속 발전해 왔다.

특히, 1990년대 수능 영어 영역에 듣기 문항을 새로이 도입하기로 한 결정은 그 이후 교사의 수업 방식이나 학생들의 학습방법 및 실제적 영어능력에도 매우 긍정적인 변화를 가져왔다는 평가를 받고 있다.

당연히 영어교육계에서 꿈꿔왔던 그 다음 단계의 도약은 언어 지식의 습득과 수용적 기능 계발에만 집중했던 기존의 교수학습 방식에서 한 걸음 더 나아가 말하기와 쓰기 능력도 함께 균형적으로 가르치고 배우는 방식으로의 전환하여 우리나라의 영어교육 및 평가 체제를 한 단계 업그레이드 시키는 것이었다.

이와 같이 NEAT 개발과 시행은 영어교육계의 오래된 숙원을 해결해 줄 수 있는 황금 같은 기회로 인식되고 있었기에, NEAT의 실패는 이를 추진했던 정부의 담당자나 연구진 그리고 영어교육 및 평가 분야 많은 종사자들에는 엄청난 정신적 외상과 충격을 줄 수 밖에 없었다.

이런 상황적 배경과 맥락을 감안하면, 이제 NEAT에 대한 섣부른 비난이나 부활 주장을 하기 보다는, NEAT를 통해 이루려 했던 영어교육∙평가의 핵심적 목표들이 무엇이었는지 차분히 복기해 분석해 보고, 이런 애초의 목표들을 성취하기 위해 지금이라도 우리가 할 수 있는 일은 없는지 모색해 보는 것이 지혜로운 접근법이라 본다.

특히, NEAT 개발 과정을 통해 절감했던 역량 부족과 한계의 영역은 어디였고, 그런 한계 영역에서는 그 동안 국내외 관련 분야에서 어느 정도의 진보가 있었는지, 지금이라도 그런 한계를 극복하기 위해 정부나 관련 학계가 지금이라도 단계적으로 해나갈 수 있는 일은 없는 것일까?

영어교육계가 퇴행 현상과 집단적 충격의 소용돌이 속에서 빠져 나오려 안간힘을 쓰는 사이, 어느새 자동통번역 및 인공지능 기술의 출현과 광범위한 사회적 활용은 영어교육의 미래에 새로운 위기를 제시하고 있고 영어를 포함한 외국어의 학습 및 교육 필요성을 소멸시켜 버릴 수도 있다는 우려까지 나오고 있다.

하지만, 이는 아직까지는 매우 극단적인 주장으로 볼 수 있고, 오히려 자동통번역, 자동 말하기·쓰기 채점, 챗봇, 인공지능 기술을 영어교육에 잘 활용한다면 그 동안 우리가 제대로 하지 못했던 말하기ㆍ쓰기 교육을 획기적으로 좀 더 활성화 해 영어교육을 한 단계 더 효율화하고 고도화 시킬 수 있는 가능성도 함께 열려있다고 본다.

되돌아 보면, 십여 년 전에 이미 영어 말하기∙쓰기 자동채점 기술이 충분히 성숙되어 있고 국내에서도 역량이나 활용 경험이 축적되어 있었더라면, NEAT가 맞닥뜨렸던 말하기∙쓰기 수험자 답안의 채점에 수반되는 엄청난 노력과 시간과 비용의 문제를 일정 부분 해결해 줄 수도 있었을 것이다.

이러한 여러 상황적 요인들을 종합해서 고려해보면, 우리 정부, 학계, 교육계, 산업계, 시민사회가 이제는 차분한 마음으로 NEAT의 실패를 딛고 일어나 퇴행적인 영어 평가의 관행을 극복하고 인공지능을 기반으로 한 선진 영어교육 및 평가 체제를 구축하기 위해 함께 고민하고 논의할 시점이다. 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.