[영어시험이 왜 이래 ⑥ ]인공지능 시대 영어 평가의 새로운 방향 2

글 이용원 서울대 영어영문학과 교수

이제야 말로 정말 우리 정부, 학계 및 교육계가 NEAT의 실패를 딛고 일어나, 수능 영어 절대 평가와 토익이 만들어 낸 착시현상을 극복하고, 인공지능 시대에 걸맞는 선진화된 영어 평가 체제를 구축하고 정착시킬 방안을 함께 모색하기 위해 적극적으로 소통하고 협의할 시점이다.

지금 우리 사회가 이런 새로운 모색의 출발선에 서 있다고 가정할 때, 앞으로 미래의 바람직한 영어 평가의 방향이나 의제 설정을 논의할 때 도움이 될 만한 몇 가지 떠오르는 생각과 제안사항을 정리해 보았다.

우선, 전략적 관점에서 NEAT를 되돌아 바라보면, 1·2·3급 세 시험을 동시에 개발하기 보다는 순차적으로 개발하는 단계적 방식이 대안으로 고려될 수도 있었지만, 그 당시 이런 대안도 나름의 한계점을 분명히 가지고 있었다.

사실 수능 영어 영역을 대체할 2×3급 시험을 성인용 1급 시험과 함께 동시 개발하려 시도한 것은 당시 가용한 연구 역랑과 자원을 분산시키고 위험 요인을 가중시키는 측면이 있었다.

따라서, 먼저 연중 여러 번 시행되는 대단위 표준화 시험 형태를 띠게 될 1급 시험을 먼저 개발해 시행하고 보완하는 안정화 단계를 거친 후, 그런 다음 2×3급 시험 개발 단계로 나아갈 수도 있었다.

1급 시험은 수능 대체 용도의 시험이 아니었음으로 당연히 NEAT 개발의 초기 단계에서 학부모들의 민감한 반응이나 언론의 과도한 관심 및 사회적 논란을 피해 갈 수도 있었을 것이고, 2×3급 시험은 좀 더 검증된 안정된 시험 체제를 가지고 개발이 시작되었을 것이다.

그러나 그럴 듯 해 보이는 이러한 대안적 접근법도 실상 문제가 없는 것은 아니었다. 정권이 바뀔 때 마다 한 정권에서 추진한 교육정책이 그 다음 정권에서 무수히 폐기되는 일이 반복되는 우리나라와 같은 교육 환경에서는 중장기적 안목을 가지고 특정 정책을 단계별로 나눠 여러 정권에 걸쳐 지속적으로 추진하기가 쉽지 않다는 것은 NEAT 폐지 자체가 증명하고 있기때문이다.

더 근본적인 문제는, 이미 이전 칼럼에서 언급했듯이, NEAT 개발 프로젝트가 시작되기 이미 십여 년 전부터 토종 영어시험을 자체 개발해 국가공인을 받아 운영하고 있던 국내 대학 및 기관들이 있었다는 점이다.

이런 상황에서 정부가 NEAT 1급 시험을 직접 개발해 성인 영어 시험 시장에 새로 진입하려 했던 것은 국가자격기본법의 근본 취지나 한·미, 한·유럽 자유무역 협정의 정신과도 배치되는 면이 없지 않았고, 나름 대로 외국어 평가의 긴 전통과 경험을 가지고 있던 이들 기관들의 성장 잠재력을 갉아먹고 억제하는 측면이 있었다.

둘째, 정부가, 이런 여러 잠재적 논란을 무릅쓰고, 성인용 NEAT 1급 시험 개발을 강행한 이유는 분명치 않으나, 이런 정책 결정을 내리게 된 배경과 동기를 심층적으로 이해하는 것은 여러모로 중요하다.

때론 이런 정책 결정 과정에 한 번 사용된 논리와 근거는 계속 반복되어 사용되기도 하고 추후의 여러 정책에도 영향을 미치는 경우가 있어서, 이를 제대로 파악하는 것은 현재와 미래의 어려움을 타개해 나가는데도 도움이 될 수도 있다.

당시는 대표적 외국 영어 시험인 인터넷 기반 토플시험(TOEFL IBT)의 컴퓨터 시험장 부족 사태로 촉발된 소위 ‘토플대란’으로 인한 국민적 분노가 일어난 지 몇 년 안 되는 시점이었고, 자체 공인영어시험 개발에 대한 우호적인 여론이 조성될 수 있는 시기였기에, 성인용 1급 시험을 NEAT 개발 계획에 포함시키게 되면 NEAT 시험 개발 전체에 대한 국민적 지지나 예산 확보를 이끌어내는 좋은 동력으로 활용할 수도 있었다.

정부의 교육관련 부처나 기관이 이미 교육과정이나 수능을 통해 이미 행사하고 있던 초중고 영어교육에 대한 막대한 영향력을 대학 및 성인 영어 교육분야에까지 더욱 확대·강화하는 결과를 얻을 수도 있었겠다.

물론, 국내 토종 시험들이 토익과 같은 외국 시험에 비해 충분한 경쟁력과 시장 점유율을 확보하고 있지 못하고 있으니, 정부가 직접 NEAT 1급 시험을 새로이 개발하여 국부유출을 막아 줄 수 있는 대표적 성인용 국산 공인영어시험으로 만들겠다는 국가주의적 정책의도가 반영되어 있을 수도 있었다.

그런데, 이러한 주장과 논리의 저변에는 공통적으로 대학을 포함한 비정부∙민간 기관 혹은 사교육 기관에서 하고 있는 교육 및 평가 사업에 대한 정부의 뿌리 깊은 우려와 불신이 깔려 있는 듯 하다.

즉, 비정부 기관이 하고 있는 사업은 품질 및 서비스 면에서 모두 신뢰할만한 수준에 미치지 못하는 경우가 많고, 사업의 공공적 성격보다는 수익성에만 집중하다 보면 사교육 열풍을 조장하는 근원지가 될 수 있으니, 이러한 사업은 가능하면 정부나 정부 산하 기관에서 공적으로 주도하고 담당하게 해야 한다는 논리가 그것이다.

셋째, 실제 정부가 입시 혹은 평가 관련 사업을 정부 직접 통제나 영향권 아래에 있는 기관에게 몰아주었던 사례는 우리 주변에 어렵지 않게 찾아볼 수 있다. 가장 먼저 떠올릴 수 있는 것이 정부의 소위 수능-EBS 교재 연계 출제 정책이라 할 수 있다.

학부모의 사교육비 증가를 억제하고 지방과 수도권 간 혹은 도농 간의 기술적×경제적 격차로 초래될 수 있는 학습 격차를 최소화 시켜 주기 위한 측면에서 불가피한 면이 없지 않으나, 이 정책에 대한 우려가 없는 것도 아니었다.

사실 EBS 교재에 사용되었던 지문이나 자료를 수능 영어 영역에 재사용하는 것은 영어능력 평가의 엄정한 도구로서의 수능 영어 영역의 가치를 훼손하는 측면을 가지고 있었다.

이러한 문제 제기로 인해 최근에는 수능 영어 영역에서는 이를 간접 연계하는 방식으로 전환하여 시행하고 있다. 또한 경제적인 관점에서 보게 되면, 이런 연계 정책은 실질적으로는 정부가 직접 나서서 대입 준비 관련 수익 사업을 EBS란 공기업에 몰아주는 불공정 경제행위를 하고 있다는 비난을 받을 소지가 없지 않다.

NEAT 1급 시험 경우에도, 당시 정부는 대한상공회의소와 4개 대학을 설득하여 콘소시엄을 구성하게 하고 여기에 시험 개발을 위탁했으나, 시험 개발의 거의 마지막 단계에 가서는, 콘소시엄 참여기관들의 반대에도 불구하고, 돌연 일체의 사업을 정부 기관인 한국국립국제교육원으로 이관하도록 결정한 바 있다.

그런데, 공교롭게도 정부로부터 이 NEAT 1급 연구개발 콘소시엄에 참여를 요청받아서 합류한 총 4개 국내 대학 중 3개 대학은 그 당시 이전부터 자체 토종 영어시험을 개발하여 운영하고 있던 기관들이었다.

이러한 정부 중심의 일방적 정책 결정과 집행 방식은 정부, 학계∙교육계, 산업계가 자율적이고 창의적이고 유기적으로 역할을 분담하고 협력해서 교육 한류 모델을 만들어 전세계에 전파하기 위해 노력해야 할 인공지능 시대에 우리나라 영어교육의 이상적인 모습과는 아주 거리가 멀어 보인다.

넷째, 그렇다고 해서 국내 토종 공인영어시험을 운영하는 대학의 평가기관이나 여러 다른 시험 관련 교육 사업을 하고 있는 민간∙사설 기관들의 사업운영, 연구개발 투자, 수익 운용 방식 등에서 개선할 여지가 없다는 의미는 아니다.

외국어 교육의 진흥이나 언어평가의 진보나 발전 같은 가치지향적인 경영 목표에는 전혀 관심이 없고 수익성에만 과도하게 집착해서, 대단위 표준화 시험의 핵심적인 절차나 표준을 제대로 준수∙실천하지 않거나, 기존 시험이나 관련 서비스의 개선이나 혁신을 위한 연구와 투자를 소홀히 한다거나, 새로운 시험이나 관련 기술 개발을 위한 장기적인 연구 투자를 등한히 한다거나 하는 것은 정말로 지양해야 할 관행이다.

수익의 일정한 부분은 매년 기존 시험과 서비스 품질관리나 개선 혹은 시장의 새로운 요구에 대응하는 새로운 시험이나 평가 시스템과 관련 기술 개발을 위한 연구개발 사업에 지속적으로 재투자하여 수험자와 시험 사용기관의 만족도를 높이고 이는 다시 더 높은 수익성과 더 많은 연구개발 재투자의 여력 확보로 이어지는 지속 가능한 선순환의 구조를 갖추어야 한다.

또한 국내외 관련 학회와의 적극적인 협력과 소통을 통하여 관련 분야의 국내외 표준들을 실천하고 재정립해 나가며, 관련 연구와 국제적 교류를 활성화 하는 노력에 참여하고, 가능하면 기관 내에 이루어지는 평가 관련 연구의 보고서도 대외비 내용 부분을 제외하고는 외부에 투명하게 공개하여 관련 분야 학자와 연구자들이 참고하고 검증할 수 있도록 하는 것이 바람직하다.

우리 정부가 진작 했어야 하고 또 앞으로 해야 할 일은 어쩌면 바로 이렇게 우리나라 평가 기관들이 이러한 새롭고 선진적이고 미래지향적인 지침과 관행을 정립하고 실천하도록 지원하고 독려하고 관리하는 일이고, 또 이를 뒷받침할 법률과 제도와 문화를 정립해 나가는데 앞장 서는 것이다.

그러려면 먼저 정부기관이나 정부의 정책결정자들이 언어평가의 전세계적인 추세와 방향을 정확히 인식하고, 대단위 표준화 영어시험을 개발하고 시행하면서 준수해야 할 핵심적인 표준, 원칙, 및 지침들을 깊이 이해하고, 그런 기반 위에서 관련 정책을 수립하고 시행해 나가야 할 것이다.

아울러 대단위 표준화 시험의 표준적인 절차와 원칙을 준수하고 있는지 확인하고 검증하고 독려하고 관리하는 대상에는 국내에서 시행되는 외국의 영어시험이나 이를 시행하는 기관도 예외를 두지 말아야 하며, 이를 통해 외국 시험과 국내 토종 시험이 공정하게 선의의 경쟁을 할 수 있는 평평한 운동장과 건강한 생태 환경을 조성하기 위한 최선의 노력을 다해야 한다.

이런 여러 정책과 조치들이 충실히 실천에 옮겨질 때, 국내 영어평가의 전반적 역량과 수준이 높아지고, 선진화된 영어평가 시스템에 국내에 굳건히 뿌리를 내리고, 공인영어시험 시장의 교란현상을 예방하고, 다시는 NEAT와 같은 악몽을 되풀이 하지 않아도 되게 된다.

다섯째, 정부가 국내 영어평가 전반의 역량과 전문성을 신장시키고 선진 영어평가 체제를 정착시키기 위해서는 관련 정책 및 법률이 정부 부처나 기관의 벽을 뛰어 넘어 상호 연계성과 일관성을 가지고 유기적으로 실행되게 조정하고 교통정리를 할 범정부적 통합관리체계의 수립과 이런 체제의 충실한 운영이 필요하다.

현재 초중고교 교육에서 대입에 이르기까지의 영어교육에 영향을 주는 수능에 대한 관리는 교육부와 한국교육과정평가원이 담당하고 있고, 대학교육과 성인 영어교육에 영향을 미치는 공인영어시험에 대한 관리나 감독 업무는 교육부, 고용노동부, 한국직업능력개발원 및 인사혁신처 등의 여러 부처와 기관에서 나누어 담당하고 있다.

특히, 공인영어시험들과 관련된 관리 체계는 크게 두 축으로 구성되어 있는데, 그 첫번째 축은 자격기본법에 근거한 정부의 민간자격 국가공인체제이고, 두번째 축은 공무원임용시험령 체제를 들 수 있다.

그런데, 이 두 체제는 거의 연계성이 없이 따로 작동하고 있는 듯 보인다. 민간자격 국가공인체제의 경우, 이는 본질적으로 국산 토종 시험에만 적용되고 있는 차별적 속성을 가지고 있기에, 공인을 신청한 국내 시험에는 국가공인 자격의 취득과 유지를 위해 공인ㆍ재공인 심사를 받고 정기적 실사를 받을 것을 요구하고 있으나, 외국 시험은 이런 공인 체제의 통제권 밖에 있도록 용인되며 이런 의무를 부과 받지 않고 있다.

그런데도, 오히려 토익 같은 외국 영어시험은 국내에서 독과점에 가까운 시장 점유율을 달성한 것으로 보이며, 국가공무원임용시험 체제 하에서도 압도적으로 유리한 지위를 누리고 있다.

이미 언급한 지난 20여 년간 토익의 엄청난 평균점수 상승으로 초래된 시장 교란 현상이 발생한 원인도 사실 부분적으로는 바로 이러한 제도적 모순과 헛점들 때문이었다. 평가 기관의 자율성과 독립성을 침해하지 않으면서도, 민간자격 관리 체제와 국가공무원임용시험 체제를 상호 연계하여 운용하여 그 효용성과 공정성을 강화하는 방향으로의 정책 전환이 필요한 시점이다.

여섯째, NEAT 개발 과정을 통해 우리가 시급하게 국내에 보강했으면 할 몇 가지 영역들이 확인되었는데, 그 중 제일 먼저 언급해야 할 부분이 바로 대단위 표준화 영어숙달도 시험 개발∙시행에 관한 전반적 역량과 경험의 부족 그리고 그 과정에서 엄정한 준수해야할 핵심적 표준과 원칙에 대한 국내 기관들의 인식 수준이었다.

좀 더 구체적으로는, 시험의 평가틀 제작과 활용, 동형시험 구성, 시험동등화, 시험 간 점수 환산, 그리고 준거 설정 등과 같은 표준적인 절차를 대단위 영어숙달도 평가에 어떻게 적용하고 실천할 것이냐의 문제가 여기에 해당된다고 할 수 있다.

아울러, 이런 과정에서 표준화 시험의 필수적인 절차와 원칙이 제대로 실천되고 준수되고 있는지를 검증하고 관리할 실효성 있는 체제도 잘 작동하지 않고, 이를 운용해 본 정부의 역량과 경험 역시 모두 부족해 보인다.

이러한 냉엄한 현실은 수능 영어 절대 평가나 토익 같은 외국 공인영어시험이 국내에 일으키고 있는 점수인플레이션 현상과 그 부작용이 큰 문제 의식없이 방치되고 있는 것만 보아도 다시 확인할 수 있다.

물론, 이런 표준화 절차는 일차적으로는 시험을 개발하고 시행하는 평가기관에서 자율적으로 수립하고 실천하는 것이 제일 이상적이다. 국내외 평가 관련 학회에서는 이런 표준화 절차와 관련된 직업규약, 윤리강령, 표준 지침서 등을 제정하여 제공하고 있기도 하다.

그러나 국내에서 시행되거나 사용되고 있는 영어시험들이 이런 대단위 표준화 시험의 필수적인 절차와 원칙을 제대로 실천하고 있는지를 검증하고 관리할 최종 책임은 역시 정부나 정부가 위임하는 기관에서 맡는 것이 적절해 보인다. 물론, 정부가 관련 학계나 평가기관들과 긴밀히 협력하면서 실행할 일이다.

일곱째, NEAT를 통해 그 당시에도 또 앞으로도 우리에게 절실히 필요하다고 느낀 것이 있다면, 그것은 국내 평가기관들이 인터넷 기반 시험(IBT) 형태로 대단위 표준화 영어시험을 시행할 수 있는 체제를 안정적으로 구축하고 원만히 운용할 수 있는 역량을 갖추는 일이다.

IBT 체제에서는, 시험 제작과 시행 및 채점의 여러 측면에서, 기존의 지필 시험과는 매우 달라진 절차와 방식으로 진행될 수 밖에 없다.

문항의 출제는 합숙 작업 아닌 상시적 출제를 통해서, 출제된 문항들은 사전검사 과정을 거쳐 검증하고 선별하는 절차를 밟고, 이렇게 선별된 문항을 가지고 문항은행을 구축해 나가고, 실제 시행할 시험 세트 제작에 사용할 문항들이나 문항풀은 문항은행에서 추출하는 방식이 보통 사용된다.

출제된 문항들이 사전검사 단계를 거쳐 검증되고 분석되는 과정을 거쳐야 하기도 하고, 시험동등화를 위해선 회차 간 공통 문항의 사용도 필요하기 때문에, 이러한 과정을 통해서 일부 문항들의 부분적 사전 노출이 불가피해 질 수도 있다.

우리나라 같은 수능 시험 문화에선 노출된 문항이 재사용될 경우 여러 민원이 발생할 가능성이 높기때문에, 가능하면 수험자가 연 중 여러 번 동일 시험의 다른 회차에 응시가 가능한 시험 체제를 도입해 단일 시험 회차의 부담을 낮추어 주거나 혹은 아예 수험자의 능력 수준에 따라 시험 문항의 숫자, 난이도, 배합, 제시 순서가 달라지는 컴퓨터적응시험(CAT) 형태로 전환하는 것도 고려할 필요가 있다.

또한, IBT는 기본적으로 인터넷 망에 연결된 컴퓨터와 헤드셋 등 부수 장비를 갖춘 시험장을 전국적으로 확보 해야 하고, 각 시험장에서 동시간 대에 수많은 수험자들이 기술적 오류 없이 시험에 응시해 시험을 칠 수 있고 수험자 답안이나 관련 정보들이 전산적으로 기록되어 전송되고 채점될 수 있는 안정적 체제를 구축하고 유지할 수 있어야 한다.

앞으로는, 코로나 같은 팬데믹 사태가 발생해서 다수의 수험자가 한 장소에 모이는 것 자체가 불가능해지는 상황이 또 올 수 있음으로, 이제는 수험자가 본인의 집이나 개인 공간에 있는 전산 기기를 통해서 원격으로 시험을 칠 수 있는 시행체제를 구축하고 보완하고 안정화 해 가는 작업이 필요해 질 수 도 있다.

아울러, IBT 시험 체제에서는 최첨단 기술을 활용해서 수험자가 다양한 종류의 시험 부정행위를 하지 못하도록 예방하거나 감시하는 체제 구축의 필요성도 증가하고 있다.

여덟째, NEAT를 통해 시도했던 것 중 가장 의미 있는 시도 중의 하나이자 또 역설적으로 가장 역부족을 느꼈던 영역이 있다면, 그것은 아마도 서답형 문항으로 구성된 말하기∙쓰기 능력 시험을 IBT 체제에서 구현해서 시행하려고 시도했던 일이다.

서답형 말하기∙쓰기 문항들이 사용되는 경우, 각 문항에 대한 수험자의 답변을 녹음하거나 혹은 서술하게 하여, 이들 답안을 모두 수합하고, 이를 복수의 채점자들에게 신속히 배포하여 채점을 완료하게 하고, 그 점수를 모아 합산하여 성적표에 반영하는 일련의 기술적 체제 구축이 필요하다.

뿐만 아니라 채점자들의 채점 정확도와 일관성을 모니터링 하고 관리하는 체제도 필요하다. 이러한 일련 평가 과정은 IBT의 체제 안에서 가장 신속하고 효율적으로 처리할 수 있는 작업이기도 하다.

물론, 이미 사전에 각 문항의 수험자 답안을 채점하는데 사용할 채점 기준이 잘 만들어져 검증되어 있어야 하고, 아울러 수험자의 답안을 채점할 수 있는 자격과 능력을 갖춘 충분한 수의 채점자 풀을 확보하여 훈련해야 한다.

그러나, 무엇보다도 서답형 문항이 포함된 말하기×쓰기 평가가 대규모로 시행되지 못했던 중요한 이유 중의 하나가, 수험자 답안의 채점에 소용되는 엄청난 시간과 비용 때문이었다. 이 채점 비용에는 실제 채점자에게 지불하는 채점 비용뿐만 아니라 채점자의 훈련과 관리를 위한 비용과 이런 채점 체제를 구축하고 운영하는 비용이 모두 포함될 수 있다.

따라서 말하기∙쓰기 시험의 비용을 낮추고 이런 시험이 광범위하게 시행되게 하기 위해서는 자동 채점 시스템을 개발하고, 검증하고, 개선하고, 고도화 하는 중장기 연구개발 투자가 반드시 필요해 진다.

사실 말하기·쓰기 자동채점∙평가 기술의 개발과 고도화는 정부가 앞으로 교육에 활용될 인공지능의 핵심적인 구성요소로 이해하고 국가적 미래 전략 사업으로 투자하고 육성해야 할 분야이기도 하다.

또한 말하기×쓰기 자동평가 기술은 영어평가 뿐만 아니라 (한)국어를 포함한 언어평가 전분야에 걸쳐 활용될 수 있다. 특히, 자동쓰기평가 기술의 경우에는, 언어평가 분야에 뿐만 아니라 다른 여러 내용 교과에서 비판적∙분석적 능력을 평가하는 서술형 혹은 에세이형 문항의 수험자 답변을 채점하고 평가하는데도 사용될 수 있는 아주 중요한 첨단 기술이다.

최근에는 이러한 자동채점 및 평가 시스템이 딥러닝 같은 인공지능 기술과 접목되면서 그 정확성이나 성능이 한층 향상되고 있다.

또다른 한편에서는 이런 자동 채점시스템이 서답형 문항의 단순한 채점자 역할만 하도록 하는 단계에서 한 발 더 나아가 수험자의 응답에 대한 논평과 수정제안 그리고 장단점을 포함한 진단적 피드백을 제공하도록 고도화 시키고 이런 진단적 정보에 근거해서 수험자에게 필요한 보충학습 프로그램과 연계시켜 주는 통합적 평가 기반 학습 시스템으로 발전시키려는 노력을 하고 있다.

아홉째, 단순화해서 표현하면, 말하기×쓰기 자동채점 기술이라는 것은 기본적으로 수험자 응답의 채점과정에서 이루어지는 인간 평가전문가의 이해, 사고 및 판단 행위와 메커니즘을 모방하는 일종의 기초적인 인공지능 전문가 시스템으로 볼 수 있다.

그럼에도 불구하고 이러한 자동화 기술을 개발하고 성숙시키는 데에도 거쳐야 할 필수적인 단계가 있고 요구되는 최소한의 연구개발 환경이 있다. 특정 영역에서 활용되는 인공지능 시스템의 개발과 발전에는 대개 그 특정 영역에서의 인간 참여자의 사고, 소통, 판단, 행위와 연관된 활동 기록에 대한 방대한 빅데이터가 필요하다는 것은 주지의 사실이다.

마찬가지로 말하기ㆍ쓰기 자동채점 기술의 개발과 개선을 위해서는, 이미 안정적으로 운영되고 있는 대단위 말하기ㆍ쓰기 표준화 시험의 시행을 통해서 지속적으로 생산되고 축적되는 수험자 응답 및 채점자 평가 결과에 관한 빅데이터가 필요하다.

말하기ㆍ쓰기 자동 채점 기술의 개발과 개선 및 고도화에 필요한 평가 빅데이타에는 말하기ㆍ쓰기 서답형 문항에 대한 수험자 답안 음성녹음 파일이나 텍스트, 이런 답안을 작성하는 과정에 채록된 수험자의 수험 행위에 대한 기록, 채점자가 부여한 점수를 포함한 평가 정보 등이 포함될 수 있다.

특히, 이런 자동화 기술 개발의 초기 단계에서 이런 평가 빅데이타의 존재 유무와 확보 여부는 너무나 중요하다. 물론 이런 빅데이타의 분석에 자연언어처리, 전산언어학, 통계학 및 심리측정학적 등의 지식과 기술이 함께 접목 되어야 성공적인 자동평가 시스템의 개발이 가능하긴 하다.

이런 말하기∙쓰기 자동채점 기술 개발을 위해 필요한 평가 빅데이터의 확보와 관련하여 생각해 보아야 할 또다른 중요한 전제 조건은, 국내에서 수험자의 응답 및 채점자 평가 데이터를 계속 생산해 내고 축적하고 제공할 수 있고 현재도 계속 시행 중인 대단위 말하기ㆍ쓰기 표준화 시험이 존재해야 한다.

다른 말로 표현하면, 영어 말하기ㆍ쓰기 자동채점을 포함한 인공지능 기반 영어평가 및 교육 시스템이 개발과 검증은 모두 이미 운용되고 있는 대단위 말하기∙쓰기 시험이 축적하는 수험자∙채점자 데이터나 온라인 평가 및 교육프로그램이 제공하는 사용자의 참여와 상호작용 데이터에 크게 의존할 수 밖에 없다.

NEAT가 성공했다면 그런 유용한 빅데이터가 정부 산하 기관에 계속 축적되어 왔을 것이다. 정부는 지금이라도 국가수준 학업성취도평가나 다른 학력평가 시험에 서답형 말하기ㆍ쓰기 문항을 도입하여 이런 데이터를 축적하는 작업을 시작할 수도 있다.

그러나 현재 상황에서 이러한 말하기ㆍ쓰기 빅데이타를 생산하고 축적하는 것이 가능한 곳은 아마도 이러한 서답형 문항으로 구성된 말하기∙쓰기 시험을 운용하고 있는 대학이나 평가기관 혹은 상시적으로 온라인 영어학습 및 교육을 실행하고 있는 민간 혹은 사설 교육 기관일 가능성이 매우 높다.

이 칼럼을 마무리 하면서 꼭 마지막으로 한 가지 언급하고 싶은 것은, 비록 말하기ㆍ쓰기 평가 자동화 기술을 포함한 다양한 인공지능 기반 평가 및 교육 관련 기술의 개발과 검증 그리고 광범위한 교육적 활용이 국가전략적으로 매우 중요한 과업이기는 하나, 이는 정부가 일방적으로 선점하거나 독점하거나 주도하는 방식으로 성공하기 매우 어렵다는 점이다.

정부가 대학을 포함한 비정부∙민간 기관에서 하는 평가 및 교육 사업을, 이미 앞서 언급했듯이, 모두 편견과 의심의 눈초리로 보면서 이런 정책을 성공적으로 수행할 수 없다.

그렇다고 대학이나 비정부∙민간 기관의 자체 노력만으로 성과를 내기 어려운 영역이기도 하다. 학습자나 수험자의 개인적인 데이터가 폭넓게 사용되어야 하기에 이의 사용 범위와 조건을 상세히 규정하는 법제화가 필요하고 또한 평가기관 자체적으로 제정한 윤리준칙이나 내규도 필요하다. 필요한 곳엔 정부가 행정적∙재정적 지원도 해주는 것이 필요할 수 있다.

정부는 NEAT 실패와 그 이후로 실행한 일련의 입시관련 조치를 통해 영어평가와 교육을 계속 퇴보시킬 것이 아니라, 인공지능과 빅데이타에 기반한 선진적 영어교육 및 평가 시스템을 구축하고 활용하는 것을 적극 지원하고 독려하는 정책을 수립하고 집행해, 선도적으로 영어평가의 새로운 지평을 열어야 한다.

이러한 인공지능에 기반한 선진적 평가 및 학습 체제의 구축과 활용은 정부나 학계, 교육계, 산업계, 시민사회가 함께 머리를 맞대고 충분히 고민하고 논의하고 협의해서 만든 중장기적 비전과 꼼꼼한 로드맵을 가지고 추진해야 성공의 가능성을 높일 수 있다.

이제 우리를 가로 막고 있는 이 시대착오적인 영어평가와 영어교육의 퇴행 시대를 마감하고 미래로 다시 전진해 나가야 할 시점이다. IBT에 말하기∙쓰기 자동평가 기술, 챗봇, 자동통번역 기술이 접목되고, 또 이렇게 접목된 기술이 또 메타버스 상에서도 구현되어 광범위하게 활용되어, 우리나라 영어평가와 교육을 다시 한 단계 크게 도약시키는 가슴 벅찬 미래를 상상해 본다.

장재훈 기자 다른기사 보기