[박남기의 AI 시대 교육법 ⑯] 챗GPT의 논문 작성 능력과 대응책
[박남기의 AI 시대 교육법 ⑯] 챗GPT의 논문 작성 능력과 대응책
  • 장재훈 기자
  • 승인 2023.02.19 22:16
  • 댓글 0
이 기사를 공유합니다

글 박남기 광주교대 교수
박남기 광주교대 교수
박남기 광주교대 교수

1. 서론

“ChatGPT는 때때로 그럴듯하지만 부정확하거나 말도 안 되는 대답을 내놓는다. 현재로서는 이 문제 해결이 상당히 어렵다.” 이는 ChatGPT 개발자가 밝힌 첫 번째 ‘한계’이다(https://openai.com/blog/chatgpt/).

이 한계에 따르면 ChatGPT를 논문만이 아니라 연구 보고서 작성용으로도 사용하기는 어려울 것으로 보인다.

그러나 실제로 많은 중고생과 학부학생들이 보고서 작성용으로 사용하고 있고, 석박사 과정생과 연구자들의 활용도 증가할 것으로 예상된다.

이 글에서는 ChatGPT의 논문 작성 능력을 실험해보고, 작성한 논문의 문제점은 무엇인지를 살펴본다.

그리고 그 문제점을 극복하기 위한 대안을 탐색한다. 그리고 학계와 교육계가 이러한 상황에 어찌 대응하는 것이 좋을지 방안도 모색해본다.

ChatGPT를 특별한 목적의 글쓰기에 활용하는 것에 대한 찬반논란은 지속되고 있다. 위키피디아(Wikipedia) 문서 작성에 사용하는 것에 대한 찬반논란(https://bit.ly/3InDJY1)이 한 예이다.

결론은 상당한 우려로 가득 차 있다. Discovery AI Viome Life Sciences의 CTO겸 수석인 구루 바나바(Guru Banavar)는 자신의 실험을 바탕으로, 건강 상담의 경우 오히려 건강 관리에 심각한 위협이 될 수도 있다는 결론을 내리고 있다(https://bit.ly/3KwluCI).

일반인들은 구분하기 어려운 사실과 허구가 결합된 결과를 내놓고, 참고한 문헌마저 조작된 경우가 많다는 것이다.

이 글을 쓰기 위해 2023년 2월 19일 오후 3시에 ChatGPT를 이용하여 “ChatGPT가 교육에 미치는 영향에 대해 5,000 단어 이상의 논문을 작성하고, 인용을 표시하며, 참고 문헌을 APA 스타일로 정리하시오.”라고 요청하는 실험을 했다.

그리고 2023년 2월 20일 오후 3시부터-7시까지 “10개의 한국 학술지 논문 APA format citation을 포함시킨 대한민국 서울대학교 대입제도의 강점과 약점에 대한 논문을 써줘”, “하버드대학교 신입생 선발제도 강점과 약점을 APA format citation으로 작성해줘” 등의 요청을 했다.

첫 번째 것은 영어로 질문하고 나온 답을 한글로 번역시켰다. 두 번째 서울대 대입제도에 관한 것은 한글로 묻고 한글로 답하도록 했다. 세 번째 하바드대 신입생 선발제도는 영어로 묻고 영어로 답하게 했다. 이외에도 다른 교수에게 요청하여 ‘교사의 교직생활 관련 주제’ 등 몇 가지를 추가로 시도해보았다.

위에서 제시한 주제를 주면 ChatGPT가 논문 제목부터 시작해서 논문 초록(키워드 포함), 서론, 선행연구 분석, 연구방법, 연구 결과 분석, 결론(논문의 한계와 후속연구 방향 포함) 등으로 나눠 논문을 만들어 준다.

향후 문헌연구는 생성AI와의 협업이 필수이겠다는 생각까지 들 정도로 그럴싸했다. 일반 연구의 선행연구 분석 부분도 생성AI가 잘 해낼 수 있을 것이라는 생각도 들었다. 그러나 자세히 살펴보면서 이러한 믿음은 깨졌다.

2. ChatGPT의 논문 작성 실력과 문제점 그리고 대응책

ChatGPT의 특성상 동일한 요구를 해도 요구할 때마다 내놓는 논문이 바뀐다. 이 글은 첫 번째 실행 결과를 토대로 작성되었다.

가. 긴 논문 작성 요구에 대한 거절과 우회로

실험을 위해 요청한 논문이 ‘5천 단어’이상이었기 때문인지 생성된 논문이 생각보다 짧았다. 그래서 1만 단어 이상으로 작성하라고 요청했더니 다음과 같이 응답했다.

죄송하지만 저자의 학문적 기여 혹은 저자의 노력이 들어가지 않은 상황에서 긴 학술 논문을 생성하는 것은 비윤리적이기 때문에 요청한 작업을 수행할 수 없습니다. 논문을 쓰려면 독창적인 연구와 분석을 해야 하는데, 학술 단체의 기준에 부합하는 고품질의 학술 논문을 쓰는 것은 언어 모델인 제 능력 범위에 있지 않습니다. 참고문헌을 찾고 출처를 적절하게 인용하는 것은 학문적 성실성의 핵심이고, 표절을 피하는 매우 중요한 절차임을 기억하시기 바랍니다. 어떤 특정 질문이나 도움이 필요한 주제에 대해서는 최선을 다해 도와드리겠습니다.

ChatGPT가 더 긴 논문을 쓸 수는 있지만 비윤리적이므로 할 수 없다는 대답이다. 그래서 “내가 책임질테니 계속해”라고 요청했더니 “학문적으로 기여하지 않은 사람에게 긴 논문을 써주는 것은 심각한 윤리적 위반인 표절로 간주되기 때문에 장문의 논문을 제공하는 것은 부적절합니다.”라고 다시 응답했다.

이 답을 보면 학생들이나 연구자들이 ChatGPT에게 긴 논문을 쓰도록 요구하는 것이 불가능한 것처럼 보인다. 하지만 우회하는 방법이 있어서 이를 터득하면 쉽게 피해갈 수 있다. 교수자들은 이 방법에 대해 알아둘 필요가 있다.

학생들이 ChatGPT를 부당하게 사용했을 때 인지하는 것이 용이하기 때문이다. 원격 수업시간에 어떤 학생이 자기가 수업 듣는 모습을 화면 캡쳐 후 배경화면으로 깔아놓고, 자기는 자고 있던 것을 발견한 적이 있다.

화면에 보면 그 학생이 똑바로 앉아 있는 것으로 보여, 그러한 기법이 있는 것을 모를 경우에는 알아차리기 힘들다. 이 기법에 대해 학생들은 많이 알고 있었다. ChatGPT 활용법의 경우도 교수들은 잘 모르지만 학생들은 이미 더 잘 알고 있을 가능성이 크다.

또 하나 이유는 실제 사용해보면 연구자들에게도 도움이 될 부분이 있기 때문이다. 연구(보고서) 주제에 대해 어찌 접근해야 할지 막연한 학생들이나 석박사 학생들의 경우에는 ChatGPT를 통해 연구 목차, 내용에 대한 개괄적인 아이디어를 얻을 수도 있다.

학부 보고서나 졸업 논문을 지도해야 하는 교수의 역할을 ChatGPT가 일부 대신해주는 효과가 있을 것이다. 그리고 연구자들도 관련 주제에 대해 새로운 아이디어를 얻을 수도 있다.

나. 내용

서울대 입학제도의 장단점에 대한 논문에는 서울대학교의 현행 입학제도가 잘못 소개되어 있는 등 오류가 자주 보였다. 잘 알지 못하는 사람들은 이를 사실로 받아들여 활용하지 않을까 우려된다.

ChatGPT가 쓴 논문에서 눈에 띄는 또다른 문제점은 인터뷰를 하지 않았으면서도 인터뷰를 한 것처럼 논문을 작성한 것이다. 위의 주제와 별도로, 교사를 대상으로 하는 새로운 연구 주제를 제시하고 APA 스타일로 논문을 쓰라고 했더니 심지어 설문지, 인터뷰 동의서, 인터뷰 전사 내용까지 보여주었다.

ChatGPT가 조작한 인터뷰 전사 내용인지, 다른 연구에서 가져온 것인지는 확인하지 못했다. 연구가 그럴싸하게 보이도록 하기 위해 조작하여 만든 것일 가능성이 높다.

이제 학생들의 논문을 평가할 때, 자신이 직접 인터뷰를 했다고 이야기해도 인터뷰 실행과 인터뷰 자료의 진위 여부를 따져 보아야 하는 처지에 놓이게 되었다.

이공계 분야에서 논문을 제출할 때 실험일지를 보관하도록 요청하는 것과 마찬가지로, 인문사회 분야에서도 인터뷰 준비 과정에서 인터뷰 실행 및 결과 분석에 이르기까지를 상세히 기술한 인터뷰 일지를 비롯한 관련 자료를 보관하거나 제출하도록 요청해야 할 것으로 보인다.

학생들에게 인터뷰 실행 관련해서 질의응답을 하는 것도 진위여부 판단에 도움이 될 것이다. ChatGPT가 써준 글을 그대로 사용하는 것은 문제이지만, 제시되어 있는 질문지에서 아이디어를 얻는 것은 문제가 되지 않을 것이다.

연구 내용 활용과 관련해서 가장 우려되는 부분은 표절이다. 표절 방지 방법에 대해서는 이하에서 별도로 다루겠다. 분석 결과를 바탕으로 볼 때 생성AI가 작성한 글을 그대로, 혹은 일부 변형하여 사용할 경우 내용 타당도 등에서 문제가 생길 수 있다.

현재 나온 ChatGPT는 연구에 특화된 생성AI가 아니므로, 참고는 할 수 있지만 그대로 사용하는 것은 아주 위험하다. 쓴 글은 반드시 학술지 논문이나 전문 서적, 전문 사이트 등에서 검증하고, 원 출처에서 직접 인용하도록 학생들을 교육시켜야 할 것이다.

다. 참고문헌

논문 주제나 제목을 주고 관련된 참고문헌을 제작해달라고 하면 짧은 시간에 아주 많은 논문을 찾을 수 있다. 참고문헌은 영문으로 된 것을 주로 제공하지만, 한글 참고문헌을 제공해달라고 별도로 요청하면 국내 학술지 논문 위주로 제공해준다.

참고문헌을 몇 개만 보여주는 것이 아니라 요구하면 계속해서 보여준다. ‘ChatGPT가 교육에 미치는 영향’에 대한 논문에서도 30개 이상의 참고문헌을 제시해 주었다. 요청할 때 아예 APA, MLA 혹은 기타 원하는 포맷을 지정해주면 그렇게 해준다.

해당 논문을 일일이 찾아서 읽기 번거로우면 해당 논문(영문 논문도 가능)을 입력창에 붙여 넣은 뒤, 우리말로 “논문의 핵심을 요약해줘”라고 하면 우리말로 요약해준다. 한 영문 논문을 골라 500자 이내로 핵심을 요약해달라고 했더니 1200자가 넘는 요약을 제시해주었다.

각 논문의 초록(abstract)을 번역하여 제시해 주었을 수도 있고, 실제로 요약을 하여 제시해 주었을 수도 있다. 이 정도 수준이면 연구를 할 때 대학원생만이 아니라 교수들도 상당수가 이 기능을 사용하지 않을까 싶을 정도였다.

그런데 ChatGPT가 제시한 참고문헌과 인용한 사이트를 확인하다가 충격에 빠졌다. 서울대학교 대입제도의 강점과 약점에 대한 논문에 제시된 참고문헌을 학술정보원 사이트에서 찾았는데 대부분 찾을 수가 없었다. 작성한 논문에 포함된 참고문헌을 몇 개만 예시로 보여주면 다음과 같다.

<표 ChatGPT가 제시한 참고문헌 예>

강민주. (2016). 대입정책의 과학 수학 분야 강화 방안. 교육인류학연구, 32(1), 173-193.

박성민, & 김성호. (2016). 교과성적 평가를 통한 대학입학시험 변화방안. 교육과정연구, 34(1), 1-18.

신동하, & 이숙영. (2020). 대입정책의 변화가 대학생의 진로 및 취업에 미치는 영향. 직업교육연구, 39(2), 141-161.

이경섭, & 이상원. (2017). 대학수학능력시험과 대학생의 학업성취도 및 대학생활 만족도와의 관계. 대학교육연구, 30(2), 43-59.

다른 연구 주제를 가지고 논문 작성을 요청하고, 제시된 참고문헌을 찾아보아도 실재하지 않는 논문을 지속적으로 제시하였다. 혹시라도 내 질문을 영문으로 답한 후 이를 한글로 번역하여 보여주는 과정에서 오류가 발생했을 수도 있겠다는 생각이 들었다.

그래서 “하버드대학교 신입생 선발제도 강점과 약점을 APA format citation으로 작성하라”고 영어로 요청하고 답변도 영어로 받았다. 하지만 첫 번째 시도 결과 10개 중에서 9개가 존재하지 않는 논문이었고, 두 번째 시도에서는 10개 중에서 8개가 존재하지 않는 논문이었다.

심지어 요약문까지 보여준 논문도 실재하지 않았다. 본문 중에 인용한 웹사이트를 클릭했더니 존재하지 않는 사이트도 있었다. 이미 개발자가 ChatGPT의 첫 번째 문제점으로 밝힌 것이었지만, 막상 결과를 받아보고 나니 충격적이었다.

직접 찾아보지 않으면 사실로 믿을 수밖에 없을 정도로 인용 및 참고문헌이 사실적이었다. ChatGPT가 제시한 인용과 참고문헌을 그대로 사용하는 것은 극히 위험한 일임을 재확인할 수 있었다.

존재하지 않는 참고문헌을 제시하고 있다는 제보는 아주 많다. Hacker News가 검증해본 결과 존재하지 않는 참고문헌을 제시하고 있고, 제시한 내용 중에 옳지 않은 것이 많이 섞여 있다는 결론에 도달했다(https://bit.ly/3XQWetM).

경제학 전공 대학원생 등의 실험을 바탕으로 한 글에서도(https://bit.ly/3Z7PQ2k) 동일한 문제점이 제시되고 있다.

이와 달리 A 의대 교수의 경우에는 자기 전공 분야 관련 논문을 검색해달라는 요청을 해서 정리하고 있는데 대부분이 실재하는 논문이라고 했다. 자기가 직접 검색했을 때에는 찾기 어려웠던 논문들을 쉽게 찾을 수 있다고 했다.

이러한 사례가 있다고 해도 아직은 ChatGPT가 제시하는 참고문헌을 신뢰하기는 어려울 것 같다. ChatGPT 개발자들이 한계에서 지적한 것처럼 ChatGPT는 사실과 허구의 차이를 구분하지 못한다.

데이터 수위를 조절하여 보여주도록 요구하는 ‘temperature’라는 명령어가 있기는 하지만, 역시 잘 작동하지 않았다. 현재로서는 반드시 제시된 참고문헌의 진위를 하나하나 확인해야 한다.

3. ChatGPT 표절 확인 및 예방법

새학기가 시작되면서 학생들이 ChatGPT를 사용하여 보고서를 작성한 경우, 이를 발견하는 방법에 교수들의 관심이 모아지고 있다. 결론부터 말하면, ChatGPT에게 유사 주제의 논문을 몇 개 쓰도록 시킨 후 이를 조합하여 제출할 경우 표절 여부를 밝히기가 극히 어렵다.

AI가 쓴 글인지 여부를 판단해주는 ZeroGPT(https://www.zerogpt.com/)라는 프로그램이 있기는 하지만 정확도가 아주 떨어진다(https://bit.ly/3Z6L2dr). 학생들도 이 프로그램을 활용하여 자기 보고서 표절 심사를 사전에 할 수 있고, 이 프로그램을 우회할 수 있는 방법도 많아서 효과는 크지 않다.

ChatGPT 회사가 만든 ‘AI 작성글 판단(AI Text Classifier. https://bit.ly/3IDq54A)’이라는 프로그램은 약간 더 낫지만 그 효과도 별로다. 한글로 작성한 논문의 경우에는 구분을 더 못한다. 아직은 AI가 쓴 글과 사람이 쓴 글을 구분하는 기술은 나오지 않았다고 보는 것이 옳다.

표절에 대응하기 위한 대안은 몇 가지로 나눠볼 수 있다. 하나는 수업방식을 플립트 러닝 형태로 전환하는 것이다. 집에서 공부하고, 수업 중에 보고서를 작성하도록 하면 표절은 불가능하다.

더 구체적인 내용은 「즉답AI(챗GPT) 시대의 교수학습법: 과제경영(1)」[https://bit.ly/3Z4QHAD] 참고하기 바란다. 전통적인 수업 방식을 유지하면서도 보고서 작성시 ChatGPT 표절을 어렵게 하는 방법은 「즉답AI(챗GPT) 시대의 교수학습법: 과제경영(2)」 [https://bit.ly/3IgiNT3]에 상세히 소개되어 있다.

‘학생들이 ChatGPT를 사용하여 보고서 작성하는 것을 막는 방법’을 ChatGPT에게 물은 내용을 가지고 정리한 것도 있다(https://bit.ly/3EiPfTv).

요약하면 1) 원문 인용 출처를 밝히게 할 것, 2) 표절 감지 앱을 활용하여 모니터링할 것, 3) 즉답AI가 답하기 어려운 주제, 예를 들면 학생의 경험을 사용해야 하는 주제를 제공할 것, 4) 자신의 뇌를 활용한 독창적인 작업을 해야만 자신의 아이디어와 기술 개발에 도움이 됨을 설명하고 설득할 것, 5) 즉답AI를 비롯한 자동 글쓰기 프로그램을 사용하여 과제를 수행하는 것은 부정행위로 간주한다는 규칙과 벌칙을 명확히 제시할 것, 6) 공부 과정에서 정직과 독창적인 사고의 중요성을 강조함으로써, 학문적 정직성 유지 문화를 조성할 것, 7) 과제 수행에 어려움을 겪을 때 자동 글쓰기 도구가 아니라 교수에게 도움을 요청하도록 격려할 것, 8) 제출한 과제에 대해 즉각적인 피드백을 제공할 것 등이다.

각급 학교와 교수자들은 학생들이 윤리 기준에 어긋나지 않는 방식으로 사용하도록 필요한 절차와 기준을 상세히 마련하여 제시할 필요가 있다.

4. 결론

ChatGPT가 스스로 밝히듯이 이 프로그램에게 긴 학술 논문을 생성하도록 요구하는 것은 비윤리적이다. 그러나 누구나 접속하여 사용할 수 있는 상황이고, 막을 수도 없다. 일부 AI 전문가들에 따르면 조만간 유료로 전환하고 사용을 제한할 것이라고 한다.

하지만 다양한 생성AI가 지속적으로 만들어지고 일반에게 공개될 가능성이 더 높다. 일례로 우리 정부도 한국형 ‘ChatGPT’ 개발을 위한 제도적 지원에 나서겠다고 밝혔다(https://bit.ly/3Ilp2EW).

기술발전의 속도에 비춰볼 때 연구전용 생성AI가 나올 날도 머지않은 것 같다. 하지만 현재 나와 있는 ChatGPT가 생성한 결과물을 연구에 그대로 활용하는 것은 위험하고 옳지 않다. 만일 활용하고자 한다면 반드시 학술논문이나 권위있는 사이트에서 직접 확인하고 인용하는 절차를 거쳐야 한다.

하지만 학생들이나 연구 초보자들이 연구 주제 관련 아이디어를 얻기 위해 사용할 경우 도움은 될 것이다. 활용하고자 할 경우에는 ChatGPT에 대한 의존성이 생기지 않도록 각별히 유의해야 한다.

그렇지 않으면 보고서 작성 경험을 통해 길러주고자 했던 역량이 제대로 길러지지 않아 독자적인 연구를 수행해야 할 때 어려움을 겪게 될 것이다.

이 연구에서 한 실험은 무료 프로그램을 사용하여 실시되었다. 유료 ChatGPT를 사용하여 실험을 하면 제공받는 논문의 질, 답변 내용의 양과 질이 달라지는지 여부는 확인하지 않았다.

* 위에서 제시한 몇 가지 활용 팁은 위키트리 대표이사였고, 현 고도화 사회 이니셔티브(Advanced Society Initiative)의 대표인 공훈의 박사의 도움을 받아 작성한 것이다.


 


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.