[박남기의 AI시대 교육법㉚] 대화형 LLM 기반 생성 AI의 연구 활용 실험(2)

글 박남기 광주교대 교수/ Nathan Ong 피츠버그대

챗지피티(ChatGPT)는 인간이 던진 기본적인 질문을 이해하고, 언어를 다루는 능력 또한 상당함을 보여주고 있다. 이로 인해 사람들은 챗지피티가 인간 지식 전체를 학습하였고, 따라서 인간이 할 수 있는 많은 복잡한 작업들을 수행할 수 있을 것이라고 추정하게 되었다.

챗지피티와 같은 일반 대화형 대규모 언어 모델(LLM)의 기본 형태는 프로그램의 불완전성, 요청한 주제에 대한 그럴듯한 허구와 거짓 정보 제공(https://bit.ly/47ssZD3), 기본 수학에서의 한계(https://bit.ly/3RhD4xh) 등의 많은 문제를 보여주었다.

물론 빠른 속도로 진화하며 그 문제를 극복해가고 있기는 하다. 그렇다면 2023년 12월 현재를 기준으로 할 때 생성형 AI는 과연 연구 목적으로 활용가능한 것일까? 이 글에서는 결과의 사실적 정확성이 요구되는 연구용으로도 활용할 수 있을지에 대해 살펴보고자 한다. <지난호 박남기의 AI시대 교육법㉙에 이어 계속. 편집자>

대화형 LLM 기반 검색 엔진의 연구 활용 가능성과 한계

가. 바드(Bard)

이 글에서는 이 검색 엔진 기반 대화형 LLM들을 테스트하기 위해 다음과 같은 질문을 했다: “펠리칸 망고와 샴페인 망고의 차이점은 무엇인가?” ‘샴페인 망고’는 멕시코의 특정 품종으로 어느 정도 잘 알려져 있다. ‘펠리칸 망고’라는 용어는 주로 필리핀의 망고를 묘사하기 위해 사용되는 생소한 용어이다.

구글에서 검색해 보면 망고의 사진을 보여주는 여러 웹사이트가 나오고, 심지어 펠리칸 망고와는 다른 미국 플로리다에서 재배되는 어윈 망고까지 잘못 제시해준다. 구글이 제시한 10개의 결과 중에서 두 곳에서만 이 용어가 공식적으로 사용되었다. 8번째 결과는 9번째로 제시된 결과의 웹사이트(https://bit.ly/3RUKN4B)를 언급했다.

이 기사에서는 동남아시아 망고의 다른 이름으로 ‘펠리칸 망고’라는 용어를 사용했으며, 자신들의 망고 품종과 대비시키기 위해 사용하였다. 이러한 자료는 검색 엔진 기반 대화형 LLM에게 어려움을 일으킬 가능성이 높다.

이 비교 실험은 2023년 11월 10일, 미국 북동부에 위치한 컴퓨터에서 수행되었다. 잘 아는 것처럼 두 사람이 동일한 질문을 던지더라도 동일한 응답을 받을 가능성은 낮다. 현 수준의 LLM들은 개발 중이어서, 이 비교 실험 결과는 LLM이 개선되는 경우에는 더 이상 타당하지 않을 수 있다.

이 검색 결과는 바드에게 “펠리칸 망고와 샴페인 망고의 차이점은 무엇인가?”라는 질문을 하여 얻은 결과를 구글 아이콘을 클릭하여 확인한 것이다. 앞서 설명한 것처럼 녹색으로 강조된 부분은 구글 검색 결과로 확인되었음을 의미한다.

강조된 문장을 클릭하면 해당 사이트로 직접 이동하여 확인해볼 수 있다. 그러나 검색 결과에서 보듯이 펠리컨 망고에 관한 모든 문장은 전혀 강조되어 있지 않다. 이는 바드가 올바르게 답을 했는지 여부를 판단할만한 충분한 정보가 없음을 의미한다(특히 생김새와 관련한 몇 가지 진술은 사실이 아니다).

구글 검색을 기반으로 신뢰할 수 없다고 판단된 문장은 주황색으로 표시되어 있다. 이처럼 검색 엔진을 통해 답을 찾기 어려운 질문에 대해 LLM은 이상한 답을 제시하는 경향을 보인다.

12월 20일 대한민국 광주에서 망고 대신 감에 대해 검색 실험을 해보았다. 당감과 대봉감의 차이를 물었다. “What is the difference between a sweet persimon and a dabong persimon?” 망고 사례에서처럼 바드가 내놓은 답을 구글 아이콘을 통해 확인하기 위해 영어로 질문을 하였다. 구글 아이콘을 클릭하여 확인까지 거친 답은 다음과 같다.

그 결과로 제시된 답을 보면 주황색으로 표시된 부분만이 아니라 나머지 부분도 상당 부분 사실이 아님을 알 수 있다.

이처럼 잘 알려지지 않은 것, 검색을 통해 답할 수 없는 것에 대해서 질문을 받으면 LLM은 잘못된 답을 내놓을 확률이 높다. 한국어로 질문하여 얻은 답의 경우에도 오류가 포함되어 있음을 알 수 있다.

2023년 12월 25일 대한민국 광주에서 한국어로 질문하면서 출처를 밝혀달라고 요청해보았다.

“당감과 대봉감의 차이를 분석하고 인용과 출처를 APA 스타일로 제시해줘.”

이 질문에 대해 답만 제시한 것이 아니라 답변 내용 각각에 대한 출처도 밝혀주었다. 편집하여 일부만 제시하면 다음과 같다.

**당감과 대봉감의 차이**

- 크기와 모양: 당감은 대봉감보다 작고 둥글며, 대봉감은 당감보다 크고 타원형이다. 당감의 평균 크기는 7~8cm, 대봉감의 평균 크기는 10~12cm이다. 당감의 모양은 둥글고, 대봉감의 모양은 타원형이다.

출처: 김성호, 김원철, 박창수, & 이정호. (2014). 감의 품종별 품질 특성 분석. 한국농촌경제연구원 연구보고서, 14-04.

- 효능: 두 품종 모두 비타민, 미네랄, 식이섬유가 풍부하여 건강에 좋습니다. 당감은 특히 항산화 성분이 풍부하여 노화 예방에 도움이 되는 것으로 알려져 있습니다. 대봉감은 특히 식이섬유가 풍부하여 변비 예방에 도움이 되는 것으로 알려져 있습니다.

출처: 김은희, 조은희, & 박상진. (2019). 감의 효능과 활용에 관한 연구 고찰. 한국식품과학회지, 57(3), 410-420.

- 활용: 두 품종 모두 생으로 먹거나, 곶감, 말린 곶감, 감주, 감차 등으로 활용할 수 있습니다. 당감은 생으로 먹거나, 곶감으로 만드는 것이 일반적입니다. 대봉감은 생으로 먹거나, 말린 곶감으로 만드는 것이 일반적입니다.

출처: 한국농촌경제연구원. (2019). 감의 소비 및 유통 현황. 한국농촌경제연구원 연구보고서, 19-04.

제시된 출처를 한국학술정보원(riss.kr), 해당 기관(한국농촌경제연구원), 그리고 해당 학회(한국식품과학회) 사이트를 통해 확인하였지만 찾을 수 없었다. 구글 검색을 통해서도 해당 보고서나 논문을 찾지 못했다.

한국식품과학회지의 경우에는 2023년에 55권이 발행되었는데 2019년에 발행된 57권 제6호라고 표시하여 존재하지 않는 논문임을 명확히 알 수 있었다.

이번 실험을 통해 확인한 것처럼 LLM 모델을 기반으로 한 검색 엔진 및 기타 생성 AI 도구를 연구에 활용하고자 할 경우, 아직은 사실이 아닌 내용이 포함될 가능성이 상당히 높다는 점에 늘 유의해야 한다.

참고문헌도 반드시 하나하나 검색하여 실재 여부를 확인해야 한다. 우려되는 것은 생성 AI를 활용하여 논문을 쓰면서 이러한 철저한 검증을 하지 않은 채 학술지에 투고하고, 그 논문이 학술지에 게재되는 경우이다.

후속 연구자들이 전문 학술지의 권위를 믿고, 허위 정보가 담긴 그 논문의 내용을 계속 인용하는 사태가 발생할 수 있다. 어느 한 후속 연구자가 그 논문에서 인용한 내용이 사실이 아니고, 인용한 참고문헌 또한 실재하지 않음을 밝힌다면, 원 연구자는 연구 오류 및 표절 논란에 휘말리게 될 것이다.

연구 결과에 대해서는 연구자가 모든 책임을 지게 되므로, 생성 AI를 활용할 경우에는 원 출처 및 내용 확인에 더욱 신경을 써야 한다.

학회 차원에서도 연구자들에게 생성 AI 도구를 비롯한 디지털 도구 활용 허용 여부 및 범위 등에 대한 정책을 명확히 해야 한다. 만일 허용한다면 어느 범위에서 허용할지, 그리고 인용 및 출처는 어떻게 밝혀야할지 등에 대해 구체적으로 제시해야 할 것이다.

장재훈 기자 다른기사 보기