■ 진행 : 함형건 앵커
■ 출연 : 김덕진 / 미래사회IT연구소장
* 아래 텍스트는 실제 방송 내용과 차이가 있을 수 있으니 보다 정확한 내용은 방송으로 확인하시기 바랍니다. 인용 시 [YTN 뉴스가 있는 저녁] 명시해주시기 바랍니다.
[앵커]
보신대로 로봇과 모빌리티 기술이 올해 얼마나 진화할지 주목되는데요. 또 하나 더 관심을 끌고 있는 분야가 인공지능입니다. 특히, AI 챗봇 '챗GPT' 열풍이 뜨겁습니다. 구글의 알파고에 이어 인공지능의 제2의 물결이 시작됐다는 평가가 나오는데, 미래사회IT연구소 김덕진 소장과 자세히 짚어보겠습니다. 어서 오세요.
챗GPT라는 대화형 AI죠. 지난 연말쯤 공개가 됐던 것으로 기억하는데 주변에서 얘기를 참 많이 하더라고요. IT업계뿐만 아니라 일반인들도 관심을 갖고 지켜보고 있고 지난달, 이번달 보니까 학계에서도 연구 논문이 상당히 쏟아져 나오고 있는 상황 같습니다. 이게 그러면 도대체 어떤 인공지능이고 기존의 챗봇과는 어떤 차이점이 있는 건가요?
[김덕진]
오랜 말씀해 주신 것처럼 얼만큼 인기인지 알 수 있는 게 회원수겠죠. 회원수를 보면 실제로 이번에 천만 명을 넘겼거든요. 천만 명을 넘기는 데 시간이 40일밖에 걸리지 않았어요. 그런데 우리가 알고 있는 인스타그램 있지 않습니까? 인스타그램의 회원수 천만 명 넘기는 데 325일 걸렸습니다. 그렇게 치면 엄청 빠른 거죠. 또 100만 명 넘기는데 이게 5일 걸렸거든요. 그런데 우리가 알고 있는 넷플릭스 처음에 회원 수 100만 명 만들 때까지 3.5년이 걸렸어요. 그런 것만 보더라도 정말 뜨거운 인기라고 볼 수 있는데 얘가 뭐가 다르냐 볼 수 있는데 일단 챗GPT는 글을 써주는 인공지능이라고 보시면 됩니다. 사람이 질문하면 대답을 하겠죠. 그런데 우리가 질문했을 때 기존의 인공지능은 이런 거예요.
예를 들면 한국의 수도는 어디인가요 이렇게 물어봅니다. 그러면 컴퓨터한테 한국이 무슨 의미고 수도가 무슨 의미고 그다음에 어디인가요라는 걸 다 따로따로 학습을 시킨 다음에 그거를 갖고 정답을 내야 돼요. 그렇게 되면 당연히 속도도 오래 걸리고 많은 걸 뱉어낼 수가 없겠죠. 그런데 얘는 어떤 방식이냐면 그냥 한국의 수도는 어디인가를 모릅니다. 모르고 인터넷에 있는 수많은 글을 그냥 보는 거예요. 그랬더니 인터넷에는 그래서 어떤 사람이 한국의 수도는 서울이다라는 글을 많이 썼다는 거죠. 그렇게 되면 한국의 수도는 다음에 우리가 봤을 때 서울이다가 확률적으로 통계적으로 많이 나오겠다라고 하면 그거로 그냥 대답해 준다고 생각하시면 됩니다.
[앵커]
특정 분야의 질문을 던지면 그 분야의 전문적인 지식이 있어서 그런 것이 아니고 여러 가지 정보를 긁어와서 확률적으로 접근하는 거군요.
[김덕진]
그러니까 우리가 영어 공부할 때를 생각해 보시면 쉬워요. 예를 들면 우리가 영어를 실제 단어 하나하나 공부할 수도 있지만 어린 나이에 보통 외국을 가게 되면 그냥 내가 영어 할 줄도 모르는데 주변에서 하는 영어를 대충 들으면서 내가 그다음에 아를 쓸까이즈를 쓸까 하다가 이즈를 썼을 때 사람들이 오 하면서 맞았다고 학습이 되잖아요. 그 똑같은 언어 구성이 챗GPT의 학습방식이라고 보시면 될 것 같고요. 그래서 그런 걸 이른바 강화학습이나 아니면 여러 개 수많은 데이터셋을 가지고 학습했다 이렇게 표현하기도 합니다.
[앵커]
강화학습이라는 용어 자체가 사실을 인간을 이긴 알파고, 인공지능도 강화학습을 통해서 진화를 한 것이고 자율주행 같은 경우에는 강화학습을 통해서 점점 똑똑해지는 그런 소프트웨어로 알고 있는데요. 그런데 이거는 그러면 기존에 있는 인터넷에 널려 있는 모든 지식을 다 흡수하고 소화해서 자동으로 이게 진화한 AI인지 아니면 그 배경에는 많은 사람들이 투입돼서 하나하나 학습을 시키면서 진화하는 과정을 거쳐서 똑똑해지는 과정인지 그 과정이 궁금합니다.
[김덕진]
말씀해 주신 것처럼 강화학습이라는 것 자체갸뭔가 인공지능이 대답을 하면 이게 맞았다 틀렸다 혹은 이게 어떤 구분이 된다는 건 사람이 체크를 해 준다고 보시면 될 것 같아요. 아까처럼 영어를 공부할 때도 내가 빈칸 채우기에서 아인가 이즈인가 영어도 모르고 넣었는데 이걸 누군가가 너 맞았어라고 하면 내가 맞았구나, 틀렸어 하면 틀렸구나라고 하잖아요. 그런데 인공지능은 그 맞았다, 틀렸다를 우리처럼 까먹는 게 아니라 계속적으로 기억하니까 조금씩 튜닝된다라고 표현하거든요. 조금씩 똑똑해지는 방식이라고 보시면 될 것 같습니다.
그래서 우리가 쓰면 쓸수록 얘가 조금씩 똑똑해지는데 그게 실시간으로 똑똑해지는 어떤 인공지능도 있지만 지금 나오고 있는 챗GPT는 2021년 정도까지의 데이터를 가지고 그것을 사람들이 썼을 때 어떤 기간에서 조금씩 똑똑해지는 이런 거라고 보시면 될 것 같고요. 실제로 뭘 할 수 있어라는 게 궁금할 수 있잖아요. 그래서 지금 보시게 되면 실제로 저 챗GPT한테 너는 뭘 할 수 있어라고 질문을 우리가 하는 거예요.
그러면 저기 나오는 대답이 저희가 쓴 게 아니라 이 챗GPT라고 하는 인공지능이 저렇게 자연스럽게 쓰게 됩니다. 그래서 본인이 자연어 이해에서 뛰어난 성능을 보이고 사람들에게 답변하거나 정보를 주거나 작성을 할 수 있다 이렇게 자동으로 답변한다고 보시면 되는 것이죠. [앵커] 다양한 분야에 적용해 볼 수 있겠는데 우리가 어떤 질문을 던지느냐에 따라서 답변의 내용이 달라지겠죠. 새해 인사를 써달라고 부탁하든지 아니면 연애 상담의 조언을 구하든지 여러 가지 분야에서 예제가 나오고 있는 것 같습니다.
[김덕진]
말씀해 주신 것처럼 일단 제가 YTN에 나왔으니까 YTN에 대해서 설명해 줘라고 물어봤어요. 그렇게 되는 것들을 대답을 하기도 하고요. 또 보시는 것처럼 시청자들에게 전하는 새해 인사말. 저게 원래 방식으로 치면 인공지능이 YTN이 무슨 뜻인지 알아야 되고 시청자가 무슨 뜻인지 알아야 하고 새해 인사말을 알아야 하는데 저 단어가 나왔을 때 일반적인 블로그 글이나 많은 글에서 저런 정도의 단어가 나오면 대충 답변을 저런 방식으로 써주는거였거나 한 단어, 한 단어를 계속 생성하는 방식이다라고 보시면 될 것 같아요.
그런데 보시면 상당히 매끄럽죠. 마치 사람이 쓴 것처럼 뭔가 누군가가 쓴 것처럼 매끄럽게 되는데 한국어도 저 정도인데 영어는 데이터가 많기 때문에 부드럽게 쓴다, 이렇게 설명드릴 수 있을 것 같습니다.
[앵커]
다양한 분야라고 말씀드렸는데 이를테면 IT 분야에서 특정 성능을 가진 프로그램을 코딩을 해 달라고 하면 쭉 코딩을 해 주더라고요.
[김덕진]
그게 코딩을 어떻게 하는 건지 생각을 해 보시면 코딩이라는 것도 결국에는 규칙에 의거한 어떤 내용을 써내는 거란 말이에요. 그렇다면 수많은 코딩의 데이를 얘가 쭉 보고 내가 A 다음에는 B를 보통 쓰면 이런 느낌으로 나오는구나라는 걸 알게 되면 그렇게 쓸 거잖아요. 그래서 실제로 요즘에 이 챗GPT가 수많은 코딩 데이터, 그러니까 사람들이 직접 코딩한 그 코딩 문을 학습한 다음에 우리가 특정한 걸 써줘라고 하면 그거를 만들어내는 방식이라고 보면 될 것 같아요. 실제로 개발자분들이 개발을 할 때 이게 어떤 내용이야라는 걸옆에 주석으로 써놓기도 하거든요.
그럼 거꾸로 그걸 인공지능이 학습을 하는 거죠. 이렇게 쓰인 것은 뭔가 홈페이지에 노란색을 개발할 때 쓰는 거구나라는 것을 알고 있다가 노란색을 개발하는 프로그램 언어를 써줘라고 하면 이걸 반대로 써주는 이러한 방식으로 개발하고 있다고 보시면 될 것 같고요. 그외에도 우리가 알고 있는 비슷한 패턴의, 예를 들면 논문이 될 수 있겠죠. 논문이라는 것도 어떤 학술적인 내용을 특정 규칙에 맞춰서 쓰는 거잖아요.
그러니까 수많은 논문 데이터를 보면 얘가 이 논문이 이런 패턴이니까 다음 단어는 이런 게 나오겠구나라는 걸 알게 돼서 자연스럽게 논문 작성도 도와주는 거죠. 예를 들면 논문에 보면 기본적으로 연구동향이라고 해서 특정 분야에 대해서 수십 년 동안 어떻게 연구했는지를 정리하게 되어 있거든요. 그런 건 오히려 사람보다 이렇게 잘 학습된 친구가 인터넷에 있는 수많은 학습 논문을 보고 읽어낼 수도 있다 이렇게 설명드릴 수도 있을 것 같습니다.
그 외에 언어번역도 하고 또 최근에 재미있는 건 콘텐츠 제작에서도 쓰이고 있어요. 콘텐츠 제작이라고 하면 예를 들어 우리가 유튜브에 어떤 영상을 만든다고 생각해 보세요. 그러면 유튜브에 내가 어떤 영상을 주제를 뭘로 할지 보통 작가님들이 글을 쓰시잖아요. 그런데 인터넷에 있는 수많은 많은 작가들이 쓴 글 혹은 수많은 블로그 글을 가지고 특정 주제에 대해서 실제 스토리처럼 써낼 수 있는 거예요. 그럼 그 써낸 걸로 우리가 영상을 만든다든지 혹은 유명인들의 트위터나 이런 데 언어들이 있을 거잖아요. 그런 걸 갖고 특정인의 말투를 흉내낸 대화를 만든다거나. 그런 것들을 실제로 사용을 하고 있습니다.
그래서 예를 들면 영화배우 출신이자 사업가인 라이언레이놀스라고 있는데 이분께서 챗GPT한테 본인의 말투로 농담을 만들어줘라고 하니까 약간 욕설이 섞여 있는 이러한 실제 그 사람이 쓰는 말투 같은 걸 만들어서 그걸로 실제 유튜브에서 홍보영상을 만드는 스크립트를 쓴다든지 이런 정도까지 개발되고 있다. 그리고 또 영상도 최근에는 제가 자막을 넣으면 자동으로 어떤 영상을 찾아서 만들어주는 이런 툴들도 있거든요. 그렇게 되면 저는 주제 하나만 넣으면 문장도 인공지능이 만들어주고 영상도 인공지능이 만들어주고 이런 시대가 왔다 이렇게 설명드릴 수 있는 것이죠.
[앵커]
소논문도 써주고 에세이도 써주고 시를 써달라고 하면 또 를 써주고 이게 거의 인간에 가까워지는 거 아닌가 이런 착각을 일으킬 정도로 그런 다양한 분야에 적용할 수 있는 기능을 갖고 있는데 이렇다 보니까 미국 학교에서는 지금 상당히 긴장하고 있다고 하죠. 학생들이 과제물을 낼 때 챗GPT로 내지 않을까, 이런 고민이 있다고 합니다.
[김덕진]
실제로 우리나라에 있는 것만 보더라도 한국어로도 최소 중학생 이상의 글은 잘 쓰거든요. 예를 들어서 중학교 선생님이 어떤 주제에 대해서 글 써와라고 하면 실제로 쓰는 게 아니라 챗GPT에 똑같이 예를 들면 뉴스에 대해서 글을 써줘라고 하면 본인이 쓰니까 이게 실제로 사람이 봤을 때 이게 맞는지, 틀리는지 헷갈린단 말이에요. 그런 부분들 때문에 지금 뉴욕에서는 공립학교에서 이거 접속 자체를 차단하기도 하고요. 심지어 시험을 볼 때 몇몇 학교에서는 이걸 종이로 내야 되는 거 아니냐 이런 얘기들까지 나오고 있는 상황이라고 보시면 될 것 같습니다.
그래서 이게 어떻게 보면 잘 쓰면 좋을 수 있는데 또 사람들에게 어떻게 보면 학습을 할 때 기본적인 학습에 대한 권한들 이런 걸 뺏어갈 수도 있는 부분들이 있고요. 그래서 어떤 데는 또 시험을 그러니까 이런 페이퍼를 쓰지 못하게 구술시험으로 바꾼다거나 이런 다양한 형태들이 나오고 있는 것이죠.
[앵커]
새로운 숙제를 던져주고 있는 거군요.
[김덕진]
맞습니다.
[앵커]
어느 정도까지 정확도 있고 어느 정도 수준의 답변을 내놓는지 전문 분야 같은 경우 보겠습니다. 엊그제 미국의 미네소타 로스쿨 교수들이 낸 논문이라고 하더군요. 로스쿨에서 학생들에게 학기마다 내는 시험지를 챗GPT에게 풀게 했더니 법률 분야의 문제겠죠. 대체로 C+ 정도의 학점을 줄 만한 답변서를 내더라. 이 정도의 학점을 쭉 받으면 그럭저럭 졸업을 할 정도는 되더라 아주 뛰어날 정도는 아니지만 이런 얘기를 봤습니다. 이게 그러면 아주 뛰어난 전문 분야의 학생이나 아니면 전문가 수준은 아니지만 인공지능이 해당 전문지식을 갖고 있지 않음에도 불구하고 확률적으로 접근해서 이런 페이지를 써낸다는 거거든요.
[김덕진]
맞습니다. 그렇게 됐기 때문에 이거에 대해서 우리가 고민하게 되는 거예요. 어떤 고민을 하게 되느냐면 일단은 이게 글을 잘 써내니까 아주 말씀하신 대로 그럴 듯하게 잘 써죠. 그럴 듯하게 잘 쓰기 때문에 이거를 정말 집중해서 보지 않으면 이게 틀렸는지 맞았는지 헷갈리는 부분도 있고요. 말씀해 주신 것처럼 법률 같은 경우는 딱 정확하게 우리가 기본적으로 판사님들이 어떠한 법률을 판단할 때도 기존의 어떤 법률에 대한 사례들이 있잖아요.
그 사례나 판례를 참조하지 하지 않습니까? 그렇다면 이거야말로 학습하기 좋은 데이터죠. 과거의 인공지능은 단순히 학습해서 결과를 똑같이 냈다고 하면 얘는 그거를 기반으로 사람이 글쓰듯이 쓰게 되니까 결국에는 재판문을 쓴다거나 이런 데까지 활용할 수 있다고 보시면 될 것 같고요. 지금 나오는 챗GPT 같은 경우는 되게 범용적이고 인터넷에 있는 수많은 데이터를 갖게 되는데 최근 이 챗GPT가 API, 그러니까 뭔가 그것을 가지고 활용할 수 있는 형태로 나오고 있거든요. 그렇다면 예를 들어서 이 범용적인 것에 말씀하신 것처럼 실제로 법률적인 걸 조금 더 공부시킨다거나 의료에 대한 걸 조금 더 공부시키게 되는 특화된 것들이 나오게 되면.
[앵커]
특화된 프로그램을 만들 수 있는 거군요.
[김덕진]
그렇죠. 지금보다 좀 더 똑똑해질 수 있는 B+ 맞을 수 있는 챗GPT도 나올 수 있다는 것이죠.
[앵커]
문제는 그럴 듯하게 답변하는 그 부분인 것 같은데 그러면서 완전하지 않기 때문에 완벽하지는 않은데 우리가 굉장히 상식적인 쉬운 문제를 냈는데 거기에 대해서 답변을 내놓으면서도 잘못된 답변을 마치 정확한 답변인 것처럼 내놓는 그런 경우가 종종 있는 것 같습니다.
[김덕진]
맞습니다. 그래서 테스트를 해 봤는데요. 누구나 알 수 있을 만한 신사임당에 대한 질문을 해 보기도 하는 거예요. 예를 들면 신사임당이 누구야라고 챗GPT한테 물어보니까 저기 보시는 것처럼 조선시대의 여왕이다, 이런 표현을 한단 말이에요. 우리가 다 아는 신사임당은 조선시대 여왕은 아니시잖아요. 그러면 이런 것들에 대해서 제가 한번 더 신사임당이 여왕은 아니야라고 그다음에 이어서 얘기를 한 거예요. 그랬더니 갑자기 아니야라고 하니까 죄송합니다 하고 일단 자기가 한발 뒤로 물러섭니다. 그러고 나서 하는데 이번에는 신사임당이 조선시대의 국왕이었다라고 하는 이상한 답변을 하는 거예요.
이게 왜 그러냐. 두 가지 이유가 있는데 첫 번째는 아까 말씀드린 대로 챗GPT가 확률상으로 어떤 답변을 만들어내기 때문에 그 답변이 꼬일 수도 있다는 게 있고요. 두 번째는 확률상으로 만들어내는 데이터가 지금 대부분이 영어 데이터이기 때문에 한국어 데이터는 조금 더 양이 적습니다. 그래서 한국어는 영어보다도 조금 더 정확도가 떨어진다고 볼 수 있는데 중요한 것은 저 문맥을 보시면 문맥 자체는 아주 매끄러워요. 그러니까 예를 들어서 저희 아들이 지금 초등학교에 들어가려고 하는데 저희 아들이 아무것도 모르는 상태에서 저 내용을 자기가 검색하듯이 검색해서 봤다라고 하면 저거 맞는 거네라고 이해할 수 있잖아요.
그렇기 때문에 잘못된 착각을 하거나 소위 가짜뉴스 같은 것들도 수많이 만들어질 수 있다라는 것도 지금 이 챗GPT가 갖는 부정적인 면들, 이렇게도 볼 수 있죠.
[앵커]
질문에 대해서 정확한 답을 모를 경우에는 모르면 모른다고 답을 해야 하는데 이 AI 자체는 그렇게 답을 안 하는 거죠.
[김덕진]
그 이유가 뭐냐 하면 맞는 답을 해도 본인이 맞는지 모르기 때문이에요.
[앵커]
가치판단을 못하는 건가요?
[김덕진]
아까 말씀드린 확률적으로 얘기하기 때문에 확률적으로 얘기한 걸 보고 사람들이 이게 맞았어라고 강화학습을 시켜주는 것뿐이지 기본적으로 확률상 뽑아냈기 때문에 이거는 정보라기보다는 약간 의견에 가깝다라고 저는 표현을 드리는 게 나을 것 같아요.
그래서 우리가 기존의 검색엔지이라고 하는 것들은 검색을 했을 때 사람들이 많이 검색된 것을 클릭한다는 것은 결국 많은 사람들이 이게 맞다라고 인지를 하는 거잖아요.
예를 들면 잘못된 정보를 사람들이 계속 보지는 않을 거니까요. 그래서 검색엔진은 뭔가를 검색했을 때 위에 나오는 것들은 많은 사람이 동의를 한 내용이라고 생각을 하시면 돼요. 그런데 기본적으로 이런 것들에 대해서 질문했을 때는 의견을 제시하는 거기 때문에 그 의견이 인공지능이 확률상으로 내는 의견이기 때문에 이거는 답이다라고 할 수 없는 것이죠. 결국에는 보는 사람이 이게 맞는지 안 맞는지를 잘 판단해야 된다라는 것들을 또 설명드릴 수 있을 것 같습니다.
[앵커]
이 새로운 대화형 AI 자체가 굉장히 많은 잠재력을 갖고 있지만 지금 지적해 주신 것처럼 여러 가지 결함도 있기는 있는데요. 답변 내용 중에 잘못된 정보도 상당히 섞여 있을 수 있다라는 점. 그리고 때로는 이게 인간처럼 대화를 하니까 도덕적인 조언을 구할 수도 있는 거거든요. 여기에 대해서 AI는 가치 판단을 하지 못하는 기계기 때문에 본인은 잘못된 정보를 주면서도 이게 도덕적으로 옳은 건지 그른 건지를 모르고 답변을 할 수도 있다. 여기에 대해서 문제 제기하는 논문도 있더군요.
[김덕진]
거기에 대해서 두 가지로 얘기할 수 있을 것 같은데요. 첫 번째는 거기서 말하는 데이터 역시도 예를 들면 데이트와 관련된 팁을 줘라고 하면 수많은 블로그 글에 데이트와 관련된 얘기들이 있을 거잖아요. 그 이야기를 보고 답변을 주는 겁니다. 그게 말씀하신 것처럼 맞는지 틀리는지 뿐만 아니라 가치적으로 이슈가 생길 수 있는 부분이 있고요. 그래서 지금 챗GPT 같은 경우에는 그런 부분에 있어서 약간 문제가 되거나 사회적인 이슈가 될 수 있는 것은 조금 더 데이터를 정제화해서 학습을 하고 있다고는 합니다.
그래서 그런 부분을 최소화하려고는 하지만 어쨌든 그런 변수는 언제든지 생길 수 있다라는 것도 생각을 해 봐야 할 것 같고요.
그래서 이 챗GPT라고 하는 녀석은 그냥 우리가 정답을 내는 똑똑한 녀석이라기보다는 약간 이렇게 생각하시는 게 좋을 것 같아요. 인턴사원이 하나 생겼다. 그래서 얘가 정보를 가져오는 것들을 내가 한 번 더 스크링을 하지만 계속 좋은 제안을 주거나 아이디어는 잘 만들어 준다고 생각하시면 될 것 같고요. 때로는 얘가 말을 아주 잘하지만 말 잘하는 약간 사기꾼에 가까울 수도 있다라는 걸 잘 생각하셔서 우리가 보통 미디어리터리라고 하잖아요.
미디어에 대한 교육처럼 인공지능 역시도 AI리터러시라고 할까요. 그래서 인공지능에 대한 장단점 그리고 이것들의 한계 그리고 활용할 수 있는 것들을 조금 더 공부하시고 조금 익히신다면 충분히 좋은 툴로써 활용할 수 있지 않을까 생각합니다.
[앵커]
디지털 리터러시, AI리터러시가 필요하다. 어떻게 활용하느냐가 중요하겠군요, 앞으로. 알겠습니다. 미래사회IT 연구소 김덕진 소장과 함께했습니다. 고맙습니다.
※ '당신의 제보가 뉴스가 됩니다'
[카카오톡] YTN 검색해 채널 추가
[전화] 02-398-8585
[메일] social@ytn.co.kr
[저작권자(c) YTN 무단전재 및 재배포 금지]
대한민국 24시간 뉴스채널 [YTN LIVE] 보기 〉
이슈묍이 드리는 [2023년 무료 신년운세] 보기 〉
뉴스 속 생생한 현장 스케치 [뉴스케치] 보기 〉