펌 ㅣ *아래 댓글에 이 글을 모티브 삼아 새롭게 작성한 블로그 글이 있습니다. 가독성이 좋고 내용도 더 잘 정리되어 있음.
<거대 언어모델 인공지능의 이해능력과 창의력에 대하여>
0. 인간 세상에서 흔히 벌어지는 일이지만, 이해라는 말의 사회적 의미가 여러가지다 보니 인공지능과 관련한 논쟁에서도 불필요한 마찰이 많아지는 것 같다. 특히 요즘 각광을 받고 있는 거대 언어모델 인공지능의 창의성 관련 논쟁은 매우 뜨거운 양상을 보이고 있다.
1. 먼저 이해력에 대해 얘기해보자. 국립국어원에 따르면 한국어 '이해하다'에는 대략 다음의 두 가지 뜻이 있다.
(1) ~을 깨달아 알다. 잘 알아서 받아들이다.
(2) 사리를 분별하여 해석하다.
첫 번째 의미에서 중요한 단어는 '알아서'다. 정보를 제공하는 쪽에서 직접적으로 제공하지 않은 정보를 받아들이는 사람이 알아서 알아채는 것이 이해다. 두 번째 의미의 포인트는 사리다. 사리는 '일의 이치'라는 뜻의 한자어인데, 이는 일 자체와 그 뒤에 한꺼풀 숨겨져 있는 일의 본질적인 정보를 함께 지칭한다. 즉, 어떤 사안이나 대상의 표면적인 정보와 이면 정보를 동시에 인지해서 복합적으로 해석하는 과정을 이해라고 한다.
여기서 이면 정보란 그 자체로는 단독적으로 의미를 갖지 않지만 다른 대상과의 관계 속에서 의미를 갖게 되는 정보를 말한다. 즉, 이면 정보의 올바른 이해를 위해서는 각 대상의 관계를 파악하고 거기서 의미를 추출하는 능력이 필요한 것이다.
결론부터 말하자면 거대 언어모델 인공지능은 이 능력을 갖추고 있다. 사용자가 어떤 질문을 했을 때, 학습된 데이터에 들어있는 언어적 관계에 의지해 답을 찾는다. 아주 거칠게 예시를 들자면 '메뚜기', '무한도전', 'MC', '박명수', '해피투게더', '유재석'으로 이뤄진 데이터 관계망이 있을 때, 질문자가 저중 5개의 키워드를 사용해 질문을 하면 그냥 나머지 하나를 답으로 고르는 식이다.
왜냐하면 그것이 언어적 관계이기 때문이다. 인간과는 사뭇 다른 방식의 이해지만, 이것 역시 이해라고 부르지 못할 이유는 없다. 이해라는 정의를 거대한 수평 좌표계에 펼쳐놓고, '이해하지 못함'을 0으로 '완전히 이해함'을 100으로 놓는다면 거대 언어모델 인공지능이 하는 작업은 0부터 100 사이의 어딘가에 위치할 것이다.
2. 지난해 12월 ChatGPT 출현 이후 여러가지 담론들이 등장했다. 그중 유독 인공지능의 이해력을 비하하는 사람들이 있다. 이 사람들의 주장을 누구나 이해할 수 있게 축약해보자면, 인공지능의 작업이 이해의 0부터 100사이의 어딘가에 위치한다고 해서 그걸 '이해했다'라고 부르는 것은 부당하다는 것이다.
엇. 이게 무슨 소리야 싶을 것이다. 그런데 직접 만나서 얘기를 차근차근 들어보면 이 사람들의 주장에 약간의 보정이 필요하다는 것을 알 수 있다. 이들이 주장하는 이해란 사람 방식의 이해를 말하는 것이다.
사람은 이해는 먼저 객체 중심의 인식과 성찰이 있고, 이후 큰 그림에 대한 해석과 통찰이 이어지는 방식으로 이뤄진다. 위에서 예로 든 데이터 셋을 가지고 얘기를 해 보면, 먼저 어떤 객체(유재석)를 인식하고, 그 객체의 활동이나 발언 등에서 얻을 수 있는 부가적인 다른 객체(메뚜기, 무한도전, MC, 박명수, 해피투게더)를 인지한 다음, 이 모두를 뭉뚱그려 뇌에 나만의 데이터 관계망을 만드는 것이다.
좋은 데이터 관계망을 만드는 사람은 다른 사람의 말을 빨리빨리 알아듣고 문제 해결을 하는 능력이 뛰어날 수밖에 없으니 좋은 대우를 받는다. 그래서 이 능력이 뛰어난 사람들은 이해하는 능력을 세분화하는 습성이 있다. 이해에는 '뛰어난 이해'와 '누구나 할 수 있는 이해'가 있는 것이다. 이들이 보기에 거대 언어모델 인공지능의 이해 작업에는 객체 자체에 대한 인식이 부족하다.
3. 사람처럼 이해하지 않는다고 해서 이해력이 없다니. 이렇게 말하면 2번에 해당하는 사람들이 아둔해 보인다. 하지만 이 문제는 그리 간단하지 않다. 함부로 예를 드는 것은 위험하지만 든 김에 좀 더 들어보자.
요즘 토익 학원에 가면 지문을 다 읽지 않고 답을 고르는 방법을 가르쳐준다. 토익 리딩 시험은 객관식이니까 문장의 주어와 동사, 시제를 먼저 빠르게 확인한 후 도저히 답이 될 수 없는 보기들을 소거해가는 방식으로 문제를 푸는 것이다.
이 방법은 매우 유효해서 수능 영어의 1타 강사들도 많이 가르친다. 몇년 전에 미국에서 매우 좋은 학교를 졸업한 외국인이 국내 예능 프로그램에 나와서 수능 영어 문제를 푼 적이 있었는데 결국 답을 못 찾았다. 반면 수능식 문제풀이를 배운 명문대 학생은 매우 간단히 답을 골라냈다.
한국에서 토익 시험 점수는 진학이나 취업 시 영어 실력이 어느정도인지 가늠하는 용도로 사용된다. 하지만 위의 방식으로 얻은 점수는 실제 영어 실력과는 큰 상관이 없다. 그저 영어 지문을 다 읽지 않고도 답을 고르는 방법을 이해했는가를 말해줄 뿐이다.
그렇다면 우리는 1의 방식으로 작업하는 인공지능이 자신의 작업 결과를 이해했다고 볼 수 있는가. 그리고 그것을 '이해했다'고 말하는 것은 적당한가. 오히려 그렇게 말하는 것이 사회적인 문제를 야기하지는 않을까. 기술의 흐름과 속도를 봤을 때, 이미 대세는 기울어버린 것 같지만 사실 2번에 해당하는 사람들이 그렇게 꼬장꼬장한 태도를 보이는데는 이러한 우려들이 반영되어 있다.
4. 이 토론에는 사실 근본적인 불편한 문제 하나가 은폐되어 있다. 인공지능이 그런 이유로 이해력이 없다고 한다면, 상당수 인간의 이해력 또한 그 수준이 안 된다는 것이다. 사람이면 다 이해력이 있는가. 그렇지 않다. 어떤 사람의 이해력은 매우 떨어지며, 문자를 이해하는 능력같은 경우에는 동일인이라 할지라도 어떤 연령대인지, 어떤 환경에 놓여있는지에 따라 달라진다. 대상 분야에 따라 이해력도 사람마다 또 다 달라진다.
이 불편한 진실이 논의되지 않았던 이유는 지금까지 굳이 논의할 필요가 없었기 때문이다. 잘하나 못하나 이해를 한다고 할 만한 지성을 갖춘 객체가 거의 인간으로 한정됐었다. '응 그래도 인간이면 이해력이 있다고 봐야지' 정도의 사회적 합의가 존재했다.
하지만 이제는 인공지능도 제한적인 이해를 하고, 심지어 사람의 작업을 대신할 수 있다. 그래서 거대 언어모델 인공지능의 이해력을 논할 때는 인공지능보다 이해력이 떨어지는 사람에 대한 담론도 자연스럽게 뒤따라 올 수 밖에 없다. 새로운 질서 생성이 불가피한 상황인 셈이다. 아마 인간 세상에 새로운 계급이 탄생하는 단초로 작용할 가능성이 높다고 생각한다.
지난해 구글에 다니던 한 개발자가 자사가 개발중인 인공지능 언어 프로그램 람다(LaMDA)가 인간의 지각 능력을 갖췄다고 폭로해 해고되는 일이 있었다. 개인적으로 뉴스를 보고 가장 먼저 들었던 생각은 그 개발자가 인간을 이해하는 능력이 떨어지는 것은 아닐까 하는 것이었다. 통상 인공지능의 수준을 판별할 때 사용하는 튜링테스트는 복수의 조사관이 블라인드 상태에서 컴퓨터와 5분간 대화를 통해 상대방이 사람인지 아닌지를 분별하는 방식이다. 제대로 하려면 조사관의 이해 능력도 테스트해야 할 것이다. 너의 이해력은 인공지능을 평가할 수준인가, 아니면 인공지능에게 평가 당해야 할 수준인가. 우리는 이제 곧 이런 얘기를 해야 한다. 각자의 준비가 필요하다.
종합하면 거대 언어모델 인공지능의 이해력 관련 논쟁은, 사실 실제 이해력이 있는지 없는지를 논하는 논쟁이 아니다. 이걸 '이해력이 있다'고 해도 될지 말지를 합의하는 절차에 가깝다.
5. 더 격렬한 논쟁이 벌어지고 있는 인공지능의 창의력 얘기를 해 보자. 간단히 말해 이해력이 목표에 그냥 잘 도착하는 능력을 말하는 거라면, 창의력이란 목표에 잘 도달하는 색다른 방법을 찾는 능력이다.
여기서 '색다른'이 포인트인데, 여기에는 두 가지 시사점이 있다. 하나는 효율성이나 뻔한 정답을 찾는 습관이 창의력에는 아무런 도움이 안 된다는 것이다. 다른 하나는 창의력에 대한 평가가 상대적이라는 점이다. 창의성과 색다름을 결국 판단하는 것은 상당부분 평가를 내리는 수용자에게 달려 있다.
거대 언어모델 인공지능은 창의력과 관련해서는 태생부터 불리하다. 오로지 의지할 곳은 미리 학습한 데이터셋 뿐이며, 언어 관계에 기반해 정답을 찾아내는 걸 잘 하도록 만들어졌기 때문이다. 우연이나 창발성을 이끌어낼 수 있는 새로운 감각기관들도 없다. 오로지 입력된 문자를 해독하는 알고리즘 뿐이다. 그래서 기존에 인간들이 작업해놓은 것들에 기반해 스냅 사진을 찍듯 찰라로 세계를 인식한다. 독자성이 떨어지는 이유다. 최근에 출시된 GPT-4가 유의미한 수준의 맥락 기억을 유지하는 기능을 탑재하고 제한적인 시각 정보를 입력할 수 있게끔 발전되긴 했지만 아직 충분한 양의 다양한 정보를 처리하기에는 부족하다.
반면 대부분의 인간은 앞서 설명했듯, 복합적인 감각기관을 통해 객체 자체를 인식하고 쫓아가면서 주변 객체에 대한 정보를 끌어모아 의미망을 구축하는 방식을 사용한다. 이 방식의 장점은 특정 객체에 대한 주관적인 정보가 시간의 흐름에 따라서 입체적으로 쌓인다는 것이다. 일단 주관적이니 정답은 없다. 또 이렇게 입체적으로 쌓인 주관적인 정보는 맞춤한 서사나 문제 해결 방법을 착안하는데 유리하다. 이것이 차별성을 만들어내는 주요 요소가 된다. 그러니까 현재로서는 창의력 자체는 입력 자체가 인간이라는 모델이 더 뛰어날 수밖에 없는 환경이다.
6. 만약 거대 언어모델 인공지능이 인간의 창의력을 넘어선다면, 그것은 창의력을 판단하는 수용자, 즉 심판의 자질에 문제가 생겼기 때문일 가능성이 높다. 인간은 거대 언어모델에 비해 창의력이 좋을 수밖에 없는 환경에 놓여 있지만, 미래에 창의력을 평가하는 인간의 능력 자체가 쇠퇴하면 이런 평가는 달라질 수 있다는 얘기다.
이런 우려가 생기는데는 이유가 있다. 바로 생산량이다. 인간이 거대 언어모델 인공지능이 쏟아내는 콘텐츠의 생산량을 따라가지 못한다. 이것은 마치 손으로 유기 제품을 만드는 시장에 중국에서 대량 생산된 놋그릇이 밀어닥치는 것과 비슷하다. 품질은 수제 유기가 낫겠지만 시장의 선택은 압도적으로 중국산 놋그릇이다.
근데 이렇게 되다보면 '유기 = 중국산 놋그릇'이라는 인식이 만들어진다. 그 이상의 경지를 이뤄봐야 경제적으로 보상을 받기 어렵고, 결국 아무도 중국산 놋그릇 이상의 무언가를 만들려고 하지 않게 되는 것이다.
앞서 한번 페이스북에서 언급한 적이 있지만 창의력은 상대적이다. 음식도 많이 먹어봐야 맛있는 줄을 알듯, 시야가 좁아지면 창의성을 목격해도 알아보지 못한다. 창의력이 떨어지는 사람의 눈에는 거대 언어모델 인공지능이 쓰는 시나 소설도 창의적으로 보인다. 반면 창의력이 원래 뛰어나거나, 훈련을 받은 사람이 보기에는 거대 언어모델 인공지능의 결과물은 표절 뭉치일 뿐이다. 그러나 미래에 창의력을 평가하는 인간의 능력 자체가 쇠퇴하면 이런 평가는 달라질 수 있다.
종합하면 거대 언어모델 인공지능의 창의력 관련 논쟁은 그 자체로 창의력이 있다 없다를 논할 내용은 아니다. 수용자의 상태에 따라 결론이 달라질 수 있기 때문이다. 오히려 거대 언어모델 인공지능이 기존 레퍼런스가 없으면 창작이 불가능한 상태라는 사회적 합의를 강력하게 이끌어내고, 저작권법 등 기존 사회 질서에 어떻게 융합시킬지 실질적인 고민을 하는 계기로 이끌어내는 것이 더 바람직해 보인다. 그렇게 해야 지금 인간이 가지고 있는 창작 생태계에 경제적 유인을 계속 제공할 수 있고, 인류 차원의 창의력을 보존할 수 있을 것이다.
7. 똥싸다보니 글이 길어졌다. 창의력이든 이해력이든 더 많은 토론과 논의가 격렬하게 이뤄졌으면 좋겠다. 인공지능 업계는 밤낮없이 달려서 연일 새로운 모델들을 쏟아내고 있는데, 그 이외의 분야에서는 대응이 너무 느린 것 같다. 긴장해야 한다. 지금 함께 달리지 않으면 당신의 가치를 평가하는 기준들이 달라질 수 있다.