ㅍㅁ ㅣChatGPT API 등장 하루 만에 이러한 것이 나오는군요. 예정된 수순입니다.
https://github.com/mckaywrigley/paul-graham-gpt
1. 폴 그레이엄의 에세이를 스크랩해서 임베딩을 만든 후,
2. 유저의 질의에 대한 임베딩과 에세이 모음의 임베딩의 코사인 유사도를 계산해서 가장 높은 랭크의 원문 내용과 위치를 반환합니다.
3. ChatGPT API를 써서 그 내용을 컨텍스트에 놓고 대화를 합니다.
이 때 폴 그레이엄의 에세이 605,870 토큰의 임베딩을 만드는 비용은 불과 $0.24 였다고 하네요.
* Mckay Wrigley의 트윗: https://twitter.com/mckaywrigley/status/1631328308116996097 (폴 그레이엄도 댓글을 달았네요)
* 웹앱: https://paul-graham-gpt.vercel.app/
ㅤ
ㅤ
공유한 csv의 형식을 보면 어떤 식으로 자료를 준비했는지 알 수 있습니다. (같은 제목의 글에서 길이에 따라 나누는 방식입니다)
컬럼: essay_title, essay_url, essay_date, essay_thanks, content, content_length, content_tokens, embedding 으로 나눴네요.
essay_title: How to Get New Ideas
essay_url: http://www.paulgraham.com/getideas.html
essay_date: January 2023
essay_thanks:
content: (Someone fed my essays into GPT to make something that could answer questions based on them, then asked it where good ideas come from. The answer was ok, but not what I would have said. This is what I would have said.)The way to get new ideas is to notice anomalies: what seems strange, or missing, or broken? You can see anomalies in everyday life (much of standup comedy is based on this), but the best place to look for them is at the frontiers of knowledge. Knowledge grows fractally. From a distance its edges look smooth, but when you learn enough to get close to one, you'll notice it's full of gaps. These gaps will seem obvious; it will seem inexplicable that no one has tried x or wondered about y. In the best case, exploring such gaps yields whole new fractal buds.
content_length: 777
content_tokens: 173
embedding: [0.02242298,0.003380871,0.0031965815,-0.014609115,-0.008383487,0.015547316, ...]
인데, 이 경우 임베딩의 차원은 1536이군요. https://openai.com/blog/new-and-improved-embedding-model
이제 이러한 지식관리 도구가 쏟아져 나올 예정입니다. 2월 28일에 적었던 교과서 임베딩( https://www.facebook.com/seungjoon.choi/posts/pfbid02L8Me4ED6zoHjLdWHj4cg62mGRmy46Mc8NPzrFzXkttZRgcXQDhnYc9md2ckjDFfyl )만 아니라,
폴 그레이엄 에세이의 예처럼 개인 저널을 축적한 경우 매우 유용하게 쓸 수 있습니다.
ㅤ
ㅤ
물론 폴 그레이엄의 위 1월 에세이 내용처럼,
----
어떻게 좋은 생각을 얻을 것인가?
(누군가가 제 에세이를 GPT에 입력해 이를 바탕으로 질문에 답할 수 있는 무언가를 만든 다음, 좋은 아이디어가 어디서 나오는지 물었습니다. 대답은 괜찮았지만 제가 말했을 내용은 아니었습니다. 저라면 이렇게 말했을 겁니다.) 새로운 아이디어를 얻는 방법은 이상 징후, 즉 이상하거나 누락된 것, 고장난 것을 발견하는 것입니다. 일상 생활에서도 변칙을 발견할 수 있지만(스탠드업 코미디의 대부분이 이에 기반하고 있습니다), 변칙을 찾기에 가장 좋은 곳은 지식의 경계입니다. 지식은 프랙탈적으로 성장합니다. 멀리서 보면 가장자리가 매끄러워 보이지만, 가까이 다가가서 충분히 배우면 틈새가 가득하다는 것을 알 수 있습니다. 이러한 틈새는 명백해 보이지만 아무도 X를 시도하지 않았거나 Y에 대해 궁금해하지 않았다는 것은 설명할 수 없는 것처럼 보일 것입니다. 최상의 경우, 이러한 틈새를 탐구하는 것은 완전히 새로운 프랙탈의 싹을 틔우는 것과 같습니다.
----
ㅤ
ㅤ
아무리 좋은 내용을 ChatGPT의 컨텍스트에 넣는다 할지라도 꼭 좋은 통찰을 얻는 것은 아닐 겁니다. 다만, 리클라이더가 '인간-컴퓨터 공생'( https://www.facebook.com/seungjoon.choi/posts/pfbid0VfqL9LTyZjm7oBceMoMFMz9mkhnWanKu9n5CPGWzjQBhjrqSNjLxJ6GyTufYsN3ml )에서 상상했던 도구의 2023년 버젼을 만나게 된건 확실하죠.
----
1957년 봄과 여름에 저는 적당히 기술적인 한 사람이 업무에 전념하는 것으로 간주되는 시간 동안 실제로 무엇을 했는지 추적하려고 노력했습니다. 표본 추출이 부적절하다는 것을 알고 있었지만, 저는 제 스스로를 연구 대상으로 삼았습니다.
제가 한 가장 중요한 일은 기록을 남기는 것이었고, 초기 계획에서 구상한 세부 사항대로 기록을 남겼다면 프로젝트는 무한 퇴보했을 것이라는 것이 곧 분명해졌습니다. 그렇지 않았습니다. 그럼에도 불구하고 저는 제 활동에 대한 그림을 얻었고, 이는 저를 잠시 멈추게 했습니다. 제 스펙트럼이 일반적이지 않기를 바라지만, 그렇지 않을 것 같습니다.
'생각하는' 시간 중 약 85%는 생각하고, 결정을 내리고, 알아야 할 것을 배우기 위한 자세를 취하는 데 사용되었습니다. 정보를 소화하는 시간보다 정보를 찾거나 얻는 데 훨씬 더 많은 시간이 소요되었습니다. 그래프를 그리는 데는 몇 시간이 걸렸고, 어시스턴트에게 그래프를 그리는 방법을 가르치는 데는 또 다른 시간이 걸렸습니다. 그래프가 완성되면 관계는 한 번에 명확해졌지만, 그래프를 그렇게 만들기 위해서는 플로팅을 해야 했습니다. 한 번은 음성 명료도와 음성 대 잡음 비율을 연관시키는 함수에 대한 여섯 가지 실험 결과를 비교해야 했습니다. 두 실험자 모두 음성 대 잡음비에 대해 동일한 정의나 측정치를 사용한 적이 없었습니다. 데이터를 비교 가능한 형태로 만들기 위해 몇 시간의 계산이 필요했습니다. 데이터를 비교 가능한 형태로 만들었을 때, 제가 알아야 할 내용을 파악하는 데는 단 몇 초밖에 걸리지 않았습니다.
(중략)
방금 설명한 연구 결과가 전달하는 주요 시사점은 기술적 사고에 할애되는 대부분의 시간을 채우는 작업은 사람보다 기계가 더 효과적으로 수행할 수 있는 작업이라는 것입니다. 이러한 작업은 다양한 변수에 따라 예측할 수 없고 지속적으로 변화하는 순서로 수행되어야 한다는 사실 때문에 심각한 문제가 발생합니다. 그러나 이러한 문제를 인간과 빠른 정보 검색 및 데이터 처리 기계 사이의 공생 관계를 형성하는 방식으로 해결할 수 있다면 협력적인 상호 작용이 사고 과정을 크게 향상시킬 것임은 분명해 보입니다.
이 시점에서 "컴퓨터"라는 용어는 광범위한 종류의 계산, 데이터 처리, 정보 저장 및 검색 기계를 포괄하는 용어로 사용하고 있음을 인정하는 것이 적절할 수 있습니다. 이 부류에 속하는 기계의 기능은 거의 매일 향상되고 있습니다. 따라서 이 클래스의 기능에 대해 일반적인 진술을 하는 것은 위험합니다. 인간의 능력에 대해 일반적인 진술을 하는 것도 마찬가지로 위험할 수 있습니다. 그럼에도 불구하고 인간과 컴퓨터 사이의 특정 유전자형 능력 차이는 두드러지며, 이는 인간과 컴퓨터의 공생 가능성의 본질과 이를 달성할 수 있는 잠재적 가치와 관련이 있습니다.
----
ㅤ
ㅤ
또한 배니바 부시가 1945년 '우리가 생각하는 대로'( https://www.facebook.com/seungjoon.choi/posts/pfbid0gZcd71FJ2Q7s2LXmB25VJryCpxuqfcEz1HiAve6NJP15fEqCxFXoRiyPSAazxn7wl )에서 말했던 '돛단배'를 다시 한번 넘어서는 도구이기도 합니다.
----
이에 대한 연구는 산더미처럼 쌓여가고 있습니다. 그러나 전문화가 확대됨에 따라 오늘날 우리가 수렁에 빠져 있다는 증거가 증가하고 있습니다. 연구자는 수천 명의 다른 연구자들의 연구 결과와 결론에 휘둘리고, 그 결론이 나타나면 기억할 시간은 커녕 파악할 시간조차 갖지 못합니다. (중략)
어려움은 현재의 관심사의 범위와 다양성을 고려할 때 우리가 과도하게 출판하는 것이 아니라, 오히려 출판이 기록을 실제로 활용할 수 있는 현재의 능력을 훨씬 뛰어넘어 확장되었다는 데 있는 것 같습니다. 인간 경험의 총합은 엄청난 속도로 확장되고 있으며, 그 결과 미로를 통과하여 순간적으로 중요한 항목에 도달하기 위해 우리가 사용하는 수단은 돛단배를 사용하던 시대와 동일합니다.
하지만 새롭고 강력한 도구들이 사용되면서 변화의 조짐이 나타나고 있습니다.
----
ㅤ
ㅤ
자 이제 상대적으로 저렴하고 당장 쓸 수 있는, Embedding API와 gpt-3.5-turbo API가 있습니다. 모두가 같은 것을 가지고 있는 상황이죠. 그러다 보니 데이터를 수집하고 전처리 하는 것이 중요해 집니다.
거기에 LlamaIndex, LlamHub https://llamahub.ai 같은 것이 들어옵니다. 이미 각종 데이터를 잘 수집할 수 있는 코드들을 공유하고 있는 중이죠.
아직 gpt-3.5-turbo는 파인 튜닝이 되지 않지만 LangChain 같은 것의 도움으로 여러 모델을 사용해서 다른 관점으로 체이닝해가면서 토큰과 컨텍스트를 다룰 수 있습니다.
Obsidian란 도구의 맥락에서도 시도가 있습니다.
Man and machine: GPT for second brains (2023. 2. 5.)
https://reasonabledeviations.com/2023/02/05/gpt-for-second-brain/ (당연하죠!)
제텔카스텐도, 이를 쉽게 해주는 Obsidian 같은 도구도 사람이 인덱싱을 해야하는 지난함이 있기 때문에 의지력을 소모하고, 기록 성향이 맞지 않는다면 지속가능하지 않게 되죠. 하지만 그런 지난함은 좀 더 완화될 예정입니다.
다만 그 동안은 과연 사적인 저널을 OpenAI API에 입력하는 것이 괜찮은가 하는 고민이 많았는데, 이번 ChatGPT API 발표( https://www.facebook.com/seungjoon.choi/posts/pfbid0dr2NHKXQYiPBJcUVoGzS9j6MWh356CcMUikGiTzwTtb7BZZ6Bd3wbUz9zzfeAWtkl )를 보면, 그러한 입력을 학습에 사용하지 않겠다는 방침을 표명한바 있어서 아무래도 더 많은 시도가 일어날 것이라 짐작해 보게 됩니다.
ㅤ
ㅤ
임베딩이야 말로, 링크/백링크 그리고 기존의 검색을 대신 할 Memex가 상상했던 '연상'을 가능케 하는 부품입니다.
----
그러나 선택 문제의 진짜 핵심은 도서관의 메커니즘 채택이 늦어지거나 이를 사용할 수 있는 장치의 개발이 부족하다는 것보다 더 깊숙이 있습니다. 기록에 대한 우리의 무능함은 주로 색인 시스템의 인공성artificiality 때문에 발생합니다. 모든 종류의 데이터가 스토리지에 저장되면 알파벳순 또는 숫자순으로 분류되며, 하위 클래스에서 하위 클래스로 추적하여 정보를 찾을 수 있습니다. 중복을 사용하지 않는 한 한 곳에만 있을 수 있으며, 어느 경로로 찾을 것인지에 대한 규칙이 있어야 하고 규칙이 번거롭습니다. 게다가 하나의 항목을 찾으면 시스템에서 나와 새로운 경로로 다시 들어가야 합니다.
인간의 마음은 그런 식으로 작동하지 않습니다. 연상에 의해 작동합니다. 한 가지 항목을 파악하면 뇌의 세포가 전달하는 복잡한 그물망에 따라 생각의 연상에 의해 제안 된 다음 항목으로 즉시 스냅됩니다. 물론 자주 따라가지 않는 흔적은 희미해지기 쉽고, 항목은 완전히 영구적이지 않으며, 기억은 일시적입니다. 그러나 행동의 속도, 흔적의 복잡성, 정신적 그림의 디테일은 자연의 모든 것을 뛰어넘는 경외심을 불러일으킵니다.
인간은 이 정신적 과정을 인위적으로 완전히 복제할 수는 없지만, 이를 통해 배울 수는 있어야 합니다. 기록은 상대적인 영속성을 지니고 있기 때문에 사소한 방식으로 개선할 수도 있습니다. 하지만 이 비유를 통해 얻을 수 있는 첫 번째 아이디어는 선택에 관한 것입니다. 색인화가 아닌 연관성에 의한 선택은 아직 기계화될 수 있습니다. 따라서 정신이 연상의 흔적을 따라가는 속도와 유연성에 필적할 수는 없지만, 저장소에서 부활한 항목의 영속성과 명확성에 있어서는 정신을 결정적으로 이길 수 있어야 합니다.
일종의 기계화된 개인 파일 및 라이브러리인 미래의 개인용 장치를 생각해 보세요. 이 장치에는 이름이 필요한데, 무작위로 '메멕스Memex'라는 이름을 붙이면 됩니다. 메멕스는 개인이 자신의 모든 책, 기록, 커뮤니케이션을 저장하는 장치로, 기계화되어 있어 매우 빠르고 유연하게 참조할 수 있습니다. 그것은 그의 기억에 대한 확대 된 친밀한 보완제입니다.
----
ㅤ
ㅤ
어떻게 보면 요즘의 Bing으로 할 수 있는 것을 '개인화'하는 접근이기도 하죠. 그러면 이 도구는 우리에게 어떻게 작용하게 될까요?
최근 에밀리 벤더에 관한 글 "당신은 앵무새가 아니다" ( https://www.facebook.com/seungjoon.choi/posts/pfbid02zBVX6umDWF9uBeBB5XnBaq3XGRNPBKiWa3NTPj23aTchdjgptE6ALFTqN6JuJX58l )의 끝에서 네번째 문단을 보면, '초종족'이란 표현이 나옵니다.
----
벤더는 자신이 수조 달러 규모의 게임 체인저를 상대하기에는 역부족이라는 것을 알고 있습니다. 하지만 그녀는 노력하고 있습니다. 다른 사람들도 노력하고 있습니다. LLM은 특정 사람들, 즉 막대한 돈과 권력을 축적할 수 있는 사람들, 특이점이라는 개념에 매료된 사람들이 만든 도구입니다. 이 프로젝트는 종의 의미에서 인간이란 무엇인가를 날려버릴 위험이 있습니다. 하지만 이것은 겸손에 관한 것이 아닙니다. 우리 모두를 위한 것이 아닙니다. 세상의 다른 존재들 사이에서 겸손한 피조물이 되는 것이 아닙니다. 우리 중 일부는 - 솔직히 말해서 - 초종족이 되는 것입니다. 우리 모두는 있는 그대로 동등하게 가치 있는 존재라는 생각에 대한 확고한 경계를 잃을 때를 기다리는 어둠입니다.
----
ㅤ
ㅤ
이런저런 맥락의 지류를 다시 연결해 가며 생각해 보게 됩니다. 흥미로움과 불안함이 함께하는 여정이죠.
* https://paul-graham-gpt.vercel.app/ 의 예에서 보듯 이제 OpenAI API Key를 넣으면 작동하는 것을 자꾸 더 많이 보게될 겁니다. (Key 관리를 안전하게 잘 하는 것도 중요하지만) 예전에 비해 임베딩과 gpt-3.5-turbo의 사용 비용이 무척 저렴해진 만큼, 더 많은 유저가 이것을 사용하게 될 겁니다. 이건 다시 에너지에 관한 이슈로 연결이 되죠. (이 또한 샘 올트먼이 계속 하던 이야기: 계산 비용의 가격은 엄청 낮아지지만 그걸 상회할 정도로 급격한 수요 증가가 있으리란 전망)
ㅤ
ㅤ
* 이러한 접근이 자칫 '저자와의 대화'가 가능해진 것으로 보는 것은 주의할 부분이 있습니다. 역시 '당신은 앵무새가 아니다'의 관련 부분을 인용해 둡니다.
----
마음의 철학자 데넷과 같은 다른 학자들은 훨씬 더 직설적입니다. 그는 "위조 인간"이 있는 세상에서는 우리가 살 수 없다고 말합니다. "위조 화폐는 화폐가 존재한 이래로 사회에 대한 기물 파손으로 여겨져 왔습니다."라고 그는 말합니다. "사형과 사지가 찢기는 형벌이 있었습니다. 위조 인간도 그에 못지않게 심각합니다."
위조 인간은 항상 실제 인간보다 덜 위험하기 때문에 비도덕적 행위자가 될 수 있다고 그는 덧붙였습니다. "형이상학적인 이유가 아니라 단순하고 물리적인 이유 때문이죠: 그들은 일종의 불멸이기 때문입니다."
데넷은 기술 개발자에 대한 엄격한 책임이 필요하다고 주장합니다: "그들은 책임을 져야 합니다. 소송을 제기해야 합니다. 그들이 만든 것이 위조 인간을 만드는 데 사용되면 책임을 져야 한다는 사실을 기록에 남겨야 합니다. 그들이 아직 하지 않았다면 사회의 안정과 보안에 대한 매우 심각한 파괴 무기를 만들기 직전에 있는 것입니다. 분자 생물학자들이 생물학적 전쟁의 가능성을, 원자 물리학자들이 핵전쟁의 가능성을 심각하게 받아들인 것처럼 그들은 이를 심각하게 받아들여야 합니다." 이것이 진짜 코드 레드입니다. 그는 "새로운 태도와 새로운 법을 제정하고 이를 빠르게 확산시켜 사람들을 속이는 것, 의인화를 가치화하는 것을 제거해야 한다"고 말했습니다. "우리는 인공 동료가 아니라 똑똑한 기계를 원합니다."
----
글로벌 리서치 기업인 입소스가 매달 하는 '세계의 걱정거리'라는 여론조사가 있다. 말 그대로 글로벌 29개국 국민들이 뭘 걱정하는지를 들여다보는 조사인데, 일단 리서치 앞단에 '현재 우리나라 국가 운영 방향이 잘 정해진것 같으냐'는 질문을 박고 시작하는게 멋짐 포인트.
2023년 2월의 경우 글로벌 평균은 '맞는 방향으로 가고 있다'는 응답이 38%, '틀린 방향인것 같다'가 62%다. 한국은 맞는 방향이다가 27%, 틀린 방향이다가 73%로 나타났다. 매달 하는 조사니까 1년 전과 비교해보면
[한국]
잘하고 있다 : 41% → 27%
못하고 있다 : 59% → 73%
경제 상황과 관련한 판단을 묻는 질문에 대해서는 '좋지 않은 상황'이라는 답변이 글로벌 평균 66%인데, 한국에서는 이렇게 답변한 사람이 전체의 89%로 나온다. 경제 안좋다는 응답이 1년 전 보다 14%p가 증가했다. 독특한 점은 다른 나라는 다 요즘 물가가 걱정인데 한국은 상대적으로 물가보다는 취업, 일자리에 대한 우려가 더 높다는 것.
이번 조사 결과에는 3월달 들어 전격적으로 단행된 주 69시간 근무 허용 방침이나, 굴욕적인 강제징용 정부입장 발표는 반영되지 않았다. 이 정부는 무슨 짓을 하든 일단 속도는 빠르니까 여론조사 추이 보는 재미는 있겠다.
*리서치 전체 요약은 첫 댓글에