세상만사 이야기

앞서가는 테크 기업을 성채에 비유하는 것이 좋은 비유일지는 갸우뚱 거리며 생각해 보게되는데요. ㅡ최승준님

무열이 서로구독 구해요 2023. 5. 19. 10:31
728x90

메꿔갔던 해자(Moat, 垓字: 성이나 도시 주위의 호)를 다시 깊이 파는 눈썹 위로 올라간 눈

앞서가는 테크 기업을 성채에 비유하는 것이 좋은 비유일지는 갸우뚱 거리며 생각해 보게되는데요.

지난 주인 5월 4일에는 Google "We Have No Moat, And Neither Does OpenAI" ( https://www.semianalysis.com/p/google-we-have-no-moat-and-neither )라는 구글 내부에서 유출됐단 글에 인사이트가 많다며 타임라인에 많이 회자되는 모습을 봤습니다.

* Simon Willison의 관련 글: https://simonwillison.net/2023/May/4/no-moat/

그런데 정작 5월 10일의 구글 I/O에선 PaLM 2의 모델 중 Gecko가 스마트폰에 오프라인으로도 작동할 수 있단 소식을 접할 수 있었죠. ( https://www.youtube.com/watch?v=cNfINi5CNbY&t=706s 11분 47초 즈음 )

* 현재 학습 중인 구글 딥마인드의 Gemini도 다양한 크기의 모델로 나온다고 하죠. ( https://youtu.be/cNfINi5CNbY?t=956 15분 56초 즈음)

그래서 No Moat이란 글을 훑어 봤을 때 들었던 좀 의아하게 느껴졌던 부분에 관해 좀 더 생각해 보게 됐습니다. 오픈 소스는 누구에게나 열려있으니까, 큰 모델 하는 곳이라고 거기서 아이디어를 얻지 말란 법이 없자나요.

마침 어제 밤 클로드 1.3 100K에 관한 포스팅( https://www.facebook.com/seungjoon.choi/posts/10228898949954058 )의 댓글에 다음의 답을 남기고선...
----
그러한 작은 모델의 성능을 높이는데 큰 모델이 필요한 상황이더라고요. 일종의 distillation 작업이라, 작고 성능 좋은 모델들의 쓰임새도 있고 차이도 줄어들겠지만 차이가 없어지진 않을 것 같습니다. 그래서 조금이라도 차이가 중요한 쪽에서는 더 비용이 높더라도 그걸 지불할 수 밖에 없고요. 그리고 이번에 구글 I/O의 PaLM2 모델 중 Gecko를 보듯, 빅테크도 스마트폰 / 오프라인에서 돌아가는 작은 모델을 다룹니다. 오픈 소스 진영에서 하는 것은 누구에게나 열려있는 거니까요. 또 작은 모델에 관한 함의는 이번에 OpenAI가 GPT-4를 사용해서 GPT-2 의 모든 뉴런의 해석을 하는 시도를 하듯, 해석 가능 연구에도 도움이 되기 때문에 성능 좋은 작은 모델이 나오면 이 디지털 인텔리전스의 능력이 뭔지 더 잘 알게 되면서 주마가편이 되지 싶습니다. 이미지 생성 모델 쪽을 보면 스테이빌러티 덕에 스테이블 디퓨전 모먼트라는 말이 생겼는데, 그 이후로 파생 작업이 대 폭발로 이루어졌지만 아직까지 스틸 이미지에서 가장 품질이 좋은 것은 모델과 데이터넷을 공개하지 않고 계속 파고든 미드저니인 것이 참고가 되지 싶습니다.
----

... 자료를 좀 더 정리해 봅니다.

* 언어 모델의 뉴런을 설명할 수 있는 언어 모델: https://www.facebook.com/seungjoon.choi/posts/10228887013615657

5월 5일에는 MosaicML이 Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs ( https://www.mosaicml.com/blog/mpt-7b )를 발표했었는데요. MosaicML의 최근 행보를 보면,

* 4월 26일 Training Stable Diffusion from Scratch for <$50k with MosaicML (Part 2): https://www.mosaicml.com/blog/training-stable-diffusion-from-scratch-part-2
----
우리는 5만 달러 미만의 비용으로 Stable Diffusion 2를 복제했으며, 트레이닝 코드를 오픈소스화하여 여러분도 사용할 수 있도록 했습니다! 이는 지난 블로그 게시물에 비해 3배, 기존 Stable Diffusion 2에 비해 8배나 비용이 절감된 것으로, 대규모 확산 모델을 처음부터 다시 훈련하는 것이 그 어느 때보다 쉬워졌습니다.
----

작년 가을-겨울의 스테이블 디퓨전 2 (base 모델)에 비해 8배 비용 절감하고, 128대의 A100을 사용해서 7.45 일에 학습을 끝내는 모습을 볼 수 있습니다. MPT-7B는 그런 MosaicML 플랫폼의 실력을 보여주는 또 다른 예인 것 같아요.

MPT-7B는 MosaicML 플랫폼에서 9.5일간 약 ~$200K 비용으로 학습했다고 합니다.

좋은 데이터만 있으면 디스틸레이션만 아니라 처음 부터 학습하는 것도 작년... 아니 올해 초 대비 더 효율적으로 할 수 있는 상황이란 것이죠.

이런 추세는 상향 평준화되고 있는 것 같습니다.

그런데 콤팩트한 모델에서 상대적으로 높은 품질의 생성이 가능하다면, Language models can explain neurons in language models ( https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html )의 automating interpretability 접근을 통해 얘네가 뭔지 좀 더 잘 알게되고 얼라인먼트만 아니라 모델을 더 효율적으로 만드는 것에서 힌트를 더 얻게 되지 않을까 하는 막연한 상상을 하게 되죠.

그리고 거기서 얻은 노하우는 다시 더 큰 모델의 품질을 높이는데 '기계적으로' 적용될 수 있는 것(동시에 부트스트래핑)은 혹시 아닐까 하는 상상을 더하게 되고요. 말 처럼 간단한 것은 아니겠지만요. 스튜던트 - 티쳐가 계속 다음 단계의 토대를 쌓아가는 상 같은 것을 떠올리게 되네요. 특히 '개선'을 모델의 동기나 Goal로 설정할 때 (제프리 힌튼 등이 그러면 안된다고 하지만) '개선'에 관한 '직관'을 얻는 다면 곤란할 것 같아요. (알파 제로에 바둑 등에 관한 직관 같은 것이 생기듯)

이러한 접근은 앞서가는 테크 기업에서 잘 하겠죠. Anthropic의 트랜스포머 써킷 https://transformer-circuits.pub 시리즈를 보면, 토이 트랜스포머 모델을 파고드는 것을 볼 수 있는데, 거기서 얻은 연구 성과가 Claude 개발에 얼마나 피드백이 되고 있는지는 알 수 없지만, 작은 모델을 파고들고 있는 것은 분명합니다.

그래서 오픈 소스의 성과는 이미 앞서가는 테크 기업에도 큰 도움을 주지 싶어요. 어쩌면 더 도움을 줄 수도 있죠.

그런데 사람들의 눈 높이는 너무 높아져서 PaLM2를 탑재한 요즘의 Bard에도 그리 만족을 하지 못한단 말이죠. 일리야 수츠케버의 인터뷰 중 하나( https://www.youtube.com/watch?v=Wmo2vR7U9ck )에서 결국 높은 비용을 지불하는데 주저하지 않는 큰 모델의 품질을 필요로 하는 티어가 (늘) 있을 거란 이야기를 하는데요.

Gen AI에 있어 눈 높이가 높아져 버리면 다시 낮게 돌아가는게 쉽지 않긴 하더라고요. 이미지 / 비디오 생성 쪽이나 LLM이나 매한가지입니다.

OpenAI의 32K 컨텍스트 윈도우를 훌쩍 뛰어 넘는 Claude의 100K 컨텍스트 윈도우 모델들이 나오는 마당에... 그게 가능할 때 얻을 수 있는 결과가 작은 모델 대비 큰 비교 우위를 갖는다면... (아주 큰 비교 우위가 아니더라도) 그건 다시 좋은 '해자(Moat)' 역할을 할 것 같습니다.

올해 2월 초에 흥미로운 사건이 하나 있었는데, 트위치에서 상영되던 생성 시트콤 Nothing, Forever가 멈춘 일이 있었죠.

* Nothing, Forever와 Gen-1 ~ 가능성, AI 안전, 백래시 그리고 본질: https://www.facebook.com/seungjoon.choi/posts/10228270374720070

----
"문제의 근본 원인을 조사하고 있습니다."라고 스태프인 tinylobsta가 디스코드에 썼습니다. "오늘 밤 초에 OpenAI의 GPT-3 다빈치 모델을 사용하는 데 장애가 발생했고, 이로 인해 쇼가 잘못된 동작을 보였습니다(빈 방이 순환하는 것을 보셨을 수도 있습니다). OpenAI에는 다빈치의 전신인 덜 정교한 모델인 퀴리(Curie)가 있습니다. 다빈치가 실패하기 시작하자 다운타임 없이 쇼를 계속 운영하기 위해 퀴리로 전환했습니다. 퀴리로 전환하면서 부적절한 텍스트가 생성되는 문제가 발생했습니다. 저희는 OpenAI의 컨텐츠 조정 도구를 활용하는데, 다빈치 모델에서는 지금까지 잘 작동했는데 퀴리에서 문제가 발생했습니다. 다빈치 모델과 관련된 문제의 근본 원인을 파악할 수 있었으며, 앞으로는 퀴리를 대체 수단으로 사용하지 않을 것입니다. 이 글이 어떻게 이런 일이 발생했는지 조금이나마 밝혀지기를 바랍니다."
----

저희는 OpenAI의 컨텐츠 조정 도구를 활용하는데, 다빈치 모델에서는 지금까지 잘 작동했는데 퀴리에서 문제가 발생했습니다.

OpenAI도 진작 부터 여러 크기의 모델을 제공하고 있었는데, 작은 모델은 안전/얼라인먼트에 상대적으로 더 문제가 있었다는 교훈입니다.

그래서 우리의 눈 높이(또는 기대)가 기껏 메꿔져 가는 '해자'를 다시 깊게 팔 수 있단 가능성을 생각해 보게 됩니다.

이래나 저래나 더 높은 디지털 인텔리전스의 도래를 촉진하는데 복무하는 거죠.

* Exploring ChatGPT vs open-source models on slightly harder tasks
https://medium.com/@marcotcr/exploring-chatgpt-vs-open-source-models-on-slightly-harder-tasks-aa0395c31610


* NOTHING, FOREVER - S2 v1.4 | AI generated, always on, always weird | what's the weather like today? 는 다시 상영 중 입니다. https://www.twitch.tv/watchmeforever

WatchMeForever - Twitch

NOTHING, FOREVER - S2 v1.4 | AI generated, always on, always weird | what's the weather like today?

www.twitch.tv



츨처 https://m.facebook.com/story.php?story_fbid=pfbid02eLMMuLi3MpjP3X9eSn6mmGhbHcvVg7P1EcT3YzJ1TTfwvU5BHtqbd9bcwunLF9p8l&id=1099336960&mibextid=Nif5oz

728x90
반응형
그리드형