제가 대규모 언어모델에 관심이 많은 건 잘 아실 겁니다. 앞으로 기자의 업무 향상 등에 가장 영향을 미치게 될 관련 기술이라고 보기 때문인데요. 최근 들어 규모 측면에서나 성능 측면에서나 괄목할 만한 성과가 계속 발표되는 중인 듯합니다.
구글 I/O 2022에서 소개된 구글의 LaMDA2(이하 람다2, 테스트 키친 포함)나 지난 4월 공개된 오픈AI의 DALE2 등도 계속 유심히 살펴보는 중인데요. 특히 람다2는 기존 언어모델에 자체 도구 학습 모델을 적용한 것이 눈에 띌 정도였습니다. 언어모델이 자체 검색을 하고 이 결과값을 반영해 가는 과정이 제법 검색을 통한 '팩트체크'와 닮은 듯했습니다. 아직 갈 길이 멀지만요.
다름 아니라 언어모델이 가져올 몇 년 뒤의 모습을 제법 구체적으로 설명한 글이 있어서 여기 번역했습니다. 러셀 캐플란 Scale AI 엔지니어링 디렉터가 트위터에 쓴 글입니다. 이 분은 테슬라에서 오토파일럿 개발에 참여한 경력도 가지고 있습니다. 제법 훌륭한 통찰을 제공하고 있기에 소개할 만해서 이렇게 가져왔습니다.
가장 인상적인 문구는 언어모델이 새로운 플랫폼 게이트키퍼가 될 것이라는 전망입니다. 아시다시피 언어모델을 개발할 수 있는 기업은 한정돼 있습니다. 어머어마한 규모의 컴퓨팅 자원이 없으면 감히 시도할 수가 없습니다. 그 방대한 학습용 데이터를 또 어떻게 조달을 할 수 있을까요? 결국 계속 이 자원을 빌려쓰게 될 것이고, 그 편리함에 빠져나오기도 어려울 것입니다. 비용 지출을 계속 될 것이고요. (결국 정부 지원과 자원을 필요로 하게 되지 않을까 싶기도 합니다.)
아, 끝으로 언어모델이 작성한 '스폰서드 광고'가 등장할 날이 머지 않은 것 같습니다. 광고 콘텐츠에 특정 광고주에게 유리한 내용이 포함되도록 하거나 그리하는 상품이 등장할 것이라는 전망도 담겨 있네요. 흥미롭지 않나요?
대규모 언어 모델 부상의 2차 효과:
- 곧 창작자를 위한 모든 제품에는 대규모 언어 모델의 인텔리전스가 내장될 것입니다(VSCode의 Copilot, Photoshop의 DALL-E 2, GDocs의 GPT-3). 이러한 프로덕트를 만드는 회사는 자체적인 대규모 언어 모델을 직접 출시하거나 OpenAI/Google 등에 세금을 납부해야 합니다.
- 시간이 지남에 따라 기업은 'Compute Rich'와 'Compute Poor'로 계층화될 것입니다. 많은 Compute Poor 회사는 Compute Rich의 ML 모델에 실질적으로 의존하게 될 것입니다.
- 이러한 Compute Rich 회사는 향후 10년의 새로운 플랫폼 게이트키퍼가 될 것입니다. Apple이나 페이스북이 오늘날 생태계에 의존하는 회사(Epic Games, Zynga)를 추방할 수 있는 것처럼, 미래에는 언어모델에 대한 액세스 권한을 잃으면 제품이 작동하지 않게 될 것입니다.
- 가장 진지한 Compute Rich 회사는 컴퓨팅 공급망, 즉 칩에 대한 액세스를 공격적으로 보호할 것입니다. Tesla가 리튬 채굴 권리를 구매하는 방법과 마찬가지로 Compute Rich 회사는 그들 대형 언어모델의 계속 증가하는 (데이터) 굶주림을 충족시킬 수 있도록 보장해야 할 것입니다.
- 이것이 대부분의 진지한 AI 회사가 이제 자체 트레이닝 칩을 설계하는 이유이기도 합니다. NVIDIA에 65%의 총 마진을 지불하거나 아니면 자체 트레이닝 칩을 사용함으로써 각 한계 달러가 불가피한 수십억 달러의 자본 지출을 3배까지 늘릴 수 있습니다.
- 정부는 궁극적으로 가장 큰 언어모델을 훈련시키기 위한 컴퓨팅 인프라를 보유하는 것이 국가 안보에 필수적이라는 것을 깨닫게 될 것입니다. 10년 안에 우리는 기존 클러스터를 땅콩처럼 보이게 만드는 AI 슈퍼컴퓨팅을 위한 새로운 맨해튼 프로젝트를 보게 될 것입니다.
- 2022년 최대 규모의 공공 AI 슈퍼컴퓨터 프로젝트는 ~$1B의 설비 투자 규모인 Facebook의 AI RSC(https://ai.facebook.com/blog/ai-rsc/)입니다. 원래 맨해튼 프로젝트는 ~$300억이었고 우주 경쟁은 인플레이션을 고려하여 ~$2500억이었습니다. 지출 증가 측면에서 엄청난 규모의 정도를 남기고 있습니다.
- 생성적 언어모델이 검색을 천천히 대체할 것입니다. 사용 중인 제품에 포함되어 필요한 정확한 답변을 얻을 수 있는데 왜 Google에서 뭔가를 해야 할까요? Copilot(https://copilot.github.com)과 같은 것으로 이미 이와 관련한 암시가 있었습니다. 이러한 경향은 많은 함의를 가지고 있습니다.
- 사용자 생성 콘텐츠가 포함된 웹 속성은 데이터가 AI 모델을 트레이닝하는 데 사용될 때 로열티를 요구하도록 라이선스 조건을 변경합니다. StackOverflow는 가치가 있지만 편집자가 이미 질문에 대한 답을 알고 있는데 왜 방문하겠습니까?
- 마케터는 SEO 최적화 대신 ML 모델에 의해 생성되는 콘텐츠의 로그 가능성을 최대화하기 시작할 것입니다. 이는 마케팅 데이터 중독 공격(https://paperswithcode.com/task/data-poisoning)과 같은 예기치 않은 결과를 초래할 것입니다.
- 언어모델에 대한 후원 결과물(Sponsored Output)도 보게 될 것입니다. 광고주는 제품의 모델 출력물(값)을 조절/수정하기 위해 비용을 지불할 수도 있을 겁니다. 상당한 연구 노력이 언젠가 v2 AdWords에 들어갈 것이며, 이제 검색의 게재 위치 대신 광고가 생성될 가능성에 대한 비용을 지불하게 됩니다.
- 확실한 것은, 좀 특이해질 것이라는 것뿐입니다.
Second order effects of the rise of large language models:
— Russell Kaplan (@russelljkaplan) April 10, 2022