제가 대규모 언어모델에 관심이 많은 건 잘 아실 겁니다. 앞으로 기자의 업무 향상 등에 가장 영향을 미치게 될 관련 기술이라고 보기 때문인데요. 최근 들어 규모 측면에서나 성능 측면에서나 괄목할 만한 성과가 계속 발표되는 중인 듯합니다.

구글 I/O 2022에서 소개된 구글의 LaMDA2(이하 람다2, 테스트 키친 포함)나 지난 4월 공개된 오픈AI의 DALE2 등도 계속 유심히 살펴보는 중인데요. 특히 람다2는 기존 언어모델에 자체 도구 학습 모델을 적용한 것이 눈에 띌 정도였습니다. 언어모델이 자체 검색을 하고 이 결과값을 반영해 가는 과정이 제법 검색을 통한 '팩트체크'와 닮은 듯했습니다. 아직 갈 길이 멀지만요.

Week 51 - 교육용 챗봇의 미래!? 구글 람다 (LaMDA) 2편
미래에는 AI 챗봇(chatbot)이 우리 아이들을 가르치는 세상이 과연 올까요? 생각해보면 우리는 이미 그러한 세상에 살고 있는 것은 아닐까요? ”왜 하늘은 파랄까?”를 선생님 같은 인간이나 백과사전 같은 책보다는 스마트폰에서 먼저 검색해보는게 자연스러운 세상이 되었습니다. 그럼에도 불구하고, 사람처럼 대화를 할 수 있는 챗봇이 선생님의 역할을 한다는 것은 아직은 SF

다름 아니라 언어모델이 가져올 몇 년 뒤의 모습을 제법 구체적으로 설명한 글이 있어서 여기 번역했습니다. 러셀 캐플란 Scale AI 엔지니어링 디렉터가 트위터에 쓴 글입니다. 이 분은 테슬라에서 오토파일럿 개발에 참여한 경력도 가지고 있습니다. 제법 훌륭한 통찰을 제공하고 있기에 소개할 만해서 이렇게 가져왔습니다.

가장 인상적인 문구는 언어모델이 새로운 플랫폼 게이트키퍼가 될 것이라는 전망입니다. 아시다시피 언어모델을 개발할 수 있는 기업은 한정돼 있습니다. 어머어마한 규모의 컴퓨팅 자원이 없으면 감히 시도할 수가 없습니다. 그 방대한 학습용 데이터를 또 어떻게 조달을 할 수 있을까요? 결국 계속 이 자원을 빌려쓰게 될 것이고, 그 편리함에 빠져나오기도 어려울 것입니다. 비용 지출을 계속 될 것이고요. (결국 정부 지원과 자원을 필요로 하게 되지 않을까 싶기도 합니다.)

아, 끝으로 언어모델이 작성한 '스폰서드 광고'가 등장할 날이 머지 않은 것 같습니다. 광고 콘텐츠에 특정 광고주에게 유리한 내용이 포함되도록 하거나 그리하는 상품이 등장할 것이라는 전망도 담겨 있네요. 흥미롭지 않나요?


대규모 언어 모델 부상의 2차 효과:

  1. 곧 창작자를 위한 모든 제품에는 대규모 언어 모델의 인텔리전스가 내장될 것입니다(VSCode의 Copilot, Photoshop의 DALL-E 2, GDocs의 GPT-3). 이러한 프로덕트를 만드는 회사는 자체적인 대규모 언어 모델을 직접 출시하거나 OpenAI/Google 등에 세금을 납부해야 합니다.
  2. 시간이 지남에 따라 기업은 'Compute Rich'와 'Compute Poor'로 계층화될 것입니다. 많은 Compute Poor 회사는 Compute Rich의 ML 모델에 실질적으로 의존하게 될 것입니다.
  3. 이러한 Compute Rich 회사는 향후 10년의 새로운 플랫폼 게이트키퍼가 될 것입니다. Apple이나  페이스북이 오늘날 생태계에 의존하는 회사(Epic Games, Zynga)를 추방할 수 있는 것처럼, 미래에는 언어모델에 대한 액세스 권한을 잃으면 제품이 작동하지 않게 될 것입니다.
  4. 가장 진지한 Compute Rich 회사는 컴퓨팅 공급망, 즉 칩에 대한 액세스를 공격적으로 보호할 것입니다. Tesla가 리튬 채굴 권리를 구매하는 방법과 마찬가지로 Compute Rich 회사는 그들 대형 언어모델의 계속 증가하는 (데이터) 굶주림을 충족시킬 수 있도록 보장해야 할 것입니다.
  5. 이것이 대부분의 진지한 AI 회사가 이제 자체 트레이닝 칩을 설계하는 이유이기도 합니다. NVIDIA에 65%의 총 마진을 지불하거나 아니면 자체 트레이닝 칩을 사용함으로써 각 한계 달러가 불가피한 수십억 달러의 자본 지출을 3배까지 늘릴 수 있습니다.
  6. 정부는 궁극적으로 가장 큰 언어모델을 훈련시키기 위한 컴퓨팅 인프라를 보유하는 것이 국가 안보에 필수적이라는 것을 깨닫게 될 것입니다. 10년 안에 우리는 기존 클러스터를 땅콩처럼 보이게 만드는 AI 슈퍼컴퓨팅을 위한 새로운 맨해튼 프로젝트를 보게 될 것입니다.
  7. 2022년 최대 규모의 공공 AI 슈퍼컴퓨터 프로젝트는 ~$1B의 설비 투자 규모인 Facebook의 AI RSC(https://ai.facebook.com/blog/ai-rsc/)입니다. 원래 맨해튼 프로젝트는 ~$300억이었고 우주 경쟁은 인플레이션을 고려하여 ~$2500억이었습니다. 지출 증가 측면에서 엄청난 규모의 정도를 남기고 있습니다.
  8. 생성적 언어모델이 검색을 천천히 대체할 것입니다. 사용 중인 제품에 포함되어 필요한 정확한 답변을 얻을 수 있는데 왜 Google에서 뭔가를 해야 할까요? Copilot(https://copilot.github.com)과 같은 것으로 이미 이와 관련한 암시가 있었습니다. 이러한 경향은 많은 함의를 가지고 있습니다.
  9. 사용자 생성 콘텐츠가 포함된 웹 속성은 데이터가 AI 모델을 트레이닝하는 데 사용될 때 로열티를 요구하도록 라이선스 조건을 변경합니다. StackOverflow는 가치가 있지만 편집자가 이미 질문에 대한 답을 알고 있는데 왜 방문하겠습니까?
  10. 마케터는 SEO 최적화 대신 ML 모델에 의해 생성되는 콘텐츠의 로그 가능성을 최대화하기 시작할 것입니다. 이는 마케팅 데이터 중독 공격(https://paperswithcode.com/task/data-poisoning)과 같은 예기치 않은 결과를 초래할 것입니다.
  11. 언어모델에 대한 후원 결과물(Sponsored Output)도 보게 될 것입니다. 광고주는 제품의 모델 출력물(값)을 조절/수정하기 위해 비용을 지불할 수도 있을 겁니다. 상당한 연구 노력이 언젠가 v2 AdWords에 들어갈 것이며, 이제 검색의 게재 위치 대신 광고가 생성될 가능성에 대한 비용을 지불하게 됩니다.
  12. 확실한 것은, 좀 특이해질 것이라는 것뿐입니다.