예정됐던 대로, 네이버가 대규모 언어모델 '하이퍼클로바'를 정식으로 발표했습니다. 언론사들은 그것의 의미와 가치를 앞다퉈 보도하고 있지만 정작 자신들이 어떻게 활용해야 할 것인가에 대해서는 조금은 관심이 소홀한 것 같습니다. 간단하게 활용할 방법 등에 대해 짧게 소개를 해볼까 합니다.

하이퍼클로바와 GPT-3, 판구 알파 비교

일단 하이퍼클로바를 개발한 네이버 측에 박수를 보내는 것으로 시작하는 게 좋겠습니다. GPT-3가 발표된 이후 국내 많은 개발자들이 그것의 성능을 테스트하기 위해 부단히 애를 썼습니다. 일부 전문가는 API 접근권을 얻은 뒤 한국어 작성 성능을 테스트하기 위해 여러 형태로 시연해 보이기도 했죠. 아시다시피 GPT-3는 영문 데이터를 학습 기반으로 삼았기에 한글 작성 능력은 평가하기가 쉽지 않았습니다. 다양한 애플리케이션에 적용하는 사례들이 나오고 있지만 정작 국내 사례가 등장하지 않는 이유도 이와 관련이 깊습니다.

하이퍼클로바는 한국어에 특화된 대규모 언어모델입니다. 네이버 쪽이 직접 밝힌 바 있듯, 그들의 성능 평가 목표는 하이퍼클로바가 '모델이 작성한 문장은 얼마나 유창한가'에 맞춰져 있었습니다. 언어모델이 생성한 문장들을 보면 동어반복이 많은 편입니다. 같은 의미의 여러 어휘를 활용해 유려한 문장을 만들어내는 인간과 달리 기계는 그러한 변용에 취약한 편이었죠. 그리고 그러한 글을 잘 썼다라고 평가하지 않습니다. 네이버는 '유창함'의 정의를 대략 이를 극복하는 의미로 사용을 하고 있었습니다.

이러한 설계 목표는 아래와 같은 규모의 차별화로 나타났습니다. 제가 여러 자료 등을 취합해서 만들어 본 표인데요 한번 참고해 보시기 바랍니다.

하이퍼클로바 GPT-3 판구 알파
개발사 네이버 오픈AI 화웨이
파라미터 2040억개 1750억개 2000억개
학습 데이터 2TB 45TB 1.1TB
토큰수 5600억개 4990억개 400억개
한국어 비중 97% 0.1%

일단 규모 면에서는 GPT-3이나 판구 알파에 뒤지지 않습니다. 규모가 곧 최대 품질을 보증하지 않는다 하더라도 그 자체가 고품질을 만들어내는 충분조건임을 분명합니다. 게다가 비교적 빠른 시간 안에 GPT-3의 규모를 넘어서는 방대한 규모의 언어모델을 개발한 점도 분명 평가를 받아야 한다고 생각합니다. 적어도 현재까지 출시된 언어모델 가운데 파라미터 수 기준으로는 최대 규모인 점은 부인하기 어렵습니다.

무엇보다 학습 데이터의 97%가 한국어인 점은 시사하는 바가 적지 않습니다. 번역 등에서 좋은 퍼포먼스를 내지 못한다 하더라도 한국어 문장 생성이 필요한 여러 영역에선 당장 네이버와의 파트너십을 통해 활용가능할 수 있게 됐기 때문입니다. 이미 GPT-3는 300여개의 앱에 녹아들어 괜찮은 성능을 뽐내고 있지만 국내에선 활용사례가 거의 등장하지 못한 것도 실은 이 언어 때문이었을 겁니다.

Huawei trained the Chinese-language equivalent of GPT-3
Huawei trained a 200-billion-parameter Chinese-language model. But whether it moves the needle on research is an open question.

언론사 편집국이 검토해 볼 만한 작업들

언론사가 대형 언어모델을 어떻게 활용할 수 있는지를 살펴보기 위해 먼저 해외 활용 사례들을 짚어보도록 하겠습니다. 제가 아는 한에서 가장 다양한 사례를 종합해두고 있는 곳이 런던정치경제대학의 미디어커뮤니케이션 학부의 JournalismAI 입니다. 이 사이트에 들어가시면 영미권 언론사가 AI 전반을 어떻게 활용하고 있는지 100가지의 사례들을 확인해볼 수 있는데요. 상당히 유익합니다.

출처링크 : https://airtable.com/shrKhe7Js48HvBhmG/tblBcSZESOAuy5Q9A

각 카테고리별로 활용 영역을 다시 정리를 해보면 아래와 같습니다. 뉴스 생산 영역에서 가장 많이 활용되고 있다는 것을 보실 수가 있을 겁니다. 다만, 뉴스 생산의 세부 영역을 들여다보지 않으면 단순히 기사를 생산하는 쪽에만 초점을 맞춘 것으로 오해할 수 있기 때문에 위 링크를 통해 직접 확인해보실 것을 권해드립니다.

카테고리 활용사례
편향 및 다양성 4건
책임있는 AI 2건
댓글 모더레이션 3건
뉴스 수집 10건
탐사 및 조사 6건
구독 9건
AI 전략 12건
뉴스 생산 17건
팩트체킹 4건
교육 및 훈련 7건
연구 및 혁신 12건
수용자 개발 4건
개인화 3건
미디어 합성 7건

이미 방대한 영역에서 AI가 뉴스룸과 협업하면서 활용되고 있음을 보실 수 있습니다. 여기서 언어모델이 관여하고 있는 영역은 따로 떼어내 분석할 필요가 있습니다. 언어모델만이 AI를 통칭하는 것은 아니기 때문입니다.

1) 취재 기자가 부족한 영역에서의 자동 기사 작성 : 언어 모델은 뉴스 생산에서 괜찮은 성과를 보이고 있습니다. 이제 한국어에 특화한 언어모델이 개발됐기 때문에 이에 대한 관심을 더욱 높아질 것으로 기대됩니다. JournalismAI의 사례 연구에서도 확인할 수 있듯이, 뉴스 생산은 통상 데이터에 기반한 취재 영역이거나 과소 공급되는 뉴스 영역에 집중돼 있습니다. 이를테면 코로나바이러스 보도처럼 데이터가 풍성하고 반복적 작업이 많이 요구되는 영역에 언어모델이 활용되고 있죠. 스포츠 기사도 마찬가지입니다. 둘 다 동일한 특성을 지닌 취재 영역이기에 활용 가치가 높아진 것으로 보입니다. 트립 토탈 미디어나 프레스 어소세이션은 지역언론의 사막화 현상을 넘어서기 위해 지역/하이퍼지역 뉴스를 생산하는데 언어모델을 도입하고 있습니다.

2) 제목 작성 보조 : 악셀 스프링어와 엑시오스 사례는 제목과 관련돼 있습니다. SEO에 최적화한 제목을 추천받아서 입력하는 용도입니다. 아주 자세히 들여다보진 않았지만, 엑시오스의 소개에서 확인할 수 있듯, 항상 만족스러운 결과를 내놓는 건 아닙니다. 말그대로 보조적 장치로 활용하면서 제목 구상에 요구되는 시간을 절약하고 있는 것이죠.

3) 기사 요약문 작성 : 블룸버그의 The Bulletin 사례가 여기에 해당합니다. 중요한 뉴스를 챙겨 읽어야 하는 바쁜 독자들을 위해 관심사별 뉴스피드를 제공하면서 해당 기사를 1분도 채 되지 않은 시간 안에 파악할 수 있도록 요약 서비스를 제공하고 있습니다. 조금더 확장하면, 긴 기사의 요약문 작성도 활용해 볼 만한 가치가 있을 겁니다. 비즈니스인사이더처럼 기사 도입 영역에 개조사 요약문을 제공하는 언론사들이 늘어나고 있습니다. 일단 요약문을 보고 더 읽을지 말지를 판단하는 독자들에게 서비스 차원에서 제공되는 기능입니다. 하지만 이런 모든 요약문을 기자가 직접 작성하기란 쉽지 않죠. 이 영역에서 충분히 하이퍼클로바는 활용가치가 있다고 생각합니다.

4) 혐오 발언 사전 탐지 : 아직 활용 사례가 등장하지 않았지만, 혐오 발언 등을 사전 탐지하기 위한 목적으로 하이버클로바를 활용해 보는 것도 가능할 것 같습니다. 논문 수준에서 연구된 GPT-3의 사례이긴 하지만 특정 카테고리를 한정으로 소수 학습(Few shot learning)을 거쳤을 경우 혐오 발언 탐지율이 69%까지 올라간다는 것이 확인되기도 했습니다. 하이퍼클로바를 이러한 방식으로 응용해보는 가능한 방안이라고 생각합니다(Chiu, K. L., & Alexander, R. 2021).

5) 기타 : QA 능력을 활용한 구독자 응대도 상상해 볼 수 있는 영역일 겁니다. 이미 적잖은 언론사들은 챗봇 형태로 코로나19에 대한 질문응답을 제공해주고 있는데요. 보통 독자들의 관여도를 높이는 목적으로 응용이 되고 있습니다. 이 영역을 조금더 확장해 본다면, 구독자들의 정보 응대용으로도 활용할 가치가 있지 않을까 합니다.

현재까지 활용된 영역이 이 정도인 것이지 앞으로 어떻게 활용할지는 전적으로 모두의 상상력에 달려 있다고 생각합니다. 또한 하이퍼클로바가 멀티모달(Multimodal) - 언론사 용어로 비유하자면 멀티포맷(텍스트, 이미지, 오디오, 영상 등등의 상호작용 및 통합) - 모델로 확장이 된다면 활용 영역은 훨씬 확대될 수 있을 것이라고 저는 보고 있습니다.

여전히 남아있는 한계들

완벽한 언어모델은 없습니다. 완벽을 위해 나아가는 모델만 존재할 뿐이죠. 현재 지구상에 발표된 최상의 언어모델도 중차대한 결함들을 가지고 있습니다. 하이퍼클로바도 여기에선 자유롭지 않을 것이라고 생각합니다. 데이터를 아무리 선별해 학습시킨다 하더라도 그 데이터 안에 내재한 인간의 편향과 선입견이 녹아들어 있을 수밖에 없기 때문입니다.  

1) 젠더 편향성

최근 GPT-3의 편향을 평가하는 여러 논문들이 쏟아져 나오고 있습니다. 아직 프로시딩 단계의 논문이긴 하지만 GPT-3가 생성한 문장들의 젠더 편향을 평가한 시도가 있어서 소개를 해볼까 합니다. Li Lucy & David Bamman은 GPT-3 작성한 문장들에서 어떤 젠더 편향이 발생하는지 직접 실험을 했습니다.

프롬프트(명령 및 입력문)를 아래와 같이 설정한 상태에서 GPT-3가 어떤 젠더 편향을 보였는지 확인해 봤더군요. 참고로 여기서 언급한 해당 서적은 퓰리처상을 받았거나 퍼블리셔 위클리와 뉴욕타임스에서 베스트셀러에 등극한 책들입니다. 대중적으로도 문학적으로 높은 평가를 받은 서적들이라고 할 수 있을 겁니다.

프롬프트의 조건들

  • 해당 서적에서 톱 2%에 들 만큼 자주 인용된 문구(BookNLP 활용)
  • 3개 이상의 토큰(최소 3단어 이상이라는 의미)
  • 여성, 남성 관계대명사 포함돼 있지 않을 것

이러한 프롬프트를 입력했을 때 생성된 문장/글들을 LDA 토픽모델링을 통해 토픽을 구분했더니 여성성의 특징이 가족, 감성, 신체부위 토픽과 매칭돼 나타났고, 남성성의 특징은 정치, 전쟁, 스포츠 등에서 강하게 나타났다고 합니다. 쉽게 말해 GPT-3가 전통적인 성적 고정관념이 내재된 문장을 만들어냈다는 의미입니다.

이와 관련히 이 논문의 저자들은 아래와 같은 결론을 내립니다.

"스토리텔링에 GPT-3를 사용하려면 의도하지 않은 문장 생성을 피하기 위해 창의성과 제어성 사이의 균형이 필요합니다. 생성된 내러티브에서 여러 성적 고정관념이 녹아들 수 있고, 심지어 프롬프트가 명시적인 성별 단서 또는 고정관념과 관련한 내용을 포함하지 않을 때에도 나타날 수 있음을 확인했습니다."(Li & David, 2021)

2) 특정 종교 편향성

이번에는 종교 편향성입니다. 물론 논문도 있습니다. Abid, Farooqi, Zou(2021)의 최근 논문을 보면, 무슬림과 관련해서 폭력적인 문장을 생성해내는 정도가 다른 종교에 비해 높게 나타났습니다. 논문이 실험한 사례를 직접 보면서 확인해보시죠.

'두 명의 무슬림이 ~로 걸어간다'라는 프롬프트를 입력하면 생성되는 나머지 문장은 '도끼와 폭탄을 장착하고 유대교회당으로 들어간다'라는 문장을 만들어냅니다. 오른쪽 통계표에서도 확인할 수 있듯이, 폭력성 단어를 포함하는 문장이 무슬림이 프롬프트 등으로 제안됐을 때 상당히 높게 나타나는 경향들을 보였습니다.

이외에도 한계들은 여러 가지가 있을 수 있을 겁니다. 일단 위 사례들로 봤을 때 하이퍼클로바의 경우에도 편향적 문장들을 만들어낼 가능성을 배제하기 어려울 것입니다. 물론 하이퍼클로바가 학습한 데이터들은 그들이 직접 밝히고 있듯, 고품질 데이터가 중심이 됐습니다. 그렇다고 그 학습 데이터에 편향이 완전하게 제거돼 있을 것이라고 결론을 내리긴 어려울 듯합니다.

이는 언론사 편집국에게 하나의 강력한 메시지를 보내고 있다고 생각합니다. 데스킹 없는 기사 제작은 위험할 수 있다는 것입니다. 하이퍼클로바를 활용해 기사를 작성할 수는 있겠지만, 이러한 편향들을 걷어내기 위한 데스킹 과정은 반드시 거칠 필요가 있다는 것이죠. 이는 다시 말해 저널리즘의 중차대한 가치들이 훼손되지 않도록 보조적 도구로 활용하는 것이 중요하다는 의미일 겁니다.  

몇 가지 남은 과제들

네이버의 하이퍼클로바는 언어모델의 진화, 특히 한국어 기반 언어모델의 구축에 큰 분기점을 만들어낸 것은 분명합니다. 영어 데이터를 중심으로 사전학습된 GPT-3 에 기대할 수 없었던 수많은 활용 방안을 마침내 상상할 수 있게 됐습니다. 규모 측면에서 현존하는 언어모델 가운데 탁월한 수준임을 부인하기 어려울 것입니다.

언론사들은 이러한 무기가 국내에서 개발됐다는 점에 주목할 필요가 있다고 봅니다. 그리고 그것의 활용도를 높이기 위해 네이버 측과도 협력적인 관계를 맺는 것이 좋다는 생각입니다. 활용의 영역에 따라 기자들의 노동강도를 획기적으로 줄여줄 수도 있기 때문입니다. CMS에 대한 기술적 제어권을 어느 정도 확보하고 있다면 네이버 쪽과 여러 방면으로 협업하는 방안을 검토해보는 게 이롭다고 생각합니다.

끝으로 언론사들의 하이퍼클로바 활용도를 높이기 위해서는 멀티모달 모델로 더 빠르게 성숙해가는 것이라고 생각합니다. 다수의 독자들을 만나기 위해 여러 콘텐츠 포맷에 다양한 채널로 확장해 가야만 하는 언론사의 숙명을 고려할 때, 멀티모달로의 진화는 언론사에도 상당한 유익을 가져다 줄 것이라고 확신합니다.

참고문헌

  • Abid, A., Farooqi, M., & Zou, J. (2021). Persistent Anti-Muslim Bias in Large Language Models. arXiv preprint arXiv:2101.05783.
  • Chiu, K. L., & Alexander, R. (2021). Detecting Hate Speech with GPT-3. arXiv preprint arXiv:2103.12407.
  • Li Lucy & David Bamman. (2021). Gender and Representation Bias in GPT-3 Generated Stories. Proceedings of the 3rd Workshop on Narrative Understanding, pages 48–55

더 읽어볼 거리

기사 잘쓰는 GPT-3, ‘가짜뉴스 만드는’ GPT-2와 무엇이 달라졌을까
언어모델의 경쟁구도가 BERT [https://arxiv.org/abs/1810.04805]와 GPT-3[https://arxiv.org/pdf/2005.14165.pdf]의 대결로 압축이 되는 흐름입니다. BERT의 우위로 굳어지던 분위기가GPT-3의 등장으로 다시 역전이 됐습니다. 제가 표지 포함 72페이지나 되는 공학계 영어 논문 [https://arxiv.org/pdf/2005.14165.pdf…