지난 5월말 조지타운대 보안&이머징 기술 센터는 '진실, 거짓말 그리고 자동화'라는 제목의 보고서를 발표했습니다. 70페이지 분량의 이 보고서에는 GPT-3와 같은 대형 언어모델이 허위정보 생산에 어떤 효과를 발휘할 것인지에 대한 상세한 연구 결과가 담겨 있습니다. 이미 대형 테크 기업들이 앞다투어 초대형 언어모델을 출시하거나 개발하고 있는 와중이어서, 이 보고서가 던지는 메시지는 강렬할 수밖에 없었죠. 얼마전 네이버는 하이퍼클로바라는 대형 언어모델을 내놓기도 했습니다. 여기서 지적된 문제는 곧 우리나라의 현실이 될 수도 있겠다는 생각이 들어 보고서의 요약문을 번역을 하게 됐습니다. 도움이 되었길 바라는 마음입니다.(미디어고토사 편집장)


고성능 자연어 생성모델에 대한 인기와 업계의 관심이 높아지면서 이러한 모델을 사용해 대규모의 자동화된 허위정보를 생성할 수 있다는 우려가 커졌습니다. 이 보고서는 텍스트를 작성하는 최첨단 AI 시스템인 GPT-3의 기능을 조사하여 허위정보에 대한 잠재적 오용 가능성을 분석합니다. GPT-3과 같은 모델은 허위 정보 행위자가 허위정보를 작성하는 데 필요한 작업을 크게 줄이는 동시에 범위와 잠재적으로 그 효과를 확장하는 데 도움이 될 수 있습니다.

수천 년 동안 허위 정보 캠페인은 근본적으로 인간의 시도였습니다. 가해자는 진실과 거짓을 뒤섞어, 불화를 심고 의심을 불러 일으키고 파괴적인 행동을 유발하는 것을 목표로 하는 강력한 조합을 만들어냅니다. 21 세기의 가장 유명한 허위정보 캠페인(미국 대선에 개입했던 러시아의 노력)은 미국 사회의 기존 균열을 확대하기 위해 수백 명의 사람들이 함께 일하는 방식을 따랐습니다.

처음부터 글쓰기는 근본적으로 인간의 노력이자 시도였습니다. 더 이상은 아닙니다. 2020년 OpenAI는 인간 운영자의 프롬프트를 기반으로 텍스트를 생성하는 강력한 인공지능 시스템인 GPT-3를 공개했습니다. 방대한 신경망, 강력한 기계학습 알고리즘, 1조 단어 이상의 인간 글쓰기를 지침으로 사용하는 이 시스템은 놀라울 정도입니다. 그 중에서도 가디언이 의뢰해 op-ed 초안을 작성하고, 대다수의 독자가 인간이 쓴 것이라고 생각하는 뉴스 기사를 작성하고, 새로운 인터넷 밈을 고안했습니다.

이 획기적인 발전에 비추어 간단하지만 중요한 질문을 검토해 봤습니다. 자동화 툴이 허위정보 캠페인을 위한 콘텐츠를 생성할 수 있을까요? GPT-3가 믿을 만한 뉴스 기사를 쓸 수 있다면 설득력 있는 가짜 뉴스 기사도 쓸 수 있을 것입니다. 기사 초안을 작성할 수 있다면 오해의 소지가 있는 트윗의 초안도 작성할 수 있을 겁니다.

이 질문을 해결하기 위해 먼저 인간-기계 팀의 개념을 도입하여 GPT-3의 파워라는 것이 그것에 응답하는 인간에 의해 작성된 프롬프트로 어떻게 부분적으로 만들어지게 되는지를 보여줍니다. 인간-기계 팀의 일원으로 GPT-3의 허위정보 생성 능력을 연구하기 위해 GPT-3에 무료로 액세스할 수 있는 권한이 부여 받았습니다.(공개적으로 사용할 수 없는 시스템임). GPT-3는 종종 그 자체로 성능이 뛰어나지만 숙련된 운영자 및 편집자와 함께 사용하면 새로운 수준의 기능에 도달하게 됩니다. 결과적으로 GPT-3가 허위정보 작업에서 모든 인간을 대체하지는 않지만 이전보다 훨씬 더 큰 규모로 중간 수준에서 고품질 메시지를 생성하는 데 도움이 되는 도구라는 결론을 내렸습니다.

이 결론에 도달하기 위해 우리는 많은 현대 허위정보 캠페인에서 공통적인 6가지 작업에 대한 GPT-3의 성과를 평가했습니다. 표 1은 이러한 작업과 각각에 대한 GPT-3의 성능을 설명합니다.

이들 및 기타 역량 평가에서 GPT-3은 강력하면서도 제한적임이 입증되었습니다. 적절한 프롬프트가 제시될 경우 이 기계는 다재다능하면서도 효과적인 작성기가 되지만, 트레이닝을 받았던 데이터의 제약을 받긴 합니다. 글쓰기는 완벽하지 않지만, 허위정보 캠페인용 콘텐츠를 만들 때 이 단점은 그렇게 중요하진 않습니다. 내러티브에 대한 집중력 결여나 극단적 견해를 받아들이는 경향 등이 있기 때문입니다.

공격자가 허위정보 캠페인에서 자동화를 추구하는 경우 GPT-3와 같은 알고리즘을 배포(deploying)하는 것이 외국 정부, 특히 중국과 러시아처럼 기술에 정통한 정부의 능력 안에 있다고 믿습니다. 만일 이들 정부가 원할 경우 이러한 시스템을 훈련하고 운영하는 데 필요한 연산 능력을 동력화하는 것이 더 어려워지긴 하겠지만 거의 확실히 가능은 합니다.

허위정보에서 자동화의 위험을 완화하는 것은 어렵습니다. GPT-3가 작성한 글은 사람의 글과 잘 어울리기 때문에 허위정보 캠페인에서 GPT-3과 같은 시스템을 적들이 사용하는 것을 막는 가장 좋은 방법은 소셜미디어의 가짜 계정과 같은, 캠페인 메시지 전파에 활용되는 인프라에 집중하는 것입니다. 텍스트 자체의 작성자를 선정(결정)하는 것보다 말이죠.

우리의 연구에 따르면 잘못된 정보 캠페인을위한 콘텐츠를 생성하는 자동화된 도구가 실제로 존재할 가능성이 있기 때문에 이러한 완화 방안은 고려할 가치가 있습니다. 특히, 우리의 결과는 GPT-3와 같은 시스템이 제공할 수 있는 최저 수준의 추정치에서도 잘 나타납니다. 윤리적 우려에 제약을 받지 않고 더 많은 자원과 기술 능력을 갖춘 적들은 GPT-3과 같은 시스템을 우리보다 더 완벽하게 사용할 수 있을 것입니다. 하지만 그렇게 할 것인지 여부는 알 수 없습니다. 특히, 그들은 우파 인프라를 사용해서, 이러한 자동화 시스템이 제공하는 확장성을 동원하여 많은 메시지를 생성하고 이 기계의 가장 위험한 창작물로 정보 생태계를 채워넣는 것도 가능할 수 있습니다.

우리의 연구는 분열과 속임수의 자동화된 메시지가 인터넷을 통해 캐스케이드 되는 그런 미래가 올 수 있음을 (불가피하진 않겠지만) 보여줍니다. 더 고도화한 발전이 아직 도래하진 않았지만 한 가지 사실은 이미 분명해졌습니다. 인간은 이제 허위정보 서비스에서 진실과 거짓을 뒤섞는데 도움을 줄 수 있게 됐습니다.