제2차 네이버뉴스 알고리즘 검토위의 결과가 발표됐습니다. 많은 분들의 관심사이기도 해서 짤막하게 분석한 내용과 의견, 대안 등을 써내려가 보도록 하겠습니다.

우선 네이버 뉴스 서비스에 적용되고 있는 알고리즘은 크게 3가지로 구성돼 있다는 점부터 이해해야 합니다. 1) 뉴스 검색 랭킹 알고리즘 2) 마이뉴스의 AiRS 추천 알고리즘 3) 뉴스 검색의 클러스터링 알고리즘. 따지면 클러스터링 알고리즘이 뉴스 검색 서비스에 통합돼 있으니 2개라고 볼 수도 있겠지만 약간 독립적으로 작동한다는 점을 감안할 필요가 있습니다.

네이버 뉴스 알고리즘 AiRS와 개발자의 개입 방식
들어가기에 앞서 전제할 내용이 있습니다. 이 글은 네이버 알고리즘 개발자들이 2017년에 발표한 논문 ‘Deep Neural Networks for News Recommendations’를 바탕으로 분석한 것입니다. 이 당시 소개된 AiRS의 버전이 그 상태이진 않을 겁니다. 이미 여러 업데이트를 거쳤을 것으로 추정됩니다. 이 점 이해하시고 읽어주시기 부탁드립니다. AiRS 모델이 해결하고자 한 문제들 너무나도 많은

오늘은 네이버 뉴스 관련 3대 알고리즘의 취약성을 중심으로 설명을 드려볼까 합니다.

뉴스 검색 랭킹 알고리즘

[최신성 과우대 문제] 네이버의 정책과 원칙을 충분히 이해하면서도 아쉬운 대목이 이 점입니다. 사용자들은 뉴스 검색을 통해서 최신의 고품질 정보를 찾고자 할 겁니다. 철 지난 뉴스나 정보를 보려는 사용자는 많지 않죠. 하지만 네이버가 원칙으로 내세운 '시의성'과 랭킹 알고리즘이 반영하는 '최신성' 사이에는 일정 수준의 갭이 존재합니다.

예를 들어 봅시다. 대선 기간에 등장한 하나의 이슈가 존재한다고 가정해 보죠. 그 이슈는 수일 때론 몇 주 간 한 사회를 진동시킵니다. 잘 작성된 심층 기사는 수일 수주 뒤에 봐도 탁월할 만큼 심층성과 포괄성을 갖곤 합니다. 주간지가 생산한 기사들이 통상 이러한 시의성과 포괄성, 심층성을 동시에 갖추고 있는 경우가 많죠. 하지만 시의성의 개념을 최신성 쪽으로 맞추게 되면 여러 부작용들이 나타납니다. 시의성을 갖추고 며칠 이상이 소비될 수 있는 심층 기사가 소외받게 되는 거죠.

검토위도 이러한 진단을 내렸습니다. 뉴스 검색 랭킹 알고리즘이 우대하는 기사에 대해 "송고된 기사수, 송고 시점, 기사의 최신성 등 뉴스 생산과 관련된 활동과 더 관련이 높다고 판단됨"이라고 했습니다. 최신성을 우대하는 경향은 송고 기사수와 송고 시점, 최신성이라는 피처 개발과 반영에 더 비중을 둠으로써, 자본력이 큰 언론사의 노출 비중을 늘리는 결과를 가져왔습니다.

이는 언론사들의 조직 개편이나 구성에 영향을 미쳤습니다. 이를테면, 중앙일보의 EYE, 조선일보의 계열사 설립, 경제신문들의 온라인 대응팀 구성 등 최신성에 특화한 콘텐츠만 양산하는 팀들의 출현을 낳았습니다. 오죽하면 방송사들도 이 대열에 뛰어들기 위해 온라인 실시간 대응팀을 만드는 걸 검토했을까요?

결국 네이버 뉴스 검색 랭킹 알고리즘의 설계와 원칙이 언론사들의 조직 구조에 영향을 미쳤고, 그것이 대량 생산 가능한 상위 부유한 언론사 위주의 뉴스 소비를 낳는 결과를 초래했다고 볼 수 있습니다. 검색 결과 랭킹에서 시의성을 조금 더 넓게 정의하지 않는 이상, 이 현상은 당분간 유지될 수도 있다는 생각이 들었습니다.  

[말머리 색인어의 반영 문제] 최신성 과우대는 말머리 피처를 검색 랭킹에 반영하는 안타까운 상황을 만들었습니다. '속보', '단독'과 같은 키워드의 존재 여부 등이 랭킹 알고리즘에 중요 피처로 반영됨으로써 속보와 단독의 남발을 가져왔다는 겁니다. 문제는 이제 사용자들조차도 속보 단독을 신뢰하지 않는다는 사실입니다. 그럼에도 일찌감치 개선되지 않은 점이 아쉬운 대목으로 남습니다. 검토위의 의견대로 "그 영향력을 더욱 적극적인 방법으로 최소화하는 방안을 고민할 필요"가 있다고 생각합니다.

[다소 낡은 학습 데이터] 검토위 결과를 보면, 뉴스 검색 랭킹 알고리즘에 활용된 Training Data가 2년이 경과한 상태였습니다. 조사가 진행된 시점이 2021년인 점을 감안하면 코어 모델이 2019년 뉴스 데이터 세트를 학습한 채로 남아있었을 수도 있다는 의미입니다. 2년 전이나 지금이나 학습 데이터를 돌렸을 때 큰 차이가 없을 수도 있습니다. 언론사들의 뉴스 생산 스타일이나 커버리지 등이 많이 바뀌지 않았을 수도 있죠. 하지만 뉴스 생태계는 역동성이 높은 산업입니다. 어뷰징의 기법도 변화가 있었을 것이고요. 문체나 표현, 구성도 일부는 개선/악화됐을 겁니다. 그런 점에서 학습 데이터(Training Set / Test Set / Validation Set)을 주기적으로 갱신하는 건 어쩌면 숙명이지 않을까 합니다. 네이버 쪽도 리소스만 있다면 정기적으로 개선했겠지만, 이 부분이 소홀히 다뤄졌다는 점은 안타깝습니다. 특히나 뉴스 검색 랭킹 코어 알고리즘이 지난 2년 동안 메이저 업데이트 없이 마이너한 튜닝 정도에 그친 점은 많이 아쉽습니다. 네이버 안에서 뉴스 검색 랭킹 알고리즘의 위상을 보여주는 듯해서 말이죠.

마이뉴스 AiRS 알고리즘의 취약성들

랭킹 알고리즘에 비해 AiRS 알고리즘은 상대적으로 지적 지점이 덜했습니다. 학습 데이터도 크게 문제가 없었고, 필터버블을 확대할 만한 요소도 크게 발견되진 않았다고 했습니다. 검색 랭킹 알고리즘과 비교하면 목적과 취지에 부합하는 형태로 작동하고 있었던 겁니다. 다만 한 가지, 송고량과 연관성이 있는 문제가 존재했습니다.

우선 두 가지 사례를 가정하겠습니다.

  • 로그인 사용자 -> 소비 데이터 기반 추천 -> 개인 관심사 + 보편 관심사 기사 추천
  • 비로그인 사용자 -> 소비 데이터 없이 추천 -> 대중관심사 중심 추천 가능성

AiRS는 필터버블을 완화하기 위한 목적 등으로  완전히 개인화한 기사만을 추천하지는 않았다고 합니다. 이건 분명 긍정적인 접근법이라고 생각합니다. 문제는 그 이후에 발생합니다. 통상 오전에 언론사들의 송고 기사량이 많고, 송고 기사량이 많은 언론사의 보편 관심사 기사가 추천될 확률이 높은데요. 로그인 사용자의 경우 불가피하게 송고량 많은 언론사의 보편 관심사 기사를 클릭함으로써, 다시 소비 데이터에 반영되는 결과를 낳게 된다는 겁니다.

이게 해당 언론사에 대한 선호 학습으로 이어지는지 여부는 확인되지 않습니다. 반드시 그렇진 않더라도, 부분적으로는 반영될 수 밖에 없을 겁니다. 필터버블 완화 방편인 보편 관심사 기사도 결국 기사 생산량이 많은(온라인 대응팀을 운영 중인 대형 언론사) 언론사의 소비를 더 키우는 결과를 낳는다는 거죠. 검색 랭킹 알고리즘과 비슷한 한계를 AiRS 알고리즘도 갖고 있다는 의미입니다.

결론적으로  

네이버의 뉴스 관련 알고리즘은 자본력을 갖춘 대형 언론사에 유리할 수밖에 없는 구조인 것은 분명해 보입니다. 그리고 전반적으로 다양성과 심층성이 반영되는 어려운 구조이기도 합니다. 그건 한편으로 한국 언론사들의 다양성이 부족하다는 의미일 것이고, 그 다수 언론사들은 온라인 대응팀을 꾸릴 정도의 자본력을 보유하진 못했을 겁니다.

2차 검토위의 결과는 네이버의 뉴스 알고리즘이 언론사의 조직 구성을 변화시킬 만큼 강력한 사회적 영향력을 갖고 있다는 점을 재확인시켰고, 네이버가 다양성과 심층성을 더욱 반영하는 방향으로 전환할 것을 요구하고 있었습니다. 또한 네이버 뉴스 관련 알고리즘 개발에 리소스가 부족했을 수도 있다는 점도 시사했습니다.

최신성과 시의성의 간극을 벌리는 정의의 재정의, 다양성을 반영할 수 있는 피처의 개발과 테스트, 심층성 데이터 확보와 학습을 위한 언론사-학계-네이버의 협업 등이 현재로선 검토 가능한 모습이 아닐까 합니다. 결국 함께 협력할 때만 이 난제를 풀어갈 수 있다는 걸 이 보고서가 남겨준 게 아닐까 합니다.

오늘은 간략하게 이 정도로만 정리하겠습니다. 보다 심층적인 분석은 다음으로 미루겠습니다. 카카오뷰 알고리즘과의 비교도 해볼까요? 어떻게 생각하시는지 대화창에 남겨주세요.  

NAVER Search & Tech : 네이버 블로그

아래는 제2차 네이버 뉴스 알고리즘 검토위원회 검토 결과 자료를 요약한 것입니다.


검토 의제

  1. 알고리즘의 사회적 책무와 저널리즘 생태계
  2. 알고리즘의 중립성
  3. 알고리즘 영향 평가

조사 대상

  1. 뉴스 검색의 랭킹 알고리즘
  2. AiRS 추천 알고리즘(My 뉴스)
  3. 뉴스 클러스터링 알고리즘

네이버의 알고리즘 설계 원칙

  1. 뉴스 검색의 랭킹 알고리즘
  • 질의어와의 연관성
  • 질의어 관련 시의성
  • 알고리즘 자질과의 적합성과 뉴스의 품질
  1. AiRS 추천 알고리즘(My 뉴스)
  • 사용자 관심 연관성
  • 품질 높은 뉴스
  • 다수 언론사 / 다수 사용자 관심 있는 뉴스
  1. 뉴스 클러스터링 알고리즘
  • 대다수의 사용자가 관심 있을 만한 최신 주제의 기사 묶음
  • 해당 시점의 사회 주요 이슈를 다루는 기사 묶음을 만들기 위해 데이터 최신성을 유지
  • 사용자의 서비스 사용에 불편하지 않을 수준의 분량 기사 묶음

위원회의 지적과 문제제기

  1. 사용자 요구 분석 수준을 넘어서야 함
  2. 지향점 서술을 평가 가능하도록 변경해야 함. 그리고 소통해야 함
  3. 1, 2는 신뢰를 확보하는데 필요함

뉴스 검색 랭킹 알고리즘에 대한 평가

  • 어뷰징 필터링에 특화돼 있었음 : 이로 인해 주류 논조 벗어나는 기사와 심도 있는 기사는 추천되지 않음(문제)
    => 지배적 관점, 주류적 관점만이 검색을 통해 소비되는 결과를 가져온다고 볼 수지 않을까.
  • 중립성 : 이념이나 성향 우대가 아니라 송고된 기사수, 송고 시점, 기사의 최신성 등 생산 관련 활동이 더 높은 랭킹
    => 대형 언론사에 유리한 결과를 가져오고 있음. 결국 온라인 대응팀이 갖춰진 언론사에 유리한 결과로 검색에 노출됨. 작은 언론사는 배제될 수밖에 없으며 온라인 대응팀을 양산하는 결과를 가져왔음.
  • 학습 데이터 : 검색 관련 학습 데이터는 2년 경과.
    => 과거 데이터 학습에 의존함으로써 새로운 유형 발견와 실험적 기사를 이해하는데 한계를 노출했을 수도 있지 않을까? "현재 평가자 구성의 규모와 구성도 마찬가지로 지금보다 다양성을 더욱 확보하고 전반적인 수도 늘려 알고리즘 작동과 관련하여 정기적인 모니터링과 평가를 진행하여 테스트할 필요가 있다고 지적함"
  • 알고리즘 피처, 가중치 선택 : 코어 모델은 마이너한 튜닝 정도에 그침. 말머리 색인어 피처 사용
    => 역동적인 뉴스 생태계의 흐름을 반영하지 못했을 수도 있음.
    => [속보], [단독]을 네이버 알고리즘이 유발한 측면이 있다고 볼 수 있다. 이걸 개선하기 위해 노력하지 않은 것은 문제.

AiRS 알고리즘 검토

  1. 장점과 특징
  • 사용자 피드백 기반으로 학습 데이터 샘플링 및 아키텍처 구축
  • 기사 섹션 분류 모델 : 2019년 도입. 신규 모델로 교체 검토
  • 가십성 기사 분류 모델 : 2021년 도입
  1. 모델 학습
  • AiRS 모델과 클러스터링 모델은 분리 : 상호 영향을 미치지 않음
  • 기획/심층 기사의 전송량이 적어(학습량 부족)
  • 기획기사로 편집할 경우 추천 시 우대하는 계획 검토 중
  1. 중립성
  • 전반적인 추천 과정이 송고되는 기사의 양이 많은 언론사에게 유리하게 동작하는 것으로 우려되는 부분이 존재 => 대형 언론사 특히 보수 언론사 중심의 추천이 이뤄질 가능성을 연결되고 있음.
    -"향후 사회적 책무와 관련하여 뉴스 생태계 문제점을 고려한 뉴스 자질을 개발하고 알고리즘에 도입할 필요성이 있다는 점을 지적하였"
  • "추천되는 뉴스로 보면, 중복은 오전에 많이 발생하고, 오후로 갈수록 떨어지는 것을 확인했는데, 이는 많은 양의 데이터가 새로 투입되는 ‘콜드 스타트(cold start)’의 문제와 연관되는 것으로 보임" =>로그인 사용자의 경우 중복 추천으로 비슷한 기사 모음을 볼 가능성이 있다는 것으로 해석됨. 하지만 필터버블 완화효과는 있다는 결론
  • "오전 시간에 온라인 대응이 가능한 언론사 및 계열사가 더 많이 중복 노출되고 이것이 추천 선호도에 반영되어 이러한 경향이 지속되는 상황이 장기간 지속되는 상황을 말함."

클러스터링 알고리즘

  1. 키워드 피처 사용 문제

결론적으로

  1. 다양성 부족

‘심층기획’ 기사로 편집되면 고품질 기사로 판단하여 추천을 적용하는 영역에서 우대하는 개선안을 적용하려는 계획이 있음을 밝혔다

새로운 알고리즘의 개발을 지속적으로 진행하고 있는지 그리고 학습데이터와 자질이 시대의 변화를 잘 반영하고 있는지를 지속적으로 검토하기를 바란다