뉴미디어 뉴스/미디어 스타트업 2007/03/04 17:20 몽양부활


Recommendation에 기반한 Social Media에서 front page 배치 알고리즘은 사이트의 생명 그 자체라 할 수 있습니다. Digg.com이 Social Media의 왕좌 자리를 내주지 않는 것도 2.5년간 수없이 변경해온 그만의 알고리즘 노하우 때문이라고 할 수 있을 겁니다. 더 좋은 뉴스를 더 빨리, 더 높은 곳에 자동 배치토록 하는 노하우는 감히 무엇과도 바꿀 수도 바꿔서도 안되는 중요한 영업비밀 가운데 하나일 것입니다.

이런 이유 때문에 어느 Social Media도 아주 디테일한 부분까지 알고리즘 공식을 공개하지 않습니다. Digg가 대표적입니다. 공개하는 순간 ‘배치를 조작할 수 있는 틈을 주게 되죠. 이럴 경우 집단지성에 의해 구현되는 Good Journalism 로직은 한꺼번에 무너지고 맙니다. 더 이상 Social Media로서 기능을 하지 못하게 되는 것입니다.

Social Media, Digg의 배치 알고리즘

알려져 있다시피 Digg.com은 Digging(추천툴)에 따라 배치가 결정되는 알고리즘을 가지고 있습니다. 그렇다고 많이 Digging될 수 있도록 높이 배치되는 것은 아닙니다. 비슷한 시간에 비슷한 수의 댓글이 달렸음에도 더 많이 'Digg it'된 스토리가 더 낮게 배치된 경우도 여럿 봤습니다. 오로지 Digg 횟수에 따라 Sorting이 좌우되는 것은 아닌 것이죠.

간단히 예를 들어보겠습니다. 다음의 그림을 보시기 바랍니다. Digg의 배치 알고리즘을 구성하는 변수는 여러 가지임을 알 수 있을 것입니다. 첫째, 'Digg it' 횟수입니다. 동일한 시간에 제출된 스토리라면 더 많이 Digg it 된 경우가 위로 배치됩니다.

둘째, 제출된 시간입니다. Digging 수가 적더라도 최근에 제출돼 최근에 Digging 받은 기사가 위로 배치됩니다. 톱2와 톱3 기사의 Digg it 수를 직접 비교해보시기 바랍니다. 하지만 시간에 대한 가중치가 어느 정도인지는 좀처럼 추정하기가 쉽지 않습니다.

셋째 제출자입니다. Digg가 지난해 개편을 하면서 가장 심각히 고민했던 요소는 소수 톱 Digger 의존도를 낮추는 알고리즘을 만들어내는 방법이었습니다. 한 Social news site 전문가의 말을 인용해 보겠습니다.

1. By changing the algorithm and making it easier for the average digger to make the front-page, Digg encourages the average person to participate more actively in the site.

2. By changing the algorithm Digg decreases its dependency on the top 30 Diggers

일반적인 Digger들이 제출한 스토리가 프론트 페이지에 더 자주 오를 수 있도록 하고 톱 30 Digger에 대한 의존도를 낮추는 것이 당시 개편의 목적이었습니다. 이런 알고리즘이 구성되려면 인물에 대한 가중치를 재설정할 필요가 있습니다. 즉 톱 30 Digger가 70 Digg를 얻은 스토리가 비(非) 톱 30 Digger가 40 Digg를 얻는 경우를 동일하게 취급하는 그런 방정식이 가능할 것입니다. 동일 조건이라면 비(非) 톱 30 Digger가 제출한 스토리가 상위에 제출되는 알고리즘 말이죠.

이와 함께 Digg는 Bury 알고리즘도 지니고 있습니다. 지난 3월 1일 Digg 창업자인 케빈 로즈가 Digg 블로그에 등록한 글을 봐주시기 바랍니다. 이 글은 Digg 추천수 조작 논란에 대한 그의 해명글입니다.

“For the same reason that we don’t expose all of our back-end methodologies for the Digg promotional algorithm, we also don’t expose the details of how the burying algorithm works.”

프로모션 알고리즘(배치 알고리즘)뿐 아니라 Burying 알고리즘을 가지고 있다는 의미입니다. 그런데 이 두 알고리즘이 어떻게 상호보완해 가고 있는지는 나타나있지 않습니다. 제 생각엔 배치 알고리즘에 어떻게 든 개입되고 있지 않을까 추정해보고 있습니다. 케빈 로즈의 다음 문장을 보시기 바랍니다.

“I also want to point out a couple of important changes to the way Digg blocks URLs that have been reported by our users repeatedly as SPAM or that violate the Digg Terms of Service.”

Digg 유저들에 의해 반복적으로 SPAM으로 보고된 URL이나 Digg 서비스를 흐트리는 URL 대해서는 차단하고 있다는 의미인데요, 그렇다고 도메인 전체를 블로킹하고 있지는 않다는군요. 이런 글들은 프론트 페이지에 올라오지 못한다는 것이겠죠.

결론적으로 Digg는 여러 개의 변수를 적절하게 mixing해서 프론트 페이지 배치를 결정하고 있으며, 문제의 URL은 언제든지 차단될 수 있도록 구조를 재편성하고 있습니다. 모두 집단지성이 최상의 조합을 만들어낼 수 있도록 하기 위한 조치라고 보면 될 것입니다.

다른 Social Media의 배치 알고리즘

(1) netscape.com

Netscape.com은 프론트 페이지 배치 알고리즘이 다음과 같이 구성돼 있다고 밝히고 있습니다.

"These 25 stories consist of 2 stories from each of the top 10 most popular channels and 1 story from each of the next 5 most popular channels. These stories are all individually ranked via an algorithm based on the number of votes and comments that a post has received. The channels themselves are ranked based on the number of high-ranking stories and traffic they receive."

해석하면 이렇습니다. 프론트 페이지에 배치된 25개의 스토리는, 10개의 인기 채널에 있는 톱 스토리 2개씩과, 그 다음으로 인기 있는 채널의 톱 기사 5개로 구성된다는 것이죠. 그리고 이 스토리들은 개별적으로 얻은 voting과 댓글 수에 따라 재배열됩니다. 댓글수를 변수로 잡은 것은 중요한 의미를 갖는다고 저는 보고 있습니다. 반면 각각의 채널면은 voting과 트래픽(조회수라고 해도 될 듯합니다.)에 따라 배치됩니다.

(2) NewsTrust

'여러분을 훌륭한 저널리즘의 길로 안내합니다‘를 구호로 설립된 NewsTrust는 Digg의 추천수 기반 배치방식이 지닌 한계를 극복하겠다고 선언하며, 11가지의 rating 항목을 독자들에게 제공하고 있습니다.

프론트 페이지가 단지 voting라는 요소에 의해 좌우될 경우 훌륭한 기사가 빛도 보지 못하고 사라질 수도 있다는 우려에서 이 사이트의 설립 작업이 추진됐죠. 고품질 저널리즘을 추구한다 그런 의미로 이해하면 될 것입니다. 또 저널리즘의 질을 담보하기 위해 등록절차도 까다롭게 구성했습니다. 익명성을 포기하고, 풀네임을 등록하도록 강제하고 있습니다.

“대신 유저들은 1~5점 척도의 별표 모양의 바에 그 스토리가 공정한지 그리고 적절한 배경설명을 하고 있는지, 제대로 된 소스에서 가져온 것인지를 평가한다. 이렇게 계량화된 점수는 유저와 스토리, 뉴스 소스 등을 위해 명확히 정의된다. 그리고 신뢰도에 따라 재정열된다. 새로운 레이팅 방식은 미시간 주립대와 공동으로 개발했다. 사이트의 특별한 리뷰 툴을 사용하는 아마추어 시민 리뷰어가 숙련된 프로들만큼 뉴스를 신뢰도에 따라 평가할 수 있도록 하기 위해서다.”

하지만 독자에게 너무 가혹한 노력을 요구하고 있어 지금껏 이 사이트는 활성화되지는 못하고 있습니다.

allblog에 대한 시사점

allblog의 추천수 조작에 대한 글들이 최근 들어 폭발적으로 늘어나고 있습니다. 그만큼 이용자가 많아졌다는 징표이기도 하겠지만, 그만큼 실시간 인기글의 알고리즘에 대한 불만족도가 커졌다는 의미이기도 할 것입니다. 이미 고민하고 계시겠지만, 실시간 인기글의 배치 알고리즘에 더 많은 변수들이 삽입돼야 할 때가 온 것이 아닌가 합니다.

하지만 배치 알고리즘을 좀처 정치화하기 위해 allblog가 활용할 수 있는 요소가 너무 적습니다. Netscape처럼 댓글이라도 활용할 수 있으면 좋으련만, 그것도 쉽지 않습니다. 그렇다고 Digg의 bury 버튼이나 Netscape의 sink 버튼이 서비스되는 것도 아닙니다. 이게 북마크 베이스로 출범한 사이트와 RSS Feedign 베이스로 출발한 사이트의 차이가 아닌가 합니다.

그렇다고 답이 없지는 않다고 봅니다. voting과 조회수, 인물 가중치, 시간 가중치 등을 적절히 활용한다면 나름 조작논란에서 비켜갈 수 있지 않나 싶습니다.

① voting 활성화

사실 voting을 요구하는 건 사용자들에겐 매우 귀찮은 행위를 강제하는 것입니다. 적어도 사이트 이용 시 습관화되기 전까지는 말이죠. voting 기반 시스템을 유지해나갈 참이라면, voting 활성화를 위한 방안이 제시돼야 할 것입니다. 예를 들면 voting 마일리지 같은 걸 만들어서, voting을 많이 하는 사용자에게 상품이나 선물을 주는 겁니다. 마일리지 몇 천 점이 모이면 올블로그 T셔츠나 머그컵을 준다든지 말이죠. voting incentive 제도가 필요하다는 의미입니다.

그리고 동일 IP 동일 기사 추천은 막아야 하지 않나 싶습니다. 이런 차단 기능들에 대한 고민들이 좀더 빈번해져야 할 것으로 보입니다. 아참 Digg의 Bury에 해당하는 ‘문제점 보고’ 버튼도 달아야 하지 않을까요? 명예훼손성 글이나 비방글 등은 가능한 한 빨리 사이트에서 제거되는 것이 독자를 위한 것이니까요.

② 조회수의 적극적 활용

지금도 조회수를 활용하고 있는 줄 압니다만, 좀더 적극적으로 비중 있게 다뤄야 하지 않나 싶습니다. SPOTPLEX가 조회수를 비중 있게 다루는 건 voting보다 의미 있는 결과를 산출할 수 있을 거라는 확신 때문입니다. 전 조금은 회의적입니다만, 조회수가 지닌 긍정적 대표성이 있기 때문에 좀더 적극적으로 활용해도 될 듯 보입니다.

솔직히 전 댓글을 주요 변수로 넣기를 더 추천하고 싶습니다만, Allblog엔 댓글을 달 수가 없기에... 한 연구조사 결과에 따르면 저널리즘 기능을 수행하고 있는 중요한 척도로 댓글을 언급하고 있습니다. 댓글이 많은 글일수록 통상적으로 사적인 사안인 경우보다 공적인 사안인 경우가 많다는군요.

③ 인물 가중치 및 추천자 목록 공개

Social Media가 안착되기 위해서는 프론트 페이지에 신뢰할 수 있는 글들이 역동적으로 배치돼야 합니다. 질 낮은 글들이 이런저런 알고리즘을 타고 수시로 프론트 페이지를 장식하면 해당 사이트에 대한 신뢰도는 낮아질 수밖에 없죠. Digg가 초반 성공할 수 있었던 것도 테크놀러지 분야 스토리에서만큼은 믿을 만한 훌륭한 스토리 Submitted 됐기 때문입니다.

그런 의미에서 Social Media가 대안적 매체로서 안착하려면 신뢰할 수 있는 사람들의 글들이 자주 중요한 순간에 노출돼야 한다고 봅니다. 일단 엘리트의 참여를 통해 사이트를 활성화한 뒤, ‘이 사이트에 배치되는 글들은 매우 훌륭하다’, ‘기존 언론보다 낫다’는 이미지를 심어줘야 한다고 봅니다. 그 뒤로 점차 전문가(우수 블로거)의 가중치를 삭감해가는 방식을 택해야 한다고 봅니다.

다시 말해 ‘우수 블로거들의 추천 > 일반 블로거들의 추천’을 해서 당분간 운영하는 것이 바람직하지 않나 생각됩니다. 그리고 Digg나 Netscape처럼 반드시 추천자 목록이 리스트업될 수 있도록 해야 할 것입니다. 조작 가능성을 함께 감시하기 위함입니다. 그리고 조작자에 대해서는 징계를 내리기보다 Digg방식으로 전화해서 자제를 권유하고 교육하는 방안이 적절하다고 생각합니다.

기타 생각난 것들

이외에도 역동성을 제고하기 위해 최근 제출된 스토리를 더 우대하도록(현재보다 더) 알고리즘을 재구성해야 하지 않나 싶습니다.

아울러 저널리즘에 좀 더 관심을 기울일 의향이 있다면, 추천버튼을 ‘추천하는 글’과 ‘훌륭한 글’로 나눠 논쟁성 글과 저널리즘적으로 뛰어난 글을 별도 추천토록 했으면 합니다.

생각은 많은데 오늘은 여기까지만 하겠습니다.

태그 : DIGG, netscape, newstrust, Spotplex, voting, 알고리즘, 올블로그


엮인글

from 블로초의 블로그 2008/02/19 18:35
제목: 우연히 발견한 미디어몹의 기억인터넷을 뒤지다가 이런 댓글을 발견했습니다.원문 : http://hypercortex.net/ver2/108 미디어몹에서 독자 편집 제도를 채택했었던 시기가 있었지요. 로그인할 때마다 랜덤으로 오늘의 독자 편집 위원에 선정되었다는 메시지가 뜨는데, 그 경우 그날 자신이 읽는 포스트에 1~10점의 점수를 부여할 수 있고, 부여 가능한 총 점수에는 제한이 있는 방식이었습니다. 하루에 선정되는 독자 편집 위원의 수도 몇 명으로 제한되었구요. 문제는 미디어..


  1. 홍커피 2007/03/04 17:35
    앗~ 좋은 말씀 감사합니다!!

  • 몽양부활 2007/03/04 17:38
    도움 안되는 긴글 읽어주셔서 고맙습니다. allblog가 좀더 멋진 social media 로 나아갔으면 하는 바람에서 적어봤습니다.
  1. shiraz 2007/03/04 17:42
    좋은 글 잘 봤습니다. 올블로그를 사용한지 1주일도 채 되지 않았지만 기자님과 같은 마음을 가지고 있습니다. 앞으로도 좋은 글 부탁드립니다.
  • 몽양부활 2007/03/04 18:04
    넵. shiraz님의 의도를 잘 이해하고 있습니다. 올블로그 측도 그 뜻을 충분히 잘 이해하고 있을리라 보구요. 알고리즘은 다시 만들 때 shiraz님의 글이 훌륭한 참조자료가 되리라 봅니다. 하루 잘 마무리하시기 바랍니다.
  1. 웅이 2007/03/04 18:55
    좋은 글 잘 보았습니다. 다음 글도 기대하겠습니다.
  • 몽양부활 2007/03/04 19:43
    다음 글을 어떻게 써야할지... 고맙습니다.
  1. 지나다가 2007/03/04 20:11
    요즘의 인터넷 환경에서는 좋을 글을 발견해서 읽을 수 있는 서비스들이 상당히 많이 존재합니다. 좋은 글은 여러 웹서비스를 통해서 읽혀지게 되는 것이지요. 문제는 이런 웹서비스들 자체에서 통계되어지는 popular의 기준이나 그 순도가 문제가 되는 것이겠지요. 여러 소셜사이트에서 좋은 글이 읽혀지는 경로가 존재한다면 저는 spotplex의 통계가 보다 공정한 것이 아닌가 생각되는 군요
  • 몽양부활 2007/03/04 20:49
    글쎄요. spotplex의 알고리즘이 훌륭하다고 평가하시는 근거가 없군요. 저도 딱히 어느 쪽이 낫다고 평할 순 없지만, 조회수 기준 또한 조작의 여지가 많기 때문에 쉽게 판단할 수는 없을 듯합니다.
  1. 지나다가 2007/03/04 20:13
    만일 통계내지 popular서비스가 spotplex뿐이라면 달리 봐야 하겠지만요..
  2. 데이빗 2007/03/04 23:37
    좋은 글 감사합니다. 저는 뉴스 2.0을 운영 중인 김지훈이라고 합니다. 뉴스 2.0도 개편에 대한 고민 중입니다. 이미 시간변수, Vote 변수, 코멘트에 대한 변수는 알고리듬에 반영이 되어 있습니다. 그런데, 투고자의 직접 투고와 좀 더 진지한 토론공간을 만들고자 했던 회원가입 절차 부분이 장벽으로 존재하는 것 같아 고민이네요.



    말씀하신 것처럼, Digg의 경우, friend mark를 만들고, Heavy contributor들이 주목을 받게 되고, 초기에 이들에 의해 투고 흐름이 만들어지긴 했지만, 결국 문제가 되고 말았습니다. 위 글에서 말씀하신 전문가(우수 블로거)의 가중치를 두는 것이 디그의 이런 문제를 다시 야기시킬 위험도 있을 것 같습니다만...
  • 몽양부활 2007/03/05 13:43
    김지훈님 이렇게 뵙게 돼 매우 반갑습니다.



    파워 블로거 가중치는 '한시적' 대응책으로 고려해봄직 하지 않나 싶습니다. 론칭 초기 소셜 미디어의 신뢰도 확보에 이들이 submit 하는 콘텐트가 좋은 유인책이 될 수 있기 때문입니다. 이후 활성화 정도에 따라 알고리즘을 미세조정해 가면서 가중치를 낮춘다면 연착륙이 가능하지 않나 싶습니다.



    솔직히 직접 운영해보지 않은 저로서는 그 정도 이상의 얘기를 하기가 힘들 것 같아요. 데이터도 없고 분석할 자료도 없고... Digg의 경험칙이 제겐 중요한 잣대가 될 수밖에 없을 것 같습니다.



    저도 대안미디어에 종사하고 있지만, 이들 미디어가 급성장하기 위해서는 '신뢰를 전제로 한 대안성'과 '어탠션을 집중적으로 받는 계기' 이 두 가지가 매우 중요하다고 생각합니다. 예를 들면, Digg가 집중 조명을 받은 건 패리스 힐튼 사건이었고, 오마이뉴스가 급성장하게 된 계기는 YS 고대앞 농성 사건이었죠.



    이 사건을 대안적 방식으로 충분히 신뢰할 수 있는 내용을 담아 전달하면서 급성장하게 됐다고 저는 보고 있습니다. 그 뒤로 수많은 시민기자들이나 콘트리뷰터가 탄생하게 됐습니다.



    실험성과 대안성, 신뢰를 동시에 획득할 수 있는 자발적 참여자를 론칭 초기에 우대함으로써 이런 계기를 만들고 이후 참여의 폭이 확장되는 수순을 밟는 게 경험적으로 빠르지 않을까라는 막연한 생각에서 이렇게 적어봤습니다.

  1. wookay 2007/03/05 21:13
    잘 읽었습니다. ^_^:; 그래도 이런 좋은 글이 메인에 떠서 좋답니다.
  1. sumi 2007/08/22 11:15
    digg.com과 youtube.com 을 비교 분석중입니다 웹 2.0을 공부하려다보니 아직 인터넷에서 많은 정보를 찾기가 힘드네요 하지만 여기선 많은 도움받고갑니다^^
  • 몽양부활 2007/08/24 08:41
    도움이 됐다니 정말 다행입니다. 혹 필요하신 정보 등이 있으시면 말씀주세요. 공부할 겸 찾아서 소개하도록 하겠습니다. 방문해주셔서 고맙습니다.