최근 노컷뉴스가 ‘핵심요약’ 서비스를 공격적으로 진행하고 있습니다. 요약 버튼을 눌러야만 확인할 수 있는 연합뉴스의 요약 서비스와 달리, 기사 도입부에 미리 게시하고 있는 게 특징이죠. 긴 글을 읽기 전에 ‘내가 관심 가질 만한 내용인가’를 미리 판단해 볼 수 있기에 독자 친화적인 서비스라고 할 수 있을 겁니다.

노컷뉴스 ‘핵심요약‘을 조금더 들여다 보겠습니다. 일단 기사 도입부에 관련기사와 함께 박스 형태로 제공됩니다. 짧게는 2줄에서부터 길게는 예닐곱 줄에 이를 만큼 길이도 다양합니다. 핵심 문장을 추출한 경우도 있고, 내용을 명료하게 정리하는 경우도 있습니다. 뒤섞여 있기도 하고요. 파란색 박스로 잘 포장돼 있어서 눈에도 잘 들어옵니다.

노컷뉴스 쪽은 미디어오늘과의 인터뷰에서 “공급자 입장에서는 장문의 기사를 쓰지만 수용자 입장에서는 직관적으로 정리된 내용을 선호한다. 이를 보완하는 취지에서 요약문을 도입하게 됐다”고 설명한 바 있습니다.

수많은 정보 가운데 독자 자신에게 필요한 정보임을 빠르게 판단한 뒤 마지막까지 읽을지 아닐지를 결정해야 하는 독자들에게 이러한 요약 서비스는 반가운 소식일 수밖에 없습니다. 특히 모바일 뉴스 소비 환경은 수용자들의 ‘빠른 판단’을 강제하고 있기에 이 요약 서비스의 가치는 조금더 빛이 날 수 있습니다.  이미 영미 쪽의 경우 비즈니스인사이더가 이러한 요약 서비스로 ‘재미’를 좀 보고 있습니다.

좋은 요약문이란?

사실 ‘뉴스 요약‘은 아직 그것의 가치만큼 좋은 효과를 만들어내진 못하고 있습니다. 포털 뉴스 서비스는 대부분 이런 류의 요약 기능을 제공하고 있지만, 자주 사용하는 수용자는 그리 많지 않다는 것이 일관된 평가입니다. 요약을 필요로 하는 수용자들의 니즈와 제공하는 서비스의 형태가 정확히 매칭이 되지 않기 때문이라고 생각합니다.

통상 요약은 "주어진 글로부터 중요한 내용을 추출하고 추출한 내용을 독자 개인의 간결한 문장으로 변환하는 과정"으로 정의가 됩니다(Friend, 2011). 저는 나아가, 그 요약문이 '독자의 독자'에게 시간의 절약, 핵심 주제의 명확한 이해 등과 같은 유익과 가치를 제공할 수 있어야 한다고 보고 있고요. 이를 교육학 등에서는 '거시 명제'(macro-proposition) 위주의 요약이라고들 합니다.

한겨레의 중동고 교사 기고문을 보면, 좋은 요약문을 위해 독자의 어떤 점을 고려해야 하는가가 잘 설명돼 있습니다. 첫째는 독자가 알아야 할 것이 무엇인지, 왜 알고 싶은지, 설득력 있게 다가갈 근거가 무엇인지를 잘 간추려야 한다는 것이죠. 그래서 요약을 “정보의 핵심을 짚어내어 단출하게 나타내는 일”이라고 정의하더군요.

정보 유용하게 만드는 ‘요약의 기술’
논리로 키우는 논술 / [난이도 = 고등] 유용한 지식을 만드는 정보 필터링 구술이 서 말이라도 꿰어야 보배다. 정보에 딱...

이처럼 요약은 독자를 고려하고 독자에게 가치를 입증해줘야 합니다. 특히나 읽히는 용도로 작성된 요약문은 더더욱 그러해야 합니다. 단순히 핵심 문장을 추출한다고 해서 좋은 요약이 되지는 않는 이치입니다. 내용과 형식 상의 요건도 갖추어야 합니다. 아래는 좋은 요약을 위한 통상적 조건을 설명하는 글의 일부입니다.

(1) 내용 : 주어진 글의 핵심, 즉 필자의 견해나 주장을 정확히 파악하는 것이 가장 중요하며, 부수적인 내용은 삭제하면서 전체 글의 중심 내용이 요약문에 압축되어 있어야 한다.‌‌(2) 형식: 요약된 글 자체가 단락 구성이 잘 된 한 편의 글이 되어야 한다. 그러므로 주어진 글의 흐름에 따라 자기의 언어로 바꾸어 요약문을 적절히 재구성해야 하며, 그 글 자체가 긴밀성과 통일성을 갖추어야 한다.

저는 무엇보다 형식적 측면에 조금더 관심을 가질 필요가 있다고 생각합니다. 요약 자체가 하나의 완결성 높은 글이 될 수 있어야 한다는 거죠. 독자의 정보적 필요를 감안해 요약자의 필터를 거쳐 완결된 형태로 핵심 내용을 전달할 때 우리는 좋은 요약이라고 볼 수 있을 겁니다. 이러한 관점에서 요약의 질을 측정하고 평가하는 접근법이 필요할 겁니다.

교육학이 좋은 요약을 평가하는 방법

요약은 글읽기의 교육 과정에서 중요한 위상을 차지하고 있는 교육 영역입니다. 그만큼 좋은 요약과 평가 방법, 작성 규칙에 대한 연구도 활발했습니다. 아래는 최숙기(2011)가 정리한 '요약하기 규칙'에 대한 연구 사례들입니다. 요약하는 방법에 대한 여러 연구자들의 누적된 프레임워크가 갖춰진 상태로 이해하셔도 될 것입니다.

결론적으로 좋은 요약문을 쓰려면, 삭제하고 선택하고, 일반화한 뒤에 재구성하는 과정과 능력이 요구된다는 의미입니다. AI 요약도 접근법이 크게 다르진 않지만 인간의 요약 과정과는 조금 차이를 보이긴 합니다. 이 논의는 뒤에서 다시 설명을 드리도록 하겠습니다.

특히 주목할 부분이 있습니다. 최숙기(2011)의 연구에 따르면, 요약에 능숙한 독자와 미숙한 독자는 다음과 같은 차이를 보인다고 합니다.

실제로, 능숙한 독자와 미숙한 독자는 요약하기의 규칙을 적용하는 정도에 따른 차이를 보인다. 예를 들어, 요약하기에 능숙한 독자는 텍스트에서 중요한 정보만을 추출하여 응축하는 경향이 강하며, 명시적이지 않은 중심 내용을 추출하여 주제 문장을 창안하는 경향이 강하게 나타난다. 이에 반해, 미숙한 독자는 글의 응축하여 진술(paraphrasing)하기보다 복사(copy)하려는 경향이 강하다. 또한 요약하기에 미숙한 독자일수록 필자의 논점과 무관한 정보를 포함되거나 비본질적 정보를 포함하여 요약하기를 수행하는 경우가 많다(최숙기, 2011, p.420)

쉽게 말해, 능숙한 독자는 '주제 문장을 창안'하지만, 미숙한 독자는 '복사'한다는 것이죠. 또한 요약에 미숙한 독자들은 글쓴이의 논점을 충분히 전달하지 않고 주변적인 것, 비본질적인 것을 포함하게 된다는 것입니다. 여기서 저는 좋은 요약문의 경우 '주제 문장의 창안'에 방점이 찍힌다는 점을 강조하고 싶습니다. 좋은 요약은 핵심 문장을 복사하는데 그치지 않고, 주제를 잘 설명할 수 있는 독자의 필터가 가미된 창안된 문장으로 구성된다는 말로 풀이할 수 있습니다. 이는 이후 설명할 AI 번역이 이해하는 데 있어 중요한 착안점이 됩니다.

때문에 좋은 요약문의 평가도 아래와 같이 구성되게 됩니다. 주로 7점 평가 요소를 중심으로 이해하면 좋은 요약문의 특성과 평가 지점이 잘 드러날 것입니다.

카카오 RDASS가 좋은 요약을 평가하는 방식

이제 본격적으로  AI의 요약 평가 및 성능으로 들어가 보도록 하겠습니다. 일반적으로 기계에 의한 문서 요약 방식은 추출 요약(extraction)생성 요약(abstraction)으로 나뉩니다. 예상하시는 대로입니다. 추출 요약은 해당 문서에서 가장 중요한 문장을 그대로 끄집어내는 요약 방식입니다. 반면 생성 요약은 내용의 중요도를 분석해 새로운 문장으로 요약문을 생성해 내는 형태입니다.

앞서 언급했다시피, 그리고 위 교육학의 요약문 평가 테이블 내용처럼 좋은 요약문을 쓰는 독자는 주제 문장을 창안합니다. 교육학의 평가 기준으로 봤을 때 추출 요약 방식은 '미숙한 독자'의 패턴이라고 볼 수 있을 겁니다. 이를 AI 분야에도 적용을 해본다면, 생성 요약의 기술이 어느 정도나 높은가가 좋은 요약의 가치를 평가하는 핵심 기준이 될 수 있다고 볼 수 있을 겁니다.

교육학과 AI 분야가 좋은 요약문을 어떻게 평가하는가에 대한 관점의 차이는 카카오가 최근 공개한 '텍스트 요약 모델 성능 평가 척도, RDASS' 논문(해설문)을 보면 잘 드러납니다. 이 논문은 AI 요약 모델의 성능을 평가하기 위해 다음과 같은 접근법을 택합니다.

공동 연구팀은 사람마다 요약 방식이 달라 하나의 정답 요약문만을 기준으로 요약 모델을 평가하는 데에는 한계가 있다고 판단했습니다. 이에 요약 모델이 문서의 내용을 얼마나 잘 반영하는지를 참고해 성능을 평가할 필요가 있다고 봤습니다. 공동 연구팀은 1) 의미적 유사도는 높으나 형태학적 유사도가 낮은 문장을 생성하는 모델의 성능이 낮다고 판단하는 문제를 해결하기 위해 정답 문장과 생성 문장의 유사도, 문서와 생성 문장 간의 유사도를 모두 참고하며 2) 방대한 유의어 사전을 따로 구축할 필요가 없는 새로운 평가 척도인 RDASS를 고안했습니다. 

쉽게 설명을 드리겠습니다. 기존의 AI 요약 모델의 평가 방식은 '추출 요약'에 방점을 찍다 보니, 좋은 요약문과 기계가 생성한 요약문의 단어 등의 형태적 유사도가 높으면 성능이 뛰어나다고 평가를 해왔다고 합니다. 하지만 교육학 등이 좋은 요약문이라고 제시하는 생성 요약, 즉 주제 문장의 창안형 요약문은 낮은 점수를 받을 수밖에 없었다는 거죠. 왜냐하면 핵심 단어의 동일성 수준이 낮기 때문입니다. 더 빼어난 문장력과 표현력을 발휘하면 성능이 낮다고 간주하는 기존 평가모델의 전환이 필요했다고 말씀드릴 수 있습니다.

그럼 RDASS의 AI 요약 모델의 평가가 어떻게 진행되는지 보겠습니다. 이해하기 쉽도록 제가 도표를 그려봤습니다.

RDASS의 개념 자체는 간단합니다. 특정 AI 요약 모델의 생성 요약문이 제시된 정답 요약 문장과 얼마나 유사한가, 그리고 해당 생성 요약문이 원문과 얼마나 유사한가를 따져 평균값을 구하는 것입니다.

여기서 중요한 건 '좋은 요약문'의 기준이 될 수 있는 '정답 요약 문장'의 제시인데요. 제가 파악한 바로는 인간이 작성하지는 않습니다. 제 이해가 틀리지 않다면, FWA-SBERT와 같은 문장의 의미를 잘 추출하는 모델에, 미세조정(Fine-Tuning)을 거친 AI가 정답을 내놓는 듯합니다. 다시 말해평가대상 모델이 생성한 요약문을, FWA-SBERT가 제시한 정답과 비교해서 평가를 하는 방식입니다.

FWA-SBERT의 정답 요약문은 좋은 요약문일까?

문득 이런 질문을 떠올리게 될 겁니다. 정답도 기계가 내고, 평가도 기계가 하는 게 정말 좋은 요약을 만드는 방법론일까? 사실 현실적으로 기계의 평가를 위해 정답을 인간이 하나하나 작업하는 건 불가능에 가깝습니다. 한두 개 평가한다고 될 일은 아닌 것이죠. 이를 위해 인간이 어느 정도 관여한 '정답-요약' 데이터세트를 미세 조정 과정에서 학습을 시키게 됩니다.

RDASS도 평가의 엄정성을 기하기 위해 '본문-생성 요약문' 평가에 인간 평가를 진행했습니다. 하지만 그 '인간'이 누구인지는 정확히 설명하지 않고 있습니다. 최숙기의 논문에서도 드러나듯, 전문성을 갖춘 평가 교사들에게 평가 항목을 제시했음에도 좋은 요약문을 평가하는 데 오차 범위가 제법 있었습니다. 하물며 일반인을 평가자로 했을 때, 평가 항목을 제시했다 하더라도 좋은 요약문을 제대로 분별해 낼 수 있었을지는 약간의 의문이 남습니다.

결국 문해력과 글쓰기 능력을 갖춘 이들이 작성한 '좋은 요약문' 데이터가 없는 상태에서 기계의 요약 성능을 평가를 한다는 것은, 한계를 지닐 수밖에 없다는 것이죠. 물론 여기까지 온 진화한 것만 해도 저는 대단하다고 보고 있습니다.

덤으로, 비플라이소프트가 학습 데이터를 만들어가는 과정을 한번 평가해 보시기 바랍니다. 비플라이소프트는 2020년 8월 문서요약 데이터세트를 구축하기 위해 ‘AI 데이터 프로젝트 참여자 모집’ 공고를 냈습니다. 공고문 중의 일부입니다.

 “비플라이소프트는 한국정보화진흥원의 지정공모 과제 중 하나인 ‘문서요약 텍스트 AI 데이터 구축’ 과제의 주관기관으로 테스트웍스, WIGO, 에이아이닷엠, 그리고 고려대학교 산학협력단 등 참여기관들과 함께 해당 과제를 수행해 오고 있으며, 이번 프로젝트에 참여할 언어에 관심이 있는 주부, 대학생, 일반인을 공개 모집한다. 이 프로젝트에는 다양한 한국어 원문 데이터의 텍스트 요약 가공에 관심이 있는 사람이라면 누구나 참여가 가능하다.“

노컷뉴스의 핵심 요약은 기계가 대체할 수 있을까

다시 노컷뉴스의 핵심 요약으로 돌아가겠습니다. 노컷뉴스의 핵심요약은 '세줄뉴스'라는 커뮤니티 요약 방식을 내재화하고 있습니다. 대체로 '추출 요약'에 가까운 방식입니다. 앞에서 설명했다시피 AI 영역에서 요약은 점차 생성 요약으로 넘어가는 중입니다.

만약 현재의 핵심 문장을 추출해 중간 제목 뽑듯이 핵심요약을 제공할 계획이라면, 감히 AI 요약 모델 도입을 검토해 볼 것을 제안할 듯합니다. 추출 요약은 학습 데이터 세트도 잘 갖춰져 있어서 기대만큼의 성능을 뽑아낼 수 있을 것입니다. 사실 추출 요약은 좋은 요약이라기보다는 '핵심 정보 간추림'이라 할 수 있을 겁니다. 이것이 독자의 니즈라면 호응이 있을 겁니다. 하지만 단순 추출 요약이 독자들에게 어느 정도의 만족감을 선사할 수 있을지는 아직 확신이 없습니다. 아주 긴 기사라면 효과는 있을 것이라고 생각합니다.

대신 한 가지 요소는 사전에 평가할 필요는 있습니다. 추출 요약을 '기자가 할 때'와 '기계가 할 때'의 차이가 독자 만족도 측면에서 큰 차이가 없다면 기계로 대체하는 것이 기자들의 피로를 덜기 위해서 필요하다고 생각합니다. 분명 추출 요약에 적잖은 시간이 소요될 것이고, 그만큼 좋은 기사를 작성할 수 있는 리소스가 상대적으로 줄어들었기 때문이기도 합니다.

만약 생성 요약, 즉 기자의 필터를 거친 '좋은 요약'으로 나아가고자 한다면, 기자와 기계의 협업 모델을 제안할 수 있을 겁니다. 기계가 작성한 생성 요약문을 담당 기자가 한차례 더 재작성 혹은 퇴고함으로써 시간도 줄이고 가치도 키울 수 있기 때문입니다.

사실 문서 요약에 특화된 BERT 모델이 늘어나고 있습니다. 최근 비플라이소프트라는 국내 업체가 BERT 기반의 요약문 생성기를 개발해 선을 보인 바 있습니다. 대형 포털 기업들은 문서 요약기를 거의 기본으로 클라우드에서 제공하고 있기도 합니다. 그만큼 문서 요약은 자연어처리/생성 작업에서 가장 기본적인 기능으로 제시되고 있는 셈입니다. 생성 요약에 좀더 나은 성능을 발휘하는 모델을 선택해 활용해 본다면 기자들의 업무 부담도 줄일 수 있을 겁니다.

정리하면서 한마디를 드리면

적절한 기계(AI) 활용은 기자들이 저널리즘의 품질을 높이는 데 도움을 줄 수 있습니다. 또한 이 과정에서 확인한 피드백들은 다시 더 좋은 AI 모델의 탄생으로 이어질 수 있습니다. 상대적으로 뉴스룸 내 기자수가 적은 국내 언론사의 여건을 감안하면 기계와의 협업 모델은 검토 대상이 될 수 있다고 봅니다. 연구자 입장에서도 실제 현장에서의 평가를 얻을 수 있기에 나쁜 선택지는 아닐 겁니다. 

노컷뉴스의 핵심요약은 독자를 바라보다 탄생한 뉴스 서비스의  한 유형입니다. 그 취지가 더 빛을 발하고, 기자들의 업무 부담도 줄일 수 있는 대안적 방안을 모색하는 건 내부 생산성을 높이는 데도 중요한 과제가 될 수 있을 것이라고 생각합니다.

참고문헌

  • 최숙기. (2011). Rasch 모형을 활용한 요약문 평가 준거 개발 및 타당도 분석-고등학생 설명문 텍스트 요약하기를 중심으로. 독서연구, 25, 415-451.
  • Friend, R. (2001). Effects of strategy instruction on summary writing of college students. Contemporary Educational Psychology, 26(1), 3-24.
  • Lee, D., Shin, M., Whang, T., Cho, S., Ko, B., Lee, D., ... & Jo, J. (2020). Reference and document aware semantic evaluation methods for korean language summarization. arXiv preprint arXiv:2005.03510.