How Journalists Can Systematically Critique Algorithms

다니엘 트레일리와 니콜라스 디아코풀러스 교수의 2020년 논문입니다.  Computation + Journalism Symposium 2020 행사에서 발표됐던 글인데요. 제목이 참 매력적이어서 번역을 해봤습니다. 후반부로 갈수록 거칠 겁니다. 작업에 집중을 못했기 때문입니다.

아시다시피 최근 네이버 등을 대상으로 한 뉴스 알고리즘 비판이 늘어나고 있습니다. 하지만 이러한 알고리즘을 비판하는데 요구되는 방법론에 대한 기자들의 이해는 그리 높지 않은 편입니다. 코드가 공개돼 있지 않을 때 어떻게 접근하는 것이 좋은가에 대한 기자 사회의 내부 논의도 많지 않았습니다.

알고리즘 비판을 염두에 두고 있는 기자들에게 저는 이 논문이 그 힌트를 제공할 뿐 아니라 구체적인 방법론을 제시해주고 있다고 생각합니다. 제가 이 논문을 번역한 이유이기도 합니다. 두 분에겐 회신이 올지 아닐지는 모르겠으나 번역에 대한 허락을 구해보도록 하겠습니다.


Daniel Trielli dtrielli@u.northwestern.edu | Northwestern University

Nicholas Diakopoulos nad@northwestern.edu | Northwestern University

요약

정부 및 빅테크 기업의 알고리즘이 더욱 널리 보급되고 강력해지면서 언론인은 자동화된 시스템을 감시하는 역할을 하게 됐습니다. 이 논문에서는 어떻게 알고리즘이 저널리스트에 의해 체계적으로 비평되고 다루어 질 수 있는지룰 설명할 것입니다. 우리는 알고리즘이 불투명할 때에도 어떻게 분석되고 다루어 질 수 있는지, 그리고 강력한 기술 도구가 없는 경우에도 저널리스트가 비판할 수 있는 방법을 설명할 것입니다. 알고리즘에서 발생하는 다양한 위협은 알고리즘 자체의 특정 구성 요소로 나눌 수 있습니다. 본질적으로, 알고리즘의 다양한 구성 요소(예 : 설계, 입력, 계산, 출력)에 의해 생성되는 다양한 유형의 피해를 고려하는 체계적인 관점은 기술적으로 능숙하지 않은 언론인도 얻을 수있는 비평 방법을 제공합니다.

1. 서문

알고리즘은 점점 더 널리 보급되고 강력하며 다양해 지고 있습니다. 민간 기업이나 정부가 사용하고 도입을 하든, 사회에서 점점 더 많은 부분에 영향을 미치고 있으며 의도하지 않은 해로운 결과를 초래하는 경우가 많습니다[3, 18]. 언론인의 역할은 다음과 같은 문제를 다루는 것입니다. 사회에 영향을 미치고 있는 알고리즘은 뉴스 조직 내 취재영역(beat)의 일부가 되어야합니다[5,6].

그러나 저널리스트들이 항상 복잡한 컴퓨터 시스템을 다룰 수 있을 만큼 기술적으로 숙련된 것은 아닙니다. 또한 다양한 알고리즘, 적용 및 표현으로 인해 언론인이 이를 다루는 방법을 파악하기가 어려울 수 있습니다. 알고리즘 책임 보도에 대한 이전의 연구 작업은 지식 격차를 줄이는 데 가치가 있었습니다[5,7,15,19,24]. 저널리스트의 탐사보도를 가이드할 수 있는 알고리즘의 사례와 알고리즘의 속성 목록을 사용하여 이러한 기여가 자동화된 의사 결정 시스템을 다루는 데 관심이 있는 저널리스트를 돕고자 합니다.

이 논문에서 우리는 일반적으로 알고리즘에 적용할 수 있는 체계적인 접근 방식을 제안함으로써 이 작업을 진전시키고 심화시키기를 희망합니다. 우리의 기여는 알고리즘의 각 요소를 고려한 프레임워크이며, 알고리즘 시스템을 비판할 때 언론인이 취할 수 있는 체계적인 접근 방식을 제시합니다.

다음 섹션에서 이 접근 방식을 구체적으로 설명합니다. 먼저 알고리즘에서 발생하는 다양한 위협을 각 구성 요소 (입력, 계산, 출력)에서 풀어낼 것입니다. 그런 다음 각 구성 요소별 정보에 대한 다양한 액세스 시나리오와 저널리스트들과 연구자가 이러한 정보 격차를 해결하는 방법을 탐색합니다. 이러한 개념적 프레임워크는 알고리즘이 불투명하거나 저널리스트가 복잡한 기술 방법에 액세스할 수 없는 경우에도 알고리즘을 비판, 분석 및 다루는 방법을 설명합니다. 데이터 액세스 시나리오가 기술에서 개념에 이르기까지 다양한 접근 방식을 이끌어내는 방법에 대한 논의로 결론을 내립니다.

2 알고리즘 구성 요소 및 그에 따른 피해

알고리즘에서 발생하는 위협을 충분히 탐색하기 위해 먼저 입력, 계산, 출력과 같은 각 구성 요소를 분석합니다. 이를 위해 그림1과 같이 알고리즘의 표준 기술 표현을 사용합니다. 이 표현 (이 논문의 두고 있는 초점)은 사회적 행위자가 포함된 대규모 알고리즘 집합[26]의 일부인 내부 기술 시스템도 다룹니다.  그러나 앞으로 살펴보 겠지만 입력, 계산, 출력의 내부 프로세스를 조사하는 언론인에게는 더 큰 맥락이 중요하다는 사실을 이해해야 합니다.

보다시피 이 구분법을 유용하게 만드는 것은, 각 구성 요소가 사회에 대한 특정 위협과 함의를 가지고 있으며 서로 다른 방식으로 나타나기 때문입니다. 따라서 알고리즘을 조사하는 언론인은 각 단계에서 세부적인 질문을 할 수 있습니다. 다음 하위 섹션에서 이러한 질문에 대한 근거를 설명하지만 요약은 표1에 나와 있습니다.

입력

알고리즘 개발의 핵심 측면 중 하나는 어떤 종류의 데이터를 원료로 사용할 것인지 결정하는 것입니다. 계산이 아무리 정확하더라도 부적절한 데이터로 수행되면 잘못된 결론 및 / 또는 편견으로 이어질 것입니다. 알고리즘이 예측하거나 분류하려는 대상을 측정하지 않으면 입력이 부적절할 수 있습니다. 그러나 이미 편향되어 있거나 사회의 편견을 강화하는 데이터를 부적절하게 사용할 수도 있습니다. 그 한 가지 예는 알고리즘이 인종 데이터를 구체적으로 사용하지 않더라도 인종에 따라 구별할 수 있다는 사실입니다. 미국과 같이 인종적으로 분리된 지역이 있는 국가에서는 우편번호가 인종에 대한 강력한 예측 변수가 될 수 있습니다[18]. 알고리즘의 이 요소에 대해 언론인이 묻어야 할 질문은 다음과 같습니다. 알고리즘이 분석을 위해 적절한 데이터를 사용하고 있습니까? 사용해서는 안되는 데이터를 피하고는 있습니까?

알고리즘 계산

알고리즘 시스템의 핵심 요소는 계산 자체입니다. 즉 알고리즘의 목표에 따라 데이터를 처리하도록 설계된 지침입니다. 이는 단순한 가중 채점 시스템에서 서로 다른 알고리즘을 하나의 더 큰 시스템으로 복잡하게 통합하는 것에 이르기까지 다양할 수 있습니다. 계산에 대한 기본적인 위협은 코드의 오타와 같은 실수입니다. 소프트웨어 버그는 만연하고 다양하며 2017년에 1조 7000억 달러의 재정적 손실을 초래했습니다[23]. 기계 학습을 사용하여 특성을 감지하거나 데이터를 범주로 분류하는 예측 시스템과 같은 더 복잡한 알고리즘에서는 오류 개념이 더 미묘합니다. 예측은 통계적 추론을 기반으로 하기 때문에 알고리즘이 잘못된 예측을 하는 정도(degree)가 항상 있습니다. 위양성(유형 I 오류) 및 위음성(유형 II)과 같이 이러한 잘못된 예측을 설명하는 특정 측정값이 있습니다. 알고리즘의 정확성과 정밀도는 이러한 값을 기반으로 계산됩니다. 이러한 복잡한 시스템에서 위협은 계산 자체가 잘못되었다는 것뿐만 아니라 첫 번째는 오류의 크기이고 두 번째는 오류의 방향입니다.

규모에 대한 질문은 일반적으로 알고리즘이 채택하기에 충분히 정확한지 여부를 결정하는 검증 및 테스트의 범위입니다. 이러한 테스트의 보고서는 조사에 유용할 수 있습니다.

오류의 방향은 더 미묘합니다. 위-양성과 위음성은 알고리즘의 적용에 따라 다른 함의를 갖습니다[7]. 예를 들어, 어떤 식당이 위생 검사를 받아야 하는지를 결정하는 분석에서 위-양성은 검사관을 깨끗한 식당으로 보낼 수 있으며 오탐지는 검사를 위해 더러운 식당에 플래그를 지정하지 않을 수 있습니다. 위-양성에서는 상대적으로 피해가 거의 발생하지 않았습니다 : 검사관과 식당은 시간을 잃었고 이로 인해 검사 기관의 자원에 부담이 생겼습니다. 그러나 위-음성에서는 위험한 식당이 여전히 운영되고 있으며 고객을 위험에 처하게 합니다.

알고리즘이 작동하는 사회의 도덕적 가치를 고려할 때 이러한 트레이드오프는 더 미묘한 차이가 있을 수 있습니다. 범죄자가 감옥에 가야하는지 아니면 보석으로 풀려 나야하는지 결정하는 알고리즘의 예를 생각해 봅시다. 위-양성은 위험이 낮은 사람을 위험으로 표시하고 그 사람을 수감 상태로 유지할 수 있습니다. 위음성은 고위험 범죄자를 석방할 수 있습니다. 감금에 대한 당신의 견해에 따라, 하나는 다른 것보다 더 해롭습니다.

이 단계에서 언론인은 다음 질문을 해야합니다. 알고리즘이 데이터로 예상된 계산을 하고 있는가? 위-양성 및 위-음성의 위협은 무엇인가?

출력

모든 정보 시스템에서와 마찬가지로 알고리즘에 의해 생성되는 정보의 가치는 해당 정보가 의사 결정 과정에서 실행 가능하고 가치가 있는지 여부에 달려있습니다. 알고리즘의 출력 측면에는 두 가지 주요 위협이 있습니다. 유용성 부족과 이해력 부족입니다.

현재 유용성이 부족한 예로는 범죄 발생시기와 장소를 예측하기 위해 과거 범죄 데이터를 사용하는 시스템인  예측 치안이 포함됩니다. 이러한 알고리즘[14]에 대한 입력 데이터와 관련된 편향 외에도 알고리즘에 의해 출력되는 데이터로 수행되는 작업에 대한 문제가 있습니다.

예측적 치안 시스템의 결과는 동시에 유해할 수 있으며 새롭지 않을 수 있습니다. 한편으로 이러한 시스템은 더 많은 치안 활동을 활성화하기 때문에 더 많은 범죄 데이터를 생성하여 경찰의 피드백 루프를 생성합니다[8]. 한편, 경찰이 예측적 치안 결과물의 유용성에 대해 의문을 제기한 사례가 있습니다. 알고리즘의 채택은 치안 문화 및 기술과 충돌할 수 있습니다.[20]

다른 위협은 알고리즘에 의해 생성된 데이터 또는 작업의 이해가능성입니다. 모든 시스템에서 운영자는 출력을 이해하고 이에 대응할 수 있어야 합니다. 오독 알고리즘으로 인한 피해 유형을 이해하기 위해 언론인은 시스템 운영자가 보고 있는 내용과 대응방법을 알고 있어야 합니다. 2018년 10월과 2019년 3월 보잉 737 맥스 여객기 2대가 추락하여 336명이 사망했을 때 문제 중 하나는 알고리즘의 불안정성이었습니다.

2018년 10월과 2019년 3월 Boeing 737 Max 여객기 2 대가 추락하여 336명이 사망했을 때 문제 중 하나는 알고리즘의 불안정성이었습니다. 새로운 여객기에는 특정 조건에서 뒤로 기울어지게 하는 비행기 설계의 내재 된 불균형을 보상하는 기동특성증강시스템(MCAS)이라는 소프트웨어가 있습니다. MCAS는 비행기의 공격 각도가 너무 가파르면 이를 감지하고 이를 수정하여 안정 장치를 조정하고 비행기의 기수를 낮추고 조종사의 조종간을 아래로 내립니다. 그러나 조종사들은 이 알고리즘에 대한 훈련을 받지 않았고 그 결과(비행기의 코를 낮추고 요크를 아래로 내리는 것)가 의미하는 바를 확인할 수 없었습니다[10]. 이 단계에서 언론인은 다음과 같은 질문을 해야 합니다. 알고리즘에 의해 생성된 데이터 또는 작업이 유용하고 이해할 수 있습니까?

알고리즘의 전반적인 아이디어

알고리즘은 사회-기술적 시스템이기 때문에 탐사 기자는 알고리즘이 내장된 사회적 상황과 원래 아이디어가 윤리적인지 여부도 고려해야 합니다. 즉, 알고리즘 계산이 버그없이 완벽하게 작동한다면; 입력이 알고리즘 작업에 적합한지 여부 그리고 출력이 운영자에 의해 명확하게 이해되고 실행 가능한지; 알고리즘에 위협이 없음을 의미하는가? 완벽한 기술 체인이 완벽한 시스템으로 이어지는가? 시스템이 잘못된 가치와 윤리에 의존하는 경우는 아닌지. 사실, 이러한 경우 효과적인 시스템은 실제로 대규모 불법 행위를 가능하게 합니다.

여기 눈에 띄는 예는 안면 인식 소프트웨어와 그 응용 프로그램이 있습니다. 현재 입력 데이터(얼굴 이미지)를 적절하게 사용하고 정확도가 높으며 운영자가 의도한 대로 사용하는 여러 얼굴 인식 시스템이 있습니다. 그러나 이러한 의도와 근본적인 가정은 안면 인식 시스템을 문제적으로 만듭니다. 예를 들어, 중국 정부는 안면 인식 시스템을 사용하여 위구르 소수 민족의 구성원을 추적합니다[17]. 문제는 단지 오용이나 남용이 아닙니다. 얼굴 인식 시스템은 잘못된 인종 및 성별 분류를 기반으로 하며 이를 강화하는 데 도움이 되고 일부 연구자들은 이 기술을 플루토늄과 동일시하게 만들었습니다. 위험하고 합법적인 용도가 거의 없습니다[22].

따라서 알고리즘을 다루는 언론인은 이러한 시스템이 예측할 수 없거나 의도하지 않은 작업을 수행하도록 하는 개별 구성 요소를 항상 염두에 두어야 할 뿐만 아니라 사회에 해로운 예측 및 예상 결과를 반영할 수 있어야 합니다. 여기에서 언론인들이 해야 할 질문은 좀 더 추상적입니다 : 알고리즘이 전체적으로 윤리적인가? 사회의 가치에 따라 가능하게 해야하는 것을 가능하게 하는가?

3. 액세스 수준이 다른 알고리즘 탐사

이제 알고리즘의 구성 요소와 각각의 위협에 대해 설명했기에 기술적 세부 사항에 대한 광범위한 접근부터 자동화된 의사결정 시스템의 일반적인 가치 기반 설명에 이르기까지 각 항목에 대한 접근성에 기반해서 언론인이 알고리즘을 탐사할 수 있는 방법을 살펴보겠습니다. 앞으로 살펴보겠지만 다양한 데이터 가용성(availability)은 조사를 위한 다양한 기회와 도전과제를 제시합니다. Table 2는 각 접근가능성 유형에 대해 활용가능한 접근 방식을 보여 주며 다음 하위 섹션에서는 각 시나리오를 더 자세히 살펴봅니다.

코드에 대한 액세스

알고리즘의 투명성이 가장 높은 경우는 탐사 기자가 실제 계산 및 데이터 조작을 수행하는 기본 코드에 액세스 할 수 있는 경우입니다. 이를 통해 코드를 검사하여 논리 또는 구현에 버그가 있는지 확인하거나 시뮬레이션된 데이터를 사용하여 실행하여 가상의 결과를 확인할 수 있습니다. 이러한 접근 방식을 사용하면 알고리즘의 출력을 가장 자연스러운 형태로 볼 수 있으므로 탐사 기자가 해석가능성을 결정할 수 있습니다. 이 수준의 액세스에 대한 절충점(trade-off)은 코드 처리 및 읽기와 같은 특정 기술 능력이 필요하다는 것입니다.

그러나 코드를 검사하고 실행할 수 있는 기술적인 능력을 가진 저널리스트들 사이에서도 이러한 유형의 조사에서 가장 어려운 단계는 실제로 코드에 액세스하는 것입니다. 언론인이 코드에 액세스할 수 있는 방법은 제한되어 있습니다. 브라질 선거 시스템의 경우처럼 개발자가 직접 코드를 열어 검사하는 경우가 있었습니다[25]. 다른 경우에는 정부에서 시스템을 개발하거나 사용할 때 언론인이 정보공개 요청을 시도할 수 있습니다[7]. 그러나 이러한 유형의 요청은 일반적으로 정부가 사용하는 경우에도 민간 기업에서 개발한 알고리즘의 경우 영업 비밀을 이유로 액세스를 제한합니다[7].

2017년 ProPublica는 뉴욕주에서 범죄 현장 증거의 DNA 검사에 사용하는 독점 소프트웨어로 인한 잘못된 유죄 판결에 대한 불만들을 조사했습니다[13]. 소스 코드는 용의자의 변호인이 요청했으며 전문가의 평가를 받았더니 결함이 있는 것으로 밝혀졌습니다. 그러나 그것은 여전히 ​​대중에게 공개되지 않았습니다. ProPublica는 그 후 뉴욕 남부 지역에 해당 소스 코드에 대한 액세스를 요청하는 신청서를 제출했습니다[12]. 이 자료는 결국 봉인이 풀리고 GitHub 저장소에서 ProPublica [11]에 의해 공개적으로 공유되었습니다.

입력 및 출력 데이터 모두에 액세스

알고리즘의 입력 및 출력 데이터에만 액세스하는 것만으로도 강력한 탐사에 충분합니다. 알고리즘의 내부 메커니즘이 블랙박스와 동일하다면 입력과 출력은 그것의 문으로 볼 수 있습니다 [5]. 이러한 경우 언론인은 입력과 출력을 비교하는 데이터 분석을 수행하여 시스템의 내부 계산을 리버스 엔지니어링하기 시작할 수 있습니다.

이것이 New York Times의 The Upshot이 시카고의 전략적 주제 목록(SSL)을 조사했을 때 한 일입니다. SSL은 범죄자 또는 피해자로 사람이 총격 사건에 연루될 가능성을 예측하는 알고리즘에 의해 생성됩니다[4]. 알고리즘 자체는 공개적으로 사용할 수 없지만 399,000명의 개인이 포함된 목록은 도시의 오픈데이터 포털에 공개됩니다.

이 목록에는 이름이 포함되어 있지 않지만 해당 개인에게 할당된 실제 위험 점수 외에 데이터 분석에 유용한 정보가 있습니다. 여기에는 연령, 성별, 인종 / 민족, 그 사람이 마약 또는 무기 위반으로 체포되었는지 여부가 포함됩니다. 다른 데이터 중에서 가장 최근에 체포된 위치 (있는 경우). 위험 점수 (출력)와 위험점수를 계산하는 데 사용되는 데이터 (입력)를 모두 사용하여 저널리스트는 선형회귀 분석을 수행하고 점수와 어느 정도 상관 관계가있는 기준을 분리할 수있었습니다[2]. 또한 데이터 세트의 작은 테스트 샘플을 제외하고 모두 분석을 수행 한 경우 저널리스트는 나머지 테스트 샘플의 점수를 예측하여 자신의 데이터 세트로 결과를 검증 할 수 있습니다.

Upshot은 알고리즘이 젊고 범죄 피해자였던 개인들에게 더 높은 점수를 부여한다는 것을 발견했습니다. 경찰 측에서 말한 것과는 달리, 갱단 소속은 높은 위험 점수에 대한 상대적으로 낮은 예측 변수였습니다[2]. 따라서 리버스 엔지니어링을 통해 기자들은 정부 내러티브에 이의를 제기할 수 있었습니다.

입력 또는 출력 데이터 중 하나에 대한 액세스

언론인이 데이터의 한쪽 끝(출력 또는 입력)만 갖고 있기 때문에 알고리즘을 리버스 엔지니어링 할 수 없는 경우가 있습니다. 그러나이 경우에도 다른 유형의 데이터 분석을 사용하여 알고리즘에 대한 귀중한 통찰력을 얻을 수 있습니다.

ProPublica는 형사 피고가 재범자가 될 가능성을 평가하는 알고리즘인 COMPAS(교정 범죄자 관리 프로파일 링)를 조사했을 때 정보 공개 요청을 통해 18,610명의 위험 점수를 얻었습니다[1]. 알고리즘이 편향되었는지 여부를 실제로 조사하기 위해 먼저 평가된 사람의 인종에 따른 점수 설명 데이터 분석을 수행한 결과 흑인 피고인이 재범 위험이 높은 비율을 차지한다는 사실을 발견했습니다. 그런 다음 점수를 획득한 다른 데이터 세트 인 같은 지역의 공개 범죄 기록과 비교하여 인종별로 재범자가 될 사람들의 비율을 확인했습니다. 그들은 흑인 피고인이 백인 피고인보다 위-양성(false positive)이 더 높다는 것을 발견했습니다. 다시 말해, 그들은 말하고 싶은 이야기를 전달하기 위해 알고리즘의 입력이 필요하지 않았습니다. 그들은 다른 데이터 세트와 분석하고 비교한 출력 데이터만을 필요로 했습니다.

보충 및 맥락 정보에 대한 액세스

알고리즘이 비밀스럽거나 독점적이거나 아직 개발 중이어서 출력 또는 입력 데이터를 활용할 수 없는 경우가 있습니다. 이러한 액세스 부족으로 인해 알고리즘을 정량화하기 어렵지만 조사에서 시스템에 대한 추가 정보나 설명을 사용할 수도 있습니다.

예를 들어 저널리스트는 알고리즘 운영자가 볼 수 있는 내용을 엿볼 수 있도록 데이터 사전(data dictionaries)이나 사용설명서(instruction manuals)를 요청할 수 있습니다. 그러나 이것이 불가능하더라도 언론인은 전통적인 보도 기술을 사용하여 정보를 수집할 수 있습니다. 사람을 인터뷰하는 것은 알고리즘 사용에 관여하는 사람뿐만 아니라 그 영향을 받는 사람도 항상 알고리즘 책임성 보도의 요소가 되어야 합니다. 이러한 인터뷰는 작동 방식에 대한 높은 수준의 통찰력을 제공할 수 있습니다. 알고리즘을 알리는 것을 목표로 하는 보도 자료나 기타 기관 문서도 흥미로운 정보의 보고입니다. 심층적인 기술 정보를 제공하지 않을 수도 있지만 개발자가 중요하다고 생각하는 것 또는 시스템으로 해결하려는 목표에 대해 어느 정도 이해할 수 있습니다.

문서를 살펴보는 것은 검색 엔진을 다루는 웹 사이트가하는 일입니다[21]. 그들은 Google 또는 Bing에서 나오는 모든 지침이나 진술을 예의주시합니다. 그들은 정보를 분석하고 이를 이전 문서와 비교하여 의미있는 차이점을 찾습니다.

맥락 정보 사용의 또 다른 예는 중국 정부의 얼굴 인식 사용에 관한 New York Times의 보도입니다[17]. 알고리즘에 의해 생성된 일부 데이터를 검토하는 동안 대부분의 보도는 전문가 인터뷰를 통해 이루어지며 정부가 이러한 시스템에 관심을 갖는 이유와 시스템을 공급하는 회사의 신원에 대한 컨텍스트를 제공합니다 [17].

4. 토론

이 논문에서 우리는 저널리스트가 알고리즘 시스템을 비판할 때 취할 수 있는 체계적인 접근 방식을 개략적으로 설명하는 프레임워크를 개발했습니다. 알고리즘의 각 구성 요소(입력, 계산, 출력)가 생성하는 다양한 위협을 풀고 효과적으로 사용된 정보 및 접근 방식에 대한 다양한 액세스 시나리오를 탐색하여 이를 수행할 수 있스빈다.

물론이 프레임워크는 결정적이지 않습니다. 다양한 알고리즘과 그 응용 프로그램 및 탐사 기자의 창의력을 예측하기 어렵습니다. 그러나 우리가 기여하고자 한 바는 알고리즘 비판을 잘 알릴 수 있는 방식으로 알고리즘이  이해될 수 있는가 대한 ‘개념적 이해’입니다.

이 프레임워크의 한 가지 주목할 만한 측면은 탐사가 알고리즘의 핵심적 계산(central calculation)에 더 집중할수록 더 기술적이라는 것입니다. 문제는 시스템이 약속한 대로 작동하는지 여부입니다. 다른 한편으로, 알고리즘의 일반적인 설계와 아이디어에 대한 질문은 그것에 동기를 부여해온 가치, 그리고 그 가치가 그게 도입된 사회(의 가치)와 일치하는지 여부와 관련이 있습니다. 그 중간 단계에, 입력 데이터의 적절성과 출력 데이터의 사용이 알고리즘이 배포된 사회적 환경에 적합하게 설계되었는지 여부와 관련이 있습니다. 알고리즘 탐사 접근 방식을 논의할 때 기술에서 가치 기반으로의 동일한 경향을 추적할 수 있습니다. 수학적 로직에 대한 접근가능성은 그 수학이 올바른지에 대한 질문을 제기합니다. 그러나 알고리즘, 입력, 출력이 불투명하면 조사는 더 가치에 기반하게 될 것입니다. 이러한 접근 방식은 각각 고유한 방식으로 다 적절합니다. 그러나 언론인들이 알고리즘 조사 결과를 통해 실제로 하는 일은 더 많은 탐구를 필요로 합니다.

인터렉티브 요소 및 기타 데이터 시각화 기술을 사용하여 알고리즘의 작동 방식을 보다 명확하게 설명하려는 시도에서 흥미로운 발전이 있었습니다 [9]. 또한 감시견 저널리즘[16]의 보다 영구적인 뉴스 구조가 만들어지고 있습니다. 미래의 작업은 이러한 저널리즘 유형의 긴장과 요구뿐만 아니라 전문 뉴스 조직과  궁극적으로 모든 출입 영역에서 알고리즘을 접하게 될 모든 저널리스트에게 있어 장벽이 될 수 있을 뿐만 아니라 주된 취재 영역이 될 수도 있습니다.

REFERENCES

[1] Julia Angwin, Jeff Larson, Surya Mattu, and Lauren Kirchner. 2016. Machine Bias: there’s software used across the country to predict future criminals. And it’s biased against blacks. ProPublica 2016.

[2] Jeff Asher and Rob Arthur. 2017. Inside the algorithm that tries to predict gun violence in Chicago. The New York Times 13 (2017).

[3] Meredith Broussard. 2018. Artificial unintelligence: how computers misunderstand the world. MIT Press.

[4] Monica Davey. 2016. Chicago police try to predict who may shoot or be shot. The New York Times (2016).

[5] Nicholas Diakopoulos. 2014. Algorithmic accountability reporting: On the investigation of black boxes. Tow Center for Digital Journalism.

[6] Nicholas Diakopoulos. 2018. The data journalism handbook 2. European Journalism Centre and Google News Initiative, Chapter 6.

[7] Nicholas Diakopoulos. 2019. Automating the News: How Algorithms Are Rewriting the Media. Harvard University Press.

[8] Danielle Ensign, Sorelle A Friedler, Scott Neville, Carlos Scheidegger, and Suresh Venkatasubramanian. 2017. Runaway feedback loops in predictive policing. arXiv preprint arXiv:1706.09847 (2017).

[9] Karen Hao and Jonathan Stray. 2019. Can You Make AI Fairer Than a Judge? MIT Technology Review.

[10] Phillip Johnston and Rozi Harris. 2019. The Boeing 737 MAX saga: lessons for software organizations. Software Quality Professional 21, 3 (2019), 4–12.

[11] Lauren Kirchner. 2017. Federal Judge Unseals New York Crime Lab’s Software for Analyzing DNA Evidence. ProPublica.

[12] Lauren Kirchner. 2017. ProPublica Seeks Source Code for New York City’s Disputed DNA Software. ProPublica.

[13] Lauren Kirchner. 2017. Thousands of Criminal Cases in New York Relied on Disputed DNA Testing Techniques. ProPublica.

[14] Kristian Lum and William Isaac. 2016. To predict and serve? Significance 13, 5 (2016), 14–19.

[15] Francesco Marconi and Rajiv Daldrup, Tilland Pant. 2019. Acing the Algorithmic Beat, Journalism’s next Frontier. Nieman Lab.

[16] The Markup. 2019. About The Markup. The Markup. https: //themarkup.org/about.html

[17] Paul Mozur. 2019. One Month, 500,000 Face Scans: How China Is Using AI to Profile a Minority. The New York Times 14 (2019).

[18] Cathy O’Neil. 2016. Weapons of math destruction: How big data increases inequality and threatens democracy. Broadway Books.

[19] Ismael Peña-López et al. 2018. Algorithmic Accountability Policy Toolkit. Technical Report. AI Now Institute.

[20] Jerry H Ratcliffe, Ralph B Taylor, and Ryan Fisher. 2019. Conflicts and congruencies between predictive policing and the patrol officer’s craft. Policing and Society (2019), 1–17.

[21] SearchEngineLand. n.d.. About Search Engine Land. Search Engine Land. https://searchengineland.com/about

[22] Luke Stark. 2019. Facial recognition is the plutonium of AI. XRDS: Crossroads, The ACM Magazine for Students 25, 3 (2019), 50–55.

[23] Tricentis. 2018. Tricentis Software Fail Watch Finds 3.6 Billion People Affected and $1.7 Trillion Revenue Lost by Software Failures Last Year. Tricentis. [24] Daniel Trielli, Jennifer A Stark, and Nicholas Diakopoulos. 2017. Algorithm Tips: A Resource for Algorithmic Accountability in Government. In Computation + Journalism Symposium. Evanston, IL, USA.

[25] TSE. 2017. Testes Públicos de Segurança do Sistema Eletrônico de Votação 2017. Superior Electoral Tribunal. Tribunal Superior Eleitoral. http://www.tse.jus.br/eleicoes/eleicoes-2018/ testes-publicos-de-seguranca-do-sistema-eletronico-de-votacao

[26] Rodrigo Zamith. 2019. Algorithms and Journalism. In Oxford Research Encyclopedia of Communication. Oxford University Press.