원문 : https://www.anthropic.com/research/estimating-productivity-gains


개요(Overview)

Claude와 이루어진 실제 대화는 AI가 노동 생산성(labor productivity)에 어떤 영향을 미치는지 무엇을 말해주는가? 당사의 프라이버시 보존 방식(privacy-preserving analysis method)을 사용해 Claude.ai의 실제 대화 10만 건을 표본 추출하고, 해당 대화 속 과업(tasks)이 AI 도움 없이 수행될 경우와 비교하여 소요 시간을 추정함으로써, 전체 경제에 걸친 생산성 함의를 분석하였다. Claude의 추정에 따르면, 이러한 과업은 AI 없이 평균 약 90분이 걸리며, Claude는 개별 과업을 약 80% 단축한다.

이러한 추정치를 외삽(extrapolation)하면, 현재 세대의 AI 모델은 향후 10년간 미국 노동 생산성 증가율을 연평균 1.8%까지 끌어올릴 수 있다. 이는 최근 몇 년간의 증가 속도를 거의 두 배로 높이는 수준이다. 다만 이 수치는 미래 예측은 아니며, 기술 도입률(adoption rate)이나 훨씬 더 강력한 AI 시스템이 가져올 추가적인 생산성 효과는 반영되어 있지 않다.

분석에는 한계가 존재한다. 특히, Claude와의 대화 외부에서 인간이 과업의 품질 검증(validation)이나 정확도 확인에 투입하는 추가 시간을 고려할 수 없다. 그러나 시간이 지남에 따라 AI 모델의 시간 추정 능력이 향상될수록, 본 연구 노트에서 사용한 방법론은 실제 업무에서 AI가 어떤 역할을 하는지 이해하는 데 점점 더 유용해질 것이다.

아래는 보다 상세한 결과 요약이다:

우리 방법론(method)의 개요와 주요 결과(main results)의 일부를 요약한 것이다. Claude의 추정치를 어떻게 검증(validate)하는지, 우리가 어떤 가정을 두는지(assumptions), 그리고 본 분석의 한계(limitations)는 아래에서 자세히 설명한다.


Introduction

Anthropic Economic Index의 일환으로, 우리는 사람들이 다양한 과업(tasks), 산업(industries), 지역(places) 전반에서 Claude를 어떻게 활용하는지를 기록해왔다. 지금까지는 법률(legal), 과학(scientific), 프로그래밍(programming) 과업 등에서 Claude가 얼마나 폭넓게 사용되는지—즉, 사용 범위(breadth)—를 포착했지만, 그 깊이(depth)는 포착하지 못했다. 사람들이 Claude에게 맡기는 과업은 얼마나 실질적인가? 그리고 Claude는 실제로 얼마나 많은 시간을 절약해 주는가?

현재 버전의 Economic Index는 과업 내부의 이질성(within-task heterogeneity)을 포착할 수 없다. 예컨대, 5분 만에 끝나는 보고서 작성(report-writing)과업과 5일이 걸리는 보고서 작성 과업을 구분하지 못하며, 반나절 걸리는 재무 모델링(financial modeling)과업과 몇 주가 소요되는 모델링 과업도 구분하지 못한다. 이는 AI의 경제적 효과를 평가하기 어렵게 만든다. 예를 들어, 한 소프트웨어 개발자가 하루 동안 Claude를 사용해 10개의 풀 리퀘스트(pull requests)를 작성했다 하더라도, 그중 9개는 사소한 문서 업데이트이고 1개는 핵심 인프라 변경이라면, 단순히 과업의 개수만 세는 방식으로는 본질을 놓치게 된다.

여기에 더해, 모델 능력(model capabilities)이 향상될수록 AI가 더 고부가가치(high-value) 작업을 수행하는지도 이해하고 싶다. AI가 업무(work)와 생산성(productivity)을 어떻게 재편하고 있는지 이해하려면, Claude가 어떤 과업을 처리하는지뿐 아니라, 그 과업의 실질적 규모와 시간 절감 효과도 파악해야 한다.

이미 여러 연구 그룹들이 소프트웨어 엔지니어링(software engineering), 글쓰기(writing), 고객 서비스(customer service) 등 좁은 분야에서 생산성 향상을 측정하기 위한 무작위 통제 실험(randomized controlled trials)을 수행하기 시작했다. 또한 METR가 수행한 장기 과업(long tasks) 해결 능력 측정 연구는 AI 시스템이 독립적으로 확장된 다단계(multi-step) 과업을 해결할 수 있음을 보여주었다. 하지만 이러한 평가들은 매우 제한된 문제 집합에 집중하고 있으며, 실제 현실 세계(real-world)의 광범위한 사용을 반영하지는 못한다. AI의 경제 전반적 영향(overall economic impact)을 평가하려면, 수백 혹은 수천 개의 실제 AI 활용 사례를 분석할 방법이 필요하다.

본 보고서는 그러한 목표를 향한 첫걸음이다. Claude를 사용하여, Claude가 처리하는 과업을 인간이 수행할 경우 소요되는 시간과, Claude와 인간이 함께 수행했을 때의 소요 시간을 각각 추정하여 AI가 절약한 시간을 계산한다. AI 모델들이 사용자 전문성(expertise), 업무 흐름(workflows), 제약(constraints)에 대한 충분한 맥락(context)을 갖고 있지는 않지만, 소프트웨어 엔지니어링 과업 데이터셋 기준으로 보면 모델이 추정한 시간은 인간 추정값과 실제 시간 기록(time-tracked outcomes) 대비 유의미한 정확도를 보였다.