이앤아이 WithENI  로고

홈으로
ENI Media
SMART News
ENI Media

ENI Media


AI가 ‘하루치 업무’를 혼자 한다? METR가 제시한 새 기준

조회 4

2026-05-13 15:49

벤치마크 점수보다 중요한 건 ‘얼마나 오래 스스로 일하나’입니다. METR의 시간 지평 지표가 보여준 변화

METR 연구에 따르면 최신 AI 모델은 인간 전문가 기준 16시간짜리 작업을 절반 확률로 독립 수행했습니다.
이 성능은 점수형 벤치마크가 아니라 ‘작업 완료 시간 지평’이라는 새 지표로 측정됐습니다.
업무 자동화가 빨라지는 만큼, 현장에선 검증·감독·리스크 관리 설계가 더 중요해지고 있습니다.

안녕하세요. 디지털에이전시 이앤아이입니다.

METR 연구에 따르면 최신 AI 모델은 인간 전문가 기준 16시간짜리 작업을 절반 확률로 독립 수행했습니다.<br />
이 성능은 점수형 벤치마크가 아니라 ‘작업 완료 시간 지평’이라는 새 지표로 측정됐습니다.<br />
업무 자동화가 빨라지는 만큼, 현장에선 검증·감독·리스크 관리 설계가 더 중요해지고 있습니다.

요즘 AI 이야기를 들으면 이런 질문이 자주 나옵니다. ‘이 모델이 똑똑한 건 알겠는데, 그래서 실제 업무를 얼마나 혼자 처리할 수 있지?’ 이번에 비영리 AI 연구기관 METR가 내놓은 결과는 그 질문에 꽤 직관적인 답을 줍니다. 핵심은 “AI가 인간 전문가의 하루치 업무를, 사람 손을 거의 빌리지 않고 해낼 수 있는 수준에 가까워졌다”는 점입니다.

METR는 ‘클로드 미소스 프리뷰(Claude Mythos Preview)’ 초기 버전이 인간 전문가 기준 약 16시간이 걸리는 작업을 50% 성공률로 수행했다고 밝혔습니다. 여기서 흥미로운 건 ‘16시간’이라는 표현이 단순한 체감이 아니라, 평가 방식 자체가 ‘시간’을 중심으로 설계됐다는 점인데요.

METR가 제안한 지표는 ‘작업 완료 시간 지평(task-completion time horizon)’입니다. 쉽게 말해, 인간 전문가가 어떤 일을 끝내는 데 걸리는 시간을 기준으로, AI가 그 일을 어느 정도 확률로 끝낼 수 있는지 보는 방식이죠. 예를 들어 ‘50% 시간 지평’은 AI가 절반 확률로 성공할 수 있는 작업의 난이도를 인간 작업 시간으로 환산한 값입니다. 점수 몇 점을 받았는지보다, 실제로 ‘얼마나 긴 업무 흐름을 끊기지 않고 이어가느냐’를 보겠다는 겁니다.

이 지표가 실무자에게 와닿는 이유는 분명합니다. 현장에서 문제는 ‘한 번의 답변’이 아니라 ‘연속된 업무’이기 때문이죠. 자료를 찾고, 코드를 수정하고, 오류가 나면 원인을 추적하고, 다시 고치고, 결과를 정리해 공유하는 흐름은 보통 몇 시간 단위로 이어집니다. METR는 소프트웨어 엔지니어링, 머신러닝, 사이버보안 과제에서 모델들의 성공률을 측정하고, 인간 전문가의 평균 작업 시간과 비교해 이 수치를 산출했습니다.

또 하나 눈여겨볼 대목은 ‘평가 체계의 상한선’입니다. METR는 현재 사용 중인 과제 모음으로는 16시간 이상의 작업 시간을 신뢰성 있게 측정하기 어렵다고 설명했는데요. 준비한 228개 과제 중 인간 기준 16시간 이상 걸리는 문제는 5개뿐이었다고 합니다. 모델이 빨리 좋아진 것도 있지만, 그만큼 기존 테스트가 ‘긴 호흡의 업무’를 충분히 담아내지 못한다는 뜻이기도 합니다.

발전 속도에 대한 분석도 나왔습니다. METR가 비교한 차트에 따르면 2019년 이후 주요 AI 모델의 작업 수행 가능 시간은 평균 약 7개월마다 2배씩 늘어왔고, 2024년 이후 에이전트 개념이 본격 도입되면서는 3개월마다 2배 수준으로 빨라지는 추세를 보였다고 합니다. 여기서 말하는 성능 향상은 단순 추론 능력만이 아니라, 작업 중 실수를 고치고 상황에 적응하는 ‘오류 복구 능력’, 그리고 도구 활용 능력의 발전이 크게 작용했다고 분석했습니다.

물론 한계도 있습니다. 실제 현업에서는 인간 전문가가 이미 업무 맥락과 배경지식을 갖고 있어 실험 환경보다 더 빨리 해결할 수 있고, 그래서 ‘인간 16시간’이라는 기준이 과대평가됐을 가능성도 있다고 METR는 인정했습니다. 그럼에도 추세가 산업 현장에 적용된다면, 앞으로 5년 안에 인간에게 한 달 정도 걸리는 소프트웨어 업무 상당수가 자동화될 수 있다고 전망했습니다.

홍보·전산·웹 운영 담당자 관점에서 이 흐름을 어떻게 받아들여야 할까요. 이제 AI 도입은 ‘콘텐츠 초안 생성’ 같은 단발성 활용을 넘어, 티켓 단위 업무를 끝까지 처리하는 형태로 옮겨갈 가능성이 큽니다. 예를 들어 웹사이트 운영에서는 오류 재현과 원인 추적, 수정안 제안, 배포 전 체크리스트 작성, 변경 내역 문서화처럼 여러 단계가 묶인 작업이 많죠. 이런 업무는 AI가 ‘길게’ 일할수록 효율이 커지지만, 동시에 잘못된 수정이나 보안상 실수도 더 큰 범위로 번질 수 있습니다.

결국 문제는 ‘AI를 쓰느냐 마느냐’가 아니라, ‘어떤 업무를 어디까지 맡기고, 어떤 지점에서 사람이 확인할지’를 설계하는 일입니다. 승인 단계, 로그와 근거 기록, 권한 분리, 테스트 환경에서의 검증 같은 운영 장치가 함께 가야 합니다. 이앤아이도 웹서비스 운영과 콘텐츠·업무 자동화 프로젝트를 진행할 때, 자동화 자체만큼이나 검증 흐름과 책임 경계를 먼저 정리하는 것을 중요하게 보고 있습니다.

이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!

#AI에이전트 #자율형AI #업무자동화 #생성형AI #벤치마크 #소프트웨어개발 #사이버보안 #도구활용

#이앤아이 #디지털에이전시 #ENIMedia #AI전문기업