이앤아이 WithENI  로고

홈으로
ENI Media
SMART News
ENI Media

ENI Media


AI가 ‘하루치 업무’를 혼자 한다면, 우리 조직은 무엇부터 바꿔야 할까

조회 2

2026-05-14 13:42

METR의 ‘시간 지평’ 지표가 보여준 변화는 성능 경쟁을 넘어 업무 설계와 통제 방식의 재점검을 요구합니다

AI가 사람 개입 없이 ‘얼마나 오래’ 일을 이어갈 수 있는지를 재는 새 지표가 주목받고 있습니다.
METR에 따르면 최신 모델은 인간 전문가 기준 16시간짜리 과제를 50% 확률로 수행했습니다.
이제 관건은 도입 여부보다, 장시간 자율 작업을 안전하게 굴릴 운영·검증 체계입니다.

AI가 사람 개입 없이 ‘얼마나 오래’ 일을 이어갈 수 있는지를 재는 새 지표가 주목받고 있습니다.<br />
METR에 따르면 최신 모델은 인간 전문가 기준 16시간짜리 과제를 50% 확률로 수행했습니다.<br />
이제 관건은 도입 여부보다, 장시간 자율 작업을 안전하게 굴릴 운영·검증 체계입니다.

안녕하세요. 디지털에이전시 이앤아이입니다.

요즘 AI 이야기는 ‘정답을 맞히느냐’에서 ‘혼자서 일을 끝까지 해내느냐’로 초점이 옮겨가고 있죠. 비영리 AI 연구기관 METR이 공개한 평가가 딱 그 변화를 보여줍니다. METR은 단순 벤치마크 점수 대신, AI가 사람 개입 없이 작업을 얼마나 오래 이어갈 수 있는지 측정하는 ‘작업 완료 시간 지평(task-completion time horizon)’이라는 지표를 썼습니다.

이번 평가에서 ‘클로드 미소스 프리뷰(Claude Mythos Preview)’ 초기 버전은 인간 전문가 기준 약 16시간이 걸리는 작업을 50% 성공률로 수행했다고 합니다. 쉽게 말해, 하루치에 가까운 업무를 중간에 사람이 붙잡아 주지 않아도 절반은 끝까지 간다는 뜻이죠. 이전에 공개된 ‘클로드 오퍼스 4.6’이 약 11시간 59분 수준이었다는 점을 보면, 자율 작업 시간이 빠르게 늘고 있다는 신호로 읽힙니다.

흥미로운 점은 METR이 “현재의 과제 묶음(task suite)으로는 16시간 이상의 작업 시간을 신뢰성 있게 측정하기 어렵다”라고 밝힌 대목입니다. 평가 도구가 따라가기 힘들 정도로, 모델이 ‘오래 버티는 능력’의 상한을 밀어 올리고 있다는 얘기니까요. 실제로 228개 과제 중 인간 기준 16시간 이상 걸리는 문제는 5개뿐이었다고 합니다. 측정할 ‘긴 일감’ 자체가 부족해진 셈이죠.

이런 변화가 현업에 던지는 질문은 꽤 현실적입니다. AI가 10분짜리 작업을 잘하는 것과, 8시간 동안 여러 단계를 거쳐 결과물을 내는 건 운영 방식이 완전히 다르거든요. 장시간 자율 작업이 가능해질수록 조직은 ‘프롬프트를 잘 쓰는 법’보다 ‘업무를 쪼개고, 중간 검증을 넣고, 실패를 복구하는 절차’를 먼저 설계해야 합니다. 특히 소프트웨어·데이터·보안처럼 실수가 누적되기 쉬운 업무는 더 그렇고요.

METR은 성능 향상의 배경으로 신뢰성과 오류 복구 능력, 그리고 도구 활용 능력의 발전을 꼽았습니다. 이 말은 반대로, 우리 쪽에서도 AI가 쓸 도구(계정 권한, 데이터 접근, 배포 권한 등)를 어떻게 주고, 어디서 멈추게 할지 정해야 한다는 뜻이기도 합니다. ‘알아서 해줘’가 가능한 만큼, ‘어디까지 알아서 하게 둘지’가 더 중요해졌습니다.

물론 한계도 있습니다. 연구진은 실험 환경에서는 인간이 현업 맥락과 배경지식을 이미 갖고 있는 상황을 충분히 반영하기 어렵다고 했습니다. 그래서 인간 작업 시간이 다소 과대평가됐을 가능성도 언급했죠. 그럼에도 추세가 산업 현장에 이어진다면, 앞으로 5년 안에 인간에게 한 달 걸리는 소프트웨어 업무 상당수가 자동화될 수 있다고 전망합니다. 기대와 함께, 장시간 감독 없이 움직이는 AI가 오작동하거나 악의적으로 활용될 때의 위험도 커진다는 경고도 같이 나왔고요.

이앤아이 관점에서 보면, 이제 AI 도입은 ‘기능 추가’가 아니라 ‘운영 체계’의 문제에 가깝습니다. 웹서비스나 내부 시스템에 AI 에이전트를 붙일 계획이라면, 권한 설계, 로그와 감사 추적, 중간 승인(휴먼 인 더 루프), 결과물 검증 기준 같은 안전장치를 먼저 문서화해 두는 게 좋습니다. AI가 더 오래 일할수록, 조직의 기준과 통제가 더 선명해야 하니까요.

#AI에이전트 #자율AI #작업완료시간지평 #METR #클로드 #업무자동화 #AI평가 #AI거버넌스

#이앤아이 #디지털에이전시 #ENIMedia #AI전문기업

이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!