멀티모달 딥 리서치 벤치마크 MMDR-벤치가 던진 메시지안녕하세요. 디지털에이전시 이앤아이입니다.
요즘 AI가 자료를 찾아 읽고, 정리하고, 보고서까지 써주는 ‘딥 리서치 에이전트’ 경쟁이 뜨겁죠.
그런데 막상 실무에서 써보면 이런 고민이 생깁니다. 문장은 그럴듯한데, 인용이 정확한지 확신이 안 든다. 표나 이미지에 있는 숫자를 옮겨 적다가 틀리는 것 같다. 결국 핵심은 하나입니다. 보고서의 겉모양이 아니라 근거의 신뢰성입니다.
이 문제의식을 정면으로 다룬 새 벤치마크가 공개됐습니다.
오하이오주립대와 아마존 연구진이 공개한 ‘MMDR-벤치(MMDeepResearch-Bench)’인데, 텍스트뿐 아니라 이미지, 도표, 수식 같은 시각 정보를 얼마나 정확히 이해하고, 그 근거를 보고서에 제대로 인용해 쓰는지까지 평가합니다.
기존 벤치마크가 짧은 질의응답이나 텍스트 위주였다면, MMDR-벤치는 실제 리서치 업무 흐름에 더 가깝게 설계됐다는 점이 눈에 띕니다.

MMDR-벤치는 21개 도메인에서 전문가가 만든 140개 고난도 과제로 구성됩니다.
과제는 이미지와 텍스트가 함께 주어지고, 모델은 멀티모달 정보 이해, 단계별 검색과 합성, 인용 기반 보고서 작성까지 모두 해내야 합니다.
평가도 한 줄 점수로 끝내지 않습니다. 보고서의 서술 품질과 구조를 보는 FLAE, 인용이 실제 근거와 정확히 연결되는지 검증하는 TRACE, 시각 자료와 텍스트 주장 사이의 일관성을 따지는 MOSAIC을 함께 봅니다.
특히 가중치가 인용 정확도(TRACE)에 가장 크게 배정돼, ‘멋진 문장’보다 ‘검증 가능한 출처’에 방점을 찍었습니다.
결과도 흥미롭습니다.
25개 최신 모델을 평가했더니 ‘제미나이 딥 리서치’가 1위를 차지했고, ‘제미나이 3 프로’와 ‘제미나이 3 플래시’가 뒤를 이었습니다.
딥시크-V3.2, GPT-5 미니도 상위권에 이름을 올렸습니다. 다만 연구진은 시각 기능을 켜면 전반적 이해는 좋아지지만, 표 안의 작은 숫자나 세부 수치를 틀리는 ‘세부 기록 오류’가 늘 수 있다고 지적했습니다.
또 리서치 과정이 길어질수록 처음엔 맞게 읽었던 정보가 마지막에 엉뚱한 출처와 결합되는 ‘증거-개체 연결 오류’도 자주 발생한다고 합니다.
이 흐름은 우리에게 분명한 실무 시사점을 줍니다.
딥 리서치 에이전트를 도입할 때는 “얼마나 똑똑하게 쓰나”보다 “근거를 어떻게 남기고 검증하나”를 먼저 설계해야 합니다.
보고서 자동화, 연구지원, 시장조사뿐 아니라 콘텐츠 제작이나 웹사이트 운영에서도 마찬가지입니다. 출처가 분명한 콘텐츠는 신뢰를 만들고, 신뢰는 브랜드와 서비스의 지속성을 만듭니다.
#MMDR벤치 #MMDeepResearchBench #딥리서치에이전트 #멀티모달AI #AI보고서 #인용검증 #벤치마크 #제미나이3 #AI신뢰성 #리서치자동화 #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지 #AI전문기업