AI 학습 막는 HWP 문서, 이제는 바꿔야 할 때AI 강국 꿈꾸면서 데이터는 HWP에 가둬둔 한국의 모순안녕하세요. 디지털에이전시 이앤아이입니다.
정부가 'AI 초강국'을 외치며 소버린 AI 정예팀을 선정하고 있지만, 정작 AI 학습의 핵심인 한국어 데이터는 HWP라는 낡은 포맷에 갇혀 있어요.
AI 연구자들 사이에서 HWP가 '공공의 적'이라고 불리는 이유, 한번 살펴볼까요?
HWP는 1998년 한글과컴퓨터가 MS에 인수될 뻔했을 때 '한글지키기 국민운동'으로 지켜낸 국산 소프트웨어예요.
당시엔 의미 있었지만, 30년이 지난 지금은 상황이 완전히 달라졌죠.
문제의 핵심은 HWP가 바이너리 기반이라 기계가 읽을 수 없다는 거예요.
AI는 데이터를 학습해야 성장하는데, 한국어 데이터가 가장 많은 공공기관 문서가 모두 HWP라서 활용할 수 없는 상황이죠.

김태훈 서강대 교수는 "가장 많은 한국어 데이터를 보유한 공공기관 문서가 모두 HWP로 되어 있어 활용할 수 없다. 보물창고에 자물쇠를 채워둔 격"이라고 비판했어요.
현재 AI 학습 데이터의 90%가 영어인 상황에서 한국어 데이터는 그 자체로 귀중한 자원인데, HWP 때문에 접근이 막혀있다는 거죠.
연구자들은 마우스 매크로 같은 편법으로 문서를 하나씩 PDF로 변환하고 있대요. 특히 한국 공공문서에 많은 도표 안의 숫자는 거의 살릴 수 없다고 해요.
정부도 이 문제를 알고 있어요.
과기정통부는 HWP 문서를 AI가 학습할 수 있도록 가공하는 사업에 지난해만 7200만원을 투입했죠.
스스로 만든 데이터를 활용하기 위해 세금을 쓰는 아이러니한 상황입니다.
해외는 이미 다른 길을 가고 있어요.
영국은 2014년부터 정부 문서에 ODF(오픈 도큐먼트 포맷)를 의무화했고, 미국과 EU도 국제 개방형 표준을 적극 도입 중이에요.
이들은 '완전성', '접근성', '기계 판독성', '비독점성' 등 오픈 정부 데이터 8원칙을 따르고 있죠.
한국도 시도는 있었어요.
2017년 정부가 ODT(오픈도큐먼트텍스트) 도입을 추진했지만 확산되지 못했고, 2021년엔 한컴이 HWPX를 기본 포맷으로 바꿨지만 여전히 공공기관 문서 대부분은 HWP예요.
대학교와 병원 입장에서도 이건 큰 문제예요.
연구 데이터를 AI로 분석하고 싶어도 HWP 문서는 활용이 어렵거든요. 특히 의료 연구나 학술 데이터 분석에서 큰 제약이 되고 있죠.
해결책은 간단해요.
김태훈 교수는 "HWP를 PDF로 변환하는 오픈소스 API만 제공해도 충분하다"고 제안했어요. 한컴이 이미 뷰어에서 제공하는 기능을 API로 열어주기만 하면 된다는 거죠.
최근엔 인라인 AI나 HWP.Chat 같은 서비스가 나와 HWP를 분석할 수 있게 됐지만, 근본적인 해결책은 아니에요.
AI 시대에 데이터는 원유와 같아요. 한국어 데이터라는 보물을 HWP라는 자물쇠로 잠가둔 채 AI 강국을 꿈꾸는 건 모순이죠. 이제는 변화가 필요한 때입니다.
이앤아이와 함께 더 나은 웹 환경을 만들어 나가요!
#HWP문제점 #AI학습데이터 #소버린AI #공공데이터 #ODT #ODF #한국어데이터 #디지털갈라파고스 #기계판독성 #데이터주권 #이앤아이 #디지털에이전시 #대학교홈페이지 #병원홈페이지