반응형

✅ 관련 배경 및 연구
- 국내 AI 및 자연어처리(NLP) 분야 연구에서는 비정형 문서·구조화되지 않은 문서 데이터가 AI 처리에서 어려운 장애물이라는 지적이 많습니다. 예컨대 옛 한글 문서나 한자 필사 문서 등을 AI로 인식·분류하기 위해서는 문서 구조·글꼴·데이터 전처리 등이 필수라는 연구가 있습니다. arXiv+1
- 공공데이터 활용 측면에서도, 행정·공공기관에서 제공하는 데이터 중에는 **스캔 문서, 이미지화된 PDF, 구조적 태그가 없는 문서파일(예: ‘비정형’ 형태)**가 많아 AI·머신러닝 모델에 적용하려면 별도의 전처리(텍스트 추출·클래스 라벨링 등)가 필요하다는 보고가 있습니다.
- 비록 “91%”라는 수치가 구체적으로 확인되지는 않지만, “상당 부분의 공공데이터가 구조화 부족 상태”라는 인식은 국내 연구 및 정책 문서에서도 공유되고 있습니다.
⚠️ 유의할 점
- “91%”라는 구체적 퍼센티지는 공식적으로 검증된 통계가 아니므로 인용할 때는 주의가 필요합니다.
- “AI가 읽지 못한다”는 표현도 다소 과장된 면이 있으며, 실제로는 모델 성능 저하·전처리 비용 증가 등의 형태로 어려움이 나타납니다.
- 문서 구조화 문제는 “태그가 있다/없다”의 이분법이 아니며, 메타데이터 부족·OCR 오류·불완전한 레이블링 등 다양한 요소가 복합적으로 작용합니다.
- 공공데이터의 활용 가치, AI 적용 가능성, 비용 대비 효과 등은 데이터의 품질뿐 아니라 이용 목적·도메인 지식·처리 기술·저작권·프라이버시 제약 등 여러 변수에 따라 다릅니다.
📌 시사점
- 공공기관·정부·지자체 데이터관리 조직은 데이터를 구조화하고 태깅(tagging)하며, 가능하면 머신러닝 적용 가능한 형태로 제공하는 노력이 중요합니다.
- 기업 및 연구기관에서는 공공데이터를 AI 프로젝트에 활용할 경우, 데이터 전처리·레이블링·클래스화 비용이 상당할 수 있음을 미리 고려해야 합니다.
- AI 개발자 입장에서는 “데이터가 구조화돼 있지 않다”는 것은 곧 코딩·모델링 이전의 데이터 정비·정제 영역이 크다는 뜻이므로, 이 부분을 역량으로 갖추는 것이 경쟁력이 될 수 있습니다.
반응형
'이슈 > IT' 카테고리의 다른 글
| 오픈AI도 샀다! 국산 로봇 손이 애플·구글을 흔들다 (1) | 2025.11.03 |
|---|---|
| "이러다 큰일난다" 절대강자 '네이버' 추락 사태... 1년만에 무슨일이 (1) | 2025.11.03 |
| 바이브 코딩으로 '일회용 앱' 등장... "쉽게 만들어 한번 쓰고 버려" (1) | 2025.11.02 |
| 네이버-엔비디아, '피지컬AI 플랫폼' 공동개발 (1) | 2025.11.01 |
| 스마트폰 값으로 로봇을?... 中 노에틱스, 200만원짜리 휴머노이드 로봇 공개 (1) | 2025.11.01 |