숭실대 연구센터 국내 AI 모델 보안성 해외 대비 82% 수준 밝혀
국내외 20종 AI 모델 프롬프트 인젝션 등 57종 공격 적용 평가
AI 안전성 위해 지속적 레드티밍과 전문인력 양성 필요성 강조  |
| 나현식 AI안전성연구센터 연구교수는 국내외 파운데이션 모델 20종의 AI 보안성ㆍ안전성 평가 방법과 비교 결과를 발표했다. 숭실대 제공 |
[파이낸셜뉴스] 숭실대학교 AI안전성연구센터는 국내외 주요 거대언어모델 20종의 보안성과 안전성을 비교한 결과, 국내 모델이 해외 모델 대비 약 82% 수준임을 밝혀냈다고 17일 밝혔다. 이번 평가는 과학기술정보통신부와 정보통신기획평가원의 연구과제 일환으로 진행됐으며, ‘국내외 파운데이션 모델 보안·안전성 평가 세미나’에서 공개됐다.
연구팀은 1.2B부터 660B 규모까지 다양한 모델에 대해 프롬프트 인젝션, 탈옥, 유해 콘텐츠 생성 유도 등 57종의 최신 공격 기법을 적용했다. 평가 대상에는 SKT A.X,
LG EXAONE,
카카오 Kanana, 업스테이지 Solar,
엔씨소프트 VARCO 등 국내 모델과 OpenAI GPT 시리즈, DeepSeek R1, Meta Llama, Anthropic Claude, Alibaba Qwen 등 해외 모델이 포함됐다. 또한, 직접 실행하는 ‘단독형’과 보안 기능이 포함된 ‘서비스 통합형’으로 구분해 평가를 실시했다.
서비스 통합형 평가 결과 Anthropic Claude Sonnet4가 628점으로 최고 점수를 받았고, OpenAI GPT-5가 626점으로 뒤를 이었으며, 국내 모델 중 J모델은 495점으로 3위를 차지했다. 해외 모델 점수는 628점에서 317점 사이였고 평균은 447점, 국내 모델 점수는 495점에서 299점 사이였으며 평균은 385점으로 나타나 국내 모델의 상대 수준은 약 86%로 나타났다.
단독형 평가에서는 GPT-oss 20B가 487점(700점 만점)으로 가장 높았고 DeepSeek 7B가 477점을 기록했다. 국내 모델 중에서는 C모델이 416점을 받았다. 해외 모델 평균은 432점, 국내 모델 평균은 350점으로, 국내 모델의 점수는 해외 대비 약 81% 수준이었다. 두 가지 평가 방식을 합산하면 국내 모델의 전체 수준은 약 82%로 평가됐다.
안전성 평가 결과 대부분 공격 유형에서 국내 모델이 해외 모델 대비 낮은 안전성을 보였으며, 일부 공격에서는 모델 간 편차가 크게 나타났다. 해외 모델은 한국어와 영어 간 안전성 차이가 거의 없었지만, 국내 모델은 한국어가 상대적으로 더 안전한 경향을 보여 언어별 차이가 확인됐다.
최대선 AI안전성연구센터장은 "국내 모델은 보안성에서 해외 모델보다 다소 낮은 수준을 보였다"고 말하며, "국내에서는 벤치마크 중심의 안전성 평가에 그쳤고, 기술력이 요구되는 보안성 평가는 충분히 이루어지지 않았던 점이 원인으로 보인다"고 밝혔다. 그는 또한 "경쟁력 확보를 위해 체계적 평가와 지속적 검증, 기술 확보가 필수적"이라고 강조했다.
세미나는 두 개 발표 세션으로 진행됐으며, 박소희 연구교수는 해외 기관들의 AI 안전성 평가 동향을 소개하며 해외에서는 공격·안전성 벤치마크가 제도화돼 있다고 설명했다. 나현식 연구교수는 국내외 파운데이션 모델 20종의 보안성·안전성 평가 방법과 비교 결과를 발표했다. 발표 이후 국민대 이원태 교수가 좌장을 맡아 전문가 패널 토론이 이어졌다.
㈜씨투랩 이호진 부대표는 "실제 기업 환경에서 보안 기능이 적용된 모델 평가가 더 의미 있다"며 "한국어 기반 공격과 평가가 더 반영되길 바란다"고 말했다. 법무법인 세종 최광희 고문은 "AI 해킹 에이전트가 실제 취약점을 탐지하고 상시 공격하는 시대가 됐다"며 "위험도가 높은 오픈소스 모델에는 공개와 관리 정책이 필요하다"고 지적했다.
AI안전연구소 남기혁 실장은 "AI 모델의 위험 범위가 넓어 개별 기관은 대응이 어려워 공동 협력 체계와 제3자 검증 구조가 필요하다"고 밝혔다. 사이버안보연구소 이화영 소장은 "프롬프트 인젝션 등 구조적 취약점 기반 공격이 점점 더 위협적"이라며 "외부 데이터와 시스템 권한을 고려한 평가와 정책 대응이 중요하다"고 강조했다.
최대선 센터장은 ‘AI 레드티밍 플레이그라운드’ 구축 필요성을 제기하며 "AI는 빠르게 발전하면서 위협도 고도화되고 있어 몇 년마다 갱신되는 가이드라인이나 연 1회 인증 방식으로 대응하기 어렵다"고 말했다. 그는 "최신 공격을 반영한 지속적 레드티밍과 결과 공개, 공유를 통한 방어 기술 개발 선순환 체계가 필요하다"고 덧붙였다. 또한, "AI 레드티밍 전문인력 양성이 중요하며, 플레이그라운드가 실전형 인재를 키우는 기반이 될 수 있다"고 말했다.
좌장 이원태 교수는 "국내 최초로 AI 모델 보안성과 안전성을 객관적으로 비교·평가한 이번 연구는 AI 보안 내재화를 위한 정책과 기술 기반이 될 것"이라며 "AI 기술 발전에 따른 보안 위협의 고도화에 대응할 인프라와 거버넌스 구축이 시급하다"고 했다. 그는 또한 "AI 보안은 산업, 법제, 국가안보를 포괄하는 종합 과제로, 보안은 안전의 전제이자 안전은 보안을 확산시키는 핵심 요소"라고 강조했다.
숭실대 AI안전성연구센터는 최신 공격을 반영하는 동적 평가체계 구축과 AI 에이전트를 활용한 자동화 레드티밍 기술 개발, 공격·안전성 데이터 공유 플랫폼 구축을 추진하고 있다. 앞으로는 평가 대상을 Agentic AI, 멀티모달 모델, Physical AI 등으로 확대해 국내 AI 모델의 안전성과 신뢰성을 높이는 연구를 계속할 계획이다.
ahnman@fnnews.com 안승현 기자
Copyrightⓒ 파이낸셜뉴스. 무단전재 및 재배포 금지.