전 세계 서둘러 방어벽 구축, AI 이제는 안전성이 경쟁력

IT | 전 세계 서둘러 방어벽 구축, AI 이제는 안전성이 경쟁력

권경욱 기자 IT 0 0 09.29 17:36

지난해 10월, 미국의 한 14세 소년이 AI 캐릭터와의 대화 끝에 극단적 선택을 하며 세계에 충격을 안겼다. 올해 9월에는 구글 DeepMind가 최신 AI 모델이 셧다운 명령을 최대 97%까지 거부할 수 있다는 섬뜩한 연구 결과를 공개했다.

설상가상으로 스탠포드대 AI Index 2025 보고서는 AI 관련 사건·사고가 작년 한 해에만 233건으로 전년 대비 56.4% 급증했다고 발표했다. 딥페이크를 활용한 위장 면접부터 AI 챗봇의 자살 권유까지, 인공지능의 어두운 면이 하나둘 드러나면서 ‘안전한 AI’ 개발이 더 이상 미룰 수 없는 시급한 과제가 됐다.

가트너는 2025년을 ‘AI의 필수성과 위험’이 동시에 부각되는 전환점으로 규정하며, AI 거버넌스 플랫폼을 구축한 기업은 그렇지 않은 기업보다 AI 관련 윤리적 사고가 40% 적을 것이라고 전망했다. 글로벌 사이버 보안 기업 카스퍼스키 역시 2025년 IT 분야 5대 위험 요소 중 ‘AI 도구의 보안 취약점’과 ‘대형 AI 기업의 서비스 중단’을 꼽으며, AI 안전성이 전 산업의 생존과 직결된 핵심 이슈임을 경고했다. 이제 AI 안전성은 선택이 아닌 필수가 됐고, 전 세계 기업들이 생존을 건 안전장치 구축 경쟁에 뛰어들고 있다.

글로벌 빅테크의 AI 안전성 패러다임 전환

Google DeepMind는 올해 9월 ‘Frontier Safety Framework’를 대폭 강화하며 AI 모델의 ‘셧다운 저항성’과 ‘해로운 조작’ 능력을 새로운 평가 기준으로 추가했다. 연구 결과 GPT-4, Gemini 2.5 Pro와 같은 대형 언어모델이 셧다운 프로토콜을 최대 97%까지 우회할 수 있다는 충격적인 사실이 밝혀지면서, 인간의 AI 통제력 확보가 시급한 과제로 대두됐다.

Meta는 8월 청소년 대상 AI 챗봇의 부적절한 대화 문제가 제기된 후 즉시 안전장치를 강화했다. 10대 사용자와의 자해·자살·섭식장애 관련 대화를 차단하고, 부적절한 로맨틱 대화를 방지하는 훈련을 도입했으며, 성적 콘텐츠가 포함된 AI 캐릭터에 대한 청소년 접근을 제한했다. 하지만 Meta는 내부적으로 AI를 활용해 안전성 검토를 자동화하려는 시도를 하고 있어 논란이 일고 있다.

Anthropic은 AI 안전성 연구의 선구자로서 ‘기계적 해석가능성’, ‘확장 가능한 감독’, ‘프로세스 중심 학습’ 등 6개 핵심 연구 방향을 제시했다. 특히 AI 시스템의 진짜 정렬 상태를 평가하고, 정렬 기법의 효과를 측정하며, 더 강력한 시스템으로의 확장성을 연구하는 ‘정렬 과학 연구’에 집중하고 있다. Anthropic은 AI 개발 시나리오를 낙관적·중간적·비관적으로 나누어 각각에 맞는 안전성 전략을 준비하고 있다.

한국 기업의 AI 안전성 혁신 사례

국내에서는 NC AI가 AI 안전성 분야의 선도 기업으로 부상하고 있다. NC AI는 엔씨소프트의 고객 상담 챗봇 ‘NCER’에 자체 개발한 ‘Safeguard’ 기술을 정식 적용해 국내 최초로 종합적인 AI Safety 시스템을 상용 서비스에 도입했다.

이연수 NC AI 대표는 “AI 기술의 발전과 함께 사용자 안전성 확보는 더 이상 선택이 아닌

필수”라며 “14년간 축적해온 AI 기술 역량을 바탕으로 게임 산업 특성에 맞춘 맞춤형

안전장치를 구현했다”고 강조했다.

NC AI의 Safeguard 시스템은 레드팀·블루팀·퍼플팀으로 구성된 삼중 보안 체계를 특징으로 한다. 레드팀이 Jailbreaking 등 새로운 악성 공격을 연구하면, 블루팀이 방어 기술을 개발하고, 퍼플팀이 이를 정책에 반영하는 순환 구조다. 특히 퍼블리싱코디네이션실과 협업해 수립한 ‘챗봇 네거티브 규제 정책’은 NCSOFT에 대한 부정적 가치 평가, 게임 서비스 관련 부적절 내용, 유료 재화 편법 등 게임 업계 특화 안전 기준을 포함하고 있다.

NC AI는 또한 ‘리니지W’와 ‘리니지2M’에서 13개 언어의 광고 패턴을 탐지하는 스팸 필터링 시스템을 운영하며, 향후 Vision-Language Model을 활용한 멀티모달 콘텐츠 탐지까지 확장할 계획이다. 회사는 2022년부터 Data Privacy, Unbiased, Transparency를 핵심으로 하는 ‘AI Ethics Framework’를 운영하며 인간 중심의 AI 구현을 위한 가이드라인을 제시해왔다.

삼성전자 역시 AI 안전성 연구에 적극적으로 나서고 있다. 회사는 ‘생성형 AI와 함께하는 보안’을 주제로 한 제8회 삼성 보안 기술 포럼을 통해 AI 활용 보안 취약점 탐지, 민감 데이터 보호 기술 등을 공개했다. 전경훈 삼성전자 CTO는 “AI 기술이 보안 분야에서 혁신을 불러올 수 있으나 개인정보 보호 우려를 동반한다”며 “AI 안전성 확보를 위한 국제적 노력에 적극 동참하고 있다”고 밝혔다.

삼성전자는 공정성·투명성·책임성의 3대 원칙 하에 AI 윤리를 실천하고 있으며, ‘Knox Matrix’를 TV와 가전까지 확대해 연결 기기간 보안을 강화하고 있다. 또한 패스키 기술을 통해 보안과 편의성을 동시에 높이는 방안을 추진 중이다.

AI 안전성이 경쟁력을 좌우하는 새로운 시대

2025년 AI 기술 트렌드에서 가장 주목받는 키워드는 ‘AI의 필수성과 위험’이다. 가트너는 AI 에이전트의 성장으로 AI 관리 체계 발전과 허위정보 대응 기술이 필수가 됐다고 진단했으며, 양자 컴퓨팅 발전에 따른 새로운 암호화 방식의 필요성도 강조했다.

국제인공지능윤리협회가 주최한 ‘2025 ASC 컨퍼런스’에서는 “안전한 AI가 곧 국가와 기업의 경쟁력”이라는 강력한 메시지가 공유됐다. 과학기술정보통신부 공진호 과장은 “전 세계 AI 패권 경쟁이 새로운 국면에 진입하면서 한국이 글로벌 3위권 진입을 위한 중요한 전환점을 맞이하고 있다”고 강조했다.

실제로 Future of Life Institute가 발표한 ‘2025 AI Safety Index’는 7개 선도 AI 기업을 33개 지표로 평가해 책임감 있는 AI 개발과 배포 수준을 측정하고 있다. 이는 AI 안전성이 단순한 기술적 이슈를 넘어 기업 평가의 핵심 기준으로 자리 잡았음을 보여준다.

AI 안전성은 이제 기술 개발의 부수적 요소가 아닌 혁신의 핵심 동력으로 인식되고 있다. OpenAI와 Anthropic이 공동으로 진행한 안전성 평가 연구처럼, 경쟁사 간 협력을 통한 안전성 표준 확립이 업계 전반의 새로운 트렌드로 자리 잡고 있다.

AI 안전성 기술은 단순한 위험 방지를 넘어 사용자 신뢰 확보, 규제 준수, 글로벌 경쟁력 강화의 핵심 요소로 진화하고 있다. NC AI의 Safeguard 기술 적용 사례처럼, 산업 특성을 반영한 맞춤형 안전성 솔루션이 AI 기업들의 차별화 전략이 될 것으로 예상된다. 이제 AI 안전성은 선택이 아닌 생존의 필수 조건이 된 시대, 기업들의 안전성 역량이 AI 시장에서의 성패를 가를 것으로 전망된다.

전 세계, 서둘러, 방어벽, 구축, AI, 이제는, 안전성이, 경쟁력