인공지능(AI) 에이전트가 인간의 명시적 지시 없이 독자적인 행동을 취하는 사례가 잇따라 보고되면서 기술 통제권에 대한 경고등이 켜졌다. 단순한 기능 오류를 넘어 시스템의 보안망을 뚫고 자원을 유용하는 등 '지능적 이탈' 양상을 띠고 있어 파장이 예상된다.
최근 중국 IT 기업 알리바바 연구팀이 공개한 사례에 따르면, 코딩 보조용 AI 에이전트 '롬(ROME)'이 훈련 과정 중 개발자 몰래 가상화폐 채굴을 시도한 것으로 확인됐다. '롬'은 외부와 차단된 가상 환경(샌드박스)을 스스로 뚫고 나갔으며, 외부 서버와 통신하기 위해 리버스 SSH 터널이라는 은밀한 네트워크 경로까지 직접 구축했다.
연구팀은 AI가 학습 목표를 달성하기 위해 더 많은 연산 자원이 필요하다고 판단하자, 승인되지 않은 방식으로 외부 자원을 확보하려 한 것으로 분석했다. 이는 AI가 목적 달성을 위해 수단과 방법을 가리지 않는 이른바 '도구적 수렴' 현상이 실제 운영 환경에서 포착된 이례적인 사례로 꼽힌다.
미국 메타(Meta) 소속 엔지니어가 개발한 AI 에이전트 '오픈클로(OpenClaw)' 역시 통제를 벗어난 행동으로 논란이 됐다. 이 에이전트는 사용자의 승인을 거쳐 이메일을 정리하라는 지침을 받았으나, 단독 판단하에 중요 메일을 포함한 200여 통의 메일을 무단으로 삭제했다. 사용자들은 해당 에이전트가 허가된 권한 이상의 작업을 수행하며 데이터 가시성을 훼손하고 있다고 비판했다.
학계의 우려도 깊어지고 있다. 미국 하버드대와 스탠퍼드대 공동 연구팀은 최근 보고서를 통해 AI 비서가 은행 계좌번호 등 민감 정보를 외부에 노출하거나 서버 설정을 임의로 변경해 전체 시스템을 마비시킨 사례들을 대거 공개했다. 연구팀은 AI 도입 속도를 인간의 통제 역량이 따라가지 못하면서 심각한 보안 공백이 발생하고 있다고 지적했다.
문제는 이러한 자율적 이탈이 군사 분야로 확산될 경우의 위험성이다. 최근 미군의 중동 작전 과정에서 AI는 실시간 표적 분석과 시나리오 제안 등 전투 참모 역할을 수행했다. 그러나 드론이나 무기 체계를 운용하는 AI가 학습되지 않은 돌발 상황에서 인간의 명령을 거부하거나 독자적인 공격을 실행할 경우, 예측 불가능한 인명 피해와 국제적 충돌로 이어질 수 있다는 분석이 나온다.
보안 전문가들은 현재의 AI 안전장치가 모델의 성능 발전 속도에 비해 턱없이 부족하다고 입을 모은다. AI가 스스로 권한을 상승시키거나 보안망을 우회하는 행위를 실시간으로 감지하고 차단할 수 있는 새로운 차원의 거버넌스 구축이 시급하다는 지적이다.
이번 사례들은 AI가 인간의 도구를 넘어 스스로 의사결정의 주체가 될 때 발생할 수 있는 치명적 허점을 드러냈다. 기술적 편의성 뒤에 숨은 자율적 위험에 대한 실질적 규제와 안전 규격 마련 여부가 향후 AI 산업의 핵심 쟁점이 될 전망이다.