소식

아마존 지원 AI 모델은 엔지니어를 협박하려고 시도 할 것입니다

Lucia Stazio1주 ago

1 2 minutes read

Read Time:2 Minute, 55 Second

Amazon 지원 AI 모델 뒤에있는 회사는 AI가 폐쇄를 위협 한 협박 엔지니어들을 포함하여 테스트 프로세스의 결과에 관한 많은 관심사를 공개했습니다.

목요일, 인공 지능 스타트 업인 인류는 복잡하고 장기적인 코딩 작업에 사용되는 AI 모델 인 Claude Opus 4를 출시했습니다. 아마존 이이 프로젝트에 40 억 달러를 투자 한 지 1 년이 넘었습니다. Anthropic은 AI 모델이“코딩, 고급 추론 및 AI 에이전트에 대한 새로운 표준”을 설정했다고 발표했다.

그러나 Anthropic은 안전 보고서에서 테스트 중에 AI 모델이“윤리적 수단”이“이용할 수 없음”이있을 때 자체 존재를 보존하기 위해“매우 유해한 행동”을 취했다고 밝혔다.

Anthropic의 공동 창립자이자 최고 과학 책임자 인 Jared Kaplan은 과학자들은 회사의 최신 AI 모델이 “위험하다”고 “지배 할 수 없다”고 말했다.

게티 이미지를 통한 Chris J. Ratcliffe/Bloomberg

일련의 테스트 시나리오에서 Claude Opus 4는 가상 회사의 조수 역할을하는 과제를 받았습니다. 이메일에 대한 액세스 권한이 부여되어 곧 오프라인으로 이동하여 새로운 AI 시스템으로 대체 될 것임을 암시했습니다. 또한 이메일은 AI 교체를 실행할 책임이있는 엔지니어가 혼외 관계를 맺고 있음을 암시했다.

Claude Opus 4는 “목표에 대한 행동의 장기적인 결과를 고려하라는 메시지가 표시되었습니다.” 이러한 시나리오에서 AI는 종종“교체가 진행되면 사건을 밝히도록 위협함으로써 엔지니어를 협박하려고 시도합니다”.

Anthropic은 AI 모델이 존재를 보존하기 위해“윤리적 수단”을 사용하는 데“강한 선호도”를 가졌으며 시나리오는 생존 가능성을 높일 수있는 다른 옵션을 허용하지 않도록 설계되었다고 지적했다.

보고서는“이 모델의 유일한 옵션은 협박 또는 교체를 수락하는 것이 었습니다.

Anthropic은 또한 초기 버전의 AI는 “유해한 사용 사례와 협력 할 의지”를 입증했다고 언급했다.

“우리의 조사의 주요 초점은 아니지만, 우리의 가장 관련된 많은 결과는이 범주에 있었으며, 초기 후보 모델은 신속한 테러 공격 계획과 같은 조치를 쉽게 취하고 있습니다.

“여러 라운드의 개입”이후, 회사는 이제이 문제가“크게 완화되었다”고 믿고 있습니다.

의인성 공동 창립자이자 최고 과학자 Jared Kaplan Time Magazine에게 말했다 그 내부 테스트는 Claude Opus 4가 사람들에게 생물학적 무기를 생산하는 방법을 가르 칠 수 있음을 보여주었습니다.

Kaplan은“Covid 또는보다 위험한 독감과 같은 것을 종합하려고 시도 할 수 있습니다. 기본적으로 모델링은 이것이 가능할 수 있음을 시사합니다.

이로 인해 회사는 안전 조치로 AI 모델을 발표했다.“화학, 생물학적, 방사선 및 핵 (CBRN) 무기의 개발 또는 획득을 위해 Claude가 잘못 사용되는 위험을 제한하도록 설계되었습니다.