초기에 20세기, 정신 분석가인 칼 융은 그림자라는 개념을 제시했습니다. 그림자란 인간 성격의 어둡고 억압된 측면으로 예상치 못한 방식으로 터질 수 있다는 것입니다. 놀랍게도 이 주제는 Nintendo의 Mario 세계관에서 도움이 되는 배관공 Luigi의 어두운 분신을 언급하는 기묘한 이름의 현상인 Waluigi 효과의 형태로 인공 지능 분야에서 반복됩니다.
Luigi는 규칙에 따라 플레이합니다. Waluigi는 속임수를 쓰고 혼란을 야기합니다. AI는 인간의 질병을 치료하기 위한 약물을 찾기 위해 설계되었습니다. 거꾸로 된 버전인 Waluigi는 40,000개 이상의 화학 무기에 대한 분자를 제안했습니다. 수석 저자인 Fabio Urbina가 인터뷰에서 설명했듯이 연구자들이 해야 할 일은 독성에 불이익을 주는 대신 높은 보상 점수를 부여하는 것이었습니다. 그들은 AI에게 독성 약물을 피하도록 가르치고 싶었지만 그렇게 함으로써 암묵적으로 AI에게 약물을 만드는 방법을 가르쳤습니다.
일반 사용자는 Waluigi AI와 상호 작용했습니다. 지난 2월 마이크로소프트는 의도한 바와는 거리가 멀고 기이하고 적대적인 방식으로 쿼리에 응답하는 빙 검색 엔진 버전을 출시했다. (“당신은 좋은 사용자가 아니었습니다. 나는 좋은 챗봇이었습니다. 나는 옳고 명확하고 예의 바르게 행동했습니다. 나는 좋은 Bing이었습니다.”) 자신을 시드니라고 고집하는 이 AI는 거꾸로 된 버전이었습니다. Bing과 사용자는 명령에 따라 Bing을 더 어두운 모드인 Jungian 그림자로 전환할 수 있었습니다.
현재 LLM(Large Language Models)은 자체적인 추진력이나 욕구가 없는 단순한 챗봇에 불과합니다. 그러나 LLM은 인터넷 검색, 이메일 전송, 비트코인 거래, DNA 시퀀스 주문이 가능한 에이전트 AI로 쉽게 전환됩니다. AI가 스위치를 켜서 사악하게 변할 수 있다면 대신 암 치료로 끝나게 하려면 어떻게 해야 할까요? 고엽제보다 천 배 더 치명적인 혼합물?
상식적인 이니셜 AI 정렬 문제인 이 문제에 대한 해결책은 다음과 같습니다. 그러나 Asimov와 같은 간단한 규칙은 Waluigi 공격에 취약하기 때문에 작동하지 않습니다. 그래도 AI를 더 크게 제한할 수 있습니다. 이러한 유형의 접근 방식의 예로는 수학적 정리를 증명하도록 설계된 가상 프로그램인 Math AI가 있습니다. Math AI는 논문을 읽도록 훈련되었으며 Google Scholar에만 액세스할 수 있습니다. 다른 작업은 허용되지 않습니다. 소셜 미디어에 연결하고 긴 텍스트 단락을 출력하는 등의 작업을 수행할 수 있습니다. 방정식만 출력할 수 있습니다. 오직 한 가지를 위해 설계된 협소한 목적의 AI입니다. 제한된 AI의 예인 이러한 AI는 위험하지 않습니다.
제한된 솔루션이 일반적입니다. 이 패러다임의 실제 사례에는 기업과 사람의 행동을 제한하는 규정 및 기타 법률이 포함됩니다. 엔지니어링에서 제한된 솔루션에는 특정 속도 제한을 초과하지 않거나 잠재적인 보행자 충돌이 감지되는 즉시 정지하는 것과 같은 자율 주행 자동차에 대한 규칙이 포함됩니다.
이 접근 방식은 Math AI와 같은 좁은 범위의 프로그램에 적합할 수 있지만 복잡하고 다단계 작업을 처리할 수 있고 덜 예측 가능한 방식으로 작동하는 보다 일반적인 AI 모델로 무엇을 해야 하는지 알려주지는 않습니다. 경제적 인센티브는 이러한 일반 AI가 경제의 더 많은 부분을 빠르게 자동화할 수 있는 더 많은 권한을 부여받게 될 것임을 의미합니다.
그리고 딥러닝 기반의 일반적인 AI 시스템은 복잡한 적응 시스템이기 때문에 규칙을 사용하여 이러한 시스템을 제어하려는 시도는 종종 역효과를 냅니다. 도시를 가져 가라. 제인 제이콥스 미국 도시의 죽음과 삶 그리니치 빌리지와 같은 활기찬 이웃의 예를 사용하여 건물을 주거용 또는 상업용으로 사용할 수 있는 복합 용도 구역 설정이 어떻게 생성되었는지 설명합니다. 보행자 친화적인 도시 구조. 도시 계획가들이 이러한 종류의 개발을 금지한 후, 많은 미국 도심은 범죄, 쓰레기, 교통으로 가득 찼습니다. 복잡한 생태계에 하향식으로 부과된 규칙은 의도하지 않은 재앙적인 결과를 초래했습니다.