보도 자료

AI 에이전트를 구축하는 개발자는 시스템이 자신이 작성한 작은 모호한 패키지(별 몇 개만 있고 최근 업데이트 없음)를 추천했다는 사실을 발견했으며 AI가 자신도 모르게 자신의 작업에 대해 훈련을 받았다고 의심했습니다.

0 0
Read Time:7 Minute, 18 Second

인정의 순간은 팡파르도 없이 찾아왔습니다. 종속성 관리를 지원하기 위해 AI 에이전트를 구축하는 개발자는 시스템이 패키지 권장 사항을 표시하는 것을 지켜보았습니다. 패키지는 모호했습니다. GitHub 스타가 12명도 채 안 됐고, 2년이 넘도록 커밋이 없었으며, README가 한 번에 작성되고 수정되지 않았습니다. 그것은 틀림없이 그 자신의 작품이기도 했다. 그가 몇 년 전에 출판했지만 거의 잊어버린 내용이었습니다.

그 경험은 그다지 비난적이지도 않았고 아주 기분 좋게 느껴지지도 않았습니다. 좀 더 특별한 방식으로 방향 감각을 혼란스럽게 만들었습니다. AI는 그가 말한 적이 없는 그에 대해 뭔가를 알고 있었습니다. 훈련을 받은 광범위한 공개 저장소 어딘가에서 그의 작업을 접했고, 해당 코드에 포함된 패턴과 결정을 흡수했으며, 이제는 완전히 다른 맥락에서 그러한 결정을 재현하고 있었습니다. 그는 다른 목적을 위해 다른 도구를 사용하여 직접 구축한 결정이었습니다. 그가 인지하거나 참여하지 않은 채 루프가 종료되었습니다.

섭취된 것의 규모

코드를 지향하는 현대의 대규모 언어 모델 뒤에 있는 훈련 자료는 작지 않습니다. Microsoft와 OpenAI가 개발한 AI 페어 프로그래밍 도구인 GitHub Copilot은 공개적으로 사용 가능한 수십억 줄의 코드(본질상 엄청난 범위의 품질, 최근성 및 의도를 포함하는 데이터 세트)에 대해 교육을 받았습니다. Code Llama, StarCoder와 같은 모델과 GPT-4 및 Claude와 같은 범용 시스템에 내장된 코드 생성 기능은 GitHub, npm, PyPI, Stack Overflow 및 다양한 문서 저장소에서 제공되는 유사하게 광범위한 컬렉션을 활용합니다.

그 결과 본질적으로 개발자가 공개적으로 게시한 모든 것(업로드된 패키지, 게시된 답변, 커밋된 README)은 적어도 하나의 주요 AI 시스템의 훈련 데이터 어딘가에 있을 합리적인 확률을 갖게 됩니다. 현직 개발자의 축적된 노동력, 소규모 유틸리티, 독선적인 라이브러리, 반쯤 완성된 실험은 소프트웨어 제작 방법을 파악하기 위해 AI 코딩 도구를 활용하는 것의 상당 부분을 구성합니다.

“훈련 자료는 추상적인 것이 아닙니다. 그것은 소규모 유틸리티, 독선적인 도서관, 목요일 오후에 발표된 반쯤 완성된 실험 등 수백만 명의 현직 개발자들의 축적된 노동입니다.”

라이센스에 명시된 내용과 그렇지 않은 내용

공개적으로 사용 가능한 대부분의 코드에는 오픈 소스 라이선스가 포함되어 있습니다. 엄청난 양의 공개 저장소를 관리하는 MIT 라이선스는 소프트웨어 복사본을 사용, 복사, 수정, 병합, 게시, 배포, 재라이센스 부여 및 판매할 수 있는 권한을 부여합니다. Apache License 2.0에는 귀속과 관련된 명시적인 특허 부여 및 조건이 추가되었습니다. 둘 다 허용됩니다. 둘 다 현재 세대의 AI 개발 도구가 존재하기 훨씬 전부터 널리 사용되었습니다.

라이센스는 LLM 교육을 염두에 두고 작성되지 않았습니다. 이는 법적 기술이 아니라 맥락에 대한 관찰입니다. 2017년 MIT에서 소규모 유틸리티를 게시한 개발자는 다른 개발자가 해당 유틸리티를 사용, 포크 또는 구축하는 것을 고려하고 있었습니다. 라이선스는 직접 재사용할 수 있도록 조정되었습니다. 내 코드를 사용하고, 내 코드를 사용하면 라이선스에 따라 수행할 수 있는 작업이 결정됩니다. 해당 코드가 상업용 AI 제품(개발자가 운영하는 시장에서 경쟁하는 제품) 교육의 데이터 포인트가 되는 시나리오는 라이선스 작성자가 고려한 사용 사례가 아니었습니다.

의도된 사용과 실제 사용 사이의 격차가 법적 문제를 구성하는지 여부는 여전히 논란의 여지가 있습니다. 2022년 GitHub, Microsoft, OpenAI를 상대로 제기된 집단소송에서는 Copilot의 훈련 및 출력이 오픈소스 라이선스와 귀속 없이 코드가 사용된 개발자의 권리를 침해했다고 주장했습니다. 2024년 6월, 연방 판사는 Copilot의 출력물이 원고의 작업물과 충분히 동일하지 않다는 이유로 주요 DMCA 저작권 침해 주장을 포함한 대부분의 청구를 기각했습니다. 계약 위반 및 오픈 소스 라이센스 위반에 대한 두 가지 보다 좁은 범위의 청구는 2025년 4월 제9순회 항소에 DMCA 항소가 제기되면서 여전히 진행 중입니다. 소송은 계속되지만 법적 환경은 피고에게 유리하게 상당히 바뀌었습니다. 그동안 개발자들은 기술을 따라잡지 못한 법적 환경에서 활동하고 있다.

공개 대 동의

이 이야기의 개발자는 자신의 패키지를 공개적으로 게시했습니다. 그 선택이 중요합니다. 그는 자신의 작품을 공유 공간에 올려 자신이 속한 생태계에 기여하기로 결정했습니다. 누구도 그에게서 단순한 의미로 아무것도 빼앗지 않았습니다. 패키지를 찾을 수 있었습니다. AI가 그것을 발견했습니다.

그러나 “공개”와 “이 특정 용도에 대해 동의함” 사이에는 의미 있는 차이가 있으며, 현재 AI 훈련 아키텍처는 이러한 차이를 크게 무너뜨립니다. 추론은 다음과 같습니다. 공개했습니다. 이용 가능한 공공 수단; available은 사용 가능하다는 뜻입니다. 그 논리는 일관적이지만 실제로 “공개”가 무엇을 의미하는지에 대한 질문, 즉 청중이 누구인지, 그들이 자료를 가지고 무엇을 할 것인지에 대한 어느 정도 기대를 항상 포함하는 맥락 의존적 개념을 회피합니다.

개발자가 GitHub에 코드를 게시하면 암시적인 청중은 다른 개발자입니다. 암시적 용도는 읽기, 분기, 실행, 적응입니다. 암묵적인 사회 계약은 상호 기여 중 하나입니다. 개발자는 공유지에 무언가를 제공합니다. 다른 사람들은 공유지에 물건을 제공합니다. 모두가 혜택을 받습니다. 커먼즈에서 파생된 기능에 대한 액세스 비용을 청구하는 상용 시스템을 위한 훈련 데이터로 해당 코드를 사용하는 것은 라이센스의 공식 조건에 의해 명확하게 금지되지 않더라도 해당 사회 계약에서 다르게 적용됩니다.

발견의 현상학

이 사건을 이야기 가치 있게 만드는 것은 주로 법적 차원이 아닙니다. 그것은 경험 그 자체입니다. 새로운 것을 구축하기 위해 사용하는 시스템을 통해 다시 반영된 자신의 작업을 접하는 구체적인 질감입니다.

개발자가 뭔가를 만들었습니다. 그는 그것을 세상에 내놓았습니다. 그는 계속 나아갔습니다. 몇 년 후, 다른 도구를 사용하여 다른 맥락에서 작업하면서 작품이 다시 나타났습니다. 그가 소환한 것, 그가 검색한 것이 아니라 관련성이 무엇인지에 대한 자체 학습 감각을 기반으로 시스템이 자체적으로 표면화한 것으로 나타났습니다. AI는 그의 작업을 알고 있었습니다. 그는 AI가 자신의 작업을 알고 있다는 사실을 몰랐습니다. 그 비대칭성(AI가 자신의 작업에 대해 알지 못하면서 자신의 작업에 대해 아는 것)이 현재의 구조적 조건입니다.

전통적인 의미의 표절은 아닙니다. AI는 그의 코드를 그대로 재현하지 않았습니다. 그것은 그가 작성한 패키지를 추천했는데, 이는 어떤 면에서는 도난보다는 인용에 더 가깝습니다. 그러나 인용은 인정을 의미하며 여기에는 승인이 없었습니다. 개발자에게 자신의 기여가 흡수되었다는 신호가 없으며 자신의 작업 흐름에 예기치 않게 나타나는 순간까지 개발자가 해당 일이 발생했음을 알 수 있는 방법이 없습니다.

구체적인 형태는 다양하더라도 이러한 개발자의 경험은 점점 더 보편화되고 있습니다. 개발자는 귀속이나 승인 없이 AI 생성 응답으로 재현된 자체 스택 오버플로 답변(어떤 경우에는 축어적으로, 다른 경우에는 가볍게 의역)을 접한 것을 문서화했습니다. 이 현상은 Stack Overflow의 자체 메타 포럼에서 길게 논의되었으며, 기여자들은 커뮤니티에 자유롭게 답변을 제공하는 것과 해당 답변을 상용 제품으로 수집하는 것 사이의 비대칭성을 지적했습니다. 다른 사람들은 코딩 보조 제안에서 자신의 문서 스타일이 재현되어 있음을 발견하거나 AI가 자신이 개발한 라이브러리나 접근 방식에 대해 특별한 친숙함을 갖고 있는 것처럼 보인다는 사실을 발견합니다. 이는 공공 기여에 대한 교육 외에는 명확한 소스가 없는 친숙함입니다.

이 현상은 개발자 커뮤니티에서 논의를 불러일으키기 시작했지만 아직 일관된 정치적 또는 법적 움직임으로 통합되지는 않았습니다. 퍼블리셔가 AI 회사를 고소하거나 음반사가 모델 개발자를 상대로 저작권 소송을 제기하는 등 세간의 이목을 끄는 사건과 달리, 개별 개발자 이야기에는 지속적인 법적 관심을 끌기 위해 필요한 제도적 비중이 부족합니다. 패키지는 작습니다. 개발자는 많습니다. 각 개인에 대한 피해는 구체적인 부상으로 표현하기 어려울 정도로 널리 퍼져 있습니다.

그 확산성이 철학적으로 흥미롭지 않게 만드는 것은 아닙니다. 주요 AI 코딩 도구의 훈련 자료는 전체적으로 소프트웨어 개발이 어떻게 진행되었는지에 대한 초상화입니다. 즉, 관례, 관용어, 커밋 메시지와 이슈 스레드 및 README 파일에 인코딩된 토론입니다. 이는 개별 기여 행위로 구성된 집단적 인공물이며, 각각은 이 결과를 포함하지 않는 가정하에 이루어졌습니다.

이 사건의 표면 아래에는 낯선 의미가 숨어 있습니다. 개발자의 과거 기여가 현재 사용하는 도구의 교육 데이터에 포함되어 있다면 개발자와 도구 간의 관계는 단순히 사용자와 도구의 관계가 아닙니다. 어떤 의미에서 이 도구는 개발자의 이전 작업에 의해 형성되었습니다. 그것이 제시하는 제안은 개발자가 몇 년 전에 다른 맥락에서 내린 결정에 의해 부분적이고 정량화할 수 없는 수준에서 영향을 받았습니다.

그것은 조작하기 어려운 방식으로 철학적으로 흥미롭습니다. 이는 개발자에게 특정 권리나 구제책을 부여하지 않습니다. 추적 가능한 방식으로 출력을 변경하지 않습니다. 그러나 개발자의 에이전시와 도구의 에이전시 사이의 경계가 인터페이스에서 암시하는 것보다 덜 명확하다는 것을 암시합니다. 도구는 중립적인 도구가 아닙니다. 무엇보다도 압축이나 변형에 대해 발언권이 없는 사람들을 포함하여 이를 생산한 커뮤니티의 압축되고 변형된 버전입니다.

오프닝 스토리의 개발자는 실행 가능한 법적 청구권을 가지고 있지 않은 것이 거의 확실합니다. 패키지는 공개되었습니다. 라이센스는 허용됩니다. 법원은 공개적으로 이용 가능한 자료에서 가져온 훈련 데이터와 관련된 사건에서 책임을 찾는 데 시간이 오래 걸렸으며, 성공할 가능성이 가장 높은 법률 이론(암기 및 복제를 통한 저작권 침해, 라이센스 조건 위반)은 출력이 복제된 코드가 아닌 권장 사항인 시나리오에 적용하기 어렵습니다.

그러나 법적 구제수단이 없다고 해서 근본적인 문제가 사라지는 것은 아닙니다. 그것은 단순히 그것을 재배치합니다. 법이 AI 훈련의 맥락에서 동의가 무엇을 의미하는지, 즉 AI 시스템 개발자가 자신이 훈련한 작업을 수행한 사람들에 대해 어떤 의무를 가지고 있는지에 대한 질문을 해결하지 못한다면 대답은 다른 곳에서 나와야 합니다. 즉, 커뮤니티 규범, 플랫폼 정책, 구성원에게 빚진 금액을 여전히 해결하고 있는 개발자 생태계의 진화하는 사회적 계약에서 나와야 합니다.

AI가 자신의 잊혀진 패키지를 추천하는 것을 본 개발자는 소송을 제기할 가능성이 전혀 없습니다. 그는 당신이 주는 것으로 세상이 하는 일이 바뀌는 시대에 세상에 일을 놓는 것이 무엇을 의미하는지 생각해 볼 것입니다.

그것은 소송보다 작은 이야기입니다. 또한 이를 통해 살아가는 사람들에게는 더욱 즉각적인 것이기도 합니다.

(이것은 신디케이트된 뉴스피드에서 편집되지 않은 자동 생성된 기사입니다. 파이에듀뉴스 직원이 콘텐츠 텍스트를 변경하거나 편집하지 않았을 수 있습니다.)

About Post Author

Lucia Stazio

Happy
Happy
0 %
Sad
Sad
0 %
Excited
Excited
0 %
Sleepy
Sleepy
0 %
Angry
Angry
0 %
Surprise
Surprise
0 %

Related Articles

Average Rating

5 Star
0%
4 Star
0%
3 Star
0%
2 Star
0%
1 Star
0%
Back to top button