Ketika Kecerdasan Buatan 'Menghafal' Karya Berhak Cipta: Studi Terbaru Soroti Praktik OpenAI




Kemajuan pesat teknologi kecerdasan buatan (AI) seperti ChatGPT dari OpenAI dihadapkan pada sorotan baru: tuduhan bahwa model-model ini "menghafal" konten berhak cipta secara ilegal. Dua studi independen yang dirilis pekan ini mengungkap bukti bahwa GPT-4, GPT-3.5, dan GPT-4o dilatih dengan materi berhak cipta seperti buku, artikel berbayar, dan kode program, memicu kembali perdebatan etis dan hukum seputar pelatihan AI.


Bukti "Hafalan" Konten Berhak Cipta

  • Metode Deteksi dengan Kata "High-Surprisal"
    Peneliti dari Universitas Washington, Kopenhagen, dan Stanford menemukan bahwa GPT-4 dan GPT-3.5 mampu mereproduksi kalimat utuh dari buku-buku populer (termasuk dataset BookMIA) dan artikel The New York Times. Mereka menggunakan kata-kata "high-surprisal"—istilah statistik langka dalam konteks tertentu—untuk menguji apakah model AI bisa menebak kata yang di-masking. Hasilnya, model OpenAI berhasil menebak kata-kata tersebut dengan akurasi tinggi, mengindikasikan adanya memorisasi konten asli .

  • Skandal Pelatihan dengan Buku Berbayar
    Studi terpisah oleh AI Disclosures Project mengklaim GPT-4o dilatih menggunakan buku berbayar O’Reilly Media tanpa izin. Metode DE-COP (serangan membership inference) menunjukkan GPT-4o mencapai skor 82% AUROC dalam mengenali teks verbatim, jauh di atas GPT-3.5 Turbo yang hanya 50%. Ini menandakan model terbaru OpenAI mungkin mengakses sumber tertutup secara tidak sah .


Implikasi Hukum dan Kritik Etis

  • Gugatan Hukum Menumpuk
    OpenAI kini menghadapi setidaknya 8 gugatan dari penulis, penerbit, dan pengembang perangkat lunak, termasuk The New York Times. Mereka menuduh OpenAI melanggar hak cipta dengan menggunakan karya kreatif tanpa kompensasi atau izin. Di Amerika Serikat, pertarungan hukum ini menguji batas doktrin "penggunaan wajar" (fair use), yang selama ini dijadikan tameng oleh perusahaan AI .

  • Kritik atas Kurangnya Transparansi
    Abhilasha Ravichander, salah satu peneliti studi, menegaskan: "Kita butuh model yang bisa diaudit secara ilmiah. Tanpa transparansi, mustahil memastikan AI bekerja sesuai hukum." Para ahli juga memperingatkan risiko "enshittification"—penurunan kualitas konten online jika kreator tidak diberi insentif, karena karya mereka "dicuri" oleh AI .


Respons OpenAI dan Pergeseran Industri

  • OpenAI Bertahan di Posisi "Fair Use"
    OpenAI bersikukuh bahwa pelatihan model AI termasuk dalam penggunaan wajar, merujuk pada preseden hukum seperti Google vs. Oracle. Mereka telah menjalin kerja sama dengan penerbit seperti Reddit dan Time Magazine, serta menyediakan alat opt-out bagi pemegang hak cipta. Namun, langkah ini dinilai setengah hati oleh kritikus .

  • Perburuan Data Berkualitas
    Seiring menipisnya data publik, perusahaan AI beralih ke konten berlisensi. OpenAI bahkan merekrut jurnalis dan pakar bidang untuk meningkatkan kualitas data pelatihan. Tren ini juga terlihat pada kompetitor seperti Google dan Meta, yang dituding menggunakan dataset kontroversial seperti LibGen .


Masa Depan AI di Tengah Badai Hak Cipta

Perdebatan ini bukan sekadar soal ganti rugi, tetapi masa depan inovasi AI itu sendiri. Jika pengadilan memenangkan pemegang hak cipta, biaya pelatihan model AI bisa melonjak, memperlambat perkembangan teknologi. Sebaliknya, jika OpenAI menang, dikhawatirkan terjadi eksploitasi massal karya kreatif tanpa kontrol.;


Ahli kebijakan teknologi seperti Rebecca Tushnet dari Harvard mengingatkan: "Pemerintah harus menemukan titik tengah. Terlalu longgar, kreator hancur; terlalu ketat, AS bisa ketinggalan dari China yang agresif mendorong AI."


 

Temuan studi ini menjadi alarm bagi industri AI: tanpa transparansi dan kolaborasi dengan pemegang hak cipta, kemajuan teknologi justru berisiko memicu krisis kepercayaan. Bagaimana OpenAI dan regulator merespons, akan menentukan apakah AI menjadi alat inovasi—atau senjata penghancur ekosistem kreatif.

Lebih baru Lebih lama