Back to Blog

Penerbit Berita Global Mulai Blokir Internet Archive demi Lindungi Data dari Scraping AI

2/15/2026
Penerbit Berita Global Mulai Blokir Internet Archive demi Lindungi Data dari Scraping AI

Ketegangan antara pemilik konten dan penyedia arsip digital mencapai titik didih baru hari ini. Sejumlah penerbit berita besar, termasuk The New York Times, The Guardian, dan The Financial Times, dilaporkan mulai membatasi atau memblokir akses crawler dari Internet Archive. Langkah ini diambil setelah muncul kekhawatiran bahwa basis data raksasa tersebut digunakan sebagai "pintu belakang" (backdoor) oleh perusahaan pengembang kecerdasan buatan untuk mengambil data pelatihan secara gratis dan masif.

Pihak The Guardian menyatakan bahwa analisis log akses mereka menunjukkan aktivitas scraping yang sangat tinggi dari bot yang berafiliasi dengan Internet Archive. Meskipun Internet Archive adalah organisasi nirlaba dengan misi mulia melestarikan web, para penerbit khawatir bahwa API mereka yang terstruktur memudahkan model bahasa besar (LLM) untuk menyerap hak kekayaan intelektual tanpa izin atau kompensasi. The New York Times bahkan telah melakukan "hard blocking" total terhadap bot tersebut untuk mencegah akses ke konten jurnalistik mereka.

Kasus ini memperburuk dilema etis di dunia digital. Di satu sisi, Internet Archive berperan penting sebagai catatan sejarah digital manusia. Di satu sisi, kemudahan akses yang ditawarkannya kini dieksploitasi oleh bot AI komersial yang haus data. Brewster Kahle, pendiri Internet Archive, memperingatkan bahwa pembatasan ini akan membuat publik kehilangan akses terhadap rekam jejak sejarah dan memperparah masalah disinformasi di masa depan.

Dampak dari langkah ini mulai terasa luas. Pengguna biasa kini sering menemukan pesan kesalahan saat mencoba mengakses arsip berita lama di Wayback Machine. Selain itu, platform media sosial seperti Reddit juga dikabarkan mulai membatasi akses serupa untuk melindungi data pengguna mereka yang kini memiliki nilai komersial tinggi sebagai bahan pelatihan AI. Hal ini menandai berakhirnya era "open web" yang dulu didukung oleh saling berbagi data secara bebas.

Secara teknis, para penerbit kini beralih menggunakan layanan deteksi bot yang lebih agresif. Mereka tidak lagi hanya mengandalkan file robots.txt, melainkan menggunakan sistem penyaringan berbasis perilaku yang mampu membedakan antara peneliti manusia dan agen AI yang menyamar. Situasi ini memicu perdebatan apakah hukum hak cipta saat ini sudah cukup untuk melindungi kreator konten dari otomatisasi skala industri yang didorong oleh kemajuan AI.

Thanks for reading!