Jakarta, FORTUNE – Data Provenance Initiative, sebuah kelompok studi para peneliti dari Massachusetts Institute of Technology (MIT), mengungkapkan bahwa perusahaan-perusahaan pengembang Teknologi AI tengah menghadapi tantangan kekurangan data untuk melatih kecerdasan buatan atau AI.
Data Provenance Initiative menyebut bahwa pengembangan model teknologi AI makin ambisius dan bertumbuh pesat.
“Namun, pada saat yang sama, situs web mulai membatasi penggunaan teks, gambar, dan videonya dalam pelatihan AI,” ungkap mereka seperti dikutip observer.com (19/7).
Menurut para peneliti, langkah pembatasan ini adalah sebuah krisis yang muncul dalam persetujuan data, yang dipicu oleh kekhawatiran mengenai tantangan etika dan hukum penggunaan data publik oleh AI.
Akibatnya, kebijakan ini juga membatasi sebagian besar situs web untuk lembaga AI komersial dan akademis.
Batasan
Pada kurun April 2023 hingga April 2024, 5 persen dari semua data dan 25 persen data dari sumber berkualitas tertinggi telah dibatasi.
Para peneliti menemukan hal ini melalui pengamatan terhadap 14.000 domain web yang digunakan untuk menyusun tiga set data utama, yang dikenal sebagai C4, RefinedWeb, dan Dolma.
Biasanya, perusahaan pengembang teknologi AI mengumpulkan data lewat bot otomatis yang menjelajahi web. Dalam kasus set data C4, 45 persen data telah dibatasi melalui protokol situs web yang mencegah bot tersebut mengakses konten.
Sementara, bot yang dimiliki OpenAI dibatasi untuk hampir 26 persen sumber data berkualitas tinggi, saat bot Google (GOOGL) hanya dibatasai pada 10 persen dan Meta (META) sekitar 4 persen.
“Jika data tersebut tidak cukup, pasokan data publik untuk melatih model AI diperkirakan akan segera habis. Mengingat laju perusahaan saat ini yang berupaya meningkatkan model AI, pengembang dapat kehabisan data antara 2026 hingga 2032,” demikian studi lain yang dilakukan Epoch AI.
Langkah strategis
Dalam situasi ‘krisis’ ini, beberapa perusahaan justru membuat kesepakatan dengan media untuk mendapatkan akses ke arsipnya.
Sebagai contoh, OpenAI menawarkan kemitraan dengan banyak perusahaan media–seperti Atlantic Fox Media, The Associated Press, Financial Times, Time, dan News Corp–dengan nilai berkisar US$1 juta–5 juta.
Sebagai imbal balik, OpenAI memberikan peluang kepada perusahaan media tadi untuk bisa menggunakan produk ChatGPT dengan bebas.
“Untuk membuka data baru, OpenAI bahkan telah mempertimbangkan untuk menggunakan Whisper, alat pengenalan ucapannya, untuk menyalin video dan audio dari situs web seperti YouTube—metode yang juga telah dibahas oleh Google,” demikian observer.com.
Sementara itu, pengembang AI lainnya, seperti Meta, disebut telah mempertimbangkan untuk mengakuisisi perusahaan penerbitan, seperti Simon & Schuster. Hal ini dilakukan dalam rangka mendapatkan koleksi bukunya yang cukup besar.
Kontradiksi
CEO OpenAI, Sam Altman, juga menambahkan satu solusi lain untuk mengatasi krisis data pelatihan ini, yakni penggunaan data sintesis–data yang dihasilkan oleh model AI, dan bukan manusia.
Menurutnya, data dari internet memang akan habis, tapi “selama Anda dapat melewati cakrawala peristiwa data sintetis yang cukup pintar untuk membuat data sintetis yang baik, saya pikir itu akan baik-baik saja,” kata Altman.
Pendapat lain justru datang dari ilmuwan komputer Stanford, Fei-Fei Li, yang menganggap masalah keterbatasan data adalah pandangan yang sangat sempit. Menurutnya, berbagai sumber data alternatif dan relevan belum dimanfaatkan oleh AI.
"Industri perawatan kesehatan tidak kehabisan data, begitu pula industri seperti pendidikan. Jadi, saya rasa kita tidak kehabisan data," kata Li.