Studi MIT Sebut Data Untuk Latih Teknologi AI Akan Habis

Banyak pembatasan yang terkait persetujuan pengguna.

Studi MIT Sebut Data Untuk Latih Teknologi AI Akan Habis
Ilustrasi penerapan teknologi AI. (dok. IBM)
Follow Fortune Indonesia untuk mendapatkan informasi terkini. Klik untuk follow WhatsApp Channel & Google News

Jakarta, FORTUNEData Provenance Initiative, sebuah kelompok studi para peneliti dari Massachusetts Institute of Technology (MIT), mengungkapkan bahwa perusahaan-perusahaan pengembang Teknologi AI tengah menghadapi tantangan kekurangan data untuk melatih kecerdasan buatan atau AI.

Data Provenance Initiative menyebut bahwa pengembangan model teknologi AI makin ambisius dan bertumbuh pesat.

“Namun, pada saat yang sama, situs web mulai membatasi penggunaan teks, gambar, dan videonya dalam pelatihan AI,” ungkap mereka seperti dikutip observer.com (19/7).

Menurut para peneliti, langkah pembatasan ini adalah sebuah krisis yang muncul dalam persetujuan data, yang dipicu oleh kekhawatiran mengenai tantangan etika dan hukum penggunaan data publik oleh AI.

Akibatnya, kebijakan ini juga membatasi sebagian besar situs web untuk lembaga AI komersial dan akademis.

Batasan

Pada kurun April 2023 hingga April 2024, 5 persen dari semua data dan 25 persen data dari sumber berkualitas tertinggi telah dibatasi.

Para peneliti menemukan hal ini melalui pengamatan terhadap 14.000 domain web yang digunakan untuk menyusun tiga set data utama, yang dikenal sebagai C4, RefinedWeb, dan Dolma.

Biasanya, perusahaan pengembang teknologi AI mengumpulkan data lewat bot otomatis yang menjelajahi web. Dalam kasus set data C4, 45 persen data telah dibatasi melalui protokol situs web yang mencegah bot tersebut mengakses konten.

Sementara, bot yang dimiliki OpenAI dibatasi untuk hampir 26 persen sumber data berkualitas tinggi, saat bot Google (GOOGL) hanya dibatasai pada 10 persen dan Meta (META) sekitar 4 persen.

“Jika data tersebut tidak cukup, pasokan data publik untuk melatih model AI diperkirakan akan segera habis. Mengingat laju perusahaan saat ini yang berupaya meningkatkan model AI, pengembang dapat kehabisan data antara 2026 hingga 2032,” demikian studi lain yang dilakukan Epoch AI.

Langkah strategis

Dalam situasi ‘krisis’ ini, beberapa perusahaan justru membuat kesepakatan dengan media untuk mendapatkan akses ke arsipnya.

Sebagai contoh, OpenAI menawarkan kemitraan dengan banyak perusahaan media–seperti Atlantic Fox Media, The Associated Press, Financial Times, Time, dan News Corp–dengan nilai berkisar US$1 juta–5 juta.

Sebagai imbal balik, OpenAI memberikan peluang kepada perusahaan media tadi untuk bisa menggunakan produk ChatGPT dengan bebas.

“Untuk membuka data baru, OpenAI bahkan telah mempertimbangkan untuk menggunakan Whisper, alat pengenalan ucapannya, untuk menyalin video dan audio dari situs web seperti YouTube—metode yang juga telah dibahas oleh Google,” demikian observer.com.

Sementara itu, pengembang AI lainnya, seperti Meta, disebut telah mempertimbangkan untuk mengakuisisi perusahaan penerbitan, seperti Simon & Schuster. Hal ini dilakukan dalam rangka mendapatkan koleksi bukunya yang cukup besar.

Kontradiksi

CEO OpenAI, Sam Altman, juga menambahkan satu solusi lain untuk mengatasi krisis data pelatihan ini, yakni penggunaan data sintesis–data yang dihasilkan oleh model AI, dan bukan manusia.

Menurutnya, data dari internet memang akan habis, tapi “selama Anda dapat melewati cakrawala peristiwa data sintetis yang cukup pintar untuk membuat data sintetis yang baik, saya pikir itu akan baik-baik saja,” kata Altman.

Pendapat lain justru datang dari ilmuwan komputer Stanford, Fei-Fei Li, yang menganggap masalah keterbatasan data adalah pandangan yang sangat sempit. Menurutnya, berbagai sumber data alternatif dan relevan belum dimanfaatkan oleh AI.

"Industri perawatan kesehatan tidak kehabisan data, begitu pula industri seperti pendidikan. Jadi, saya rasa kita tidak kehabisan data," kata Li.

Magazine

SEE MORE>
The Art of M&A
Edisi November 2024
Businessperson of the Year 2024
Edisi Oktober 2024
Turning Headwinds Into Tailwinds
Edisi September 2024
Indonesia's Biggest Companies
Edisi Agustus 2024
Human-AI Collaboration
Edisi Juli 2024
The Local Champions
Edisi Juni 2024
The Big Bet
Edisi Mei 2024
Chronicle of Greatness
Edisi April 2024

Most Popular

Apa itu Review? Pengertian, Tujuan, Jenis, dan Cara Membuatnya
Apa Itu Market Share? Ini Arti, Fungsi, dan Cara Menghitungnya
8 Rekomendasi Smartwatch di Bawah Rp2 Juta, Teknologi Canggih!
7 Rekomendasi Merek Printer Terbaik yang Bagus dan Awet
Apa itu Support Resistance? Ini Arti, Fungsi, dan Cara Menentukannya
5 Rekomendasi Franchise Rumah Makan Padang, Mulai dari Rp25 Juta