Studi MIT Sebut Data Untuk Latih Teknologi AI Akan Habis

Banyak pembatasan yang terkait persetujuan pengguna.

Studi MIT Sebut Data Untuk Latih Teknologi AI Akan Habis

Ilustrasi penerapan teknologi AI. (dok. IBM)

by Bayu Pratomo Herjuno Satito

30 July 2024

Follow Fortune Indonesia untuk mendapatkan informasi terkini. Klik untuk follow WhatsApp Channel & Google News

Jakarta, FORTUNE – Data Provenance Initiative, sebuah kelompok studi para peneliti dari Massachusetts Institute of Technology (MIT), mengungkapkan bahwa perusahaan-perusahaan pengembang Teknologi AI tengah menghadapi tantangan kekurangan data untuk melatih kecerdasan buatan atau AI.

Data Provenance Initiative menyebut bahwa pengembangan model teknologi AI makin ambisius dan bertumbuh pesat.

“Namun, pada saat yang sama, situs web mulai membatasi penggunaan teks, gambar, dan videonya dalam pelatihan AI,” ungkap mereka seperti dikutip observer.com (19/7).

Menurut para peneliti, langkah pembatasan ini adalah sebuah krisis yang muncul dalam persetujuan data, yang dipicu oleh kekhawatiran mengenai tantangan etika dan hukum penggunaan data publik oleh AI.

Akibatnya, kebijakan ini juga membatasi sebagian besar situs web untuk lembaga AI komersial dan akademis.

Batasan

Pada kurun April 2023 hingga April 2024, 5 persen dari semua data dan 25 persen data dari sumber berkualitas tertinggi telah dibatasi.

Para peneliti menemukan hal ini melalui pengamatan terhadap 14.000 domain web yang digunakan untuk menyusun tiga set data utama, yang dikenal sebagai C4, RefinedWeb, dan Dolma.

Biasanya, perusahaan pengembang teknologi AI mengumpulkan data lewat bot otomatis yang menjelajahi web. Dalam kasus set data C4, 45 persen data telah dibatasi melalui protokol situs web yang mencegah bot tersebut mengakses konten.

Sementara, bot yang dimiliki OpenAI dibatasi untuk hampir 26 persen sumber data berkualitas tinggi, saat bot Google (GOOGL) hanya dibatasai pada 10 persen dan Meta (META) sekitar 4 persen.

“Jika data tersebut tidak cukup, pasokan data publik untuk melatih model AI diperkirakan akan segera habis. Mengingat laju perusahaan saat ini yang berupaya meningkatkan model AI, pengembang dapat kehabisan data antara 2026 hingga 2032,” demikian studi lain yang dilakukan Epoch AI.

Langkah strategis

Dalam situasi ‘krisis’ ini, beberapa perusahaan justru membuat kesepakatan dengan media untuk mendapatkan akses ke arsipnya.

Sebagai contoh, OpenAI menawarkan kemitraan dengan banyak perusahaan media–seperti Atlantic Fox Media, The Associated Press, Financial Times, Time, dan News Corp–dengan nilai berkisar US$1 juta–5 juta.

Sebagai imbal balik, OpenAI memberikan peluang kepada perusahaan media tadi untuk bisa menggunakan produk ChatGPT dengan bebas.

“Untuk membuka data baru, OpenAI bahkan telah mempertimbangkan untuk menggunakan Whisper, alat pengenalan ucapannya, untuk menyalin video dan audio dari situs web seperti YouTube—metode yang juga telah dibahas oleh Google,” demikian observer.com.

Sementara itu, pengembang AI lainnya, seperti Meta, disebut telah mempertimbangkan untuk mengakuisisi perusahaan penerbitan, seperti Simon & Schuster. Hal ini dilakukan dalam rangka mendapatkan koleksi bukunya yang cukup besar.

Kontradiksi

CEO OpenAI, Sam Altman, juga menambahkan satu solusi lain untuk mengatasi krisis data pelatihan ini, yakni penggunaan data sintesis–data yang dihasilkan oleh model AI, dan bukan manusia.

Menurutnya, data dari internet memang akan habis, tapi “selama Anda dapat melewati cakrawala peristiwa data sintetis yang cukup pintar untuk membuat data sintetis yang baik, saya pikir itu akan baik-baik saja,” kata Altman.

Pendapat lain justru datang dari ilmuwan komputer Stanford, Fei-Fei Li, yang menganggap masalah keterbatasan data adalah pandangan yang sangat sempit. Menurutnya, berbagai sumber data alternatif dan relevan belum dimanfaatkan oleh AI.

"Industri perawatan kesehatan tidak kehabisan data, begitu pula industri seperti pendidikan. Jadi, saya rasa kita tidak kehabisan data," kata Li.

Baca Juga

Industri Influencer Mulai Jajaki Peluang di Era Teknologi AI

IBM Indonesia: Banyak Bisnis Pakai Teknologi AI Tanpa Paham Dampaknya

Fortune Indonesia Summit

Fortune 40 Under 40

Fortune Indonesia 100

Magazine

Investor's Guide 2025

Edisi Januari 2025

Change the World 2024

Edisi Desember 2024

The Art of M&A

Edisi November 2024

Businessperson of the Year 2024

Edisi Oktober 2024

Turning Headwinds Into Tailwinds

Edisi September 2024

Indonesia's Biggest Companies

Edisi Agustus 2024

Human-AI Collaboration

Edisi Juli 2024

The Local Champions

Edisi Juni 2024

realme Note 60x Resmi Hadir di Indonesia, Harga Cuma Sejutaan

19 January 2025

NEWS WTO Buktikan Uni Eropa Diskriminasi Minyak Sawit Indonesia

17 January 2025

MARKET Daftar 10 Saham Blue Chip 2025 Terbaru

17 January 2025

BUSINESS Selain Bukalapak, Ini 7 e-Commerce yang Tutup di Indonesia

17 January 2025

NEWS Israel Serang Gaza Usai Sepakat Gencatan Senjata, 101 Warga Tewas

18 January 2025

MARKET Suspensi Saham RATU Resmi Dicabut, Jadi Top Gainers

17 January 2025

MARKET Mengapa Nilai Tukar Rupiah Bisa Naik dan Turun? Ini Penyebabnya

18 January 2025