Terungkap! Kelemahan Model AI Multimodal GPT-4o dan Gemini 1.5 Pro
Penelitian Auburn University dan University of Alberta mengungkapkan kelemahan model AI multimodal terkini seperti GPT-4o dan Gemini 1.5 Pro yang diklaim mampu memahami gambar dan audio, ternyata masih kesulitan dengan tugas-tugas visual dasar.
“Model-model AI ini dipromosikan memiliki ‘kemampuan visi’ dan ‘pemahaman visual’ tetapi nyatanya mereka gagal dalam tugas-tugas yang bahkan mudah bagi anak-anak,” kata Anh Nguyen, salah satu penulis studi penelitian tersebut.
Dalam tes visual sederhana, seperti menentukan apakah dua bentuk tumpang tindih atau menghitung jumlah pentagon, model AI menunjukkan performa yang tidak memuaskan. Sebagai contoh, GPT-4o hanya berhasil 18 persen dalam menentukan tumpang tindih dua lingkaran saat jaraknya sangat kecil, sementara Gemini 1.5 Pro berhasil 70 persen.
Para peneliti berharap model AI itu dapat melakukan tugas-tugas sederhana dengan akurasi 100 persen tetapi hasilnya jauh dari harapan. Penelitian menunjukkan bahwa model AI lebih bergantung pada pola data pelatihan daripada memahami visual secara nyata. Contohnya, model AI mudah mengenali lima lingkaran terkait mirip logo Olimpiade, namun gagal saat jumlah lingkaran ditambah.
“Kami menyimpulkan bahwa meskipun model AI multimodal dipasarkan dengan klaim kemampuan visual, mereka sebenarnya tidak memiliki pemahaman visual seperti manusia,” katanya seperti dikutip Tech Crunch.
Model ini mungkin bisa mengekstrak informasi visual secara abstrak, namun tidak mampu membuat penilaian visual yang akurat. Temuan ini penting untuk mengingatkan publik bahwa meskipun AI multimodal memiliki potensi besar, mereka masih memiliki keterbatasan dalam memahami visual secara mendalam. Penelitian lebih lanjut diperlukan untuk mengembangkan AI yang benar-benar mampu memahami dunia visual seperti manusia.
Baca Juga: Nintendo Bakal Hadirkan Teknologi AI Generatif ke Konsol Game
Baca Juga: HP Ungkap Daftar Portofolio PC AI yang Bakal Meluncur di Indonesia