Apple Temukan Kelemahan Kecerdasan Buatan
KOMPAS.com – Tim peneliti dari perusahaan teknologi Apple mengeklaim telah menemukan kelemahan kecerdasan buatan (artificial intelligence/AI).
Penelitian yang dipimpin oleh insinyur riset pembelajaran mesin (machine learning/ML), Iman Mirzadeh, menemukan bahwa perubahan kecil terhadap susunan pertanyaan matematika yang diberikan kepada model bahasa besar (large language model/LLM), dapat menyebabkan perbedaan besar dalam kinerja model itu.
Akurasi jawaban LLM menurun sekitar 65 persen, sehingga LLM tersebut kurang bisa diandalkan dalam skenario yang membutuhkan logika yang konsisten.
Untuk diketahui, LLM adalah program atau model yang dapat mengenali dan menghasilkan teks, serta memproses bahasa. Hal ini membuatnya dapat berinteraksi dengan pengguna memakai bahasa yang natural.
Model bahasa besar dilatih menggunakan kumpulan data (dataset) yang sangat besar. Oleh karena itu, LLM disebut sebagai model bahasa yang large alias besar.
LLM ini mendukung program AI generatif (generative AI/AI yang bisa menghasilkan teks, video, audio), seperti ChatGPT dan Microsoft Copilot.
Baca juga: Ramalan Sam ChatGPT Altman soal Masa Depan AI
Pertanyaan soal buah kiwi
Studi tim peneliti dari Apple menguji berbagai model bahasa besar unggulan, seperti milik OpenAI dan Meta, untuk melihat bagaimana model tersebut dapat menangani tugas penalaran matematika.
Model bahasa besar tersebut dites menggunakan alat pengujian (benchmark) baru bernama GSM-Symbolic.
Dalam beberapa pengujian, peneliti mendemonstrasikan bahwa menambahkan informasi yang tidak penting ke pertanyaan matematika, justru bisa menghasilkan jawaban yang berbeda di berbagai model bahasa besar.
Padahal, detail ini seharusnya tidak berpengaruh terhadap hasil perhitungan matematika yang dilakukan LLM.
Sebagai contoh, peneliti memberikan pertanyaan matematika sederhana terkait berapa jumlah buah kiwi yang dikumpulkan seseorang dalam beberapa hari.
Ketika peneliti menambahkan keterangan, seperti ukuran buah kiwi itu, model LLM seperti OpenAI o1 dan Llama milik Meta jadi salah menghitung total jumlah buah kiwi.
Baik model LLM sumber terbuka (open-source) maupun LLM yang dilisensi (proprietary) sama-sama mengalami penurunan akurasi.
Baca juga: OpenAI Rilis o1, AI yang Bisa Bernalar Mirip Manusia
Kerapuhan dalam penalaran ini mendorong para peneliti, untuk menyimpulkan bahwa LLM yang diuji tidak menggunakan logika nyata untuk memecahkan masalah, tetapi sebaliknya mengandalkan pengenalan pola canggih yang dipelajari selama pelatihan.
Para peneliti menemukan bahwa perubahan nama dalam pertanyaan bisa mengubah jawaban yang dihasilkan, sebagaimana dirangkum KompasTekno dari MacRumors, Rabu (23/10/2024).
Hal ini menjadi tanda yang meresahkan bagi masa depan aplikasi AI, yang memerlukan penalaran yang konsisten dan akurat dalam konteks dunia nyata.
“Kami tidak menemukan bukti penalaran formal dalam LLM. Perilaku mereka lebih baik dijelaskan oleh pencocokan pola yang canggih. Pencocokan ini begitu rapuh, sehingga mengubah nama (dalam pertanyaan) dapat mengubah hasil hingga sepuluh persen,” bunyi penelitian tersebut.
Tim peneliti Apple pun menyarankan bahwa kecerdasan buatan kemungkinan perlu menggabungkan jaringan saraf (neural), dengan penalaran tradisional berbasis simbol bernama neurosymbolic AI, untuk memperoleh kemampuan pengambilan keputusan dan pemecahan masalah yang lebih akurat.
Dalam penalaran berbasis simbol, pengetahuan direpresentasikan menggunakan simbol, seperti variabel, konstanta, dan predikat.
Hubungan antara simbol ini didefinisikan menggunakan aturan logis, yang memungkinkan AI untuk melakukan deduksi logis.
Melihat hasil penelitian di atas, pengguna sebaiknya tidak sepenuhnya mengandalkan AI untuk tugas atau aktivitas yang membutuhkan penalaran mendalam serta pemahaman yang lebih kritis.
Baca juga: Apple Rilis Apple Intelligence, AI Generatif untuk iPhone, iPad, dan Mac