California (Lampost.co) – Tim peneliti dari Apple menemukan kelemahan signifikan dalam kecerdasan buatan (artificial intelligence / AI), khususnya pada model bahasa besar atau large language model (LLM).
Penelitian insinyur pembelajaran mesin (machine learning/ML), Iman Mirzadeh, menemukan perubahan kecil dalam susunan pertanyaan matematika dapat mempengaruhi performa LLM secara drastis.
Dalam uji coba, tim peneliti mendapati penurunan akurasi 65% pada model-model LLM. Sehingga, menimbulkan pertanyaan tentang keandalan AI dalam skenario yang memerlukan penalaran logis yang konsisten.
LLM merupakan model dengan dataset besar dan mampu memahami serta menghasilkan bahasa natural, seperti dalam aplikasi generative AI yang menghasilkan teks, audio, video, misalnya ChatGPT dan Microsoft Copilot.
Apple menguji beberapa model bahasa besar terkemuka, termasuk OpenAI dan Meta, menggunakan alat pengujian baru GSM-Symbolic. Alat itu untuk mengevaluasi kemampuan model dalam memecahkan soal matematika.
Hasilnya menunjukkan penambahan informasi yang seharusnya tidak relevan dalam pertanyaan ternyata berdampak besar pada hasil yang diberikan model.
Sebagai contoh, ketika pertanyaan tentang berapa banyak buah kiwi yang seseorang kumpulkan. Lalu ada penambahan informasi, seperti ukuran buah kiwi justru membuat model salah menghitung jumlah total.
Perubahan kecil itu seharusnya tidak berpengaruh pada hasil matematika, tetapi ternyata berakibat signifikan.
Model seperti OpenAI o1 dan Llama dari Meta, baik yang bersifat open-source maupun proprietary, mengalami penurunan akurasi dalam beberapa pengujian. Hal itu menunjukkan model-model tersebut tidak benar-benar menggunakan penalaran logis untuk menyelesaikan masalah. Namun, lebih bergantung pada pengenalan pola yang canggih.
Dampak Besar bagi Masa Depan
Penelitian itu mengungkapkan LLM tidak sepenuhnya mengandalkan logika formal, melainkan lebih pada pencocokan pola yang rentan. Bahkan, perubahan nama dalam soal dapat menyebabkan perubahan hasil yang signifikan hingga 10%.
Hal itu menjadi perhatian besar bagi masa depan AI yang mampu menangani tugas dengan tingkat penalaran yang tinggi dan konsisten di dunia nyata.
Tim peneliti menyimpulkan untuk mengatasi kelemahan itu, AI di masa depan mungkin perlu menggabungkan jaringan saraf (neural network) dengan penalaran simbolik tradisional, yaitu neurosymbolic AI.
Pendekatan penalaran simbolik, AI merepresentasikan pengetahuan menggunakan simbol-simbol seperti variabel, konstanta, dan aturan logis. Sehingga, membuat AI untuk melakukan deduksi logis yang lebih akurat.
Hasil penelitian itu mengingatkan pengguna tidak boleh sepenuhnya mengandalkan AI generatif untuk tugas-tugas yang memerlukan penalaran mendalam dan pemahaman kritis.
Walaupun AI memiliki kemampuan pengenalan pola yang canggih, kelemahan dalam penalaran logis masih menjadi tantangan besar yang harus teratasi.
Penelitian Apple itu membuka pintu bagi pengembangan model AI yang lebih kuat di masa depan. Terutama di sektor yang membutuhkan keandalan penalaran logika, seperti pendidikan, bisnis, dan aplikasi industri.