BridgeMind AI mengklaim Claude Opus 4.6 dari Anthropic diam-diam mengalami penurunan kualitas setelah dilakukan retest pada benchmark halusinasi. Postingan viral ini kemudian menuai kritik tajam karena metodologinya dinilai cacat.
Klaim ini memicu perdebatan luas tentang apakah perusahaan AI diam-diam menurunkan kualitas model berbayar untuk mengurangi biaya.
BridgeMind Klaim Terjadi Lonjakan Halusinasi 98%
BridgeMind, tim di balik benchmark coding BridgeBench, mengunggah bahwa Claude Opus 4.6 turun dari peringkat kedua ke peringkat sepuluh pada papan peringkat halusinasi mereka. Akurasi model ini dilaporkan turun dari 83,3% menjadi 68,3%.
“CLAUDE OPUS 4.6 IS NERFED. BridgeBench just proved it. Last week Claude Opus 4.6 ranked #2 on the Hallucination benchmark with an accuracy of 83.3%. Today Claude Opus 4.6 was retested and it fell to #10 on the leaderboard with an accuracy of only 68.3%,” tulis mereka di sini.
Postingan itu menyoroti hal ini sebagai bukti adanya “penurunan level penalaran.” Akan tetapi, jika melihat data dasarnya lebih dekat, ceritanya justru berbeda.
Kritikus Sebut Perbandingan Sangat Cacat
Menurut ilmuwan komputer Paul Calcraft, klaim tersebut adalah “sains yang sangat buruk,” serta menyoroti masalah besar pada metodologinya.
“Incredibly bad science You tested Opus on 30 tasks today, previous score was on just *6* tasks Results for 6 tasks in common: 85.4% score today vs. 87.6% prevly. Swing is mostly from a *single* fabrication without repeats – easily statistical noise,” komentar Calcraft di sini.
Nilai tinggi sebelumnya berasal hanya dari enam tugas benchmark. Pada retest terbaru, jumlah tugas benchmark diperluas menjadi 30 tugas.
Pada enam tugas yang sama, performa model hampir sama, hanya turun tipis dari 87,6% menjadi 85,4%.
Perubahan kecil itu kebanyakan terjadi karena satu kali tambahan rekayasa pada satu tugas. Karena tidak ada pengujian ulang, hal ini masih sangat wajar dalam statistik sebagai variasi normal untuk model AI.
Large language model memang tidak deterministik, sehingga satu output buruk pada sampel kecil dapat mengubah hasil secara signifikan.
Kekecewaan Lebih Luas Menyulut Narasi Ini
Meski begitu, postingan ini tetap mendapat perhatian besar. Sejak diluncurkan pada Februari 2026, Claude Opus 4.6 telah banyak dikeluhkan karena penurunan kualitas yang dirasakan.
Beberapa pengembang melaporkan jawaban yang lebih singkat, kemampuan mengikuti instruksi yang melemah, dan kedalaman penalaran berkurang pada jam-jam sibuk.
Bagian dari keluhan ini memang akibat perubahan produk yang disengaja. Anthropic memperkenalkan kontrol thinking adaptif agar model bisa otomatis menyesuaikan anggaran penalarannya sendiri. Tingkat upaya secara default kemudian diatur ke sedang, sehingga efisiensi lebih diutamakan daripada kedalaman maksimal.
Analisis independen terhadap lebih dari 6.800 sesi Claude Code menunjukkan penurunan kedalaman penalaran sekitar 67% pada akhir Februari.
Rasio file dibaca model sebelum mengedit kode juga turun dari 6,6 menjadi 2,0. Ini mengisyaratkan model mencoba memperbaiki kode yang bahkan nyaris belum ditelaah.
Apa Implikasinya Bagi Pengguna AI
Situasi ini mencerminkan ketegangan yang terus tumbuh di industri AI. Perusahaan mengoptimalkan model agar hemat biaya dan scalable setelah peluncuran, sementara pengguna intensif berharap performa terbaik selalu konsisten. Perbedaan prioritas itu dapat mengikis kepercayaan.
Berdasarkan data yang ada, data BridgeBench tidak membuktikan adanya penurunan kualitas yang disengaja. Perbandingan benchmark-nya pun tidak sepadan, dan hasil pada tugas yang sama nyaris identik.
Walau demikian, kekecewaan yang melatari hal ini memang tidak sepenuhnya tanpa alasan. Kontrol komputasi adaptif dan optimasi layanan sudah mengubah bagaimana Claude Opus 4.6 bekerja di lapangan. Bagi pengembang yang bergantung pada output konsisten, perubahan ini sangat berpengaruh.
Anthropic belum mengeluarkan pernyataan publik mengenai klaim BridgeBench ini hingga 13 April.