Viral BridgeBench Post Klaim Claude Opus 4.6 Telah 'Nerf,' Kritikus Sebut Ini Ilmu Buruk

BridgeMind AI mengklaim Claude Opus 4.6 dari Anthropic diam-diam mengalami penurunan kualitas setelah dilakukan retest pada benchmark halusinasi. Postingan viral ini kemudian menuai kritik tajam karena metodologinya dinilai cacat.

Klaim ini memicu perdebatan luas tentang apakah perusahaan AI diam-diam menurunkan kualitas model berbayar untuk mengurangi biaya.

Disponsori

BridgeMind Klaim Terjadi Lonjakan Halusinasi 98%

BridgeMind, tim di balik benchmark coding BridgeBench, mengunggah bahwa Claude Opus 4.6 turun dari peringkat kedua ke peringkat sepuluh pada papan peringkat halusinasi mereka. Akurasi model ini dilaporkan turun dari 83,3% menjadi 68,3%.

“CLAUDE OPUS 4.6 IS NERFED. BridgeBench just proved it. Last week Claude Opus 4.6 ranked #2 on the Hallucination benchmark with an accuracy of 83.3%. Today Claude Opus 4.6 was retested and it fell to #10 on the leaderboard with an accuracy of only 68.3%,” tulis mereka di sini.

Postingan itu menyoroti hal ini sebagai bukti adanya “penurunan level penalaran.” Akan tetapi, jika melihat data dasarnya lebih dekat, ceritanya justru berbeda.

Kritikus Sebut Perbandingan Sangat Cacat

Menurut ilmuwan komputer Paul Calcraft, klaim tersebut adalah “sains yang sangat buruk,” serta menyoroti masalah besar pada metodologinya.

“Incredibly bad science You tested Opus on 30 tasks today, previous score was on just *6* tasks Results for 6 tasks in common: 85.4% score today vs. 87.6% prevly. Swing is mostly from a *single* fabrication without repeats – easily statistical noise,” komentar Calcraft di sini.

Nilai tinggi sebelumnya berasal hanya dari enam tugas benchmark. Pada retest terbaru, jumlah tugas benchmark diperluas menjadi 30 tugas.

Disponsori

Pada enam tugas yang sama, performa model hampir sama, hanya turun tipis dari 87,6% menjadi 85,4%.

Despicable clout chasing. They tested Opus today on 30 tasks, previous Opus 4.6 score was on just *6* tasks. DIFFERENT BENCHMARK

6 tasks in common results: 85.4% score today vs. 87.6% prev. Swing is mostly from a *single* fabrication without repeats – easily statistical noise https://t.co/wmFfAfNmEW pic.twitter.com/opUxoVevpP
— Paul Calcraft (@paul_cal) April 12, 2026

Perubahan kecil itu kebanyakan terjadi karena satu kali tambahan rekayasa pada satu tugas. Karena tidak ada pengujian ulang, hal ini masih sangat wajar dalam statistik sebagai variasi normal untuk model AI.

Large language model memang tidak deterministik, sehingga satu output buruk pada sampel kecil dapat mengubah hasil secara signifikan.

Kekecewaan Lebih Luas Menyulut Narasi Ini

Meski begitu, postingan ini tetap mendapat perhatian besar. Sejak diluncurkan pada Februari 2026, Claude Opus 4.6 telah banyak dikeluhkan karena penurunan kualitas yang dirasakan.

Beberapa pengembang melaporkan jawaban yang lebih singkat, kemampuan mengikuti instruksi yang melemah, dan kedalaman penalaran berkurang pada jam-jam sibuk.

Bagian dari keluhan ini memang akibat perubahan produk yang disengaja. Anthropic memperkenalkan kontrol thinking adaptif agar model bisa otomatis menyesuaikan anggaran penalarannya sendiri. Tingkat upaya secara default kemudian diatur ke sedang, sehingga efisiensi lebih diutamakan daripada kedalaman maksimal.

New on the API: we're giving developers better control over model effort and more flexibility for long-running agents.

Adaptive thinking lets Claude calibrate its reasoning depth to each task, and context compaction keeps long-running tasks from hitting limits.
— Claude (@claudeai) February 5, 2026

Analisis independen terhadap lebih dari 6.800 sesi Claude Code menunjukkan penurunan kedalaman penalaran sekitar 67% pada akhir Februari.

Rasio file dibaca model sebelum mengedit kode juga turun dari 6,6 menjadi 2,0. Ini mengisyaratkan model mencoba memperbaiki kode yang bahkan nyaris belum ditelaah.

Apa Implikasinya Bagi Pengguna AI

Situasi ini mencerminkan ketegangan yang terus tumbuh di industri AI. Perusahaan mengoptimalkan model agar hemat biaya dan scalable setelah peluncuran, sementara pengguna intensif berharap performa terbaik selalu konsisten. Perbedaan prioritas itu dapat mengikis kepercayaan.

Berdasarkan data yang ada, data BridgeBench tidak membuktikan adanya penurunan kualitas yang disengaja. Perbandingan benchmark-nya pun tidak sepadan, dan hasil pada tugas yang sama nyaris identik.

Walau demikian, kekecewaan yang melatari hal ini memang tidak sepenuhnya tanpa alasan. Kontrol komputasi adaptif dan optimasi layanan sudah mengubah bagaimana Claude Opus 4.6 bekerja di lapangan. Bagi pengembang yang bergantung pada output konsisten, perubahan ini sangat berpengaruh.

Anthropic belum mengeluarkan pernyataan publik mengenai klaim BridgeBench ini hingga 13 April.

Viral BridgeBench Post Klaim Claude Opus 4.6 Telah ‘Nerf,’ Kritikus Sebut Ini Ilmu Buruk

BridgeMind Klaim Terjadi Lonjakan Halusinasi 98%

Kritikus Sebut Perbandingan Sangat Cacat

Kekecewaan Lebih Luas Menyulut Narasi Ini

Apa Implikasinya Bagi Pengguna AI