Kembali

Viral BridgeBench Post Klaim Claude Opus 4.6 Telah ‘Nerf,’ Kritikus Sebut Ini Ilmu Buruk

Pilih kami di Google
sameAuthor avatar

Ditulis & Diedit oleh
Lockridge Okoth

13 April 2026 20.13 WIB
  • Sebuah postingan viral di X mengklaim halusinasi Claude Opus 4.6 melonjak 98%.
  • Kritikus menemukan perbandingan tersebut menggunakan ukuran uji yang berbeda, bukan tolok ukur yang sama.
  • Analisis same-task menunjukkan perubahan minimal, masih dalam batas variabilitas AI yang normal.
Promo

BridgeMind AI mengklaim Claude Opus 4.6 dari Anthropic diam-diam mengalami penurunan kualitas setelah dilakukan retest pada benchmark halusinasi. Postingan viral ini kemudian menuai kritik tajam karena metodologinya dinilai cacat.

Klaim ini memicu perdebatan luas tentang apakah perusahaan AI diam-diam menurunkan kualitas model berbayar untuk mengurangi biaya.

Disponsori
Disponsori

BridgeMind Klaim Terjadi Lonjakan Halusinasi 98%

BridgeMind, tim di balik benchmark coding BridgeBench, mengunggah bahwa Claude Opus 4.6 turun dari peringkat kedua ke peringkat sepuluh pada papan peringkat halusinasi mereka. Akurasi model ini dilaporkan turun dari 83,3% menjadi 68,3%.

“CLAUDE OPUS 4.6 IS NERFED. BridgeBench just proved it. Last week Claude Opus 4.6 ranked #2 on the Hallucination benchmark with an accuracy of 83.3%. Today Claude Opus 4.6 was retested and it fell to #10 on the leaderboard with an accuracy of only 68.3%,” tulis mereka di sini.

Postingan itu menyoroti hal ini sebagai bukti adanya “penurunan level penalaran.” Akan tetapi, jika melihat data dasarnya lebih dekat, ceritanya justru berbeda.

Kritikus Sebut Perbandingan Sangat Cacat

Menurut ilmuwan komputer Paul Calcraft, klaim tersebut adalah “sains yang sangat buruk,” serta menyoroti masalah besar pada metodologinya.

“Incredibly bad science You tested Opus on 30 tasks today, previous score was on just *6* tasks Results for 6 tasks in common: 85.4% score today vs. 87.6% prevly. Swing is mostly from a *single* fabrication without repeats – easily statistical noise,” komentar Calcraft di sini.

Nilai tinggi sebelumnya berasal hanya dari enam tugas benchmark. Pada retest terbaru, jumlah tugas benchmark diperluas menjadi 30 tugas.

Disponsori
Disponsori

Pada enam tugas yang sama, performa model hampir sama, hanya turun tipis dari 87,6% menjadi 85,4%.

Perubahan kecil itu kebanyakan terjadi karena satu kali tambahan rekayasa pada satu tugas. Karena tidak ada pengujian ulang, hal ini masih sangat wajar dalam statistik sebagai variasi normal untuk model AI.

Large language model memang tidak deterministik, sehingga satu output buruk pada sampel kecil dapat mengubah hasil secara signifikan.

Kekecewaan Lebih Luas Menyulut Narasi Ini

Meski begitu, postingan ini tetap mendapat perhatian besar. Sejak diluncurkan pada Februari 2026, Claude Opus 4.6 telah banyak dikeluhkan karena penurunan kualitas yang dirasakan.

Beberapa pengembang melaporkan jawaban yang lebih singkat, kemampuan mengikuti instruksi yang melemah, dan kedalaman penalaran berkurang pada jam-jam sibuk.

Bagian dari keluhan ini memang akibat perubahan produk yang disengaja. Anthropic memperkenalkan kontrol thinking adaptif agar model bisa otomatis menyesuaikan anggaran penalarannya sendiri. Tingkat upaya secara default kemudian diatur ke sedang, sehingga efisiensi lebih diutamakan daripada kedalaman maksimal.

Analisis independen terhadap lebih dari 6.800 sesi Claude Code menunjukkan penurunan kedalaman penalaran sekitar 67% pada akhir Februari.

Rasio file dibaca model sebelum mengedit kode juga turun dari 6,6 menjadi 2,0. Ini mengisyaratkan model mencoba memperbaiki kode yang bahkan nyaris belum ditelaah.

Apa Implikasinya Bagi Pengguna AI

Situasi ini mencerminkan ketegangan yang terus tumbuh di industri AI. Perusahaan mengoptimalkan model agar hemat biaya dan scalable setelah peluncuran, sementara pengguna intensif berharap performa terbaik selalu konsisten. Perbedaan prioritas itu dapat mengikis kepercayaan.

Berdasarkan data yang ada, data BridgeBench tidak membuktikan adanya penurunan kualitas yang disengaja. Perbandingan benchmark-nya pun tidak sepadan, dan hasil pada tugas yang sama nyaris identik.

Walau demikian, kekecewaan yang melatari hal ini memang tidak sepenuhnya tanpa alasan. Kontrol komputasi adaptif dan optimasi layanan sudah mengubah bagaimana Claude Opus 4.6 bekerja di lapangan. Bagi pengembang yang bergantung pada output konsisten, perubahan ini sangat berpengaruh.

Anthropic belum mengeluarkan pernyataan publik mengenai klaim BridgeBench ini hingga 13 April.

Penyangkalan

Seluruh informasi yang terkandung dalam situs kami dipublikasikan dengan niat baik dan bertujuan memberikan informasi umum semata. Tindakan apa pun yang dilakukan oleh para pembaca atas informasi dari situs kami merupakan tanggung jawab mereka pribadi. Selain itu, sebagian artikel di situs ini merupakan hasil terjemahan AI dari versi asli BeInCrypto yang berbahasa Inggris.

Disponsori
Disponsori