Menguji "Paling Pintar di Dunia" Grok3

AIPU WATON GROUP (1)

pengenalan

Adakah anda fikir Grok3 akan menjadi "titik akhir" model pra-latihan?

Elon Musk dan pasukan xAI secara rasmi melancarkan versi terkini Grok, Grok3, semasa strim langsung. Sebelum acara ini, sejumlah besar maklumat berkaitan, ditambah dengan gembar-gembur promosi 24/7 Musk, meningkatkan jangkaan global untuk Grok3 ke tahap yang belum pernah terjadi sebelumnya. Hanya seminggu yang lalu, Musk dengan yakin menyatakan semasa strim langsung sambil mengulas mengenai DeepSeek R1, "xAI akan melancarkan model AI yang lebih baik." Daripada data yang dibentangkan secara langsung, Grok3 dilaporkan telah mengatasi semua model arus perdana semasa dalam penanda aras untuk matematik, sains dan pengaturcaraan, dengan Musk malah mendakwa bahawa Grok3 akan digunakan untuk tugas pengiraan yang berkaitan dengan misi Marikh SpaceX, meramalkan "kejayaan di peringkat Hadiah Nobel dalam masa tiga tahun." Walau bagaimanapun, ini pada masa ini hanyalah dakwaan Musk. Selepas pelancaran, saya menguji versi beta terbaru Grok3 dan mengemukakan soalan muslihat klasik untuk model besar: "Yang lebih besar, 9.11 atau 9.9?" Malangnya, tanpa sebarang kelayakan atau markah, Grok3 yang dikatakan paling bijak masih tidak dapat menjawab soalan ini dengan betul. Grok3 gagal mengenal pasti maksud soalan dengan tepat.

 

Ujian ini dengan cepat menarik perhatian ramai rakan, dan secara kebetulan, pelbagai ujian serupa di luar negara telah menunjukkan Grok3 bergelut dengan soalan asas fizik/matematik seperti "Bola yang manakah jatuh dahulu dari Menara Condong Pisa?" Oleh itu, ia telah dilabel secara lucu sebagai "seorang genius yang tidak mahu menjawab soalan mudah."

640

Grok3 bagus, tetapi ia tidak lebih baik daripada R1 atau o1-Pro.

Grok3 mengalami "kegagalan" pada banyak ujian pengetahuan biasa dalam amalan. Semasa acara pelancaran xAI, Musk menunjukkan cara menggunakan Grok3 untuk menganalisis kelas watak dan kesan daripada permainan Path of Exile 2, yang dia dakwa sering bermain, tetapi kebanyakan jawapan yang diberikan oleh Grok3 adalah salah. Musk semasa siaran langsung tidak menyedari isu yang jelas ini.

 

Kesilapan ini bukan sahaja memberikan bukti lanjut kepada netizen luar negara untuk mengejek Musk kerana "mencari pengganti" dalam permainan tetapi juga menimbulkan kebimbangan yang ketara mengenai kebolehpercayaan Grok3 dalam aplikasi praktikal. Untuk "genius" sedemikian, tanpa mengira keupayaan sebenar, kebolehpercayaannya dalam senario aplikasi yang sangat kompleks, seperti tugas penerokaan Marikh, masih diragui.

 

Pada masa ini, ramai penguji yang menerima akses kepada Grok3 minggu lalu, dan mereka yang baru menguji keupayaan model selama beberapa jam semalam, semuanya menunjukkan kesimpulan yang sama: "Grok3 bagus, tetapi ia tidak lebih baik daripada R1 atau o1-Pro."

640 (1)

Perspektif Kritikal tentang "Mengganggu Nvidia"

Dalam PPT yang dibentangkan secara rasmi semasa keluaran, Grok3 telah ditunjukkan sebagai "jauh ke hadapan" di Arena Chatbot, tetapi teknik grafik yang bijak ini digunakan: paksi menegak pada papan pendahulu hanya menyenaraikan hasil dalam julat skor 1400-1300, menjadikan perbezaan 1% asal dalam keputusan ujian kelihatan sangat ketara dalam pembentangan ini.

640

Dalam keputusan pemarkahan model sebenar, Grok3 hanya 1-2% di hadapan DeepSeek R1 dan GPT-4.0, yang sepadan dengan pengalaman banyak pengguna dalam ujian praktikal yang mendapati "tiada perbezaan yang ketara." Grok3 hanya melebihi penggantinya sebanyak 1%-2%.

640

Walaupun Grok3 telah mendapat markah lebih tinggi daripada semua model yang diuji secara terbuka pada masa ini, ramai yang tidak mengambil serius perkara ini: lagipun, xAI sebelum ini telah dikritik kerana "manipulasi skor" dalam era Grok2. Memandangkan papan pendahulu menghukum gaya panjang jawapan, markah sangat menurun, menyebabkan orang dalam industri sering mengkritik fenomena "skor tinggi tetapi keupayaan rendah."

 

Sama ada melalui "manipulasi" papan pendahulu atau helah reka bentuk dalam ilustrasi, mereka mendedahkan obsesi xAI dan Musk dengan tanggapan "mengetuai kumpulan" dalam keupayaan model. Musk membayar harga yang tinggi untuk margin ini: semasa pelancaran, dia berbangga menggunakan 200,000 H100 GPU (menuntut "lebih 100,000" semasa strim langsung) dan mencapai jumlah masa latihan selama 200 juta jam. Ini menyebabkan sesetengah pihak percaya bahawa ia mewakili satu lagi kelebihan penting untuk industri GPU dan menganggap kesan DeepSeek pada sektor itu sebagai "bodoh." Terutama, sesetengah percaya bahawa kuasa pengiraan semata-mata akan menjadi masa depan latihan model.

 

Walau bagaimanapun, sesetengah netizen membandingkan penggunaan 2000 GPU H800 dalam tempoh dua bulan untuk menghasilkan DeepSeek V3, mengira bahawa penggunaan kuasa latihan sebenar Grok3 adalah 263 kali ganda berbanding V3. Jurang antara DeepSeek V3, yang memperoleh 1402 mata, dan Grok3 hanya di bawah 100 mata. Berikutan pengeluaran data ini, ramai segera menyedari bahawa di sebalik gelaran Grok3 sebagai "terkuat di dunia" terdapat kesan utiliti marginal yang jelas—logik model yang lebih besar yang menjana prestasi yang lebih kukuh telah mula menunjukkan pulangan yang semakin berkurangan.

640 (2)

Walaupun dengan "skor tinggi tetapi keupayaan rendah," Grok2 mempunyai sejumlah besar data pihak pertama yang berkualiti tinggi daripada platform X (Twitter) untuk menyokong penggunaan. Walau bagaimanapun, dalam latihan Grok3, xAI secara semula jadi menghadapi "siling" yang sedang dihadapi OpenAI—kekurangan data latihan premium dengan pantas mendedahkan utiliti kecil keupayaan model.

 

Pembangun Grok3 dan Musk berkemungkinan yang pertama memahami dan mengenal pasti fakta ini dengan mendalam, itulah sebabnya Musk terus-menerus menyebut di media sosial bahawa versi yang pengguna alami sekarang adalah "masih beta" dan bahawa "versi penuh akan dikeluarkan dalam beberapa bulan akan datang." Musk telah mengambil alih peranan pengurus produk Grok3, mencadangkan pengguna memberikan maklum balas tentang pelbagai isu yang dihadapi dalam bahagian komen. Dia mungkin pengurus produk yang paling diikuti di Bumi.

 

Namun, dalam masa sehari, prestasi Grok3 sudah pasti menimbulkan penggera bagi mereka yang berharap untuk bergantung pada "otot pengiraan besar-besaran" untuk melatih model besar yang lebih kuat: berdasarkan maklumat Microsoft yang tersedia secara terbuka, GPT-4 OpenAI mempunyai saiz parameter 1.8 trilion parameter, lebih sepuluh kali ganda GPT-3. Khabar angin mencadangkan bahawa saiz parameter GPT-4.5 mungkin lebih besar.

 

Apabila saiz parameter model meningkat, kos latihan juga meningkat. Dengan kehadiran Grok3, pesaing seperti GPT-4.5 dan lain-lain yang ingin terus "membakar wang" untuk mencapai prestasi model yang lebih baik melalui saiz parameter mesti mempertimbangkan siling yang kini jelas kelihatan dan memikirkan cara untuk mengatasinya. Pada masa ini, Ilya Sutskever, bekas ketua saintis di OpenAI, sebelum ini telah menyatakan pada Disember lalu, "Pra-latihan yang kami kenali akan berakhir," yang telah muncul semula dalam perbincangan, mendorong usaha untuk mencari laluan sebenar untuk melatih model besar.

640 (3)

Pandangan Ilya telah membunyikan penggera dalam industri. Beliau dengan tepat meramalkan keletihan yang akan berlaku bagi data baharu yang boleh diakses, membawa kepada situasi di mana prestasi tidak dapat terus dipertingkatkan melalui pemerolehan data, menyamakannya dengan kehabisan bahan api fosil. Beliau menyatakan bahawa "seperti minyak, kandungan yang dihasilkan manusia di internet adalah sumber yang terhad." Dalam ramalan Sutskever, model generasi akan datang, selepas pra-latihan, akan memiliki "autonomi sebenar" dan keupayaan penaakulan "serupa dengan otak manusia."

 

Tidak seperti model pra-latihan hari ini yang bergantung terutamanya pada padanan kandungan (berdasarkan kandungan model yang dipelajari sebelumnya), sistem AI masa hadapan akan dapat mempelajari dan mewujudkan metodologi untuk menyelesaikan masalah dengan cara yang serupa dengan "pemikiran" otak manusia. Manusia boleh mencapai kecekapan asas dalam subjek dengan hanya kesusasteraan profesional asas, manakala model besar AI memerlukan berjuta-juta titik data untuk mencapai keberkesanan peringkat permulaan yang paling asas. Walaupun perkataan diubah sedikit, soalan asas ini mungkin tidak difahami dengan betul, menggambarkan bahawa model itu tidak benar-benar bertambah baik dalam kecerdasan: soalan asas tetapi tidak dapat diselesaikan yang disebut pada permulaan artikel mewakili contoh yang jelas tentang fenomena ini.

微信图片_20240614024031.jpg1

Kesimpulan

Walau bagaimanapun, di luar kekerasan, jika Grok3 benar-benar berjaya mendedahkan kepada industri bahawa "model pra-latihan semakin menghampiri penghujungnya," ia akan membawa implikasi yang ketara kepada bidang tersebut.

Mungkin selepas keriuhan di sekitar Grok3 beransur-ansur reda, kita akan menyaksikan lebih banyak kes seperti contoh Fei-Fei Li tentang "menala model berprestasi tinggi pada set data khusus dengan hanya $50," akhirnya menemui laluan sebenar ke AGI.

Cari Penyelesaian Kabel ELV

Kabel Kawalan

Untuk BMS, BAS, Perindustrian, Kabel Instrumentasi.

Sistem Pengkabelan Berstruktur

Rangkaian&Data, Kabel Gentian Optik, Kord Tampalan, Modul, Plat Muka

Kajian Pameran & Acara 2024

16-18 Apr, 2024 Tenaga Timur Tengah di Dubai

April 16-18, 2024 Securika di Moscow

9 Mei, 2024 ACARA PELANCARAN PRODUK & TEKNOLOGI BAHARU di Shanghai

22-25 Okt, 2024 SECURITY CHINA di Beijing

19-20 Nov. 2024 KSA DUNIA BERHUBUNG


Masa siaran: Feb-19-2025