DeepSeek: Yang mengganggu yang merevolusikan landskap AI

Aipu Waton Group

Pengenalan

Kebimbangan berterusan di kalangan model besar yang bersaing, penyedia awan bersaing untuk bahagian pasaran, dan pengeluar cip yang rajin -kesan DeepSeek berterusan.

Apabila perayaan musim bunga berakhir, kegembiraan yang mengelilingi Deepseek tetap kuat. Percutian baru -baru ini menonjolkan rasa persaingan yang signifikan dalam industri teknologi, dengan banyak membincangkan dan menganalisis "ikan keli" ini. Silicon Valley sedang mengalami rasa krisis yang belum pernah terjadi sebelumnya: Peguambela sumber terbuka menyuarakan pendapat mereka sekali lagi, dan bahkan OpenAI menilai semula sama ada strategi sumber tertutupnya adalah pilihan terbaik. Paradigma baru kos pengiraan yang lebih rendah telah mencetuskan tindak balas rantai di kalangan gergasi cip seperti Nvidia, yang membawa kepada merekodkan kerugian nilai pasaran satu hari dalam sejarah pasaran saham AS, sementara agensi kerajaan menyiasat pematuhan cip yang digunakan oleh Deepseek. Di tengah -tengah ulasan campuran Deepseek di luar negara, di dalam negara, ia mengalami pertumbuhan yang luar biasa. Selepas pelancaran model R1, aplikasi yang berkaitan telah menyaksikan lonjakan trafik, menunjukkan bahawa pertumbuhan dalam sektor aplikasi akan memacu ekosistem AI secara keseluruhan ke hadapan. Aspek positif ialah DeepSeek akan meluaskan kemungkinan permohonan, menunjukkan bahawa bergantung kepada ChatGPT tidak akan menjadi mahal di masa depan. Peralihan ini telah dicerminkan dalam aktiviti terbaru Openai, termasuk penyediaan model penalaran yang dipanggil O3-Mini kepada pengguna bebas sebagai tindak balas kepada DeepSeek R1, serta peningkatan seterusnya yang menjadikan rantaian pemikiran O3-mini orang awam. Ramai pengguna luar negara mengucapkan terima kasih kepada DeepSeek untuk perkembangan ini, walaupun rantaian pemikiran ini berfungsi sebagai ringkasan.

Secara optimis, jelas bahawa DeepSeek menyatukan pemain domestik. Dengan tumpuannya untuk mengurangkan kos latihan, pelbagai pengeluar cip huluan, penyedia awan pertengahan, dan banyak pemula secara aktif menyertai ekosistem, meningkatkan kecekapan kos untuk menggunakan model DeepSeek. Menurut kertas DeepSeek, latihan lengkap model V3 memerlukan hanya 2.788 juta jam GPU H800, dan proses latihan sangat stabil. Senibina MOE (campuran pakar) adalah penting untuk mengurangkan kos latihan pra dengan faktor sepuluh berbanding Llama 3 dengan parameter 405 bilion. Pada masa ini, V3 adalah model pertama yang diiktiraf secara umum yang menunjukkan kelebihan yang tinggi di MOE. Di samping itu, MLA (perhatian multi lapisan) berfungsi secara sinergistik, terutamanya dalam aspek penalaran. "Sparser the MOE, semakin besar saiz batch yang diperlukan semasa alasan untuk menggunakan sepenuhnya kuasa pengiraan, dengan saiz KVCACHE menjadi faktor pembatas utama; MLA dengan ketara mengurangkan saiz KVCACHE," kata seorang penyelidik dari teknologi Chuanjing dalam analisis untuk kajian teknologi AI. Secara keseluruhannya, kejayaan DeepSeek terletak pada gabungan pelbagai teknologi, bukan hanya satu pun. Orang dalam industri memuji keupayaan kejuruteraan pasukan DeepSeek, dengan mencatatkan kecemerlangan mereka dalam latihan selari dan pengoptimuman pengendali, mencapai hasil pecah tanah dengan menyempurnakan setiap detail. Pendekatan sumber terbuka DeepSeek selanjutnya membakar perkembangan keseluruhan model besar, dan dijangkakan bahawa jika model yang sama berkembang menjadi imej, video, dan banyak lagi, ini akan merangsang permintaan di seluruh industri.

Peluang untuk perkhidmatan penaakulan pihak ketiga

Data menunjukkan bahawa sejak pembebasannya, DeepSeek telah memperoleh 22.15 juta pengguna aktif setiap hari (DAU) dalam masa hanya 21 hari, mencapai 41.6% daripada pangkalan pengguna ChatGPT dan melepasi 16.95 juta pengguna aktif setiap hari, sehingga menjadi aplikasi yang paling pesat berkembang di seluruh dunia, mendahului Apple App Store di 157 negara di negara/regies. Walau bagaimanapun, ketika pengguna berbondong -bondong dalam berbondong -bondong, penggodam siber telah menyerang aplikasi DeepSeek, menyebabkan ketegangan yang ketara pada pelayannya. Penganalisis industri percaya ini sebahagiannya disebabkan oleh DeepSeek yang menggunakan kad untuk latihan sementara kekurangan kuasa pengiraan yang mencukupi untuk penalaran. Orang dalam industri memaklumkan Kajian Teknologi AI, "Isu pelayan yang kerap dapat diselesaikan dengan mudah dengan mengenakan yuran atau pembiayaan untuk membeli lebih banyak mesin, akhirnya, ia bergantung kepada keputusan DeepSeek." Ini membentangkan perdagangan dalam memberi tumpuan kepada teknologi berbanding produkisasi. DeepSeek sebahagian besarnya bergantung pada kuantisasi kuantum untuk rezeki diri, setelah menerima sedikit pembiayaan luaran, mengakibatkan tekanan aliran tunai yang agak rendah dan persekitaran teknologi yang lebih murni. Pada masa ini, berdasarkan masalah yang disebutkan di atas, sesetengah pengguna menggesa DeepSeek di media sosial untuk meningkatkan ambang penggunaan atau memperkenalkan ciri -ciri berbayar untuk meningkatkan keselesaan pengguna. Di samping itu, pemaju telah mula menggunakan API rasmi atau API pihak ketiga untuk pengoptimuman. Walau bagaimanapun, platform Terbuka DeepSeek baru -baru ini mengumumkan, "Sumber pelayan semasa adalah terhad, dan Recharges Service API telah digantung."

 

Ini sudah pasti membuka lebih banyak peluang untuk vendor pihak ketiga dalam sektor infrastruktur AI. Baru -baru ini, banyak gergasi awan domestik dan antarabangsa telah melancarkan model API -overseas DeepSeek Microsoft dan Amazon adalah antara yang pertama menyertai pada akhir Januari. Pemimpin domestik, Huawei Cloud, membuat langkah pertama, melepaskan perkhidmatan penaakulan DeepSeek R1 dan V3 dengan kerjasama aliran berasaskan silikon pada 1 Februari. Laporan dari Kajian Teknologi AI menunjukkan bahawa perkhidmatan Flow berasaskan silikon telah menyaksikan kemasukan pengguna, berkesan "merosakkan" platform. Syarikat-syarikat Big Three Tech-Bat (Baidu, Alibaba, Tencent) dan Bytedance-juga mengeluarkan tawaran murah, terhad pada 3 Februari, mengingatkan harga vendor awan tahun lepas yang dinyalakan oleh pelancaran model V2 Deepseek, di mana Deepseek mula digelar "Harga Penjual Harga." Tindakan-tindakan yang membosankan para penjual awan menggemari hubungan kuat yang lebih awal antara Microsoft Azure dan Openai, di mana pada tahun 2019, Microsoft membuat pelaburan $ 1 bilion yang besar di Openai dan meraih faedah selepas pelancaran Chatgpt pada tahun 2023. Dalam hal ini, DeepSeek bukan sahaja melampaui CHATGPT dari segi haba produk tetapi juga memperkenalkan model sumber terbuka berikutan pelepasan O1, sama seperti kegembiraan yang mengelilingi kebangkitan Llama GPT-3.

 

Pada hakikatnya, penyedia awan juga meletakkan diri mereka sebagai gerbang lalu lintas untuk aplikasi AI, yang bermaksud bahawa mendalam hubungan dengan pemaju diterjemahkan kepada kelebihan preemptive. Laporan menunjukkan bahawa Baidu Smart Cloud mempunyai lebih daripada 15,000 pelanggan menggunakan model DeepSeek melalui platform Qianfan pada hari pelancaran model. Di samping itu, beberapa firma yang lebih kecil menawarkan penyelesaian, termasuk aliran berasaskan silikon, teknologi Luchen, teknologi chuanjing, dan pelbagai penyedia AI Infra yang telah melancarkan sokongan untuk model DeepSeek. Kajian Teknologi AI telah mengetahui bahawa peluang pengoptimuman semasa untuk penyebaran setempat DeepSeek terutamanya wujud dalam dua bidang: satu mengoptimumkan ciri -ciri sparsiti model MOE menggunakan pendekatan penalaran campuran untuk menggunakan model MOE parameter 671 bilion secara tempatan sambil menggunakan kesimpulan GPU/CPU hibrid. Di samping itu, pengoptimuman MLA adalah penting. Walau bagaimanapun, dua model DeepSeek masih menghadapi beberapa cabaran dalam pengoptimuman penggunaan. "Oleh kerana saiz model dan pelbagai parameter, pengoptimuman memang rumit, terutamanya untuk penyebaran tempatan di mana mencapai keseimbangan yang optimum antara prestasi dan kos akan mencabar," kata seorang penyelidik dari teknologi Chuanjing. Rintangan yang paling penting terletak pada mengatasi had kapasiti memori. "Kami mengamalkan pendekatan kerjasama heterogen untuk menggunakan CPU dan sumber pengiraan yang lain, hanya meletakkan bahagian-bahagian yang tidak dikongsi dari matriks MOE yang jarang berlaku pada CPU/DRAM untuk diproses menggunakan pengendali CPU berprestasi tinggi, sementara bahagian-bahagian yang padat tetap berada di GPU," jelasnya. Laporan menunjukkan bahawa rangka kerja sumber terbuka Chuanjing Ktransformers terutamanya menyuntik pelbagai strategi dan pengendali ke dalam pelaksanaan Transformers asal melalui templat, dengan ketara meningkatkan kelajuan kesimpulan menggunakan kaedah seperti Cudagraph. DeepSeek telah mencipta peluang untuk permulaan ini, kerana manfaat pertumbuhan menjadi jelas; Banyak firma telah melaporkan pertumbuhan pelanggan yang ketara selepas melancarkan API DeepSeek, menerima pertanyaan daripada pelanggan terdahulu yang mencari pengoptimuman. Orang dalam industri telah menyatakan, "Pada masa lalu, kumpulan pelanggan yang agak mantap sering dikunci ke dalam perkhidmatan standard syarikat-syarikat yang lebih besar, yang terikat dengan kelebihan kos mereka kerana skala. Pada masa ini, DeepSeek membuat prestasi kesimpulan model semakin kritikal, dan dengan penggunaan model besar yang lebih luas, ini akan terus mempengaruhi pembangunan dalam industri AI Infra dengan ketara. Sekiranya model peringkat DeepSeek boleh digunakan secara tempatan dengan kos yang rendah, ia akan membantu usaha transformasi digital kerajaan dan perusahaan. Walau bagaimanapun, cabaran berterusan, kerana sesetengah pelanggan mungkin mempunyai jangkaan yang tinggi mengenai keupayaan model yang besar, menjadikannya lebih jelas bahawa mengimbangi prestasi dan kos menjadi penting dalam penggunaan praktikal. 

Untuk menilai sama ada DeepSeek lebih baik daripada CHATGPT, penting untuk memahami perbezaan utama, kekuatan, dan kes penggunaan. Inilah perbandingan yang komprehensif:

Ciri/aspek Deepseek Chatgpt
Pemilikan Dibangunkan oleh syarikat China Dibangunkan oleh Openai
Model sumber Sumber terbuka Proprietari
Kos Bebas untuk digunakan; pilihan akses API yang lebih murah Langganan atau harga bayar-per-penggunaan
Penyesuaian Sangat disesuaikan, membolehkan pengguna tweak dan membinanya Penyesuaian terhad tersedia
Prestasi dalam tugas tertentu Cemerlang dalam bidang tertentu seperti analisis data dan pengambilan maklumat Serba boleh dengan prestasi yang kuat dalam penulisan kreatif dan tugas perbualan
Sokongan bahasa Fokus kuat pada bahasa dan budaya Cina Sokongan bahasa yang luas tetapi AS-centric
Kos latihan Kos latihan yang lebih rendah, dioptimumkan untuk kecekapan Kos latihan yang lebih tinggi, memerlukan sumber pengiraan yang besar
Variasi tindak balas Mungkin menawarkan respons yang berbeza, mungkin dipengaruhi oleh konteks geopolitik Jawapan yang konsisten berdasarkan data latihan
Penonton sasaran Bertujuan untuk pemaju dan penyelidik yang menginginkan fleksibiliti Bertujuan untuk pengguna umum mencari keupayaan perbualan
Gunakan kes Lebih cekap untuk penjanaan kod dan tugas cepat Sesuai untuk menghasilkan teks, menjawab pertanyaan, dan terlibat dalam dialog

Perspektif kritikal mengenai "mengganggu nvidia"

Pada masa ini, selain dari Huawei, beberapa pengeluar cip domestik seperti Moore Threads, Muxi, Teknologi Butan, dan Tianxu Zhixin juga menyesuaikan diri dengan dua model Deepseek. Pengilang CHIP memberitahu Kajian Teknologi AI, "Struktur DeepSeek menunjukkan inovasi, namun ia tetap menjadi LLM. Adaptasi kami kepada DeepSeek terutama memberi tumpuan kepada aplikasi pemikiran, menjadikan pelaksanaan teknikal agak mudah dan cepat." Walau bagaimanapun, pendekatan MOE memerlukan permintaan yang lebih tinggi dari segi penyimpanan dan pengedaran, ditambah pula dengan memastikan keserasian apabila menggunakan cip domestik, menyampaikan pelbagai cabaran kejuruteraan yang memerlukan resolusi semasa penyesuaian. "Pada masa ini, kuasa pengiraan domestik tidak sepadan dengan NVIDIA dalam kebolehgunaan dan kestabilan, yang memerlukan penyertaan kilang asal untuk persediaan persekitaran perisian, penyelesaian masalah, dan pengoptimuman prestasi asas," kata seorang pengamal industri berdasarkan pengalaman praktikal. Pada masa yang sama, "Oleh kerana skala parameter besar Deepseek R1, kuasa pengiraan domestik memerlukan lebih banyak nod untuk penyesuaian. Salah satu kemunculan model DeepSeek V3 ialah pengenalan kerangka latihan ketepatan campuran FP8, yang telah disahkan dengan berkesan pada model yang sangat besar, menandakan pencapaian yang signifikan. Sebelum ini, pemain utama seperti Microsoft dan Nvidia mencadangkan kerja yang berkaitan, tetapi keraguan berlarutan dalam industri mengenai kemungkinan. Difahamkan bahawa berbanding dengan INT8, kelebihan utama FP8 ialah kuantisasi pasca latihan dapat mencapai ketepatan yang hampir tidak lossless sementara meningkatkan kelajuan kesimpulan yang ketara. Apabila membandingkan dengan FP16, FP8 dapat merealisasikan sehingga dua kali pecutan pada H20 NVIDIA dan lebih dari 1.5 kali pecutan pada H100. Terutama, sebagai perbincangan mengenai trend kuasa pengiraan domestik ditambah model domestik mendapat momentum, spekulasi mengenai sama ada Nvidia boleh terganggu, dan sama ada Moat Cuda boleh dilangkau, menjadi semakin berleluasa. Salah satu fakta yang tidak dapat dinafikan ialah DeepSeek memang menyebabkan penurunan nilai pasaran Nvidia yang besar, tetapi peralihan ini menimbulkan persoalan mengenai integriti kuasa pengiraan mewah NVIDIA. Naratif yang diterima sebelum ini mengenai pengumpulan pengiraan yang didorong oleh modal sedang dicabar, namun ia tetap sukar bagi Nvidia untuk digantikan sepenuhnya dalam senario latihan. Analisis penggunaan DeepSeek dalam CUDA menunjukkan bahawa fleksibiliti -seperti menggunakan SM untuk komunikasi atau memanipulasi kad rangkaian secara langsung -tidak boleh dilaksanakan untuk GPU biasa untuk menampung. Pandangan industri menekankan bahawa parit Nvidia merangkumi keseluruhan ekosistem CUDA dan bukannya hanya CUDA sendiri, dan arahan PTX (pelaksanaan thread selari) yang digunakan oleh DeepSeek masih merupakan sebahagian daripada ekosistem CUDA. "Dalam jangka pendek, kuasa pengiraan Nvidia tidak dapat dilangkau -ini sangat jelas dalam latihan, namun, menggunakan kad domestik untuk penalaran akan menjadi lebih mudah, jadi kemajuan mungkin akan lebih cepat. Secara keseluruhannya, dari sudut kesimpulan, keadaan menggalakkan cip model besar domestik. Peluang untuk pengeluar cip domestik dalam bidang kesimpulan lebih jelas kerana keperluan latihan yang terlalu tinggi, yang menghalang kemasukan. Penganalisis berpendapat bahawa hanya memanfaatkan kad kesimpulan domestik cukup; Sekiranya perlu, memperoleh mesin tambahan boleh dilaksanakan, sedangkan model latihan menimbulkan cabaran yang unik -menguruskan peningkatan jumlah mesin boleh menjadi membebankan, dan kadar kesilapan yang lebih tinggi dapat memberi kesan negatif terhadap hasil latihan. Latihan juga mempunyai keperluan skala kluster tertentu, sementara tuntutan pada kluster untuk kesimpulan tidak begitu ketat, dengan itu mengurangkan keperluan GPU. Pada masa ini, prestasi kad H20 tunggal Nvidia tidak melepasi Huawei atau Cambrian; Kekuatannya terletak pada clustering. Berdasarkan kesan keseluruhan ke atas pasaran kuasa pengiraan, pengasas Teknologi Luchen, Anda Yang, yang dinyatakan dalam temu bual dengan Kajian Teknologi AI, "DeepSeek mungkin secara sementara melemahkan penubuhan dan sewa kelompok pengiraan yang sangat besar. Permintaan yang berterusan dalam pasaran kuasa pengiraan. " Di samping itu, "Permintaan yang tinggi DeepSeek untuk perkhidmatan penalaran dan penalaan halus lebih serasi dengan landskap pengiraan domestik, di mana kapasiti tempatan agak lemah, membantu mengurangkan sisa dari penubuhan sumber pasca-cluster yang terbiar, ini mewujudkan peluang yang berdaya maju untuk pengeluar di pelbagai peringkat ekosistem pengkomputeran domestik." Teknologi Luchen telah bekerjasama dengan Huawei Cloud untuk melancarkan API Penalaran Siri DeepSeek R1 dan perkhidmatan pengimejan awan berdasarkan kuasa pengiraan domestik. Anda Yang menyatakan keyakinan tentang masa depan: "Deepseek menanamkan keyakinan terhadap penyelesaian yang dihasilkan secara domestik, menggalakkan semangat dan pelaburan yang lebih besar dalam keupayaan pengiraan domestik ke depan."

微信图片 _20240614024031.jpg1

Kesimpulan

Sama ada DeepSeek adalah "lebih baik" daripada chatgpt bergantung kepada keperluan dan objektif pengguna khusus. Untuk tugas yang memerlukan fleksibiliti, kos rendah, dan penyesuaian, DeepSeek mungkin lebih baik. Untuk penulisan kreatif, siasatan umum, dan antara muka perbualan yang mesra pengguna, CHATGPT mungkin memimpin. Setiap alat berfungsi dengan tujuan yang berbeza, jadi pilihan akan sangat bergantung pada konteks di mana ia digunakan.

Cari penyelesaian kabel ELV

Kawalan kabel

Untuk BMS, bas, perindustrian, kabel instrumentasi.

Sistem kabel berstruktur

Rangkaian & data, kabel serat optik, tali patch, modul, faceplate

Ulasan Pameran & Acara 2024

Apr.16th-18th, 2024 Middle-East-Energy di Dubai

Apr.16th-18th, 2024 Securika di Moscow

May.9th, 2024 Acara Pelancaran Produk & Teknologi Baru di Shanghai

Okt.22-25, 2024 Keselamatan China di Beijing

Nov.19-20, 2024 KSA Dunia Bersambung


Masa Post: Feb-10-2025