[0:00] 大家好,歡迎回到頻道。今天我們將深入探討一場令人興奮的人工智慧對決 [0:05] ,我們將測試Deep Seek的最新版本3.1與GPT5和Gemini 2.5 Pro的比較。我們將 [0:12] 透過從邏輯推理挑戰到程式設計任務等各種測驗來檢驗這些模型的實力 [0:15] ,看看哪個AI最終勝出。所以,拿起你的咖啡,點贊, [0:21] 讓我們直接進入我們的測試實驗室。好的,這是我們的設定。我們使用的是DeepSeek [0:26] 3.1,注意到他們已經將思考過程從「Think」更名為「Deepthink」。很酷。對於 [0:32] GPT5,我透過Perplexity訪問它。當然,我們還有Gemini 2.5 Pro準備就緒。第一個 [0:40] 測試,邏輯推理。好的,這是我們的第一個問題。這是一個基於邏輯的問題。 [0:46] 所以,讓我們把這個問題交給這兩個模型。我先把它寄給Deepseek。哇,看看 [0:52] 這個。 Deepseek 像往常一樣開始進行大量思考。而 GPT5 已經 [1:01] 以超快的速度給了答案。 Deepseek 仍在思考,夥計,這傢伙真是慢條斯理。你知道 [1:09] 嗎?在 Deepseek 給出答案之前,我們也向 Gemini 提出同樣的問題。讓我們看看。 Gemini [1:20] 的速度也非常快,你可以看到它給了與 GPT 相同的答案。與此同時, [1:26] 我們的 DeepSeek 模型仍在思考。我就讓 Deepseek 自己思考吧。同時, [1:32] 讓我告訴你們 Deepseek 3.1 中究竟發生了哪些變化。以下是基準測試。 [1:37] 從之前的模型可以看出,變化並不大。但是, [1:41] 它確實進步了很多。之前在 SWE 中,它的得分是 44,而現在 3.1 的得分是 66,這表明它 [1:50] 在編碼方面取得了良好的進步。除了編碼之外,它的多語言能力也有所提升。 [1:55] 從數字上看,進步並不大,但這是一個很大的進步,不像 GPT5 那樣給很多 [2:01] 人帶來了災難。在這張投影片上,你可以看到人工智慧 [2:06] 分析指數的所有頂級模型基準測試。 GPT 在這方面的表現優於 Gro 4。如果我們看看 DeepSeek,它落後於 [2:14] Gemini 以及我完全不同意的 GPOSS120B 模型。我已經 [2:22] 完整測試了 GPOSS 模型,我們很快就會發布那個影片。總之,讓我們來檢驗一下。 Deepseek [2:28] 還在想嗎?還是他已經思考了?好的,這是 Deepseek 的答案 [2:35] ,他給的答案是選項 A,這是正確答案。如你所見,在這個題目中, [2:40] 只有選項 A 是正確的,而不是 A 和 D 都正確。所以,Deepseek 確實需要時間,但他給了 [2:46] 正確的答案。 GPT5 和 Gemini 2.5 Pro 都在這裡失敗了。 Deepseek 得一分。第二次測試, [2:54] 需要更多邏輯推理。這是第二個問題。同樣,需要邏輯推理。讓我們把這個問題發給 [3:00] 所有模型。 Naai GPT 一如既往地快得驚人。我的天哪。這次 DeepSeek 耗時 453 秒, [3:08] 這太瘋狂了。這相當於 7 分鐘多鐘。哇。好的,讓我們檢查兩個答案,看看哪一個 [3:13] 是正確的。 DeepSeek 給出的輸出選項 A 是正確的,GPT5 在這裡也是正確的。 [3:20] 答案應該是 1 顆蘋果等於 1.2 根香蕉。我故意給出了錯誤的選項,以檢查 [3:26] 它們是否會更改答案以適應給出的選項,你知道,就是為了迷惑 [3:31] 它們。但 DeepSeek 和 GPT5 都給了準確的答案,所以兩個模型 [3:39] 各得一分。程式測試一,馬裡奧遊戲。好的,現在讓我們用一些程式碼來測試它。這裡我們給了一個提示, [3:47] 使用 HTML、CSS 和 JavaScript 來創建一個最先進的瑪利歐遊戲。所以,讓我們把這個提示發送 [3:55] 給這兩個模型以及 Gemini。好的,兩個模型都開始編寫程式碼,哦, [4:02] Gemini 第一個完成了。讓我們點擊播放,它看起來很基本。並不是最先進的。 [4:11] 所以,我點擊空格和箭頭來移動。我覺得有點不對勁。好的,等一下。我明白了。我 [4:17] 必須點擊空格,然後使用箭頭,而不是一個接一個。只有當馬裡奧飛行時它才會移動。好的, [4:24] 非常基本的遊戲。它帶有音效,這很好,但視覺效果非常基本。 [4:38] 讓我們檢查一下 GPT5。讓我複製並貼上此程式碼。這是遊戲。點擊開始, [4:46] 夥計們。我覺得它不起作用。開始按鈕根本不起作用。搞什麼鬼? GPT。我們 [4:54] 去 Deepseek。哦,Deepseek 完成了。讓我檢查一下程式碼。這看起來好多了 [5:00] 。比 Gemini 好,也比 GPT5 好很多。所以,這裡我們有分數和硬幣。 [5:06] 我們在下面有敵人。這看起來不錯。它沒有聲音。所以, [5:12] 我覺得應該把重點放在 Deepseek 上。它的視覺效果好得多。指向 deepsek。 [5:19] 編碼測試兩個自由工作者儀表板。好的,又一個編碼問題。 [5:24] 提示如下。使用 HTML、CSS 和 JavaScript 為 [5:30] 自由工作者產生一個現代化的互動式網站,其中包含一個儀表板,用於顯示已完成專案、待處理專案和潛在 [5:36] 客戶。讓動畫更流暢,看起來更現代。好的,讓我們把 [5:41] 它發送給 DeepSk。這是 Gemini 的輸出,我想說它看起來乾淨、簡約、簡單, [5:48] 而且還有動畫。拖放功能運作完美,而且很流暢。幹得好, [5:55] Gemini。讓我們檢查一下 GPT5。這是輸出。它看起來與 Gemini 和主題相似,但 [6:02] 比 Gemini 擁有更多功能和功能。好的,讓我們添加一些項目。哎呀。不, [6:10] 這些按鈕都不起作用。 GPT 又搞砸了。拜託,夥計。我們來檢查一下 DeepSseek。哇,我覺得 [6:20] DeepS 在這方面明顯勝出。它包含了所有參數,例如已完成的項目、待處理的項目數以及總 [6:26] 收入。而且,如果我們移動內容,它也會持續更新。例如,我們可以拖放一下,看看 [6:31] 它是否在更新。如你所見,它更新得非常完美,動畫也非常流暢。 [6:38] 所以,DeepSeek 再次勝出。指向 DeepSeek。最後的程式測試。鳥類動畫。好的, [6:46] 最後一個程式設計問題。提示如下。使用 HTML、 CSS 和 JavaScript [6:52] 建立一個顯示鳥類的網頁 。我們將它發送到所有這些模型中。這是 Gemini 2.5 Pro 的結果, [6:59] 效果不錯。你可以看到,隨著滑鼠的移動,鳥的眼睛也在移動。所以, [7:04] 這是一個不錯的修飾。這隻鳥看起來也不錯。現在,我們來檢查一下 GPT5。我們又來了。為什麼是 [7:14] GPT?為什麼?他添加了所有參數設置,但這裡什麼也沒顯示。我不知道這是 [7:22] 困惑度的問題還是 GPT 本身的問題。無論如何,我們給 GPT5 另一個選擇,讓我們看看。好的, [7:30] 就是這樣。經過反覆試驗,GPT5 產生了下圖。它並不完美。如你 [7:37] 所見,羽毛是倒置的,但總體看起來不錯。 GPT 還添加了一些其他功能, [7:43] 例如更改色調、是否動畫以及儲存為 PNG。所以,他嘗試更有創意地思考, [7:50] 但一開始失敗了。總之,讓我們檢查一下 DeepSeek。這是 Deepseek 的輸出。我 [7:55] 對此有什麼看法?我認為 Deepseek 對這隻鳥做了一些操作。它看起來一點也不像一隻健康 [8:01] 完美的鳥。只有前部看起來像鳥,但 Deepseek 在這裡失敗了。 [8:07] 不過 Deepseek 也提供了一些選項,例如改變翅膀的拍打速度和鳥的大小。所以,Gemini 和 GPT5 得分最高 [8:14] 。最後的思考與結論。夥計們,結論是這樣的。 Deepseek 整體 [8:22] 表現不錯。我可以說,在某些情況下它的表現比 GPT 和 Gemini 更好。考慮到 [8:28] DeepSeek的成本,Deepseek非常划算,是目前市場上最適合預算用戶的最佳模型。但 [8:34] Deepseek也存在一個問題:它需要大量的思考時間。雖然它比之前的 [8:40] 版本有所改進,但思考的時間仍然很長。 GPT或Gemini幾秒鐘就能完成的事情,Deepseek卻 [8:46] 需要幾分鐘。所以,我認為這只是一個缺點。好了,今天就到這裡, [8:53] 各位。如果您想用其他型號對Deep Seek進行全面測試,請在下方留言,告訴我 [8:58] 您希望我將其與哪些模型進行比較。另外,我很快就會發布GPOSS模型測試。點擊 [9:05] 訂閱按鈕以獲取更新。感謝您的收看,我們下期再見。 [音樂] [9:24] 我們會不斷成長。