WEpoker官網(wǎng)提供WPK(微撲克)APP正版最新安卓IOS蘋果下載地址鏈接。WPK通過先進(jìn)的加密技術(shù)和嚴(yán)格的監(jiān)管措施,WEpoker確保每一次對(duì)局都公平公正,讓您的每一分投入都安心無憂
如今大模型的迭代周期越來越短,基準(zhǔn)測(cè)試榜單的頭把交椅也時(shí)常易主。AI較量的白熱化提醒我們,大模型從一開始的大爆發(fā)時(shí)代已經(jīng)進(jìn)入快迭代時(shí)代。
在5月年度I/O開發(fā)者大會(huì)上,谷歌宣布已對(duì)Gemini 2.5 Pro進(jìn)行靜默升級(jí)。谷歌DeepMind首席執(zhí)行官戴米斯·哈薩比斯(Demis Hassabis)當(dāng)時(shí)評(píng)價(jià)I/O版本是公司迄今最佳編程模型。
谷歌CEO桑達(dá)爾·皮查伊(Sundar Pichai)在海外社交媒體X上親自官宣:“我們最新的Gemini 2.5 Pro更新現(xiàn)已發(fā)布預(yù)覽版……我們聽取了您的反饋,并對(duì)回答的風(fēng)格和結(jié)構(gòu)進(jìn)行了改進(jìn)。您可以在Al Studio、Vertex Al平臺(tái)和Gemini app中進(jìn)行試用。正式版即將推出!”
結(jié)語(yǔ):大模型進(jìn)入快迭代時(shí)代
智東西6月6日消息,谷歌今日突襲推出Gemini 2.5 pro的重磅更新版本Gemini 2.5 Pro Preview 06-05 Thinking,該版本在推理能力、科學(xué)以及編程能力測(cè)試中超越OpenAI o3、DeepSeek R1和Claude Opus 4,其中編程能力更是領(lǐng)跑Aider Polyglot等高難度編程基準(zhǔn)測(cè)試。
編程方面:Android studio提示Gemini 2.5 Pro Preview 06-05 Thinking創(chuàng)建一個(gè)用戶個(gè)人資料圖片,要求包含:Android Jetpack Compose 代碼,能夠生成類似該用戶個(gè)人資料圖片的代碼以及導(dǎo)入語(yǔ)句、Material3和代碼文檔,結(jié)果十分驚艷:
一、性能全面屠榜,Gemini以1443分登頂WebDevArena榜單
有網(wǎng)友在用Emoji表情標(biāo)出了06-05版本的表現(xiàn)對(duì)比,可以看出其在測(cè)試數(shù)學(xué)能力的AIME 2025、測(cè)試代碼生成的LiveCodeBench上并未超過o3和o4-mini,視覺推理的MMMU榜單上也未超過o3,仍有進(jìn)步空間。
從細(xì)分榜單來看,LMArena文本基準(zhǔn)測(cè)試中,06-05版本的Elo分?jǐn)?shù)較05-06版提升24分,以1470分保持榜首。WebDevArena測(cè)試中,其Elo分?jǐn)?shù)以1443分領(lǐng)先,較此前提升了35分。06-05版本也領(lǐng)跑Aider Polyglot等高難度編程基準(zhǔn)測(cè)試,超越DeepSeek R1等一眾大模型。
二、Gemini新版被玩出花了
此前,DeepSeek和OpenAI的推理模型曾主導(dǎo)行業(yè)關(guān)注焦點(diǎn),智東西不久之前曾報(bào)道DeepSeek-R1-0528開源,其性能接近OpenAI在4月中旬發(fā)布的o4 mini和o3模型高版本。谷歌此番更新更是迎頭趕上,全面屠榜,基準(zhǔn)測(cè)試結(jié)果超越DeepSeek R1和OpenAI的o3、o3-mini和o4-mini。
▲WebDevArena榜單(來源:LMArena)
首先是圖像生成方面,皮查伊自己用Gemini生成了一張獅子的特寫照片,圖片十分生動(dòng):
▲綜合榜單(來源:LMArena)
且在價(jià)格上,06-05版本與榜單中的其他模型相比較為實(shí)惠,但仍遠(yuǎn)高于DeepSeek R1。
價(jià)格方面,06-05版本沿用了先前版本的價(jià)格策略,即每百萬token輸入(無緩存)1.25美元(約合人民幣9元),輸出10美元(約合人民幣72元)。
▲HLE榜單(來源:Humanity’s Last Exam官網(wǎng))
而此次名為“Gemini 2.5 Pro Preview 06-05 Thinking”的新預(yù)覽版在05-06版本之上進(jìn)行的更新,測(cè)試表現(xiàn)更優(yōu),谷歌在博客中評(píng)價(jià)該版本為“我們迄今為止最有智慧的模型”。谷歌還透露說,新版本“具備企業(yè)級(jí)應(yīng)用成熟度”,將于兩周后作為穩(wěn)定版面世。
智東西 作者 王涵 編輯 漠影
還有網(wǎng)友要求06-05版本編寫一個(gè)“3D球體”代碼來展示它的能力,結(jié)果它僅憑一句指令就生成了這個(gè)交互式粒子系統(tǒng),讓網(wǎng)友直呼“這不可能是真的!”
在HLE(Humanity’s Last Exam,人類終極測(cè)試)中,06-05版本的成績(jī)?yōu)?1.6%,幾乎是Claude 4 Opus的2倍,GPQA測(cè)試的成績(jī)也同樣占據(jù)榜首。這兩個(gè)測(cè)試是評(píng)估數(shù)學(xué)、科學(xué)、知識(shí)及推理能力的超高難度測(cè)試,06-05版本的亮眼成績(jī)足以說明它的實(shí)力。
有網(wǎng)友要求06-05版本編寫一個(gè)Python程序,模擬隨機(jī)車流量單行道上的交通信號(hào)燈運(yùn)作過程:
06-05版本一經(jīng)推出就有許多開發(fā)者和用戶進(jìn)行體驗(yàn)嘗鮮。
Gemini 2.5 Pro初代版本于3月發(fā)布時(shí),Venture Beat的馬特·馬歇爾(Matt Marshall)就稱其為“最被低估的智能模型”。這一評(píng)價(jià)很快得到驗(yàn)證,憑借2.5 Pro及其兩個(gè)升級(jí)版本的快速迭代,谷歌不僅大幅提升了模型的多模態(tài)理解、長(zhǎng)文本推理和代碼生成能力,更在大語(yǔ)言模型性能基準(zhǔn)測(cè)試中多次超越競(jìng)品。
Gemini 2.5 Pro Preview 06-05 Thinking在基準(zhǔn)測(cè)試中全面屠榜,文本、視覺、網(wǎng)頁(yè)開發(fā)、編程、數(shù)學(xué)、創(chuàng)意、多輪對(duì)話、指令跟隨及長(zhǎng)查詢類別等能力上均拔得頭籌。
即刻起,開發(fā)者們可以從谷歌AI Studio和Vertex AI平臺(tái)接入Gemini API體驗(yàn)最新版本,谷歌還在這兩個(gè)平臺(tái)上新增了“思考預(yù)算”功能,優(yōu)化成本與延遲控制。同時(shí),新版本也將在Gemini應(yīng)用上逐步推出。
來源:谷歌Blog、X、LMArena、Humanity’s Last Exam以及Venture Beat
卡通動(dòng)畫風(fēng)也是不在話下: