2月6日消息,美國時間周三,谷歌正式向公眾發(fā)布Gemini 2.0人工智能模型套件,這是該公司迄今為止推出的“最強大”AI系統(tǒng)。
雖然早在去年12月,谷歌已向開發(fā)者和受信任測試者開放了Gemini 2.0的早期版本,并將部分功能集成到自家產(chǎn)品中,但此次標(biāo)志著該系統(tǒng)的"全面正式發(fā)布"。該模型套件包含三大核心模型套件:2.0 Flash作為"主力模型",專為處理大規(guī)模高頻次任務(wù)優(yōu)化;2.0 Pro Experimental針對編碼性能進行強化;而2.0 Flash-Lite則被定位為"最具成本效益"的輕量化版本。
在定價策略上,Gemini Flash對文本、圖像和視頻輸入的處理費用為每百萬token 10美分(token即AI模型處理的最小數(shù)據(jù)單元,相比而言GPT-4o的輸入成本為每百萬token 5美元),其精簡版Flash-Lite價格更低至0.75美分/百萬token。這一系列產(chǎn)品發(fā)布是谷歌在AI智能體領(lǐng)域的重要布局。隨著科技巨頭與初創(chuàng)企業(yè)間的AI軍備競賽日趨激烈,包括Meta、亞馬遜、微軟、OpenAI及Anthropic等公司都在競相開發(fā)能自主完成多步驟復(fù)雜任務(wù)的智能體系統(tǒng),而非需要逐步指導(dǎo)的傳統(tǒng)AI模型。
谷歌在去年12月的技術(shù)博客中闡釋:"過去一年,我們持續(xù)投資研發(fā)更具自主性的模型,使其能夠深度感知環(huán)境、進行多步前瞻性思考,并在用戶監(jiān)督下代為執(zhí)行操作。"Gemini 2.0不僅實現(xiàn)了原生圖像與音頻輸出的多模態(tài)突破,更具備原生工具調(diào)用能力,該系列模型將助力我們打造新一代AI智能體,向‘通用型數(shù)字助手’的愿景邁進。"
值得關(guān)注的是由前OpenAI研究團隊創(chuàng)立、獲亞馬遜投資的Anthropic公司。這家AI新銳去年10月宣布其智能體已具備類人類的計算機操作能力,能夠解析屏幕信息、點擊按鈕、輸入文本、瀏覽網(wǎng)頁,并通過各類軟件結(jié)合實時網(wǎng)絡(luò)數(shù)據(jù)完成任務(wù)。公司首席科學(xué)家賈里德·卡普蘭(Jared Kaplan)當(dāng)時表示:"我們的系統(tǒng)能以近乎人類的方式操作電腦,處理包含數(shù)十乃至數(shù)百個步驟的復(fù)雜流程。"
OpenAI近期也推出名為Operator的智能體系統(tǒng),可自動完成旅行規(guī)劃、表格填寫、餐廳預(yù)訂等任務(wù)。這家微軟投資的明星企業(yè)將Operator定義為"可聯(lián)網(wǎng)執(zhí)行任務(wù)的數(shù)字代理"。本周早些時候,OpenAI又發(fā)布Deep Research功能,支持智能體自主生成深度研究報告。值得注意的是,谷歌在去年12月也推出了同名工具,定位為"能代用戶探索復(fù)雜課題的研究助手"。
去年12月曾有報道稱,谷歌計劃在2025年初推出多項AI新功能。公司首席執(zhí)行官桑達爾·皮查伊(Sundar Pichai)在內(nèi)部戰(zhàn)略會上強調(diào):"商業(yè)史上,先發(fā)優(yōu)勢并非絕對關(guān)鍵,真正的成功在于卓越執(zhí)行力與產(chǎn)品力。2025年對我們而言,正是兌現(xiàn)產(chǎn)品承諾的關(guān)鍵之年。"
來源:網(wǎng)易科技報道
撫順眾聯(lián)網(wǎng)絡(luò)公司轉(zhuǎn)載
撫順網(wǎng)絡(luò)公司 撫順網(wǎng)絡(luò) 撫順軟件公司
