谷歌(GOOG)近日對Gemini API的計費檔位進(jìn)行更新,優(yōu)化方案與定價均基于實際推理使用需求制定。本次新增的推理服務(wù)檔位包括:標(biāo)準(zhǔn)(Standard)、彈性(Flex)、優(yōu)先(Priority)、批量(Batch)和緩存(Caching)版。其中,彈性推理檔位通過利用非高峰閑置算力資源,提供標(biāo)準(zhǔn)價格五折優(yōu)惠,目標(biāo)延遲為1至15分鐘,但不提供延遲保證。批量API檔位同樣提供標(biāo)準(zhǔn)費率五折優(yōu)惠,延遲最長可達(dá)24小時。緩存檔位計費依據(jù)緩存詞元(Token)數(shù)量與存儲時長,推薦用于搭載復(fù)雜系統(tǒng)指令的對話機(jī)器人、長視頻文件重復(fù)分析,以及大規(guī)模文檔集查詢等場景。優(yōu)先檔位定價則比標(biāo)準(zhǔn)價格高出75%至100%,延遲可控制在毫秒至秒級。谷歌(GOOG)建議該檔位用于實時客服聊天機(jī)器人、實時欺詐檢測及業(yè)務(wù)關(guān)鍵型智能助手等場景。
