08/12/2023
Google最強AI模型來襲!Gemini搶攻企業、消費者、手機3大領域,建立完整AI生態圈碾壓ChatGPT!
OpenAI憑藉ChatGPT躍居為生成式AI市場的領頭羊,AI界老大哥Google當然不甘於落後,本月初發表號稱最強的大型語言模型「Gemini」,不但在32項AI測試中有30項評分超越 GPT-4,還可以同時辨識與理解文字、聲音、圖片與影片。Google更一口氣推出3個不同版本模型,涵蓋企業應用、消費者應用、以及智能手機3大層面,似乎想一舉翻盤,奪回生成式AI的話語權。
Gemini多模態設計可理解手繪圖畫
2023年5月舉行的Google I/O開發者大會上,該公司發表了新一代大型語言模型「PaLM 2」,具備更強的邏輯推理、數學和編程能力,並支援逾100種語言,為Google聊天機械人Bard提供最強「大腦」,但仍不足以壓倒ChatGPT與其背後的GPT-4模型。
7個月後,Google在12月6日再發表另一組更強大的AI模型「Gemini」。它是原生設計成多模態(Multimodal)的模型,從一開始就接受不同模態資訊(包括文字、圖像、音訊)的數據訓練,故此能夠同時理解和操作文字、圖片、影片、程式碼等多元形式內容,並能夠正確解答有關數學和物理的複雜問題。
在Google提供的示範影片中,測試人員拿出一個鴨子玩偶,將之擠壓並發出響聲,然後詢問Gemini這個玩偶能否浮在水上。Gemini回應指,它能夠發出聲音,那麼它一定可以浮起來。由此看來,Gemini可藉由聲音和畫面判斷鴨子內藏空氣,並理解含有空氣的物體能夠浮在水上的原理。(圖片來源:翻攝Google官方影片)
測試人員拿著2張線條簡單的手繪汽車圖畫,詢問Gemini哪輛車會行駛得比較快,結果Gemini回答右方那輛會較快,因其外形較為符合空氣動力學設計。(圖片來源:翻攝Google官方影片)
測試人員以雙手動作模擬蝴蝶,Gemini能夠認出這是展翅中的蝴蝶,足證Gemini具有分辨人類手勢意思的能力。(圖片來源:翻攝Google官方影片)
Gemini分設3個版本針對不同場景
為求靈活部署在不同應用場景,Gemini設有大中小3個版本:規模最大、功能最強的為「Gemini Ultra」,可以部署到大型數據中心和企業應用方案中,執行高度複雜任務,將於2024年初開放給企業使用。Google宣稱,在32項學術基準測試中,Gemini Ultra有30項評分高過GPT-4;其中MMLU(Massive Multitask Language Understanding)測試更達到90%水平,成為首個得分超越人類專家的AI模型。
Gemini模型分為Ultra、Pro、Nano大中小三個版本,最小的Nano可以直接安裝手機上。(圖片來源:翻攝Google官方影片)
「Gemini Pro」屬中等規模的模型,為最靈活通用的版本,現已跟Bard整合,提供更高質的文案生成能力;自12月13日起,開發者可以透過Google Cloud Vertex AI或AI Studio上提供的Gemini API,把它導入到消費級應用軟件中。
Gemini採用Google自行研製的TPU晶片進行數據訓練,圖中為由Cloud TPU v5p所組成的超級電腦。(圖片來源:Google官方網誌)
Gemini Nano可塞入手機離線運作
「Gemini Nano」則為規模最小的模型,可以塞進Android流動裝置上,現已開放給開發者申請使用,創建各款生成式AI手機APP。Google Pixel 8 Pro手機已升級內建此模型,成為市場上第一款嵌入AI模型的智能手機。
在Gemini Nano支援下,Pixel 8 Pro可以一鍵完成會議或訪問錄音內容的摘要,即使在離線狀況下仍能使用;啟動Gboard智能回覆功能後,AI可以根據收到的Whatsapp短訊,給予回覆建議,為用戶節省打字時間。
Google欲以通路優勢壓倒OpenAI
綜觀以上布局,Google似乎不是要從技術層面壓倒OpenAI,而是要搶佔AI企業應用、AI消費者應用、以及AI手機應用3大市場板塊,意圖建立完整的Google AI生態圈,將ChatGPT排除在外。
Bard聊天機械人於2023年2月面世至今,始終未能動搖ChatGPT的龍頭地位,後者依然是全球用戶首選的AI工具,讓Google明白到繼續拿Bard跟ChatGPT單挑,勝算著實不高,於是今次改為推出3個全新AI模型進駐不同通路,希望以本身完整的通路優勢碾壓ChatGPT。
Google旗下企業和消費者雲端應用Google Workspace,提供Gmail、Google Calendar、Google Drive、Google Docs、Google Sheets、Google Slides等多種協作和文書處理工具,企業客戶高達800萬以上,全球用戶數更超過30億。至於採用《Android OS》的智能手機,全球也有15.7億部。
OpenAI推GPT Store自建生態圈
由此可見,Google手握極為廣闊的發行通路,只要把Gemini導入Google Workspace和Android手機,短時間內即可觸及數以億計的用戶;當龐大的用戶群建立起來後,開發者就會蜂擁而上,爭相利用Gemini創建各式各樣的AI應用;當AI工具選擇變得更多元化後,又會吸引更多用戶加入,令用戶群進一步壯大起來。如此一來,Gemini便有機會一舉超越ChatGPT,成為市場上最多人使用的AI模型。
當然,OpenAI亦深知自己欠缺通路優勢,所以在2023年11月發表「GPT Store」計劃,容許開發者利用GPT Builder創建針對特定用途的ChatGPT,然後放上GPT Store發售,藉此建立自家的AI生態圈。不過,原定11月底開張的GPT Store,因受到近期OpenAI的宮鬥風波影響,推出時程將延後至2024年初。
觀乎Google已有現成通路可供Gemini作廣泛滲透,OpenAI則要由零開始建立自家通路,開局上顯然是前者穩佔上風,但最終勝負還要看GPT Store開幕後的市場反應如何。
樂本健【年度感謝祭】維柏健及natural Factors全線2件7折► 了解詳情