【FOCUS】谷歌Gemini驚艷，AI創富聚焦「行動力」

當ChatGPT4獨領風騷、Sam Altman人設如神、微軟股價創下新高……蟄伏多時的谷歌周三（6日）終於以雷霆萬鈞之勢，揭盅下一代AI大模型「王者」－－Gemini 1.0。主打「多模態（multimodal）模型」，文字理解功夫了得，更憑藉同門Youtube海量視頻，練就圖片、音頻、視訊的跨模態（cross-model）分析、推理神技，預示AI競賽下一焦點將從「知識力」晉級至「行動力」。

主打「跨模態」，分析、推理、規劃

　　從Gamil的「幫我寫信」，到Google地圖的沉浸式街景，再到Google相冊的魔法編輯，身為AI先驅的谷歌，自去年11月起就相當憋屈，皆因OpenAI旗下ChatGPT問世搶盡光芒。眼看ChatGPT4上月再下一城推出Turbo版，谷歌5月就預告的Gemini始終只聞樓梯響，直到昨日。

　　被谷歌首席執行長Sundar Pichai稱為「我們迄今為止最強大、最通用模型」的Gemini，1.0版本分為三種尺寸：用於高度複雜任務的Ultra、用於大規模增強效能的Pro、用於行動裝置應用程式的Nano。谷歌指，Gemini Ultra在MMLU（大規模多任務語言理解）基準測試（覆蓋57門專業學科）中，以90.0%得分擊敗GPT4的86.4%，且是首個超越人類專家的大模型。

當輸入「提供三個用兩種顏色製作鈎針作品的主意」，Gemini會規劃出創作主意。

　　但Gemini最讓人驚艷的技能仍是「跨模態」，即同時識別文字、圖片、視訊、語音，並進行分析、推理、規劃。例如，當展示一段人身體後傾、舞動雙臂動作的視頻，Gemini會推理為這是模仿電影「Matrix」的子彈時間鏡頭；當輸入「提供三個用兩種顏色製作鈎針作品的主意」，Gemini會規劃出藍黃耳朵的狗、黃色觸手的藍色水母、黃鼻子的藍貓。

初創融資方興未艾，助升全球生產力

　　伴隨AI大模型的強大進化，通過提問獲取精簡資訊，輸入文本獲取摘要報告，提交指令撰寫簡歷、創作故事等「知識力」技能比拼，將升級至「行動力」之爭。

　　早前獲億萬富翁、NBA球隊班主Mark Cuban垂青的初創公司Bot-it，就利用AI為每個人量身定制音樂會、餐廳、露營、限量運動鞋的自動預定、付款、取消功能。而公司「Automation Made Easy」，正正一語道出AI下半場「行動力」的精要。

AI獨角獸Adept的B輪融資斬獲3.5億美元。

　　看看4月成立的AI視訊生成工具Pika Labs，短短半年獲得融資5500萬美元；類似的還有允許用戶自訂3D角色、並可用於遊戲、電影、電子商務的AI初創公司Character.ai，據報正獲谷歌洽談投資，估值超過50億美元。此外，被視作OpenAI後繼者的Adept AI，旨在為人類建立瀏覽互聯網、使用軟件、指示AI工作等「最好的助手」，獲得英偉達、微軟、SV天使投資等大手投資。

　　據普華永道估算，到2030年，AI料可為全球經濟貢獻15.7萬億美元，其中6.6萬億來自生產力提高，另9.1萬億來自消費端效應。對打工者、創作者、創業者來說，務必僅記：未來取代你的不是AI，而是擅於運用AI的人。

《說說心理話》心理急救II：幾個徵兆辨認身邊人需要心理支援！點樣對情緒進行急救、自我照顧？專家分享穩定情緒小練習► 即睇