加入最愛專欄  收藏文章 

2023-03-20

AI再進化!GPT-4智商更勝ChatGPT!輸入圖片即可生成內容,律師資格考試擊敗9成考生!

  背靠GPT-3.5大型語言模型的ChatGPT,2022年11月底面世後有如一石激起千層浪,令生成式AI熱潮席捲全球。想不到短短4個月後,AI研究實驗室OpenAI便釋出第四代模型「GPT-4」,技術上進一步拋離其他大型語言模型。微軟亦隨即宣布,Bing搜尋引擎已同步採用GPT-4,讓Google在AI搜尋賽道上瞠乎其後。到底GPT-4比起GPT-3.5有何改進之處?功能更強大的GPT-4又是否一個已臻完美的AI模型呢?

 

第一代GPT模型2018年誕生

 

  ChatGPT名字中的「GPT」,是「Generative Pre-trained Transformer」的縮寫,中譯為「生成式預訓練變換模型」。這是由Google Brain研發出來的深度學習模型架構,專用來處理自然語言;OpenAI正以此為基礎,創造了GPT模型,迄今已經歷四代演進。

 

  第一代GPT模型於2018年6月橫空降世,能夠判斷兩個句子之間的語意和關係、對文本資料進行分類、並能夠解答一般常識和推理問題,但當時模型接受訓練的數據參數僅有1.17億項,相對較少,所以不算是好的對話式AI模型。

 

  第二代GPT-2模型是基於初代模型直接擴展而成,可說是GPT-1的加強版。它在2019年2月發表,被定位為「通用型AI」,不針對單一知識領域進行專門訓練,而是學習各式各樣的常識,訓練參數達到15億項,是上一代的10倍以上。GPT-2已能夠回答問題、翻譯文字,並生成文本輸出。它輸出的文字開始近似人類語氣,惟生成較長段落時卻可能出現重複或無意義的內容。

 

Read More︰趁ChatGPT強勢崛起!OpenAI狂推AI生成工具、投資AIGC初創,掀起人工智能創投浪潮!

 

GPT-3.5搭ChatGPT掀熱潮

 

  來到第三代的GPT-3,訓練參數較GPT-2暴增117倍,超過1750億項,技術上也有飛躍進步,2020年6月釋出給開發者試用。它能夠辨識資料中隱藏的含義,並運用從數據訓練中獲得的知識來執行任務;換言之,就算要處理從未接觸過的事物,它也能夠理解並作出適當的回應。

 

  GPT模型發展至第三代,終於展現出商業應用上的實用性。可是,2020年正值新冠疫情高峰期,此AI技術突破並沒有引起社會的太大關注。再者,GPT-3不像ChatGPT般能夠輸出自然對話,所以只有部分開發者和廠商對它感興趣。同年9月,微軟(Microsoft)宣布取得GPT-3的獨家授權。

 

  2022年11月底,OpenAI發表GPT-3的優化版本「GPT-3.5」,並搭配聊天機械人「ChatGPT」一併推出,憑著其接近人類對話與思考方式的特點,瞬即吸引全球目光,掀起生成式AI熱潮。GPT-3與GPT-3.5的主要分別在於,前者只是蒐集和使用互聯網上的資料進行訓練,後者則會利用人類的回應和反饋,執行強化學習來自我訓練。

 

GPT-4可處理2.5萬字長內容

 

  距離ChatGPT爆紅還不到4個月的時間,Open AI於2023年3月14日突然發布更具突破性的GPT-4,開放給ChatGPT Plus付費訂戶和軟件開發者使用。OpenAI沒有披露GPT-4模型受訓參數的數量,只表示2022年8月已經完成訓練,之後便不斷進行微調改進,務求令其數據處理與理解能力大幅提升。

 

  GPT-4能夠處理多達25,000字的內容,足足是GPT-3.5+ChatGPT的8倍以上。它容許用戶輸入更長內容,進行長篇文章翻譯或編寫摘要。更重要的是,這樣意味著GPT-4擁有更強的記憶力。

 

GPT-4最實用的改進之處是,把文字輸入限制提高至2.5萬字,所以能夠理解更長的上下文,作出更準確的回應。(圖片來源:翻攝OpenAI官方YouTube影片)

 

  其實,ChatGPT有時表現不佳的主要原因是,用戶最初提出的訴求,在一定長度的談話後,便會被後來的對話內容所覆蓋,讓AI無法把握完整的上下文來作出分析,致使回覆偏離討論主題。因此,當GPT-4能夠記住25,000字的內容,AI就能夠長時間監看與用戶的對話內容,給出更精確的答案。

 

GPT-4能解讀圖像再作出回覆

 

  更教人驚喜的是,GPT-4已升級為多模態(Multimodal)的AI模型,同時支援圖像與文字輸入來生成內容,打破ChatGPT只能鍵入文本提示的限制。它能夠在理解圖像內容後,給予用戶建議,達到「看圖說故事」的效果。

 

用戶可以向GPT-4輸入圖片,要求回應。例如以下圖片顯示了雞蛋、麵粉、牛奶等食材,它在分析圖片後,便會告訴用戶利用這些食材可以製作甚麼甜品。(圖片來源:OpenAI官網)

GPT-4被問到假如剪掉以下圖片中的繩子,將會發生甚麼事?它懂得回答圖中的氣球將會飛走。由此可見,GPT-4在理解圖片內容後,已能作出邏輯推理。(圖片來源:翻攝OpenAI官方YouTube影片)

 

Read More︰ChatGPT爆紅!AI問答解惑、寫論文、寫程式統統辦得到!有望取代Google搜尋霸主地位?

 

  在GPT-4上輸入的圖像可以是相片、圖表、屏幕截圖、甚至是手繪草圖。OpenAI共同創辦人格雷格.布羅克曼(Greg Brockman)在GPT-4的直播演示中,拍攝其筆記簿上一幅手繪的網頁設計草圖,然後上傳至GPT-4,AI隨即生成對應的網頁程式碼。他認為,這將會大幅改變網站設計模式。

 

OpenAI共同創辦人Greg Brockman輸入一張手繪的網站設計草圖,GPT-4即能自動生成網頁程式碼,網站介面布局幾乎跟手繪草圖一模一樣。(圖片來源:翻攝OpenAI官方YouTube影片)

 

  此外,GPT-4甚至連迷因惡搞圖也能夠解讀。例如,一幅來自Reddit討論區的惡搞圖,顯示iPhone插著VGA連接器,GPT-4能夠辨識並描述圖片的幽默之處:將舊款VGA連接器插進新型智能手機是很滑稽的。目前GPT-4圖像輸入功能仍處於開發者預覽版本,暫不對外開放,OpenAI未有透露開放時間表。

 

GPT-4能夠解讀以下惡搞圖的內容,準確地指出過時的VGA連接器插入新型智能手機的充電端口,是滑稽之舉。(圖片來源:OpenAI官網)

 

GPT-4律師資格考試名列前茅

 

  除超凡的理解能力外,GPT-4更擁有優秀的推理能力。OpenAI聲稱,GPT-4在很多專業考試的表現已直逼「人類水平」(Human-level Performance)。為求證明此事,OpenAI安排GPT-4參加多項人類考試,包括律師資格考試(Bar examination)、美國大學入學的SAT測驗、以及國際生物奧林匹克(International Biology Olympiad)等,結果統統交出驕人的成績單。

 

  OpenAI表示,GPT-4在律師資格考試中的答題表現位列前10%,即是可以勝過90%的考生;GPT-3.5的成績則落在後10%。GPT-4在SAT閱讀考試中成績位居前7%,在SAT數學考試中則排名前11%。至於在生物奧林匹亞競賽中,GPT-4的成績排名更高踞前1%,擊敗99%的參與者。

 

  為測試GPT-4的語言水平,OpenAI利用Azure Translate把評核AI理解能力的「MMLU」基準測試繙譯成不同語言,讓GPT-4作答。結果發現,GPT-4英文答題的正確率高達80.5%,中文答題正確率亦達到80.1%,日語和韓語答題正確率則為70%至80%,可見GPT-4展現出極高的多國語言能力。

 

MMLU(Multi-task Language Understanding)基準考試包含14,000條試題,涵蓋 STEM、人文、社會科學等57個學科。結果GPT-4幾乎以10%以上差距擊敗其他大型語言模型,包括Google旗下的PaLM。(圖片來源:OpenAI官網)

 

Read More:全球首位AI律師出庭!耳邊即時提示幫你打官司,律師將是下一個被AI取代的職業?

 

GPT-4仍有幻覺,不完全可靠

 

  縱然GPT-4在技術上已有長足進步,但OpenAI執行長山姆.奧特曼(Sam Altman)卻坦承,「它仍然是有缺陷的。」GPT-4依舊有GPT-3.5的「幻覺」(Hallucination)問題,有時會捏造資訊,生成與事實不符的回覆;即使有用戶指出其答案出錯,GPT-4會傾向堅持自己是對的。

 

在SAT、GRE、AP等公開考試中,GPT-4大部分的成績(綠色部分)均優於GPT-3.5(藍色部分)。(圖片來源:OpenAI官網)

 

  不過,OpenAI強調,他們額外花了6個月時間來調整模型,並在數據訓練過程中納入更多人工回饋訓練,以減輕GPT-4的幻覺問題。在OpenAI的對抗性測試評估中,GPT-4陳述事實回應(Factual Responses)的可能性提高40%,回答不允許內容請求的可能性則降低82%。因此,GPT-4比起GPT-3.5算是較為可靠,但OpenAI仍警告不宜盡信GPT-4給出的答案。

 

Read More︰你的工作會被ChatGPT取代嗎?生成式AI入侵各行各業,未來不懂用AI的人有可能被淘汰?

 

  GPT-4的另一缺憾是,其受訓數據也像GPT-3.5般只更新至2021年,對於這個時間點以後的事情,它就無法作出回應。幸好,OpenAI發表GPT-4後不久,微軟便宣布Bing AI搜尋引擎已同步升級使用GPT-4模型。大家只要透過Bing向GPT-4提問,它也能夠回答2022年或以後發生的事情。

 

AI市場規模超過3000億美元

 

  OpenAI在短時間內推出功能更強大的GPT-4模型,代表著其開發團隊正以極高速度引領AI技術變革,迫使Google等競爭對手要投放更多資源來奮起直追。這樣有助加快AI的研發進程,並造就市場百花齊放的局面,實現AI全面普及。

 

現有ChatGPT用戶如想體驗GPT-4的強大功能,只要升級為ChatGPT Plus訂戶,乖乖付上20美元(約156港元)的月費便可以了 。(圖片來源:OpenAI官網)

 

  根據OpenAI提供的資料,美國投行摩根士丹利(Morgan Stanley)現已運用GPT-4來整理金融數據,電子支付方案商Stripe亦嘗試用GPT-4協助打擊詐騙;同時,網上教育機構可汗學院(Khan Academy)、網上語言學習平台Duolingo、以及冰島政府也有使用GPT-4 來輔助營運。由此可見,生成式AI已開始在企業和政府逐步落地應用。

 

投資顧問經常要瀏覽大量金融資料,以回覆客戶提問,但這樣做卻相當費時失事。因此,摩根士丹利現正探索如何利用GPT-4來整理金融資料,以提高分析效率。(圖片來源:OpenAI官網)

 

  國際市調機構IDC分析指,引進AI速度較慢的企業,無可避免地會落後於競爭對手。IDC預估,2023年全球對AI系統的支出將增加27%,達至1540億美元(約1.2兆港元);之後每年增長率將維持27%,及至2026年總支出可望超過3000億美元(約2.3兆港元)。

 

 

 《經濟通》所刊的署名及/或不署名文章,相關內容屬作者個人意見,並不代表《經濟通》立場,《經濟通》所扮演的角色是提供一個自由言論平台。

《說說心理話》心理急救II:幾個徵兆辨認身邊人需要心理支援!點樣對情緒進行急救、自我照顧?專家分享穩定情緒小練習► 即睇

更多智城物語文章
你可能感興趣
#Smart Living #AI #GPT-4 #ChatGPT #OpenAI #聊天機械人 #推理能力 #律師資格考試 #MMLU #Sam Altman
編輯推介
即時報價
全文搜索
Search
最近搜看
回顧24 展望25
大國博弈
More
Share