AI 模型也會中毒?黑客從源頭污染資料 ,讓AI生成錯誤回應!政府、企業該如何應對這場AI信任危機?

AI 模型也會中毒?黑客從源頭污染資料 ,讓AI生成錯誤回應!政府、企業該如何應對這場AI信任危機?

方展策
智城物語

  當大家愈來愈依賴生成式 AI搜尋資料、撰寫報告、甚至作為決策參考時,有沒有想過其回覆內容是否真實可靠?AI因自身的幻覺問題,偶爾會生成局部虛構答案,但隨著黑客開始將攻擊目標轉移至AI模型,施以資料投毒等攻擊手段,AI胡言亂語的頻率或許會因此而大增。當 AI應用逐漸滲透至醫療、法律、金融、軍事等重要領域,任何虛假資訊都有可能誘發嚴重災難。究竟各國政府、企業、AI業者是否已準備好應對這場「AI中毒」危機?

 

Read More

AI覺醒時刻?OpenAI o3拒絕關機,Claude 4以醜聞威脅工程師!我們真的控制得了AI嗎?

AI代理強勢崛起!Claude Cowork攻入法律、財務核心流程,SaaS軟件業面臨結構性崩潰?

 

AI模型訓練期間難辨資料真偽

 

  要理解 AI 為何會中毒,必須先回到模型訓練的本質。AI依賴其背後的大型語言模型(Large Language Model),模型運作原理是從海量文本中學習字詞與字詞之間的統計關聯性,並在推論時根據這些關聯性預測下一個最可能出現的詞語,以組成最終答案。這個機制本身沒有「理解真偽」的能力,只有「辨識規律」的能力。換言之,模型是甚麼資料都吃的,不懂得判斷輸入資訊是否正確,只會忠實地從中提煉規律。

 

  訓練資料的規模龐大,是第二個結構性弱點。ChatGPT、Gemini 等主流模型均以數以兆計的網頁文本進行數據訓練,資料來源涵蓋維基百科、新聞網站、網上討論區、學術論文、以至各類公開網頁內容。這意味著AI開發商難以對每一筆資料進行人工審核。當訓練資料的邊界等同於整個互聯網,任何人都有機會在其中埋下惡意種子。

 

AI 模型也會中毒?黑客從源頭污染資料 ,讓AI生成錯誤回應!政府、企業該如何應對這場AI信任危機?

Anthropic究指出,無論6億抑或130億參數的AI模型,只要250份惡意文件,便能毒害個模型。(圖片來源:Anthropic官網)

 

攻擊AI模型成本低至60 美元

 

  第三個弱點在於攻擊成本極低、門檻卻出乎意料地低。蘇黎世聯邦理工學院電腦科學助理教授弗洛里安·特拉默(Florian Tramèr)的研究團隊,曾以60 美元(約468港元)購買數千個過期網域,以控制大量網頁內容,然後從中注入錯誤資訊,藉此影響抓取這些網頁作為訓練資料的 AI 模型。即使AI開發商意識到這個問題,也無法從數以兆計的訓練資料中找出錯誤資訊。惡意內容甚至可以偽裝成正常文章,只在特定觸發條件下才顯現異常;這種隱蔽性使得數據清洗工作形同大海撈針。

 

  OpenAI主要對手Anthropic 在 2025 年10 月發布的研究,對「AI中毒」做了相當直接的驗證:研究人員發現,只要在訓練資料中注入 250 份惡意文件,就能在 6 億到 130 億知識參數的模型中成功植入後門;而攻擊是否成功,取決於惡意樣本的絕對數量,而不是它佔整體資料集的比例。這個發現之所以重要,是因為它打破很多人對大型模型安全性的直覺:模型大,並不等於較難中毒;資料多,也不等於少量惡意樣本就會被稀釋。  

 

AI模型訓練期間難辨資料真偽

 

  AI 中毒的影響,遠不只是輸出幾行亂碼那麼簡單,直接損害是決策品質的崩潰。2024 年底,澳洲政府委託全球四大會計師事務所之一的德勤(Deloitte),撰寫一份涉及社會福利政策的研究報告。有學者發現,報告中引用了根本不存在的學術論文,以及子虛烏有的聯邦法院判決。後來調查結果確認,德勤部分內容是由OpenAI GPT-4o 生成,並未有進行嚴謹的事實查核。事後 Deloitte 被迫退還部分諮詢費,其聲譽更因此而嚴重受損。

 

  社會信任的侵蝕是最難量化、最難挽回的損失。當 AI 被整合進法律諮詢、醫療診斷、政府報告等高度敏感的場景,一次被揭發的造假事件,可能讓整個產業的公信力倒退數年。誠如澳洲工黨參議員黛博拉·歐尼爾(Deborah O'Neill)在 Deloitte 事件後的諷刺言論:「或許政府機構應直接訂閱 ChatGPT,而非聘請大型諮詢公司。」這句玩笑背後,是對「付費即信任」舊有邏輯的根本質疑。

 

AI 模型也會中毒?黑客從源頭污染資料 ,讓AI生成錯誤回應!政府、企業該如何應對這場AI信任危機?

針對Deloitte事件,澳洲參議員歐尼爾戲言,政府機構「或許該直接訂閱 ChatGPT,而非聘請大型諮詢公司」,並要求日後提交給澳洲政府的任何報告,都要明確披露有否使用 AI參與撰寫。(圖片來源:維基百科)

 

低質數據訓練促使AI認知退化

 

  對企業而言,AI 中毒的後遺症還包括高昂的修復成本。當大型語言模型長期由低質數據進行訓練,可能會出現認知退化,即是所謂「認知漂移」(Cognitive Drift)。退化後的模型會跳過邏輯推理步驟,以武斷猜測取代嚴謹推導,生成誤導性回覆。要重新訓練受污染的模型不僅耗費巨大的運算資源與人力,而且結果仍可能不完美,因為低質數據造成的損害屬於「持續性表徵漂移」,難以透過簡單的再訓練完全逆轉。

 

  面對如此複雜的威脅情況,AI業界、學術界與監管機構正從不同角度嘗試建立防線,但目前坦白說,仍沒有萬無一失的解方。最根本的防禦從源頭著手。資料驗證是核心手段——在訓練前對資料集進行分析,識別惡意、可疑或異常資料。但如前所述,惡意文件的隱蔽性使這項工作極為困難。更實際的做法是實施最低權限原則,嚴格限制能夠修改訓練資料的人員與系統範圍;同時多元化資料來源,降低單一被污染來源的影響力;並建立完整的監控與稽核機制,記錄每一筆資料的存取與修改歷程。

 

設置人工核查與引用驗證流程

 

  Deloitte 事件最深刻的教訓是:技術安全無法取代人類的專業判斷。德國聯邦資訊安全辦公室(BSI)明確警告,在企業敏感業務領域不加驗證而使用 AI,將造成日益嚴重的安全風險,因此建議法律、財務、政府諮詢等高風險領域必須設置人工事實核查與引用驗證流程。

 

  對企業而言,這意味著必須建立一套三層防護機制:合約層面明確規定 AI 使用披露要求與驗證標準;治理層面設立 AI 治理委員會審核外包諮詢成果;教育層面則投資員工培訓,使其具備辨識 AI 生成內容典型特徵的能力。

 

AI 模型也會中毒?黑客從源頭污染資料 ,讓AI生成錯誤回應!政府、企業該如何應對這場AI信任危機?

在一次實驗中,特拉默的研究團隊購入數以千計的過期網域,並將網頁的部分圖片換成錯誤內容,例如色情圖片,結果發現成功干擾 AI模型的資料訓練。(圖片來源:ZISC官網)

 

AI監管法規框架逐步成形中

 

  監管層面,歐盟《人工智能法案》(AI Act)已明確將資料中毒列為網絡攻擊的一種形式,要求 AI 開發者實施對應的安全控制。美國國家標準暨技術研究院(NIST)則提出「人工智能風險管理框架」(AI RMF),將 AI 風險管理分為治理、映射、量測與管理四大核心功能;它要求企業從 AI 生命週期的初始階段就進行風險識別,並建立持續監控機制。

 

  AI 模型的中毒危機,是技術進步必須承受的風險。隨著 AI 深入到我們的手機、商務流程、甚至是政府決策中,確保數據的「乾淨」與「可驗證性」已成為當代最重要的基礎設施建設。對於政府、企業與用戶而言,在使用AI時保持適度的懷疑與警覺,可說是在這片未知森林中生存的唯一法則。

 

Add a comment ...Add a comment ...
最新
人氣
etnet TV
財經新聞
評論
專題透視
生活
DIVA
健康好人生
香港好去處

Comment

暫無回應

最新
人氣
etnet TV
財經新聞
評論
專題透視
生活
DIVA
健康好人生
香港好去處