03/03/2023

OpenAI惹上官非！Getty Images、程式開發者控告AI公司侵權，引發「合理使用」爭議

#Smart Living #盜版 #智慧生活 #ChatGPT #科技 #AI #版權 #Getty Images #人工智能 #GitHub #合理使用 #Stability AI #科研 #法律爭議 #侵權 #OpenAI #AI訴訟

加入最愛專欄
收藏文章

方展策
方展策
少年時，曾研習 Geographic Information System，可惜學無所成，僥倖畢業。成年後，誤打誤撞進入傳媒圈子，先後在印刷、電子、網絡媒體打滾，略有小成。中年後，修畢資訊科技碩士，眼界漸擴，決意投身初創企業，窺探不同科技領域。近年，積極鑽研數據分析與數碼策略，又涉足 Location Intelligence 開發項目；有時還會抽空執教鞭，既可向他人分享所學，亦可鞭策自己保持終身學習。
智城物語

　　無論是文章、畫作、抑或是影視作品，版權當然是歸屬於創作人。但隨著ChatGPT爆紅後，AI生成內容的數量不斷增加，相應的版權法律問題也開始浮現——抓取網上數據來訓練AI，涉及是否重製內容而侵權、有無合理使用？此爭議不僅引起法律界與學術界的廣泛關注，更觸發了版權持有人與AI業者的衝突。商業圖庫Getty Images公司、程式碼寄存平台GitHub開發者社群已先後告上法庭，指控AI公司侵犯版權，似乎預告著2023年將成為AI訴訟年！

Getty控告Stability AI侵權

　　以ChatGPT為首的生成式AI服務在2022年大爆發，不論是科技大，還是初創公司，均爭相在自家服務嵌入AI技術來優化使用體驗，甚或打包成獨立產品推出市場。目前市場上主流的生成式AI服務，分別為「生成文本」、「繪製圖像，以及「產製程式碼」三大領域。

　　目前引起最大版權爭端的，正是AI繪製圖像服務。Getty Images於2023年1月已在英國倫敦高等法院正式向Stability AI提告；同年2月，更跑到美國德拉瓦聯邦法院發起訴訟。Getty 指控 AI公司Stability AI在未經授權下，複製和使用其圖庫中逾1,200萬幅受版權保護的圖片，以訓練其AI圖像生成模型Stable Diffusion，藉此獲取商業利益，損害原創作者的權益。

　　該公司進一步指出，其圖庫內容高質而多元化，非常適合用來訓練AI模型，故此有提供圖片授權給其他AI業者，惟Stability AI卻從來沒有向Getty尋求授權方案。此舉不但侵犯版權，更違反公平競爭。

Stability AI從互聯網上抓取逾50億幅圖像素材，供其AI模型Stable Diffusion進行數據訓練，當中包括Getty Images圖庫內的圖片。（圖片來源：Stability AI官網）

基於AI模型Stable Diffusion而運作的AI繪圖服務DreamStudio，用戶只要適當的描述文字，就可以快速生成4幅圖片，從中選揀合心意的再作微調。（圖片來源：Stability AI官網）

AI記住訓練圖片再生成復現

　　在訴訟書中，Getty援引Google、Deepmind、蘇黎世聯邦理工學院等多所著名大學的研究人員，於2023年1月聯合發表的研究論文，證明AI圖像生成系統可以記住訓練數據中的圖像樣本，並在生成過程中重新復現出來。

　　Getty提出了Stability AI涉嫌抄襲的明顯證據——Stable Diffusion生成的部分圖像中會呈現扭曲的 Getty浮水印。該公司認為，這樣可能會對其用戶造成困惑。目前Getty已要求法院，勒令Stability AI停止取用其圖庫中的圖片，並作出金錢賠償，當中應包括Stability AI侵權後所獲利潤。

　　有法律專家表示，Getty所提訴訟非常有力，但估計Stability AI可能會以「合理使用」（Fair Use）作抗辯理由——利用他人的作品，在新的框架下創造出新的內容、服務或應用，這樣會被視為「合理使用」原則下的「轉化性使用」（Transformative Use），這樣便不會構成侵害他人版權。不過，在這個未知的法律領域中，最終審判結果如何，著實難以預測。

Getty Images指控Stability AI未經授權，擅自拿取其圖庫內逾1,200萬幅照片來訓練 Stable Diffusion。（圖片來源：翻攝Getty Images官網）

GitHub開發者起訴OpenAI

　　另一宗矚目的AI侵權官司，則是來自AI產製程式碼領域。GitHub與OpenAI取用GitHub平台上，由不同開發者貢獻出來的公開程式碼，用作訓練OpenAI Codex人工智能系統，藉此開發出AI生成程式碼服務GitHub Copilot，讓軟件工程師免去翻查技術文件、尋找程式碼語法的不便，有助加快軟件開發進程。

　　GitHub Copilot於2022年6月正式推出，每名用戶需每月繳付10美元（約78港元）的服務費。同年7月，軟件自由保護組織（Software Freedom Conservancy）公開批評，Copilot擅自把開源（開放原始碼）社群的資產當作牟利工具，可能涉及侵權問題。

　　2022年10月，一名喚作Tim Davis的開發者站出來指控Copilot，並提出證據證明Copilot曾使用其程式碼，因而引起美國律師事務所Joseph Saveri的關注，對此事件展開調查。

　　隨後，Joseph Saveri於同年11月代表GitHub平台上的多名開發者提出集體訴訟，控告Copilot違反《數碼千禧年版權法》（Digital Millennium Copyright Act）、《不公平競爭法》（Unfair Competition Act），以及GitHub私隱聲明與服務條款。

　　GitHub是Microsoft旗下子公司，而微軟又是OpenAI的大股東，加上Copilot是在Microsoft Azure雲端平台上運作，所以Joseph Saveri把微軟連同GitHub與OpenAI一起被列為被告。

由OpenAI與GitHub共同開發的的AI生成程式碼服務，能夠主動偵測程式上下文、分析註解中的文意，進而提出程式碼建議，可以幫助開發者縮短開發時間。（圖片來源：翻攝GitHub Copilot官網）

美國律師事務所Joseph Saveri代表眾多GitHub開發者，對Microsoft、OpenAI與GitHub提出集體訴訟，並向3家被告公司索償90億美元。（圖片來源：翻攝Joseph Saveri官網）

Copilot涉嫌進行大規模盜版

　　儘管開發者擺放在GitHub上的程式碼都是開源的，但使用時仍需獲得特定授權，或要表示其版權歸屬。可是，Copilot既未獲授權，又隱藏了程式碼的歸屬，彷彿這一切全是由Copilot憑空創作出來，然後向其他開發者收取服務費。

　　GitHub開發者社群認為，Copilot擅自取用GitHub上由開發者提供的程式碼來訓練AI模型，不屬於「合理使用」行為，而是以前所未見的規模進行盜版，最終只會把大量開源程式碼封入Copilot的付費牆內，傷害原創作者的權益。

　　根據Joseph Saveri的估算，Copilot推出後已違反《數碼千禧年版權法》達360萬次，以每次違法的最低法定賠償金為2,500美元來計算，向3家被告公司索償90億美元（約702億港元）。

微軟主張原告指控無事實根據

　　面對GitHub開發者社群的控訴，微軟主張原告提出的指控沒有事實根據。2023年1月，Microsoft與GitHub向法院聲請，Copilot侵害版權的指控欠缺兩個重要元素：原告既不能精確敍述Copilot造成的損害權益為何，又沒有辦法提出其他有事實基礎的論點，所以向法院要求駁回訴訟。

　　3家被告公司指出，原告指控Copilot侵犯GitHub開發者版權僅屬理論性假設，認定Copilot輸出的程式碼有可能跟原告發表的程式碼一致，惟卻未有列舉實際例證或有明確姓名的受害者，證明Copilot究竟侵犯了哪些版權。

　　他們更援引Google與Oracle的侵權訴訟案作例子，試圖證明Copilot拿取GitHub程式碼進行AI訓練，屬於「合理使用」範圍。Oracle於2010年控告Google侵犯其Java API軟件版權，案件爭論點在於Google取用歸屬於Oracle的Java API，是否符合「合理使用」原則下的「轉化性因素」（Transformative Factor）。

　　Google主張，他們基於Java API研發出《Android OS》作業系統，創造了全新的Android手機使用體驗，已然屬於「轉化性使用」。最終這個主張被美國最高法院所接納，於2021年判定Google勝訴。

AI案件爭論點：合理使用原則

　　3家被告公司聲稱，Copilot沒有從GitHub開源資料庫中擷取任何程式碼，而是從中學習到編程知識，進而為用戶產出程式碼建議，這已是程式碼的「轉化性使用」。

　　律師事務所營銷顧問公司Esquire Digital的首席法律分析師亞倫·所羅門（Aron Solomon）指出，程式碼的「轉化性使用」必須為改變程式碼本身，或是轉變程式碼的用途。然而，個別案件是否可以「合理使用」受版權保護的數據來訓練AI，還須由法院裁定。

　　Stability AI與GitHub Copilot的侵權案均涉及「合理使用」的爭論點，案情發展現正受到AI業者的密切關注；尤其是Copilot的訴訟，一旦OpenAI輸掉官司，將會成為案例。

　　如此一來，基於OpenAI旗下GPT語言模型、或ChatGPT技術而運轉的AI服務，每提出一個程式碼建議、每產製一張圖片、甚或每生成一篇文案，都有機會因為沒有說明其歸屬於誰、版權和授權條件而違法。這樣很有可能引發外界對OpenAI，或有使用OpenAI技術的公司提出連番訴訟，將會嚴重影響OpenAI，甚至整個生成式AI業界的未來發展！