大模型的安全風險及應對建議
文 | 中國科學院信息工程研究所 虎嵩林
習近平總書記指出:“要重視通用人工智能發(fā)展,營造創(chuàng)新生態(tài),重視防范風險”。近年來,以生成式預訓練大模型(GPT)為代表的生成式人工智能大模型(簡稱“大模型”)迅猛發(fā)展,顯著提升了通用理解和生成能力,但也帶來了前所未有的安全風險。本文在梳理當前大模型的認知應用、信息應用和物理應用三類應用模式的基礎上,分析其對國家安全的沖擊。因此,本文建議建立國家級大模型安全科技平臺,搶占人工智能安全科技制高點,突破大模型安全關鍵技術,培育人才隊伍,助力人工智能安全產(chǎn)業(yè)集群發(fā)展,為人工智能大模型的可持續(xù)健康發(fā)展保駕護航。
一、大模型應用的深度和廣度不斷拓展
隨著大模型及其應用的蓬勃發(fā)展,繼 OpenAI推 出 ChatGPT 之后,國內外科技公司如谷歌、Meta、百度、阿里巴巴、智譜和百川等也迅速跟進,相繼推出了各自的大模型,并積極投入到大模型賦能的新型應用中。參照認知域、信息域和物理域的劃分方法,當前基于大模型的應用主要可以分為三類。
一是認知應用,即基于大模型的信息內容生成應用,涵蓋文本、圖像、音頻、視頻生成以及跨模態(tài)生成,典型的代表如 ChatGPT、Sora、GPT-4o 等。據(jù)量子位智庫測算,2028 年起,我國人工智能生成內容(AIGC)產(chǎn)業(yè)市場規(guī)模將持續(xù)保持高速增長,2030 年市場規(guī)模超萬億。人工智能生成內容將成為認知域的重要組成部分。同時,大模型認知類應用也將成為繼社交網(wǎng)絡和推薦平臺之后,人們獲取信息的新形態(tài),這將深刻影響人類的思想和意識形態(tài)。
二是信息應用,即基于大模型的信息系統(tǒng)指令控制應用,以智能體為典型代表。大模型賦能的智能體能夠訪問網(wǎng)絡、調用應用程序編程接口(API),使用各類信息系統(tǒng)工具,例如電力系統(tǒng)智能體能夠自主理解歷史數(shù)據(jù)、感知實時信息,從而實現(xiàn)電力調度策略的優(yōu)化等。大模型與信息系統(tǒng)的深度融合將對信息域的應用形態(tài)演變產(chǎn)生深遠影響。據(jù)國外調研機構 Markets and Markets預計,2023 年全球自主人工智能和自主智能體(Autonomous Agent)市場的收入規(guī)模超過 48 億美元,到 2028 年有望達到 285 億美元左右(約合2000 億元人民幣)。
三是物理應用,即基于大模型的物理世界行為控制,包括對工業(yè)設備、無人機、機器人等的控制,典型代表如具身智能。人形機器人作為具身智能的一種形態(tài),有望成為人工智能下一個重要落地應用場景。根據(jù)IFR和中國電子學會數(shù)據(jù),盡管人形機器人處于起步階段,但參照其他電子產(chǎn)品滲透率超過 20% 后將爆發(fā)式增長,預計到 2030 年,我國人形機器人市場規(guī)模有望達到約 8700 億元。此外,由人工智能賦能的各類自主武器系統(tǒng)也已經(jīng)投入實戰(zhàn),有望引發(fā)繼火藥和核武器之后的“第三次軍事革命”。從認知應用到信息應用、物理應用,大模型應用的深度和廣度不斷擴展,正在發(fā)展成為人類價值觀和知識的重要載體,以及認知和決策的重要基礎設施。
二、大模型安全風險引發(fā)全球關切
在賦能新質生產(chǎn)力發(fā)展的同時,大模型的安全風險也在全球范圍內引發(fā)了高度關注。計算機領域的國際最高獎項——圖靈獎得主杰弗里·辛頓以及 OpenAI 公司 CEO 薩姆·奧爾特曼等領軍人物,都曾通過聲明或文章聯(lián)名發(fā)出警告,指出這些模型可能帶來的“毀滅性”風險,并將其與流行病以及核戰(zhàn)爭相提并論。此外,《自然》(Nature)雜志預測 2024 年值得期待的重大科學事件:GPT5的發(fā)布和聯(lián)合國人工智能高級別咨詢機構將于 2024 年年中發(fā)布人工智能治理報告,這也反映出全球對統(tǒng)籌發(fā)展和安全的重大關切。我們認為,大模型將在認知、信息和物理三個領域對政治、經(jīng)濟、軍事、文化等總體國家安全觀涉及的各個方面產(chǎn)生沖擊。
一是認知域安全。數(shù)據(jù)污染、模型算法的局限性或者惡意攻擊等因素,都可能導致大模型歪曲正確的價值觀,生成和散播虛假有害信息,誤導人類決策,從而破壞政治、文化等領域的認知安全根基,甚至成為破壞穩(wěn)定的社會操縱工具。
二是信息域安全。大模型正迅速成為智能化時代的基礎底座,其地位類似于數(shù)字化時代“數(shù)據(jù)庫”。如果安全漏洞被惡意利用,可能產(chǎn)生各類非法工具調用和操作,將嚴重威脅信息系統(tǒng)的安全與穩(wěn)定運行。此外,基于大模型的網(wǎng)絡攻防技術的發(fā)展也將加速大模型武器化的趨勢,顛覆現(xiàn)有的網(wǎng)絡和系統(tǒng)安全格局,對信息系統(tǒng)產(chǎn)生破壞性影響。
三是物理域安全。大模型已經(jīng)被廣泛應用于無人機等領域的自動控制以及 FigureAI(與 OpenAI 合作開發(fā)自主通用人形機器人的公司)為代表的具身智能中,成為包括工控設備、武器裝備在內的各類物理系統(tǒng)的“神經(jīng)中樞”。對大模型的惡意利用或安全攻擊,可能引發(fā)設備失控、物理系統(tǒng)損毀,甚至導致嚴重的戰(zhàn)爭災難。
需要強調的是,大模型本身正在從人類可利用的工具客體向認識和改造自然社會的主體轉變。由于其豐富的創(chuàng)造潛力,大模型已被廣泛應用于數(shù)學定理證明、化學研究等科學探索中。在社會層面,《科學》(Science)雜志的政策論壇(Policy Forum)欄目中的一篇文章中提出,人工智能可以在無需人類指導的情況下獨立運營公司,成為具有權利和義務的法律主體,并呼吁為這一新的“物種”制定相應的法律框架。隨著大模型在社會生產(chǎn)和生活各個領域的“主體化”,技術革新將不斷引發(fā)倫理和法律層面的深刻變革。更嚴重的是,一旦機器實現(xiàn)了通用人工智能,擺脫了人類的控制,在認知域、信息域、物理域上自主部署,與各類武器系統(tǒng)連接,并“毫無人性”地指揮殺戮和破壞,這將給人類和地球帶來滅絕式的風險?!罢驹谑致房诘娜祟悺睂⒂瓉砣斯ぶ悄艿摹皧W本海默時刻”。
在大模型基礎設施屬性日益凸顯的智能時代,沒有大模型的安全,就無法保障大模型技術和產(chǎn)業(yè)的健康快速發(fā)展。確?;诖竽P偷臄?shù)字和物理空間應用安全,促使大模型遵循人類價值觀、服從人類意圖,并實現(xiàn)有用性(Helpful)、無害性(Harmless)和誠實性(Honest)3H 多目標的平衡,已經(jīng)成為亟待解決的重大難題。
三、大模型安全科技發(fā)展仍處在起步階段
當前,大模型安全已成為全球共識,并成為大國科技競爭的重要制高點。歐盟發(fā)布《人工智能法案》,提出全面的人工智能分級監(jiān)管機制,開啟了人工智能全球監(jiān)管時代。美國于 2023 年通過行政命令,要求評估人工智能的安全風險。拜登政府已多次與人工智能領域的企業(yè)家和學者會面,并提出了《人工智能權利法案藍圖》。在英國召開的首屆人工智能安全全球峰會上,中國、美國、英國、德國等 28 國及歐盟共同簽署了《布萊切利宣言》,強調了理解和解決人工智能安全問題的緊迫性。我國于 2023 年 7 月發(fā)布《生成式人工智能服務管理暫行辦法》,提出促進創(chuàng)新和依法治理相結合的監(jiān)管原則,以支持生成式人工智能大模型的安全發(fā)展。同時,我國也積極在國際上發(fā)出人工智能治理的中國倡議,提出堅持“智能向善(AI for good)”的宗旨,以不斷提升人工智能技術的安全性、可靠性、可控性和公平性。
(一)大模型安全技術研究尚處于早期發(fā)展階段當前,大模型安全研究尚處于早期發(fā)展階段,涵蓋了眾多的研究方向。這些研究領域包括但不限于生成內容檢測、模型水印、紅隊測試、對齊、越獄攻擊、有害內容識別、隱私保護以及安全理論探析等,且目前尚未形成一個得到廣泛認可的分類體系。從網(wǎng)絡安全角度出發(fā),我們可以將其簡單劃分為安全測評、安全攻擊、風險識別和安全防護四個方面。
一是安全測評。主要目標是測評大模型在預防不良輸出、確保數(shù)據(jù)隱私、消除偏見和保障公平性、防范對抗性攻擊等方面的能力。目前,安全測評基準包括關注有毒和虛假信息的 HELM,聚焦攻擊冒犯、偏見歧視等七個安全維度的 SafetyBench,以及一些專注于某一特定安全維度的評測工作等。
二是安全攻擊。 主要分為“善意”的紅隊測試和惡意攻擊兩種形態(tài)。紅隊測試通過人工或自動化手段與待測大模型進行對抗性交互,以發(fā)現(xiàn)模型的安全風險,主要用于主動測試模型風險和發(fā)現(xiàn)潛在漏洞,常被應用于風險的主動測評和安全對齊。惡意攻擊主要包括越獄攻擊和提示注入攻擊。其中,越獄攻擊利用大模型漏洞,誤導模型輸出有害或不實內容;提示注入攻擊則通過操縱模型輸入,劫持或誘導模型接受攻擊者控制的指令,從而產(chǎn)生欺騙性輸出或泄露信息。盡管提示注入也是越獄攻擊的一種手段,但相比而言,越獄攻擊主要是針對模型,而提示注入的攻擊目標則主要是針對用戶或系統(tǒng)提示。
三是風險識別。當前,生成式內容安全風險識別的常見方法分為判別式和生成式兩種。判別式風險識別主要基于預訓練的小模型來識別生成式有害內容,以 OpenAI 和 Google 的 Moderation 和 Perspective 為代表,這些工具廣泛用于識別有害內容。生成式風險識別則利用大模型自身的能力來判斷生成的有害內容,以基于 GPT-4 的內容審核為代表,旨在提高模型和用戶生成有害內容的發(fā)現(xiàn)效率。風險識別可以服務于數(shù)據(jù)準備階段的有害信息過濾、推理階段的用戶問題和模型生成回復的有害性判別,并且也是安全測評和紅隊測試中自動化有害判別的主要依據(jù)。
四是安全防護。常見的方法包括關注模型內生的安全對齊方法、關注特定知識安全的模型編輯方法、關注外部安全的護欄方法以及關注模型輸出安全的檢索增強方法等。安全對齊主要利用監(jiān)督微調和基于人類反饋的強化學習等方法引導模型對齊人類偏好,以消除模型本身的有害性和幻覺。典型的對齊方法還包括人工智能憲法、面向過程的細粒度對齊、直接偏好優(yōu)化、即插即用對齊、超級對齊和社會對齊等。關注特定知識安全的模型編輯方法旨在不重新訓練模型的情況下,對模型的不安全知識進行更新和修正,主要包括神經(jīng)元編輯、模型層編輯和微調編輯等。關注外部安全的護欄方法則通過分類判別模型對大模型的輸入(用戶請求)和輸出進行不良和不實內容的識別和過濾,以保護模型免受惡意用戶的提示攻擊,并矯正不良或不實內容。關注模型輸出安全的檢索增強方法則通過檢索外部信息來修正大模型生成的內容或約束大模型執(zhí)行的行為。
(二)大模型研究理論和方法等多個層面面臨突出挑戰(zhàn)經(jīng)過近兩年的快速發(fā)展,雖然學術界和工業(yè)界在大模型安全攻擊、風險檢測、安全防護和風險測評方向取得了一定成果,但仍面臨以下難題和挑戰(zhàn)。
一是對大模型安全缺陷的機理缺乏認知。科學界目前對大模型“智能涌現(xiàn)”原理尚缺乏深入理解,也不是非常清楚提示學習、上下文學習、思維鏈等新學習范式的內在機理,這嚴重制約了我們從理論上認知安全缺陷的機理,并防御利用這些新型學習范式進行的各類攻擊。
二是大模型的安全性無理論保障。學界普遍認為無法 100% 保證系統(tǒng)的安全,已有理論證明,對于任意安全對齊的模型,總存在一定長度的攻擊提示可以攻破其安全防護,因此“可安全性”的邊界不明確。
三是大模型當前的安全技術存在局限性。例如,安全對齊的泛化能力遠小于模型的泛化能力,造成泛化能力的失配;模型的預訓練目標與安全對齊目標沖突也會帶來潛在安全風險。主流的基于人類反饋的強化學習也存在錯誤目標泛化和錯誤獎勵管理等突出問題。總體來看,大模型在內在機理、安全理論和技術方法等方面仍存在諸多局限性。如何解決認知域,尤其是信息域和物理域的大模型安全仍面臨重重挑戰(zhàn)。
四、統(tǒng)籌布局建立國家級大模型安全科技平臺
國務院《新一代人工智能發(fā)展規(guī)劃》明確提出,“在大力發(fā)展人工智能的同時,必須高度重視可能帶來的安全風險挑戰(zhàn),加強前瞻預防與約束引導,最大限度降低風險,確保人工智能的安全、可靠、可控發(fā)展”。加強生成式人工智能安全技術研究,搶占科技制高點,為我國大模型安全健康發(fā)展保駕護航,是落實《規(guī)劃》精神的必要舉措,也是國家戰(zhàn)略所需和科技發(fā)展所向。
大模型安全不再像傳統(tǒng)安全那樣僅僅是計算機應用的伴生物,而是需要優(yōu)先構筑的基礎底座。由于大模型能力具有可解釋性差、隨機性強等典型特征,如果沒有這個安全底座,在認知域,尤其是信息域和物理域中,將難以預判和干預各類風險,這將嚴重制約乃至會扼殺應用的推廣,大模型自身也將無法實現(xiàn)可持續(xù)的發(fā)展。
大模型安全研究必然需要大算力、各類用于安全的大數(shù)據(jù)、齊全的主流大模型以及大規(guī)模的認知域、信息域和物理域基礎設施條件。我們將這些需求概括為“四大”:大算力、大數(shù)據(jù)、大模型和大設施。當前,我國大模型企業(yè)面臨國內外人工智能技術的激烈競爭和推廣應用的巨大壓力,切近的發(fā)展目標與需要大規(guī)模投入的安全目標之間難以有效協(xié)調,企業(yè)間的市場競爭也使得安全能力的共創(chuàng)和共享難以實現(xiàn)??平虇挝灰矡o力獨立建設“四大”條件。因此,亟需國家層面介入,以統(tǒng)籌發(fā)展與安全,落實國務院發(fā)展規(guī)劃精神,部署前瞻性的第三方國立研究隊伍,匯聚國內各方優(yōu)勢力量,測繪“安全風險”,推動技術突破,以支撐“前瞻預防與約束引導”,并有效助力第三方大模型安全企業(yè)的成長。建議發(fā)揮新型舉國體制優(yōu)勢,統(tǒng)籌布局、加快推動生成式人工智能安全科技發(fā)展,建立國家級生成式人工智能安全平臺,推動形成發(fā)展與安全協(xié)同并進、相互促進的良好循環(huán)態(tài)勢。
一是盡快建設國家級開放式大模型安全科技平臺。搭建國家級的統(tǒng)一算力支撐平臺,提供統(tǒng)一數(shù)據(jù)服務,支持國產(chǎn)商用大模型和國內外開源大模型的統(tǒng)一部署,建設統(tǒng)一的認知、信息和物理安全所需的基礎設施。同時,建設開放的大模型安全“攻檢防”一體化平臺,不斷評測并集成各類先進的“攻檢防”算法、工具和數(shù)據(jù),為科學現(xiàn)象觀察、分析研究和實驗提供基礎環(huán)境,為突破生成式人工智能內生安全缺陷機理和新型安全理論等科學難題,取得重要技術突破和引領性原創(chuàng)發(fā)現(xiàn)創(chuàng)造條件,并為我國大模型安全漏洞挖掘防護、技術發(fā)展和產(chǎn)業(yè)孵化等提供堅實的平臺環(huán)境支持。
二是匯聚、選拔和培育大模型安全人才隊伍。匯聚優(yōu)質產(chǎn)、學、研、用各界資源,通過舉辦國家級大模型安全大賽等形式,選拔在攻擊、風險發(fā)現(xiàn)、安全防護等領域具有優(yōu)勢的隊伍,深度融合產(chǎn)、學、研、用的大模型安全和發(fā)展需求,培養(yǎng)更多具備前瞻性和實戰(zhàn)能力的生成式人工智能安全專家,為我國生成式人工智能安全領域的發(fā)展提供堅實的人才支撐。
三是助力人工智能安全產(chǎn)業(yè)的企業(yè)集群發(fā)展。基于大模型安全的關鍵核心技術突破,打通科技轉化價值鏈,助力“專精特新”硬科技企業(yè)的創(chuàng)業(yè)與發(fā)展,打造人工智能安全產(chǎn)業(yè)的企業(yè)集群,加強人工智能技術和應用發(fā)展產(chǎn)業(yè)與安全產(chǎn)業(yè)的協(xié)同,營造安全的人工智能發(fā)展生態(tài),助力我國人工智能技術及其賦能的“新質生產(chǎn)力”安全、可持續(xù)發(fā)展。建議加快制訂統(tǒng)籌生成式人工智能發(fā)展與安全的具體舉措,采取多措并舉的策略,充分利用我國在人工智能科技發(fā)展的政策優(yōu)勢、當前生成式人工智能研究和產(chǎn)業(yè)化基礎,以及巨大的市場空間和規(guī)?;瘧脻摿Γ龠M生成式人工智能安全科技與產(chǎn)業(yè)發(fā)展,為解決全球人工智能安全和治理貢獻中國智慧和中國力量。
(本文刊登于《中國信息安全》雜志2024年第6期)