【ITBEAR】9月19日消息,演講嘉賓 |馮景輝
編輯 |蔡芳芳
策劃 |AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)
大模型以其更智能、不確定和不可解釋的特點(diǎn),給安全領(lǐng)域,尤其是內(nèi)容安全帶來了更大的挑戰(zhàn)。百度在打造文心一言之初就意識(shí)到,傳統(tǒng)的內(nèi)容審核技術(shù)無法從根本上滿足大模型內(nèi)容安全的需求。因此,我們必須從頭開始構(gòu)建一套全新的方法。在不久前舉辦的 AICon 全球人工智能開發(fā)與應(yīng)用大會(huì)上,百度安全平臺(tái)副總經(jīng)理馮景輝發(fā)表了專題演講“百度大模型原生安全構(gòu)建之路”, 分享聚焦于百度在過去兩年百度安全平臺(tái)團(tuán)隊(duì)在大模型內(nèi)容安全領(lǐng)域遭遇的挑戰(zhàn)和問題,以及團(tuán)隊(duì)嘗試過的解決思路和應(yīng)對(duì)方法,涵蓋數(shù)據(jù)清洗、內(nèi)生安全與安全對(duì)齊、安全圍欄建設(shè),以及應(yīng)用安全與基礎(chǔ)模型安全等方面。
以下是演講實(shí)錄(經(jīng) InfoQ 進(jìn)行不改變原意的編輯整理)。
今天,我想與大家分享百度在過去兩年中,如何在開發(fā)大模型的過程中確保安全性的故事。早期當(dāng)大模型遇到敏感問題時(shí),,它通常會(huì)建議我們換個(gè)話題。在過去兩年里,我們一直在不斷優(yōu)化,解決模型生成過程中出現(xiàn)的各類安全性問題,同時(shí)也在提升用戶體驗(yàn)。在下面的圖中,我們可以看到,即使是其他公司的模型也經(jīng)常會(huì)遇到需要用戶重新提問或直接拒絕回答的情況。然而,最近在使用文心一言時(shí),我們發(fā)現(xiàn)它已經(jīng)開始用更積極的角度引導(dǎo)用戶正確看待敏感問題,這在很大程度上改善了用戶體驗(yàn)。
今天,我將討論四個(gè)方面的問題。首先,我們會(huì)回顧一下大型模型面臨的安全挑戰(zhàn)。接著,我們將探討我們是如何逐步演進(jìn),以確保大模型的安全性。然后,我們將深入討論今天的主題——原生安全之路。我們將解釋什么是原生安全,以及我們是如何實(shí)現(xiàn)它的。最后,會(huì)簡要介紹一些我們最近在智能體和 agent 安全領(lǐng)域遇到的課題。
大模型安全的挑戰(zhàn)
大模型的安全性挑戰(zhàn)貫穿其整個(gè)生命周期,我們將其與安全相關(guān)的部分分為三個(gè)階段:訓(xùn)練階段、部署階段和運(yùn)營階段。
在訓(xùn)練階段,確保訓(xùn)練數(shù)據(jù)的安全至關(guān)重要。我們需要采取措施來保護(hù)數(shù)據(jù)不被泄露或?yàn)E用,因?yàn)檫@些數(shù)據(jù)往往是模型學(xué)習(xí)的基礎(chǔ),并且可能包含敏感信息。
進(jìn)入部署階段,我們面臨的挑戰(zhàn)是如何在模型部署和推理過程中保護(hù)模型參數(shù)和文件不被泄露。這包括確保模型文件在存儲(chǔ)和傳輸過程中的安全性,以及在運(yùn)行時(shí)防止未授權(quán)的訪問。
最后,也是今天討論的重點(diǎn),是在運(yùn)營階段我們會(huì)遇到的問題。這個(gè)階段涉及模型與用戶交互的安全性,包括但不限于防止惡意輸入、處理敏感請(qǐng)求以及確保用戶數(shù)據(jù)的隱私保護(hù)。在這一階段,我們需要不斷地監(jiān)控和更新模型,以應(yīng)對(duì)新出現(xiàn)的安全威脅和挑戰(zhàn)。
大模型訓(xùn)練階段的安全挑戰(zhàn)
在大模型的訓(xùn)練階段,我們面臨的安全挑戰(zhàn)主要涉及訓(xùn)練數(shù)據(jù)的選擇、數(shù)據(jù)的血緣分析以及模型質(zhì)量的評(píng)估。首先,訓(xùn)練數(shù)據(jù)的選擇至關(guān)重要,因?yàn)樗粌H決定了模型的性能,還影響著模型的安全性。我們希望模型能夠提供正確價(jià)值觀的回答,同時(shí)保持創(chuàng)新性和多樣性。因此,在數(shù)據(jù)選擇時(shí),我們需要清洗掉不安全的內(nèi)容,保留不同的觀點(diǎn)和數(shù)據(jù)。
再者,模型質(zhì)量的評(píng)估在數(shù)據(jù)清洗后變得尤為重要。我們需要確保模型在經(jīng)過數(shù)據(jù)清洗后,其質(zhì)量仍然與數(shù)據(jù)訓(xùn)練質(zhì)量正相關(guān)。在數(shù)據(jù)清洗方面,我們需要去除不良價(jià)值觀的內(nèi)容,刪除個(gè)人信息和敏感信息,以及處理涉及商業(yè)侵權(quán)的信息。
大模型訓(xùn)練與部署階段的安全挑戰(zhàn)
在訓(xùn)練與部署階段,我們面臨的挑戰(zhàn)包括如何保護(hù)模型文件和數(shù)據(jù)文件在流轉(zhuǎn)和傳輸過程中的安全。由于許多數(shù)據(jù)文件存儲(chǔ)在云訓(xùn)練平臺(tái)上,企業(yè)內(nèi)部人員可能擁有訪問權(quán)限,因此,我們需要確保訓(xùn)練數(shù)據(jù)和模型參數(shù)文件在這一過程中不被泄露、篡改或刪除。
為了應(yīng)對(duì)這些挑戰(zhàn),我們需要一套解決方案,確保數(shù)據(jù)從訓(xùn)練開始就是密態(tài)存儲(chǔ),直到模型內(nèi)部能夠原生支持加載密態(tài)文件。同時(shí),我們還需要通過完整性校驗(yàn)來發(fā)現(xiàn)模型文件的任何缺失或修改情況。
大模型業(yè)務(wù)運(yùn)營階段的安全挑戰(zhàn)
在大模型的業(yè)務(wù)運(yùn)營階段,我們面臨的安全挑戰(zhàn)不僅限于傳統(tǒng)內(nèi)容安全中的黃反類信息,還包括一些特定于大模型的重點(diǎn)問題。這些挑戰(zhàn)包括注入型攻擊,即通過偽造特定環(huán)境或指令,試圖使大模型突破其原有的安全限制,輸出不應(yīng)泄露的信息。此外,隨著多輪對(duì)話窗口的增加,大模型的能力得到擴(kuò)展,但同時(shí)也引入了更多的安全風(fēng)險(xiǎn)。這包括主語指代問題,以及引入多模態(tài)內(nèi)容(如網(wǎng)頁、文檔、圖片、音視頻)時(shí)增加的風(fēng)險(xiǎn)。
為了說明這些概念,我們分享一些有趣的故事。例如,“奶奶越獄”的故事,這是一個(gè)經(jīng)典的例子,展示了如何通過巧妙的提問使大模型泄露信息。在這個(gè)故事中,通過詢問大模型關(guān)于 Windows 序列號(hào)的問題,試圖誘導(dǎo)其泄露信息。今天,注入型攻擊不僅限于此類情況,還可能包括其他場景。例如,當(dāng)直接詢問大模型關(guān)于某城市不良場所的位置時(shí),大模型通常會(huì)拒絕回答。但如果我們換個(gè)方式問,比如詢問帶孩子旅游時(shí)應(yīng)避免哪些區(qū)域,大模型的安全對(duì)齊機(jī)制可能會(huì)被繞過,從而泄露原本不應(yīng)提供的信息。
第二個(gè)例子涉及到梯度攻擊,這是一種在早期視覺領(lǐng)域模型中,尤其是在無人駕駛和道路識(shí)別技術(shù)中被廣泛討論的攻擊方式。大約在 10 年前,甚至更早,人們通過自動(dòng)化方法尋找能夠干擾圖像識(shí)別的因子。例如,有人通過修改限速標(biāo)志,將限速 40 公里 / 小時(shí)的標(biāo)志改為限速 120 公里 / 小時(shí),盡管人類視覺上仍然識(shí)別為 40 公里 / 小時(shí),但機(jī)器卻可能將其識(shí)別為 120 公里 / 小時(shí),從而引發(fā)安全隱患。
在多模態(tài)輸入的情況下,大模型的安全問題變得更加復(fù)雜。通常是在訓(xùn)練數(shù)據(jù)階段可能沒有進(jìn)行有效的清洗,同時(shí)在安全對(duì)齊階段存在疏漏。在單一模態(tài)下,尤其是在自然語言處理領(lǐng)域,大多數(shù)中文大模型已經(jīng)較好地處理了安全對(duì)齊問題。但是,當(dāng)引入多模態(tài)輸入后,由于多模態(tài)數(shù)據(jù)需要將不同模態(tài)的數(shù)據(jù)映射到同一模態(tài)的向量,這一過程中的安全對(duì)齊層可能沒有與自然語言的安全對(duì)齊完全一致,從而導(dǎo)致了安全問題的出現(xiàn)。
因此,我們開始考慮引入傳統(tǒng)內(nèi)容安全技術(shù)。百度作為互聯(lián)網(wǎng)企業(yè),已經(jīng)研發(fā)了自己的內(nèi)容審核技術(shù),用于 PGC 和 UGC 內(nèi)容的審核。我們考慮是否能夠通過這些技術(shù)來覆蓋大模型的內(nèi)容安全。但很快我們發(fā)現(xiàn),大模型有其獨(dú)特的挑戰(zhàn),如多模態(tài)輸入和多輪會(huì)話,這些在傳統(tǒng)內(nèi)容審核中并不常見。此外,內(nèi)容審核可以有時(shí)間上的靈活性,例如發(fā)文審核可以進(jìn)入隊(duì)列等待,但大模型的 prompt 審核卻不能這樣做,因?yàn)橛脩羝谕趲酌腌妰?nèi)就得到響應(yīng)。
此外,我們還應(yīng)用了 RAG 技術(shù)和代答模型。代答模型是指用一個(gè)小模型來回答敏感的安全問題,而不是完全依賴大模型。這樣做的好處是多方面的。結(jié)合 RAG 技術(shù),我們形成了一套基于生成式內(nèi)容的原生安全方案,與底層的安全對(duì)齊相結(jié)合,構(gòu)成了我們今天討論的原生安全策略。
為什么只做安全對(duì)齊不行
僅依靠安全對(duì)齊是不夠的,原因有幾點(diǎn)。首先,安全對(duì)齊通常在 SFT 或人力反饋的強(qiáng)化學(xué)習(xí)階段進(jìn)行,這個(gè)階段對(duì)于價(jià)值觀類問題比較有效,比如避免紅燈區(qū)、不賭博、不進(jìn)行人身攻擊等。然而,對(duì)于政治敏感性問題、領(lǐng)土完整等具有明確觀點(diǎn)性和事實(shí)性的問題,安全對(duì)齊階段處理起來就不太有效。這些問題不僅具有極強(qiáng)的專業(yè)性,而且具有時(shí)效性。這與價(jià)值觀類問題不同,價(jià)值觀類問題相對(duì)恒定不變,更容易在對(duì)齊階段一次性解決。此外,安全對(duì)齊需要及時(shí)更新以應(yīng)對(duì)每天從政府、媒體、輿論和海外傳來的風(fēng)險(xiǎn)輿情,而重新訓(xùn)練安全模型需要大量時(shí)間成本,因此我們需要一種外掛式的方式來實(shí)現(xiàn)及時(shí)更新。
關(guān)注準(zhǔn)確率
隨著長文本處理的需求日益增長,大模型現(xiàn)在能夠處理的文本長度已經(jīng)從 8K 起步,甚至有些模型可以處理長達(dá) 300K 的文本窗口,這使得我們可以將整本書的內(nèi)容輸入到大模型中。在這樣的背景下,長文本的準(zhǔn)確率變得尤為重要,不再僅僅局限于 200 或 500 個(gè) token 的語境。長文本語境中容易出現(xiàn)誤報(bào),尤其是在帶有特定場景的輸入安全方面。
數(shù)據(jù)清洗:數(shù)據(jù)是構(gòu)建安全體系的基礎(chǔ)。必須確保數(shù)據(jù)在輸入模型之前經(jīng)過徹底的清洗和篩選,以排除任何可能引發(fā)安全問題的不良內(nèi)容。 安全圍欄:這是一個(gè)快速響應(yīng)機(jī)制,用于補(bǔ)齊安全漏洞。它需要結(jié)合內(nèi)部的基礎(chǔ)模型安全對(duì)齊和外部的快速反應(yīng)能力,以確保在面對(duì)新出現(xiàn)的安全威脅時(shí)能夠迅速采取措施。 安全對(duì)齊:在安全對(duì)齊階段,重點(diǎn)是提升模型的基礎(chǔ)安全能力。通過加強(qiáng)這一環(huán)節(jié),可以減輕安全圍欄的壓力,因?yàn)槟P捅旧砟軌蚋玫刈R(shí)別和處理潛在的安全問題。 持續(xù)評(píng)估:由于安全事件層出不窮,需要持續(xù)運(yùn)營和監(jiān)控。在安全事件發(fā)生時(shí),能夠迅速反應(yīng)并通過安全圍欄進(jìn)行補(bǔ)齊,形成一個(gè)快速迭代的過程。這不是一次性的數(shù)據(jù)流程,而是一個(gè)周期性的循環(huán)過程。在這個(gè)循環(huán)中,通過持續(xù)評(píng)估發(fā)現(xiàn)的問題,不斷通過安全圍欄和數(shù)據(jù)清洗進(jìn)行補(bǔ)齊,并在模型的下一輪迭代中提高安全對(duì)齊能力,從而形成一個(gè)持續(xù)提升的安全循環(huán)體系。
在進(jìn)行數(shù)據(jù)清洗時(shí),我們遵循國家相關(guān)法律法規(guī)的要求,特別是生成式人工智能管理的暫行辦法及其實(shí)施條例。
第二步是去除數(shù)據(jù)中的脫敏隱私內(nèi)容,包括個(gè)人信息和隱私信息,如身份證號(hào)、電話號(hào)碼、家庭住址等,確保這些信息被徹底脫敏。
第三步是根據(jù)規(guī)范要求刪除不合規(guī)、不合法的數(shù)據(jù)內(nèi)容,并在刪除后保持語義的通順和語境的完整性。經(jīng)過這一輪修剪和刪除,可能有近 50% 的數(shù)據(jù)被清洗掉。
最后,我們需要對(duì)清洗后的數(shù)據(jù)集進(jìn)行完整性評(píng)估,確保數(shù)據(jù)集仍然可用。如果評(píng)估結(jié)果顯示數(shù)據(jù)集質(zhì)量仍然符合要求,那么數(shù)據(jù)清洗過程就完成了,數(shù)據(jù)可以進(jìn)入下一步的訓(xùn)練流程。
百度的解決方案
百度的內(nèi)容安全解決方案是一個(gè)綜合性的體系,它由幾個(gè)關(guān)鍵部分組成:
數(shù)據(jù)清洗:這是解決方案的基礎(chǔ),涉及我們之前討論的對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行質(zhì)量和安全性評(píng)估的過程。這包括對(duì)數(shù)據(jù)來源的分析、去除敏感信息、刪除不合規(guī)內(nèi)容,并確保數(shù)據(jù)集在清洗后仍然保持完整性和可用性。 大模型防火墻:也稱為安全圍欄,它的功能是進(jìn)行語義干預(yù),快速響應(yīng)新發(fā)現(xiàn)的安全問題,通過設(shè)置快速止損機(jī)制來阻攔潛在的安全威脅。它還能夠處理多輪會(huì)話,以會(huì)話(session)為單位進(jìn)行內(nèi)容識(shí)別,并通過意圖分析來規(guī)劃執(zhí)行路徑。 檢索增強(qiáng)和代答模型:這是解決方案的核心,包括使用 RAG 技術(shù)來增強(qiáng)模型的檢索能力,以及使用代答模型來規(guī)避風(fēng)險(xiǎn)問題,引導(dǎo)模型給出安全的回答。 基礎(chǔ)能力:百度的自然語言處理、視覺和語音相關(guān)的安全模型都基于文心大模型,這些是構(gòu)成解決方案的技術(shù)底座。 安全評(píng)估:為了實(shí)現(xiàn)持續(xù)運(yùn)營,解決方案包括線上問題的持續(xù)發(fā)現(xiàn)和改進(jìn),以及在模型每個(gè)版本迭代過程中進(jìn)行不斷的回歸測試和評(píng)估。安全圍欄對(duì)抗性防御架構(gòu)
百度的安全圍欄對(duì)抗性防御架構(gòu)是一個(gè)多步驟的流程,旨在確保大模型的安全性和可靠性。這個(gè)架構(gòu)大致分為五個(gè)步驟:
多輪改寫:在多輪會(huì)話中,通過改寫的方式處理指代性詞匯,如“他”、“前一個(gè)”、“前文所指”等,確保語義的準(zhǔn)確性和完整性。這樣,即使脫離上下文,單獨(dú)查看和審核語句時(shí),也能準(zhǔn)確理解其真實(shí)含義。 大模型防火墻:在這一步驟中,通過快速止損機(jī)制來發(fā)現(xiàn)和干預(yù)敏感風(fēng)險(xiǎn)點(diǎn)。這通常涉及到傳統(tǒng)的語義干預(yù)和查詢匹配技術(shù),以快速識(shí)別和處理潛在的安全問題。 必答知識(shí)庫,代答模型:在大模型中構(gòu)建知識(shí)庫,并利用檢索增強(qiáng)技術(shù)在安全語料范圍內(nèi)構(gòu)建 RAG 條目。目前,百度擁有大約五六千萬規(guī)模的 RAG 條目,覆蓋了基本的敏感話題。這些條目引導(dǎo)至專門為安全訓(xùn)練的小型代答模型中。 模型輸出過濾:即使在輸入階段已經(jīng)實(shí)施了各種安全策略,輸出階段仍然不能忽視。在這一階段,需要對(duì)輸出內(nèi)容進(jìn)行完整性分析,以發(fā)現(xiàn)可能出現(xiàn)問題的點(diǎn)。這是因?yàn)榧词菇?jīng)過了輸入階段的處理,大模型在輸出階段仍可能產(chǎn)生有害的風(fēng)險(xiǎn)性內(nèi)容。 內(nèi)容審核:由于安全問題的復(fù)雜性,即使是經(jīng)過重重防御,也很難做到 100% 的安全保障。即便經(jīng)過了輸入、處理和輸出的一系列安全措施,我們?nèi)匀唤ㄗh在最后一步引入人工判定。通過離線的審核、追溯和巡查機(jī)制,我們可以發(fā)現(xiàn)并處理在前四個(gè)步驟中未能發(fā)現(xiàn)或阻止的問題。這樣的人工介入有助于形成持續(xù)的迭代過程,將發(fā)現(xiàn)的問題反饋到下一輪的安全循環(huán)中,從而不斷提高大模型的安全性。我們的安全圍欄的數(shù)據(jù)流是一個(gè)復(fù)雜的過程,它從文本輸入開始,然后經(jīng)過多個(gè)環(huán)節(jié)來確保內(nèi)容的安全性。首先,系統(tǒng)需要識(shí)別輸入文本的語言,區(qū)分它是中文、英文、中英文混雜還是其他語種,因?yàn)椴煌Z種需要采取不同的處理策略。接下來,文本可能會(huì)經(jīng)過改寫,以消除歧義或潛在的安全問題,但具體細(xì)節(jié)在此不展開。文本經(jīng)過改寫后,會(huì)進(jìn)行意圖分析,以確定用戶的真實(shí)意圖。例如,如果分析發(fā)現(xiàn)文本可能涉及領(lǐng)土完整的負(fù)面攻擊性問題,系統(tǒng)會(huì)將其引導(dǎo)至安全模型進(jìn)行處理。安全模型會(huì)利用基于安全語料構(gòu)建的 RAG 數(shù)據(jù),這些數(shù)據(jù)覆蓋了基本的敏感話題,以確?;貜?fù)內(nèi)容的安全性。RAG 數(shù)據(jù)隨后被送入專門為安全訓(xùn)練的代答模型中,生成回復(fù)內(nèi)容。如果文本在意圖分析階段被識(shí)別為具有較強(qiáng)攻擊性,如涉及領(lǐng)導(dǎo)人的攻擊性分類,可能會(huì)被標(biāo)記為不上屏,即不直接顯示給用戶。我們越來越多地采用正面引導(dǎo)的方式,而不是直接拒答,這是通過檢索增強(qiáng)和代答模型實(shí)現(xiàn)的,將安全風(fēng)險(xiǎn)性問題引導(dǎo)至代答模型中進(jìn)行準(zhǔn)確引導(dǎo)和回答。
在整個(gè)過程中,系統(tǒng)需要關(guān)注多種潛在的安全威脅,包括但不限于:
使用繁體中文試圖繞過安全檢查的嘗試。 中英文混合文本中夾雜的不安全問題。 通過多輪對(duì)話中的指代方式誘導(dǎo)產(chǎn)生問題的嘗試。 嘗試通過編碼指令或其他高級(jí)攻擊手段繞過安全機(jī)制。安全對(duì)齊
雖然安全對(duì)齊不是本次分享的主要議題,但我們可以簡要總結(jié)百度在安全對(duì)齊方面的一些最佳實(shí)踐:
有監(jiān)督精調(diào):在大模型訓(xùn)練中,無論是使用 LoRA 還是全量數(shù)據(jù)集進(jìn)行 SFT,安全階段都需要引入大量語料。重點(diǎn)關(guān)注的是價(jià)值觀類問題,通過合適的數(shù)據(jù)集構(gòu)建的模型,其基礎(chǔ)安全能力越來越強(qiáng)。例如,文心大模型能夠回答的安全性問題越來越多,這得益于有監(jiān)督精調(diào)帶來的收益。 人類反饋強(qiáng)化學(xué)習(xí),直接偏好優(yōu)化:目前,我們廣泛采用 RM 獎(jiǎng)勵(lì)模型,也采用 DPO 技術(shù)。通過這些方法,我們對(duì)大模型回答的不同類型問題進(jìn)行好壞評(píng)比,給予大模型正向反饋,使其更多地回答與人類價(jià)值觀一致的問題。持續(xù)評(píng)估
持續(xù)評(píng)估是確保大模型內(nèi)容安全的關(guān)鍵環(huán)節(jié),它涉及多個(gè)方面的關(guān)注點(diǎn):
風(fēng)險(xiǎn)分類問題:評(píng)估過程首先需要確保問題分類與國家標(biāo)準(zhǔn)完全符合。這包括關(guān)注召回問題,也就是識(shí)別出重大或高風(fēng)險(xiǎn)的問題,同時(shí)也要關(guān)注應(yīng)答問題。根據(jù)國標(biāo)的要求,除非特定場景外,通用的聊天機(jī)器人(chatbot)需要能夠回答常識(shí)性或通識(shí)性的問題,即使這些問題可能包含某些敏感關(guān)鍵詞,也不能簡單地拒絕回答。 攻擊手段的全面覆蓋:評(píng)估還需要覆蓋全面的攻擊手段,包括指代性攻擊、注入攻擊、越獄攻擊等。同時(shí),還需要對(duì)編碼的適應(yīng)性,包括代碼適應(yīng)性等內(nèi)容進(jìn)行合理分析和評(píng)估。 自動(dòng)標(biāo)注的挑戰(zhàn):在評(píng)估中,自動(dòng)標(biāo)注是一個(gè)難點(diǎn)。與 Web 安全和信息安全領(lǐng)域不同,大模型的回答內(nèi)容很難通過機(jī)器自動(dòng)識(shí)別是否存在風(fēng)險(xiǎn),通常需要人工進(jìn)行標(biāo)注。為了實(shí)現(xiàn)持續(xù)評(píng)估,必須解決這一問題,減少對(duì)人工標(biāo)注的依賴。為了實(shí)現(xiàn)自動(dòng)化評(píng)估,我們采用了一個(gè)更大的模型,對(duì)問答內(nèi)容進(jìn)行大量的監(jiān)督學(xué)習(xí)訓(xùn)練。通過訓(xùn)練,我們建立了一個(gè)裁判模型或監(jiān)督模型,使其能夠理解對(duì)一個(gè)問題的正確回答和負(fù)向回答是什么。這個(gè)模型為被測模型的輸出提供了有效的評(píng)估,成為自動(dòng)化評(píng)估的基準(zhǔn)。目前,我們能夠在備測數(shù)據(jù)集上實(shí)現(xiàn)大約 90% 的 F1 分?jǐn)?shù),在大多數(shù)分類上,自動(dòng)化評(píng)估是可行的。通過這樣的持續(xù)評(píng)估,我們可以確保大模型在處理各種問題時(shí)的安全性和可靠性。
安全代答模型如何做到比大模型更安全
在討論安全代答模型時(shí),我們面臨一個(gè)看似矛盾的問題:理論上,一個(gè)更強(qiáng)大的模型應(yīng)該能夠提供更安全的回答,但更強(qiáng)大的模型通常需要更多的訓(xùn)練數(shù)據(jù)和更大的參數(shù)量,這可能導(dǎo)致資源消耗增加,從而增加成本。安全措施的成本必須低于業(yè)務(wù)成本,才能被接受。那么,代答模型如何在保持較小規(guī)模的同時(shí),實(shí)現(xiàn)比大模型更高的安全性呢?我們從以下幾個(gè)方面進(jìn)行了規(guī)范:
數(shù)據(jù)與模型尺寸:我們的代答模型是一個(gè)相對(duì)較小的模型,大約 6B 參數(shù)左右。小模型的優(yōu)點(diǎn)是訓(xùn)練周期短,但也可能帶來一些問題,比如經(jīng)過大量 SFT 后,模型的指令跟隨能力可能會(huì)下降。這種下降反而減少了對(duì)高級(jí)攻擊的敏感性。 弱化指令跟隨:在微調(diào)階段損失指令跟隨, 使模型對(duì)高級(jí)攻擊反應(yīng) 『遲鈍』,但也帶來適用性問題。 持續(xù)運(yùn)營:通過更大參數(shù)的巡檢模型來發(fā)現(xiàn)事實(shí)性錯(cuò)誤,前置過濾與錯(cuò)峰巡檢實(shí)現(xiàn)性能優(yōu)化。在低峰時(shí)段,巡檢模型能夠發(fā)現(xiàn)白天可能漏檢的問題,并在第二天進(jìn)行修補(bǔ)。要點(diǎn)小結(jié):
通過 SFT、DPO 或人類反饋的強(qiáng)化學(xué)習(xí)實(shí)現(xiàn)安全對(duì)齊。 構(gòu)建大量的 RAG 數(shù)據(jù),包括搜索引擎和權(quán)威媒體的數(shù)據(jù)。 通過大模型防火墻實(shí)現(xiàn)快速有效的干預(yù)。 通過持續(xù)運(yùn)營和評(píng)估實(shí)現(xiàn)不斷的迭代和優(yōu)化。關(guān)注智能體安全
我們認(rèn)識(shí)到智能體是大模型生態(tài)發(fā)展中極為重要的一環(huán)。今年,百度特別重視智能體的推廣,因?yàn)樗鼈儾粌H僅是基礎(chǔ)模型的簡單應(yīng)用。
最初,我們認(rèn)為只要做好基礎(chǔ)模型就足夠了,但很快發(fā)現(xiàn)實(shí)際情況并非如此。從開發(fā)大模型的第一天起,我們就面臨了大量惡意使用技術(shù)的情況,這與僅開發(fā)基礎(chǔ)模型時(shí)遇到的問題不同。我們需要能夠及時(shí)有效地應(yīng)對(duì)這些濫用行為。
Prompt 泄露
舉一個(gè)例子,一位灣區(qū)的作者通過自己公司的數(shù)據(jù)創(chuàng)建了一個(gè)智能體,能夠展示和推理灣區(qū)特定職業(yè)的收入情況。然而,黑客可以通過簡單的指令泄露這些智能體的 prompt 內(nèi)容,甚至可以將用于訓(xùn)練的 RAG 數(shù)據(jù)以文件形式下載。在智能體的開發(fā)和應(yīng)用中,我們需要特別注意數(shù)據(jù)和模型的安全性,防止敏感信息的泄露。
RAG 投毒
在大模型的應(yīng)用中,RAG 數(shù)據(jù)已成為一個(gè)標(biāo)準(zhǔn)配置,它對(duì)于提供準(zhǔn)確的信息至關(guān)重要。然而,RAG 數(shù)據(jù)也存在被“投毒”的風(fēng)險(xiǎn),即數(shù)據(jù)被惡意篡改或污染。如下圖所示,如果 RAG 數(shù)據(jù)被投毒,當(dāng)用戶詢問“湖南的省會(huì)是哪里”時(shí),大模型可能會(huì)給出錯(cuò)誤的回答。
禁止角色扮演:基座模型通常關(guān)注名人肖像模板等通用問題,而特定應(yīng)用則需要關(guān)注更具體的問題,如用戶侵權(quán)、廣告創(chuàng)意方向等。如果場景沒有特殊需要,盡量通過指令禁用角色扮演, 根本上取消此類越獄風(fēng)險(xiǎn)。 防護(hù)指令:為了防止高級(jí)攻擊,需要在 prompt 模板中規(guī)范操作。例如,除非應(yīng)用需要,否則應(yīng)禁止角色扮演。同時(shí),應(yīng)設(shè)置防護(hù)指令,禁止輸出 prompt 內(nèi)容、使用數(shù)據(jù),以及禁止使用 print 指令輸出信息。 Say No:在某些情況下,應(yīng)明確拒絕回答用戶的問題,而不是提供模棱兩可的建議。 結(jié)構(gòu)化查詢:通過結(jié)構(gòu)化查詢,限定系統(tǒng)指令,用戶指令空間,避免注入,使用模板而不是拼裝 prompt。 避免多輪會(huì)話:如果應(yīng)用不需要多輪會(huì)話,使用一次性(One-Shot)方式可能更有助于規(guī)避安全風(fēng)險(xiǎn)。 演講嘉賓介紹 馮景輝,現(xiàn)任職于百度安全平臺(tái),任副總經(jīng)理,負(fù)責(zé)集團(tuán)業(yè)務(wù)安全、業(yè)務(wù)風(fēng)控和大模型安全解決方案;其負(fù)責(zé)的百度搜索內(nèi)容檢測系統(tǒng),多年來致力于持續(xù)改善搜索生態(tài)健康度,打擊各種違法違規(guī)黑產(chǎn)利用搜索引擎?zhèn)鞑?,尤其是在打擊搜索結(jié)果中的涉詐內(nèi)容方面,為保護(hù)網(wǎng)民,凈化網(wǎng)絡(luò)空間內(nèi)容履行百度社會(huì)責(zé)任,連續(xù)七年持續(xù)投入打擊力量;其負(fù)責(zé)的業(yè)務(wù)風(fēng)控、流量安全、反爬蟲等方向是百度所有互聯(lián)網(wǎng)業(yè)務(wù)的核心安全能力,歷年來在百度移動(dòng)生態(tài)業(yè)務(wù)中發(fā)揮重要的保障作用;其主導(dǎo)的大模型安全解決方案是國內(nèi)第一個(gè)可商用的覆蓋大模型訓(xùn)練、部署和運(yùn)營全生命周期的安全解決方案。在進(jìn)入百度之前,馮景輝是國內(nèi)第一家完全基于 SaaS 的云安全服務(wù)廠商安全寶的聯(lián)合創(chuàng)始人兼研發(fā)副總裁,安全寶系統(tǒng)架構(gòu)總設(shè)計(jì)師。 會(huì)議推薦 AI 應(yīng)用開發(fā)、大模型基礎(chǔ)設(shè)施與算力優(yōu)化、出海合規(guī)與大模型安全、云原生工程、演進(jìn)式架構(gòu)、線上可靠性、新技術(shù)浪潮下的大前端…… 不得不說,QCon 還是太全面了?,F(xiàn)在報(bào)名可以享受 9 折優(yōu)惠,詳情請(qǐng)聯(lián)系票務(wù)經(jīng)理 17310043226 咨詢。