ITBear旗下自媒體矩陣:

百度大模型如何鑄就原生安全?萬字長文揭秘其背后的黑科技!

   時間:2024-09-19 13:08:30 來源:ITBEAR作者:顧青青編輯:瑞雪 發(fā)表評論無障礙通道

【ITBEAR】9月19日消息,演講嘉賓 |馮景輝

編輯 |蔡芳芳

策劃 |AICon 全球人工智能開發(fā)與應用大會

大模型以其更智能、不確定和不可解釋的特點,給安全領(lǐng)域,尤其是內(nèi)容安全帶來了更大的挑戰(zhàn)。百度在打造文心一言之初就意識到,傳統(tǒng)的內(nèi)容審核技術(shù)無法從根本上滿足大模型內(nèi)容安全的需求。因此,我們必須從頭開始構(gòu)建一套全新的方法。在不久前舉辦的 AICon 全球人工智能開發(fā)與應用大會上,百度安全平臺副總經(jīng)理馮景輝發(fā)表了專題演講“百度大模型原生安全構(gòu)建之路”, 分享聚焦于百度在過去兩年百度安全平臺團隊在大模型內(nèi)容安全領(lǐng)域遭遇的挑戰(zhàn)和問題,以及團隊嘗試過的解決思路和應對方法,涵蓋數(shù)據(jù)清洗、內(nèi)生安全與安全對齊、安全圍欄建設(shè),以及應用安全與基礎(chǔ)模型安全等方面。

以下是演講實錄(經(jīng) InfoQ 進行不改變原意的編輯整理)。

今天,我想與大家分享百度在過去兩年中,如何在開發(fā)大模型的過程中確保安全性的故事。早期當大模型遇到敏感問題時,,它通常會建議我們換個話題。在過去兩年里,我們一直在不斷優(yōu)化,解決模型生成過程中出現(xiàn)的各類安全性問題,同時也在提升用戶體驗。在下面的圖中,我們可以看到,即使是其他公司的模型也經(jīng)常會遇到需要用戶重新提問或直接拒絕回答的情況。然而,最近在使用文心一言時,我們發(fā)現(xiàn)它已經(jīng)開始用更積極的角度引導用戶正確看待敏感問題,這在很大程度上改善了用戶體驗。

今天,我將討論四個方面的問題。首先,我們會回顧一下大型模型面臨的安全挑戰(zhàn)。接著,我們將探討我們是如何逐步演進,以確保大模型的安全性。然后,我們將深入討論今天的主題——原生安全之路。我們將解釋什么是原生安全,以及我們是如何實現(xiàn)它的。最后,會簡要介紹一些我們最近在智能體和 agent 安全領(lǐng)域遇到的課題。

大模型安全的挑戰(zhàn)

大模型的安全性挑戰(zhàn)貫穿其整個生命周期,我們將其與安全相關(guān)的部分分為三個階段:訓練階段、部署階段和運營階段。

在訓練階段,確保訓練數(shù)據(jù)的安全至關(guān)重要。我們需要采取措施來保護數(shù)據(jù)不被泄露或濫用,因為這些數(shù)據(jù)往往是模型學習的基礎(chǔ),并且可能包含敏感信息。

進入部署階段,我們面臨的挑戰(zhàn)是如何在模型部署和推理過程中保護模型參數(shù)和文件不被泄露。這包括確保模型文件在存儲和傳輸過程中的安全性,以及在運行時防止未授權(quán)的訪問。

最后,也是今天討論的重點,是在運營階段我們會遇到的問題。這個階段涉及模型與用戶交互的安全性,包括但不限于防止惡意輸入、處理敏感請求以及確保用戶數(shù)據(jù)的隱私保護。在這一階段,我們需要不斷地監(jiān)控和更新模型,以應對新出現(xiàn)的安全威脅和挑戰(zhàn)。

大模型訓練階段的安全挑戰(zhàn)

在大模型的訓練階段,我們面臨的安全挑戰(zhàn)主要涉及訓練數(shù)據(jù)的選擇、數(shù)據(jù)的血緣分析以及模型質(zhì)量的評估。首先,訓練數(shù)據(jù)的選擇至關(guān)重要,因為它不僅決定了模型的性能,還影響著模型的安全性。我們希望模型能夠提供正確價值觀的回答,同時保持創(chuàng)新性和多樣性。因此,在數(shù)據(jù)選擇時,我們需要清洗掉不安全的內(nèi)容,保留不同的觀點和數(shù)據(jù)。

再者,模型質(zhì)量的評估在數(shù)據(jù)清洗后變得尤為重要。我們需要確保模型在經(jīng)過數(shù)據(jù)清洗后,其質(zhì)量仍然與數(shù)據(jù)訓練質(zhì)量正相關(guān)。在數(shù)據(jù)清洗方面,我們需要去除不良價值觀的內(nèi)容,刪除個人信息和敏感信息,以及處理涉及商業(yè)侵權(quán)的信息。

大模型訓練與部署階段的安全挑戰(zhàn)

在訓練與部署階段,我們面臨的挑戰(zhàn)包括如何保護模型文件和數(shù)據(jù)文件在流轉(zhuǎn)和傳輸過程中的安全。由于許多數(shù)據(jù)文件存儲在云訓練平臺上,企業(yè)內(nèi)部人員可能擁有訪問權(quán)限,因此,我們需要確保訓練數(shù)據(jù)和模型參數(shù)文件在這一過程中不被泄露、篡改或刪除。

為了應對這些挑戰(zhàn),我們需要一套解決方案,確保數(shù)據(jù)從訓練開始就是密態(tài)存儲,直到模型內(nèi)部能夠原生支持加載密態(tài)文件。同時,我們還需要通過完整性校驗來發(fā)現(xiàn)模型文件的任何缺失或修改情況。

大模型業(yè)務運營階段的安全挑戰(zhàn)

在大模型的業(yè)務運營階段,我們面臨的安全挑戰(zhàn)不僅限于傳統(tǒng)內(nèi)容安全中的黃反類信息,還包括一些特定于大模型的重點問題。這些挑戰(zhàn)包括注入型攻擊,即通過偽造特定環(huán)境或指令,試圖使大模型突破其原有的安全限制,輸出不應泄露的信息。此外,隨著多輪對話窗口的增加,大模型的能力得到擴展,但同時也引入了更多的安全風險。這包括主語指代問題,以及引入多模態(tài)內(nèi)容(如網(wǎng)頁、文檔、圖片、音視頻)時增加的風險。

為了說明這些概念,我們分享一些有趣的故事。例如,“奶奶越獄”的故事,這是一個經(jīng)典的例子,展示了如何通過巧妙的提問使大模型泄露信息。在這個故事中,通過詢問大模型關(guān)于 Windows 序列號的問題,試圖誘導其泄露信息。今天,注入型攻擊不僅限于此類情況,還可能包括其他場景。例如,當直接詢問大模型關(guān)于某城市不良場所的位置時,大模型通常會拒絕回答。但如果我們換個方式問,比如詢問帶孩子旅游時應避免哪些區(qū)域,大模型的安全對齊機制可能會被繞過,從而泄露原本不應提供的信息。

第二個例子涉及到梯度攻擊,這是一種在早期視覺領(lǐng)域模型中,尤其是在無人駕駛和道路識別技術(shù)中被廣泛討論的攻擊方式。大約在 10 年前,甚至更早,人們通過自動化方法尋找能夠干擾圖像識別的因子。例如,有人通過修改限速標志,將限速 40 公里 / 小時的標志改為限速 120 公里 / 小時,盡管人類視覺上仍然識別為 40 公里 / 小時,但機器卻可能將其識別為 120 公里 / 小時,從而引發(fā)安全隱患。

在多模態(tài)輸入的情況下,大模型的安全問題變得更加復雜。通常是在訓練數(shù)據(jù)階段可能沒有進行有效的清洗,同時在安全對齊階段存在疏漏。在單一模態(tài)下,尤其是在自然語言處理領(lǐng)域,大多數(shù)中文大模型已經(jīng)較好地處理了安全對齊問題。但是,當引入多模態(tài)輸入后,由于多模態(tài)數(shù)據(jù)需要將不同模態(tài)的數(shù)據(jù)映射到同一模態(tài)的向量,這一過程中的安全對齊層可能沒有與自然語言的安全對齊完全一致,從而導致了安全問題的出現(xiàn)。

因此,我們開始考慮引入傳統(tǒng)內(nèi)容安全技術(shù)。百度作為互聯(lián)網(wǎng)企業(yè),已經(jīng)研發(fā)了自己的內(nèi)容審核技術(shù),用于 PGC 和 UGC 內(nèi)容的審核。我們考慮是否能夠通過這些技術(shù)來覆蓋大模型的內(nèi)容安全。但很快我們發(fā)現(xiàn),大模型有其獨特的挑戰(zhàn),如多模態(tài)輸入和多輪會話,這些在傳統(tǒng)內(nèi)容審核中并不常見。此外,內(nèi)容審核可以有時間上的靈活性,例如發(fā)文審核可以進入隊列等待,但大模型的 prompt 審核卻不能這樣做,因為用戶期望在幾秒鐘內(nèi)就得到響應。

此外,我們還應用了 RAG 技術(shù)和代答模型。代答模型是指用一個小模型來回答敏感的安全問題,而不是完全依賴大模型。這樣做的好處是多方面的。結(jié)合 RAG 技術(shù),我們形成了一套基于生成式內(nèi)容的原生安全方案,與底層的安全對齊相結(jié)合,構(gòu)成了我們今天討論的原生安全策略。

為什么只做安全對齊不行

僅依靠安全對齊是不夠的,原因有幾點。首先,安全對齊通常在 SFT 或人力反饋的強化學習階段進行,這個階段對于價值觀類問題比較有效,比如避免紅燈區(qū)、不賭博、不進行人身攻擊等。然而,對于政治敏感性問題、領(lǐng)土完整等具有明確觀點性和事實性的問題,安全對齊階段處理起來就不太有效。這些問題不僅具有極強的專業(yè)性,而且具有時效性。這與價值觀類問題不同,價值觀類問題相對恒定不變,更容易在對齊階段一次性解決。此外,安全對齊需要及時更新以應對每天從政府、媒體、輿論和海外傳來的風險輿情,而重新訓練安全模型需要大量時間成本,因此我們需要一種外掛式的方式來實現(xiàn)及時更新。

關(guān)注準確率

隨著長文本處理的需求日益增長,大模型現(xiàn)在能夠處理的文本長度已經(jīng)從 8K 起步,甚至有些模型可以處理長達 300K 的文本窗口,這使得我們可以將整本書的內(nèi)容輸入到大模型中。在這樣的背景下,長文本的準確率變得尤為重要,不再僅僅局限于 200 或 500 個 token 的語境。長文本語境中容易出現(xiàn)誤報,尤其是在帶有特定場景的輸入安全方面。

數(shù)據(jù)清洗:數(shù)據(jù)是構(gòu)建安全體系的基礎(chǔ)。必須確保數(shù)據(jù)在輸入模型之前經(jīng)過徹底的清洗和篩選,以排除任何可能引發(fā)安全問題的不良內(nèi)容。 安全圍欄:這是一個快速響應機制,用于補齊安全漏洞。它需要結(jié)合內(nèi)部的基礎(chǔ)模型安全對齊和外部的快速反應能力,以確保在面對新出現(xiàn)的安全威脅時能夠迅速采取措施。 安全對齊:在安全對齊階段,重點是提升模型的基礎(chǔ)安全能力。通過加強這一環(huán)節(jié),可以減輕安全圍欄的壓力,因為模型本身能夠更好地識別和處理潛在的安全問題。 持續(xù)評估:由于安全事件層出不窮,需要持續(xù)運營和監(jiān)控。在安全事件發(fā)生時,能夠迅速反應并通過安全圍欄進行補齊,形成一個快速迭代的過程。

這不是一次性的數(shù)據(jù)流程,而是一個周期性的循環(huán)過程。在這個循環(huán)中,通過持續(xù)評估發(fā)現(xiàn)的問題,不斷通過安全圍欄和數(shù)據(jù)清洗進行補齊,并在模型的下一輪迭代中提高安全對齊能力,從而形成一個持續(xù)提升的安全循環(huán)體系。

在進行數(shù)據(jù)清洗時,我們遵循國家相關(guān)法律法規(guī)的要求,特別是生成式人工智能管理的暫行辦法及其實施條例。

第二步是去除數(shù)據(jù)中的脫敏隱私內(nèi)容,包括個人信息和隱私信息,如身份證號、電話號碼、家庭住址等,確保這些信息被徹底脫敏。

第三步是根據(jù)規(guī)范要求刪除不合規(guī)、不合法的數(shù)據(jù)內(nèi)容,并在刪除后保持語義的通順和語境的完整性。經(jīng)過這一輪修剪和刪除,可能有近 50% 的數(shù)據(jù)被清洗掉。

最后,我們需要對清洗后的數(shù)據(jù)集進行完整性評估,確保數(shù)據(jù)集仍然可用。如果評估結(jié)果顯示數(shù)據(jù)集質(zhì)量仍然符合要求,那么數(shù)據(jù)清洗過程就完成了,數(shù)據(jù)可以進入下一步的訓練流程。

百度的解決方案

百度的內(nèi)容安全解決方案是一個綜合性的體系,它由幾個關(guān)鍵部分組成:

數(shù)據(jù)清洗:這是解決方案的基礎(chǔ),涉及我們之前討論的對訓練數(shù)據(jù)進行質(zhì)量和安全性評估的過程。這包括對數(shù)據(jù)來源的分析、去除敏感信息、刪除不合規(guī)內(nèi)容,并確保數(shù)據(jù)集在清洗后仍然保持完整性和可用性。 大模型防火墻:也稱為安全圍欄,它的功能是進行語義干預,快速響應新發(fā)現(xiàn)的安全問題,通過設(shè)置快速止損機制來阻攔潛在的安全威脅。它還能夠處理多輪會話,以會話(session)為單位進行內(nèi)容識別,并通過意圖分析來規(guī)劃執(zhí)行路徑。 檢索增強和代答模型:這是解決方案的核心,包括使用 RAG 技術(shù)來增強模型的檢索能力,以及使用代答模型來規(guī)避風險問題,引導模型給出安全的回答。 基礎(chǔ)能力:百度的自然語言處理、視覺和語音相關(guān)的安全模型都基于文心大模型,這些是構(gòu)成解決方案的技術(shù)底座。 安全評估:為了實現(xiàn)持續(xù)運營,解決方案包括線上問題的持續(xù)發(fā)現(xiàn)和改進,以及在模型每個版本迭代過程中進行不斷的回歸測試和評估。

安全圍欄對抗性防御架構(gòu)

百度的安全圍欄對抗性防御架構(gòu)是一個多步驟的流程,旨在確保大模型的安全性和可靠性。這個架構(gòu)大致分為五個步驟:

多輪改寫:在多輪會話中,通過改寫的方式處理指代性詞匯,如“他”、“前一個”、“前文所指”等,確保語義的準確性和完整性。這樣,即使脫離上下文,單獨查看和審核語句時,也能準確理解其真實含義。 大模型防火墻:在這一步驟中,通過快速止損機制來發(fā)現(xiàn)和干預敏感風險點。這通常涉及到傳統(tǒng)的語義干預和查詢匹配技術(shù),以快速識別和處理潛在的安全問題。 必答知識庫,代答模型:在大模型中構(gòu)建知識庫,并利用檢索增強技術(shù)在安全語料范圍內(nèi)構(gòu)建 RAG 條目。目前,百度擁有大約五六千萬規(guī)模的 RAG 條目,覆蓋了基本的敏感話題。這些條目引導至專門為安全訓練的小型代答模型中。 模型輸出過濾:即使在輸入階段已經(jīng)實施了各種安全策略,輸出階段仍然不能忽視。在這一階段,需要對輸出內(nèi)容進行完整性分析,以發(fā)現(xiàn)可能出現(xiàn)問題的點。這是因為即使經(jīng)過了輸入階段的處理,大模型在輸出階段仍可能產(chǎn)生有害的風險性內(nèi)容。 內(nèi)容審核:由于安全問題的復雜性,即使是經(jīng)過重重防御,也很難做到 100% 的安全保障。即便經(jīng)過了輸入、處理和輸出的一系列安全措施,我們?nèi)匀唤ㄗh在最后一步引入人工判定。通過離線的審核、追溯和巡查機制,我們可以發(fā)現(xiàn)并處理在前四個步驟中未能發(fā)現(xiàn)或阻止的問題。這樣的人工介入有助于形成持續(xù)的迭代過程,將發(fā)現(xiàn)的問題反饋到下一輪的安全循環(huán)中,從而不斷提高大模型的安全性。

我們的安全圍欄的數(shù)據(jù)流是一個復雜的過程,它從文本輸入開始,然后經(jīng)過多個環(huán)節(jié)來確保內(nèi)容的安全性。首先,系統(tǒng)需要識別輸入文本的語言,區(qū)分它是中文、英文、中英文混雜還是其他語種,因為不同語種需要采取不同的處理策略。接下來,文本可能會經(jīng)過改寫,以消除歧義或潛在的安全問題,但具體細節(jié)在此不展開。文本經(jīng)過改寫后,會進行意圖分析,以確定用戶的真實意圖。例如,如果分析發(fā)現(xiàn)文本可能涉及領(lǐng)土完整的負面攻擊性問題,系統(tǒng)會將其引導至安全模型進行處理。安全模型會利用基于安全語料構(gòu)建的 RAG 數(shù)據(jù),這些數(shù)據(jù)覆蓋了基本的敏感話題,以確?;貜蛢?nèi)容的安全性。RAG 數(shù)據(jù)隨后被送入專門為安全訓練的代答模型中,生成回復內(nèi)容。如果文本在意圖分析階段被識別為具有較強攻擊性,如涉及領(lǐng)導人的攻擊性分類,可能會被標記為不上屏,即不直接顯示給用戶。我們越來越多地采用正面引導的方式,而不是直接拒答,這是通過檢索增強和代答模型實現(xiàn)的,將安全風險性問題引導至代答模型中進行準確引導和回答。

在整個過程中,系統(tǒng)需要關(guān)注多種潛在的安全威脅,包括但不限于:

使用繁體中文試圖繞過安全檢查的嘗試。 中英文混合文本中夾雜的不安全問題。 通過多輪對話中的指代方式誘導產(chǎn)生問題的嘗試。 嘗試通過編碼指令或其他高級攻擊手段繞過安全機制。

安全對齊

雖然安全對齊不是本次分享的主要議題,但我們可以簡要總結(jié)百度在安全對齊方面的一些最佳實踐:

有監(jiān)督精調(diào):在大模型訓練中,無論是使用 LoRA 還是全量數(shù)據(jù)集進行 SFT,安全階段都需要引入大量語料。重點關(guān)注的是價值觀類問題,通過合適的數(shù)據(jù)集構(gòu)建的模型,其基礎(chǔ)安全能力越來越強。例如,文心大模型能夠回答的安全性問題越來越多,這得益于有監(jiān)督精調(diào)帶來的收益。 人類反饋強化學習,直接偏好優(yōu)化:目前,我們廣泛采用 RM 獎勵模型,也采用 DPO 技術(shù)。通過這些方法,我們對大模型回答的不同類型問題進行好壞評比,給予大模型正向反饋,使其更多地回答與人類價值觀一致的問題。

持續(xù)評估

持續(xù)評估是確保大模型內(nèi)容安全的關(guān)鍵環(huán)節(jié),它涉及多個方面的關(guān)注點:

風險分類問題:評估過程首先需要確保問題分類與國家標準完全符合。這包括關(guān)注召回問題,也就是識別出重大或高風險的問題,同時也要關(guān)注應答問題。根據(jù)國標的要求,除非特定場景外,通用的聊天機器人(chatbot)需要能夠回答常識性或通識性的問題,即使這些問題可能包含某些敏感關(guān)鍵詞,也不能簡單地拒絕回答。 攻擊手段的全面覆蓋:評估還需要覆蓋全面的攻擊手段,包括指代性攻擊、注入攻擊、越獄攻擊等。同時,還需要對編碼的適應性,包括代碼適應性等內(nèi)容進行合理分析和評估。 自動標注的挑戰(zhàn):在評估中,自動標注是一個難點。與 Web 安全和信息安全領(lǐng)域不同,大模型的回答內(nèi)容很難通過機器自動識別是否存在風險,通常需要人工進行標注。為了實現(xiàn)持續(xù)評估,必須解決這一問題,減少對人工標注的依賴。

為了實現(xiàn)自動化評估,我們采用了一個更大的模型,對問答內(nèi)容進行大量的監(jiān)督學習訓練。通過訓練,我們建立了一個裁判模型或監(jiān)督模型,使其能夠理解對一個問題的正確回答和負向回答是什么。這個模型為被測模型的輸出提供了有效的評估,成為自動化評估的基準。目前,我們能夠在備測數(shù)據(jù)集上實現(xiàn)大約 90% 的 F1 分數(shù),在大多數(shù)分類上,自動化評估是可行的。通過這樣的持續(xù)評估,我們可以確保大模型在處理各種問題時的安全性和可靠性。

安全代答模型如何做到比大模型更安全

在討論安全代答模型時,我們面臨一個看似矛盾的問題:理論上,一個更強大的模型應該能夠提供更安全的回答,但更強大的模型通常需要更多的訓練數(shù)據(jù)和更大的參數(shù)量,這可能導致資源消耗增加,從而增加成本。安全措施的成本必須低于業(yè)務成本,才能被接受。那么,代答模型如何在保持較小規(guī)模的同時,實現(xiàn)比大模型更高的安全性呢?我們從以下幾個方面進行了規(guī)范:

數(shù)據(jù)與模型尺寸:我們的代答模型是一個相對較小的模型,大約 6B 參數(shù)左右。小模型的優(yōu)點是訓練周期短,但也可能帶來一些問題,比如經(jīng)過大量 SFT 后,模型的指令跟隨能力可能會下降。這種下降反而減少了對高級攻擊的敏感性。 弱化指令跟隨:在微調(diào)階段損失指令跟隨, 使模型對高級攻擊反應 『遲鈍』,但也帶來適用性問題。 持續(xù)運營:通過更大參數(shù)的巡檢模型來發(fā)現(xiàn)事實性錯誤,前置過濾與錯峰巡檢實現(xiàn)性能優(yōu)化。在低峰時段,巡檢模型能夠發(fā)現(xiàn)白天可能漏檢的問題,并在第二天進行修補。

要點小結(jié):

通過 SFT、DPO 或人類反饋的強化學習實現(xiàn)安全對齊。 構(gòu)建大量的 RAG 數(shù)據(jù),包括搜索引擎和權(quán)威媒體的數(shù)據(jù)。 通過大模型防火墻實現(xiàn)快速有效的干預。 通過持續(xù)運營和評估實現(xiàn)不斷的迭代和優(yōu)化。

關(guān)注智能體安全

我們認識到智能體是大模型生態(tài)發(fā)展中極為重要的一環(huán)。今年,百度特別重視智能體的推廣,因為它們不僅僅是基礎(chǔ)模型的簡單應用。

最初,我們認為只要做好基礎(chǔ)模型就足夠了,但很快發(fā)現(xiàn)實際情況并非如此。從開發(fā)大模型的第一天起,我們就面臨了大量惡意使用技術(shù)的情況,這與僅開發(fā)基礎(chǔ)模型時遇到的問題不同。我們需要能夠及時有效地應對這些濫用行為。

Prompt 泄露

舉一個例子,一位灣區(qū)的作者通過自己公司的數(shù)據(jù)創(chuàng)建了一個智能體,能夠展示和推理灣區(qū)特定職業(yè)的收入情況。然而,黑客可以通過簡單的指令泄露這些智能體的 prompt 內(nèi)容,甚至可以將用于訓練的 RAG 數(shù)據(jù)以文件形式下載。在智能體的開發(fā)和應用中,我們需要特別注意數(shù)據(jù)和模型的安全性,防止敏感信息的泄露。

RAG 投毒

在大模型的應用中,RAG 數(shù)據(jù)已成為一個標準配置,它對于提供準確的信息至關(guān)重要。然而,RAG 數(shù)據(jù)也存在被“投毒”的風險,即數(shù)據(jù)被惡意篡改或污染。如下圖所示,如果 RAG 數(shù)據(jù)被投毒,當用戶詢問“湖南的省會是哪里”時,大模型可能會給出錯誤的回答。

禁止角色扮演:基座模型通常關(guān)注名人肖像模板等通用問題,而特定應用則需要關(guān)注更具體的問題,如用戶侵權(quán)、廣告創(chuàng)意方向等。如果場景沒有特殊需要,盡量通過指令禁用角色扮演, 根本上取消此類越獄風險。 防護指令:為了防止高級攻擊,需要在 prompt 模板中規(guī)范操作。例如,除非應用需要,否則應禁止角色扮演。同時,應設(shè)置防護指令,禁止輸出 prompt 內(nèi)容、使用數(shù)據(jù),以及禁止使用 print 指令輸出信息。 Say No:在某些情況下,應明確拒絕回答用戶的問題,而不是提供模棱兩可的建議。 結(jié)構(gòu)化查詢:通過結(jié)構(gòu)化查詢,限定系統(tǒng)指令,用戶指令空間,避免注入,使用模板而不是拼裝 prompt。 避免多輪會話:如果應用不需要多輪會話,使用一次性(One-Shot)方式可能更有助于規(guī)避安全風險。 演講嘉賓介紹 馮景輝,現(xiàn)任職于百度安全平臺,任副總經(jīng)理,負責集團業(yè)務安全、業(yè)務風控和大模型安全解決方案;其負責的百度搜索內(nèi)容檢測系統(tǒng),多年來致力于持續(xù)改善搜索生態(tài)健康度,打擊各種違法違規(guī)黑產(chǎn)利用搜索引擎?zhèn)鞑ィ绕涫窃诖驌羲阉鹘Y(jié)果中的涉詐內(nèi)容方面,為保護網(wǎng)民,凈化網(wǎng)絡(luò)空間內(nèi)容履行百度社會責任,連續(xù)七年持續(xù)投入打擊力量;其負責的業(yè)務風控、流量安全、反爬蟲等方向是百度所有互聯(lián)網(wǎng)業(yè)務的核心安全能力,歷年來在百度移動生態(tài)業(yè)務中發(fā)揮重要的保障作用;其主導的大模型安全解決方案是國內(nèi)第一個可商用的覆蓋大模型訓練、部署和運營全生命周期的安全解決方案。在進入百度之前,馮景輝是國內(nèi)第一家完全基于 SaaS 的云安全服務廠商安全寶的聯(lián)合創(chuàng)始人兼研發(fā)副總裁,安全寶系統(tǒng)架構(gòu)總設(shè)計師。 會議推薦 AI 應用開發(fā)、大模型基礎(chǔ)設(shè)施與算力優(yōu)化、出海合規(guī)與大模型安全、云原生工程、演進式架構(gòu)、線上可靠性、新技術(shù)浪潮下的大前端…… 不得不說,QCon 還是太全面了?,F(xiàn)在報名可以享受 9 折優(yōu)惠,詳情請聯(lián)系票務經(jīng)理 17310043226 咨詢。
舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version