近期,據(jù)TechCrunch披露,谷歌對其大型語言模型Gemini的回復評估流程做出了一項重要調(diào)整,這一變動引起了外界對其在敏感信息領域準確性的廣泛關注。谷歌與外包合作伙伴GlobalLogic合作,后者負責雇傭合同工來評估Gemini生成的回復,評估的關鍵標準之一是“真實性”。
在此之前,若評估員發(fā)現(xiàn)某個問題超出了他們的專業(yè)知識范圍,比如涉及心臟病學的復雜問題,而自身不具備相應的科學背景,他們可以選擇跳過該評估任務,以避免對不熟悉領域的回復進行評判。這一機制原本旨在確保評估的準確性和專業(yè)性。
然而,GlobalLogic近期宣布,谷歌要求評估員不得再因缺乏專業(yè)知識而跳過任何評估任務。新的指導方針明確指出,即使面對高度專業(yè)化的技術(shù)性問題,如罕見疾病的描述,評估員也不應跳過,而是需要評估他們能夠理解的提示部分,并注明自身在相關領域的知識不足。這一變化意味著,即便是醫(yī)療健康等高度專業(yè)性的領域,也可能由不具備相關背景知識的評估員進行評估。
這一調(diào)整引發(fā)了人們的擔憂,因為缺乏專業(yè)知識的評估員在評估高度專業(yè)化的回復時,可能難以準確判斷其準確性。一位合同工在內(nèi)部通信中表達了困惑:“我之前以為跳過的目的是將任務交給更專業(yè)的人來提高準確性,但現(xiàn)在這樣做似乎并非如此?!?/p>
根據(jù)新的規(guī)定,評估員只有在兩種情況下可以跳過提示:一是當提示或回復“完全缺失信息”,二是當提示包含需要特殊同意書才能評估的有害內(nèi)容。這一新規(guī)的實施,無疑增加了Gemini在高度專業(yè)性領域輸出不準確信息的風險。
在醫(yī)療健康等關鍵領域,不準確的信息可能對用戶造成誤導,甚至帶來嚴重后果。因此,這一調(diào)整引發(fā)了廣泛關注和擔憂。用戶期望從Gemini獲得準確可靠的信息,尤其是在涉及健康等重要問題時。然而,隨著評估流程的變化,這一期望可能面臨挑戰(zhàn)。
這一調(diào)整也引發(fā)了關于人工智能倫理和責任的討論。在高度專業(yè)化的領域,如何確保人工智能生成的回復準確無誤,是一個復雜而重要的問題。谷歌作為行業(yè)領先者,其在這一問題上的決策將對整個行業(yè)產(chǎn)生深遠影響。
截至目前,谷歌尚未對相關報道作出回應。然而,隨著外界對Gemini準確性擔憂的加劇,谷歌可能需要盡快采取措施來回應這些關切,以確保其大型語言模型在高度專業(yè)性領域的信息輸出保持準確性和可靠性。