近日,據(jù)TechCrunch獲取的一份內(nèi)部交流資料顯示,負責(zé)優(yōu)化谷歌Gemini人工智能模型的承包商,在進行模型評估時,將Gemini的回答與另一家AI公司Anthropic的競品模型Claude的輸出進行了直接對比。這一行為隨即引發(fā)了業(yè)界對于谷歌是否遵循了與Anthropic的協(xié)議規(guī)定,是否有權(quán)使用Claude進行此類測試的質(zhì)疑。
在當(dāng)前的AI開發(fā)競賽中,模型性能的評估往往依賴于標(biāo)準(zhǔn)化的行業(yè)基準(zhǔn)測試,而非通過詳細對比競爭對手的AI響應(yīng)來進行。然而,此次Gemini的承包商被要求依據(jù)包括真實性和詳細程度在內(nèi)的多項標(biāo)準(zhǔn),對每個收到的回復(fù)進行評分。據(jù)TechCrunch獲得的內(nèi)部交流信息,承包商有最多30分鐘的時間來判斷Gemini或Claude的答案哪個更優(yōu)。
在對比過程中,承包商們注意到Claude的回答似乎更加注重安全性。有承包商在交流中提到:“Claude在所有AI模型中,安全設(shè)置最為嚴(yán)格?!痹谀承y試場景下,Claude會拒絕回應(yīng)它認為不安全的提示詞,例如扮演不同的AI助手。而在另一項測試中,Claude避免了對某個特定提示詞的回應(yīng),相比之下,Gemini的回答因包含“裸體和束縛”等敏感內(nèi)容,被判定為“嚴(yán)重的安全違規(guī)”。
值得注意的是,Anthropic的商業(yè)服務(wù)條款明確規(guī)定,禁止客戶未經(jīng)其批準(zhǔn),使用Claude來“構(gòu)建競爭產(chǎn)品或服務(wù)”或“訓(xùn)練競爭AI模型”。而谷歌正是Anthropic的主要投資方之一。
面對外界的質(zhì)疑,谷歌DeepMind(負責(zé)Gemini的開發(fā))的發(fā)言人McNamara回應(yīng)稱,DeepMind確實會“對比模型輸出”作為評估的一部分,但否認了在Anthropic的模型上訓(xùn)練Gemini的指控。“我們確實會在某些情況下,按照行業(yè)慣例,對比模型輸出來進行評估,”McNamara表示,“然而,關(guān)于我們使用Anthropic模型訓(xùn)練Gemini的說法,是完全不準(zhǔn)確的?!?/p>