【ITBEAR科技資訊】7月20日消息,人工智能公司Cohere的首席執(zhí)行官Aiden Gomez近日透露,AI公司在面對Reddit、Twitter等公司提出的高昂數(shù)據(jù)采集要價時,已經(jīng)開始采用合成數(shù)據(jù)來訓練AI模型。微軟、OpenAI和Cohere等公司都在利用這一方法,以降低數(shù)據(jù)采集的成本。
據(jù)Gomez表示,合成數(shù)據(jù)具有廣泛適用性,可以用于多種訓練場景,只是目前還未被全面推廣。他舉了一個例子來說明合成數(shù)據(jù)的應用:假設(shè)一家企業(yè)想要在高等數(shù)學領(lǐng)域訓練一個模型,他們可以創(chuàng)建兩個人工智能模型,一個扮演老師的角色,另一個扮演學生的角色,并讓它們進行關(guān)于三角學等主題的討論。AI模型主要負責觀察,如果發(fā)現(xiàn)任何錯誤,可以進行糾正。
合成數(shù)據(jù)是通過計算機技術(shù)人工生成的數(shù)據(jù),而非來自真實事件。盡管如此,合成數(shù)據(jù)仍然具備可用性,可以在數(shù)學和統(tǒng)計上反映原始數(shù)據(jù)的特征,因此可以作為原始數(shù)據(jù)的替代品來訓練、測試和驗證大型AI模型。
據(jù)ITBEAR科技資訊了解,使用合成數(shù)據(jù)進行訓練可以帶來許多優(yōu)勢。首先,合成數(shù)據(jù)可以根據(jù)需要生成,因此可以輕松獲得大量的標注數(shù)據(jù),以提高模型的準確性。其次,合成數(shù)據(jù)可以模擬各種場景和情況,包括那些在真實世界中難以獲取的數(shù)據(jù),從而提高模型的泛化能力。此外,合成數(shù)據(jù)還可以創(chuàng)建多樣化的數(shù)據(jù)集,以更全面地訓練和測試模型。
然而,雖然合成數(shù)據(jù)在AI模型訓練方面有潛力,但仍存在一些限制。合成數(shù)據(jù)的質(zhì)量和真實性是重要問題,需要確保生成的數(shù)據(jù)與真實數(shù)據(jù)保持一致和可靠,以確保訓練出的模型在真實世界中表現(xiàn)良好。此外,合成數(shù)據(jù)的廣泛應用還需要進一步的研究和驗證,以確保在不同領(lǐng)域和任務(wù)中的有效性。