近期,騰訊在人工智能領(lǐng)域迎來了一位重量級新成員。據(jù)知情人士透露,前微軟亞洲研究院視覺計算組的首席研究員胡瀚,已正式加入騰訊,他將負責(zé)多模態(tài)大模型的研發(fā)工作,接替了此前離職的騰訊混元大模型技術(shù)負責(zé)人劉威。
劉威的離職發(fā)生在去年11月,作為騰訊的杰出科學(xué)家和混元大模型技術(shù)團隊的核心成員,他的離開無疑引起了業(yè)界的廣泛關(guān)注。而胡瀚的加入,則被視為騰訊在人工智能領(lǐng)域持續(xù)深耕的重要一步。
胡瀚的學(xué)術(shù)背景深厚,他于2008年獲得清華大學(xué)本科學(xué)位,并在2014年取得清華大學(xué)博士學(xué)位。自2016年12月起,他一直在微軟亞洲研究院視覺計算組擔(dān)任研究員,積累了豐富的研究經(jīng)驗。在計算機視覺領(lǐng)域,胡瀚是公認的重要研究者,他曾參與撰寫了一篇具有重要影響力的論文——《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》。
這篇論文提出的Swin Transformer模型,在性能上超越了DeiT、ViT和EfficientNet等主流網(wǎng)絡(luò)架構(gòu),成為了計算機視覺領(lǐng)域的新標(biāo)桿。它替代了傳統(tǒng)的CNN架構(gòu),成為了眾多神經(jīng)網(wǎng)絡(luò)和機器學(xué)習(xí)模型中的基礎(chǔ)結(jié)構(gòu),即backbone。
騰訊在人工智能領(lǐng)域的布局一直備受矚目。去年9月,騰訊正式發(fā)布了新一代大模型——騰訊混元Turbo。這款模型采用了MoE架構(gòu),相比上一代產(chǎn)品,在推理效率上提升了100%,推理成本則降低了50%。這一成果不僅展示了騰訊在人工智能領(lǐng)域的強大實力,也為行業(yè)樹立了新的標(biāo)桿。
而在去年12月,騰訊又宣布了混元大模型的又一重要進展——上線并開源了文生視頻能力。這款模型參數(shù)量達到130億,支持中英文雙語輸入,為視頻創(chuàng)作和內(nèi)容生成提供了全新的解決方案。