ITBear旗下自媒體矩陣:

瞄準前沿技術,百度開源持續(xù)創(chuàng)新

   時間:2023-06-21 14:36:24 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評論無障礙通道

在近日舉行的 2023 全球開源技術峰會上,百度分享了多個精彩議題,充分展示了其在 AI、云原生、圖數(shù)據(jù)庫、物聯(lián)網(wǎng)等前沿技術領域布局和進展。

在主論壇的演講中,百度集團副總裁侯震宇表示,大語言模型推動了人工智能在全產(chǎn)業(yè)的高速發(fā)展?!拔覀兿嘈?AI 能賦能產(chǎn)業(yè)、改變產(chǎn)業(yè)?!痹缭?2010 年,百度就開始全面布局人工智能,是全球為數(shù)不多、進行全棧布局的人工智能公司,因此也積累了較為雄厚的技術基礎。

侯震宇透露:“從一開始,我們就希望能夠建立一個以云計算為基礎支撐整個數(shù)字產(chǎn)業(yè)的升級,以人工智能為引擎在關鍵場景為企業(yè)賦能的平臺。”于是,百度智能云被寄予厚望,不斷朝著“云智一體”的目標邁進。如今,百度智能云正在為企業(yè)和開發(fā)者提供全球領先的人工智能、大數(shù)據(jù)和云計算服務,加速產(chǎn)業(yè)智能化轉(zhuǎn)型升級。

而在百度智能云背后,正是百度在人工智能、云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等領域沉淀的先進技術在提供支撐。恰逢 2023 全球開源技術峰會,飛槳、Apollo、超級鏈、HugeGraph、Baetyl、Teaclave 等開源項目以演講、展覽等形式亮相,令人得以一覽百度開源技術豐富度和多樣性。

飛槳:產(chǎn)業(yè)級深度學習開源開放平臺

據(jù)侯震宇介紹,AI 技術??煞譃椤靶酒瑢印⒖蚣軐?、模型層、應用層”四層。百度在技術棧的各層都有領先業(yè)界的關鍵自研技術,從昆侖芯片、飛槳深度學習平臺、文心大模型到應用,實現(xiàn)了層與層反饋,端到端優(yōu)化,大幅提升效率。

其中,在框架層,百度開源了首個自主研發(fā)的產(chǎn)業(yè)級深度學習平臺飛槳,包括核心框架、產(chǎn)業(yè)級模型庫、開發(fā)套件、工具組件,以及學習和實訓社區(qū),能夠標準化、自動化地支撐模型生產(chǎn)和應用。也正是飛槳深度學習平臺,為新一代大語言模型文心一言提供著堅實的技術支撐,實現(xiàn)了靈活開發(fā)、高效訓練和推理部署,讓文心大模型從 2019 年發(fā)布以來,從最初的自然語言理解大模型,發(fā)展成了跨語言、跨模態(tài)、跨任務、跨行業(yè)的大模型平臺。

飛槳得到了廣大開發(fā)者和企業(yè)的青睞,中國信通院發(fā)布的《深度學習平臺報告(2022)》顯示,飛槳在國內(nèi)的應用規(guī)模排名第一。

百度飛槳框架產(chǎn)品負責人、開放原子開源基金會 TOC 委員張軍帶來了關于“產(chǎn)業(yè)級深度學習開源開放平臺飛槳及其開源社區(qū)”的主題演講。張軍介紹,作為一個源于產(chǎn)業(yè)實踐的深度學習平臺,飛槳有著開發(fā)便捷的深度學習框架;算法總數(shù)超過600個的產(chǎn)業(yè)級模型庫;豐富的端到端開發(fā)套件和工具組件。具有產(chǎn)業(yè)級、低門檻的特點,全面支持 AI 科研和真實產(chǎn)業(yè)應用。

在百度內(nèi)部,基于飛槳的計算集群每月支持 20 萬個訓練任務;基于飛槳的在線推理每天服務近六十億次請求;飛槳支持搜索、推薦、自動駕駛、地圖、小度等眾多公司業(yè)務。在百度之外,飛槳助力產(chǎn)業(yè)的智能化升級,覆蓋 20+ 行業(yè),服務 20 萬企業(yè),創(chuàng)建 67 萬模型。

而這一個應用廣泛的產(chǎn)業(yè)級深度學習平臺正是由來自不同組織、地區(qū)的眾多開發(fā)者共同構(gòu)建的。據(jù)介紹,飛槳的開發(fā)者主要由三部分構(gòu)成:BAIDU contributors,專職的研發(fā)部門(深度學習技術平臺部),及非專職的其他部門的工程師;Corporate contributors,NVIDIA、INTEL、昆侖芯、寒武紀,等多家硬件公司的專職工程師;Individual contributors,來自高校的學生及來自企業(yè)的工程師在業(yè)余時間的貢獻。

張軍還分享了飛槳開源社區(qū)建設的一些思考,如遵循國際化思考、本地化行動的原則;與全球的上下游開源項目積極的生態(tài)合作,堅持開發(fā)者社區(qū)比開發(fā)本身更重要;而在具體行動上則因地制宜,采用特色的組織模式和運營活動,加速中國產(chǎn)業(yè)智能化升級。

Apache HugeGraph:千億級大規(guī)模圖數(shù)據(jù)庫 + 圖計算系統(tǒng)

Apache HugeGraph 是國內(nèi)首個開源的圖數(shù)據(jù)庫,由百度自主研發(fā),提供了一站式的千億級大規(guī)模圖數(shù)據(jù)的存儲、在線查詢、離線分析平臺。2016 年,百度啟動 HugeGraph 項目,并在 2018 年對外開源,2022 年 5 月 13 日正式捐贈 Apache 軟件基金會開啟孵化。2023 年初,HugeGraph 發(fā)布了正式的 Apache 第一個孵化后的 1.0 版本。

CVTE 研究院圖數(shù)據(jù)庫負責人張世鳴是 HugeGraph 社區(qū)的 PMC,此次他圍繞“Apache HugeGraph 分布式存儲與計算開源演進之路”發(fā)表主題演講。

據(jù)張世鳴介紹,HugeGraph 是 Apache 軟件基金會唯一一個圖數(shù)據(jù)庫及圖計算系統(tǒng),具有穩(wěn)定、易用、可擴展等特點,具備出色的 OLTP、OLAP 能力,可以輕松地將數(shù)百億甚至千億個頂點和邊存儲到 HugeGraph 中并從中進行查詢。它實現(xiàn)了 Apache TinkerPop 3 框架,支持 Gremlin及 Cpyher 兩種圖查詢語言,并能輕松的與 MySQL、RocksDB 等多種大數(shù)據(jù)組件進行快速對接。

HugeGraph 1.0 版本的架構(gòu)整體上可以分成3層,存儲層、計算層和應用層。

存儲層負責圖數(shù)據(jù)存儲,包括頂點、邊和屬性等、系統(tǒng)數(shù)據(jù)存儲和 Schema 存儲。存儲層是通過插件化的方式實現(xiàn)的,這也是 HugeGraph 的亮點之一,用戶可以根據(jù)自己的需求去選擇后端存儲,目前已經(jīng)支持 RocksDB、Hbase 和 MySQL 等。

計算層為了適配底層不同的存儲結(jié)構(gòu),增加了后端適配層,用于屏蔽底層數(shù)據(jù)庫的差異,適配層往上的 Graph Engine 是 HugeGraph 的核心,負責圖查詢語句的解析,序列化等等,最上層支持了基于 Restful 和 Gremlin 的 OLTP 查詢,同時在 OLAP 方面也支持了環(huán)路檢測、最短路徑、PersonalRank 等16種圖算法,并且實現(xiàn)了異步的執(zhí)行方式,對于執(zhí)行時間比較久的算法或者 Gremlin 語句可以通過異步的方式去提交和執(zhí)行。

在應用層,HugeGraph 提供了豐富的工具給用戶使用,包括可視化、Loader、備份、客戶端等等。方便用戶來構(gòu)建和使用圖數(shù)據(jù)。

在 1.0 架構(gòu)下,HugeGraph目前支持的分布式架構(gòu)主要有兩種,一種是基于 RocksDB 的 Replication 模式,另一種是基于第三方的分布式存儲,比如 Hbase、Cassandra 等等。

但這兩種架構(gòu)的弊端都比較明顯。RocksDB 的 Replicate 模式雖然也是基于 raft 對數(shù)據(jù)集進行復制,能保證數(shù)據(jù)的一致性,但是每個節(jié)點都保留了全量的數(shù)據(jù),并沒有增加可存儲的數(shù)據(jù)量,只是有了高可用的支持,而且 server 的執(zhí)行邏輯基本也是串行的。HbaseBackendStore 的模式,過于依賴 Hbase 的存儲,Hbase 的調(diào)優(yōu)原本就是一件比較復雜的工程,很容易成為瓶頸,特別是內(nèi)存的調(diào)優(yōu),Hbase 的集群管理挑戰(zhàn)也非常大,依賴的組件非常多,HDFS,zk 等等,而且在需要進行條件過濾/或者聚合的場景下,需要拉取數(shù)據(jù)在 Server 端進行,下推到存儲端的成本非常高。所以更好的方案是我們在 Rocksdb Replicate Mode 的基礎上支持 shard mode,單 raft group 改造成 multi raftgroup,這樣的話為了能有更好地擴展性。

張世鳴透露,基于上述這些問題,HugeGraph 今年計劃朝著全新的 2.0 版本繼續(xù)演進,推動內(nèi)部版本與開源版的融合。2.0 版本重大變化覆蓋 4 大方面:架構(gòu)方面,包括分布式架構(gòu),支持圖數(shù)據(jù)分區(qū)+數(shù)據(jù)副本,計算存儲分離框架,便于計算及存儲靈活伸縮;集群管理方面,采用高可用設計,支持容災及故障恢復,基于分區(qū)支持副本的數(shù)據(jù)重分,更多監(jiān)控指標;查詢方面,包括算子下沉、gremlin 并行化、細粒度的內(nèi)存管理;使用(接口優(yōu)化+功能增強)方面,包括接口增加統(tǒng)計信息(遍歷的頂點、邊和耗時)、支持動態(tài)創(chuàng)建圖、unique 索引可以查詢等。

未來,HugeGraph 2.0 將基于分布式版本持續(xù)做更多的優(yōu)化,保證集群穩(wěn)定性;持續(xù)優(yōu)化圖查詢,實現(xiàn)內(nèi)存管控的完整體系;實現(xiàn)更多的圖分析算法支持,尤其是提供圖產(chǎn)品化的解決方案,大幅降低使用門檻……

Baetyl:為設備側(cè)邊緣計算提供云原生的編排調(diào)度能力

Baetyl 是中國首個發(fā)布的開源邊緣計算框架。本次峰會,百度智能云物聯(lián)網(wǎng)主任架構(gòu)師黃誠通過開源項目 Baetyl 就百度在智能邊緣領域的布局與思考展開分享。

據(jù)介紹,百度于 2019 年將 Baetyl 捐贈給了 LF Edge 基金會,是該基金會成立以來最早加入的項目。Baetyl 支持 x86、ARM、MIPS、CPU 等網(wǎng)絡芯片,以及各類 GPU 和神經(jīng)網(wǎng)絡芯片,能夠為設備側(cè)邊緣計算提供云原生的編排調(diào)度能力,將云計算的應用無縫擴展到邊緣,使云和邊緣的數(shù)據(jù)實現(xiàn)自由交換。

當前,Baetyl 適配多種架構(gòu)及各大主流操作系統(tǒng),可在如寒武紀盒子、華為 Atlas、樹莓派、比特大陸、EdgeBoard 等各種硬件設備上運行,安裝 Baetyl 后就可以快速變?yōu)橹悄艿倪吘売嬎阍O備。

Baetyl 的核心能力主要表現(xiàn)為四個方面:

云邊協(xié)同:邊緣計算節(jié)點需要納入云計算中心的管理,定期上報自己的狀態(tài)并同步云端信息

調(diào)度管理:云端管理套件提供節(jié)點和應用關聯(lián)的管理,節(jié)點上的邊緣計算程序負責調(diào)度到合理的地方運行

邊緣自治:在邊緣節(jié)點和云端斷網(wǎng)的情況下,邊緣節(jié)點能正常運行,并在網(wǎng)絡恢復后能快速恢復

設備管理:提供邊緣軟網(wǎng)關能力,支持設備通過各類協(xié)議接入,提供設備信息上行及云端數(shù)據(jù)同步的功能

整體架構(gòu)方面,Baetyl 包含設備接入、數(shù)據(jù)處理、數(shù)據(jù)上報、流式計算、函數(shù)計算、AI 推斷等功能,天然支持云原生,能夠?qū)⒃朴嬎隳芰ρ由熘劣脩衄F(xiàn)場,提供可以臨時離線、低延時的計算服務。

這得益于其采用云端管理、邊緣運行的方案。Baetyl 分為云端管理套件(Baetyl cloud)和邊緣計算框架兩部分。Baetyl cloud 運行在云端,目標是收集所有在 Kubernetes 上的配置,支持在云端配置邊緣計算集群,管理所有資源,如:節(jié)點、應用、配置等。

在標準情況下,Baetyl cloud 會收集并打包來自 Kubernetes 控制面的信息,再由安全網(wǎng)絡提供到本地的設備上,而 Baetyl 和云端管理套件之間會使用端到端的強制性的雙向認證,進一步保證了安全問題。

邊緣計算框架運行在邊緣節(jié)點的 Kubernetes 集群中。在默認情況下,Baetyl 提供的是輕量版的 K3S 集群,如果有需要,也可以擴展成本地的 Kubernetes 集群。上面運行的 Baetyl 本地程序不斷地接收來自 Baetyl cloud 的配置,并不斷地將這些配置應用到本地的 Kubernetes,由此完成邊和云之間的同步。

隨著 “云+AI”在更多行業(yè)、更大范圍內(nèi)持續(xù)推進,Baetyl 也在更多行業(yè)和場景實現(xiàn)了落地。Baetyl 已經(jīng)和百度智能云天工物聯(lián)網(wǎng)平臺、百度 Al 等團隊打通,面向各行業(yè)客戶提供端到端的解決方案,目前在電力巡檢、AI 質(zhì)檢等領域得到了驗證。

Apollo:全球最活躍的自動駕駛開放平臺

在 2023 全球開源技術峰會峰會現(xiàn)場,“Apollo開放平臺”開設了展位,為與會者展示和講解Apollo自動駕駛技術的最新進展。百度 2013 年開始布局自動駕駛,2017 年推出全球首個自動駕駛開放平臺 Apollo。目前百度 Apollo 已經(jīng)在自動駕駛、智能汽車、智能交通三大領域擁有業(yè)內(nèi)領先的解決方案。

“Apollo 開放平臺”是一個開放的、完整的、安全的平臺,旨在幫助汽車行業(yè)及自動駕駛領域的合作伙伴結(jié)合車輛和硬件系統(tǒng),快速搭建一套屬于自己的自動駕駛系統(tǒng),目前已經(jīng)升級迭代到第 12 個版本:Apollo 開放平臺 8.0。

Apollo 開放平臺 8.0 分別從“新架構(gòu)”“新能力”兩個重要層面進行了全面升級,從開發(fā)者的實際需求出發(fā)進行改良,幫助開發(fā)者更好、更快地熟悉和使用百度 Apollo 開放平臺—— 在平臺架構(gòu)層面上,從面向技術分層的架構(gòu),升級為結(jié)合技術與生態(tài)分層的架構(gòu),為開發(fā)者提供易用的軟件核心和云服務工具及易擴展的硬件設備與軟件場景應用;在平臺能力構(gòu)建上,通過軟件包管理機制、感知全流程升級及全新 PnC 工具鏈,全面提升開發(fā)者使用效率。與此同時,全新上線的自動駕駛一站式學習實踐社區(qū)——Apollo Studio,也成為開發(fā)者們一站式學習實踐和共同交流成長的絕佳窗口。

作為全球最大自動駕駛開放平臺,Apollo 開放平臺的開源代碼量已超過 75 萬行,并且匯聚了來自全球 165 個國家的 10 萬多名開發(fā)者,擁有全球超 220 家生態(tài)合作伙伴,幾乎囊括全球主流汽車制造商、一級零部件供應商、芯片公司、傳感器公司、交通集成商、出行企業(yè)等,覆蓋從硬件到軟件的完整產(chǎn)業(yè)鏈。Apollo 開放平臺 8.0 的推出,再次讓 Apollo 開放平臺在工程易用性上向前邁進一大步,降低操作難度、操作成本的門檻,讓更多開發(fā)者可以簡單方便地上手 Apollo 開放平臺、投身自動駕駛技術領域。

目前 Apollo 已獲得中國測試牌照總計 1000 多張,自動駕駛專利族超 4600 項,其中高級別自動駕駛專利族數(shù)全球第一,測試里程總計超過 5000 萬公里。Apollo 開放平臺始終秉“承開放能力、共享資源、加速創(chuàng)新、持續(xù)共贏”的核心理念,不斷帶來創(chuàng)新和升級。未來,Apollo 也期待與更多開發(fā)者及合作伙伴一起,不斷拓展能力邊界、探索自動駕駛技術和產(chǎn)業(yè)的更多可能性,造福人類發(fā)展。

小結(jié)

在數(shù)字經(jīng)濟時代,越來越多的企業(yè)開始參與開源項目,甚至主導開源項目。尤其是在人工智能、區(qū)塊鏈、物聯(lián)網(wǎng)、云計算、大數(shù)據(jù)等新興技術領域,開源更是成為了技術創(chuàng)新、產(chǎn)業(yè)協(xié)作、生態(tài)開放的重要方式。

一直以來,百度積極擁抱開源,致力于開源技術生態(tài)的建設,通過開源項目的推廣和貢獻,吸引全球開發(fā)者參與,共同推動技術的發(fā)展。截至 2022 年底,百度已經(jīng)開源了超過 1000 個項目,社區(qū)貢獻者超過 20000 人,技術涵蓋了機器學習、自動駕駛、區(qū)塊鏈、數(shù)據(jù)存儲、邊緣計算、大前端、安全等多個領域。尤其是飛槳( PaddlePaddle)、Apollo、超級鏈(XuprChain)等開源項目已經(jīng)成為業(yè)內(nèi)領先的技術平臺,吸引了越來越多的開發(fā)者參與其中。這些開源項目的成功實踐不僅促進了百度自身技術的提升,也為全球開源社區(qū)做出了積極的貢獻。

管中窺豹,可見一斑。從開源的角度看百度的技術布局,可以令人感受到,百度一直在前沿技術領域持續(xù)創(chuàng)新。尤其是在 AI 大模型席卷全球的今天,百度愈加主動出擊。

百度的使命是“用科技讓復雜的世界更簡單”。最后,引用侯震宇在峰會上的講話:“我們相信,隨著這一輪激動人心的技術浪潮,生成式 AI 技術浪潮,百度其實已經(jīng)準備好了,我們愿意拿自己積累的技術,和整個平臺、整個產(chǎn)業(yè)里的合作伙伴一起把整個中國的人工智能產(chǎn)業(yè)推上更高的高峰,也讓我們的 AI 的能力真的能夠助力我們行業(yè)伙伴,讓客戶能夠從中收益。”

舉報 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  RSS訂閱  |  開放轉(zhuǎn)載  |  滾動資訊  |  爭議稿件處理  |  English Version