ITBear旗下自媒體矩陣:

瞄準(zhǔn)前沿技術(shù),百度開源持續(xù)創(chuàng)新

   時間:2023-06-21 14:36:24 來源:互聯(lián)網(wǎng)編輯:茹茹 發(fā)表評論無障礙通道

在近日舉行的 2023 全球開源技術(shù)峰會上,百度分享了多個精彩議題,充分展示了其在 AI、云原生、圖數(shù)據(jù)庫、物聯(lián)網(wǎng)等前沿技術(shù)領(lǐng)域布局和進(jìn)展。

在主論壇的演講中,百度集團(tuán)副總裁侯震宇表示,大語言模型推動了人工智能在全產(chǎn)業(yè)的高速發(fā)展。“我們相信 AI 能賦能產(chǎn)業(yè)、改變產(chǎn)業(yè)?!痹缭?2010 年,百度就開始全面布局人工智能,是全球?yàn)閿?shù)不多、進(jìn)行全棧布局的人工智能公司,因此也積累了較為雄厚的技術(shù)基礎(chǔ)。

侯震宇透露:“從一開始,我們就希望能夠建立一個以云計(jì)算為基礎(chǔ)支撐整個數(shù)字產(chǎn)業(yè)的升級,以人工智能為引擎在關(guān)鍵場景為企業(yè)賦能的平臺。”于是,百度智能云被寄予厚望,不斷朝著“云智一體”的目標(biāo)邁進(jìn)。如今,百度智能云正在為企業(yè)和開發(fā)者提供全球領(lǐng)先的人工智能、大數(shù)據(jù)和云計(jì)算服務(wù),加速產(chǎn)業(yè)智能化轉(zhuǎn)型升級。

而在百度智能云背后,正是百度在人工智能、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等領(lǐng)域沉淀的先進(jìn)技術(shù)在提供支撐。恰逢 2023 全球開源技術(shù)峰會,飛槳、Apollo、超級鏈、HugeGraph、Baetyl、Teaclave 等開源項(xiàng)目以演講、展覽等形式亮相,令人得以一覽百度開源技術(shù)豐富度和多樣性。

飛槳:產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺

據(jù)侯震宇介紹,AI 技術(shù)??煞譃椤靶酒瑢印⒖蚣軐?、模型層、應(yīng)用層”四層。百度在技術(shù)棧的各層都有領(lǐng)先業(yè)界的關(guān)鍵自研技術(shù),從昆侖芯片、飛槳深度學(xué)習(xí)平臺、文心大模型到應(yīng)用,實(shí)現(xiàn)了層與層反饋,端到端優(yōu)化,大幅提升效率。

其中,在框架層,百度開源了首個自主研發(fā)的產(chǎn)業(yè)級深度學(xué)習(xí)平臺飛槳,包括核心框架、產(chǎn)業(yè)級模型庫、開發(fā)套件、工具組件,以及學(xué)習(xí)和實(shí)訓(xùn)社區(qū),能夠標(biāo)準(zhǔn)化、自動化地支撐模型生產(chǎn)和應(yīng)用。也正是飛槳深度學(xué)習(xí)平臺,為新一代大語言模型文心一言提供著堅(jiān)實(shí)的技術(shù)支撐,實(shí)現(xiàn)了靈活開發(fā)、高效訓(xùn)練和推理部署,讓文心大模型從 2019 年發(fā)布以來,從最初的自然語言理解大模型,發(fā)展成了跨語言、跨模態(tài)、跨任務(wù)、跨行業(yè)的大模型平臺。

飛槳得到了廣大開發(fā)者和企業(yè)的青睞,中國信通院發(fā)布的《深度學(xué)習(xí)平臺報(bào)告(2022)》顯示,飛槳在國內(nèi)的應(yīng)用規(guī)模排名第一。

百度飛槳框架產(chǎn)品負(fù)責(zé)人、開放原子開源基金會 TOC 委員張軍帶來了關(guān)于“產(chǎn)業(yè)級深度學(xué)習(xí)開源開放平臺飛槳及其開源社區(qū)”的主題演講。張軍介紹,作為一個源于產(chǎn)業(yè)實(shí)踐的深度學(xué)習(xí)平臺,飛槳有著開發(fā)便捷的深度學(xué)習(xí)框架;算法總數(shù)超過600個的產(chǎn)業(yè)級模型庫;豐富的端到端開發(fā)套件和工具組件。具有產(chǎn)業(yè)級、低門檻的特點(diǎn),全面支持 AI 科研和真實(shí)產(chǎn)業(yè)應(yīng)用。

在百度內(nèi)部,基于飛槳的計(jì)算集群每月支持 20 萬個訓(xùn)練任務(wù);基于飛槳的在線推理每天服務(wù)近六十億次請求;飛槳支持搜索、推薦、自動駕駛、地圖、小度等眾多公司業(yè)務(wù)。在百度之外,飛槳助力產(chǎn)業(yè)的智能化升級,覆蓋 20+ 行業(yè),服務(wù) 20 萬企業(yè),創(chuàng)建 67 萬模型。

而這一個應(yīng)用廣泛的產(chǎn)業(yè)級深度學(xué)習(xí)平臺正是由來自不同組織、地區(qū)的眾多開發(fā)者共同構(gòu)建的。據(jù)介紹,飛槳的開發(fā)者主要由三部分構(gòu)成:BAIDU contributors,專職的研發(fā)部門(深度學(xué)習(xí)技術(shù)平臺部),及非專職的其他部門的工程師;Corporate contributors,NVIDIA、INTEL、昆侖芯、寒武紀(jì),等多家硬件公司的專職工程師;Individual contributors,來自高校的學(xué)生及來自企業(yè)的工程師在業(yè)余時間的貢獻(xiàn)。

張軍還分享了飛槳開源社區(qū)建設(shè)的一些思考,如遵循國際化思考、本地化行動的原則;與全球的上下游開源項(xiàng)目積極的生態(tài)合作,堅(jiān)持開發(fā)者社區(qū)比開發(fā)本身更重要;而在具體行動上則因地制宜,采用特色的組織模式和運(yùn)營活動,加速中國產(chǎn)業(yè)智能化升級。

Apache HugeGraph:千億級大規(guī)模圖數(shù)據(jù)庫 + 圖計(jì)算系統(tǒng)

Apache HugeGraph 是國內(nèi)首個開源的圖數(shù)據(jù)庫,由百度自主研發(fā),提供了一站式的千億級大規(guī)模圖數(shù)據(jù)的存儲、在線查詢、離線分析平臺。2016 年,百度啟動 HugeGraph 項(xiàng)目,并在 2018 年對外開源,2022 年 5 月 13 日正式捐贈 Apache 軟件基金會開啟孵化。2023 年初,HugeGraph 發(fā)布了正式的 Apache 第一個孵化后的 1.0 版本。

CVTE 研究院圖數(shù)據(jù)庫負(fù)責(zé)人張世鳴是 HugeGraph 社區(qū)的 PMC,此次他圍繞“Apache HugeGraph 分布式存儲與計(jì)算開源演進(jìn)之路”發(fā)表主題演講。

據(jù)張世鳴介紹,HugeGraph 是 Apache 軟件基金會唯一一個圖數(shù)據(jù)庫及圖計(jì)算系統(tǒng),具有穩(wěn)定、易用、可擴(kuò)展等特點(diǎn),具備出色的 OLTP、OLAP 能力,可以輕松地將數(shù)百億甚至千億個頂點(diǎn)和邊存儲到 HugeGraph 中并從中進(jìn)行查詢。它實(shí)現(xiàn)了 Apache TinkerPop 3 框架,支持 Gremlin及 Cpyher 兩種圖查詢語言,并能輕松的與 MySQL、RocksDB 等多種大數(shù)據(jù)組件進(jìn)行快速對接。

HugeGraph 1.0 版本的架構(gòu)整體上可以分成3層,存儲層、計(jì)算層和應(yīng)用層。

存儲層負(fù)責(zé)圖數(shù)據(jù)存儲,包括頂點(diǎn)、邊和屬性等、系統(tǒng)數(shù)據(jù)存儲和 Schema 存儲。存儲層是通過插件化的方式實(shí)現(xiàn)的,這也是 HugeGraph 的亮點(diǎn)之一,用戶可以根據(jù)自己的需求去選擇后端存儲,目前已經(jīng)支持 RocksDB、Hbase 和 MySQL 等。

計(jì)算層為了適配底層不同的存儲結(jié)構(gòu),增加了后端適配層,用于屏蔽底層數(shù)據(jù)庫的差異,適配層往上的 Graph Engine 是 HugeGraph 的核心,負(fù)責(zé)圖查詢語句的解析,序列化等等,最上層支持了基于 Restful 和 Gremlin 的 OLTP 查詢,同時在 OLAP 方面也支持了環(huán)路檢測、最短路徑、PersonalRank 等16種圖算法,并且實(shí)現(xiàn)了異步的執(zhí)行方式,對于執(zhí)行時間比較久的算法或者 Gremlin 語句可以通過異步的方式去提交和執(zhí)行。

在應(yīng)用層,HugeGraph 提供了豐富的工具給用戶使用,包括可視化、Loader、備份、客戶端等等。方便用戶來構(gòu)建和使用圖數(shù)據(jù)。

在 1.0 架構(gòu)下,HugeGraph目前支持的分布式架構(gòu)主要有兩種,一種是基于 RocksDB 的 Replication 模式,另一種是基于第三方的分布式存儲,比如 Hbase、Cassandra 等等。

但這兩種架構(gòu)的弊端都比較明顯。RocksDB 的 Replicate 模式雖然也是基于 raft 對數(shù)據(jù)集進(jìn)行復(fù)制,能保證數(shù)據(jù)的一致性,但是每個節(jié)點(diǎn)都保留了全量的數(shù)據(jù),并沒有增加可存儲的數(shù)據(jù)量,只是有了高可用的支持,而且 server 的執(zhí)行邏輯基本也是串行的。HbaseBackendStore 的模式,過于依賴 Hbase 的存儲,Hbase 的調(diào)優(yōu)原本就是一件比較復(fù)雜的工程,很容易成為瓶頸,特別是內(nèi)存的調(diào)優(yōu),Hbase 的集群管理挑戰(zhàn)也非常大,依賴的組件非常多,HDFS,zk 等等,而且在需要進(jìn)行條件過濾/或者聚合的場景下,需要拉取數(shù)據(jù)在 Server 端進(jìn)行,下推到存儲端的成本非常高。所以更好的方案是我們在 Rocksdb Replicate Mode 的基礎(chǔ)上支持 shard mode,單 raft group 改造成 multi raftgroup,這樣的話為了能有更好地?cái)U(kuò)展性。

張世鳴透露,基于上述這些問題,HugeGraph 今年計(jì)劃朝著全新的 2.0 版本繼續(xù)演進(jìn),推動內(nèi)部版本與開源版的融合。2.0 版本重大變化覆蓋 4 大方面:架構(gòu)方面,包括分布式架構(gòu),支持圖數(shù)據(jù)分區(qū)+數(shù)據(jù)副本,計(jì)算存儲分離框架,便于計(jì)算及存儲靈活伸縮;集群管理方面,采用高可用設(shè)計(jì),支持容災(zāi)及故障恢復(fù),基于分區(qū)支持副本的數(shù)據(jù)重分,更多監(jiān)控指標(biāo);查詢方面,包括算子下沉、gremlin 并行化、細(xì)粒度的內(nèi)存管理;使用(接口優(yōu)化+功能增強(qiáng))方面,包括接口增加統(tǒng)計(jì)信息(遍歷的頂點(diǎn)、邊和耗時)、支持動態(tài)創(chuàng)建圖、unique 索引可以查詢等。

未來,HugeGraph 2.0 將基于分布式版本持續(xù)做更多的優(yōu)化,保證集群穩(wěn)定性;持續(xù)優(yōu)化圖查詢,實(shí)現(xiàn)內(nèi)存管控的完整體系;實(shí)現(xiàn)更多的圖分析算法支持,尤其是提供圖產(chǎn)品化的解決方案,大幅降低使用門檻……

Baetyl:為設(shè)備側(cè)邊緣計(jì)算提供云原生的編排調(diào)度能力

Baetyl 是中國首個發(fā)布的開源邊緣計(jì)算框架。本次峰會,百度智能云物聯(lián)網(wǎng)主任架構(gòu)師黃誠通過開源項(xiàng)目 Baetyl 就百度在智能邊緣領(lǐng)域的布局與思考展開分享。

據(jù)介紹,百度于 2019 年將 Baetyl 捐贈給了 LF Edge 基金會,是該基金會成立以來最早加入的項(xiàng)目。Baetyl 支持 x86、ARM、MIPS、CPU 等網(wǎng)絡(luò)芯片,以及各類 GPU 和神經(jīng)網(wǎng)絡(luò)芯片,能夠?yàn)樵O(shè)備側(cè)邊緣計(jì)算提供云原生的編排調(diào)度能力,將云計(jì)算的應(yīng)用無縫擴(kuò)展到邊緣,使云和邊緣的數(shù)據(jù)實(shí)現(xiàn)自由交換。

當(dāng)前,Baetyl 適配多種架構(gòu)及各大主流操作系統(tǒng),可在如寒武紀(jì)盒子、華為 Atlas、樹莓派、比特大陸、EdgeBoard 等各種硬件設(shè)備上運(yùn)行,安裝 Baetyl 后就可以快速變?yōu)橹悄艿倪吘売?jì)算設(shè)備。

Baetyl 的核心能力主要表現(xiàn)為四個方面:

云邊協(xié)同:邊緣計(jì)算節(jié)點(diǎn)需要納入云計(jì)算中心的管理,定期上報(bào)自己的狀態(tài)并同步云端信息

調(diào)度管理:云端管理套件提供節(jié)點(diǎn)和應(yīng)用關(guān)聯(lián)的管理,節(jié)點(diǎn)上的邊緣計(jì)算程序負(fù)責(zé)調(diào)度到合理的地方運(yùn)行

邊緣自治:在邊緣節(jié)點(diǎn)和云端斷網(wǎng)的情況下,邊緣節(jié)點(diǎn)能正常運(yùn)行,并在網(wǎng)絡(luò)恢復(fù)后能快速恢復(fù)

設(shè)備管理:提供邊緣軟網(wǎng)關(guān)能力,支持設(shè)備通過各類協(xié)議接入,提供設(shè)備信息上行及云端數(shù)據(jù)同步的功能

整體架構(gòu)方面,Baetyl 包含設(shè)備接入、數(shù)據(jù)處理、數(shù)據(jù)上報(bào)、流式計(jì)算、函數(shù)計(jì)算、AI 推斷等功能,天然支持云原生,能夠?qū)⒃朴?jì)算能力延伸至用戶現(xiàn)場,提供可以臨時離線、低延時的計(jì)算服務(wù)。

這得益于其采用云端管理、邊緣運(yùn)行的方案。Baetyl 分為云端管理套件(Baetyl cloud)和邊緣計(jì)算框架兩部分。Baetyl cloud 運(yùn)行在云端,目標(biāo)是收集所有在 Kubernetes 上的配置,支持在云端配置邊緣計(jì)算集群,管理所有資源,如:節(jié)點(diǎn)、應(yīng)用、配置等。

在標(biāo)準(zhǔn)情況下,Baetyl cloud 會收集并打包來自 Kubernetes 控制面的信息,再由安全網(wǎng)絡(luò)提供到本地的設(shè)備上,而 Baetyl 和云端管理套件之間會使用端到端的強(qiáng)制性的雙向認(rèn)證,進(jìn)一步保證了安全問題。

邊緣計(jì)算框架運(yùn)行在邊緣節(jié)點(diǎn)的 Kubernetes 集群中。在默認(rèn)情況下,Baetyl 提供的是輕量版的 K3S 集群,如果有需要,也可以擴(kuò)展成本地的 Kubernetes 集群。上面運(yùn)行的 Baetyl 本地程序不斷地接收來自 Baetyl cloud 的配置,并不斷地將這些配置應(yīng)用到本地的 Kubernetes,由此完成邊和云之間的同步。

隨著 “云+AI”在更多行業(yè)、更大范圍內(nèi)持續(xù)推進(jìn),Baetyl 也在更多行業(yè)和場景實(shí)現(xiàn)了落地。Baetyl 已經(jīng)和百度智能云天工物聯(lián)網(wǎng)平臺、百度 Al 等團(tuán)隊(duì)打通,面向各行業(yè)客戶提供端到端的解決方案,目前在電力巡檢、AI 質(zhì)檢等領(lǐng)域得到了驗(yàn)證。

Apollo:全球最活躍的自動駕駛開放平臺

在 2023 全球開源技術(shù)峰會峰會現(xiàn)場,“Apollo開放平臺”開設(shè)了展位,為與會者展示和講解Apollo自動駕駛技術(shù)的最新進(jìn)展。百度 2013 年開始布局自動駕駛,2017 年推出全球首個自動駕駛開放平臺 Apollo。目前百度 Apollo 已經(jīng)在自動駕駛、智能汽車、智能交通三大領(lǐng)域擁有業(yè)內(nèi)領(lǐng)先的解決方案。

“Apollo 開放平臺”是一個開放的、完整的、安全的平臺,旨在幫助汽車行業(yè)及自動駕駛領(lǐng)域的合作伙伴結(jié)合車輛和硬件系統(tǒng),快速搭建一套屬于自己的自動駕駛系統(tǒng),目前已經(jīng)升級迭代到第 12 個版本:Apollo 開放平臺 8.0。

Apollo 開放平臺 8.0 分別從“新架構(gòu)”“新能力”兩個重要層面進(jìn)行了全面升級,從開發(fā)者的實(shí)際需求出發(fā)進(jìn)行改良,幫助開發(fā)者更好、更快地熟悉和使用百度 Apollo 開放平臺—— 在平臺架構(gòu)層面上,從面向技術(shù)分層的架構(gòu),升級為結(jié)合技術(shù)與生態(tài)分層的架構(gòu),為開發(fā)者提供易用的軟件核心和云服務(wù)工具及易擴(kuò)展的硬件設(shè)備與軟件場景應(yīng)用;在平臺能力構(gòu)建上,通過軟件包管理機(jī)制、感知全流程升級及全新 PnC 工具鏈,全面提升開發(fā)者使用效率。與此同時,全新上線的自動駕駛一站式學(xué)習(xí)實(shí)踐社區(qū)——Apollo Studio,也成為開發(fā)者們一站式學(xué)習(xí)實(shí)踐和共同交流成長的絕佳窗口。

作為全球最大自動駕駛開放平臺,Apollo 開放平臺的開源代碼量已超過 75 萬行,并且匯聚了來自全球 165 個國家的 10 萬多名開發(fā)者,擁有全球超 220 家生態(tài)合作伙伴,幾乎囊括全球主流汽車制造商、一級零部件供應(yīng)商、芯片公司、傳感器公司、交通集成商、出行企業(yè)等,覆蓋從硬件到軟件的完整產(chǎn)業(yè)鏈。Apollo 開放平臺 8.0 的推出,再次讓 Apollo 開放平臺在工程易用性上向前邁進(jìn)一大步,降低操作難度、操作成本的門檻,讓更多開發(fā)者可以簡單方便地上手 Apollo 開放平臺、投身自動駕駛技術(shù)領(lǐng)域。

目前 Apollo 已獲得中國測試牌照總計(jì) 1000 多張,自動駕駛專利族超 4600 項(xiàng),其中高級別自動駕駛專利族數(shù)全球第一,測試?yán)锍炭傆?jì)超過 5000 萬公里。Apollo 開放平臺始終秉“承開放能力、共享資源、加速創(chuàng)新、持續(xù)共贏”的核心理念,不斷帶來創(chuàng)新和升級。未來,Apollo 也期待與更多開發(fā)者及合作伙伴一起,不斷拓展能力邊界、探索自動駕駛技術(shù)和產(chǎn)業(yè)的更多可能性,造福人類發(fā)展。

小結(jié)

在數(shù)字經(jīng)濟(jì)時代,越來越多的企業(yè)開始參與開源項(xiàng)目,甚至主導(dǎo)開源項(xiàng)目。尤其是在人工智能、區(qū)塊鏈、物聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)等新興技術(shù)領(lǐng)域,開源更是成為了技術(shù)創(chuàng)新、產(chǎn)業(yè)協(xié)作、生態(tài)開放的重要方式。

一直以來,百度積極擁抱開源,致力于開源技術(shù)生態(tài)的建設(shè),通過開源項(xiàng)目的推廣和貢獻(xiàn),吸引全球開發(fā)者參與,共同推動技術(shù)的發(fā)展。截至 2022 年底,百度已經(jīng)開源了超過 1000 個項(xiàng)目,社區(qū)貢獻(xiàn)者超過 20000 人,技術(shù)涵蓋了機(jī)器學(xué)習(xí)、自動駕駛、區(qū)塊鏈、數(shù)據(jù)存儲、邊緣計(jì)算、大前端、安全等多個領(lǐng)域。尤其是飛槳( PaddlePaddle)、Apollo、超級鏈(XuprChain)等開源項(xiàng)目已經(jīng)成為業(yè)內(nèi)領(lǐng)先的技術(shù)平臺,吸引了越來越多的開發(fā)者參與其中。這些開源項(xiàng)目的成功實(shí)踐不僅促進(jìn)了百度自身技術(shù)的提升,也為全球開源社區(qū)做出了積極的貢獻(xiàn)。

管中窺豹,可見一斑。從開源的角度看百度的技術(shù)布局,可以令人感受到,百度一直在前沿技術(shù)領(lǐng)域持續(xù)創(chuàng)新。尤其是在 AI 大模型席卷全球的今天,百度愈加主動出擊。

百度的使命是“用科技讓復(fù)雜的世界更簡單”。最后,引用侯震宇在峰會上的講話:“我們相信,隨著這一輪激動人心的技術(shù)浪潮,生成式 AI 技術(shù)浪潮,百度其實(shí)已經(jīng)準(zhǔn)備好了,我們愿意拿自己積累的技術(shù),和整個平臺、整個產(chǎn)業(yè)里的合作伙伴一起把整個中國的人工智能產(chǎn)業(yè)推上更高的高峰,也讓我們的 AI 的能力真的能夠助力我們行業(yè)伙伴,讓客戶能夠從中收益?!?/p>

舉報(bào) 0 收藏 0 打賞 0評論 0
 
 
更多>同類資訊
全站最新
熱門內(nèi)容
網(wǎng)站首頁  |  關(guān)于我們  |  聯(lián)系方式  |  版權(quán)聲明  |  網(wǎng)站留言  |  RSS訂閱  |  違規(guī)舉報(bào)  |  開放轉(zhuǎn)載  |  滾動資訊  |  English Version