當你悠閑的在街上散步的時候,你可能不知道一塊降雨云將在10分鐘后和你相遇。這時,墨跡天氣會給一個提示,點進去以后還可以看到這場雨的持續(xù)時間。這是墨跡天氣即將上線的一項功能,背后依托的是其強大的大數(shù)據(jù)分析技術。
日前,墨跡天氣同國內(nèi)最大云計算服務商阿里云展開合作,進一步強化其大數(shù)據(jù)優(yōu)勢。墨跡天氣通過采用阿里云的大數(shù)據(jù)計算服務ODPS,對4億用戶產(chǎn)生的日志進行分析,基于此提供更加個性化的天氣服務。
4億用戶是什么概念?也就是說,13.5億中國人,每四個人中就有一個下載過墨跡天氣,超過了美國人口總數(shù)。這些用戶每天有超過 5 億次的天氣查詢需求,這一數(shù)字甚至要大于 Twitter 每天發(fā)帖量。
“用戶每天產(chǎn)生的日志量大約在400GB。我們需要將這些海量的數(shù)據(jù)導入云端,然后分天、分小時的展開數(shù)據(jù)分析作業(yè),分析結(jié)果再導入數(shù)據(jù)庫和報表系統(tǒng),最終展示在運營人員面前。”墨跡天氣運維部經(jīng)理章漢龍介紹,整個過程中數(shù)據(jù)量龐大,且計算復雜,這對云平臺的大數(shù)據(jù)能力、生態(tài)完整性和開放性提出了很高的要求。
在大數(shù)據(jù)處理能力方面,阿里云ODPS剛剛在Sort Benchmark排序競賽中斬獲了世界冠軍。Sort Benchmark被認為是計算界的奧運會,全球頂尖公司和學術機構都會參加,以評估他們的最新研究成果。
此外,阿里云ODPS提供更為易用、全面的大數(shù)據(jù)分析功能。ODPS可根據(jù)業(yè)務情況做到計算資源自動彈性伸縮,天然集成存儲功能。通過簡單的幾項配置操作后,即可完成數(shù)據(jù)上傳,同時實現(xiàn)了多種開源軟件的對接。
此前,墨跡天氣的這一流程是在國外某云計算平臺上完成的,需要分別使用云存儲、大數(shù)據(jù)分析等服務,數(shù)據(jù)分析完成后再同步到本地數(shù)據(jù)庫中與報表系統(tǒng)對接。章漢龍介紹,在完成遷移后,墨跡天氣的整體存儲和計算成本降低了70%。同時,墨跡還可以借助ODPS上的機器學習算法,對數(shù)據(jù)進行深度挖掘。
章漢龍?zhí)岬降倪@些算法均來自阿里巴巴集團的核心算法庫,經(jīng)歷過雙11、雙12等戰(zhàn)火錘煉。這其中包括特征工程、數(shù)據(jù)探查與統(tǒng)計、大規(guī)模機器學習、深度學習,以及阿里在文本、圖像和語音處理方面的數(shù)據(jù)技術。