人工智能如何為大數據分析指明新的黃金標準
如果數據是新的黃金,那么今天的「黃金」將以對尋求增長的組織的趨勢和客戶行為的無價洞察力的形式出現。但是擁有大量數據——盡管幸運——仍然是個問題,至少目前是這樣。
為什么?
大多數組織都有大量可用的數據,但沒有處理所有這些數據的基礎設施或設備。目前每天生成 2.5 quintillion 字節的數據,并且隨著 IoT 技術在一端的擴散以及在另一端為數十億日常用戶提供服務的集中式云服務的擴散而加速。今天的標準計算機芯片——中央處理器(CPU)——已經達到了計算成本超過收益的性能上限。
正如 19 世紀著名的淘金熱所說明的那樣,人們自然傾向于走熟悉的路,甚至不惜爬上陡坡并取得不太理想的結果。通過開辟新的道路,許多金礦商的表現可能要好得多。同樣,開辟一條通往數據分析的新道路對于找到通往「新」黃金的理想道路至關重要。
別搞錯了——數據已經帶來了無數突破,并帶來了難以置信的好處。但是,如果要想真正從這種新黃金中榨取所有價值,那么現在是超越 CPU 并探索下一代替代品的時候了,這些替代品可以以前所未有的速度解鎖整個洞察力。
要真正了解大數據處理在哪些方面以及如何存在不足,看看人工智能(AI)的發展可能會非常有啟發性。
人工智能革命的先決條件
人工智能的第一個具有里程碑意義的用例可以追溯到幾十年前探索算法及其應用的各種研究項目。最早的算法之一是專為下跳棋而設計的極小極大算法。從那以后,它進化為下國際象棋,成為一個非常強大的對手。
但在棋盤游戲之外,人工智能不斷增長的應用和用例列表很快引發了它的第二個突破:實體服務的激增主要負責分析大量用戶數據,以幫助大型企業更好地了解客戶需求。
然而,這些算法和實體最終只能與它們運行的通用處理器一樣好。盡管它們在邏輯和內存密集型工作負載方面表現出色,但它們的處理速度很慢。然而,這種情況在 2009 年發生了變化,當時斯坦福大學的研究人員發現圖形處理單元 (GPU) 在處理深度神經網絡方面明顯優于 CPU,因為它們的計算并行度更高——能夠同時運行多個計算或進程。這種新穎的計算基礎設施引發了人工智能的第三次也是最具決定性的突破,即深度神經網絡時代。
GPU 不僅加速了 AI 算法的運行方式。向神經網絡的轉變創造了前所未有的算法性能水平,為新算法開辟了一個全新的機會世界,在此之前,由于 CPU 的限制,這些算法是不可能的或效率低下的。其中包括改變了我們的搜索引擎的大型語言模型,以及現在流行的生成式人工智能服務,如 DALL-E 2、Imagen、Stable Diffusion 和 Midjourney。GPU 革命清楚地表明,正確的處理硬件是引發現代 AI 革命的關鍵。
大數據缺失的元素
人工智能的發展歷史可以很好地揭示數據分析的現狀。
首先,與 AI 一樣,大數據研究項目最初催生了各種各樣的算法和用例。其次——再次類似于人工智能——隨后出現了大量的數據收集和分析服務。例如,亞馬遜、谷歌和微軟等所有主要云提供商圍繞大數據分析構建了大量基礎設施。
但與 AI 及其 GPU「革命」不同的是,大數據尚未模仿 AI 的第三個突破:獲得自己獨特的計算基礎設施。
目前,盡管 CPU 的處理效率低下,但它仍然是數據分析的基礎,但與 AI 不同的是,GPU 不是合適的替代品。這意味著隨著公司積累更多數據,他們通常會采用更多服務器來應對繁重的負載——直到數據分析的成本超過其收益。
開拓新路
如果能找到一種方法在專用處理器上運行數據分析工作負載,其效率相當于 AI 工作負載現在在 GPU 和其他硬件加速器上運行的效率,我們就可以引發類似的“革命”,打開大數據世界,以前所未有的速度創造新水平的洞察力。但要做到這一點,必須重新檢查所使用的硬件。
如果找不到合適的計算基礎架構,組織將無法擴展其數據效用,從而阻礙他們培養新見解和促進其他創新的能力。另一方面,成功可能會催生一個全新的大數據時代。
許多淘金熱探礦者的垮臺是因為他們誤入歧途,想要沿著已知的路徑尋找以前發現的黃金。另一方面,人工智能研究人員偏離了共同的道路,找到了一條新的道路,即通向 GPU 和其他加速器的道路,這仍然是深度學習的黃金標準。如果大數據研究人員能夠開辟自己的道路,他們也可能有一天會淘到金子,并將大數據分析的界限推向任何人都無法想象的境界。
轉于
編輯 | 白菜葉
論文鏈接:https://venturebeat.com/enterprise-analytics/how-ai-points-the-way-to-a-new-gold-standard-for-big-data-analytics/
- 上一篇:ChatGPT爆火背后,再看合成數據與人工智能的未來 2023/2/12
- 下一篇:中共中央 國務院印發《質量強國建設綱要》 2023/2/7