聯系方式 Contact

天氣在線(北京)氣象科技有限公司

地址:北京市海淀區海淀西大街36號9層

電話:010-58995339

手機:18611808504

傳真:010-58995339

網址:www.szad-expo.com

搜索 Search
你的位置:首頁 > 新聞動態 > 行業新聞

圖解最常用的 10 個機器學習算法!

 2023-03-10 18:41:14  點擊:

法納斯特

來源丨大數據與機器學習文摘

在機器學習領域,有種說法叫做“世上沒有免費的午餐”,簡而言之,它是指沒有任何一種算法能在每個問題上都能有最好的效果,這個理論在監督學習方面體現得尤為重要。

舉個例子來說,你不能說神經網絡永遠比決策樹好,反之亦然。模型運行被許多因素左右,例如數據集的大小和結構。

因此,你應該根據你的問題嘗試許多不同的算法,同時使用數據測試集來評估性能并選出最優項。

當然,你嘗試的算法必須和你的問題相切合,其中的門道便是機器學習的主要任務。打個比方,如果你想打掃房子,你可能會用到吸塵器、掃帚或者拖把,但你肯定不會拿把鏟子開始挖坑吧。

對于渴望了解機器學習基礎知識的機器學習新人來說,這兒有份數據科學家使用的十大機器學習算法,為你介紹這十大算法的特性,便于大家更好地理解和應用,快來看看吧。

01 線性回歸

線性回歸可能是統計學和機器學習中最知名和最易理解的算法之一。

由于預測建模主要關注最小化模型的誤差,或者以可解釋性為代價來做出最準確的預測。 我們會從許多不同領域借用、重用和盜用算法,其中涉及一些統計學知識。

線性回歸用一個等式表示,通過找到輸入變量的特定權重(B),來描述輸入變量(x)與輸出變量(y)之間的線性關系。


Linear Regression

舉例:y = B0 + B1 * x

給定輸入x,我們將預測y,線性回歸學習算法的目標是找到系數B0B1的值。

可以使用不同的技術從數據中學習線性回歸模型,例如用于普通最小二乘和梯度下降優化的線性代數解。

線性回歸已經存在了200多年,并且已經進行了廣泛的研究。 如果可能的話,使用這種技術時的一些經驗法則是去除非常相似(相關)的變量并從數據中移除噪聲。 這是一種快速簡單的技術和良好的第一種算法。

02 邏輯回歸

邏輯回歸是機器學習從統計領域借鑒的另一種技術。 這是二分類問題的專用方法(兩個類值的問題)。

邏輯回歸與線性回歸類似,這是因為兩者的目標都是找出每個輸入變量的權重值。 與線性回歸不同的是,輸出的預測值得使用稱為邏輯函數的非線性函數進行變換。

邏輯函數看起來像一個大S,并能將任何值轉換為01的范圍內。這很有用,因為我們可以將相應規則應用于邏輯函數的輸出上,把值分類為01(例如,如果IF小于0.5,那么 輸出1)并預測類別值。


Logistic Regression

由于模型的特有學習方式,通過邏輯回歸所做的預測也可以用于計算屬于類0或類1的概率。這對于需要給出許多基本原理的問題十分有用。

與線性回歸一樣,當你移除與輸出變量無關的屬性以及彼此非常相似(相關)的屬性時,邏輯回歸確實會更好。 這是一個快速學習和有效處理二元分類問題的模型。

03 線性判別分析

傳統的邏輯回歸僅限于二分類問題。 如果你有兩個以上的類,那么線性判別分析算法(Linear Discriminant Analysis,簡稱LDA)是首選的線性分類技術。

LDA的表示非常簡單。 它由你的數據的統計屬性組成,根據每個類別進行計算。 對于單個輸入變量,這包括:

· 每類的平均值。

· 跨所有類別計算的方差。


Linear Discriminant Analysis

LDA通過計算每個類的判別值并對具有最大值的類進行預測來進行。該技術假定數據具有高斯分布(鐘形曲線),因此最好先手動從數據中移除異常值。這是分類預測建模問題中的一種簡單而強大的方法。



04 分類和回歸樹決策樹是機器學習的一種重要算法。決策樹模型可用二叉樹表示。對,就是來自算法和數據結構的二叉樹,沒什么特別。 每個節點代表單個輸入變量(x)和該變量上的左右孩子(假定變量是數字)。


Decision Tree

樹的葉節點包含用于進行預測的輸出變量(y)。 預測是通過遍歷樹進行的,當達到某一葉節點時停止,并輸出該葉節點的類值。



決策樹學習速度快,預測速度快。 對于許多問題也經常預測準確,并且你不需要為數據做任何特殊準備。05 樸素貝葉斯樸素貝葉斯是一種簡單但極為強大的預測建模算法。該模型由兩種類型的概率組成,可以直接從你的訓練數據中計算出來:1)每個類別的概率; 2)給定的每個x值的類別的條件概率。 一旦計算出來,概率模型就可以用于使用貝葉斯定理對新數據進行預測。 當你的數據是數值時,通常假設高斯分布(鐘形曲線),以便可以輕松估計這些概率。