當(dāng)前位置：首頁(yè) > 科技 > 軟件

使用Python從頭開(kāi)始構(gòu)建決策樹(shù)算法

來(lái)源：責(zé)編：時(shí)間：2023-08-14 22:01:22 441觀看

導(dǎo)讀決策樹(shù)(Decision Tree)是一種常見(jiàn)的機(jī)器學(xué)習(xí)算法，被廣泛應(yīng)用于分類(lèi)和回歸任務(wù)中。并且再其之上的隨機(jī)森林和提升樹(shù)等算法一直是表格領(lǐng)域的最佳模型，所以本文將介紹理解其數(shù)學(xué)概念，并在Python中動(dòng)手實(shí)現(xiàn)，這可以作為了解這

決策樹(shù)(Decision Tree)是一種常見(jiàn)的機(jī)器學(xué)習(xí)算法，被廣泛應(yīng)用于分類(lèi)和回歸任務(wù)中。并且再其之上的隨機(jī)森林和提升樹(shù)等算法一直是表格領(lǐng)域的最佳模型，所以本文將介紹理解其數(shù)學(xué)概念，并在Python中動(dòng)手實(shí)現(xiàn)，這可以作為了解這類(lèi)算法的基礎(chǔ)知識(shí)。

在深入研究代碼之前，我們先要了解支撐決策樹(shù)的數(shù)學(xué)概念:熵和信息增益

熵：雜質(zhì)的量度

熵作為度量來(lái)量化數(shù)據(jù)集中的雜質(zhì)或無(wú)序。特別是對(duì)于決策樹(shù)，熵有助于衡量與一組標(biāo)簽相關(guān)的不確定性。數(shù)學(xué)上，數(shù)據(jù)集S的熵用以下公式計(jì)算:

Entropy(S) = -p_pos * log2(p_pos) - p_neg * log2(p_neg)

P_pos表示數(shù)據(jù)集中正標(biāo)簽的比例，P_neg表示數(shù)據(jù)集中負(fù)標(biāo)簽的比例。

更高的熵意味著更大的不確定性或雜質(zhì)，而更低的熵意味著更均勻的數(shù)據(jù)集。

信息增益：通過(guò)拆分提升知識(shí)

信息增益是評(píng)估通過(guò)基于特定屬性劃分?jǐn)?shù)據(jù)集所獲得的熵的減少。也就是說(shuō)它衡量的是執(zhí)行分割后標(biāo)簽確定性的增加。

數(shù)學(xué)上，對(duì)數(shù)據(jù)集S中屬性a進(jìn)行分割的信息增益計(jì)算如下:

Information Gain(S, A) = Entropy(S) - ∑ (|S_v| / |S|) * Entropy(S_v)

S 表示原始數(shù)據(jù)集，A表示要拆分的屬性。S_v表示屬性A保存值v的S的子集。

目標(biāo)是通過(guò)選擇使信息增益最大化的屬性，在決策樹(shù)中創(chuàng)建信息量最大的分割。

在Python中實(shí)現(xiàn)決策樹(shù)算法

有了以上的基礎(chǔ)，就可以使用Python從頭開(kāi)始編寫(xiě)Decision Tree算法。

首先導(dǎo)入基本的numpy庫(kù)，它將有助于我們的算法實(shí)現(xiàn)。

import numpy as np

創(chuàng)建DecisionTree類(lèi)

class DecisionTree:    def __init__(self, max_depth=None):        self.max_depth = max_depth

定義了DecisionTree類(lèi)來(lái)封裝決策樹(shù)。max_depth參數(shù)是樹(shù)的最大深度，以防止過(guò)擬合。

def fit(self, X, y, depth=0):        n_samples, n_features = X.shape        unique_classes = np.unique(y)                 # Base cases        if (self.max_depth is not None and depth >= self.max_depth) or len(unique_classes) == 1:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

擬合方法是決策樹(shù)算法的核心。它需要訓(xùn)練數(shù)據(jù)X和相應(yīng)的標(biāo)簽，以及一個(gè)可選的深度參數(shù)來(lái)跟蹤樹(shù)的深度。我們以最簡(jiǎn)單的方式處理樹(shù)的生長(zhǎng)：達(dá)到最大深度或者遇到純類(lèi)。

確定最佳分割屬性，循環(huán)遍歷所有屬性以找到信息增益最大化的屬性。_information_gain方法(稍后解釋)幫助計(jì)算每個(gè)屬性的信息增益。

best_attribute = None best_info_gain = -1 for feature in range(n_features):            info_gain = self._information_gain(X, y, feature)            if info_gain > best_info_gain:                best_info_gain = info_gain                best_attribute = feature

處理不分割屬性，如果沒(méi)有屬性產(chǎn)生正的信息增益，則將類(lèi)標(biāo)簽分配為節(jié)點(diǎn)的標(biāo)簽。

if best_attribute is None:            self.label = unique_classes[np.argmax(np.bincount(y))]            return

分割和遞歸調(diào)用，下面代碼確定了分割的最佳屬性，并創(chuàng)建兩個(gè)子節(jié)點(diǎn)。根據(jù)屬性的閾值將數(shù)據(jù)集劃分為左右兩個(gè)子集。

self.attribute = best_attribute self.threshold = np.median(X[:, best_attribute])  left_indices = X[:, best_attribute] <= self.threshold    right_indices = ~left_indices     self.left = DecisionTree(max_depth=self.max_depth)    self.right = DecisionTree(max_depth=self.max_depth)     self.left.fit(X[left_indices], y[left_indices], depth + 1)    self.right.fit(X[right_indices], y[right_indices], depth + 1)

并且通過(guò)遞歸調(diào)用左子集和右子集的fit方法來(lái)構(gòu)建子樹(shù)。

預(yù)測(cè)方法使用訓(xùn)練好的決策樹(shù)進(jìn)行預(yù)測(cè)。如果到達(dá)一個(gè)葉節(jié)點(diǎn)(帶有標(biāo)簽的節(jié)點(diǎn))，它將葉節(jié)點(diǎn)的標(biāo)簽分配給X中的所有數(shù)據(jù)點(diǎn)。

def predict(self, X):        if hasattr(self, 'label'):            return np.array([self.label] * X.shape[0])

當(dāng)遇到非葉節(jié)點(diǎn)時(shí)，predict方法根據(jù)屬性閾值遞歸遍歷樹(shù)的左子樹(shù)和右子樹(shù)。來(lái)自雙方的預(yù)測(cè)被連接起來(lái)形成最終的預(yù)測(cè)數(shù)組。

is_left = X[:, self.attribute] <= self.threshold        left_predictions = self.left.predict(X[is_left])        right_predictions = self.right.predict(X[~is_left])                 return np.concatenate((left_predictions, right_predictions))

下面兩個(gè)方法是決策樹(shù)的核心代碼，并且可以使用不同的算法來(lái)進(jìn)行計(jì)算，比如ID3 算法使用信息增益作為特征選擇的標(biāo)準(zhǔn)，該標(biāo)準(zhǔn)度量了將某特征用于劃分?jǐn)?shù)據(jù)后，對(duì)分類(lèi)結(jié)果的不確定性減少的程度。算法通過(guò)遞歸地選擇信息增益最大的特征來(lái)構(gòu)建決策樹(shù)，也就是我們現(xiàn)在要演示的算法。

_information_gain方法計(jì)算給定屬性的信息增益。它計(jì)算分裂后子熵的加權(quán)平均值，并從父熵中減去它。

def _information_gain(self, X, y, feature):        parent_entropy = self._entropy(y)                 unique_values = np.unique(X[:, feature])        weighted_child_entropy = 0                 for value in unique_values:            is_value = X[:, feature] == value            child_entropy = self._entropy(y[is_value])            weighted_child_entropy += (np.sum(is_value) / len(y)) * child_entropy                 return parent_entropy - weighted_child_entropy

熵的計(jì)算

def _entropy(self, y):        _, counts = np.unique(y, return_counts=True)        probabilities = counts / len(y)        return -np.sum(probabilities * np.log2(probabilities))

_entropy方法計(jì)算數(shù)據(jù)集y的熵，它計(jì)算每個(gè)類(lèi)的概率，然后使用前面提到的公式計(jì)算熵。

常見(jiàn)的算法還有：

C4.5 是 ID3 的改進(jìn)版本，C4.5 算法在特征選擇時(shí)使用信息增益比，這是對(duì)信息增益的一種歸一化，用于解決信息增益在選擇特征時(shí)偏向于取值較多的特征的問(wèn)題。

CART 與 ID3 和 C4.5 算法不同，CART(Classification And Regression Tree)又被稱(chēng)為分類(lèi)回歸樹(shù)，算法采用基尼不純度(Gini impurity)來(lái)度量節(jié)點(diǎn)的不確定性，該不純度度量了從節(jié)點(diǎn)中隨機(jī)選取兩個(gè)樣本，它們屬于不同類(lèi)別的概率。

ID3、C4.5 和 CART 算法都是基于決策樹(shù)的經(jīng)典算法，像Xgboost就是使用的CART 作為基礎(chǔ)模型。

總結(jié)

以上就是使用Python中構(gòu)造了一個(gè)完整的決策樹(shù)算法的全部。決策樹(shù)的核心思想是根據(jù)數(shù)據(jù)的特征逐步進(jìn)行劃分，使得每個(gè)子集內(nèi)的數(shù)據(jù)盡量屬于同一類(lèi)別或具有相似的數(shù)值。在構(gòu)建決策樹(shù)時(shí)，通常會(huì)使用一些算法來(lái)選擇最佳的特征和分割點(diǎn)，以達(dá)到更好的分類(lèi)或預(yù)測(cè)效果。

本文鏈接：http://m.rrqrq.com/showinfo-26-5736-0.html使用Python從頭開(kāi)始構(gòu)建決策樹(shù)算法

聲明：本網(wǎng)頁(yè)內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問(wèn)題請(qǐng)及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇：九個(gè)實(shí)用的 JavaScript 技巧

下一篇：五個(gè) AI API 可自動(dòng)解決你的日常問(wèn)題

標(biāo)簽：

熱門(mén)焦點(diǎn)

跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標(biāo)年度性能之王

8月5日消息，Redmi K60至尊版將于8月發(fā)布，在此前舉行的戰(zhàn)略發(fā)布會(huì)上，官方該機(jī)將搭載搭載天璣9200+處理器，安兔兔V10跑分超177萬(wàn)分，是目前安卓陣營(yíng)最高的分?jǐn)?shù)
K8S | Service服務(wù)發(fā)現(xiàn)

一、背景在微服務(wù)架構(gòu)中，這里以開(kāi)發(fā)環(huán)境「Dev」為基礎(chǔ)來(lái)描述，在K8S集群中通常會(huì)開(kāi)放：路由網(wǎng)關(guān)、注冊(cè)中心、配置中心等相關(guān)服務(wù)，可以被集群外部訪問(wèn)；圖片對(duì)于測(cè)試「Tes」環(huán)境或者
2天漲粉255萬(wàn)，又一賽道在抖音爆火

來(lái)源：運(yùn)營(yíng)研究社作者 | 張知白編輯 | 楊佩汶設(shè)計(jì) | 晏談夢(mèng)潔這個(gè)暑期，旅游賽道徹底火了：有的「地方」火了——貴州村超旅游收入 1 個(gè)月超過(guò) 12 億；有的「博主」火了&m
小米MIX Fold 3下月亮相：今年唯一無(wú)短板的全能折疊屏

這段時(shí)間以來(lái)，包括三星、一加、榮耀等等有不少品牌旗下的最新折疊屏旗艦都有新的進(jìn)展，其中榮耀、三星都已陸續(xù)發(fā)布了最新的折疊屏旗艦，尤其號(hào)榮耀Magi
iQOO 11S屏幕細(xì)節(jié)公布：首發(fā)三星2K E6全感屏安卓最好的直屏手機(jī)

日前iQOO手機(jī)官方宣布，新一代電競(jìng)旗艦iQOO 11S將會(huì)在7月4日19:00正式與大家見(jiàn)面。隨著發(fā)布時(shí)間的日益臨近，官方關(guān)于該機(jī)的預(yù)熱也更加密集，截至目前已
回歸OPPO兩年，一加贏了銷(xiāo)量，輸了品牌

成為OPPO旗下主打性能的先鋒品牌后，一加屢創(chuàng)佳績(jī)。今年618期間，一加手機(jī)全渠道銷(xiāo)量同比增長(zhǎng)362%，憑借一加 11、一加 Ace 2、一加 Ace 2V三款爆品，一加
2022爆款：ROG魔霸6 冰川散熱系統(tǒng)持續(xù)護(hù)航

喜逢開(kāi)學(xué)季，各大商家開(kāi)始推出自己的新產(chǎn)品，進(jìn)行打折促銷(xiāo)活動(dòng)。對(duì)于忠實(shí)的端游愛(ài)好者來(lái)說(shuō)，能夠擁有一款夢(mèng)寐以求的筆記本電腦是一件十分開(kāi)心的事。但是現(xiàn)在的
最薄的14英寸游戲筆記本電腦 Alienware X14已可以購(gòu)買(mǎi)

2022年1月份在國(guó)際消費(fèi)電子展(CES2022)上首次亮相的Alienware新品——Alienware X14現(xiàn)在已經(jīng)可以購(gòu)買(mǎi)了，這款筆記本電腦被譽(yù)為世界上最薄的 14 英寸游戲筆
三翼鳥(niǎo)智能家居亮相電博會(huì)，讓用戶體驗(yàn)更真實(shí)

2021電博會(huì)在青島國(guó)際會(huì)展中心開(kāi)幕中，三翼鳥(niǎo)直接把“家”搬到了現(xiàn)場(chǎng)，成為了展會(huì)的一大看點(diǎn)。這也是三翼鳥(niǎo)繼9月9日發(fā)布了行業(yè)首個(gè)一站式定制智慧家平臺(tái)后的

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

使用Python從頭開(kāi)始構(gòu)建決策樹(shù)算法

熵：雜質(zhì)的量度

信息增益：通過(guò)拆分提升知識(shí)

在Python中實(shí)現(xiàn)決策樹(shù)算法

總結(jié)

跑分安卓第一！Redmi K60至尊版8月發(fā)布！盧偉冰：目標(biāo)年度性能之王

K8S | Service服務(wù)發(fā)現(xiàn)

2天漲粉255萬(wàn)，又一賽道在抖音爆火

小米MIX Fold 3下月亮相：今年唯一無(wú)短板的全能折疊屏

iQOO 11S屏幕細(xì)節(jié)公布：首發(fā)三星2K E6全感屏安卓最好的直屏手機(jī)

回歸OPPO兩年，一加贏了銷(xiāo)量，輸了品牌

2022爆款：ROG魔霸6 冰川散熱系統(tǒng)持續(xù)護(hù)航

最薄的14英寸游戲筆記本電腦 Alienware X14已可以購(gòu)買(mǎi)

三翼鳥(niǎo)智能家居亮相電博會(huì)，讓用戶體驗(yàn)更真實(shí)

最新推薦

猜你喜歡

熱門(mén)推薦

相關(guān)資訊