国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

目錄
介紹
學(xué)習(xí)目標(biāo)
目錄
什么是在線學(xué)習(xí)?
批次與在線學(xué)習(xí):比較概述
實(shí)時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
被動攻擊算法簡介
鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
鉸鏈損失的定義
理解等式
被動攻擊算法的數(shù)學(xué)表述
步驟1:初始化重量向量w
步驟2:對于每個新數(shù)據(jù)點(diǎn)(xi,yi),xiis特征向量和yi是真正的標(biāo)簽,預(yù)測的標(biāo)簽?_iis計算為:
步驟3:計算鉸鏈損失
步驟4:使用以下更新規(guī)則調(diào)整重量向量W
了解侵略性參數(shù)(C)
正則化在被動攻擊算法中的影響
這樣的公式以:
差異可以簡單地說明:
被動攻擊算法的實(shí)時應(yīng)用
垃圾郵件過濾
情感分析
仇恨言論檢測
欺詐檢測
股市分析
推薦系統(tǒng)
局限性和挑戰(zhàn)
建立仇恨言論檢測模型
為實(shí)時數(shù)據(jù)處理設(shè)置環(huán)境
安裝所需的庫
導(dǎo)入庫并設(shè)置Reddit API
清潔和預(yù)處理文本
設(shè)置預(yù)貼BERT模型以標(biāo)記
使用bert嵌入將文本轉(zhuǎn)換為向量
流式傳輸實(shí)時reddit數(shù)據(jù)并訓(xùn)練被動攻擊分類器
評估模型性能
結(jié)論
常見問題
首頁 科技周邊 人工智能 在線學(xué)習(xí)和被動攻擊算法指南

在線學(xué)習(xí)和被動攻擊算法指南

Apr 13, 2025 am 11:09 AM

介紹

數(shù)據(jù)是從社交媒體,金融交易和電子商務(wù)平臺等來源的前所未有的速度生成的。處理這種連續(xù)的信息流是一個挑戰(zhàn),但它提供了一個及時,準(zhǔn)確的決定的機(jī)會。實(shí)時系統(tǒng)(例如金融交易,語音助手和健康監(jiān)控系統(tǒng))依靠連續(xù)的數(shù)據(jù)處理來提供相關(guān)和最新的響應(yīng)。

批處理學(xué)習(xí)算法(例如KNN,SVM和決策樹)要求在訓(xùn)練期間將整個數(shù)據(jù)集加載到內(nèi)存中。在使用大型數(shù)據(jù)集時,這變得越來越不切實(shí)際,導(dǎo)致重大存儲和內(nèi)存問題。在使用實(shí)時數(shù)據(jù)時,這些效率也很低。

由于這個問題,我們需要一種在處理大量數(shù)據(jù)時既有效又準(zhǔn)確的算法。在這方面,被動攻擊算法使自己與眾不同。與批處理學(xué)習(xí)算法不同,它們不必在完整數(shù)據(jù)集上進(jìn)行培訓(xùn)即可進(jìn)行預(yù)測。被動攻擊性算法從即時的數(shù)據(jù)中學(xué)習(xí),消除了將整個數(shù)據(jù)集存儲或處理存儲在內(nèi)存中的需求。

學(xué)習(xí)目標(biāo)

  • 在線學(xué)習(xí)及其在使用大量數(shù)據(jù)時的意義。
  • 在線學(xué)習(xí)和批處理學(xué)習(xí)算法之間的區(qū)別。
  • 被動攻擊算法背后的數(shù)學(xué)直覺。
  • 不同的超參數(shù)及其在被動攻擊算法中的重要性。
  • 被動攻擊算法的應(yīng)用和用例。
  • 被動攻擊算法的局限性和挑戰(zhàn)。
  • 在Python中實(shí)現(xiàn)被動攻擊分類器,以檢測實(shí)時REDDIT數(shù)據(jù)的仇恨言論。

本文作為數(shù)據(jù)科學(xué)博客馬拉松的一部分發(fā)表。

目錄

  • 什么是在線學(xué)習(xí)?
    • 實(shí)時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢
  • 被動攻擊算法簡介
  • 鉸鏈損失在被動攻擊學(xué)習(xí)中的作用
  • 被動攻擊算法的數(shù)學(xué)表述
    • 了解侵略性參數(shù)(C)
  • 正則化在被動攻擊算法中的影響
  • 被動攻擊算法的實(shí)時應(yīng)用
  • 局限性和挑戰(zhàn)
  • 建立仇恨言論檢測模型
    • 為實(shí)時數(shù)據(jù)處理設(shè)置環(huán)境
    • 設(shè)置預(yù)貼BERT模型以標(biāo)記
  • 常見問題

什么是在線學(xué)習(xí)?

在線學(xué)習(xí),也稱為增量學(xué)習(xí),是一種機(jī)器學(xué)習(xí)范式,該模型可以通過每個新數(shù)據(jù)點(diǎn)進(jìn)行逐步更新,而不是一次在固定數(shù)據(jù)集上進(jìn)行培訓(xùn)。這種方法允許該模型不斷適應(yīng)新數(shù)據(jù),從而使其在隨著時間的推移隨時間發(fā)展的動態(tài)環(huán)境中特別有用。與傳統(tǒng)的批處理學(xué)習(xí)方法不同,在線學(xué)習(xí)可以通過處理新信息到達(dá)時實(shí)時更新和決策。

批次與在線學(xué)習(xí):比較概述

讓我們在下面研究批處理與在線學(xué)習(xí)比較:

批處理學(xué)習(xí):

  • 培訓(xùn)方法:批次學(xué)習(xí)算法一次在固定數(shù)據(jù)集上訓(xùn)練。經(jīng)過培訓(xùn)后,該模型將用于預(yù)測,直到使用新數(shù)據(jù)對其進(jìn)行重新訓(xùn)練。
  • 示例:神經(jīng)網(wǎng)絡(luò),支持向量機(jī)(SVM),K-Nearest鄰居(KNN)。
  • 挑戰(zhàn):再培訓(xùn)需要從頭開始處理整個數(shù)據(jù)集,這可能很耗時且計算昂貴。對于大型且增長的數(shù)據(jù)集,這尤其具有挑戰(zhàn)性,因?yàn)榧词故褂脧?qiáng)大的GPU,再培訓(xùn)也可能需要數(shù)小時。

在線學(xué)習(xí):

  • 培訓(xùn)方法:在線學(xué)習(xí)算法使用每個新數(shù)據(jù)點(diǎn)逐步更新模型。該模型不斷學(xué)習(xí)并實(shí)時適應(yīng)新數(shù)據(jù)。
  • 優(yōu)點(diǎn):此方法對于處理大型數(shù)據(jù)集和動態(tài)數(shù)據(jù)流更有效。該模型以最少的計算資源進(jìn)行更新,并且可以快速處理新的數(shù)據(jù)點(diǎn),而無需從頭開始重新培訓(xùn)。
  • 應(yīng)用程序:在線學(xué)習(xí)對需要實(shí)時決策的應(yīng)用程序有益,例如股票市場分析,社交媒體流和推薦系統(tǒng)。

實(shí)時應(yīng)用程序在線學(xué)習(xí)的優(yōu)勢

  • 持續(xù)適應(yīng):在線學(xué)習(xí)模型適應(yīng)新數(shù)據(jù)的到來,使其非常適合隨著時間的推移(例如在欺詐檢測系統(tǒng)中)發(fā)展的環(huán)境。這樣可以確保模型保持相關(guān)性和有效性,而無需從頭開始重新審查。
  • 效率:在線學(xué)習(xí)算法不需要與整個數(shù)據(jù)集進(jìn)行完整的重新培訓(xùn),從而節(jié)省了大量的計算時間和資源。這對于具有有限的計算功率(例如移動設(shè)備)的應(yīng)用程序特別有用。
  • 資源管理:通過逐步處理數(shù)據(jù),在線學(xué)習(xí)模型減少了對廣泛存儲空間的需求。處理后可以丟棄舊數(shù)據(jù),這有助于有效地管理存儲并保持系統(tǒng)輕巧。
  • 實(shí)時決策:在線學(xué)習(xí)可以實(shí)現(xiàn)實(shí)時更新,這對于依賴最新信息的應(yīng)用程序至關(guān)重要,例如推薦系統(tǒng)或?qū)崟r股票交易。

被動攻擊算法簡介

被動攻擊算法首先由Crammer等人引入。 2006年,他們的論文名為“在線被動攻擊算法”。這些算法屬于在線學(xué)習(xí)類別,主要用于分類任務(wù)。這些是有效的,因?yàn)樗鼈兛梢灾鸩綇拿總€數(shù)據(jù)點(diǎn)學(xué)習(xí),調(diào)整其參數(shù),然后從內(nèi)存中丟棄數(shù)據(jù)。這使得在處理龐大的數(shù)據(jù)集和實(shí)時應(yīng)用程序時,被動攻擊算法特別有用。此外,它的適應(yīng)能力可以快速使其在數(shù)據(jù)分布可能會隨著時間變化而變化的動態(tài)環(huán)境中表現(xiàn)良好。

您可能想知道這個不尋常的名字。這是有原因的。該算法的被動部分意味著,如果正確地對當(dāng)前數(shù)據(jù)點(diǎn)進(jìn)行了分類,則模型保持不變,并保留從先前的數(shù)據(jù)點(diǎn)獲得的知識。另一方面,侵略性部分表明,如果發(fā)生錯誤分類,該模型將大大調(diào)整其權(quán)重以糾正誤差。

為了更好地了解PA算法的工作原理,讓我們在二進(jìn)制分類的背景下可視化其行為。想象一下,您有一組數(shù)據(jù)點(diǎn),每個數(shù)據(jù)點(diǎn)屬于兩個類之一。 PA算法旨在找到一個分離的超平面,將數(shù)據(jù)點(diǎn)分為各自的類別。該算法從對超平面的初始猜測開始。當(dāng)新的數(shù)據(jù)點(diǎn)被錯誤分類時,該算法會積極地更新當(dāng)前的超平面,以確保正確對新數(shù)據(jù)點(diǎn)進(jìn)行分類。另一方面,當(dāng)數(shù)據(jù)點(diǎn)正確分類時,則無需更新超平面。

鉸鏈損失在被動攻擊學(xué)習(xí)中的作用

被動攻擊算法使用鉸鏈損失作為其損耗函數(shù),是該算法的關(guān)鍵構(gòu)件之一。這就是為什么在我們深入研究算法背后的數(shù)學(xué)直覺之前,要了解鉸鏈損失的運(yùn)作至關(guān)重要。

鉸鏈損失廣泛用于機(jī)器學(xué)習(xí),特別是用于培訓(xùn)分類器,例如支持向量機(jī)(SVM)。

鉸鏈損失的定義

它被定義為:

在線學(xué)習(xí)和被動攻擊算法指南

  • W是模型的重量向量
  • xi是第i-th數(shù)據(jù)點(diǎn)的特征向量
  • yi是第i -th數(shù)據(jù)點(diǎn)的真實(shí)標(biāo)簽,如果進(jìn)行二進(jìn)制分類,則可以是1或-1。

在線學(xué)習(xí)和被動攻擊算法指南

讓我們以二進(jìn)制分類問題為例,其中目標(biāo)是區(qū)分兩個數(shù)據(jù)類。 PA算法隱含地旨在最大化決策邊界和數(shù)據(jù)點(diǎn)之間的邊距。邊緣是數(shù)據(jù)點(diǎn)和分離線/超平面之間的距離。這與SVM分類器的工作非常相似,SVM分類器也將鉸鏈損失用作其損耗函數(shù)。較大的邊距表明分類器對其預(yù)測更有信心,并且可以準(zhǔn)確區(qū)分這兩個類別。因此,目標(biāo)是盡可能頻繁地達(dá)到至少1個邊緣。

理解等式

讓我們進(jìn)一步分解,看看方程如何有助于達(dá)到最大利潤:

  • w·xi:這是權(quán)重矢量W和數(shù)據(jù)點(diǎn)XI的點(diǎn)產(chǎn)物。它代表了對分類器預(yù)測的信心程度。
  • yi *(w·xi):這是分類器的簽名分?jǐn)?shù)或邊距,其中符號由真實(shí)標(biāo)簽yi確定。正值表示分類器預(yù)測正確的標(biāo)簽,而負(fù)值表示它預(yù)測了錯誤的標(biāo)簽。
  • 1 - yi *(w·xi) 這測量了所需的邊距(1)和實(shí)際邊緣之間的差異。
  • max(0,1 - yi *(w·xi)):當(dāng)邊緣至少1時,損耗等于零。否則,損失隨著邊緣赤字而線性增加。

簡而言之,鉸鏈損失會懲罰不正確的分類以及不夠自信的正確分類。當(dāng)數(shù)據(jù)點(diǎn)至少用單位邊緣正確分類時,損失為零。否則,如果數(shù)據(jù)點(diǎn)在邊緣或錯誤分類之內(nèi),則損失隨距離邊緣的距離線性增加。

被動攻擊算法的數(shù)學(xué)表述

被動攻擊性分類器的數(shù)學(xué)基礎(chǔ)圍繞著維護(hù)根據(jù)傳入數(shù)據(jù)點(diǎn)的分類誤差進(jìn)行更新的權(quán)重向量W。這是算法的詳細(xì)概述:

給定一個數(shù)據(jù)集:

在線學(xué)習(xí)和被動攻擊算法指南

步驟1:初始化重量向量w

步驟2:對于每個新數(shù)據(jù)點(diǎn)(xi,yi),xiis特征向量和yi是真正的標(biāo)簽,預(yù)測的標(biāo)簽?_iis計算為:

在線學(xué)習(xí)和被動攻擊算法指南

步驟3:計算鉸鏈損失

在線學(xué)習(xí)和被動攻擊算法指南

  • 如果預(yù)測的標(biāo)簽?_i是正確的,邊距至少為1,則損失為0。
  • 否則,損失是1和邊緣之間的差異。

步驟4:使用以下更新規(guī)則調(diào)整重量向量W

對于每個數(shù)據(jù)點(diǎn)x_i,如果l(w;(x_i,y_i))> 0(錯誤分類或不足):

更新的重量向量w_t 1的給出為:

在線學(xué)習(xí)和被動攻擊算法指南

如果l(w;(x_i,y_i))= 0(用足夠的邊距正確分類):

然后,重量矢量保持不變:

在線學(xué)習(xí)和被動攻擊算法指南

請注意,這些方程在求解約束優(yōu)化問題后出現(xiàn),目的是在類之間獲得最大邊緣超平面。這些取自原始研究論文,這些論文的推導(dǎo)超出了本文的范圍。

這兩個更新方程是被動攻擊算法的核心。這些意義可以簡單地理解。一方面,更新需要新的權(quán)重值(W_T 1)才能正確地用足夠大的邊距對當(dāng)前示例進(jìn)行分類,從而取得了進(jìn)展。另一方面,它必須保持盡可能靠近較舊的重量(W_T),以保留在上一輪中學(xué)習(xí)的信息。

了解侵略性參數(shù)(C)

侵略性參數(shù)C是被動攻擊算法中最重要的超參數(shù)。它控制算法在發(fā)生錯誤分類時如何更新其權(quán)重。

高C值會導(dǎo)致更積極的更新,從而可能導(dǎo)致更快的學(xué)習(xí),但也增加了過度擬合的風(fēng)險。該算法可能對數(shù)據(jù)中的噪聲和波動過于敏感。另一方面,C值的低值會導(dǎo)致較不積極的更新,從而使算法對噪聲和異常值的強(qiáng)大更強(qiáng)。但是,在這種情況下,適應(yīng)新信息,減慢學(xué)習(xí)過程的速度很慢。

我們希望該算法能夠從每個新實(shí)例中逐步學(xué)習(xí),同時避免過度適合嘈雜的樣本。結(jié)果,我們必須努力在兩者之間取得平衡,從而使我們能夠在保持模型穩(wěn)定性和防止過度擬合的同時進(jìn)行重大更新。在大多數(shù)情況下,C的最佳值取決于特定數(shù)據(jù)集以及學(xué)習(xí)速度和穩(wěn)健性之間所需的權(quán)衡。在實(shí)際情況下,諸如交叉驗(yàn)證之類的技術(shù)用于獲得C的最佳值。

正則化在被動攻擊算法中的影響

現(xiàn)實(shí)世界中的數(shù)據(jù)集幾乎總是包含一定程度的噪音或不規(guī)則性。標(biāo)簽錯誤的數(shù)據(jù)點(diǎn)可能導(dǎo)致PA算法在錯誤的方向上大大改變其權(quán)重向量。這個單一標(biāo)記的示例可能會導(dǎo)致隨后的回合中的幾個預(yù)測錯誤,從而影響模型的可靠性。

為了解決這個問題,還有一個更重要的超參數(shù)有助于使算法對數(shù)據(jù)中的噪聲和異常值更強(qiáng)大。在錯誤分類的情況下,它傾向于使用更溫和的重量更新。這類似于正規(guī)化?;谡齽t化參數(shù),稱為PA-I和PA-II,該算法分為兩個變體。

這些主要在步長變量τ (也稱為歸一化損耗)的定義上有所不同對于pa-i,損失被上限為侵略性參數(shù)C的值。

這樣的公式以:

在線學(xué)習(xí)和被動攻擊算法指南

對于PA-II,步長或歸一化損失可以寫為:

在線學(xué)習(xí)和被動攻擊算法指南

在被動攻擊性分類器的Sklearlen實(shí)施中,該正則化參數(shù)被視為損失??梢愿鶕?jù)我們要使用的兩個PA-I和PA-II中的哪一個設(shè)置為兩個值之一。如果您想使用PA-I變體,則應(yīng)將損失設(shè)置為“鉸鏈”,否則為PA-II,損失設(shè)置為“平方 - 鉸鏈”。

差異可以簡單地說明:

  • PA-I是一種更具侵略性的變體,它放松邊緣約束(邊緣可能小于一個),但在預(yù)測不正確的情況下,損失損失。這會導(dǎo)致學(xué)習(xí)速度更快,但比其對應(yīng)者更容易出現(xiàn)離群值。
  • PA-II是一種更強(qiáng)大的變體,可以四處懲罰損失,使其對嘈雜的數(shù)據(jù)和異常值更具彈性。同時,這使其更加保守,以適應(yīng)數(shù)據(jù)的差異,從而導(dǎo)致學(xué)習(xí)速度較慢。

同樣,這兩個之間的選擇取決于數(shù)據(jù)集的特定特征。實(shí)際上,通常建議在選擇任何一個變體之前嘗試具有不同C值的兩個變體。

被動攻擊算法的實(shí)時應(yīng)用

從實(shí)時數(shù)據(jù)處理到自適應(yīng)系統(tǒng),在線學(xué)習(xí)和被動攻擊算法具有廣泛的應(yīng)用程序。下面,我們研究了在線學(xué)習(xí)的一些最有影響力的應(yīng)用。

垃圾郵件過濾

垃圾郵件過濾是文本分類的重要應(yīng)用,其目標(biāo)是區(qū)分垃圾郵件和合法電子郵件。 PA算法的逐步學(xué)習(xí)能力在這里特別有益,因?yàn)樗梢愿鶕?jù)新的垃圾郵件趨勢不斷更新模型。

情感分析

情感分析涉及確定在文本中表達(dá)的情感,例如推文或產(chǎn)品評論。 PA算法可用于構(gòu)建實(shí)時分析情感的模型,適應(yīng)新的語,表達(dá)和情感趨勢。這在社交媒體監(jiān)控和客戶反饋分析中特別有用,及時見解至關(guān)重要。

仇恨言論檢測

仇恨言語檢測是PA算法可能非常有用的另一個關(guān)鍵應(yīng)用。通過從仇恨言論的新實(shí)例中逐步學(xué)習(xí),該模型可以適應(yīng)不斷發(fā)展的語言模式和上下文。這對于在Twitter,F(xiàn)acebook和Reddit等平臺上保持自動審核工具的有效性至關(guān)重要,以確保更安全,更具包容性的在線環(huán)境。

欺詐檢測

金融機(jī)構(gòu)和在線服務(wù)不斷監(jiān)視交易和用戶行為,以檢測欺詐活動。 PA算法通過每項(xiàng)新交易更新其模型的能力有助于確定欺詐模式出現(xiàn)的模式,從而為不斷發(fā)展的欺詐策略提供了強(qiáng)有力的防御。

股市分析

金融市場的股票價格高度動態(tài),要求模型快速響應(yīng)新信息。在線學(xué)習(xí)算法可以通過從新的市場數(shù)據(jù)中逐步學(xué)習(xí)來預(yù)測和分析股票價格,從而及時,準(zhǔn)確地預(yù)測貿(mào)易商和投資者。

推薦系統(tǒng)

在線學(xué)習(xí)算法也可以在大規(guī)模推薦系統(tǒng)中使用,以根據(jù)用戶互動動態(tài)更新建議。這種實(shí)時適應(yīng)性可確保隨著用戶偏好的變化,建議保持相關(guān)和個性化。

這些是在線學(xué)習(xí)算法真正發(fā)光的一些領(lǐng)域。但是,它們的能力不僅限于這些領(lǐng)域。這些也適用于其他各個領(lǐng)域,包括異常檢測,醫(yī)學(xué)診斷和機(jī)器人技術(shù)。

局限性和挑戰(zhàn)

盡管在線學(xué)習(xí)和被動攻擊算法在處理流數(shù)據(jù)并適應(yīng)快速變化方面具有優(yōu)勢,但它們也有缺點(diǎn)。一些關(guān)鍵局限性是:

  • 被動攻擊算法順序處理數(shù)據(jù),使它們更容易受到嘈雜或錯誤的數(shù)據(jù)點(diǎn)的影響。單個離群值可能會對模型的學(xué)習(xí)產(chǎn)生不成比例的影響,從而導(dǎo)致預(yù)測或有偏見的模型。
  • 這些算法一次僅看到一個數(shù)據(jù)實(shí)例,這限制了他們對不同數(shù)據(jù)點(diǎn)之間的總體數(shù)據(jù)分布和關(guān)系的理解。這使得很難識別復(fù)雜的模式并做出準(zhǔn)確的預(yù)測。
  • 由于PA算法實(shí)時從數(shù)據(jù)流中學(xué)習(xí),因此它們可能會與最新數(shù)據(jù)過高,并可能忽略或忘記早期數(shù)據(jù)中觀察到的模式。當(dāng)數(shù)據(jù)分布隨時間變化時,這可能導(dǎo)致概括性能差。
  • 選擇侵略性參數(shù)C的最佳值可能具有挑戰(zhàn)性,并且通常需要實(shí)驗(yàn)。高價值提高了攻擊性導(dǎo)致過度擬合,而低價值會導(dǎo)致學(xué)習(xí)緩慢。
  • 評估這些算法的性能非常復(fù)雜。由于數(shù)據(jù)分布可以隨時間變化,因此在固定測試集??上評估模型的性能可能不一致。

建立仇恨言論檢測模型

Twitter和Reddit等社交媒體平臺每天都會產(chǎn)生大量數(shù)據(jù),使其非常適合測試我們對在線學(xué)習(xí)算法的理論理解。

在本節(jié)中,我將通過使用Reddit的實(shí)時數(shù)據(jù)從頭開始構(gòu)建仇恨語音檢測應(yīng)用程序來演示實(shí)際的用例。 Reddit是一個以其多元化社區(qū)而聞名的平臺。但是,這也面臨著有毒評論的挑戰(zhàn),這些評論可能會受到傷害和虐待。我們將構(gòu)建一個可以使用REDDIT API實(shí)時識別這些有毒評論的系統(tǒng)。

在這種情況下,由于數(shù)據(jù)量的龐大,培訓(xùn)一個模型將不可能一次。此外,數(shù)據(jù)分布和模式會隨著時間而變化。因此,我們需要無源攻擊算法的幫助,能夠在不存儲內(nèi)存中將數(shù)據(jù)從數(shù)據(jù)中學(xué)習(xí)。

為實(shí)時數(shù)據(jù)處理設(shè)置環(huán)境

在開始實(shí)施代碼之前,您必須首先設(shè)置系統(tǒng)。要使用REDDIT API,如果您還沒有,則必須在Reddit上創(chuàng)建一個帳戶。然后,創(chuàng)建一個REDDIT應(yīng)用程序,并獲取您的API密鑰和其他憑據(jù)進(jìn)行身份驗(yàn)證。完成這些先決條件后,我們準(zhǔn)備開始創(chuàng)建仇恨言論檢測模型。

代碼的工作流程看起來像這樣:

  • 使用“ praw”庫連接到Reddit API。
  • 流傳輸實(shí)時數(shù)據(jù)并將其輸入模型。
  • 使用BERT模型對數(shù)據(jù)進(jìn)行標(biāo)記,以進(jìn)行仇恨語音檢測任務(wù)。
  • 使用被動攻擊性分類器逐步訓(xùn)練模型。
  • 在看不見的測試數(shù)據(jù)集上測試我們的模型并測量性能。

安裝所需的庫

第一步是安裝所需的庫。

 PIP安裝PRAW SCIKIT-LEARN NLTK變形金剛火炬Matplotlib Seaborn opendatasets

要與Reddit合作,我們需要“ praw”庫,即Reddit API包裝器。我們還需要“ nltk”進(jìn)行文本處理,``scikit-learn“用于機(jī)器學(xué)習(xí),``matplotlib''和`seaborn''和`seaborn'用于可視化,``transformers''和`transformers''和`torch'用于創(chuàng)建單詞嵌入并加載微調(diào)的bert bert bert bert模型,并從kaggle加載數(shù)據(jù)。

導(dǎo)入庫并設(shè)置Reddit API

在下一步中,我們使用“ praw”導(dǎo)入所有必要的庫,并設(shè)置與Reddit API的連接。它將幫助我們從Subreddits流式評論。

導(dǎo)入
進(jìn)口praw
導(dǎo)入火炬
導(dǎo)入NLTK
導(dǎo)入numpy作為NP
導(dǎo)入大熊貓作為pd
導(dǎo)入matplotlib.pyplot作為PLT
進(jìn)口海洋作為SNS
導(dǎo)入OpEndataset作為OD
來自nltk.corpus導(dǎo)入停止詞
來自sklearn.feature_extraction.text導(dǎo)入tfidfvectorizer
來自sklearn.linear_model導(dǎo)入passiveaggressiveclalsifier
來自sklearn.metrics導(dǎo)入精度,confusion_matrix,classification_report
來自sklearn.model_selection導(dǎo)入train_test_split
從變形金剛導(dǎo)入汽車,AutoModeForSequenceCecrification,AutoTokenizer
從變形金剛導(dǎo)入bertforeSequencecrification,berttokenizer,textClassification pipeline

#Reddit API憑據(jù)
reddit_client_id = {your_client_id}
reddit_client_secret = {your_client_secret}
reddit_user_agent = {your_user_agent}

#設(shè)置Reddit API連接
reddit = praw.reddit(client_id = reddit_client_id,
                     client_secret = reddit_client_secret,
                     user_agent = reddit_user_agent)

要成功設(shè)置REDDIT實(shí)例,只需用您的憑據(jù)替換上述占位符,就可以使用。

清潔和預(yù)處理文本

在處理原始文本數(shù)據(jù)時,通常有包含符號,主題標(biāo)簽,land詞等的示例。由于這些對我們的模型沒有實(shí)際用途,因此我們必須首先清潔文本才能刪除它們。

 #下載停止字
nltk.download('stopwords')
stop_words = set(stopwords.words('英語'))

#清潔文本并刪除停止詞
def clean_text(文本):
    text = re.sub(r'http \ s | www \ s | https \ s','',text,flags = re.multiline)
    text = re.sub(r'\@\ w | \#','',text)
    text = re.sub(r'\ w',',text)
    text = re.sub(r'\ d',',text)
    text = re.sub(r'\ s','',文本)
    text = text.strip()
    text =''。
    返回文字

上面的代碼定義了輔助功能,該功能通過刪除不必要的單詞,特殊字符和URL來預(yù)處理評論。

設(shè)置預(yù)貼BERT模型以標(biāo)記

當(dāng)我們從Reddit流媒體評論時,我們不知道該評論是否有毒,因?yàn)樗鼪]有標(biāo)記。要使用監(jiān)督分類,我們首先需要標(biāo)記數(shù)據(jù)。我們必須實(shí)施一個可靠且精確的系統(tǒng),以標(biāo)記傳入的原始注釋。為此,我們將使用一個微調(diào)的BERT模型進(jìn)行仇恨言論檢測。該模型將將評論準(zhǔn)確地分類為兩個類別。

 model_path =“ junglelee/bert-toxic-comment-classification”
tokenizer = berttokenizer.from_pretaining(model_path)
model = bertforsequencececrification.from_pretrated(model_path,num_labels = 2)

pipeline = textClassification pipeline(model = model,tokenizer = tokenizer)

#為文本標(biāo)記的助手功能
def precadive_hate_speech(文本):
    預(yù)測= pipeline(text)[0] ['label']
    返回1如果預(yù)測=='有毒'其他0#1對有毒,0抗毒

在這里,我們使用變形金剛庫來設(shè)置模型管道。然后,我們定義一個輔助函數(shù),以預(yù)測給定文本使用BERT模型是有毒還是無毒?,F(xiàn)在,我們已經(jīng)標(biāo)記了示例以進(jìn)食我們的模型。

使用bert嵌入將文本轉(zhuǎn)換為向量

由于我們的分類器將不使用文本輸入,因此需要首先將其轉(zhuǎn)換為合適的向量表示。為了做到這一點(diǎn),我們將使用驗(yàn)證的BERT嵌入,這將使我們的文本轉(zhuǎn)換為可以將其饋送到模型進(jìn)行訓(xùn)練的向量。

 #加載驗(yàn)證的BERT模型和嵌入的令牌
model_name =“基于bert-base-uncund”
tokenizer = autotokenizer.from_pretaining(model_name)
bert_model = automodel.from_pretrataining(model_name)
bert_model.eval()  

#為獲得bert嵌入的助手功能
def get_bert_embedding(文本):
    inputs = tokenizer(text,return_tensors ='pt',截斷= true,padding = true)
    使用Torch.no_grad():
        輸出= bert_model(**輸入)
    
    返回outputs.last_hidden_??state [:,0,:]。squeeze()。numpy()

上面的代碼采用一段文本,使用bert令牌化來將其施加,然后將其通過BERT模型將其傳遞以提取句子嵌入。文本現(xiàn)在已轉(zhuǎn)換為向量。

流式傳輸實(shí)時reddit數(shù)據(jù)并訓(xùn)練被動攻擊分類器

現(xiàn)在,我們準(zhǔn)備實(shí)時流式傳輸評論,并培訓(xùn)分類器以檢測仇恨言論。

 #為subreddit的助手功能流式傳輸評論
def stream_comments(subreddit_name,batch_size = 100):
    subreddit = reddit.subreddit(subreddit_name)
    remand_stream = subreddit.stream.comments()
    
    批次= []
    在comment_stream中進(jìn)行評論:
        嘗試:
            #清潔傳入的文字 
            remand_text = clean_text(comment.body)
            #使用驗(yàn)證的BERT模型標(biāo)記評論
            label = predition_hate_speech(comment_text) 
            #將文本和標(biāo)簽添加到當(dāng)前批次
            batch.append((comment_text,label))
            
            如果len(batch)> = batch_size:
                產(chǎn)量批次
                批次= []
                
        除例外為E:
            打?。╢'Error:{e}')
 

#指定訓(xùn)練回合的數(shù)量
回合= 10

#指定subreddit
subreddit_name ='fitness'

#初始化被動攻擊分類器
clf = passiveaggressiveclalsifier(c = 0.1,損失='Hinge',max_iter = 1,Random_state = 37)


#流評論并執(zhí)行增量培訓(xùn)
對于num_rounds,在枚舉中批處理(stream_comments(subreddit_name,batch_size = 100)):
    #訓(xùn)練分類器進(jìn)行所需數(shù)量的回合
    如果num_rounds ==圓形:
        休息
  
    #分開文字和標(biāo)簽
    batch_texts = [at批次中的項(xiàng)目]
    batch_labels = [批次中的項(xiàng)目[1]]
    
    #將一批文本轉(zhuǎn)換為bert嵌入
    x_train_batch = np.Array([[get_bert_embedding(text)for batch_texts中的文本])
    y_train_batch = np.array(batch_labels)
    
    #在當(dāng)前批次上訓(xùn)練模型
    clf.partial_fit(x_train_batch,y_train_batch,class = [0,1])
    打印(在一批{len(batch_texts)}樣品中進(jìn)行打印。')
    
印刷(“訓(xùn)練完成”)

在線學(xué)習(xí)和被動攻擊算法指南

在上面的代碼中,我們首先指定我們要從中進(jìn)行評論,然后通過10個訓(xùn)練回合初始化PA分類器的子列數(shù)。然后,我們實(shí)時流式傳輸評論。對于其中的每個新評論,首先會清理刪除不必要的單詞。然后使用驗(yàn)證的BERT模型標(biāo)記并添加到當(dāng)前批處理中。

我們初始化的被動攻擊分類器將C = 0.1且損耗='鉸鏈',該分類器與算法的PA-I版本相對應(yīng)。對于每個批次,我們都使用'partial_fit()`方法訓(xùn)練分類器。這使該模型可以從每個訓(xùn)練樣本中逐步學(xué)習(xí),而不是在處理之前將整個批次存儲在內(nèi)存中。因此,使模型能夠不斷適應(yīng)新信息,從而使其非常適合實(shí)時應(yīng)用程序。

評估模型性能

我將使用Kaggle有毒推文數(shù)據(jù)集評估我們的模型。該數(shù)據(jù)集包含幾條被分類為有毒或無毒的推文。

 #從Kaggle下載數(shù)據(jù)
od.download(“ https://www.kaggle.com/datasets/ashwiniyer176/toxic-tweets-dataset”)
#加載數(shù)據(jù)
data = pd.read_csv(“ decitic-teweets-dataset/finalbalanceddataset.csv”,usecols = [1,2])[[[“ Tweet”,“ witedicities”]]

#分開文字和標(biāo)簽
test_data = data.sample(n = 100)
texts = test_data ['tweet']。應(yīng)用(clean_text)
標(biāo)簽= test_data ['毒性']

#將文本轉(zhuǎn)換為向量
x_test = np.array([get_bert_embedding(文本)文本中的文本])
y_test = np.array(標(biāo)簽)

#做出預(yù)測
y_pred = clf.predict(x_test)

#評估模型的性能
精度=準(zhǔn)確_score(y_test,y_pred)
conf_matrix = Confusion_matrix(y_test,y_pred)

打印(“分類報告:”)
print(classification_report(y_test,y_pred))

#繪制混亂矩陣
plt.figure(無花果=(7,5))
sns.heatmap(conc_matrix, 
            annot = true, 
            fmt ='d', 
            cmap ='布魯斯', 
            cbar = false, 
            Xticklabels = [“無毒”,“有毒”], 
            yticklabels = [“無毒”,“有毒”])
            
plt.xlabel(“預(yù)測標(biāo)簽”)
plt.ylabel('true標(biāo)簽')
plt.title('混淆矩陣')
plt.show() 

在線學(xué)習(xí)和被動攻擊算法指南

在線學(xué)習(xí)和被動攻擊算法指南

首先,我們加載了測試集并使用前面定義的`clean_text`方法清潔了它。然后使用bert嵌入將文本轉(zhuǎn)換為向量。最后,我們使用分類報告和混亂矩陣對測試集進(jìn)行預(yù)測,并評估模型在不同指標(biāo)上的性能。

結(jié)論

我們探討了在線學(xué)習(xí)算法的力量,重點(diǎn)是被動攻擊算法有效處理大型數(shù)據(jù)集并適應(yīng)實(shí)時數(shù)據(jù)而無需完整的重新培訓(xùn)的能力。還討論了鉸鏈損失,侵略性超參數(shù)(C)的作用,以及正則化如何幫助管理噪聲和離群值。在實(shí)施使用被動攻擊分類器的仇恨語音檢測模型之前,我們還審查了現(xiàn)實(shí)世界中的應(yīng)用程序和局限性。感謝您的閱讀,我期待著我們的下一個AI教程!

常見問題

Q1。被動攻擊算法的基本原則是什么?

答:被動積極算法背后的基本原理是在做出錯誤的預(yù)測時積極更新權(quán)重,并在做出正確的預(yù)測時被動地保留學(xué)習(xí)的權(quán)重。

Q2。侵略性參數(shù)C在PA算法中起什么作用?

答:當(dāng)C高時,該算法變得更具侵略性,快速適應(yīng)新數(shù)據(jù),從而導(dǎo)致學(xué)習(xí)速度更快。當(dāng)C較低時,算法就會變得不那么侵略性,并進(jìn)行較小的更新。這降低了過度適合嘈雜樣本的可能性,但使適應(yīng)新實(shí)例的可能性更低。

Q3。被動攻擊分類器與支持向量機(jī)(SVM)有何相似之處?

答:兩者都旨在最大化決策邊界和數(shù)據(jù)點(diǎn)之間的邊距。兩者都使用鉸鏈損失作為其損失功能。

Q4。在線學(xué)習(xí)算法比批處理學(xué)習(xí)算法有哪些優(yōu)點(diǎn)?

答:在線學(xué)習(xí)算法可以與大型數(shù)據(jù)集一起使用,沒有存儲限制,并且很容易適應(yīng)快速變化的數(shù)據(jù),而無需從頭開始重新培訓(xùn)。

Q5。在什么情況下,被動侵略算法可以有用?

A.被動攻擊算法可用于多種應(yīng)用中,包括垃圾郵件過濾,情感分析,仇恨言論檢測,實(shí)時股票市場分析和推薦系統(tǒng)。

本文所示的媒體不由Analytics Vidhya擁有,并由作者酌情使用。

以上是在線學(xué)習(xí)和被動攻擊算法指南的詳細(xì)內(nèi)容。更多信息請關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本站聲明
本文內(nèi)容由網(wǎng)友自發(fā)貢獻(xiàn),版權(quán)歸原作者所有,本站不承擔(dān)相應(yīng)法律責(zé)任。如您發(fā)現(xiàn)有涉嫌抄襲侵權(quán)的內(nèi)容,請聯(lián)系admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣服圖片

Undresser.AI Undress

Undresser.AI Undress

人工智能驅(qū)動的應(yīng)用程序,用于創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用于從照片中去除衣服的在線人工智能工具。

Clothoff.io

Clothoff.io

AI脫衣機(jī)

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智能換臉工具輕松在任何視頻中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的代碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

功能強(qiáng)大的PHP集成開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級代碼編輯軟件(SublimeText3)

前7個筆記本替代品 前7個筆記本替代品 Jun 17, 2025 pm 04:32 PM

Google的NotebookLM是由Gemini 2.5提供動力的智能AI筆記工具,它在匯總文檔方面表現(xiàn)出色。但是,它在工具使用方面仍然有局限性,例如源蓋,云依賴性和最近的“發(fā)現(xiàn)”功能

山姆·奧特曼(Sam Altman)說,AI已經(jīng)超越了活動的視野,但是由于Agi和ASI將是一個溫柔的奇異性,因此不用擔(dān)心 山姆·奧特曼(Sam Altman)說,AI已經(jīng)超越了活動的視野,但是由于Agi和ASI將是一個溫柔的奇異性,因此不用擔(dān)心 Jun 12, 2025 am 11:26 AM

讓我們深入研究這一點(diǎn)。這本部分分析AI中的開創(chuàng)性開發(fā)是我持續(xù)報道的《福布斯》中人工智能不斷發(fā)展的景觀的一部分,包括解開和闡明AI的重大進(jìn)步和復(fù)雜性

好萊塢起訴AI公司,用于復(fù)制沒有許可證的角色 好萊塢起訴AI公司,用于復(fù)制沒有許可證的角色 Jun 14, 2025 am 11:16 AM

但是,這里的危險不僅僅是追溯損失或皇室報銷。根據(jù)AI治理和IP律師兼Ambart Law PLLC的創(chuàng)始人Yelena Ambartsumian的說法,真正的關(guān)注是前瞻性?!拔艺J(rèn)為迪士尼和環(huán)球影業(yè)的MA

Alphafold 3將建模能力擴(kuò)展到更多的生物學(xué)靶標(biāo) Alphafold 3將建模能力擴(kuò)展到更多的生物學(xué)靶標(biāo) Jun 11, 2025 am 11:31 AM

查看最新版本中的更新,您會注意到Alphafold 3將其建模功能擴(kuò)展到更廣泛的分子結(jié)構(gòu),例如配體(具有特定綁定屬性的離子或分子),其他離子,以及什么是Refe

您公司的AI流利性如何? 您公司的AI流利性如何? Jun 14, 2025 am 11:24 AM

使用AI與使用良好不同。許多創(chuàng)始人通過經(jīng)驗(yàn)發(fā)現(xiàn)了這一點(diǎn)。從節(jié)省時間的實(shí)驗(yàn)開始通常會創(chuàng)造更多的工作。團(tuán)隊最終花費(fèi)數(shù)小時修改AI生成的內(nèi)容或驗(yàn)證輸出

DIA瀏覽器發(fā)布 - 與AI知道您喜歡朋友的AI DIA瀏覽器發(fā)布 - 與AI知道您喜歡朋友的AI Jun 12, 2025 am 11:23 AM

Dia 是此前短命瀏覽器 Arc 的繼任者,The Browser 公司已將 Arc 暫停開發(fā),專注于 Dia。該瀏覽器于周三以測試版形式發(fā)布,并向所有 Arc 會員開放,其他用戶則需加入等候名單。盡管 Arc 已經(jīng)大量使用人工智能——例如集成了網(wǎng)頁摘要和鏈接預(yù)覽等功能——但 Dia 被稱為“AI 瀏覽器”,其幾乎完全聚焦于生成式 AI。Dia 瀏覽器功能Dia 最引人注目的功能與 Windows 11 中備受爭議的 Recall 功能有相似之處。該瀏覽器將記住你之前的活動,使你可以要求 AI

原型:太空公司Voyager的股票在IPO上飆升 原型:太空公司Voyager的股票在IPO上飆升 Jun 14, 2025 am 11:14 AM

航天公司Voyager Technologies在周三的IPO期間籌集了近3.83億美元,股票的價格為31美元。該公司為政府和商業(yè)客戶提供一系列與空間相關(guān)的服務(wù),包括在IN上的活動

從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 從采用到優(yōu)勢:2025年塑造企業(yè)LLM的10個趨勢 Jun 20, 2025 am 11:13 AM

以下是重塑企業(yè)AI景觀的十種引人注目的趨勢。對LLMSorganizations的財務(wù)承諾正在大大增加其在LLMS的投資,其中72%的人預(yù)計他們的支出今年會增加。目前,近40%a

See all articles