国产av日韩一区二区三区精品,成人性爱视频在线观看,国产,欧美,日韩,一区,www.成色av久久成人,2222eeee成人天堂

首頁 後端開發(fā) Golang 使用 Go 處理大型 CSV

使用 Go 處理大型 CSV

Nov 27, 2024 am 12:54 AM

想法是:

給定一個(gè)大型虛擬 CSV(100 萬行)包含客戶資料樣本,並依照以下目標(biāo)處理:

  • 從 CSV 擷取資料
  • 計(jì)算有多少資料/行
  • 將每個(gè)城市的客戶數(shù)量分組
  • 依顧客數(shù)量由高到低對(duì)城市進(jìn)行排序
  • 計(jì)算處理時(shí)間

客戶的 CSV 範(fàn)例可以在此處下載 https://github.com/datablist/sample-csv-files

載入和提取數(shù)據(jù)

顯然 Go 有用於 CSV 處理的標(biāo)準(zhǔn)函式庫。我們不再需要第三方依賴來解決我們的問題,這很好。所以解決方案非常簡單:

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }
  1. 從給定路徑開啟檔案
  2. 將開啟的檔案載入到 csv 閱讀器
  3. 將所有提取的 csv 記錄/行值保存到記錄切片中以供以後處理

FieldsPerRecord 設(shè)定為 -1,因?yàn)槲蚁胩^對(duì)行的欄位檢查,因?yàn)槊糠N格式的欄位或列數(shù)可能不同

在此狀態(tài)下,我們已經(jīng)能夠從 csv 載入和提取所有數(shù)據(jù),並準(zhǔn)備好進(jìn)入下一個(gè)處理狀態(tài)。我們也可以使用函數(shù) len(records) 來知道 CSV 中有多少行。

將總客戶分組到每個(gè)城市

現(xiàn)在我們可以迭代記錄並建立包含城市名稱和總客戶的地圖,如下所示:

["Jakarta": 10, "Bandung": 200, ...]

csv 行中的城市資料位於第 7 個(gè)索引,程式碼如下所示

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

如果城市地圖不存在,則建立新地圖並將客戶總數(shù)設(shè)為1。否則只需增加給定城市的總數(shù)。

現(xiàn)在我們的地圖 m 包含城市的集合以及其中有多少客戶。至此我們已經(jīng)解決了每個(gè)城市有多少客戶的分組問題。

對(duì)總客戶數(shù)進(jìn)行排序

我試圖找到標(biāo)準(zhǔn)庫中是否有任何函數(shù)可以對(duì)地圖進(jìn)行排序,但不幸的是我找不到它。排序僅適用於切片,因?yàn)槲覀兛梢愿鶕?jù)索引位置重新排列資料順序。所以,是的,讓我們從目前的地圖中切出一個(gè)切片。

// convert to slice first for sorting purposes
dc := []CityDistribution{}
for k, v := range m {
  dc = append(dc, CityDistribution{City: k, CustomerCount: v})
}

現(xiàn)在我們要如何按 CustomerCount 從最高到最低排序?最常見的演算法是使用氣泡空頭。雖然它不是最快的,但它可以完成這項(xiàng)工作。

冒泡排序是最簡單的排序演算法,如果相鄰元素的順序錯(cuò)誤,它的工作原理是重複交換相鄰元素。該演算法不適合大型資料集,因?yàn)槠淦骄妥顗那闆r時(shí)間複雜度相當(dāng)高。

參考:https://www.geeksforgeeks.org/bubble-sort-algorithm/

使用我們的切片,它將循環(huán)資料並檢查索引的下一個(gè)值,如果當(dāng)前資料小於下一個(gè)索引,則交換它。詳細(xì)演算法可以在參考網(wǎng)站查看。

現(xiàn)在我們的排序過程可能是這樣的

  // open the file to a reader interface
  c, err := os.Open("../data/customers-1000000.csv")
  if err != nil {
    log.Fatal(err)
  }
  defer c.Close()

  // load file reader into csv reader
  // Need to set FieldsPerRecord to -1 to skip fields checking
  r := csv.NewReader(c)
  r.FieldsPerRecord = -1
  r.ReuseRecord = true
  records, err := r.ReadAll()
  if err != nil {
    log.Fatal(err)
  }

循環(huán)結(jié)束時(shí),最後的切片將為我們提供排序後的資料。

計(jì)算處理時(shí)間

計(jì)算處理時(shí)間非常簡單,我們?nèi)〉脠?zhí)行程式主進(jìn)程之前和之後的時(shí)間戳記併計(jì)算差值。在 Go 中,方法應(yīng)該夠簡單:

["Jakarta": 10, "Bandung": 200, ...]

結(jié)果

使用指令運(yùn)行程式

  // create hashmap to populate city with total customers based on the csv data rows
  // hashmap will looks like be ["city name": 100, ...]
  m := map[string]int{}
  for i, record := range records {
    // skip header row
    if i == 0 {
    continue
    }
    if _, found := m[record[6]]; found {
      m[record[6]]++
    } else {
      m[record[6]] = 1
    }
  }

列印出來的是行數(shù)、排序資料和處理時(shí)間。像下面這樣:

Large CSV Processing Using Go

正如 Go 效能所預(yù)期的那樣,它在 1 秒內(nèi)處理了 100 萬行 csv!

所有已完成的程式碼已發(fā)佈在我的 Github 儲(chǔ)存庫上:

https://github.com/didikz/csv-processing/tree/main/golang

經(jīng)驗(yàn)教訓(xùn)

  • Go 中的 CSV 處理已經(jīng)在標(biāo)準(zhǔn)庫中可用,無需使用第 3 方庫
  • 處理資料非常簡單。面臨的挑戰(zhàn)是找出如何對(duì)資料進(jìn)行排序,因?yàn)樾枰謩?dòng)進(jìn)行

想到什麼?

我認(rèn)為我目前的解決方案可能可以進(jìn)一步優(yōu)化,因?yàn)槲已h(huán)提取了csv 的所有記錄來映射,如果我們檢查ReadAll() 來源,它還有循環(huán)來根據(jù)給定的檔案讀取器建立切片。這樣,1 百萬行可以為 1 百萬資料產(chǎn)生 2 個(gè)循環(huán),這不太好。

我想如果我可以直接從檔案讀取器讀取數(shù)據(jù),它只需要 1 個(gè)循環(huán),因?yàn)槲铱梢灾苯訌闹薪⒌貓D。除了記錄切片將在其他地方使用,但在本例中不使用。

我還沒有時(shí)間弄清楚,但我也認(rèn)為如果我手動(dòng)完成會(huì)有一些缺點(diǎn):

  • 可能需要處理更多解析過程中的錯(cuò)誤
  • 我不確定它會(huì)減少多少處理時(shí)間來考慮解決方法是否值得

編碼快樂!

以上是使用 Go 處理大型 CSV的詳細(xì)內(nèi)容。更多資訊請(qǐng)關(guān)注PHP中文網(wǎng)其他相關(guān)文章!

本網(wǎng)站聲明
本文內(nèi)容由網(wǎng)友自願(yuàn)投稿,版權(quán)歸原作者所有。本站不承擔(dān)相應(yīng)的法律責(zé)任。如發(fā)現(xiàn)涉嫌抄襲或侵權(quán)的內(nèi)容,請(qǐng)聯(lián)絡(luò)admin@php.cn

熱AI工具

Undress AI Tool

Undress AI Tool

免費(fèi)脫衣圖片

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅(qū)動(dòng)的應(yīng)用程序,用於創(chuàng)建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費(fèi)的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費(fèi)的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強(qiáng)大的PHP整合開發(fā)環(huán)境

Dreamweaver CS6

Dreamweaver CS6

視覺化網(wǎng)頁開發(fā)工具

SublimeText3 Mac版

SublimeText3 Mac版

神級(jí)程式碼編輯軟體(SublimeText3)

您如何在GO中有效地處理JSON編碼和解碼? 您如何在GO中有效地處理JSON編碼和解碼? Jun 11, 2025 am 12:02 AM

在Go中有效處理JSON需關(guān)注結(jié)構(gòu)標(biāo)籤、可選字段及動(dòng)態(tài)解析等問題。使用struct標(biāo)籤可自定義JSON鍵名,如json:"name";確保字段導(dǎo)出以供json包訪問。處理可選字段時(shí)使用指針或omitempty標(biāo)記以區(qū)分未提供與顯式零值。解析未知JSON時(shí)可採用map[string]interface{}並配合類型斷言提取數(shù)據(jù),默認(rèn)數(shù)字會(huì)被解析為float64。調(diào)試時(shí)可用json.MarshalIndent美化輸出,但生產(chǎn)環(huán)境應(yīng)避免多餘格式化。掌握這些技巧可提升代碼的健壯性與可

GO程序如何使用CGO與C代碼進(jìn)行交互?權(quán)衡是什麼? GO程序如何使用CGO與C代碼進(jìn)行交互?權(quán)衡是什麼? Jun 10, 2025 am 12:14 AM

Go程序確實(shí)可以通過Cgo與C代碼交互,它允許Go直接調(diào)用C函數(shù)。使用Cgo時(shí),只需導(dǎo)入偽包“C”並在導(dǎo)入行上方的註釋中嵌入C代碼即可,例如包含C函數(shù)定義並調(diào)用它們。此外,可通過指定鏈接標(biāo)誌如#cgoLDFLAGS鏈接外部C庫。然而,使用Cgo需要注意多個(gè)問題:1.內(nèi)存管理需手動(dòng)處理,不能依賴Go垃圾回收;2.Go類型與C類型可能不匹配,應(yīng)使用如C.int等類型保證一致性;3.多goroutine調(diào)用非線程安全C庫可能導(dǎo)致並發(fā)問題;4.調(diào)用C代碼存在性能開銷,應(yīng)減少跨語言邊界調(diào)用次數(shù)。 Cgo的缺

如何在不同的操作系統(tǒng)和體系結(jié)構(gòu)進(jìn)行跨編譯GO應(yīng)用程序? 如何在不同的操作系統(tǒng)和體系結(jié)構(gòu)進(jìn)行跨編譯GO應(yīng)用程序? Jun 11, 2025 am 12:12 AM

是的,goapplicationscanbecross-compiledfordfordferentoperatingsystemSandarchitures.todothis,firstSetthegoosandGoarchenVironMantVariaBlestVariablestoSpecifyThetArgetOsanchitector,sustasasAsAsGoos = linuxgoarch = linuxgoarch = amd64foralinuxbinarionorgoos = amd64foralinuxbinaryorgoos = windowsgoarchgoarch = arm64 forarkarcarch = arm644444444444444444444

Go如何處理指針,它們與C/C中的指針有何不同? Go如何處理指針,它們與C/C中的指針有何不同? Jun 10, 2025 am 12:13 AM

Go簡化了指針的使用,提升了安全性。 1.不支持指針運(yùn)算,防止內(nèi)存錯(cuò)誤;2.自動(dòng)垃圾回收管理內(nèi)存,無需手動(dòng)分配或釋放;3.結(jié)構(gòu)體方法可無縫使用值或指針,語法更簡潔;4.默認(rèn)安全指針,減少懸空指針和內(nèi)存洩漏風(fēng)險(xiǎn)。這些設(shè)計(jì)使Go比C/C 更易用且安全,但犧牲了部分底層控制能力。

默認(rèn)情況下,GO靜態(tài)鏈接的含義是什麼? 默認(rèn)情況下,GO靜態(tài)鏈接的含義是什麼? Jun 19, 2025 am 01:08 AM

Go默認(rèn)將程序編譯為獨(dú)立二進(jìn)製文件,主要原因是靜態(tài)鏈接。 1.部署更簡單:無需額外安裝依賴庫,可直接跨Linux發(fā)行版運(yùn)行;2.二進(jìn)制體積更大:包含所有依賴導(dǎo)致文件尺寸增加,但可通過構(gòu)建標(biāo)誌或壓縮工具優(yōu)化;3.更高的可預(yù)測(cè)性與安全性:避免外部庫版本變化帶來的風(fēng)險(xiǎn),增強(qiáng)穩(wěn)定性;4.運(yùn)行靈活性受限:無法熱更新共享庫,需重新編譯部署以修復(fù)依賴漏洞。這些特性使Go適用於CLI工具、微服務(wù)等場(chǎng)景,但在存儲(chǔ)受限或依賴集中管理的環(huán)境中需權(quán)衡取捨。

在沒有C中的手動(dòng)內(nèi)存管理的情況下,如何確保內(nèi)存安全性? 在沒有C中的手動(dòng)內(nèi)存管理的情況下,如何確保內(nèi)存安全性? Jun 19, 2025 am 01:11 AM

Goensuresmemorysafetywithoutmanualmanagementthroughautomaticgarbagecollection,nopointerarithmetic,safeconcurrency,andruntimechecks.First,Go’sgarbagecollectorautomaticallyreclaimsunusedmemory,preventingleaksanddanglingpointers.Second,itdisallowspointe

如何在GO中創(chuàng)建緩衝頻道? (例如,make(chan int,10)) 如何在GO中創(chuàng)建緩衝頻道? (例如,make(chan int,10)) Jun 20, 2025 am 01:07 AM

在Go中創(chuàng)建緩衝通道只需在make函數(shù)中指定容量參數(shù)即可。緩衝通道允許發(fā)送操作在沒有接收者時(shí)暫存數(shù)據(jù),只要未超過指定容量,例如ch:=make(chanint,10)創(chuàng)建了一個(gè)可存儲(chǔ)最多10個(gè)整型值的緩衝通道;與無緩衝通道不同,發(fā)送數(shù)據(jù)時(shí)不會(huì)立即阻塞,而是將數(shù)據(jù)暫存於緩衝區(qū)中,直到被接收者取走;使用時(shí)需注意:1.容量設(shè)置應(yīng)合理以避免內(nèi)存浪費(fèi)或頻繁阻塞;2.需防止緩衝區(qū)無限堆積數(shù)據(jù)導(dǎo)致內(nèi)存問題;3.可用chanstruct{}類型傳遞信號(hào)以節(jié)省資源;常見場(chǎng)景包括控制並發(fā)數(shù)量、生產(chǎn)者-消費(fèi)者模型及異

如何使用GO進(jìn)行系統(tǒng)編程任務(wù)? 如何使用GO進(jìn)行系統(tǒng)編程任務(wù)? Jun 19, 2025 am 01:10 AM

Go是系統(tǒng)編程的理想選擇,因?yàn)樗Y(jié)合了C等編譯型語言的性能與現(xiàn)代語言的易用性和安全性。 1.文件與目錄操作方面,Go的os包支持創(chuàng)建、刪除、重命名及檢查文件和目錄是否存在,使用os.ReadFile可一行代碼讀取整個(gè)文件,適用於編寫備份腳本或日誌處理工具;2.進(jìn)程管理方面,通過os/exec包的exec.Command函數(shù)可執(zhí)行外部命令、捕獲輸出、設(shè)置環(huán)境變量、重定向輸入輸出流以及控制進(jìn)程生命週期,適合用於自動(dòng)化工具和部署腳本;3.網(wǎng)絡(luò)與並發(fā)方面,net包支持TCP/UDP編程、DNS查詢及原始套

See all articles