當(dāng)前位置：首頁 > 科技 > 軟件

場景題：海量數(shù)據(jù)如何判重？

來源：責(zé)編：時(shí)間：2023-09-18 21:40:03 376觀看

導(dǎo)讀在海量數(shù)據(jù)如何確定一個(gè)值是否存在？這是一道非常經(jīng)典的面試場景題。那怎么回答這個(gè)問題呢？接下來咱們就詳細(xì)的聊一聊。參考答案判斷一個(gè)值是否存在？通常有以下兩種解決方案：使用哈希表：可以將數(shù)據(jù)進(jìn)行哈希操作，將數(shù)據(jù)存儲(chǔ)在

在海量數(shù)據(jù)如何確定一個(gè)值是否存在？這是一道非常經(jīng)典的面試場景題。

那怎么回答這個(gè)問題呢？接下來咱們就詳細(xì)的聊一聊。

參考答案

判斷一個(gè)值是否存在？通常有以下兩種解決方案：

使用哈希表：可以將數(shù)據(jù)進(jìn)行哈希操作，將數(shù)據(jù)存儲(chǔ)在相應(yīng)的桶中。查詢時(shí)，根據(jù)哈希值定位到對應(yīng)的桶，然后在桶內(nèi)進(jìn)行查找。這種方法的時(shí)間復(fù)雜度為 O(1)，但需要額外的存儲(chǔ)空間來存儲(chǔ)哈希表。如果桶中存在數(shù)據(jù)，則說明此值已存在，否則說明未存在。
使用布隆過濾器：布隆過濾器是一種概率型數(shù)據(jù)結(jié)構(gòu)，用于判斷一個(gè)元素是否在集合中。它利用多個(gè)哈希函數(shù)映射數(shù)據(jù)到一個(gè)位數(shù)組，并將對應(yīng)位置置為 1。查詢時(shí)，只需要對待查詢的數(shù)據(jù)進(jìn)行哈希，并判斷對應(yīng)的位是否都為 1。如果都為 1，則該數(shù)據(jù)可能存在；如果有一個(gè)位不為 1，則該數(shù)據(jù)一定不存在。布隆過濾器的查詢時(shí)間復(fù)雜度為 O(k)，其中 k 為哈希函數(shù)的個(gè)數(shù)。

相同點(diǎn)和不同點(diǎn)

它們兩的相同點(diǎn)是：它們都存在誤判的情況。例如，使用哈希表時(shí)，不同元素的哈希值可能相同，所以這樣就產(chǎn)生誤判了；而布隆過濾器的特征是，當(dāng)布隆過濾器說，某個(gè)數(shù)據(jù)存在時(shí)，這個(gè)數(shù)據(jù)可能不存在；當(dāng)布隆過濾器說，某個(gè)數(shù)據(jù)不存在時(shí)，那么這個(gè)數(shù)據(jù)一定不存在。

它們兩的區(qū)別主要有以下幾點(diǎn)：

存儲(chǔ)機(jī)制：哈希表使用一個(gè)數(shù)組來存儲(chǔ)鍵值對，通過哈希函數(shù)將鍵映射到數(shù)組的索引位置，然后將值存儲(chǔ)在對應(yīng)的位置上。而布隆過濾器則使用一個(gè)位數(shù)組（或位向量），通過多個(gè)哈希函數(shù)將元素映射到位數(shù)組的多個(gè)位上。
查詢操作：哈希表在進(jìn)行查詢時(shí)，通過計(jì)算哈希值來定位鍵值對的存儲(chǔ)位置，然后直接獲取對應(yīng)的值。查詢時(shí)間復(fù)雜度通常為 O(1)。布隆過濾器在進(jìn)行查詢時(shí)，也通過多個(gè)哈希函數(shù)計(jì)算多個(gè)位，然后判斷對應(yīng)的位是否都為 1 來確定元素是否存在。查詢時(shí)間復(fù)雜度為 O(k)，其中 k 為哈希函數(shù)的個(gè)數(shù)。
內(nèi)存占用：哈希表需要根據(jù)數(shù)據(jù)規(guī)模來動(dòng)態(tài)調(diào)整數(shù)組的大小，以保證存儲(chǔ)效率。而布隆過濾器在預(yù)先設(shè)置位數(shù)組的大小后，不會(huì)隨數(shù)據(jù)規(guī)模的增加而增長。因此布隆過濾器更適用于海量數(shù)據(jù)。

結(jié)論

哈希表和布隆過濾器都能實(shí)現(xiàn)判重，但它們都會(huì)存在誤判的情況，但布隆過濾器存儲(chǔ)占用的空間更小，更適合海量數(shù)據(jù)的判重。

布隆過濾器實(shí)現(xiàn)原理

布隆過濾器的實(shí)現(xiàn)，主要依靠的是它數(shù)據(jù)結(jié)構(gòu)中的一個(gè)位數(shù)組，每次存儲(chǔ)鍵值的時(shí)候，不是直接把數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)結(jié)構(gòu)中，因?yàn)檫@樣太占空間了，它是利用幾個(gè)不同的無偏哈希函數(shù)，把此元素的 hash 值均勻的存儲(chǔ)在位數(shù)組中，也就是說，每次添加時(shí)會(huì)通過幾個(gè)無偏哈希函數(shù)算出它的位置，把這些位置設(shè)置成 1 就完成了添加操作。

當(dāng)進(jìn)行元素判斷時(shí)，查詢此元素的幾個(gè)哈希位置上的值是否為 1，如果全部為 1，則表示此值存在，如果有一個(gè)值為 0，則表示不存在。因?yàn)榇宋恢檬峭ㄟ^ hash 計(jì)算得來的，所以即使這個(gè)位置是 1，并不能確定是那個(gè)元素把它標(biāo)識(shí)為 1 的，因此布隆過濾器查詢此值存在時(shí)，此值不一定存在，但查詢此值不存在時(shí)，此值一定不存在。

并且當(dāng)位數(shù)組存儲(chǔ)值比較稀疏的時(shí)候，查詢的準(zhǔn)確率越高，而當(dāng)位數(shù)組存儲(chǔ)的值越來越多時(shí)，誤差也會(huì)增大。

位數(shù)組和 key 之間的關(guān)系，如下圖所示：

如何實(shí)現(xiàn)布隆過濾器？

布隆過濾器的實(shí)現(xiàn)通常有以下兩種方案：

通過程序?qū)崿F(xiàn)（內(nèi)存級(jí)別方案）：使用 Google Guava 庫和 Apache Commons 庫實(shí)現(xiàn)布隆過濾器。
通過中間件實(shí)現(xiàn)（支持?jǐn)?shù)據(jù)持久化）：使用 Redis 4.0 之后提供的布隆過濾插件來實(shí)現(xiàn)，它的好處是支持持久化，數(shù)據(jù)不會(huì)丟失。

Guava 實(shí)現(xiàn)布隆過濾器

使用 Google Guava 庫實(shí)現(xiàn)布隆過濾器總共分為以下兩步：

引入 Guava 依賴
使用 Guava API 操作布隆過濾器

具體實(shí)現(xiàn)如下。

① 引入 Guava 依賴

<dependency>    <groupId>com.google.guava</groupId>    <artifactId>guava</artifactId></dependency>

② 使用 Guava API

import com.google.common.hash.BloomFilter;import com.google.common.hash.Funnels;public class BloomFilterExample {    public static void main(String[] args) {        // 創(chuàng)建一個(gè)布隆過濾器，設(shè)置期望插入的數(shù)據(jù)量為10000，期望的誤判率為0.01        BloomFilter<String> bloomFilter = BloomFilter.create(Funnels.unencodedCharsFunnel(), 10000, 0.01);        // 向布隆過濾器中插入數(shù)據(jù)        bloomFilter.put("data1");        bloomFilter.put("data2");        bloomFilter.put("data3");        // 查詢元素是否存在于布隆過濾器中        System.out.println(bloomFilter.mightContain("data1")); // true        System.out.println(bloomFilter.mightContain("data4")); // false    }}

在上述示例中，我們通過 BloomFilter.create() 方法創(chuàng)建一個(gè)布隆過濾器，指定了元素序列化方式、期望插入的數(shù)據(jù)量和期望的誤判率。然后，我們可以使用 put() 方法向布隆過濾器中插入數(shù)據(jù)，使用 mightContain() 方法來判斷元素是否存在于布隆過濾器中。

小結(jié)

在海量數(shù)據(jù)如何確定一個(gè)值是否存在？通常有兩種解決方案：哈希表和布隆過濾器，而它們兩都存在誤判的情況，但布隆過濾器更適合海量數(shù)據(jù)的判斷，因?yàn)樗加玫臄?shù)據(jù)空間更小。布隆過濾器的特征是：當(dāng)布隆過濾器說，某個(gè)數(shù)據(jù)存在時(shí)，這個(gè)數(shù)據(jù)可能不存在；當(dāng)布隆過濾器說，某個(gè)數(shù)據(jù)不存在時(shí)，那么這個(gè)數(shù)據(jù)一定不存在。

本文鏈接：http://m.rrqrq.com/showinfo-26-10404-0.html場景題：海量數(shù)據(jù)如何判重？

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識(shí)，若有侵權(quán)等問題請及時(shí)與本網(wǎng)聯(lián)系，我們將在第一時(shí)間刪除處理。郵件：2376512515@qq.com

上一篇： IDC下調(diào)中國政務(wù)云整體市場5年復(fù)合增長率至16.14%

下一篇：性能測試的需求分析

標(biāo)簽：

熱門焦點(diǎn)

三分鐘白話RocketMQ系列—— 如何發(fā)送消息

我們知道RocketMQ主要分為消息生產(chǎn)、存儲(chǔ)（消息堆積）、消費(fèi) 三大塊領(lǐng)域。那接下來，我們白話一下，RocketMQ是如何發(fā)送消息的，揭秘消息生產(chǎn)全過程。注意，如果白話中不小心提到相關(guān)代
最“俊美”淘寶賣家，靠直播和短視頻圈粉，上架秒光，年銷3000萬

來源 | 電商在線文｜易琬玉編輯｜斯問受訪店鋪：Ringdoll戒之人形圖源：微博@御座的黃山、“Ringdoll戒之人形”淘寶店鋪有關(guān)外貌的評價(jià)，黃山已經(jīng)聽累了。生于1985年的他，哪
猿輔導(dǎo)與新東方的兩種“歸途”

作者｜卓心月出品｜零態(tài)LT（ID：LingTai_LT）如何成為一家偉大企業(yè)？答案一定是對“勢”的把握，這其中最關(guān)鍵的當(dāng)屬對企業(yè)戰(zhàn)略的制定，且能夠站在未來看現(xiàn)在，即使這其中的
小米公益基金會(huì)捐贈(zèng)2500萬元馳援北京、河北暴雨救災(zāi)

8月2日消息，今日小米科技創(chuàng)始人雷軍在其微博上發(fā)布消息稱，小米公益基金會(huì)宣布捐贈(zèng)2500萬元馳援北京、河北暴雨救災(zāi)。攜手抗災(zāi)，京冀安康！以下為公告原文
華為開發(fā)者大會(huì)2023日程公開：開設(shè)鴻蒙HarmonyOS 4體驗(yàn)區(qū)

IT之家 7 月 31 日消息，華為今日公布了 HDC.Together 開發(fā)者大會(huì) 2023 的詳細(xì)日程。整場大會(huì)將于 8 月 4 日-6 日之間舉行，屆時(shí)將發(fā)布最新一代鴻蒙 H
三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

據(jù)官方此前宣布，三星將于7月26日也就是今天在韓國首爾舉辦Unpacked活動(dòng)，屆時(shí)將帶來帶來包括Galaxy Buds 3、Galaxy Watch 6、Galaxy Tab S9、Galaxy
自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

年初，全新的三星Galaxy S23系列發(fā)布，包含Galaxy S23、Galaxy S23+和Galaxy S23 Ultra三個(gè)版本，全系搭載超頻版驍龍8 Gen 2，雖同樣采用臺(tái)積電4nm工藝制
iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強(qiáng)5G Soc

去年底，iQOO推出了“電競旗艦”iQOO 11系列，作為一款性能強(qiáng)機(jī)，iQOO 11不僅全球首發(fā)2K 144Hz E6全感屏，搭載了第二代驍龍8平臺(tái)及144Hz電競屏，同時(shí)在快充
2299元起！iQOO Pad開啟預(yù)售：性能最強(qiáng)天璣平板

5月23日，iQOO如期舉行了新品發(fā)布會(huì)，除了首發(fā)安卓最強(qiáng)旗艦處理器的iQOO Neo8系列新機(jī)外，還在發(fā)布會(huì)上推出了旗下首款平板電腦——iQOO Pad，其搭載了天璣

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

場景題：海量數(shù)據(jù)如何判重？

參考答案

相同點(diǎn)和不同點(diǎn)

結(jié)論

布隆過濾器實(shí)現(xiàn)原理

如何實(shí)現(xiàn)布隆過濾器？

Guava 實(shí)現(xiàn)布隆過濾器

① 引入 Guava 依賴

② 使用 Guava API

小結(jié)

三分鐘白話RocketMQ系列—— 如何發(fā)送消息

最“俊美”淘寶賣家，靠直播和短視頻圈粉，上架秒光，年銷3000萬

猿輔導(dǎo)與新東方的兩種“歸途”

小米公益基金會(huì)捐贈(zèng)2500萬元馳援北京、河北暴雨救災(zāi)

華為開發(fā)者大會(huì)2023日程公開：開設(shè)鴻蒙HarmonyOS 4體驗(yàn)區(qū)

三星Galaxy Z Fold5今日亮相：厚度縮減但仍略顯厚重

自研Exynos回歸！三星Galaxy S24系列將提供Exynos和驍龍雙版本

iQOO 11S或7月上市：搭載“雞血版”驍龍8Gen2 史上最強(qiáng)5G Soc

2299元起！iQOO Pad開啟預(yù)售：性能最強(qiáng)天璣平板

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊