用戶數(shù)據(jù)的采集、清洗與去重是精準(zhǔn)篩選核心設(shè)備/系統(tǒng)/瀏覽器的前提,直接決定后續(xù)適配與測(cè)試策略的有效性。本文聚焦移動(dòng)端場(chǎng)景,結(jié)合合規(guī)要求與實(shí)操工具,提供全流程方法,確保數(shù)據(jù)真實(shí)、完整、無(wú)冗余,為前文提到的核心對(duì)象篩選奠定基礎(chǔ)。
一、用戶數(shù)據(jù)采集:合規(guī)前提下全覆蓋核心維度
采集需以“必要夠用”為原則,覆蓋設(shè)備、系統(tǒng)、瀏覽器核心維度,同時(shí)符合隱私保護(hù)規(guī)范,避免采集敏感信息,確保數(shù)據(jù)來(lái)源可靠、維度完整。
1. 核心采集維度與采集重點(diǎn)
基于前文篩選需求,采集維度需精準(zhǔn)對(duì)應(yīng),避免無(wú)效數(shù)據(jù)冗余,具體如下:
|
數(shù)據(jù)類別
|
核心采集項(xiàng)
|
采集目的
|
采集注意事項(xiàng)
|
|
設(shè)備數(shù)據(jù)
|
設(shè)備品牌、具體型號(hào)、屏幕分辨率、設(shè)備唯一標(biāo)識(shí)(如IMEI加密值、IDFA)
|
篩選核心適配機(jī)型,覆蓋主流屏幕參數(shù)
|
僅采集加密后的唯一標(biāo)識(shí),不存儲(chǔ)原始敏感信息
|
|
系統(tǒng)數(shù)據(jù)
|
系統(tǒng)類型(iOS/Android)、系統(tǒng)版本號(hào)、品牌定制系統(tǒng)(EMUI/MIUI等)
|
區(qū)分系統(tǒng)適配優(yōu)先級(jí),適配定制化系統(tǒng)特性
|
避免采集系統(tǒng)權(quán)限狀態(tài)、隱私設(shè)置等敏感內(nèi)容
|
|
瀏覽器數(shù)據(jù)
|
瀏覽器名稱、版本號(hào)、內(nèi)核類型、UA字符串
|
鎖定核心瀏覽器及內(nèi)核,排查兼容性差異
|
完整采集UA字符串,為后續(xù)解析提供依據(jù)
|
|
輔助數(shù)據(jù)
|
訪問(wèn)時(shí)間、用戶活躍度(日/月訪問(wèn)次數(shù))、用戶價(jià)值標(biāo)簽(付費(fèi)/轉(zhuǎn)化)
|
加權(quán)篩選高價(jià)值用戶對(duì)應(yīng)的設(shè)備/環(huán)境
|
僅關(guān)聯(lián)設(shè)備特征,不綁定用戶個(gè)人信息
|
2. 主流采集方法與工具(適配移動(dòng)端場(chǎng)景)
(1)統(tǒng)計(jì)工具自動(dòng)采集(推薦首選)
借助成熟第三方統(tǒng)計(jì)工具,無(wú)需大量自定義開(kāi)發(fā),可快速捕獲全維度數(shù)據(jù),適配手機(jī)網(wǎng)站場(chǎng)景:
-
基礎(chǔ)工具:百度統(tǒng)計(jì)、友盟+、Google Analytics(GA4),嵌入對(duì)應(yīng)JS SDK后,可自動(dòng)采集設(shè)備型號(hào)、系統(tǒng)版本、瀏覽器信息,生成可視化報(bào)表,支持按維度篩選與數(shù)據(jù)導(dǎo)出。其中友盟+對(duì)國(guó)內(nèi)安卓機(jī)型識(shí)別精度更高,GA4適合跨境業(yè)務(wù)場(chǎng)景。
-
進(jìn)階工具:GrowingIO、神策數(shù)據(jù),支持無(wú)埋點(diǎn)采集,可捕獲用戶交互行為與環(huán)境數(shù)據(jù)聯(lián)動(dòng),同時(shí)提供數(shù)據(jù)清洗功能,減少后續(xù)處理成本。
-
集成要點(diǎn):SDK需異步加載,避免影響手機(jī)網(wǎng)站加載速度;針對(duì)微信內(nèi)置瀏覽器等場(chǎng)景,需開(kāi)啟工具對(duì)X5內(nèi)核的適配支持,確保數(shù)據(jù)采集準(zhǔn)確。
(2)UA字符串解析采集(補(bǔ)充精準(zhǔn)數(shù)據(jù))
用戶代理(UA)字符串包含設(shè)備、系統(tǒng)、瀏覽器核心特征,可通過(guò)解析補(bǔ)充統(tǒng)計(jì)工具的識(shí)別盲區(qū),適合定制化采集需求:
-
解析方式:前端通過(guò)navigator.userAgent獲取UA字符串,后端通過(guò)正則表達(dá)式或開(kāi)源庫(kù)解析(如uap-core、ua-parser-js),提取設(shè)備品牌、型號(hào)、系統(tǒng)版本、瀏覽器內(nèi)核等信息。
-
適用場(chǎng)景:解決統(tǒng)計(jì)工具對(duì)小眾機(jī)型、定制化系統(tǒng)識(shí)別偏差問(wèn)題,例如部分華為、三星機(jī)型的UA被自定義,需通過(guò)專屬解析規(guī)則修正。
-
實(shí)操技巧:建立廠商UA指紋庫(kù),對(duì)常見(jiàn)品牌的UA特征進(jìn)行歸類,提升解析準(zhǔn)確率,避免因UA格式不一致導(dǎo)致的誤判。
(3)服務(wù)器日志補(bǔ)充采集(交叉驗(yàn)證)
通過(guò)Web服務(wù)器(Nginx、Apache)日志,提取訪問(wèn)請(qǐng)求中的UA信息、IP地址、訪問(wèn)時(shí)間等數(shù)據(jù),與統(tǒng)計(jì)工具數(shù)據(jù)交叉驗(yàn)證,彌補(bǔ)客戶端攔截導(dǎo)致的數(shù)據(jù)缺失:
-
日志配置:在Nginx配置中開(kāi)啟訪問(wèn)日志記錄,指定日志格式包含UA、請(qǐng)求時(shí)間、設(shè)備標(biāo)識(shí)等核心字段,便于后續(xù)提取分析。
-
數(shù)據(jù)用途:主要用于驗(yàn)證統(tǒng)計(jì)工具數(shù)據(jù)的完整性,例如當(dāng)統(tǒng)計(jì)工具顯示某機(jī)型占比異常時(shí),通過(guò)服務(wù)器日志交叉核對(duì),排除客戶端SDK加載失敗導(dǎo)致的數(shù)據(jù)偏差。
3. 采集合規(guī)核心要求
移動(dòng)端數(shù)據(jù)采集需嚴(yán)格遵守《個(gè)人信息保護(hù)法》《網(wǎng)絡(luò)安全法》,避免合規(guī)風(fēng)險(xiǎn):
-
獲取用戶授權(quán):采集數(shù)據(jù)前通過(guò)彈窗提示用戶,明確告知數(shù)據(jù)采集目的與范圍,僅在用戶同意后啟動(dòng)采集,提供“拒絕授權(quán)”選項(xiàng),且拒絕后不影響網(wǎng)站核心功能使用。
-
規(guī)避敏感信息:不采集手機(jī)號(hào)、地理位置、通訊錄等隱私信息,設(shè)備唯一標(biāo)識(shí)需加密存儲(chǔ)(如MD5哈希處理),避免原始信息泄露。
-
數(shù)據(jù)存儲(chǔ)規(guī)范:采集數(shù)據(jù)僅用于核心設(shè)備/系統(tǒng)/瀏覽器篩選,不用于其他用途,定期清理過(guò)期數(shù)據(jù),存儲(chǔ)周期不超過(guò)業(yè)務(wù)需求時(shí)長(zhǎng)。
二、用戶數(shù)據(jù)清洗:剔除異常,修正偏差
采集的數(shù)據(jù)中存在爬蟲(chóng)、錯(cuò)誤識(shí)別、格式不一致等異常數(shù)據(jù),需通過(guò)清洗操作提升數(shù)據(jù)準(zhǔn)確性,為去重與篩選打下基礎(chǔ),核心目標(biāo)是“去偽存真、統(tǒng)一格式”。
1. 核心清洗維度與方法
(1)過(guò)濾無(wú)效數(shù)據(jù)(爬蟲(chóng)、機(jī)器人請(qǐng)求)
移動(dòng)端網(wǎng)站易受爬蟲(chóng)、自動(dòng)化腳本攻擊,這類請(qǐng)求會(huì)干擾數(shù)據(jù)真實(shí)性,需精準(zhǔn)過(guò)濾:
-
篩選規(guī)則:通過(guò)UA特征識(shí)別(含“Spider”“Bot”“Crawler”關(guān)鍵詞的UA)、訪問(wèn)行為判斷(短時(shí)間內(nèi)高頻訪問(wèn)、無(wú)交互行為、固定IP段請(qǐng)求),標(biāo)記并剔除爬蟲(chóng)數(shù)據(jù)。
-
工具支持:使用百度統(tǒng)計(jì)、友盟+的內(nèi)置反爬蟲(chóng)功能,自動(dòng)過(guò)濾常見(jiàn)爬蟲(chóng)請(qǐng)求;也可自定義Python腳本,基于UA黑名單與訪問(wèn)頻率閾值過(guò)濾無(wú)效數(shù)據(jù)。
(2)修正數(shù)據(jù)識(shí)別偏差
因廠商自定義UA、統(tǒng)計(jì)工具識(shí)別算法局限,易出現(xiàn)設(shè)備型號(hào)、系統(tǒng)版本識(shí)別錯(cuò)誤,需針對(duì)性修正:
-
設(shè)備型號(hào)修正:建立品牌專屬修正規(guī)則,例如部分小米機(jī)型UA顯示“Redmi”,需映射為對(duì)應(yīng)小米系列型號(hào);對(duì)折疊屏機(jī)型,區(qū)分內(nèi)屏/外屏分辨率數(shù)據(jù),避免混為一談。
-
系統(tǒng)版本修正:針對(duì)Android定制系統(tǒng),將“EMUI 14”映射為“Android 15”(對(duì)應(yīng)底層系統(tǒng)版本),確保系統(tǒng)維度數(shù)據(jù)統(tǒng)一;對(duì)iOS版本號(hào)識(shí)別錯(cuò)誤(如將iOS 18識(shí)別為iOS 17),通過(guò)UA特征二次校驗(yàn)修正。
-
瀏覽器內(nèi)核修正:部分第三方瀏覽器(如QQ瀏覽器)UA隱藏真實(shí)內(nèi)核,需通過(guò)額外特征(如支持的CSS屬性)判斷內(nèi)核類型,修正為Blink/X5/WebKit核心,確保瀏覽器維度分類準(zhǔn)確。
(3)統(tǒng)一數(shù)據(jù)格式與字段規(guī)范
采集的數(shù)據(jù)可能存在格式不一致(如系統(tǒng)版本“18”與“iOS 18”并存),需統(tǒng)一規(guī)范,便于后續(xù)分析:
-
字段標(biāo)準(zhǔn)化:設(shè)備品牌統(tǒng)一為官方名稱(如“華為”而非“Huawei”“華為主機(jī)”),系統(tǒng)版本格式統(tǒng)一為“系統(tǒng)類型+版本號(hào)”(如“iOS 18”“Android 15”),瀏覽器名稱統(tǒng)一為官方簡(jiǎn)稱(如“微信內(nèi)置瀏覽器”而非“微信瀏覽器”“X5瀏覽器”)。
-
缺失值處理:對(duì)字段缺失(如未知設(shè)備型號(hào)、空白UA)的數(shù)據(jù),若占比<3%直接剔除;若占比高,通過(guò)IP地址關(guān)聯(lián)、訪問(wèn)行為推測(cè)等方式補(bǔ)充,無(wú)法補(bǔ)充的標(biāo)記為“未知”,單獨(dú)統(tǒng)計(jì)不參與核心篩選。
2. 清洗工具與實(shí)操技巧
-
自動(dòng)化工具:使用Python Pandas庫(kù)處理結(jié)構(gòu)化數(shù)據(jù),編寫(xiě)清洗腳本實(shí)現(xiàn)規(guī)則化過(guò)濾、修正與格式統(tǒng)一;借助DataWorks、Talend等數(shù)據(jù)治理工具,適合大規(guī)模數(shù)據(jù)批量清洗。
-
人工復(fù)核:對(duì)核心維度(如TOP10機(jī)型、主流系統(tǒng)版本)的數(shù)據(jù),清洗后人工抽樣復(fù)核(抽樣比例≥5%),確保修正效果,避免批量清洗導(dǎo)致的新偏差。
-
定期更新規(guī)則:隨著新機(jī)型、新系統(tǒng)發(fā)布,及時(shí)更新爬蟲(chóng)UA黑名單、設(shè)備識(shí)別修正規(guī)則,確保清洗邏輯適配最新場(chǎng)景。
三、用戶數(shù)據(jù)去重:消除冗余,聚焦真實(shí)用戶
同一用戶多次訪問(wèn)、同一設(shè)備多賬號(hào)登錄等場(chǎng)景會(huì)導(dǎo)致數(shù)據(jù)重復(fù),需通過(guò)去重操作合并冗余數(shù)據(jù),確保用戶占比統(tǒng)計(jì)準(zhǔn)確,避免因重復(fù)數(shù)據(jù)誤導(dǎo)核心對(duì)象篩選。
1. 去重核心原則與維度
去重需基于“唯一標(biāo)識(shí)”,優(yōu)先選擇穩(wěn)定性高、唯一性強(qiáng)的字段作為去重依據(jù),兼顧移動(dòng)端設(shè)備特性:
-
核心去重標(biāo)識(shí):優(yōu)先使用加密后的設(shè)備唯一標(biāo)識(shí)(如IMEI哈希值、IDFA哈希值),這類標(biāo)識(shí)在同一設(shè)備上穩(wěn)定性強(qiáng),可精準(zhǔn)識(shí)別同一設(shè)備的多次訪問(wèn);無(wú)設(shè)備標(biāo)識(shí)時(shí),用“UA+IP+訪問(wèn)時(shí)間戳”組合作為臨時(shí)標(biāo)識(shí)(需注意同一IP多設(shè)備的誤判風(fēng)險(xiǎn))。
-
去重粒度:按“用戶-設(shè)備-環(huán)境”維度去重,即同一用戶在同一設(shè)備、同一瀏覽器環(huán)境下的多次訪問(wèn),僅保留一條有效數(shù)據(jù)(通常保留首次訪問(wèn)或末次訪問(wèn)記錄)。
2. 實(shí)操方法與步驟
(1)批量去重操作
-
第一步:數(shù)據(jù)分組,按去重標(biāo)識(shí)(如加密設(shè)備ID)對(duì)清洗后的數(shù)據(jù)分組,將同一設(shè)備的所有訪問(wèn)記錄歸為一組。
-
第二步:記錄篩選,每組內(nèi)保留有效記錄,優(yōu)先保留信息完整、訪問(wèn)時(shí)間最新的記錄;若需統(tǒng)計(jì)訪問(wèn)頻次,可合并記錄并保留頻次字段,避免直接刪除導(dǎo)致的行為數(shù)據(jù)丟失。
-
第三步:結(jié)果驗(yàn)證,去重后統(tǒng)計(jì)數(shù)據(jù)總量與去重前對(duì)比,計(jì)算去重率(移動(dòng)端正常去重率通常為15%-30%),若去重率過(guò)高(>50%),檢查去重標(biāo)識(shí)是否合理,避免誤判同一設(shè)備為多個(gè)用戶。
(2)工具選型
-
輕量場(chǎng)景:使用Excel數(shù)據(jù)透視表,按去重標(biāo)識(shí)分組,篩選保留唯一記錄;或用Python Pandas的drop_duplicates()方法,指定去重字段實(shí)現(xiàn)批量去重。
-
大規(guī)模場(chǎng)景:使用Hive、Spark等大數(shù)據(jù)處理框架,對(duì)海量數(shù)據(jù)進(jìn)行分布式去重,提升處理效率;結(jié)合數(shù)據(jù)庫(kù)唯一索引,插入數(shù)據(jù)時(shí)自動(dòng)過(guò)濾重復(fù)記錄。
(3)特殊場(chǎng)景處理
-
多賬號(hào)登錄同一設(shè)備:按設(shè)備標(biāo)識(shí)去重,合并不同賬號(hào)的訪問(wèn)行為,確保該設(shè)備僅被統(tǒng)計(jì)一次,避免重復(fù)計(jì)入用戶占比。
-
設(shè)備刷機(jī)/系統(tǒng)重置:刷機(jī)后設(shè)備唯一標(biāo)識(shí)可能變化,無(wú)法通過(guò)標(biāo)識(shí)關(guān)聯(lián),按新設(shè)備統(tǒng)計(jì),后續(xù)通過(guò)訪問(wèn)行為(如IP、使用習(xí)慣)輔助判斷,避免強(qiáng)行合并導(dǎo)致的數(shù)據(jù)偏差。
四、采集-清洗-去重全流程銜接與迭代
三者需形成閉環(huán),同時(shí)結(jié)合前文核心對(duì)象篩選需求,動(dòng)態(tài)優(yōu)化流程,確保數(shù)據(jù)質(zhì)量持續(xù)達(dá)標(biāo):
-
流程銜接:采集后先清洗(剔除異常、修正偏差),再去重(消除冗余),最終輸出標(biāo)準(zhǔn)化數(shù)據(jù)集,直接用于核心設(shè)備/系統(tǒng)/瀏覽器的占比統(tǒng)計(jì)與篩選。
-
定期迭代:每月執(zhí)行一次全流程操作,跟進(jìn)新機(jī)型、新系統(tǒng)、新瀏覽器的市場(chǎng)變化,更新采集字段、清洗規(guī)則與去重標(biāo)識(shí),確保數(shù)據(jù)適配業(yè)務(wù)需求。
-
效果驗(yàn)證:將處理后的數(shù)據(jù)與線上用戶反饋、真機(jī)測(cè)試結(jié)果對(duì)比,若篩選出的核心機(jī)型出現(xiàn)高頻適配問(wèn)題,回溯數(shù)據(jù)采集-清洗-去重環(huán)節(jié),排查是否存在數(shù)據(jù)偏差。
五、核心注意事項(xiàng)
-
平衡效率與精度:小規(guī)模數(shù)據(jù)可人工輔助清洗去重,大規(guī)模數(shù)據(jù)優(yōu)先自動(dòng)化工具,同時(shí)保留人工復(fù)核環(huán)節(jié),避免過(guò)度依賴工具導(dǎo)致的偏差。
-
數(shù)據(jù)備份:清洗、去重前對(duì)原始采集數(shù)據(jù)進(jìn)行備份,若操作失誤可回滾恢復(fù),避免數(shù)據(jù)丟失。
-
聯(lián)動(dòng)篩選需求:清洗去重時(shí)聚焦核心維度,無(wú)需對(duì)非關(guān)鍵字段(如訪問(wèn)路徑、停留時(shí)長(zhǎng))過(guò)度處理,確保流程貼合核心對(duì)象篩選的業(yè)務(wù)目標(biāo),避免資源浪費(fèi)。
六、總結(jié)
用戶數(shù)據(jù)的采集、清洗與去重是精準(zhǔn)篩選核心設(shè)備/系統(tǒng)/瀏覽器的關(guān)鍵前提,核心邏輯是“合規(guī)采集全覆蓋、精準(zhǔn)清洗去異常、高效去重保真實(shí)”。通過(guò)選用適配移動(dòng)端的采集工具、建立標(biāo)準(zhǔn)化清洗規(guī)則、基于唯一標(biāo)識(shí)去重,可輸出高質(zhì)量數(shù)據(jù)集,為后續(xù)核心對(duì)象分層篩選、適配策略制定提供可靠支撐。同時(shí)需建立動(dòng)態(tài)迭代機(jī)制,跟進(jìn)用戶設(shè)備與環(huán)境變化,確保數(shù)據(jù)質(zhì)量持續(xù)貼合業(yè)務(wù)需求。