大規模搜索廣告的端到端一致性實時保障

一、背景

電商平台的搜索廣告數據處理鏈路通常較長，一般會經歷如下過程：

廣告主在後台進行廣告投放；
投放廣告品及關鍵詞數據寫入數據庫；
數據庫中的數據通過全量構建（導入數據倉庫再進行離線批處理）或增量構建（藉助消息隊列和流計算引擎）的方式產出用於構建在線索引的“內容文件”；
BuildService基於“內容文件”，構建出在搜索服務檢索時使用的索引。

下圖是ICBU的廣告系統的買賣家數據處理鏈路：

右半部分（BP->DB）和offline部分即為廣告投放數據的更新過程。

複雜的數據處理鏈路結合海量（通常是億級以上）的商品數據，對線上全量商品的投放狀態正確性測試提出巨大挑戰。從數據庫、到離線大規模數據聯表處理、到在線索引構建，鏈路中的任一節點出現異常或數據延遲，都有可能會對廣告主以及平台造成“資損”影響，例如：

廣告主在後台操作取消A商品的廣告投放，但是因為數據鏈路處理延遲，搜索引擎中A的狀態仍處於“推廣中”，導致A能繼續在買家搜索廣告時得到曝光，相應地當“點擊”行為發生時，造成錯誤扣款。
廣告主設定某個產品只限定對某個地域/國家的客戶投放廣告，但是因為搜索引擎的過濾邏輯處理不恰當，導致客戶的廣告品在所有地區都進行廣告投放，同樣會造成錯誤點擊扣款。

傳統的測試手段，或聚焦於廣告主後台應用的模塊功能測試，或聚焦於搜索引擎的模塊功能測試，對於全鏈路功能的測試缺乏有效和全面的測試手段。而線上的業務監控，則側重於對業務效果指標的監控，如CTR（click through rate，點擊率）、CPC（cost per click，點擊成本）、RPM（revenue per impression，千次瀏覽收益）等。對涉及廣告主切身利益和平台總營收的廣告錯誤投放問題，缺乏有效的發現機制。

我們期望對在線搜索廣告引擎所有實際曝光的商品，通過反查數據庫中曝光時刻前它的最後狀態，來校驗它在數據庫中的投放狀態與搜索引擎中的狀態的一致性，做到線上廣告錯誤投放問題的實時發現。同時，通過不同的觸發檢測方式，做到數據變更的各個環節的有效覆蓋。

二、階段成果

我們藉助日誌流同步服務(TTLog)、海量數據NoSQL存儲系統（Lindorm）、實時業務校驗平台（BCP）、消息隊列（MetaQ）、在線數據實時同步服務（精衛）以及海量日誌實時分析系統（Xflush）實現了ICBU搜索廣告錯誤投放問題的線上實時發現，且覆蓋線上的全部用戶真實曝光流量。同時，通過在數據變更節點增加主動校驗的方式，可以做到在特定場景下（該廣告品尚未被用戶檢索）的線上問題先於用戶發現。

此外，藉助TTLog+實時計算引擎Blink+阿里雲日誌服務SLS+Xflush的技術體系，實現了線上引擎/算法效果的實時透出。

下面是ICBU廣告實時質量大盤：

從八月底開始投入線上使用，目前這套實時系統已經發現了多起線上問題，且幾乎都是直接影響資損和廣告主的利益。

三、技術實現

圖一：

1. 引擎曝光日誌數據處理

對於電商搜索廣告系統，當一個真實的用戶請求觸達（如圖一中1.1）時，會產生一次實時的廣告曝光，相對應地，搜索引擎的日誌里會寫入一條曝光記錄（如圖一中2）。我們通過日誌流同步服務TTLog對搜索引擎各個服務器節點上的日誌數據進行統一的搜集（如圖一中3），然後藉助數據對賬服務平台BCP對接TTLog中的“流式”數據（如圖一中4），對數據進行清洗、過濾、採樣，然後將待校驗的數據推送到消息隊列服務MetaQ（如圖一中5）。

2. DB數據處理

圖二：

如圖二所示，通常，業務數據庫MySQL針對每個領域對象，只會存儲它當前時刻最新的數據。為了獲取廣告品在引擎中真實曝光的時刻前的最後數據，我們通過精衛監聽數據庫中的每次數據變更，將變更數據“快照”寫入Lindorm（底層是HBase存儲，支持海量數據的隨機讀寫）。

3. 數據一致性校驗

在廣告測試服務igps（我們自己的應用）中，我們通過監聽MetaQ的消息變更，拉取MetaQ中待校驗的數據（如圖一中6），解析獲得曝光時每個廣告品在搜索引擎中的狀態，同時獲得其曝光的時刻點。然後基於曝光時刻點，通過查詢Lindorm，獲得廣告品於曝光時刻點前最後在MySQL中的數據狀態（如圖一中7）。然後igps對該次廣告曝光，校驗引擎中的數據狀態和MySQL中的數據狀態的一致性。

如果數據校驗不一致，則打印出錯誤日誌。最後，藉助海量日誌實時分析系統Xflush（如圖一中8），我們可以做到對錯誤數據的實時聚合統計、可視化展示以及監控報警。

4. 數據變更節點的主動校驗

因為線上的實時用戶搜索流量具有一定的隨機性，流量場景的覆蓋程度具有很大的不確定性，作為補充，我們在數據變更節點還增加了主動校驗。

整個數據鏈路，數據變更有兩個重要節點：

MySQL中的數據變更；
引擎索引的切換。

對於MySQL中的數據變更：我們通過精衛監聽變更，針對單條數據的變更信息，構建出特定的引擎查詢請求串，發起查詢請求（如圖一中1.3）。

對於引擎索引的切換（主要是全量切換）：我們通過離線對歷史（如過去7天）的線上廣告流量進行聚合分析/改寫，得到測試用例請求集合。再監聽線上引擎索引的切換操作。當引擎索引進行全量切換時，我們主動發起對引擎服務的批量請求（如圖一中1.2）。

上述兩種主動發起的請求，最後都會復用前面搭建的數據一致性校驗系統進行廣告投放狀態的校驗。

上圖是對廣告投放狀態的實時校驗錯誤監控圖，從圖中我們清晰看到當前時刻，搜索廣告鏈路的數據質量。無論是中美業務DB同步延遲、DB到引擎數據增量處理鏈路的延遲、或者是發布變更導致的邏輯出錯，都會導致錯誤數據曲線的異常上漲。校驗的規則覆蓋了推廣計劃（campaign）、推廣組（adgroup）、客戶狀態（customer）、詞的狀態（keyword）、品的狀態（feed）。校驗的節點覆蓋了曝光和點擊兩個不同的環節。

5. 引擎及算法的實時質量

圖三：

搜索引擎日誌pvlog中蘊含了非常多有價值的信息，利用好這些信息不僅可以做到線上問題的實時發現，還能幫助算法同學感知線上的實時效果提供抓手。如圖三所示，通過實時計算引擎Blink我們對TTLog中的pv信息進行解析和切分，然後將拆分的結果輸出到阿里雲日誌服務SLS中，再對接Xflush進行實時的聚合和可視化展示。

如上圖所示，上半年我們曾出現過一次線上的資損故障，是搜索應用端構造的搜索廣告引擎SP請求串中缺失了一個參數，導致部分頭部客戶的廣告沒有在指定地域投放，故障從發生到超過10+客戶上報才發現，歷經了10幾個小時。我們通過對SP請求串的實時key值和重要value值進行實時監控，可以快速發現key值或value值缺失的場景。

此外，不同召回類型、扣費類型、以及扣費價格的分佈，不僅可以監控線上異常狀態的出現，還可以給算法同學做實驗、調參、以及排查線上問題時提供參考。

四、幾個核心問題

1. why lindorm？

最初的實現，我們是通過精衛監聽業務DB的變更寫入另一個新的DB（MySQL），但是性能是一個非常大的瓶頸。我們的數據庫分了5+個物理庫，1000+張分表，單表的平均數據量達到1000+w行，總數據達到千億行。

后通過存儲的優化和按邏輯進行分表的方式，實現了查詢性能從平均1s到70ms的提升。

2. why BCP + MetaQ + igps？

最初我們是想直接使用BCP對數據進行校驗：通過igps封裝lindorm的查詢接口，然後提供hsf接口供在BCP里直接使用。

但是還是因為性能問題：TTLog的一條message平均包含60+條pv，每個pv可能有5個或更多廣告，每個廣告要查6張表，單條message在BCP校驗需要調用約60x5x6=1800次hsf請求。當我們在BCP中對TTLog的數據進行10%的採樣時，後端服務igps的性能已經出現瓶頸，hsf線程池被打滿，同時7台服務器的cpu平均使用率達到70%以上。

藉助MetaQ的引入，可以剔除hsf調用的網絡開銷，同時將消息的生產和消費解耦，當流量高峰到達時，igps可以保持自己的消費速率不變，更多的消息可以暫存在隊列里。通過這一優化，我們不僅扛住了10%的採樣，當線上採樣率開到100%時，我們的igps的服務器的平均cpu使用率仍只維持在20%上下，而且metaq中沒有出現消息堆積。

不過這樣一來，bcp的作用從原來的“採樣、過濾、校驗、報警”，只剩下“採樣、過濾”。無法發揮其通過在線編碼可以快速適應業務變化的作用。

3. why not all blink?

其實“BCP + MetaQ + igps”的流程可以被“Blink + SLS”取代，那為什麼不都統一使用Blink呢。

一方面，目前點擊的校驗由於其流量相對較小的因素，我們目前是直接在BCP里編寫的校驗代碼，不需要走發布流程，比較快捷。而且BCP擁有如“延遲校驗”、“限流控制”等個性化的功能。另一方面，從我們目前使用Blink的體驗來看，實時的處理引擎尚有一些不穩定的因素，尤其是會有不穩定的網絡抖動（可能是數據源和Blink workder跨機房導致）。

4. SP請求的key值如何拆分？

在做SP請求串的實時key值監控的時候，遇到了一個小難題：SP的請求串中參數key是動態的，並不是每個key都會在每個串中出現，而且不同的請求串key出現的順序是不一樣的。如何切分使其滿足Xflush的“列值分組”格式要求。

實現方式是，對每個sp請求串，使用Blink的udtf（自定義表值函數）進行解析，得到每個串的所有key和其對應的value。然後輸出時，按照“validKey={key}，validValue={value}”的格式對每個sp請求串拆分成多行輸出。然後通過Xflush可以按照validKey進行分組，並對行數進行統計。

五、總結及後續規劃

本文介紹了通過大數據的處理技術做到電商搜索廣告場景下數據端到端一致性問題的實時發現，並且通過“實時發現”結合“數據變更節點的主動校驗”，實現數據全流程的一致性校驗。

後續的優化方向主要有兩方面：

結合業務的使用場景，透出更豐富維度的實時數據。
將該套技術體系“左移”到線下/預發測試階段，實現“功能、性能、效果”的一鍵式自動化測試，同時覆蓋從搜索應用到引擎的全鏈路。

本站聲明:網站內容來源於博客園,如有侵權,請聯繫我們,我們將及時處理【其他文章推薦】

※台北網頁設計公司這麼多，該如何挑選?? 網頁設計報價省錢懶人包"嚨底家"

※網頁設計公司推薦更多不同的設計風格，搶佔消費者視覺第一線

※想知道購買電動車哪裡補助最多?台中電動車補助資訊懶人包彙整