廣告平臺數據中心的那些事兒

文/薑永兵 暢思廣告數據部門負責人

移動廣告平臺在移動廣告行業發展進程上起著重要的促進作用,作為廣告主、開發者和用戶間的紐帶,市場要求移動廣告平臺必須擁有更領先的技術、更優質的資源、更創新的服務模式。如何讓廣告主獲得最好的流量,如何讓開發者獲得最高的變現,如何讓用戶看到不會拒絕的內容,是移動廣告平臺時刻在思考的問題。

作為業內覆蓋流量最多的移動廣告平臺,來聽聽暢思廣告技術專傢的解答,移動廣告平臺是怎樣有條不紊又高效合理的整合整個市場流量走向的。

暢思廣告數據中心

在現今DT時代,數據中心作為企業數據的集散地,既要保證數據的準確性、及時性、可靠性,也需要對數據的價值進行深度發掘,從而推動整個公司業務的發展。

不同的領域對數據中心的職責有不同的劃分,本文主要介紹暢思廣告數據平臺的搭建以及改進,希望與大傢共同學習交流。

本文隻是一篇概述性的文檔,後面的一系列文章會分模塊對數據平臺的各個部分進行詳細深入的介紹。

暢思數據平臺每天接收到的數據量有3TB,每天有近萬個數據分析及挖掘任務運行,同時支持廣告平臺、媒體分析平臺、數據追蹤等多條業務線;對外則提供瞭每天billion級別訪問量的用戶標簽及CTR服務接口。暢思的集群目前不到100臺,可靠性現在可以達到5個9(99.999%),並且支持數據及指標自動監測回溯。

首先看下暢思數據中心的整體部署及分層圖

1-webp

圖一 暢思數據中心部署圖

2-webp

圖二  暢思數據中心分層示意圖

數據中心一般有四個主要組成部分。基礎支撐、BI系統、數據分析挖掘、數據展示。下面分部分進行介紹

1. 基礎支撐

數據中心,為高效的完成數據的收集、存儲、分析、展示,穩定高效的基礎支撐非常重要。

目前市面上可用的產品比較多,商業化的有Oracle,IBM InfoSphere,InfoBright,阿裡雲,AWS等存儲,開源的有Hadoop,Cassandra,Hbase等存儲。

如圖二 所示,暢思數據中心主要基於Hadoop生態圈,以及其他開源軟件進行搭建。

數據中心通過分析挖掘,會產生大量的挖掘結果,不同的用戶層次有不同的挖掘結果,廣告、媒體等粗粒度的用戶還好,對於單個用戶的挖掘結果,數量級非常大,如何保證這類用戶的挖掘結果能被及時有效的訪問到,是大部分數據中心必須解決的問題之一。暢思選用自建的KVCluster集群進行挖掘內容的存儲以及對外服務;暢思的kv集群主要基於Zookeeper進行集中式資源管理及分區調度,目前可自動加入到集群中的NoSql類型有Hbase、Redis、Ssdb以及Tair,通過集中化管理的方法可以統一調配這些kv分組,在保證滿足業務需求的同時,大大降低Kv的部署及運維成本。

2. BI系統

BI系統,主要提供數據收集、處理、入庫、訪問接口的大型服務。目前業內比較流行的BI系統不管是商用的還是開源的有很多;考慮到廣告平臺本身的業務邏輯以及成本問題,暢思是基於Hadoop自己構建的BI系統,分數據收集、ETL、存儲入庫、調度四個部分。

2.1 數據收集

暢思的數據源包括三大類:第一方數據(廣告主、媒體回傳的用戶行為數據),第二方數據(廣告平臺展示、點擊、激活等數據),第三方數據(其他平臺合作數據)。

第一方數據,可以通過SDK采集、廣告主回調等方式進行數據的收集;第二方數據可直接通過內網進行互傳;第三方數據一般采用API、第三方存儲(AWS S3, 阿裡雲存儲)、RSYNC等方式進行批量傳輸的方式進行同步。

暢思目前的解決方案如圖三所示

3-webp

圖三 日志收集示意圖

第一方和第二方數據。離線分析,采用批量傳輸和獲取的方式進行數據收集;實時分析,則使用APIlume進行數據的收集。第三方數據,一般通過第三方可靠性存儲作為媒介來獲取,而對於第三方需要實時獲取信息的,則采用API的方式進行通信。

2.2 日志ETL

針對第一方、第二方數據。提供配置控制功能,ETL對於不同類型的數據根據配置文件使用不同的解析、轉換、加載的邏輯;註意,需要考慮ETL數據解析各個階段以及後續處理各個階段之間的時間同步,目前chance直接在同步標識存入到kv中,以進行同步。可替換為使用消息隊列進行同步,不同的邏輯使用不同的隊列,在解耦處理邏輯的同時,保證數據處理的有序性。

2.3 數據存儲入庫

暢思選用Hadoop生態圈作為存儲以及計算的基本工具,並基於原生的Hadoop進行瞭定制化開發,滿足廣告業務在穩定性、擴展性以及安全性方面的需求。

在使用層次上,用HDFS分用戶存儲原始數據,對ETL之後產生的格式化數據,按照事先定義好的分區加載到Hive表中。

2.4 BI系統任務調度

數據倉庫數據錄入完畢之後,業務方就可以訪問庫中的數據,計算分析各類指標;為保證服務的可靠性以及數據的安全性,暢思基於數據倉庫構建瞭可視化的調度系統。

主要的流程如圖四所示:

9

圖四 BI系統調度平臺

3. 數據分析與挖掘

3.1 數據分析

目前暢思的數據分析服務包括三個部分:廣告平臺的運營分析、媒體運營分析以及數據管理調度平臺。

廣告平臺運營分析。分權限分角色,對廣告平臺上各個項目在不同環境下在各個流量端的展示、點擊、激活、平臺支出,平臺收入等進行統計分析;

遊戲運營平臺。主要對媒體應用的新增、活躍,付費,留存,TAD,流失,回流等運營指標進行分析,上述指標可以分渠道、分活動、分項目進行深層次分析,以評估各個廣告推廣活動帶來用戶的質量;

數據管理平臺。為瞭提高運營、商務等的工作效率,暢思數據中心提供數據管理功能。用戶可以分權限在該平臺上提交數據到數據倉庫或者不同的數據存儲,用戶可以根據這些數據分析產生結果,並可以將這些數據或者數據結果開放給其他用戶使用;用戶也可以根據數據中心分配的權限,從數據倉庫中分析產生結果。

3.2 數據挖掘

基於三方數據深挖數據價值。

包括五個部分:反作弊,用戶標簽,媒體/用戶質量評估,CTR預測,Lookalike。

3.2.1 反作弊

廣告行業,流量端作弊十分常見,如何過濾掉這部分假量,對於廣告主以及平臺來講至關重要。暢思作為業內第一傢使用並推廣反作弊的企業,在反作弊方面有許多成熟的積累。目前暢思反作弊包括規則策略以及模型兩部分。規則策略主要是對固定的作弊模式進行直接查殺,目前暢思反作弊系統的規則策略大概有30大項,可以有效過濾一大批“小白”作弊用戶;反作弊模型則是根據已發現作弊用戶的行為,提取作弊用戶的特征,用機器學習的方法盡早發現作弊用戶,減少平臺以及廣告主的損失。

規則策略流程如圖五所示,模型策略如圖六所示。

4-webp

圖五 反作弊規則流程圖

5-webp

圖六 反作弊模型流程圖

反作弊模型與規則策略相輔相成,可以通過反作弊模型發現新的作弊模式,然後結合行為序列發掘,歸結為固定的規則,可進一步豐富規則策略;而規則策略,對於已查殺的用戶,分析其被殺掉之前的行為,可有效豐富反作弊需要的樣本,進一步提高反作弊模型的泛化能力。

3.2.2 用戶標簽

對用戶進行精準化投放的基礎。用戶的標簽分為靜態標簽和動態標簽,靜態標簽主要指用戶的性別,年齡,地域等信息,動態標簽主要是用戶的興趣標簽。

目前暢思數據中心有效的標簽量在幾千個,並且提供瞭可定制化功能開放給廣告主使用,廣告主可以根據自己的需求,定義自己的標簽,用定制的標簽來指導投放。

定制化標簽可以基於關鍵詞,也可以基於已有標簽進行邏輯計算獲得,暢思支持的邏輯運算有與,或,非,加,減等。

3.2.3 媒體/用戶質量評估

有瞭用戶標簽、用戶在廣告平臺中的行為信息、用戶在媒體應用上的行為信息,暢思數據平臺對媒體流量以及用戶進行瞭分級。

媒體質量,分類別、分效果計算出各個媒體的基礎得分,對質量不同的媒體,指導廣告投放平臺進行區別投放。

用戶質量,采用聚類的方法對用戶進行人群劃分,對各個群體進行廣告效果、活躍度等多方面的評估,得到各類人群的評分。

3.2.4 CTR預測

基於用戶的畫像信息,媒體流量信息,廣告項目信息等多種特征,進行點擊率預測。目前采用的特征有600+,使用的基礎模型是LR,采用LR的主要原因是移動廣告平臺用戶受媒體或者渠道切入流量的限制,信息過於稀疏,對於特征的提取,進行瞭較多的人工介入,後續我們也會嘗試在LR中加入特征選擇的步驟,提高訓練及調優效率。

3.2.5 Lookalike

相似用戶發現,主要根據廣告主或者投放項目反饋回來的用戶信息,進行同類用戶的精準投放。Lookalike發現的方法有兩大類:有監督訓練獲取以及無監督訓練獲取。有監督獲取采用分類的方法進行用戶發現,該類方法的優點的準確度高,缺點是得到的用戶覆蓋面不夠,並且負樣本不太容易收集;無監督獲取主要采用聚類的方法對用戶進行分群,然後根據群體的信息,從用戶庫中獲取類似的用戶,該類方法的優點是得到的用戶覆蓋面較廣,並且得到的用戶在行為上符合某類分佈,對異常用戶不敏感,缺點是需要的訓練樣本比較多,對於比較大的投放項目比較合適。目前,暢思主要以無監督的方法為基礎,對同一個項目下的用戶進行人群切分,然後去積累的用戶系統中獲取相似的用戶。

4. 數據可視化

數據可視化作為數據分析結果以及數據挖掘結果呈現的重要媒介,在數據平臺產品化方面起著非常重要的作用。目前暢思數據可視化主要包括三個平臺:廣告運營指標可視化,媒體運營可視化,數據管理可視化。各平臺的介紹可以看數據分析部分的內容。

廣告運營指標可視化,主要提供各類指標,指標同比/環比對比等分析功能,如圖七所示:

6-webp

圖七 暢思平臺數據運營中心

媒體運營可視化,主要是展示媒體運營中所使用的指標以及詳細分析情況,如圖:

7-webp

圖八 暢思遊戲運營平臺示例

數據管理可視化,主要提供用戶獲取數據、上傳數據、分析數據的可視化接口,提高廣告主或者運營的分析效率。

8-webp

圖九 暢思數據管理平臺示例

5.總結

經過幾年的沉淀,暢思廣告平臺已累計瞭海量的大數據樣本,並且在業內最領先技術的支配下,可以輕松實現三方利益最大化。

通過以上的介紹,希望大傢對數據中心的功能以及作用有一個比較清晰的認識及瞭解。數據中心的搭建是一個長期過程,其相關技術也在快速的發展進步,在這裡通過與大傢交流,希望大傢更加關註數據技術在移動互聯網領域的應用,為流量以及數據變現提供更有效的技術支持方案。

Comments are closed.