日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

DORIS是什么牌子 Doris是什么意思

基于用戶畫像進(jìn)行人群定向是一種廣泛的業(yè)務(wù)場(chǎng)景,在廣告、增長(zhǎng)等領(lǐng)域有普遍的應(yīng)用 。如何能夠高效分析、規(guī)則篩選,特別是在超大規(guī)模的互聯(lián)網(wǎng)業(yè)務(wù)場(chǎng)景,是一個(gè)有挑戰(zhàn)性的技術(shù)問(wèn)題 。在這個(gè)分享里面,我們會(huì)介紹一種基于Doris來(lái)實(shí)現(xiàn)海量用戶tag下分析與圈選的高性能實(shí)現(xiàn) 。
講座分為三部分內(nèi)容:
用戶畫像群體服務(wù)的業(yè)務(wù)場(chǎng)景
技術(shù)問(wèn)題、思路與相關(guān)業(yè)界方案實(shí)現(xiàn)情況
基于Doris的技術(shù)實(shí)現(xiàn)
1 用戶畫像群體服務(wù)的業(yè)務(wù)場(chǎng)景
1.1 畫像業(yè)務(wù)分析場(chǎng)景
百度的用戶畫像是面向百度全產(chǎn)品線的基礎(chǔ)數(shù)據(jù)和服務(wù)平臺(tái) 。
我們會(huì)為包括百度鳳巢、搜索、Feed等百度各條產(chǎn)品線提供服務(wù),每天有著千億級(jí)的離/在線的數(shù)據(jù)調(diào)用規(guī)模 。
隨著業(yè)務(wù)的發(fā)展,我們逐步形成了用戶理解全流程的數(shù)據(jù)和服務(wù),覆蓋從多元數(shù)據(jù)的采集、大規(guī)模的數(shù)據(jù)挖掘、高性能的數(shù)據(jù)服務(wù)以及面向業(yè)務(wù)場(chǎng)景的解決方案 。

DORIS是什么牌子 Doris是什么意思


在我們的工作中,用戶群體分析和人群圈選是比較常見(jiàn)的需求,包括群體分析、業(yè)務(wù)報(bào)表、Geo檢索、圈選等具體的場(chǎng)景 。由于整個(gè)數(shù)據(jù)的規(guī)模比較大,同時(shí)業(yè)務(wù)對(duì)于時(shí)效性的要求比較高,在不少的業(yè)務(wù)中我們采用基于Doris的方法來(lái)支持和實(shí)現(xiàn) 。群體分析大家可能會(huì)比較熟悉,也就是對(duì)一個(gè)給定人群做人群報(bào)告和多維分析 。業(yè)務(wù)報(bào)表也是常見(jiàn)的OLAP場(chǎng)景,對(duì)很多業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)計(jì)算,Doris的基礎(chǔ)能力能夠很好的滿足這些業(yè)務(wù)場(chǎng)景 。
Geo檢索大家可能不是那么熟悉,Doris在2019年前后集成了Google Geo的索引,使得對(duì)于基于地理位置的數(shù)據(jù)能夠快速地進(jìn)行查詢、聚合操作 。在一部分對(duì)于區(qū)域位置相關(guān)檢索的領(lǐng)域,Doris能夠發(fā)揮它分布式的優(yōu)勢(shì),達(dá)到不錯(cuò)的應(yīng)用效果 。
我們自己的應(yīng)用測(cè)試是通過(guò)構(gòu)建覆蓋全北京的400萬(wàn)細(xì)粒度多層網(wǎng)格數(shù)據(jù),去完成一個(gè)具體的隨機(jī)的 0.1km2 以上的區(qū)域的群體計(jì)算 。Doris處理 1 平方公里區(qū)域的群體數(shù)據(jù)的耗時(shí)在1.5秒左右,這對(duì)于很多的區(qū)域報(bào)表,像城市大屏、城市綜治管理等場(chǎng)景,它是有非常大的應(yīng)用空間的 。
1.2 超大數(shù)據(jù)規(guī)模下的標(biāo)簽索引問(wèn)題
基于用戶標(biāo)簽的索引,是各大互聯(lián)網(wǎng)公司應(yīng)用最廣泛的業(yè)務(wù),也是我們今天重點(diǎn)討論的一個(gè)場(chǎng)景 。
DORIS是什么牌子 Doris是什么意思


無(wú)論是基礎(chǔ)數(shù)據(jù)團(tuán)隊(duì)還是業(yè)務(wù)團(tuán)隊(duì)都會(huì)通過(guò)標(biāo)簽 tag 的挖掘來(lái)更好表達(dá)對(duì)用戶的理解 。我們畫像團(tuán)隊(duì)系統(tǒng)地構(gòu)建了用戶標(biāo)簽體系,但我們的數(shù)據(jù)規(guī)模相對(duì)來(lái)說(shuō)更大一些 。
這里有幾個(gè)原因:一個(gè)是整個(gè)產(chǎn)品線覆蓋和流量規(guī)模,此外還有一些特殊情況,比如我們的 id 規(guī)模遠(yuǎn)大于自然人的 id 規(guī)模,是一個(gè)數(shù)百億級(jí)別的數(shù)據(jù) 。
另外一個(gè)方面,我們從數(shù)據(jù)挖掘的層面建立了一個(gè)比較強(qiáng)、比較全面的畫像標(biāo)簽體系,它的整個(gè)規(guī)模會(huì)比較大,人均的標(biāo)簽覆蓋比較廣 。它的好處是可以靈活支撐應(yīng)用,但是問(wèn)題是在應(yīng)用過(guò)程中會(huì)產(chǎn)生一些規(guī)模上的問(wèn)題 。
基于這些標(biāo)簽,可以條件篩選的去構(gòu)建人群,進(jìn)而在用戶推薦、廣告定向、消息推送、用戶增長(zhǎng)等領(lǐng)域應(yīng)用 。
一般來(lái)說(shuō)這種業(yè)務(wù)有兩個(gè)特點(diǎn),一個(gè)是客戶對(duì)標(biāo)簽的選擇范圍非常廣,條件組合很復(fù)雜,業(yè)務(wù)靈活度非常高;另一個(gè)是對(duì)計(jì)算效率,特別是對(duì)于人群圈選的數(shù)量,人群分析計(jì)算的時(shí)效要求非常高 。計(jì)算越快,使用越靈活,越能夠幫助客戶找到他的目標(biāo)人群 。
2 技術(shù)問(wèn)題、思路
2.1 早期基于離線計(jì)算的方法
早期我們采用的是基于離線的計(jì)算方法,也就是用MapReduce來(lái)解決問(wèn)題 。這個(gè)方法的問(wèn)題非常顯而易見(jiàn),靈活性差、計(jì)算成本非常高、時(shí)效是業(yè)務(wù)團(tuán)隊(duì)幾乎不能忍受的,早期基本上是天級(jí),最少也是小時(shí)級(jí)才能產(chǎn)出結(jié)果 。

推薦閱讀