日本免费全黄少妇一区二区三区-高清无码一区二区三区四区-欧美中文字幕日韩在线观看-国产福利诱惑在线网站-国产中文字幕一区在线-亚洲欧美精品日韩一区-久久国产精品国产精品国产-国产精久久久久久一区二区三区-欧美亚洲国产精品久久久久

如何建立數(shù)據(jù)分析模型「大數(shù)據(jù)建模一般有哪些步驟呢」( 四 )


每個(gè)產(chǎn)品都有適合它的幾個(gè)指標(biāo),不要一股腦的裝一堆指標(biāo)上去,當(dāng)你準(zhǔn)備了二三十個(gè)指標(biāo)用于分析,會(huì)發(fā)現(xiàn)無從下手 。
三、建立正確的指標(biāo)結(jié)構(gòu)
既然指標(biāo)太多太復(fù)雜不好,那么應(yīng)該如何正確的選擇指標(biāo)呢?
和分析思維的金字塔結(jié)構(gòu)一樣,指標(biāo)也有固有結(jié)構(gòu),呈現(xiàn)樹狀 。指標(biāo)結(jié)構(gòu)的構(gòu)建核心是以業(yè)務(wù)流程為思路,以結(jié)構(gòu)為導(dǎo)向 。
假設(shè)你是內(nèi)容運(yùn)營,需要對(duì)現(xiàn)有的業(yè)務(wù)做一個(gè)分析,提高內(nèi)容相關(guān)數(shù)據(jù),你會(huì)怎么做呢?
我們把金字塔思維轉(zhuǎn)換一下,就成了數(shù)據(jù)分析方法了 。
從內(nèi)容運(yùn)營的流程開始,它是:內(nèi)容收集—內(nèi)容編輯發(fā)布—用戶瀏覽—用戶點(diǎn)擊—用戶閱讀—用戶評(píng)論或轉(zhuǎn)發(fā)—繼續(xù)下一篇瀏覽 。
這是一個(gè)標(biāo)準(zhǔn)的流程,每個(gè)流程都有指標(biāo)可以建立 。內(nèi)容收集可以建立熱點(diǎn)指數(shù),看哪一篇內(nèi)容比較火 。用戶瀏覽用戶點(diǎn)擊則是標(biāo)準(zhǔn)的PV和UV統(tǒng)計(jì),用戶閱讀是閱讀時(shí)長 。
從流程的角度搭建指標(biāo)框架,可以全面的囊括用戶相關(guān)數(shù)據(jù),無有遺漏 。
這套框架列舉的指標(biāo),依舊要遵循指標(biāo)原則:需要有核心驅(qū)動(dòng)指標(biāo) 。移除虛榮指標(biāo),適當(dāng)?shù)倪M(jìn)行刪減,不要為添加指標(biāo)而添加指標(biāo) 。
四、了解維度分析法
當(dāng)你有了指標(biāo),可以著手進(jìn)行分析,數(shù)據(jù)分析大體可以分三類:
利用維度分析數(shù)據(jù)
使用統(tǒng)計(jì)學(xué)知識(shí)如數(shù)據(jù)分布假設(shè)檢驗(yàn)
使用機(jī)器學(xué)習(xí)
我們先了解一下維度分析法 。
維度是描述對(duì)象的參數(shù),在具體分析中,我們可以把它認(rèn)為是分析事物的角度 。銷量是一種角度、活躍率是一種角度,時(shí)間也是一種角度,所以它們都能算維度 。
當(dāng)我們有了維度后,就能夠通過不同的維度組合,形成數(shù)據(jù)模型 。數(shù)據(jù)模型不是一個(gè)高深的概念,它就是一個(gè)數(shù)據(jù)立方體 。
上圖就是三個(gè)維度組成的數(shù)據(jù)模型/數(shù)據(jù)立方體 。分別是產(chǎn)品類型、時(shí)間、地區(qū) 。我們既能獲得電子產(chǎn)品在上海地區(qū)的2010二季度的銷量,也能知道書籍在江蘇地區(qū)的2010一季度銷量 。
數(shù)據(jù)模型將復(fù)雜的數(shù)據(jù)以結(jié)構(gòu)化的形式有序的組織起來 。我們之前談到的指標(biāo),都可以作為維度使用 。下面是范例:
將用戶類型、活躍度、時(shí)間三個(gè)維度組合,觀察不同用戶群體在產(chǎn)品上的使用情況,是否A群體使用的時(shí)長更明顯?
將商品類型、訂單金額、地區(qū)三個(gè)維度組合,觀察不同地區(qū)的不同商品是否存在銷量差異?
數(shù)據(jù)模型可以從不同的角度和層面來觀察數(shù)據(jù),這樣提高了分析的靈活性,滿足不同的分析需求、這個(gè)過程叫做OLAP(聯(lián)機(jī)分析處理) 。當(dāng)然它涉及到更復(fù)雜的數(shù)據(jù)建模和數(shù)據(jù)倉庫等,我們不用詳細(xì)知道 。
數(shù)據(jù)模型還有幾種常見的技巧、叫做鉆取、上卷、切片 。
選取就是將維度繼續(xù)細(xì)分 。比如浙江省細(xì)分成杭州市、溫州市、寧波市等,2010年一季度變成1月、2月、3月 。上卷則是鉆取的相反概念,將維度聚合,比如浙江、上海、江蘇聚合成浙江滬維度 。切片是選中特定的維度,比如只選上海維度、或者只選2010年一季度維度 。因?yàn)閿?shù)據(jù)立方體是多維的,但我們觀察和比較數(shù)據(jù)只能在二維、即表格中進(jìn)行 。
上圖的樹狀結(jié)構(gòu)代表鉆取(source和time的細(xì)分),然后通過對(duì)Route的air切片獲得具體數(shù)據(jù) 。
聰明的你可能已經(jīng)想到,我們常用的數(shù)據(jù)透視表就是一種維度分析,將需要分析的維度放到行列組合進(jìn)行求和、計(jì)數(shù)、平均值等計(jì)算 。放一張?jiān)?jīng)用到的案例圖片:用城市維度和工作年限維度,計(jì)算平均工資 。
除了Excel、BI、R、Python都能用維度分析法 。BI是相對(duì)最簡便的 。
談到維度法,想要強(qiáng)調(diào)的是分析的核心思維之一:對(duì)比,不同維度的對(duì)比,這大概是對(duì)新人快速提高的最佳捷徑之一 。比如過去和現(xiàn)在的時(shí)間趨勢(shì)對(duì)比,比如不同地區(qū)維度的對(duì)比,比如產(chǎn)品類型的區(qū)別對(duì)比,比如不同用戶的群體對(duì)比 。單一的數(shù)據(jù)沒有分析意義,只有多個(gè)數(shù)據(jù)組合才能發(fā)揮出數(shù)據(jù)的最大價(jià)值 。

推薦閱讀