數(shù)據(jù)預(yù)處理的方法:
1、墓于粗糙集( Rough Set)理論的約簡(jiǎn)方法 , 粗糙集理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具 。現(xiàn)在受到了KDD的廣泛重視 , 利用粗糙集理論對(duì)數(shù)據(jù)進(jìn)行處理是一種十分有效的精簡(jiǎn)數(shù)據(jù)維數(shù)的方法 。
2、基于概念樹的數(shù)據(jù)濃縮方法 , 在數(shù)據(jù)庫中 , 許多屬性都是可以進(jìn)行數(shù)據(jù)歸類 , 各屬性值和概念依據(jù)抽象程度不同可以構(gòu)成一個(gè)層次結(jié)構(gòu) , 概念的這種層次結(jié)構(gòu)通常稱為概念樹 。概念樹一般由領(lǐng)域?qū)<姨峁?nbsp;, 它將各個(gè)層次的概念按一般到特殊的順序排列 。
3、信息論思想和普化知識(shí)發(fā)現(xiàn) , 特征知識(shí)和分類知識(shí)是普化知識(shí)的兩種主要形式 , 其算法基本上可以分為兩類:數(shù)據(jù)立方方法和面向?qū)傩詺w納方法 。
【不屬于數(shù)據(jù)預(yù)處理的方法 數(shù)據(jù)預(yù)處理的方法】
4、基于統(tǒng)計(jì)分析的屬性選取方法 , 可以采用統(tǒng)計(jì)分析中的一些算法來進(jìn)行特征屬性的選取 , 比如主成分分析、逐步回歸分析、公共因素模型分析等 。這些方法的共同特征是 , 用少量的特征元組去描述高維的原始知識(shí)基 。
5、遺傳算法(GA , Genetic Algo}thrn) , 遺傳算法是一種基于生物進(jìn)化論和分子遺傳學(xué)的全局隨機(jī)搜索算法 。遺傳算法的基本思想是:將問題的可能解按某種形式進(jìn)行編碼 , 形成染色體 。隨機(jī)選取N個(gè)染色體構(gòu)成初始種群 。再根據(jù)預(yù)定的評(píng)價(jià)函數(shù)對(duì)每個(gè)染色體計(jì)算適應(yīng)值 。選擇適應(yīng)值高的染色體進(jìn)行復(fù)制 , 通過遺傳運(yùn)算(選擇、交叉、變異)來產(chǎn)生一群新的更適應(yīng)環(huán)境的染色體 , 形成新的種群 。
相關(guān)經(jīng)驗(yàn)推薦
- 阿根廷vs德國歷史戰(zhàn)績(jī) 阿根廷vs法國歷史戰(zhàn)績(jī)數(shù)據(jù)對(duì)比
- 簡(jiǎn)述數(shù)據(jù)預(yù)處理的內(nèi)容 簡(jiǎn)述數(shù)據(jù)預(yù)處理的主要步驟
- 請(qǐng)闡述數(shù)據(jù)預(yù)處理的作用及主要方法 簡(jiǎn)述數(shù)據(jù)預(yù)處理的作用
- 《消逝的光芒》最強(qiáng)橙色高級(jí)武士刀屬性數(shù)據(jù)圖鑒一覽
- 如何查看論壇隱藏內(nèi)容 如何查看論壇隱藏內(nèi)容數(shù)據(jù)
- 什么叫收集數(shù)據(jù)的方法 收集數(shù)據(jù)的方法有哪兩種
- wps轉(zhuǎn)置在哪里 wps怎么把數(shù)據(jù)轉(zhuǎn)置
- 合川疫情最新數(shù)據(jù) 合川疫情最新數(shù)據(jù)消息
- 數(shù)據(jù)線3a和5a的區(qū)別 數(shù)據(jù)線5a跟3a有什么區(qū)別
- 數(shù)據(jù)加密的基本功能是什么 數(shù)據(jù)加密的主要作用
