摘要:
大數(shù)據(jù)技術的運用仍存在一些困難與挑戰(zhàn),體現(xiàn)在大數(shù)據(jù)挖掘的四個環(huán)節(jié)中。首先在數(shù)據(jù)收集方面。要對來自網(wǎng)絡包括物聯(lián)網(wǎng)和機構信息系統(tǒng)的數(shù)據(jù)附上時空標志,去偽存真,盡可能收集異源甚至是異構的數(shù)據(jù),必要時還可與歷史數(shù)據(jù)對照,多角度驗證數(shù)據(jù)的全面性和可信性。其次是數(shù)據(jù)存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術,在存儲時要按照一定規(guī)則對數(shù)據(jù)進行分類,通過過濾和去重,減少存儲量,同時加入便于日后檢索的標簽。第三是數(shù)據(jù)處理。有些行業(yè)的數(shù)據(jù)涉及上百個參數(shù),其復雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構、多實體和多空間之間的交互動態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關聯(lián)進行語義分析,從大量動態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導出可理解的內(nèi)容。第四是結果的可視化呈現(xiàn),使結果更直觀以便于洞察。目前,盡管計算機智能化有了很大進步,但還只能針對小規(guī)模、有結構或類結構的數(shù)據(jù)進行分析,談不上深層次的數(shù)據(jù)挖掘,現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。
大數(shù)據(jù)技術的運用仍存在一些困難與挑戰(zhàn),體現(xiàn)在大數(shù)據(jù)挖掘的四個環(huán)節(jié)中。首先在數(shù)據(jù)收集方面。要對來自網(wǎng)絡包括物聯(lián)網(wǎng)和機構信息系統(tǒng)的數(shù)據(jù)附上時空標志,去偽存真,盡可能收集異源甚至是異構的數(shù)據(jù),必要時還可與歷史數(shù)據(jù)對照,多角度驗證數(shù)據(jù)的全面性和可信性。其次是數(shù)據(jù)存儲。要達到低成本、低能耗、高可靠性目標,通常要用到冗余配置、分布化和云計算技術,在存儲時要按照一定規(guī)則對數(shù)據(jù)進行分類,通過過濾和去重,減少存儲量,同時加入便于日后檢索的標簽。第三是數(shù)據(jù)處理。有些行業(yè)的數(shù)據(jù)涉及上百個參數(shù),其復雜性不僅體現(xiàn)在數(shù)據(jù)樣本本身,更體現(xiàn)在多源異構、多實體和多空間之間的交互動態(tài)性,難以用傳統(tǒng)的方法描述與度量,處理的復雜度很大,需要將高維圖像等多媒體數(shù)據(jù)降維后度量與處理,利用上下文關聯(lián)進行語義分析,從大量動態(tài)而且可能是模棱兩可的數(shù)據(jù)中綜合信息,并導出可理解的內(nèi)容。第四是結果的可視化呈現(xiàn),使結果更直觀以便于洞察。目前,盡管計算機智能化有了很大進步,但還只能針對小規(guī)模、有結構或類結構的數(shù)據(jù)進行分析,談不上深層次的數(shù)據(jù)挖掘,現(xiàn)有的數(shù)據(jù)挖掘算法在不同行業(yè)中難以通用。