云計算大數(shù)據(jù)挖掘體系構(gòu)建分析
時間:2022-04-09 02:56:56
導(dǎo)語:云計算大數(shù)據(jù)挖掘體系構(gòu)建分析一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
摘要:隨著移動互聯(lián)網(wǎng)、移動智能終端技術(shù)的快速發(fā)展,各種業(yè)務(wù)數(shù)據(jù)有了井噴式的增加,尤其是物聯(lián)網(wǎng)的快速發(fā)展,產(chǎn)生了海量的實時監(jiān)測數(shù)據(jù)。隨著數(shù)據(jù)量的增大和數(shù)據(jù)類型的豐富,產(chǎn)生了大數(shù)據(jù)挖掘和云計算技術(shù),本文從大數(shù)據(jù)挖掘步驟為切入點(diǎn),分析了大數(shù)據(jù)挖掘存在的問題以及利用云計算技術(shù)解決問題的過程。
關(guān)鍵詞:云計算;大數(shù)據(jù)挖掘
1引言
隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展以及各行業(yè)信息化的深入,業(yè)務(wù)數(shù)據(jù)從數(shù)量上還有類型上都發(fā)生了井噴式增長,特別是近幾年物聯(lián)網(wǎng)技術(shù)的普及,大量時序數(shù)據(jù)的產(chǎn)生標(biāo)識著人類已經(jīng)邁進(jìn)了大數(shù)據(jù)時代。大數(shù)據(jù)不僅是數(shù)據(jù)量大,數(shù)據(jù)類型也極大的豐富。有傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),也有文本、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。大數(shù)據(jù)帶來的潛在價值隨著大數(shù)據(jù)挖掘技術(shù)的發(fā)展?jié)u漸凸顯出來。同時,基于云計算自身具備的計算存儲資源松耦合集成和彈性資源分配等特點(diǎn),能夠在很大程度上支撐構(gòu)建大數(shù)據(jù)挖掘體系所需的算力和存儲資源需求,降低運(yùn)行成本,安全可靠。
2大數(shù)據(jù)挖掘技術(shù)介紹
隨著信息系統(tǒng)數(shù)字化和智能化的不斷推進(jìn),數(shù)據(jù)規(guī)模也將呈指數(shù)級趨勢增長。大數(shù)據(jù)挖掘?qū)⒊蔀橥苿诱麄€產(chǎn)業(yè)數(shù)字化升級的重要抓手和舉措。大數(shù)據(jù)顧名思義是指數(shù)量極大的數(shù)據(jù)匯聚而成,大數(shù)據(jù)包括業(yè)務(wù)系統(tǒng)產(chǎn)生的業(yè)務(wù)數(shù)據(jù),電商交易數(shù)據(jù),物聯(lián)網(wǎng)技術(shù)產(chǎn)生的時序數(shù)據(jù),工業(yè)制造數(shù)據(jù)等等。這些數(shù)據(jù)中包含了極大的潛在價值有待開發(fā),大數(shù)據(jù)挖掘技術(shù)指的是從海量數(shù)據(jù)中利用合適的模型挖掘出有用的信息反饋給原來的系統(tǒng),帶來更多的業(yè)務(wù)價值。大數(shù)據(jù)挖掘分成六個步驟:(1)定義問題:在進(jìn)行數(shù)據(jù)挖掘之前,首先需要定義本次挖掘需要解決的問題是什么,也就是說要給本次數(shù)據(jù)挖掘定義明確的目標(biāo)。根據(jù)大數(shù)據(jù)定義的問題選擇適合的模型,模型是否合適關(guān)系著本次挖掘是否成功。(2)建立大數(shù)據(jù)挖掘庫:大數(shù)據(jù)挖掘的根本就是用存在的歷史數(shù)據(jù)訓(xùn)練選擇的模型,調(diào)整模型中可以改變的參數(shù)達(dá)到本次挖掘最好的效果,所以建立大數(shù)據(jù)挖掘庫至關(guān)重要。建立大數(shù)據(jù)挖掘庫首先要收集數(shù)據(jù)并對數(shù)據(jù)進(jìn)行描述,通過ETL技術(shù)對數(shù)據(jù)進(jìn)行清洗、轉(zhuǎn)化和加載。保證數(shù)據(jù)庫中的數(shù)據(jù)是有效數(shù)據(jù)。(3)分析數(shù)據(jù):對準(zhǔn)備好的數(shù)據(jù)進(jìn)行分析,由于大數(shù)據(jù)的數(shù)據(jù)量非常巨大,用人工分析幾乎不可能。一般借助R語言或者Scala語言對數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)數(shù)據(jù)中對挖掘預(yù)測有影響的字段,為接下來的工作做好準(zhǔn)備。(4)準(zhǔn)備數(shù)據(jù):通過數(shù)據(jù)分析后,可以鎖定對挖掘預(yù)測結(jié)果有明顯影響的字段,選擇這些數(shù)據(jù)并進(jìn)行記錄,如果有進(jìn)一步的需要,可以對這些數(shù)據(jù)進(jìn)行函數(shù)轉(zhuǎn)化后創(chuàng)造新的變量,并對這些新的變量進(jìn)行記錄,為后續(xù)的數(shù)據(jù)挖掘工作夯實數(shù)據(jù)基礎(chǔ)。(5)建立并訓(xùn)練模型:根據(jù)過程開始定義的問題建立挖掘模型,建立挖掘模型是一個迭代的過程,首先考察不同的模型以判斷是否對定義的問題有用。先用一部分準(zhǔn)備的數(shù)據(jù)對模型進(jìn)行訓(xùn)練,調(diào)整模型中的變量,然后在選擇另一部分?jǐn)?shù)據(jù)對模型進(jìn)行測試,如有需要,可以再選取一個數(shù)據(jù)集,對建立的模型進(jìn)行驗證。(6)評價模型并進(jìn)行實施:訓(xùn)練好的模型要在實際的應(yīng)用中進(jìn)行推廣,這對模型是一次考驗。訓(xùn)練模型中會存在某些假設(shè)的條件,如果這些條件與實現(xiàn)的應(yīng)用中條件一致,模型的評價度將會更高。評價模型首先要在小規(guī)模范圍內(nèi)進(jìn)行實施然后分析預(yù)測的結(jié)果是否與實際情況相符。如果模型的評價度較高,則可以在大范圍內(nèi)進(jìn)行推廣。模型的實施一般有兩種使用方法,一種是給數(shù)據(jù)分析人員或者是業(yè)務(wù)系統(tǒng)作為工具,根據(jù)實際的數(shù)據(jù)對業(yè)務(wù)趨勢進(jìn)行預(yù)測;二是把評價過的模型應(yīng)用到不同的數(shù)據(jù)集合上。隨著近幾年互聯(lián)網(wǎng)的高速發(fā)展,業(yè)務(wù)數(shù)據(jù)量的急速增長,業(yè)務(wù)場景也變得越來越復(fù)雜,大數(shù)據(jù)挖掘過程中數(shù)據(jù)的存儲,數(shù)據(jù)的計算對計算機(jī)的要求變得越來越高,大數(shù)據(jù)挖掘需要的基礎(chǔ)資源的成本也隨之迅速上升。
3云計算助力大數(shù)據(jù)挖掘
云計算能夠為大數(shù)據(jù)挖掘提供低成本的算力和存儲環(huán)境。云計算主要是通過虛擬化技術(shù)將CPU計算資源、硬件存儲和網(wǎng)絡(luò)資源虛擬成多個環(huán)境,根據(jù)計算和存儲資源的需求情況進(jìn)行動態(tài)彈性管理,從而最大限度提升物理資源的復(fù)用價值,有效降低大數(shù)據(jù)挖掘的運(yùn)行成本。云計算能夠為大數(shù)據(jù)挖掘構(gòu)建一個高可用的算力及存儲運(yùn)行環(huán)境。為此利用云計算技術(shù)能夠完成大數(shù)據(jù)挖掘所需要的規(guī)模級數(shù)據(jù)存儲和計算功能。同時,云計算提供了一個高度安全可靠的運(yùn)行環(huán)境,通??梢詫崿F(xiàn)99.9%的高可用計算性能,能夠為大數(shù)據(jù)挖掘提供實時計算和安全保障,最大限度避免因電路故障或其它故障導(dǎo)致大數(shù)據(jù)挖掘服務(wù)停止運(yùn)行等問題。云計算能夠為大數(shù)據(jù)挖掘構(gòu)建一個高擴(kuò)展的算力及存儲運(yùn)行環(huán)境。基于云計算自身的高度開放集成和擴(kuò)展性等特點(diǎn),能夠隨著大數(shù)據(jù)挖掘規(guī)模的變化來動態(tài)增減算力和存儲資源,從而使得整個應(yīng)用集成系統(tǒng)構(gòu)建具有較高靈活性,從而有效降低算力資源和存儲資源的浪費(fèi),極大提升大數(shù)據(jù)挖掘系統(tǒng)的經(jīng)濟(jì)和環(huán)境效益。
4結(jié)束語
云計算技術(shù)的落地為大數(shù)據(jù)的存儲和計算提供了彈性的資源管理環(huán)境,按需分配大數(shù)據(jù)挖掘需要的資源,降低了大數(shù)據(jù)挖掘的成本。隨著云計算和大數(shù)據(jù)技術(shù)的不斷進(jìn)步,云計算和大數(shù)據(jù)技術(shù)的融合越來越緊密,云計算為大數(shù)據(jù)挖掘的快速發(fā)展提供良好的資源支持。
參考文獻(xiàn)
[1]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015,38(07):103-108.
[2]饒正嬋,蒲天銀.云計算條件下的大數(shù)據(jù)挖掘內(nèi)涵及解決方案[J].電子技術(shù)與軟件工程,2018(13):154-155.
[3]孫培鋒.基于云計算的大數(shù)據(jù)挖掘體系架構(gòu)研究[J].信息技術(shù)與信息化,2018(09):167-169.
作者:肖婧 單位:山西潞安集團(tuán)余吾煤業(yè)有限責(zé)任公司