什么是大數(shù)據(jù)?一般所理解的大數(shù)據(jù),指的是所涉及的資料量規(guī)模巨大到無法通過目前主流軟件工具在合理時(shí)間內(nèi)達(dá)到擷取、管理、處理、并整理成為幫助企業(yè)經(jīng)營(yíng)決策更積極目的的資訊。而大數(shù)據(jù)的4V特點(diǎn):Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)也被人們所認(rèn)可。就目前來看,我們所看到的大數(shù)據(jù)包含最多的也只是大量這個(gè)特性,像價(jià)值等并未得到充分的體現(xiàn)。
大數(shù)據(jù)時(shí)代的到來,讓很多企業(yè)對(duì)獲取數(shù)據(jù)的欲望到了異常熾熱的程度,雖然數(shù)據(jù)存儲(chǔ)的成本越來越低,但它并不是免費(fèi)的。然而,對(duì)于許多大公司來說,它們對(duì)于數(shù)據(jù)欲望的增長(zhǎng)速度要比數(shù)據(jù)存儲(chǔ)成本降低的速度快得多。
許多企業(yè)往往在收集完數(shù)據(jù)之后,并不迅速處理這些數(shù)據(jù),造成數(shù)據(jù)存儲(chǔ)成本增加。而他們也并沒有從這些數(shù)據(jù)中獲取任何價(jià)值。在另一個(gè)層面上,企業(yè)中的一些數(shù)據(jù)集已經(jīng)開始造成了企業(yè)的收益遞減。因?yàn)閿?shù)據(jù)樣本數(shù)量超過一個(gè)臨界點(diǎn)之后,無論增加多少數(shù)據(jù),對(duì)于預(yù)測(cè)結(jié)果不會(huì)有任何太大的影響。也就是說,樣本數(shù)量過多,所花費(fèi)的成本也就越多,但對(duì)于目標(biāo)沒有任何實(shí)質(zhì)性的價(jià)值。同時(shí),數(shù)據(jù)冗余的,企業(yè)支出的不僅僅是存儲(chǔ)成本,還會(huì)面臨許多其他的問題。假如一旦發(fā)生數(shù)據(jù)泄露的話,尤其是業(yè)務(wù)數(shù)據(jù),那么公司將會(huì)承擔(dān)巨大的損失。
數(shù)據(jù)越多,整理分析數(shù)據(jù)所需要的時(shí)間也就越多。當(dāng)數(shù)據(jù)倉庫的規(guī)模達(dá)到數(shù)十億條記錄時(shí),那么光是檢索數(shù)據(jù)就需要花上幾個(gè)小時(shí),甚至是幾個(gè)星期。這時(shí)候,這些信息非但不會(huì)給企業(yè)帶來任何商業(yè)價(jià)值,反而會(huì)阻礙企業(yè)系統(tǒng)的運(yùn)轉(zhuǎn),因?yàn)檫@些系統(tǒng)根本不能處理這么大信息量。
因此,企業(yè)不能盲目追求大數(shù)據(jù),而應(yīng)當(dāng)結(jié)合企業(yè)的具體情況,對(duì)有效的商業(yè)信息進(jìn)行收集、篩選、分析,決策,從而讓數(shù)據(jù)為企業(yè)所用,為企業(yè)帶來價(jià)值??偠灾瑪?shù)據(jù)能不能帶來商業(yè)價(jià)值,不在于數(shù)據(jù)本身,而在于如何運(yùn)用數(shù)據(jù)。其最大的價(jià)值也不在于大數(shù)據(jù)本身,而在于加強(qiáng)了企業(yè)和個(gè)人對(duì)數(shù)據(jù)的重視和利用。