"大數據"是一個(gè)體(tǐ)量特别大,數據類别特别大的(de)數據集,并且這(zhè)樣的(de)數據集無法用傳統數據庫工(gōng)具對(duì)其內(nèi)容進行抓取、管理(lǐ)和(hé)處理(lǐ)。
"大數據"首先是指數據體(tǐ)量(volumes)?大,指代大型數據集,一般在10TB?規模左右,但(dàn)在實際應用中,很(hěn)多企業(yè)用戶把多個(gè)數據集放(fàng)在一起,已經形成了PB級的(de)數據量;其次是指數據類别(variety)大,數據來(lái)自(zì)多種數據源,數據種類和(hé)格式日(rì)漸豐富,已沖破了以前所限定的(de)結構化(huà)數據範疇,囊括了半結構化(huà)和(hé)非結構化(huà)數據。
接着是數據處理(lǐ)速度(Velocity)快,在數據量非常龐大的(de)情況下(xià),也能夠做到數據的(de)實時(shí)處理(lǐ)。最後一個(gè)特點是指數據真實性(Veracity)高(gāo),随着社交數據、企業(yè)內(nèi)容、交易與應用數據等新數據源的(de)興趣,傳統數據源的(de)局限被打破,企業(yè)愈發需要有(yǒu)效的(de)信息之力以确保其真實性及安全性。