當(dāng)前位置:首頁 > 百科知識 > 物聯(lián)網(wǎng) > 正文

數(shù)據(jù)湖

數(shù)據(jù)湖或hub的概念最初是由大數(shù)據(jù)廠商提出的,表面上看,數(shù)據(jù)都是承載在基于可向外擴(kuò)展的HDFS廉價存儲硬件之上的。但數(shù)據(jù)量越大,越需要各種不同種類的存儲。最終,所有的企業(yè)數(shù)據(jù)都可以被認(rèn)為是大數(shù)據(jù),但并不是所有的企業(yè)數(shù)據(jù)都是適合存放在廉價的HDFS集群之上的。

  簡介

  數(shù)據(jù)湖或hub的概念最初是由大數(shù)據(jù)廠商提出的,表面上看,數(shù)據(jù)都是承載在基于可向外擴(kuò)展的HDFS廉價存儲硬件之上的。但數(shù)據(jù)量越大,越需要各種不同種類的存儲。最終,所有的企業(yè)數(shù)據(jù)都可以被認(rèn)為是大數(shù)據(jù),但并不是所有的企業(yè)數(shù)據(jù)都是適合存放在廉價的HDFS集群之上的。

  價值

  數(shù)據(jù)湖的一部分價值是把不同種類的數(shù)據(jù)匯聚到一起,另一部分價值是不需要預(yù)定義的模型就能進(jìn)行數(shù)據(jù)分析?,F(xiàn)在的大數(shù)據(jù)架構(gòu)是可擴(kuò)展的,并且可以為用戶提供越來越多的實(shí)時分析。在商業(yè)智能(BI)和數(shù)據(jù)倉庫還沒有被淘汰的今天,大數(shù)據(jù)分析和大數(shù)據(jù)湖正在向更多類型的實(shí)時智能服務(wù)發(fā)展,這些實(shí)時的智能服務(wù)可以支持實(shí)時的決策制定。

  隱憂

  數(shù)據(jù)湖架構(gòu)面向多數(shù)據(jù)源的信息存儲,包括物聯(lián)網(wǎng)在內(nèi)。大數(shù)據(jù)分析或歸檔可通過訪問數(shù)據(jù)湖處理或交付數(shù)據(jù)子集給請求用戶。但數(shù)據(jù)湖架構(gòu)可不僅僅是一個巨大的磁盤而已。

  數(shù)據(jù)湖的數(shù)據(jù)持久性和安全卻是需要優(yōu)先考慮的因素。很多選擇都能交付一個合理的成本,但并非所有都能滿足數(shù)據(jù)湖的長期存儲需求。挑戰(zhàn)就在于數(shù)據(jù)湖中很多數(shù)據(jù)永遠(yuǎn)不會刪除。這種數(shù)據(jù)的價值在于它要那來分析以及和年復(fù)一年的數(shù)據(jù)進(jìn)行比對,這將抵消其容量成本。

  在數(shù)據(jù)湖架構(gòu)中,信息安全作為另一項挑戰(zhàn)往往被人忽視。相比于其它,這種類型的存儲安全要更加重要。數(shù)據(jù)湖架構(gòu)從定義上看是將所有的雞蛋放在一個籃子中。而如果其中一個存儲庫的安全被破壞,那么未知方將可能訪問所有數(shù)據(jù)。很多數(shù)據(jù)都以已于讀取的格式存儲,像是JPEG、PDF文件——如果你的數(shù)據(jù)湖架構(gòu)不夠安全,那么信息損失很容易。


內(nèi)容來自百科網(wǎng)