時間:2024-12-05 | 欄目:編程網站 | 點擊:次
Hadoop是一個分布式系統基礎架構,由Apache基金會開發。用戶可以在不了解分布式底層細節的情況下,開發分布式程序。充分利用集群的威力高速運算和存儲。Hadoop實現了一個分布式文件系統,簡稱HDFS。HDFS有著高容錯性的特點,并且設計用來部署在低廉的硬件上。而且它提供高傳輸率來訪問應用程序的數據,適合那些有著超大數據集的應用程序。HDFS放寬了(relax)POSIX的要求這樣可以流的形式訪問文件系統中的數據。
Hadoop這個名字不是一個縮寫,它是一個虛構的名字。該項目的創建者,Doug Cutting如此解釋Hadoop的得名:“這個名字是我孩子給一個棕黃色的大象樣子的填充玩具命名的。我的命名標準就是簡短,容易發音和拼寫,沒有太多的意義,并且不會被用于別處。小孩子是這方面的高手。”Hadoop是最受歡迎的在網絡上對搜索關鍵字進行內容分類的工具,但它也可以解決許多要求極大伸縮性的問題。
Hadoop是一個能夠對大量數據進行分布式處理的軟件框架。但是Hadoop是以一種可靠、高效、可伸縮的方式進行處理的。Hadoop 是可靠的,因為它假設計算元素和存儲會失敗,因此它維護多個工作數據副本,確保能夠針對失敗的節點重新分布處理。Hadoop是高效的,因為它以并行的方式工作,通過并行處理加快處理速度。Hadoop還是可伸縮的,能夠處理 PB 級數據。此外,Hadoop依賴于社區服務器,因此它的成本比較低,任何人都可以使用。
Hadoop帶有用 Java 語言編寫的框架,因此運行在 Linux 生產平臺上是非常理想的。Hadoop上的應用程序也可以使用其他語言編寫,比如 C++。Hadoop有許多元素構成。其最底部是HDFS,它存儲Hadoop集群中所有存儲節點上的文件。HDFS的上一層是 MapReduce引擎,該引擎由JobTrackers和TaskTrackers組成。