简介
HDFS, the Hadoop Distributed File System, 是一个分布式系统,它被设计用来存储大数据量的信息(通常是TB或PB),并提供对数据进行高吞吐量访问的性能。文件被存储在多台机器中,确保系统的抗失 效性能以及并行应用程序的高效。这篇文章主要介绍 HDFS的设计意图、结构,并告诉读者怎样去使用它。
本文的目标:
了解HDFS的设计意图,以及基本的分布式系统的一些概念。
学习怎样从命令行中设置和使用HDFS。
学习怎样在应用程序中使用HDFS。
分布式系统基本原理
分布式系统被设计成可以存储和管理大数据量的信息的系统,并为这些数据提供对外的访问功能(通过网络)。现在已经有许多的分布式系统用各种不同的方法解决了这个问题。
NFS, the Network File System, 是目前最普遍的分布式系统。它也是还在使用的最老的分布式系统之一。它的设计是非常易懂的,但它也有许多的局限性。NFS 为存储在一台机器上的一个逻辑卷提供远程访问。一个NFS能够让它的本地文件系统的一部分对其他的客户端可见。然后,客户端 会把这个远程系统 加进 它们自己的 Linux 文件系统,然后就像 远程系统在本地硬盘上一样 去使用它。
这个模型的一个主要的优点就是它的透明性。客户端压根儿不用知道它们是否在使用远程系统。标准库中的方法,例如 open(),close(),fread(),等等,会帮助我们使用在NFS上的文件。
Read This Post