
hadoop
telnetor
非诚勿扰
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
1. Meet Hadoop
1. Meet Hadoop 1.1. Data 数据 本节陈述了这样的事实:数据量越来越大,并且来源也越来越多,我们面临的问题是如何有效的存储和分析它们。 1.2. Data Storage and Analysis 数据存储和分析 现在面临这这样的一个问题:当磁盘的存储量随着时间的推移越来越大的时候,对磁盘上的数据的读取速度却没有多大的增长。 读取硬盘上的全部数据会花费比较长的时间,如果是写操原创 2009-12-01 23:10:00 · 753 阅读 · 0 评论 -
2.MapReduce
2. MapReduce 2.1. A Weather Dataset 一个天气数据集 数据是NCDC的数据,我们关注以下特点: 1) 数据是半格式化的 2) 目录里面存放的是从1901-2001年一个世纪的记录,是gzip压缩过的文件。 3) 以行为单位,使用ASCII格式存储,每行就是一条记录 4) 每条记录我们关注一些基本的元素,比如温度,这些数据在每条数据中都会出现,并且宽度也原创 2009-12-01 23:11:00 · 1205 阅读 · 0 评论 -
3.The Hadoop Distributed File System
原稿发布在我另外一个博客:原稿发布在我另外一个博客http://hadoopforcloud.javaeye.com3. The Design of HDFS HDFS设计的针对对象:适合流式访问的超大文件、在使用便宜的硬件搭建的集群上运行。 HDFS不足: 低延迟数据访问(Hbase是个好选择)、小文件多的时候出现问题(HDFS将文件Meta信息存储在内存中,内存限制了可以控制的文件数量)、对文原创 2009-12-10 22:17:00 · 988 阅读 · 0 评论 -
4.Hadoop I/O
原稿发布在我另外一个博客http://hadoopforcloud.javaeye.com4. Hadoop I/O4.1. Data Integrity 数据完整性 一般使用checksum检查数据的完整性,但是他仅能检查完整性,而不提供任何的修复办法,checksum的值也有出错的可能。 Hadoop采取了不同策略的checksum来克服以上的不足 4.1.1. Data Integrity原创 2009-12-10 22:21:00 · 1420 阅读 · 0 评论 -
10 Common Hadoop-able Problems Webinar——十个适用Hadoop的场合
10 Common Hadoop-able Problems WebinarView more presentations from Cloudera, Inc..转载 2011-01-12 00:08:00 · 1116 阅读 · 0 评论 -
Hadoop 伪分布式下更换默认hadoop.tmp.dir路径
hadoop.tmp.dir是hadoop文件系统依赖的基础配置,很多路径都依赖它。它默认的位置是在/tmp/{$user}下面,但是在/tmp路径下的存储是不安全的,因为linux一次重启,文件就可能被删除。按照hadoop Getting Start中Single Node Setup一节中的步骤走下来之后,伪分布式已经运行起来了。怎么更改默认的hadoop.tmp.dir路径,并使其生效原创 2011-11-20 17:17:44 · 31847 阅读 · 4 评论