Hadoop学习笔记

说到Hadoop的起源，不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google（自称）为云计算概念的提出者，在自身多年的搜索引擎业务中构建了突破性的GFS（Google File System），从此文件系统进入分布式时代。

状态：更新中

dexcoder

1年前

共 14 篇

Hadoop学习笔记—14.ZooKeeper环境搭建

从字面上来看，ZooKeeper表示动物园管理员，这是一个十分奇妙的名字，我们又想起了Hadoop生态系统中，许多项目的Logo都采用了动物，比如Hadoop采用了大象的形象，所以我们可以猜测ZooKeeper就是对这些动物进行一些管理工作的。一、ZooKeeper基础介绍 1.1 动物园也要保障安全

1年前发布

Hadoop学习笔记—13.分布式集群中的动态添加与下架

开篇：在本笔记系列的第一篇中，我们介绍了如何搭建伪分布与分布模式的Hadoop集群。现在，我们来了解一下在一个Hadoop分布式集群中，如何动态（不关机且正在运行的情况下）地添加一个Hadoop节点与下架一个Hadoop节点。一、实验环境结构本次试验，我们构建的集群是一个主节点

1年前发布

Hadoop学习笔记—12.MapReduce中的常见算法

一、MapReduce中有哪些常见算法（1）经典之王：单词计数这个是MapReduce的经典案例，经典的不能再经典了！（2）数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞

1年前发布

Hadoop学习笔记—11.MapReduce中的排序和分组

一、写在之前的 1.1 回顾Map阶段四大步凑首先，我们回顾一下在MapReduce中，排序和分组在哪里被执行：从上图中可以清楚地看出，在Step1.4也就是第四步中，需要对不同分区中的数据进行排序和分组，默认情况下，是按照key进行排序和分组。 1.2 实验场景数据文件在一些特定的

1年前发布

Hadoop学习笔记—10.Shuffle过程那点事儿

一、回顾Reduce阶段三大步凑在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Reduce阶段总共三个步凑，如下图所示：其中，Step2.1就是一个Shuffle操作，它针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上，

1年前发布

Hadoop学习笔记—9.Partitioner与自定义Partitioner

一、初步探索Partitioner 1.1 再次回顾Map阶段五大步凑在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步凑，如下图所示：其中，step1.3就是一个分区操作。通过前面的学习我们知道Mapper最终处理的键值对<key, value>，是需

1年前发布

Hadoop学习笔记—8.Combiner与自定义Combiner

一、Combiner的出现背景 1.1 回顾Map阶段五大步凑在第四篇博文《初识MapReduce》中，我们认识了MapReduce的八大步凑，其中在Map阶段总共五个步凑，如下图所示：其中，step1.5是一个可选步凑，它就是我们今天需要了解的 Map规约阶段。现在，我们再来看看前一篇博文《计数器

1年前发布

Hadoop学习笔记—7.计数器与自定义计数器

一、Hadoop中的计数器计数器：计数器是用来记录job的执行进度和状态的。它的作用可以理解为日志。我们通常可以在程序的某个位置插入计数器，用来记录数据或者进度的变化情况，它比日志更便利进行分析。例如，我们有一个文件，其中包含如下内容： hello you hello me 它被

1年前发布

Hadoop学习笔记—6.Hadoop Eclipse插件的使用

开篇：Hadoop是一个强大的并行软件开发框架，它可以让任务在分布式集群上并行处理，从而提高执行效率。但是，它也有一些缺点，如编码、调试Hadoop程序的难度较大，这样的缺点直接导致开发人员入门门槛高，开发难度大。因此，Hadop的开发者为了降低Hadoop的难度，开发出了Hadoo

1年前发布

Hadoop学习笔记—5.自定义类型处理手机上网日志

一、测试数据：手机上网日志 1.1 关于这个日志假设我们如下一个日志文件，这个文件的内容是来自某个电信运营商的手机上网日志，文件的内容已经经过了优化，格式比较规整，便于学习研究。该文件的内容如下（这里我只截取了三行）： 1363157993044 18211575961 94-71-AC-CD-E6

1年前发布

Hadoop学习笔记—4.初识MapReduce

一、神马是高大上的MapReduce MapReduce是Google的一项重要技术，它首先是一个编程模型，用以进行大数据量的计算。对于大数据量的计算，通常采用的处理手法就是并行计算。但对许多开发者来说，自己完完全全实现一个并行计算程序难度太大，而MapReduce就是一种简化并行计算的编

1年前发布

Hadoop学习笔记—3.Hadoop RPC机制的使用

一、RPC基础概念 1.1 RPC的基础概念 RPC，即Remote Procdure Call，中文名：远程过程调用；（1）它允许一台计算机程序远程调用另外一台计算机的子程序，而不用去关心底层的网络通信细节，对我们来说是透明的。因此，它经常用于分布式网络通信中。 RPC协议假定某些传输协议的

1年前发布

Hadoop学习笔记—2.不怕故障的海量存储：HDFS基础入门

一.HDFS出现的背景随着社会的进步，需要处理数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是却不方便管理和维护—>因此，迫切需要一种系统来管理多台机器上的文件，于是就产生了分布式文件管理系统，英文名成为DFS（Dis

1年前发布

Hadoop学习笔记—1.基本介绍与环境配置

一、Hadoop的发展历史说到Hadoop的起源，不得不说到一个传奇的IT公司—全球IT技术的引领者Google。Google（自称）为云计算概念的提出者，在自身多年的搜索引擎业务中构建了突破性的GFS（Google File System），从此文件系统进入分布式时代。除此之外，Google在GFS上如何快速

1年前发布

Hadoop学习笔记

共 14 篇

最新动态