博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
机器学习——大数据与MapReduce
阅读量:6968 次
发布时间:2019-06-27

本文共 309 字,大约阅读时间需要 1 分钟。

MapReduce是一个分布式计算框架

优点:可在短时间内完成大量工作

缺点:算法必须经过重写,需要对系统工程有一定的理解

使用数据类型:数值型和标称型数据

 

MapReduce在大量节点组成的集群上运行,它的工作流程是:

  第一步,单个作业被分成很多小份,输入数据也被切片分发到每个节点,各个节点只在本地数据上做运算,对应的运算代码称为mapper,这个过程被称作map阶段。每个mapper的输出通过某种方式组合(一般还会做排序)。排序后的结果再被分成小份分发到各个节点进行下一步处理工作。

  第二步的处理阶段称为reduce阶段,对应的运行代码被称为reducer。reducer的输出就是程序的最终执行结果。

转载地址:http://hpisl.baihongyu.com/

你可能感兴趣的文章
iTerm 使用expect实现自动远程登录,登录跳板机
查看>>
JavaScript 面试:什么是纯函数?
查看>>
linux终端下查Dict.cn/WebsterOnline/Etymonline.com
查看>>
Hadoop(Pig)统计IP地理位置
查看>>
疯狂的 JAVA 后++
查看>>
group of transformations
查看>>
Windows Service 学习笔记
查看>>
2016.11.17随笔
查看>>
MGR架构~单写模式架构的搭建
查看>>
DFS BestCoder Round #49 ($) 1001 Untitled
查看>>
Native App, Hybrid App, Web App对比
查看>>
P1168 中位数
查看>>
B4260 Codechef REBXOR
查看>>
在 S5PV210 的 开发板上 使用 串口 收发信息
查看>>
python学习交流 - 内置函数使用方法和应用举例
查看>>
oracle 恢复数据
查看>>
5常用 Linux 命令的基本使用
查看>>
[K/3Cloud] KSQL 关联表更新字段Update语法
查看>>
百度2011校园招聘笔试题(一)
查看>>
应用程序唯一运行实例C#代码实现(转)
查看>>