博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
《Hadoop MapReduce性能优化》一导读
阅读量:6858 次
发布时间:2019-06-26

本文共 815 字,大约阅读时间需要 2 分钟。

q1

前 言

Hadoop MapReduce性能优化

MapReduce是一个重要的并行处理模型,用于大规模、数据密集型应用,比如数据挖掘和Web索引。Hadoop作为MapReduce的一个开源实现,广泛用于支持对响应时间要求很严苛的集群计算作业。

多数MapReduce程序的开发是以数据分析为目的的,这通常需要花费很长的时间。许多公司正在用Hadoop在更大的数据集上做更高级的数据分析,当然这更加需要运行时间的保障。运行效率,尤其是MapReduce的I/O开销,仍然是需要解决的问题。经验表明,配置不当的Hadoop集群会明显降低MapReduce作业的执行性能,甚至会造成显著的性能降级。

在本书中,我们致力于解决MapReduce优化问题:怎样识别系统的短板,怎样做才能充分利用Hadoop集群资源更好地处理输入数据。本书先介绍MapReduce内部工作原理,并讨论可能影响性能的因素,之后研究Hadoop性能指标(metrics)与性能检测工具,并识别资源短板,如CPU竞争、内存利用率、海量I/O存储以及网络流量。

本书基于实际经验,以循序渐进的方式教读者消除作业瓶颈,并在生产环境下全面优化MapReduce作业。除此之外,读者还将学到如何通过计算得出恰当地处理数据的集群节点数,如何根据硬件资源定义恰当的mapper和reducer任务数,以及如何用压缩技术和combiner优化mapper和reducer任务的性能。

最后,读者将会了解Hadoop集群调优的最佳实践和建议,并认识MapReduce模板类。

目 录

第 1 章 

1.1 
1.2 
1.3 
1.4 
1.5 
第 2 章 
2.1 
2.2 
2.3 
2.4 
2.5 
第 3 章 检测系统瓶颈
第 4 章 识别资源薄弱环节
第 5 章 强化map和reduce任务
第 6 章 优化MapReduce任务
第 7 章 最佳实践与建议

转载地址:http://laiyl.baihongyu.com/

你可能感兴趣的文章
VS2008无法切换到视图设计器
查看>>
mini2440_LCD_x35移植
查看>>
基于单片机的嵌入式SNMP代理器设计与实现
查看>>
复古风格的网站
查看>>
3.Spring Cloud初相识--------Ribbon客户端负载均衡
查看>>
我的友情链接
查看>>
C语言入门篇-09
查看>>
sharepoint 获取特定folder下文件的数量 C#
查看>>
php底层运行机制(一)
查看>>
Java ClassLoader 学习笔记(一)
查看>>
su命令,sudo命令, 限制root远程登录
查看>>
mysql 添加索引 mysql 如何创建索引
查看>>
JavaScript思维导图之<运算符>
查看>>
如何在Linux关机时执行命令
查看>>
[Java] Socket/ServerSocket 控制台简单聊天程序
查看>>
Google Guava 类库简介
查看>>
win2003(32位和64位序列号)
查看>>
LAMP及LNMP测试环境快速构建(yum版)
查看>>
常熟尚湖沙盘模拟公开课
查看>>
DHCP在企业网中的应用
查看>>