Hadoop虚拟化的功能比照和调优经历51CTO博客 - 娱乐之横扫全球

Hadoop虚拟化的功能比照和调优经历51CTO博客

2019-01-03 15:30:21 | 作者: 智阳 | 标签: 虚拟化,比照,经历 | 浏览: 560

虚拟化为Hadoop注入了史无前例的生机,从IT出产办理的视点,体现为以下几点:

·Hadoop和其他耗费不同类型资源的运用一同布置同享数据中心能够进步整体资源利用率;

·灵敏的虚拟机操作使得用户能够动态的依据数据中心资源创立、扩展自己的Hadoop集群,也能够缩小当时集群、开释资源支撑其他运用假如需求;

·经过与虚拟化架构供给的HA、FT集成,防止了传统Hadoop集群中的单点失利,再加之Hadoop自身的数据可靠性,为企业大数据运用供给了可靠保证。

依据这些原因,vSphere Big Data Extensions(BDE)为用户在虚拟化环境中灵敏的布置和办理Hadoop集群供给了有用的支撑。除却这些优势,虚拟化是否会损伤Hadoop运转的功用呢?为此,咱们在平等规划上做了虚拟化布置和物理布置的Hadoop集群的功用比照和优化,试验标明虚拟化Hadoop集群能够很好地支撑出产环境。

虚拟化环境和物理环境的功用比照

图1显现了功用调优试验的布置款式,一台物理效劳器上只布置一台虚拟机,Tasktracker和Datanode一同跑在同一个节点中。由于每个虚拟节点能够运用悉数的效劳器资源,便利进行虚拟化和传统物理环境布置的Hadoop做功用比照和剖析。试验结果在图2中显现,虚拟化Hadoop相关于物理环境的功用比照几乎是相等的。


图1:功用比照布置

图2:Apache Hadoop 1.2物理布置和虚拟化布置的功用比照


图3显现了更引荐出产环境运用的布置拓扑,一台物理效劳器上布置多台虚拟节点。如图2所示,这种布置将增加资源利用率然后得到更高的功用。

图3:多虚拟机的布置


一同,咱们把这些试验经历内嵌到vSphere BDE布置的Hadoop集群体系装备傍边,屏蔽了功用优化的复杂性。尽管不同的数据中心设置和集群装备或许带来不同的体现,这儿依照创立、装备、扩展Hadoop集群的次序跟我们共享一些通用的经历:


Hadoop虚拟化的调优经历:


(1)方案初始规划:集群体现于跟数据中心根底设施和装备密切相关,主张用户在一开始对环境体现难以预测的时分,先树立小规划集群,比方5台或许6台效劳器,布置Hadoop,然后运转规范Hadoop基准了解自己数据中心的特色。然后依据需求逐渐增加效劳器和存储等资源。


(2)挑选效劳器:CPU主张不要少于2 * Quad-core而且激活HT(Hyper-Threading);为每个核算内核装备至少4G内存,而且预留6%的内存为虚拟化的有用运转。Hadoop功用对I/O很灵敏,主张每台效劳器装备多块本地存储而不主张装备少块大容量的硬盘。考虑使命调度的价值,关于每个核算内核不主张装备超越2块本地存储。为高功用考虑,引荐运用10G网卡。考虑为主节点效劳器(运转namenode、Jobtracker)装备双电源以进步可靠性。


(3)虚拟化装备:本地存储尽量防止装备成RAID,为每一个物理盘创立一个datastore虚拟化网络装备时为了可靠性和网络传输功率,阻隔办理网络和Hadoop集群网络。如图4所示:

图4:虚拟化网络装备


(4)体系设置:BDE将会主动装备依据试验经历获得的虚拟磁盘和操作体系参数,向用户屏蔽功用优化的详细细节。主张对功用灵敏的用户替换默许模板选用CentOS6*,由于Linux 6.* 内核的THP(TransparentHuge Page)和EPT(Extended PageTables,Intel处理器)能够一同协助虚拟化功用。


(5)Hadoop装备: BDE将会主动发生并装备hadoop装备文件(首要在map-site.xml,core-site.xml,和 hdfs-site.xml内),包含块巨细(blocksize),会话办理和日志功用。但是有一些相关于MapReduce使命的参数,包含mapred.reduce.parallel.copies,io.sort.mb,io.sort.factor,io.sort.record.percent,和tasktracker.http.thread,需求依据不同负载详细设置。


(5)扩展主张:假如用户调查集群中CPU的利用率常常超越80%,主张参加新的节点。别的单个存贮节点的容量不主张超越24TB,不然一旦节点失利,数据备份复制简单形成数据拥塞。扩展能够依照小规划集群上运转功用基准经历和资源运用情况进行。



如有任何问题,您能够发邮件至bigdata_apac@vmware.com。



关于vSphere Big Data Extensions:

VMware vSphere Big Data Extensions(简称BDE)依据vSphere渠道支撑大数据和Hadoop作业。BDE以开源Serengeti项目为根底,为企业级用户供给一系列整合的办理工具,经过在vSphere上虚拟化Hadoop,协助用户在根底设施上完成灵敏、弹性、安全和方便的大数据布置、运转和办理作业。了解更多关于VMware vSphere Big Data Extensions的信息,请拜见http://www.vmware.com/hadoop。


作者简介

李欣慧

VMware软件高级工程师

现担任VMware大数据部分高级工程师,致力于大数据在云核算中心上的效劳化和高效化,作业在分布式体系功用优化范畴。李欣慧结业于中科院核算所,后参加IBM试验室-分布式核算部,首要作业在云核算和并行数据处理范畴,为大规划数据中心供给最优监控和运维工业解决方案。有9项专利在美国和我国注册,在世界闻名会议、学术期刊上宣布论文5篇。


版权声明
本文来源于网络,版权归原作者所有,其内容与观点不代表娱乐之横扫全球立场。转载文章仅为传播更有价值的信息,如采编人员采编有误或者版权原因,请与我们联系,我们核实后立即修改或删除。

猜您喜欢的文章