请选择 进入手机版 | 继续访问电脑版

好程序员-千锋教育旗下高端IT职业教育品牌

400-811-9990
我的账户
好程序员

专注高端IT职业培训

亲爱的猿猿,欢迎!

已有账号,请

如尚未注册?

[BigData] 好程序员大数据培训技术解析 Hadoop和spark的性能比较

[复制链接]
叶子老师 发表于 2019-6-12 14:27:10 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
  好程序员大数据培训技术解析 Hadoop和spark的性能比较,大数据培训一度受到广大IT爱好者的追捧,成为最热门的培训学科!前景无需多述,高薪就业,职场一片坦途!今天好程序员就为大家讲解下关于大数据的知识要点。问:
Hadoop和spark的性能有何区别
  如果说Hadoop是一家大型包工队,我们可以通过它组织人员进行合作,搬砖建造房屋,弊端在于速度较慢。
  Spark是另一家包工队,成立时间较晚,但是他们搬砖更为灵活,可以实时交互地盖房子,工作效率比Hadoop快得多。
  Hadoop开始升级,指定调度专家YARN调度工人。Spark从多个仓库搬砖(HDFS,Cassandra,S3,HBase),还允许不同专家如YARN/ MESOS对人员和任务进行调度。
  当然,Spark和Hadoop团队进行合作,问题变得更加复杂。作为两个独立的包工队,二者都有着各自的优缺点和特定的业务用例。
  因此,我们说Hadoop和spark的性能区别在于:
  Spark在内存中运行速度比Hadoop快100倍,在磁盘上运行速度快10倍。众所周知,Spark在数量只有十分之一的机器上,对100TB数据进行排序的速度比Hadoop MapReduce快3倍。此外,Spark在机器学习应用中的速度同样更快,例如Naive Bayes和k-means。
  Spark性能之所以比Hadoop更优,原因在于每次运行MapReduce任务时,Spark都不会受到输入输出的限制。事实证明,应用程序的速度要快得多。再有Spark的DAG可以在各个步骤之间进行优化。Hadoop在MapReduce步骤之间没有任何周期性连接,这意味着在该级别不会发生性能调整。但是,如果Spark与其他共享服务在YARN上运行,则性能可能会降低并导致RAM开销内存泄漏。出于这个原因,如果用户有批处理的诉求,Hadoop被认为是更高效的系统。
好程序员大数据培训官网:http://www.goodprogrammer.org/bigdata.shtml

精彩内容,一键分享给更多人!
回复

使用道具 举报

您需要登录后才可以回帖

本版积分规则

关注我们
好程序员
千锋好程序员

北京校区(总部):北京市海淀区宝盛北里西区28号中关村智诚科创大厦

深圳西部硅谷校区:深圳市宝安区宝安大道5010号深圳西部硅谷B座A区605-619

杭州龙驰智慧谷校区:浙江省杭州市下沙经济技术开发区元成路199号龙驰智慧谷B座7层

郑州校区:郑州市二七区航海中路60号海为科技园C区10层、12层

Copyright 2007-2019 北京千锋互联科技有限公司 .All Right

京ICP备12003911号-5 京公安网11010802011455号

请您保持通讯畅通1对1咨询马上开启