海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

447 关注者
2249 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2249)
  • idea 的 log4j 出现很诡异的错误,求解决?

    问题描述是找不到这个类,如果classpath下有这个类的包,那很有可能就是包冲突导致的,解决方法就是删除包,你可以把冲突的几个包都删了,然后一个一个加进来看加入哪个包以后错误消失就可以了

  • CDH Spark 程序调优 spark.yarn.executor.memoryOverhead 该如何配置呢?

    1、集群总内存计算(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)
    所以要综合考虑下,这个要一点一点试,没有比较好的参考 cdh官方的默认值已经是很科学的了 但是不同集群的job大小不一样,没法通用,因为可能你把这个job调好了 其他job也会报错,所以尽量优化job中的代码,使代码不要出现内存使用过多比较好
    2、调整参数在submit时候
    --conf spark.yarn.executor.memoryOverhead=2048 这种方法设置 不要用环境变量的方法

  • 信息被删除或无权限查看
  • 信息被删除或无权限查看
  • hive 查询经过压缩后有 100GB 的.gz 格式的文件数据,使用 select * from 能够查询出来,为何不能做计算?

    @歌唱祖国 进度不走不代表map没运行,去看一下map的Log,看看有没有日志再打印就知道是不是正在运行

  • hive 查询经过压缩后有 100GB 的.gz 格式的文件数据,使用 select * from 能够查询出来,为何不能做计算?

    一般map不动都是数据不均衡导致的,分区表的本质就是不同的文件目录,所以我觉得你直接把原始数据搞到分区表就行了,不用压缩,
    CREATE TABLE AAA (

    nameSTRING,
    
    id STRING

    )

    PARTITIONED BY (month)

    ROW FORMAT DELIMITED FIELDS TERMINATED BY'\t';

    Insert overwritetable AAA(month=’2016-06’)

    Select ...

  • CDH 如何配置才能使得集群资源利用率达到最高?

    1、集群的资源利用率和配置有关更和运行的job的类型和数据量有关
    2、理论上一个datanode可以有多个container
    3、要看运行的job
    4、假如我每次提交1000个job 也需要一个一个配置吗

  • The import org.apache.hadoop.mapreduce.Job cannot be resolved?

    一般这种情况下类不能解析 就是加载不出来类的问题 第一时间想到包的错误

  • 急求 spark 视频教程?

    可加微信:18613807937 索要

  • 批量操作服务器中缺失资源:hadoop_op1.zip?

    视频配套笔记、源码、使用软件:可加微信:18613807937 索要

  • hbase 分布式集群 所有的请求都集中在一个 regionserver 节点上是怎么回事?

    balance_swith
    参数怎么设置的?

  • hbase 分布式集群 所有的请求都集中在一个 regionserver 节点上是怎么回事?

    本身集群的数据分布就不均匀哦

  • MapReduce 应该优化哪些配置?

    可以看一下http://hadooptutorial.info/hadoop-performance-tuning/ 这篇文章写得比较好

  • hadoop2.x 中的 mapreduce.map.memory.mb 和 mapred.child.java.opts 应该设置多大才合适?应遵循什么设置规则?

    AM参数mapreduce.map.memory.m表示AM要为map Container申请内存大小 这个值一般根据mr任务来定 设置过大 那集群能跑的mr总数会少,设置过小,会限制任务的执行,默认1G
    mapred.child.java.opts一般设置为单台机器的总内存/并发数量(=核数)

  • 大数据开发(spark,scala)能做什么?Scala 在大数据处理方面有何优势?

    处理TB级的数据很有优势

  • «
  • 1
  • 2
  • ...
  • 105
  • 106
  • 107
  • 108
  • 109
  • 110
  • 111
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2