海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • sqoop 连接数据库密码方式?

    使用配置可能比较好一点,密码在命令行里放到脚本里可能安全性差一些,如果放到程序里那修改起来可能会不太方便。

  • HBASE 新增节点上去的话,原先创建的预分区会有啥变化?

    新增了regionserver,master就会把其它regionserver上的region分给他,达到集群中regionserver尽可能平衡的状态,你说的预分区是建表的时候有很多的region,比如这个表是6000个region,现在有3个regionserver,那每个regionserver都可能负责这个表的2000个region(可能多一点可能少一点未必是2000整)。那新加了一个regionserver就变成4台regionserver了,那每台regionserver负责这个表的1500个region

  • HBASE 如何查看一个表有没有做了预分区?

    预分表的每个region的startrow和stoprow都计较有规则的,比如都是4位或5位的,自动分的可能前一个region是10位的下一个region是5位的
    统计多少个rowkey可以用hbase-shell-1.3.1.jar rowcounter这个工具

  • hadoop 在执行 wordcount 时,job 卡住不继续执行?

    这种情况如果不报异常大多都是集群的yarn资源不够,比如am分配不到资源一直Pending,或者am起来了,但在没有资源运作node任务,可以调大Scheduler资源或者map或reducer使用内存去解决

  • 数据清洗之后还需要统计啥的吗?

    这个过程中你要知道脏数据的情况是什么样的,比如每个字段的非法数据是多少,整体处理了多少条数据等等。比如你的日志是客户端上报产生的,那客户端版本更新是有周期的,这个过程是在持续的完成全部用户的新字段覆盖,比如双12淘宝客户端更新这个版本可能就包含新字段,还有做为数据开发人员要知道数据上报是否符合对这个数据字段的原本定义,因为你做为数据开发人员要起到数据的监督作用。比如数据ETL之后相比昨天的突然大幅的增多或者减少,像这种情况一般都是有异常的。

  • 数据清洗之后还需要统计啥的吗?

    你是说数据清洗过程中为什么还要统计吗?

  • wordcount 执行不了,查日志提示 maximum-am-resource-percent is insufficient,应该怎么设置?

    @大中 你的虚拟机的内存太小了,你可以再把mapred-site.xml里的
    yarn.app.mapreduce.am.resource.mb
    yarn.app.mapreduce.am.command-opts
    mapreduce.map.memory.mb
    mapreduce.map.java.opts
    mapreduce.reduce.memory.mb
    mapreduce.reduce.java.opts
    再都设置小一点,别小到让程序跑不起来就行

  • webservice 取值问题
    int totalbytes = request.getContentLength();
    byte[] temp = new byte[totalbytes];
    DataInputStream in = new DataInputStream(request.getInputStream());
    in.readFully(temp); // 根据长度,将消息实体的内容读入字节数组temp中
    in.close(); // 关闭数据流
    String reqcontent = new String(temp); // 从字节数组中得到表示实体的字符串
  • Hadoop 部署集群时节点无法启动问题?

    @足迹 这几个环境变量都要设置的,你的问题就没有找到配置目录

    file

  • java 问题解决

    换成64位的JDK试试

  • spark 读取数据 split 问题?

    你不要用map用flatMap。把aa改成list类型,这样返回的就是rdd[String]类型的,然后你rdd.foreach就是获取每一个值了

  • Hadoop 部署集群时节点无法启动问题?

    @足迹 你环境变量没设置吧

  • wordcount 执行不了,查日志提示 maximum-am-resource-percent is insufficient,应该怎么设置?

    @大中 目前来看你的队列没有可用的资源,换fair-scheduler.xml试试
    给你个参考
    yarn-site.xml
    file
    fair-scheduler.xml
    file

  • wordcount 执行不了,查日志提示 maximum-am-resource-percent is insufficient,应该怎么设置?

    @大中 看一下子队列

    file

  • wordcount 执行不了,查日志提示 maximum-am-resource-percent is insufficient,应该怎么设置?

    @大中 那就看一下scheduler的设置是否生效了,再把map和reducer的内存设置小一点

  • «
  • 1
  • 2
  • ...
  • 131
  • 132
  • 133
  • 134
  • 135
  • 136
  • 137
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2