海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

447 关注者
2249 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2249)
  • hive 存储过程 hpl??

    首先安装hpsql,然后配置hplsql-site.xml,再启动hiveserver2,使用hplsql进行相关的查询。hplsql-site.xml里配置的是到hiveserver2的连接

  • 请问 impala 计算方式不走 mr、rdd ,那他怎么个分布式并行计算的呢?

    impala-server是impala的核心进程,数据的计算就靠这个进程来执行,是分布式的存在于集群中的worker进程。所以是靠impala-server来并行计算的

  • CDH 的安装问题 agent 总是不显示?

    看样子是主机连接失败了

  • 数据库权限问题打开表就显示这个?

    把你这个hive的所有权限设置成对所有访问源有效,设置成'%'

  • MapReduce python 编程,你是用什么方法来统计特定单词出现次数的呢?

    使用MapReduce的streaming来调用python脚本处理每一行数据,比如单词的切割,python脚本将处理的结果通过streaming返回给java程序。然后在reducer聚合再调用你的python脚本实现每个词的累加。

  • 怎么用 java 获取 hive 的元数据?

    用jdbc读mysql里的hive元库就可以了

  • 数据批量分析提取,求指点迷津?

    @q2488433945 比如可以获得,企业投资人的信息,企业的经营分类,归纳出那些投资机构对那种经营范围感兴趣,然后提供给创业者做寻找投资机构的意见。

  • 请问时间复杂度这个怎么去通俗易懂的去理解呢?

    @大中 使用资源,比如内存、硬盘。

  • 能不能讲一下数据倾斜问题?

    mr自定义partitioner均衡key分布,或使用distributecache来mapjoin
    hive在group和join的时候容易倾斜,随即key前缀或局部聚合再次聚合
    hbase分析rowkey分布,再预分region

  • zookeeper 的 cdh 资源问题?

    去maven官方资源库上找找,这不叫集成吧,比如你安cdh的hadoop,还得再安cdh的hbase,cdh只是给你修正了一些社区版的bug和解决版本兼容的问题。你要是想要集成安装这些东西可以使用CM来傻瓜式安装。

  • 超大数据量(上 T 级纯数据千亿以上条)使用 Solr 引擎是否可行?

    solr可以分布式所以这个数据量是没有问题的,但是高并发情况下速度可能会比较慢。

  • 数据批量分析提取,求指点迷津?

    你们是不是要做企查查或者天眼查那些东西?这种数据可以给金融服务做企业授信时使用。

  • 信息被删除或无权限查看
  • 信息被删除或无权限查看
  • spark SQL 如何修改 dataframe 里面的值?

    toRDD之后用map算子就可以啊

  • «
  • 1
  • 2
  • ...
  • 114
  • 115
  • 116
  • 117
  • 118
  • 119
  • 120
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2