海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

447 关注者
2249 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2249)
  • python 爬虫,使用 scrappy-Redis 框架中 RedisCrawlSpider 怎么登陆?

    登录前需要用户名和密码

  • python pivot_table 后,如何计算某一列长度?

    先创建df 用df.pivot的api构造pivot_table 这样既可以用df的方法也可以用pivot_table的方法 同时和操作普通df没区别

  • spark.shuffle.file.buffer 属于 spark 内存里面的哪一部分?

    @东兴 file.buffer 这个已经到了数据落地的时候了 不用占那么多内存 io一般都是缓冲区策略

  • phoenix 怎么做时间加减?类似于 MySQL 里面的 interval 1 day

    先把时间变成整数 用整数加减法 然后再转回时间格式 时间加减没有对应的函数 当然也可以自己写一个

  • Phoenix 加盐表,sqoop 导入数据到 HBase 该表,数据是否可以自动加盐?

    自己手动处理

  • 信息被删除或无权限查看
  • 信息被删除或无权限查看
  • 信息被删除或无权限查看
  • 信息被删除或无权限查看
  • spark 的广播变量 brodcast 传递多大的数据是合适的?

    只要不报错都没有啥问题吧

  • 如何提高 spark 的数据分析能力?

    统计学是数据分析的基础,建议多看一下统计学基础,spark只是一个很普通的工具而已,数据分析积累的是经验和思路,基于R、python的很多数据分析的工具都比spark好用,所以不要纠结于spark,python和r在数据分析领域才是王者

  • 请问 pySpark 中怎么序列化一个对象集合为 RDD?

    python可以用pickle

  • Spark SQL 到底怎么搭建起来?

    用cdh的spark搭建

  • Eclipse Console,Linux 控制台和 Windows cmd 的输出原理有什么区别?描述详见说明

    stackoverflow,spark社区应该也没几个人处理Windows相关的问题吧 建议以linux为准

  • Spark 查询时间分析,scan 扫描 vs join 哪个更耗时,差距几个数量级?

    这个你可以自己拿两个表测一下 具体情况具体分析

  • «
  • 1
  • 2
  • ...
  • 97
  • 98
  • 99
  • 100
  • 101
  • 102
  • 103
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2