海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • spark 如何计算自己占用内存的大小?

    统计方法,根据自己内部的数据结构统计内存的使用和分配 动态调整参数

  • 如何用 scala 实现 dataframe 添加自增序号列,并且将序号列放在第一列?

    把报错的信息贴一下把

  • spark-sql -f aa.sql 执行 sql 文件为什么文件开头报错就直接退出来了,不能全部执行?

    文件里面咋写的?

  • sparksqlselect.join.group 是会对应生成什么样的 rdd.再划分 stage 的?

    能更详细点描述吗 比如举个例子

  • Spark DataFrame 筛选数据问题?

    建议你看下python的正则表达式,
    比如
    In [1]: import re

    In [2]: str1='java=1000,python=9090'

    In [3]: info=re.findall(r'\d+',str1)#找到所有匹配的字符串,并把它们放到一个列表中

    In [4]: info
    Out[4]: ['1000', '9090']

  • spark 数据倾斜疑惑:shuffle.partitions 与 不同 key 个数 之间关系?

    partitions是按key进行partition的,一般不会把相同的key放到多个partition中 除非你自己定义了partition的策略,如果partition数量过大,其实是不会在那么多的partition上运行的,所以一般情况是针对key的量级比较大的情况 自定义partition策略

  • SparkSql 读取 JSON 格式的数据,做两张表左外连接?

    sql没问题。其中一个表没有数据是业务上允许没有数据吗?如果必须有数据那就得加另外的规则判断了

  • 信息被删除或无权限查看
  • spring boot 集成阿里云的 kafka 消息服务,无法读取 jks 文件?

    部署到哪里?部署的地方没有jks证书文件吗 还是jar包中没有把文件打到包里面

  • kafka 如何删除 topic?

    还需要 生产者和消费者彻底停掉并在zk中删除对应的文件结构

  • 信息被删除或无权限查看
  • 如何缓解 Kafka 集群在有大量 topic 时性能快速劣化的问题?
    1. 消费组组员,最多增加到和partition数量一致,超过的组员只会占用资源,而不起作用。
    2. kafka的partition的个数一定要大于消费组组员的个数,并且partition的个数对于消费组组员取模一定要为0,不然有些消费者会占用资源却不起作用。
      3.如果需要增加消费组的组员个数,那么也需要根据上面的算法,调整partition的个数。
      4、换更快的磁盘 ssd
  • kafka topic 数据如何写入 hdfs?

    写一个消费者落地kafka消息 然后批量导入到hdfs中

  • kafka 发布消息如何达到不重不漏?

    要看生产者是什么把 如果是数据库那天然就没有问题

  • kafka 0.9 之后的版本如何获取 offset 用于计算出 lag 呢?

    kafka_2.12和kafka-clients中有啊

  • «
  • 1
  • 2
  • ...
  • 88
  • 89
  • 90
  • 91
  • 92
  • 93
  • 94
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2