海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • airflow 定义 task 调度 spark 离线任务(YARN),有没有办法获取 spark 任务的执行状态?

    这是两个进程之间的交互,仔细理解一下你会发现spark-submit的时候是把作业提交给了集群,集群没有给提供对外控制作业的接口,所以你只能看着它们自动执行,如果想自己控制 你可以看看基于yarn的自定义开发

  • 请问我这 pycharm 下的 spark 运行老是打印这行警告日志,咋去掉啊,我到 log4j 都改了还没用?

    我记得在论坛中回答过一遍了 咋又发一遍?

  • spark 程序 在 sc.stop 之后的代码在哪里执行的?怎么执行的?

    相当于java的system.exit(0)

  • spark 中 spark.reducer.maxSizeInFlight 多大合适?

    如果作业可用的内存资源较为充足的话,可以适当增加这个参数的大小(比如96m),从而减少拉取数据的次数,也就可以减少网络传输的次数,进而提升性能。但是具体要看你要拉取得数据量多大

  • 如何在 hive 与 pig 中选择?

    企业现在都是hive pig的话自己学学就行了

  • spark collect (),当数据量比较大时,卡死怎么解决?

    spark本来就很吃内存 你单机的机器多少可用内存?有没有计算过这个矩阵乘法的规模?

  • kafka 同一个消费组里 多个消费者 使用 consumer.assign (topicPartitions);会造成数据重复吗?

    不会 kafka保证的了一条消费只能消费一次

  • kafka 消费者怎样每次只消费 30 条?

    自己在消费端写一个计数器就行了

  • 信息被删除或无权限查看
  • spark 在运行过程中 gc 时间太长 怎么处理?

    1、看下数据分布是否均匀 处理慢是一个节点数据太多吗
    2、core设置大不一定运行的快 调小点试试

  • 信息被删除或无权限查看
  • 停止 spark 时原有 worker 没有成功停止,再启动时又新增了 worker,有什么影响吗?

    直接kill掉 再重启就可以了

  • spark 框架构建时这算不算错误,警告级别,不影响正常运行吧?

    警告级别和info级别都不会影响正常运行 警告只是说你的用法可以不太合适 以后要改进

  • storm 怎样均衡的处理 kafka 数据?

    @shishuai19910217 可以 提高效率的方法一般都是增加消费者 但是增加的逻辑和处理数据的逻辑自己控制好就可以了

  • storm 怎么调用 python exe 可执行文件?

    @韦晓阳 r.exec("cmd /c dir > %dest%", new String[]{"dest=c:\dir.txt", new File("d:\test")}) 能看懂这个吗

  • «
  • 1
  • 2
  • ...
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • 92
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2