海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • 为什么 HIVE 里显示有 3 张表,而 PYSPARK 里只显示一张表咧?

    不要用show方法 用print试试

  • SQL 生命力是不是正在衰败?

    不是 因为现在SQL 都集成到工具中了 很多事情是工具帮助我们做了 但是真正关系型的数据库处理还是需要对sql有很深层次的了解,sql必不可少

  • Spark/Hbase 是否可以做离线批量计算?

    这个主要还是看业务场景,如果你的离线数据都是关系存储的 肯定是hive更方便 如果你的离线数据比较适合kv存储 那用hbase也没问题

  • hive 中的表数据是怎么分布到集群中不同机器去存储的?

    hive不负责数据存储 只负责数据计算 存储数据是调用的hdfs来进行的 hdfs底层是按数据块存储的

  • 如何在 hive 与 pig 中选择?

    现在企业中主要用hive 很少用pig 学习的话要两个都学

  • MySQL 中某个字段定义成 JSON 类型,其数据也是 JSON 类型,导入到 hive 表里面 (在 hive 里面定义成 string),出现乱码?

    不要用JSON类型,或者从mysql取出的json先转为string 再导入hive中

  • MapReduce 如何数据切块并进行读取的?

    按行分割 不是按词

  • MySQL 的某个字段类型为 JSON,导入到 hive 中出现中文乱码?

    mysql存的json是字符串吗 如果是的话 导入hive也设置为字符串就可以了

  • kafka 同一个消费组里 多个消费者 使用 consumer.assign (topicPartitions);会造成数据重复吗?

    KafkaConsumer consumer = createConsumer("aa"); 把consumer的名字改成每个线程不一样试试

  • MySQL 数据库中有个字段是 JSON 格式,在 hive 中如何定义该字段?

    直接完全按照mysql的列导入到hive里面不行吗 这个json以后怎么用

  • 信息被删除或无权限查看
  • 能否利用 ogg+kafka+spark 实现数据的准实时更新,源端和目标端都是 oracle?

    spark换成spark streaming就可以了

  • spark 处理数据的数据结构是什么?

    你这个需求可以直接用spark sql

  • 为什么 HIVE 里显示有 3 张表,而 PYSPARK 里只显示一张表咧?

    没显示的表能用pyspark select出来数据吗

  • saprk 关于分区是什么时候进行的问题?

    spark是基于图计算的,也就是说画图的时候不论你怎么写都是在设计,只有在执行阶段才会去真正的运行数据处理,回到你说的问题textFile是逻辑上的分区 不是真正意义的数据分区,但是shuffle以后进行了真正意义的运行了 那时候才是真正的数据分区

  • «
  • 1
  • 2
  • ...
  • 85
  • 86
  • 87
  • 88
  • 89
  • 90
  • 91
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2