海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • spark on yarn 的好处 优势有哪些?

    就是在集群中数据所在的机器执行你的任务,这样就不用耗费网络资源了

  • spark on yarn 的好处 优势有哪些?

    可以利用现成的hadoop集群,不用再单独搭建一套spark集群,已提高集群的利用率另外hadoop集群都有现成的hdfs,相比单独搭建spark集群去读hadoop的hdfs,能更好的实现任务本地化,spark功能很多唯独没提供像hdfs的分布式存储。

  • HaDoop 硬件配置?

    生产环境建议5台以上,要搭建HA,服务器数据盘不需要做raid,系统盘可以做,硬盘越多做好,内存和cpu也是,服务器之间要用千M以上的网络连接

  • 信息被删除或无权限查看
  • 为甚么安装环境中就一个呢

    是的,@天空的思念 说的没错,最少上安装版适用于服务器,你自己需要什么软件再安装
    @夏茂华 你可以看一下 http://hainiubl.com/topics/79 这个教程

  • hadoop 搭建环境

    是因为你的slave有master的公钥,而master上没有slave的公钥。一般master不需要配置slave的公钥,因为slave节点有很多,所以这个要配置很多,hadoop集群只需要让master控制slave就可以了

  • hadoop 为什么说 block 块多个副本便于计算呢

    @天空的思念 自己的答的还可以,有个策略是即使不能本地执行,比如有数据那台机器资源不够了,也会在临近的节点启动任务,这样可以尽可能的减少传输延迟,这个叫机架感知策略。

  • 信息被删除或无权限查看
  • [公告] 社区表情包已到达

    :+1:

  • sparkcore 将文本数据转化为表的映射关系

    @yan 这个代码应该是你要的意思吧?

        val numbers = List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
        val parallelize: RDD[Int] = sc.parallelize(numbers, 1)
        import scala.collection.mutable.HashMap
        val tableRdd: RDD[(String, HashMap[String, AnyVal])] = parallelize.map(f => {
          val map = new HashMap[String, AnyVal]()
          ("表名", map += "列名"-> f)
        })
        val tuples: Array[(String, mutable.HashMap[String, AnyVal])] = tableRdd.collect()
        for (a:(String, mutable.HashMap[String, AnyVal]) <- tuples){
          println("表名:" + a._1 + " 数据:" + a._2)
        }

    结果
    file

  • sparkcore 将文本数据转化为表的映射关系

    你map之后返回元组 (表名,Map<列名,值>) 就会变成RDD[表名,Map[列名,值]],返回什么自己定不是非得Array

  • sparkcore 将文本数据转化为表的映射关系

    那你用map转成pairRDD key为你定义的表名,做切分转成map结构当value不就行了

  • sparkcore 将文本数据转化为表的映射关系

    你那数据是一个表的,还是多个表的?数据里有表名吗?

  • 单独的 spark.tar 和 spark-2.1.2-bin-hadoop2.7.tar 有什么区别吗?

    spark-2.1.2-bin-hadoop2.7.tar是基于hadoop2.7编译的2.1.2版本的spark,这个版本可以使用hadoop的yarn
    spark.tar这个你可以打开看看如果里面有源码那就是未编译的版本,一般会比较小。如果里面没有源码那就是最新版的spark独立安装版

  • 为甚么安装环境中就一个呢

    你下得系统镜像就是最小安装版的吧

  • «
  • 1
  • 2
  • ...
  • 136
  • 137
  • 138
  • 139
  • 140
  • 141
  • 142
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2