青牛主题列表_海汼部落 | IT学习->实战为王

优化 hive sql？

join时小表使用map端join，当然现在新版的hive都是自动开启的
多使用子查询
分区表必须指定分区
数据格式使用ORC格式
查询小文件时使每个map读多个文件，避免产生过多的map
可以使用桶表做查询文件的限制
可以给无修改数据的hive表创建所引
使用窗口函数进可适用增加map或reducer的内存
mapper输出必须开启压缩
shuffle数据倾斜时使用随机key前缀均衡倾斜的key，当然对于数据倾斜最好的方案还是让被查询的表不倾斜。

暂时想到这么多，当然以上都是针对mapreducer计算引擎的。
hive on spark最主要是GC调优，shuffle的优化等等

请问在 hue 上用 hive 查询数据后导出 CSV 乱码怎么解决？

先去服务器上执行hive的命令看看导出的文件是不是乱码，hive默认导出的文件都是UTF-8的。

python 有哪些技术点？

你这个特点适用快速上手的，而且有其它语言基础python很好学
先搭建出开发环境，掌握python的软件包的安装方法，快速了解基础语法，跟你现有掌握的语言对照着学习，比如JAVA
给你个两天学习python的教程
http://hainiubl.com/topics/199

eclipse 运行 hadoop 项目出现。ERROR: Please make sure Oracle NoSQL Database is up and running at 'localhost:5000' with store name as: 'kvstore'?

正常会找项目下的hbase-site.xml文件，如果你的build-path里没有则会找jar包里的，想让程序启动以后找到你的配置那就往eclipse的项目目录下放一个hbase-site.xml文件，以后发问题可以贴图这样会清楚一些，看一下这个文章怎么配置hbase
http://hainiubl.com/topics/123

spark on yarn 的好处优势有哪些？

就是在集群中数据所在的机器执行你的任务，这样就不用耗费网络资源了

spark on yarn 的好处优势有哪些？

可以利用现成的hadoop集群，不用再单独搭建一套spark集群，已提高集群的利用率另外hadoop集群都有现成的hdfs，相比单独搭建spark集群去读hadoop的hdfs，能更好的实现任务本地化，spark功能很多唯独没提供像hdfs的分布式存储。

HaDoop 硬件配置？

生产环境建议5台以上，要搭建HA，服务器数据盘不需要做raid，系统盘可以做，硬盘越多做好，内存和cpu也是，服务器之间要用千M以上的网络连接

信息被删除或无权限查看

为甚么安装环境中就一个呢

是的，@天空的思念说的没错，最少上安装版适用于服务器，你自己需要什么软件再安装
@夏茂华你可以看一下 http://hainiubl.com/topics/79 这个教程

hadoop 搭建环境

是因为你的slave有master的公钥，而master上没有slave的公钥。一般master不需要配置slave的公钥，因为slave节点有很多，所以这个要配置很多，hadoop集群只需要让master控制slave就可以了

hadoop 为什么说 block 块多个副本便于计算呢

@天空的思念自己的答的还可以，有个策略是即使不能本地执行，比如有数据那台机器资源不够了，也会在临近的节点启动任务，这样可以尽可能的减少传输延迟，这个叫机架感知策略。

信息被删除或无权限查看

[公告] 社区表情包已到达

:+1:

sparkcore 将文本数据转化为表的映射关系

@yan 这个代码应该是你要的意思吧？

    val numbers = List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
    val parallelize: RDD[Int] = sc.parallelize(numbers, 1)
    import scala.collection.mutable.HashMap
    val tableRdd: RDD[(String, HashMap[String, AnyVal])] = parallelize.map(f => {
      val map = new HashMap[String, AnyVal]()
      ("表名", map += "列名"-> f)
    })
    val tuples: Array[(String, mutable.HashMap[String, AnyVal])] = tableRdd.collect()
    for (a:(String, mutable.HashMap[String, AnyVal]) <- tuples){
      println("表名:" + a._1 + " 数据:" + a._2)
    }

结果
file

sparkcore 将文本数据转化为表的映射关系

你map之后返回元组 (表名，Map<列名，值>) 就会变成RDD[表名,Map[列名，值]]，返回什么自己定不是非得Array