青牛主题列表_海汼部落 | IT学习->实战为王

是不是权限问题
.ssh目录的权限为700
authorized_keys的权限为600

看一下你的hbase的lib目录下的jline。是否与hadoop的share目录下的jline有冲突
使用

find /usr/local/hbase -name "jline*"
进行查找

如果公司有实体集群就不会在docker上安装hadoop，因为hadoop自带资源管理模块yarn，所以没必要再用虚拟化技术
当然使用docker优点有很多比如：可以快速的搭建一个集群、增加、删除节点、实现资源隔离、快速复制任何想要的服务
缺点对于开发同学来讲使得程序的开发调试变得更困难一些了，因为又多了一层吗，当然运维同学就爽坏了。

Hadoop 50070 端口没有监听？

@足迹在hdfs-site.xml把这个配置上试试dfs.namenode.http-address
我看你datanode有异常，你是不是复制的虚拟机啊？复制的话要修改datanode的uuid
你可以看一下这篇文章，参考一下里面的配置，这个是带HA的http://hainiubl.com/topics/83

CDH 安装 MySQL 在那台机子上？

那台都行，namenode上也可以，随便找一台，不过企业里面是独立的数据库服务器，不会装数据库装在任何一台集群的服务器上，学习的化无所谓。
CDHManager、hive、oozie或azkaban这些会用到mysql。用于存储元数据和配置。
如果是不用CDHManager安装，单独安装hadoop是不需要mysql的

Hadoop 50070 端口没有监听？

贴一下namenode的日志呗

问下二次排序的使用场景有哪些？

比如让你列出最尽年份，1到12的数据

year	month
2017	1
2017	2
2017	3
2016	1
2016	2
2016	3

wordcount 执行不了，查日志提示 maximum-am-resource-percent is insufficient，应该怎么设置？

你每个机器的yarn配置多大啊？

有 sparkSQL 了为啥还要 hive on spark 呢？

sparksql的应用要比hive on spark更灵活一些吧，可以在代码中使用也可以以服务形式使用。hive on spark是计算引擎的升级，毕竟很多不会写程序的想处理大数据还得用hive。那hive on spark会比原来的hive计算速度更快吧，对于开发spark的人来讲无所谓，对于不会开发spark的那就是厉器，为了让只会写SQL的人也能方便使用spark吧。

怎么对 hbase 中的数据进行清洗？

用spark或者mr读hbase底层的hfile文件，生成新的hfile文件，然后再导入到新的hbase表
用hadoop或者spark都可以做
这两篇笔记里有mr的相关内容
http://hainiubl.com/topics/125
http://hainiubl.com/topics/126
这里有spark的hfile操作
http://hainiubl.com/topics/196

spark 处理非结构化数据是怎么处理的？这个非结构化数据是怎么个数据能列举一下吗？

可以先转成结构化数据进行处理，当然也可以直接在非结构化数据上拿取相应的数据，不过比较麻烦，一般都是先ETL成结构化数据，ETL或以用mapreducer、spark或者用hive
非结构化数据一般是原始日志，比如nginx的原始日志

file