青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

Python3 操作 hive，pip 安装 sasl 失败，已经安装 gcc，请问如何能够完成第三方库的安装？

联网环境下# yum install python-pip gcc gcc-c++ python-virtualenv cyrus-sasl-devel
信息被删除或无权限查看
为什么 mapreduce 压缩失效？

SequenceFileOutputFormat.setOutputCompressionType(job, SequenceFile.CompressionType.BLOCK);
试试
执行命令 yum install -y gcc gcc-c++ pcre-devel zlib-devel 出现如下错误？求大佬解决

最终目的是为了装c++吗还是装python的包？
hive 查询经过压缩后有 100GB 的.gz 格式的文件数据，使用 select * from 能够查询出来，为何不能做计算？

@歌唱祖国去具体计算节点上看一下yarn的日志
storm topology 作业的监控和告警，有什么好的方案？

一般的方法是检查上游数据是否有积压，还有是看storm进程在不在
spark Dataset.createTempView 作用是什么？

createTempView是个逻辑概念，你可以理解为一个视图，这个视图可以屏蔽底层具体的sql语句，注册了以后直接操作datas就相当于直接执行sql了
idea 的 log4j 出现很诡异的错误，求解决？

问题描述是找不到这个类，如果classpath下有这个类的包，那很有可能就是包冲突导致的，解决方法就是删除包，你可以把冲突的几个包都删了，然后一个一个加进来看加入哪个包以后错误消失就可以了
CDH Spark 程序调优 spark.yarn.executor.memoryOverhead 该如何配置呢？

1、集群总内存计算(executor个数) * (SPARK_EXECUTOR_MEMORY+ spark.yarn.executor.memoryOverhead)+(SPARK_DRIVER_MEMORY+spark.yarn.driver.memoryOverhead)
所以要综合考虑下，这个要一点一点试，没有比较好的参考 cdh官方的默认值已经是很科学的了但是不同集群的job大小不一样，没法通用，因为可能你把这个job调好了其他job也会报错，所以尽量优化job中的代码，使代码不要出现内存使用过多比较好
2、调整参数在submit时候
--conf spark.yarn.executor.memoryOverhead=2048 这种方法设置不要用环境变量的方法
信息被删除或无权限查看
信息被删除或无权限查看
hive 查询经过压缩后有 100GB 的.gz 格式的文件数据，使用 select * from 能够查询出来，为何不能做计算？

@歌唱祖国进度不走不代表map没运行，去看一下map的Log，看看有没有日志再打印就知道是不是正在运行
hive 查询经过压缩后有 100GB 的.gz 格式的文件数据，使用 select * from 能够查询出来，为何不能做计算？
一般map不动都是数据不均衡导致的，分区表的本质就是不同的文件目录，所以我觉得你直接把原始数据搞到分区表就行了，不用压缩，
CREATE TABLE AAA (
```
nameSTRING，

id STRING
```
)

PARTITIONED BY (month)

ROW FORMAT DELIMITED FIELDS TERMINATED BY'\t';

Insert overwritetable AAA(month=’2016-06’)

Select ...
CDH 如何配置才能使得集群资源利用率达到最高？

1、集群的资源利用率和配置有关更和运行的job的类型和数据量有关
2、理论上一个datanode可以有多个container
3、要看运行的job
4、假如我每次提交1000个job 也需要一个一个配置吗
The import org.apache.hadoop.mapreduce.Job cannot be resolved?

一般这种情况下类不能解析就是加载不出来类的问题第一时间想到包的错误