青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

spark yarn 连接 MySQL 总是连接超时?

jdbc连接设置自动重连能解决不？
是不是你的driver先建的连接，后进行的运算，这样中间间隔的时间比较长了才超时的
请问 hbase 的二级索引用 Elasticsearch 时是不是用 es 去映射 hbase 的列字段？

@ling775000 我觉得es只是建了个索引
请问 hbase 的二级索引用 Elasticsearch 时是不是用 es 去映射 hbase 的列字段？

@ling775000 定位rowkey有利于hbase的读取速度。不用rowkey是不是所有hbase的列都要filter一下了？
hive 查询一个 2 亿数据的表，非常慢，有什么办法设置查询？

@ling775000 这个要根据自己的集群情况去定，集群资源不够设置太多反而跑不完。设置成合理运用集群的资源就可以了
spark 读取 hbase 40 亿数据。怎么读取性能更高？

@ruiqi 社区里有一个MR的你自己翻译用spark吧，http://hainiubl.com/topics/126?
spark 读取 hbase 40 亿数据。怎么读取性能更高？

这么大量的数据，建议你用读取hbase底层文件hfile的方式去操作。
hive 查询一个 2 亿数据的表，非常慢，有什么办法设置查询？

对别人没有影响，这个只影响你自己的hive，你重新进hive这个mapred.reduce.tasks设置就失效了。set属于临时的设置，只在当前session中有效。
用set mapred.reduce.tasks;可以看到之前的配置
非常慢的原因可能由于数据倾斜了，你看一下是不是有的reduce跑的非常快，shuffle的数据量很大。这个得需要你自己分析一下数据的情况
请问 hbase 的二级索引用 Elasticsearch 时是不是用 es 去映射 hbase 的列字段？

差不多
spark 程序 yarn 运行报错?

@陌上花开在HDFS创建一个目录，然后使用hadoop fs -put命令上传啊:sweat:
nodemanager 无法访问,怎么办？

@大中 :sweat:
spark 程序 yarn 运行报错?

@陌上花开 yarn模式时要把使用的jar都传到hdfs上并在spark-defaults.conf配置jar包的路径
nodemanager 无法访问,怎么办？

8031是这个yarn.resourcemanager.resource-tracker.address
8033是这个yarn.resourcemanager.admin.address
spark 程序 yarn 运行报错?

@陌上花开
spark 程序 yarn 运行报错?

@陌上花开
spark-env.sh里export SPARK_CLASSPATH=/usr/local/spark/jars/: /usr/local/hbase/lib/
也可以在submit命令中使用--driver-class-path /usr/local/spark/jars/: /usr/local/hbase/lib/
spark 程序 yarn 运行报错?

那就是你没有吧hbase的lib配置到classpath里