青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

信息被删除或无权限查看

请问如何设置 kafka 的偏移量，采用 DStream 时没设置偏移量，每次启动从新消费，存在重复消费？

val value: ConsumerStrategy[String,String] = ConsumerStrategies.Subscribe(topicSet,kafkaParams,offset)
val lines: InputDStream[ConsumerRecord[String, String]] = KafkaUtils.createDirectStream(streamingContext,LocationStrategies.PreferConsistent,value)

请问如何设置 kafka 的偏移量，采用 DStream 时没设置偏移量，每次启动从新消费，存在重复消费？

你说的是创建之前设置offset吗？
spark 大量数据读写问题？

@ruiqi 程序猿都是夜猫子
spark 大量数据读写问题？

@ruiqi 你们要是没做过优化的话，绝对不会是1S的。那个页面是没等你看到GC时间变长，regionserver就挂了
spark 大量数据读写问题？

@ruiqi 把regionserver的GC日志dump出来看看GC时间
spark 大量数据读写问题？

你这么设计rowkey会造成数据的倾斜吧？建表的时候做预分region了吗？
目前你这张表只能优化优化regionserver的jvm参数，让垃圾回收速度快点
信息被删除或无权限查看
信息被删除或无权限查看
spark 整合 kafka idea 本地测试报错，spark 版本 1.6.1 ，kafka 版本 kafka_2.10-0.8.2.2。这两个版本是不是不兼容？

你先安装完winutils再试试。
信息被删除或无权限查看
spark 整合 hive，sparkSQL 为什么调不到 hive 中的表？

你本地有hive-site.xml吗？
spark ml ?

我们一般是先用hive分析那些特征比较有代表性，比如某个特征的点击或者转化比较高。然后再确定特征组合
spark 通过 Phoenix 读取 hbase 数据的问题?

你的zookeeper在虚拟机吧？那你能写 localhost的吗？是不是要写虚拟机的地址？
scala 基础 5

嘿嘿