青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

kafka 的本地 Producer 如何向远程 Kafka 服务器读入数据？

网能通吗能ping通吗
kafka spring 如何发送的消息，他自己管理 zookeeper 吗？

zk都是自己安装的，或者说自己维护的，只需要把zk的端口配置到模板即可
kafka 消费异常消息后后面的消息都处理不了了吗?

1、comsumer 非正常的rebalancing（重新分配分区）才会导致无法消费，如果不出现rebalancing，消息是不会重复消费或无法消费的。
2、当leader crash的时候，follower还没有同步到任何数据，而且这个follower被选举为新的leader的话，这样消息就会丢失。
3、kafka就是很好的选择啊，很多大公司这种场景都有kafka
python 怎么去获取 Kafka 的 topic？

from kafka import KafkaConsumer

consumer = KafkaConsumer('test',
bootstrap_servers=['172.21.10.136:9092'])

for message in consumer:
print ("%s:%d:%d: key=%s value=%s" % (message.topic, message.partition,
message.offset, message.key,
Kafka-spark-kafka-spark 架构有什么优势吗，为何两次使用 kafka？

那篇文章？什么场景？解决什么问题？
信息被删除或无权限查看
信息被删除或无权限查看
如何解决 Spark 大规模数据运行情况下，速度越来越慢的情况？

1、可能有任务之间的依赖 2、spark的内存最好自己代码释放 3、找到运行缓慢的代码
spark 如何实现一个快速的 RDD 中所有的元素相互计算？

不慢啊根据数据划分不同的partition并行啊
Spark 是一种内存计算引擎，为什么他还要依赖 HDFS 这种文件系统呢？

Spark是一种内存计算引擎这句话的意思是我不管数据从哪里来我只管计算那问题来了数据从哪里来到哪里去呢？
SparkStreaming 消费 kafka 数据，怎样解决大量初始化数据的问题？

没啥关系吧你的初始化不就是一次吗难道天天要初始化吗只要你的消费速度足够快就可以了
python 怎么设置 cuda 的随机数种子 curand？

设置一个seed就可以了
hadoop streaming 中 reduce 程序如何将结果保存在一个文件中输出？

把reduce的数目设置为1
Hadoop 下 reduce 处理量最大是 1G 如果 order by 全局排序的文件超过 1G，系统如何处理？

reduce默认大小是1g但是可以根据集群资源调节超过1g了磁盘排序也没有问题
关系数据修改后如何刷新 Hadoop 平台数据?

再抽一遍