- 第一个问题:pipeline指定在第一个datanode上,因为当数据写入过程中,Pipeline负责将数据流传输到各个DataNode。每个DataNode都有一个ACK Queue,用于存储其他DataNode对于收到数据的确认(ACK)信息。在Pipeline的第一个DataNode上维护ACK Queue是为了能够追踪数据流在Pipeline中的状态。也就是说其它DataNode的数据写入是由第一个DataNode跟踪的,如果在客户端上那在有一个写入请求的时候还好,如果是大量并发的时候客户端就容易形成瓶颈了,就会影像写入效率,大数据组件都是分布式的,所以架构设计上都尽量考虑单点问题,那自然不可能是在客户端上。
- 第二个问题:数据可能会重发,但是这么做保存数据不丢失,不用担心数据重复问题,因为HDFS客户端和DataNode之间会使用序列号等机制来确保数据的有序传输,并且已经确认过的数据不会重复发送。
国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
最近话题
- [公开课直播预告] kafka 新特性和动态扩容(11月30日)
- [公开课直播预告] Flume 多节点海量数据采集解决方案(11月23日)
- [公开课直播预告] Hive 高可用架构如何设计?(11月15日)
- [公开课直播预告] MySQL 数据同步与高可用架构设计(11月9日)
- [公开课直播预告] 亿级 HBase 数据迁移解决方案(11月4日)
- [公开课直播预告] 多 Hadoop 集群间如何做数据迁移(11月1日)
- [公开课直播预告] 太神了,有了《海汼部落云平台》玩转数仓如此简单(10月27日)
- [下载]【海牛大数据】Zookeeper 教程
- [教程]【海牛大数据】Zookeeper 教程(原理、搭建、API 开发全套讲解)
- [下载]【海牛大数据】StructuredStreaming 教程
- [教程]【海牛大数据】StructuredStreaming 教程(一套课程全面了解 spark 流式计算的新篇章)[云平台课程]
- [下载]【海牛大数据】Spark 教程
- [教程]【海牛大数据】Spark 教程(Spark3.x 原理深入与实战调优,全方位讲解)[云平台课程]
- [下载]【海牛大数据】海汼部落云平台 public 共享盘软件分享
- [下载]【海牛大数据】CDH 教程
- [下载]【海牛大数据】Flink 教程
- [下载]【海牛大数据】Flume 教程
- [下载]【海牛大数据】HBase 教程
- [下载]【海牛大数据】Hive 教程
- [下载]【海牛大数据】Kafka 教程
最新评论
- datanode 挂了?
- [下载]【海牛大数据】大数据面试宝典
- 镜像文件如何与我本地 IP 互通?
- 安装包?
- 大数据现在用 python 学好一点,还是用 Java 学?
- 大数据现在用 python 学好一点,还是用 Java 学?
- 大数据现在用 python 学好一点,还是用 Java 学?
- 大数据现在用 python 学好一点,还是用 Java 学?
- 在实际工作中多少数据量需要用到大数据平台?
- 集群?
- [下载]【海牛大数据】海汼部落云平台 public 共享盘软件分享
- Hive 处理复杂逻辑时,SQL 里边需要创建临时表, 分段书写吗?还是有其他的方式处理逻辑。
- 平台资源是该了吗?
- [公告] 海牛部落新人必看帖
- 可以使用 XShell 连接云平台吗?
-
信息被删除或无权限查看
- [下载]【海牛大数据】Hadoop3 教程
- [下载]【海牛大数据】CDH 教程
- 学习?
-
信息被删除或无权限查看