海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

449 关注者
2251 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2251)
  • Linux 服务器日志统计有什么比较好的工具或开源软件?

    简单的需求flume 就可以 要是想做的复杂一些 可以考虑Elasticsearch、Logstash、Kibana三件套 企业中一般用后者比较多

  • HDFS+Hive 能干什么?

    HDFS主要是数据存储 你可以理解为硬盘,Hive是计算框架 你们应该学过数据库查询语言把 hive就可以理解为sql

  • 日志采集系统 flume 和 kafka 有什么区别及联系,它们分别在什么时候使用,什么时候又可以结合?

    区别主要是场景不同,他们都可以做日志收集的工作,flume是一个集中式的方法,就是把多个机器的日志收集到一个节点,
    kafka通过消息传递日志,这两个方案在企业中都很常用,一般为了不让日志产生堆积,flume收集完了,用kafka发到指定hdfs是比较好的选择

  • Hadoop,Hive,Kafka,Flume,Hbase,Spark 等 是部署在一个集群上面吗?

    依据数据和计算尽量靠近的考虑
    Hadoop,Hive,Spark 一般在一个集群中 其他的随意

  • Flume 为什么在 HDP 技术栈中被移除,有什么替代的框架吗?

    Flume一般都是收集系统日志用,替代的框架也有 可以自己手写一个服务,或是脚本也行 把多台机器的日志发送到一个集中存储的地方

  • Spark/Tez 这些并行计算框架为何不用有环图做执行计划?

    从你提这个问题看来你还是不明白什么是迭代计算,spark支持迭代计算也就是你说的循环,但是循环操作未必要用有环图来表示和执行

  • Golang 运行时占用的内存非常少,为什么没能在大数据领域里对常常 OOM 的 Java 发起冲击?

    Java的基础广泛,适合不同机器不同环境 大数据背景下用java编写分布式框架OOM其实只能对少数机器产生影响,况且现在机器的内存成本不高 所以内存已经不能限制一个语言的发展了

  • zookeeper 在 kafka 中扮演着什么角色?

    kafka有多台机器的话 可能有一台会挂点 不止kafka 很多分布式存储和计算的系统 都会有节点挂掉,那怎么样知道哪个节点挂了 并找出新的可以胜任已经挂掉的节点的工作的节点呢 这就是zookeeper要解决的问题

  • Redis 和 zookeeper 有什么联系吗?

    没啥联系啊 一个是存储 一个是分布式管理

  • ZooKeeper 可以作为分布式存储系统么?

    能做分布式存储 但是不能存大量数据 因为zk的能做分布式的前提其实是读取数据的时间非常快 如果做存储 读取时间变慢 整个分布式协调就会出错

  • 信息被删除或无权限查看
  • 数据挖掘时,当正负样本不均,代码如何实现改变正负样本权重?

    xgboost gbdt lightGbm都有这个参数 有些模型不需要权重 不是所有的模型都需要的

  • Spark 如何获得当前 alive 节点的个数?

    这个要调用yarn的接口获取,因为一般spark会放在yarn上面调度

  • 为什么 Spark 比 MapReduce 快?

    简单说吧,Spark内存迭代计算就是先不算 把计算路径或是操作数和操作符形成一个图,要计算的时候直接优化这个图,合并和拆分很多操作数,然后尽量使用内存不用io,这样的话会省去很多时间,但是最牛逼的在于spark的算子非常多,mr只有两个算子,spark有很多

  • HDFS 中元数据和数据为什么要分离?

    datanode挂了元数据不就没了吗

  • «
  • 1
  • 2
  • ...
  • 33
  • 34
  • 35
  • 36
  • 37
  • 38
  • 39
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2