青牛

第 12 位会员
注册于 2016-12-24 21:53:20
活跃于 2024-04-02 22:38:12


  • Redis 和 zookeeper 有什么联系吗? at 2019-12-27 09:12:07

    没啥联系啊 一个是存储 一个是分布式管理

  • ZooKeeper 可以作为分布式存储系统么? at 2019-12-27 09:11:42

    能做分布式存储 但是不能存大量数据 因为zk的能做分布式的前提其实是读取数据的时间非常快 如果做存储 读取时间变慢 整个分布式协调就会出错

  • 信息被删除或无权限查看
  • 数据挖掘时,当正负样本不均,代码如何实现改变正负样本权重? at 2019-12-25 09:19:10

    xgboost gbdt lightGbm都有这个参数 有些模型不需要权重 不是所有的模型都需要的

  • Spark 如何获得当前 alive 节点的个数? at 2019-12-25 09:16:57

    这个要调用yarn的接口获取,因为一般spark会放在yarn上面调度

  • 为什么 Spark 比 MapReduce 快? at 2019-12-25 09:15:37

    简单说吧,Spark内存迭代计算就是先不算 把计算路径或是操作数和操作符形成一个图,要计算的时候直接优化这个图,合并和拆分很多操作数,然后尽量使用内存不用io,这样的话会省去很多时间,但是最牛逼的在于spark的算子非常多,mr只有两个算子,spark有很多

  • HDFS 中元数据和数据为什么要分离? at 2019-12-24 15:19:20

    datanode挂了元数据不就没了吗

  • 为什么 hadoop 不直接采用 lustre 而要用 hdfs? at 2019-12-24 15:18:54

    可以的 没问题,只是当时发明hadoop的人自己写的hdfs 并且很好用而已

  • 为什么 hdfs 不支持随机写? at 2019-12-24 15:18:02

    hdfs 是块存储,也就是每次读取一个块,存储也是一样的,所以你可以理解为可以随机读写文件块,但是对文件不支持随机读写,因为一个文件块中有很多文件

  • 请问 HDFS、TFS、GFS 等分布式文件系统,哪个更适合用来做视频存储? at 2019-12-24 15:16:35

    如果是自己做小项目用可以试试 TFS、GFS,如果实际项目中当然是HDFS 因为还要考虑整个生态,比如支持的组件,是否成熟,是否很强大的技术社区,这些方面TFS、GFS没法和hdfs相比

  • 有没有可能将 Java 源代码编译成 LLVM 能接受的中间形式,以执行 Java 程序? at 2019-12-23 08:46:31

    目前看只能是jvm好像不能支持LLVM的编译,所以应该不能,但是我想说一下编译成LLVM能接受的中间形式有啥意义吗

  • JAVA 中 finally 之前有 return 语句该如何执行? at 2019-12-23 08:44:20

    return执行的时候会直接清楚函数的栈空间,所以return一定是最后执行的,finally只是强调在try catch中一定执行 没有强调在函数中的执行顺序

  • Java 程序每次运行都需要编译一次吗? at 2019-12-23 08:41:24

    如果源代码没有更改就不需要

  • yarn 与 hdfs 的关系? at 2019-12-21 14:09:04

    hdfs是数据存储框架,相当于你电脑的磁盘,storm,或者spark是计算框架,相当于电脑上的app,不知道这么比喻你能不能明白

  • spark 如何和 yarn 结合的? at 2019-12-21 14:07:45

    file
    主要的流程是这样的:
    (1) Client端启动应用程序,提交APP到YARN RM
    (2)RM收到请求之后, 就会在集群中随机选择一个NM, 为该应用程序分配第一个Container, 然后在这个Container上启动AM,AM则实现了SC等的初始化
    (3)AM启动时会向RM注册,并向RM申请资源
    (4)AM一旦申请到资源也就是Container之后, 会在对应的Container(Container信息里面会包含NM节点信息)启动Executor
    (5)AM的SC会分配任务及给Executor进行执行(之前Executor会去向AM中的SC注册), 同时Executor会向AM汇报运行的状态和进度,也就是上面绿色的通信
    (6)AM向RM注册之后, AM会定时向RM汇报程序的运行状态等信息,也就是上面红色部分的通信。

    Driver运行在AM中,也就是SC与Executor的所有通信操作都与Client无关了, 在提交完应用程序之后,Client就可以离开了