青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

Ta 发布的话题

Ta 发表的回复

Ta 关注的用户

Ta 赞过的话题

信息被删除或无权限查看
数据挖掘时，当正负样本不均，代码如何实现改变正负样本权重?

xgboost gbdt lightGbm都有这个参数有些模型不需要权重不是所有的模型都需要的
Spark 如何获得当前 alive 节点的个数？

这个要调用yarn的接口获取，因为一般spark会放在yarn上面调度
为什么 Spark 比 MapReduce 快？

简单说吧，Spark内存迭代计算就是先不算把计算路径或是操作数和操作符形成一个图，要计算的时候直接优化这个图，合并和拆分很多操作数，然后尽量使用内存不用io，这样的话会省去很多时间，但是最牛逼的在于spark的算子非常多，mr只有两个算子，spark有很多
HDFS 中元数据和数据为什么要分离？

datanode挂了元数据不就没了吗
为什么 hadoop 不直接采用 lustre 而要用 hdfs？

可以的没问题，只是当时发明hadoop的人自己写的hdfs 并且很好用而已
为什么 hdfs 不支持随机写？

hdfs 是块存储，也就是每次读取一个块，存储也是一样的，所以你可以理解为可以随机读写文件块，但是对文件不支持随机读写，因为一个文件块中有很多文件
请问 HDFS、TFS、GFS 等分布式文件系统，哪个更适合用来做视频存储？

如果是自己做小项目用可以试试 TFS、GFS，如果实际项目中当然是HDFS 因为还要考虑整个生态，比如支持的组件，是否成熟，是否很强大的技术社区，这些方面TFS、GFS没法和hdfs相比
有没有可能将 Java 源代码编译成 LLVM 能接受的中间形式，以执行 Java 程序？

目前看只能是jvm好像不能支持LLVM的编译，所以应该不能，但是我想说一下编译成LLVM能接受的中间形式有啥意义吗
JAVA 中 finally 之前有 return 语句该如何执行？

return执行的时候会直接清楚函数的栈空间，所以return一定是最后执行的，finally只是强调在try catch中一定执行没有强调在函数中的执行顺序
Java 程序每次运行都需要编译一次吗？

如果源代码没有更改就不需要
yarn 与 hdfs 的关系?

hdfs是数据存储框架，相当于你电脑的磁盘，storm，或者spark是计算框架，相当于电脑上的app，不知道这么比喻你能不能明白
spark 如何和 yarn 结合的？

主要的流程是这样的：
（1） Client端启动应用程序，提交APP到YARN RM
（2）RM收到请求之后，就会在集群中随机选择一个NM，为该应用程序分配第一个Container，然后在这个Container上启动AM，AM则实现了SC等的初始化
（3）AM启动时会向RM注册，并向RM申请资源
（4）AM一旦申请到资源也就是Container之后，会在对应的Container（Container信息里面会包含NM节点信息）启动Executor
（5）AM的SC会分配任务及给Executor进行执行(之前Executor会去向AM中的SC注册），同时Executor会向AM汇报运行的状态和进度，也就是上面绿色的通信
（6）AM向RM注册之后， AM会定时向RM汇报程序的运行状态等信息，也就是上面红色部分的通信。

Driver运行在AM中，也就是SC与Executor的所有通信操作都与Client无关了，在提交完应用程序之后，Client就可以离开了
Yarn 的出现到底给 MapReduce、Spark 等带来了什么？

MapReduce Spark 没有yarn是可以一样跑，然而如果有多人同时用，那谁的任务先执行，该在哪台机器上执行，执行多久，这些你都得手工写代码实现
信息被删除或无权限查看

«
1
2
...
34
35
36
37
38
39
40
...
146
147
»