海汼部落 | 海牛大数据技术社区

2019-03-26 15:12:09

0

1 / 1911

问答 spark 开发词频统计应用，最后数据保存到 Hadoop 下的 data 文件里？
2019-03-26 15:13:29

0

1 / 1721

问答大的文件拆分后，怎样用 Hadoop 进行高效的处理这些小文件？以及怎样让各个节点尽可能的负载均衡？
2019-03-26 15:13:56

0

1 / 2253

问答关系数据修改后如何刷新 Hadoop 平台数据?
2019-03-26 15:18:29

0

1 / 2082

问答 Hadoop 下 reduce 处理量最大是 1G 如果 order by 全局排序的文件超过 1G，系统如何处理？
2019-03-26 15:19:42

0

1 / 1987

问答 hadoop streaming 中 reduce 程序如何将结果保存在一个文件中输出？
2019-03-26 15:21:03

0

1 / 2275

问答 python 怎么设置 cuda 的随机数种子 curand？
2019-03-26 17:31:44

0

3 / 6151

问答 cloudera manager 的 server 提示 cloudera-scm-server dead but pid file exists？请大神解决
2019-03-25 17:10:18

0

1 / 1692

问答 hadoop 环境搭建及开发的 jdk 版本问题？
2019-03-25 17:18:53

0

1 / 1788

问答 Hadoop 默认 map 数是 2，块大小 128M，当文件为 512M 是会有几个 map，有几个 map 并行？
2019-03-24 14:49:58

0

1 / 1915

问答关于 zookeeper 在 hadoop 运用中的一个疑问？
2019-03-21 13:51:05

0

1 / 2108

问答 Notepad++ 中如何对 hadoop 文件进行修改保存？
2019-03-21 18:38:13

0

2 / 3813

问答利用 CDH5.16.1 添加 hue 时提示 hue server 启动不起来？请大神解决
2019-03-19 09:36:11

0

3 / 4069

问答请问一下 mvn clean package 报错怎么解决？
2019-03-18 17:51:44

0

1 / 2091

问答请问如何提升 java GZIPOutputStream 压缩速度？
2019-03-18 17:43:05

0

1 / 1867

问答 vs code Python debug 代码能 debug 到源码吗，如何设置？
2019-03-18 17:41:28

0

1 / 1784

问答为什么 Python 中无法输出 2.00？
2019-03-18 17:40:10

0

1 / 3030

问答 HDFS 全部文件的元数据是存储在 namenode 节点的硬盘还是内存？
2019-03-18 17:39:48

0

1 / 3178

问答 Spark updateStageByKey 产生的大量 checkpoint 小文件在 hdfs 上怎么处理？
2019-03-18 17:33:16

0

1 / 1592

问答怎样用 kmeans 对类似 00101001110011001...这样的一连串序列进行聚类？
2019-03-14 19:51:45

0

1 / 1638

问答 Linux 平台完全分布模式下 Hadoop 实例 wordcount 在 eclipse 编写运行权限问题？
2019-03-14 19:52:31

0

1 / 1857

问答 spark 伪分布式模式的性能怎么样? 能否替换传统数据处理里的某些场景?
2019-03-14 19:53:59

0

1 / 2217

问答 spark 中 mllib 是如何将某些机器算法做到分布式并行计算的？
2019-03-13 15:06:26

0

1 / 2382

问答 Spark 中的 CNN 如何实现分布式计算的？
2019-03-13 15:05:47

0

1 / 1797

问答 spark streaming 任务如何切分，是按照 duration 切分么？
2019-03-13 15:05:27

0

1 / 1699

问答 Spark SQL 如何管理 select 权限，貌似任何用户都可以查询任何一张表？
2019-03-13 15:14:59

0

1 / 1738

问答 Fuzzy C-means 与 Gaussian Mixture Model 聚类的区别?修改
2019-03-12 16:25:49

0

1 / 2920

问答 heidisql 导入 CSV 文件后，为何数据都是 null 呢？
2019-03-12 16:26:19

0

1 / 1878

问答 'module' object has no attribute 'open_client'怎样解决？
2019-03-12 16:28:25

0

1 / 2074

问答为什么 hadoop 的 shuffle 阶段需要对数据进行排序？
2019-03-12 16:33:00

0

1 / 1774

问答 spark 当中,被 cache 的 RDD 的引用是否可以存到 HashMap 里?
2019-03-12 16:33:24

0

1 / 1973

问答请问谁有海牛教学视频里面的 hosts_op 脚本可以分享一下吗？
2019-03-12 17:18:42

0

2 / 1801

问答 spark 读取 hive 的问题？
2019-03-11 08:40:09

0

1 / 4027

问答 flink apply 方法中为什么不能使用 lambda？
2019-03-11 08:41:52

0

1 / 2916

问答为什么只有 root 用户可以 SSH 连接，普通用户不行？
2019-03-08 09:17:55

0

1 / 2471

问答 flink f DataStream 怎样做到每隔 30 秒入一次库？
2019-03-07 17:57:15

0

2 / 1918

问答 HDFS 源码阅读时，文件类的疑问？
2019-03-07 17:57:35

0

1 / 1980

问答为什么 MapReduce 中 context.write () 有时候不执行或者没有数据？
2019-03-07 18:00:18

0

1 / 1881

问答掌握 hadoop 等大数据开发技术，但是不太懂数据挖掘算法，在找大数据工作时受限制大吗？
2019-03-07 18:03:11

0

1 / 1499

问答 spark submit 运行正常，但是 oozie 提交 spark on yarn 会报错怎么办？
2019-03-07 18:04:36

0

1 / 1771

问答 hadoop（hdfs/yarn/mr）2.x 源码应该如何入手比较好？