本地的处理的话 spark不是最合适的把 分布式处理数据的起点其实是TB级 少量的话体现不出来优势
- 如果没有 cluster,只在本地安装使用 spark,想要处理大数据集(20G+)会对效率有帮助吗?
- 如果没有 cluster,只在本地安装使用 spark,想要处理大数据集(20G+)会对效率有帮助吗?
- 为什么 pyspark 做 np.array 的迭代计算每个 task 运行速度与分配的 core 成反比?
- 目前 Hadoop 的前景怎么样?
- 请问一下,Hadoop 是从哪个版本开始对 S3 对象存储支持的?
- Python 里怎么样做双重 for 循环比较快呢?
- FLINK 中 AggregateFunction 里面的四个方法中的 merge 方法是做什么用的?
- 正则表达式中能否进行大小判断 ?
- 大数据工程师日常都做什么工作呢?
- 你们的 spark 任务一般跑多久?
- kafka connect 做 ETL,会造成数据丢失或重复吗?如果是的话,该怎么解决?
- java 里面,'\24'表示什么意思?求大佬解答?
- 用 zookpeer 的时候出现了这种情况怎么解决?
- 从 BI 数据仓库转做大数据中数据仓库需要学那些东西?还需要写 java 吗?
- JVM 中的这些宏怎么理解?