这个主要还是看业务场景,如果你的离线数据都是关系存储的 肯定是hive更方便 如果你的离线数据比较适合kv存储 那用hbase也没问题
- Spark/Hbase 是否可以做离线批量计算?
- hive 中的表数据是怎么分布到集群中不同机器去存储的?
- 如何在 hive 与 pig 中选择?
- MySQL 中某个字段定义成 JSON 类型,其数据也是 JSON 类型,导入到 hive 表里面 (在 hive 里面定义成 string),出现乱码?
- MapReduce 如何数据切块并进行读取的?
- MySQL 的某个字段类型为 JSON,导入到 hive 中出现中文乱码?
- kafka 同一个消费组里 多个消费者 使用 consumer.assign (topicPartitions);会造成数据重复吗?
- MySQL 数据库中有个字段是 JSON 格式,在 hive 中如何定义该字段?
-
信息被删除或无权限查看
- 能否利用 ogg+kafka+spark 实现数据的准实时更新,源端和目标端都是 oracle?
- spark 处理数据的数据结构是什么?
- 为什么 HIVE 里显示有 3 张表,而 PYSPARK 里只显示一张表咧?
- saprk 关于分区是什么时候进行的问题?
- airflow 定义 task 调度 spark 离线任务(YARN),有没有办法获取 spark 任务的执行状态?
- 请问我这 pycharm 下的 spark 运行老是打印这行警告日志,咋去掉啊,我到 log4j 都改了还没用?