青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

关于音频大数据的存储？

这个目前用的比较少不过如果按二进制文件看得话 hadoop 也没问题
信息被删除或无权限查看
我是一个大学生，想装 Spark，什么型号的电脑可满足要求？

很简单的配置就行现在主流的机器都可以内存2g以上就行
在 spark 中，Seq 有个 toDF 方法？

可以看下源码的构造方法 toDF就是变成表格形式而已把表格加上表头
Mahout 的 ALS 推荐算法输出文件乱码怎么解决？

输出指定是文本文件了吗
为什么 HIVE 里显示有 3 张表，而 PYSPARK 里只显示一张表咧？

不要用show方法用print试试
SQL 生命力是不是正在衰败？

不是因为现在SQL 都集成到工具中了很多事情是工具帮助我们做了但是真正关系型的数据库处理还是需要对sql有很深层次的了解，sql必不可少
Spark/Hbase 是否可以做离线批量计算?

这个主要还是看业务场景，如果你的离线数据都是关系存储的肯定是hive更方便如果你的离线数据比较适合kv存储那用hbase也没问题
hive 中的表数据是怎么分布到集群中不同机器去存储的？

hive不负责数据存储只负责数据计算存储数据是调用的hdfs来进行的 hdfs底层是按数据块存储的
如何在 hive 与 pig 中选择？

现在企业中主要用hive 很少用pig 学习的话要两个都学
MySQL 中某个字段定义成 JSON 类型，其数据也是 JSON 类型，导入到 hive 表里面 (在 hive 里面定义成 string),出现乱码？

不要用JSON类型，或者从mysql取出的json先转为string 再导入hive中
MapReduce 如何数据切块并进行读取的？

按行分割不是按词
MySQL 的某个字段类型为 JSON,导入到 hive 中出现中文乱码？

mysql存的json是字符串吗如果是的话导入hive也设置为字符串就可以了
kafka 同一个消费组里多个消费者使用 consumer.assign (topicPartitions);会造成数据重复吗？

KafkaConsumer consumer = createConsumer("aa"); 把consumer的名字改成每个线程不一样试试
MySQL 数据库中有个字段是 JSON 格式，在 hive 中如何定义该字段?

直接完全按照mysql的列导入到hive里面不行吗这个json以后怎么用