青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

scala 代替 java 实现 Web 后端可行吗？会有什么问题？

java没有instanceof 方法？
Spark SQL 和 Oracle、MySQL 有什么区别呢？能简单说下么？

写法不同原理一样
Spark 里 RDD 数据怎么拿到 hashmap 中呢？

写个函数把map传进去
spark 提交任务？

打一下日志应该不是这个问题
使用 Scala 开发 Spark ，如何提高代码质量？

是这样的，etl的代码质量不需要oop那一套解决了大数据处理的问题即可
jdbc 连接 hive 启动 hiveserver2 和 spark 启动 thriftserver 的区别？

任何方式连接hive或是执行sql本质都是先和hiveserver2连接所以区别不大适用于不同场景而已
spark thrift server 如何增大日志留存数量?

可以写入另外的存储中
在 shell 模式没有问题，但是.scala 文件引用包为啥就出错？

环境变量问题
sparksql 读取数据库是如何分布式执行的？

读mysql每个executor一个连接读hive也一样
在 sparkstreaming 中 foreach 算子中开启线程？

是的
spark.shuffle.file.buffer 属于 spark 内存里面的哪一部分？

用于设置shuffle write task的BufferedOutputStream的buffer缓冲大小。将数据写到磁盘文件之前，会先写入buffer缓冲中，待缓冲写满之后，才会溢写到磁盘
请问 pySpark 中怎么序列化一个对象集合为 RDD？

你的意思是序列化代码中的 rdd这个变量吗
信息被删除或无权限查看
市面上流行的 R + Hadoop 方案如何解决 R 的内存瓶颈问题？

我记得这是已经解决了的但是具体的方法还不是很清楚 r用的少，你可以咨询下http://blog.fens.me/ 这个博主是我的一个好友
自从 flink 成熟之后，spark 是否慢慢成为鸡肋？

spark是大而全，好处是一个框架有多个功能如果就单独功能来说确实不如别的框架