青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

thymeleaf 使用 th:each 遍历的时候为什么会多出个空的<li></li>标签？

把privilege的result属性值和data的值打出来看看
spark 如何进阶学习?

看要用spark干嘛了如果写算法确实很少用scala的api 但是如果做数据处理 scala那些api是必学的
当然一般的企业写算法的也要学会自己做数据处理和etl
MySQL 数据库，如何根据时间字段，筛选出最新的那条数据？

先写一个sql再解释
select * from comment where id in(select max(id) from comment group by user_id) order by user_id;
select max(id) from comment group by user_id 根据userid分组取组内id最大的即是最新的
然后在表中取这些id对应的行即为要取的最新的行
哪些大数据组件用到了 Python？

目前主流的python是python3 所有的大数据组件都支持python接口的调用就像很多c组件支持java开发一样
请问，hbase 适合存储大量的 mp4 文件吗？

mp4这种大块的文件最好存到hdfs中，尤其是存完了不修改这种需求 hdfs是最好的选择
如果没有 cluster，只在本地安装使用 spark，想要处理大数据集（20G+）会对效率有帮助吗？

本地的处理的话 spark不是最合适的把分布式处理数据的起点其实是TB级少量的话体现不出来优势
如果没有 cluster，只在本地安装使用 spark，想要处理大数据集（20G+）会对效率有帮助吗？

会啊本地处理的话没必要用spark 20g的数据用别的方法也行只要你有足够的计算资源的话，spark的强大之处在于处理tb或是pb的数据，也就是单机处理不了的数据
为什么 pyspark 做 np.array 的迭代计算每个 task 运行速度与分配的 core 成反比？

pyspark的本质是local运算的我不太清楚你说的矩阵并行是自己写的还是调用python现成的自己写的话应该不会有问题调用现成的有问题因为会在每个节点上本地上运行并没有并行
目前 Hadoop 的前景怎么样？

主流数据处理工具现在数据处理标配如果不会这个就和现在支付不用手机一样尴尬
请问一下，Hadoop 是从哪个版本开始对 S3 对象存储支持的？

Hadoop2.7以后就行了
Python 里怎么样做双重 for 循环比较快呢？

什么场景？处理什么样的数据？
FLINK 中 AggregateFunction 里面的四个方法中的 merge 方法是做什么用的？

来个demo为：
给定迭代初始值 (0, 0)。元组第一个记录分数，第二个记录数据条数
输入的数据，获取分数，累加到迭代值元组的第一个元素中，迭代值元组的第二个值记录条数加1 。
每一个分区迭代完毕后，各分区的迭代值合并成最终的迭代值
对最终的迭代处理，获取最终的输出结果。
所以说API说是合并累加器，就是要组内先合并在累加
正则表达式中能否进行大小判断？

写个python脚本处理一下吧读取每个文件名和文件内容这个用正则可能比较费劲，确实应该考虑换一个思路，当然不是正则实现不了如果时间比较紧就换个思路把
大数据工程师日常都做什么工作呢？

每天都在做etl，工作强度看不同项目进度把不会一直忙但是一个月至少有80%的时间是在忙的
你们的 spark 任务一般跑多久？

不同任务不同资源时间不一样