青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

numpy 的数据类型为 np.object 时，矩阵运算时支持那些加速机制吗？

object数据如果是数值型直接转矩阵就行了如果是字符串那就没法并行了
信息被删除或无权限查看
Python 的游戏模块只有 pygame 吗？

PyOpenGL 很多
SparkSQL 使用两表查询，表 2 获取表 1 查询的 id 范围范围，测试查询时间有几秒，该如何优化？

不要in 把in改为join
spark Dataset<Row>如何分页获取或者以行位单位遍历获取？

不全取得话你每次翻页都要提交一个spark job到集群吗
spark 如何计算自己占用内存的大小？

统计方法，根据自己内部的数据结构统计内存的使用和分配动态调整参数
如何用 scala 实现 dataframe 添加自增序号列，并且将序号列放在第一列？

把报错的信息贴一下把
spark-sql -f aa.sql 执行 sql 文件为什么文件开头报错就直接退出来了，不能全部执行？

文件里面咋写的？
sparksqlselect.join.group 是会对应生成什么样的 rdd.再划分 stage 的？

能更详细点描述吗比如举个例子
Spark DataFrame 筛选数据问题？

建议你看下python的正则表达式，
比如
In [1]: import re

In [2]: str1='java=1000,python=9090'

In [3]: info=re.findall(r'\d+',str1)#找到所有匹配的字符串，并把它们放到一个列表中

In [4]: info
Out[4]: ['1000', '9090']
spark 数据倾斜疑惑：shuffle.partitions 与不同 key 个数之间关系？

partitions是按key进行partition的，一般不会把相同的key放到多个partition中除非你自己定义了partition的策略，如果partition数量过大，其实是不会在那么多的partition上运行的，所以一般情况是针对key的量级比较大的情况自定义partition策略
SparkSql 读取 JSON 格式的数据,做两张表左外连接?

sql没问题。其中一个表没有数据是业务上允许没有数据吗？如果必须有数据那就得加另外的规则判断了
信息被删除或无权限查看
spring boot 集成阿里云的 kafka 消息服务，无法读取 jks 文件？

部署到哪里？部署的地方没有jks证书文件吗还是jar包中没有把文件打到包里面
kafka 如何删除 topic？

还需要生产者和消费者彻底停掉并在zk中删除对应的文件结构