青牛主题列表_海汼部落 | IT学习->实战为王

流式处理框架 flink，beam 和 serverless 是什么关系？

Beam 的组件 IO 更丰富了，并且计算平台支持Apache Apex、Direct Runner、Apache Flink、Apache Spark、Google Cloud Dataflow 等你可以理解为beam是更高于flink的一层api 除了支持flink以外还支持很多的其他的框架，serverless不太了解没法回答你了

python 里的 pandas 如何每天 1 点自动跑 SQL，并更新至同一个 Excel 中？

设置定时任务是开发者必须会的技能，linux系统自带crontab 可以定时执行制定的命令比如shell命令，这种在运维中特别常见，当然除了系统层面还有很多应用层面的框架，如果只是python任务的话一般是写一个死循环，然后在循环中判断是不是到一定的时间点到了则运行定时脚本，未到则sleep一下，这里需要注意的是sleep的时间单位应该小于执行脚本的时间单元，举个例子：比如每天早上九点执行，那你sleep的时间单位应该小于天，所以应该是小时，每小时唤醒一次检查是不是早上九点既可

想在已经搭好的 hadoop 集群上换 jdk，需要重新搭建集群吗？可通过替换 JAVA_HOME 来实现吗？

对通过设置JAVA_HOME就可以 JAVA_HOME的设置有很多种方式可以修改hadoop的配置文件制定JAVA_HOME，
也可以修改机器的环境变量

python 中 float 型的非值用 numpy.nan, 请问 int 型的非值用什么？

也是numpy.nan

问个问题，如何对 MySQL 中不同的字段类型进行修改，比如 year 改为 timestamp?

用sql语句或是客户端图形界面都可以
语法是这样的：ALTER TABLE 表名 MODIFY COLUMN 字段名新数据类型新类型长度新默认值新注释
例子：alter table table1 modify column column1 decimal(10,1) DEFAULT NULL COMMENT '注释';

spark 数据是按天处理速度快还是数据全都取出再处理速度快呢，处理过程包含解码，解析 JSON 等？

spark数据是按天处理速度快还是数据全都取出再处理速度快这个问题不矛盾把按天处理也可以把数据全部取出来
spark的设计之初是解决大数据处理的问题简单可以理解为数据量越大它处理的就越快所以要看业务要求比如你的数据每天增量计算就能满足要求那就没必要把数据全取出来在处理了

hive 中怎么创建和使用临时表？

超过字符数限制可以建多个SQL就行了临时表也是一种解决方法但是用临时表就不超过1w字符了吗

Python 中遍历循环怎么理解?

cars=["bmw","audi","toyota","porsche"]
print(len(cars))
for car in cars:
print(car)
你指的是这种for循环吗所有的编程语言都要支持循环遍历不然处理不了大量的计算

如何爬取大众点评的评论?

那爬虫爬就完了需要啥思路哪里想不通？

分布式系统中的一致性 hash 为什么叫一致性 hash？

想象hash环你应该听过如果不知道可以先查一下维基百科，一般的分布式系统中hash可以把服务器映射到环上的任意一点，为什么叫一致性hash，一般的，在一致性Hash算法中，如果一台服务器不可用，则受影响的数据仅仅是此服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间数据，所以把影响范围控制在一个很小的范围内，同时如果增加一台服务器，则受影响的数据仅仅是新服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间数据，其它数据也不会受到影响，这就大大增加了系统的鲁棒性，但是仍然可能会有部分数据丢失的风险，就像你在前面所说一致性hash仍然会导致缓存丢失。

Python 在类中如何应用类中定义的函数？

1、类中可以引用func_1 直接用func_1就可以了
2、类对象初始化是先执行init方法初始化，但是类中的方法实在编译的时候只要能找到对应的引用声明即可
3、self的作用只得是类对象，就是实例化之后的类但是在定义类的时候要使用到类中的方法或是成员变量所以要加入self参数你也可以理解为这个是指向自己的一个指针

hdfs 上传文件报错了怎么处理?

jps看一下进程把从报错信息上面看好像是你的datanode根本就没起来，然后取datanode的日志看下到底是什么问题把报错信息给我截图一下发在论坛上面把

怎么通过代码执行 hadoop jar hbase-indexer-mr-*-job.jar？

java的 Runtime.getRuntime().exec()方法可以实现这个功能
比如你可以process = Runtime.getRuntime().exec(‘hadoop jar hbase-indexer-mr-*-job.jar’, null) 这样的方法来执行 process可以返回执行命令的结果

在 jupyter 中多进程为什么运行了没反应?

@晓月星稀多进程的一般是要把日志打在日志文件里面不要显示到终端上终端上会比较乱 jupyter其实也只是操作系统的一个python进程调试的话你可以先调试函数然后不同的进程把日志打在不同的文件里面

flink 数据源从哪里来，到哪里去？

Service是业务逻辑如果你处理完的数据需要存储 flink后面接存储就行了