• 流式处理框架 flink,beam 和 serverless 是什么关系?

    Beam 的组件 IO 更丰富了,并且计算平台支持Apache Apex、Direct Runner、Apache Flink、Apache Spark、Google Cloud Dataflow 等 你可以理解为beam是更高于flink的一层api 除了支持flink以外还支持很多的其他的框架,serverless不太了解 没法回答你了

  • python 里的 pandas 如何每天 1 点自动跑 SQL,并更新至同一个 Excel 中?

    设置定时任务是开发者必须会的技能,linux系统自带crontab 可以定时执行制定的命令 比如shell命令,这种在运维中特别常见,当然除了系统层面还有很多应用层面的框架,如果只是python任务的话 一般是写一个死循环,然后在循环中判断是不是到一定的时间点 到了则运行定时脚本,未到则sleep一下,这里需要注意的是sleep的时间单位应该小于执行脚本的时间单元,举个例子:比如每天早上九点执行,那你sleep的时间单位应该小于天,所以应该是小时,每小时唤醒一次检查是不是早上九点既可

  • 想在已经搭好的 hadoop 集群上换 jdk,需要重新搭建集群吗?可通过替换 JAVA_HOME 来实现吗?

    对 通过设置JAVA_HOME就可以 JAVA_HOME的设置有很多种方式 可以修改hadoop的配置文件制定JAVA_HOME,
    也可以修改机器的环境变量

  • python 中 float 型的非值用 numpy.nan, 请问 int 型的非值用什么?

    也是numpy.nan

  • 问个问题,如何对 MySQL 中不同的字段类型进行修改,比如 year 改为 timestamp?

    用sql语句或是客户端图形界面都可以
    语法是这样的:ALTER TABLE 表名 MODIFY COLUMN 字段名 新数据类型 新类型长度 新默认值 新注释
    例子:alter table table1 modify column column1 decimal(10,1) DEFAULT NULL COMMENT '注释';

  • spark 数据是按天处理速度快 还是数据全都取出再处理速度快呢,处理过程包含解码,解析 JSON 等?

    spark数据是按天处理速度快 还是数据全都取出再处理速度快 这个问题不矛盾把 按天处理也可以把数据全部取出来
    spark的设计之初是解决大数据处理的问题 简单可以理解为数据量越大它处理的就越快 所以要看业务要求 比如你的数据每天增量计算就能满足要求 那就没必要把数据全取出来在处理了

  • hive 中怎么创建和使用临时表?

    超过字符数限制可以建多个SQL就行了 临时表也是一种解决方法 但是用临时表就不超过1w字符了吗

  • Python 中遍历循环怎么理解?

    cars=["bmw","audi","toyota","porsche"]
    print(len(cars))
    for car in cars:
    print(car)
    你指的是这种for循环吗 所有的编程语言都要支持循环遍历 不然处理不了大量的计算

  • 如何爬取大众点评的评论?

    那爬虫爬就完了 需要啥思路 哪里想不通?

  • 分布式系统中的一致性 hash 为什么叫一致性 hash?

    想象hash环你应该听过 如果不知道可以先查一下维基百科,一般的分布式系统中hash可以把服务器映射到环上的任意一点,为什么叫一致性hash,一般的,在一致性Hash算法中,如果一台服务器不可用,则受影响的数据仅仅是此服务器到其环空间中前一台服务器(即沿着逆时针方向行走遇到的第一台服务器)之间数据,所以把影响范围控制在一个很小的范围内,同时如果增加一台服务器,则受影响的数据仅仅是新服务器到其环空间中前一台服务器(即沿着逆时针方向行走遇到的第一台服务器)之间数据,其它数据也不会受到影响,这就大大增加了系统的鲁棒性,但是仍然可能会有部分数据丢失的风险,就像你在前面所说一致性hash仍然会导致缓存丢失。

  • Python 在类中如何应用类中定义的函数?

    1、类中可以引用func_1 直接用func_1就可以了
    2、类对象初始化是先执行init方法初始化,但是类中的方法实在编译的时候只要能找到对应的引用声明即可
    3、self的作用只得是类对象,就是实例化之后的类 但是在定义类的时候 要使用到类中的方法或是成员变量 所以要加入self参数 你也可以理解为这个是指向自己的一个指针

  • hdfs 上传文件报错了怎么处理?

    jps看一下进程把 从报错信息上面看好像是你的datanode根本就没起来,然后取datanode的日志看下到底是什么问题 把报错信息给我截图一下 发在论坛上面把

  • 怎么通过代码执行 hadoop jar hbase-indexer-mr-*-job.jar?

    java的 Runtime.getRuntime().exec()方法可以实现这个功能
    比如你可以process = Runtime.getRuntime().exec(‘hadoop jar hbase-indexer-mr-*-job.jar’, null) 这样的方法来执行 process可以返回执行命令的结果

  • 在 jupyter 中多进程 为什么运行了没反应?

    @晓月星稀 多进程的一般是要把日志打在日志文件里面 不要显示到终端上 终端上会比较乱 jupyter其实也只是操作系统的一个python进程 调试的话你可以先调试函数 然后不同的进程把日志打在不同的文件里面

  • flink 数据源从哪里来,到哪里去?

    Service是业务逻辑 如果你处理完的数据需要存储 flink后面接存储就行了