青牛

LeoHe
第 12 位会员
注册于 2016-12-24 21:53:20
活跃于 2019-09-19 08:36:38


  • Java 的注解 和 Python 的装饰器 是一回事吗? at 2019-09-11 16:42:26

    不是一回事,java的注解相信你已经了解了 ,我就不赘述了,python的装饰器简单可以理解为函数的参数,python有个特点是函数也能当参数用
    def use_logging(func):

    def wrapper():
        logging.warn("%s is running" % func.__name__)
        return func()
    return wrapper

    @use_logging
    def foo():
    print("i am foo")

    foo()
    比如这段代码,use_logging设置为装饰器,执行foo的时候回去找use_logging 然后把foo作为参数传递进去

  • 流式处理框架 flink,beam 和 serverless 是什么关系? at 2019-09-10 10:20:32

    Beam 的组件 IO 更丰富了,并且计算平台支持Apache Apex、Direct Runner、Apache Flink、Apache Spark、Google Cloud Dataflow 等 你可以理解为beam是更高于flink的一层api 除了支持flink以外还支持很多的其他的框架,serverless不太了解 没法回答你了

  • python 里的 pandas 如何每天 1 点自动跑 SQL,并更新至同一个 Excel 中? at 2019-09-10 09:12:46

    设置定时任务是开发者必须会的技能,linux系统自带crontab 可以定时执行制定的命令 比如shell命令,这种在运维中特别常见,当然除了系统层面还有很多应用层面的框架,如果只是python任务的话 一般是写一个死循环,然后在循环中判断是不是到一定的时间点 到了则运行定时脚本,未到则sleep一下,这里需要注意的是sleep的时间单位应该小于执行脚本的时间单元,举个例子:比如每天早上九点执行,那你sleep的时间单位应该小于天,所以应该是小时,每小时唤醒一次检查是不是早上九点既可

  • 想在已经搭好的 hadoop 集群上换 jdk,需要重新搭建集群吗?可通过替换 JAVA_HOME 来实现吗? at 2019-09-10 09:08:31

    对 通过设置JAVA_HOME就可以 JAVA_HOME的设置有很多种方式 可以修改hadoop的配置文件制定JAVA_HOME,
    也可以修改机器的环境变量

  • python 中 float 型的非值用 numpy.nan, 请问 int 型的非值用什么? at 2019-09-10 09:07:25

    也是numpy.nan

  • 问个问题,如何对 MySQL 中不同的字段类型进行修改,比如 year 改为 timestamp? at 2019-09-10 09:07:02

    用sql语句或是客户端图形界面都可以
    语法是这样的:ALTER TABLE 表名 MODIFY COLUMN 字段名 新数据类型 新类型长度 新默认值 新注释
    例子:alter table table1 modify column column1 decimal(10,1) DEFAULT NULL COMMENT '注释';

  • spark 数据是按天处理速度快 还是数据全都取出再处理速度快呢,处理过程包含解码,解析 JSON 等? at 2019-09-05 17:36:12

    spark数据是按天处理速度快 还是数据全都取出再处理速度快 这个问题不矛盾把 按天处理也可以把数据全部取出来
    spark的设计之初是解决大数据处理的问题 简单可以理解为数据量越大它处理的就越快 所以要看业务要求 比如你的数据每天增量计算就能满足要求 那就没必要把数据全取出来在处理了

  • hive 中怎么创建和使用临时表? at 2019-09-05 17:34:13

    超过字符数限制可以建多个SQL就行了 临时表也是一种解决方法 但是用临时表就不超过1w字符了吗

  • Python 中遍历循环怎么理解? at 2019-09-05 17:32:32

    cars=["bmw","audi","toyota","porsche"]
    print(len(cars))
    for car in cars:
    print(car)
    你指的是这种for循环吗 所有的编程语言都要支持循环遍历 不然处理不了大量的计算

  • 如何爬取大众点评的评论? at 2019-09-05 17:31:05

    那爬虫爬就完了 需要啥思路 哪里想不通?

  • 分布式系统中的一致性 hash 为什么叫一致性 hash? at 2019-09-03 18:09:02

    想象hash环你应该听过 如果不知道可以先查一下维基百科,一般的分布式系统中hash可以把服务器映射到环上的任意一点,为什么叫一致性hash,一般的,在一致性Hash算法中,如果一台服务器不可用,则受影响的数据仅仅是此服务器到其环空间中前一台服务器(即沿着逆时针方向行走遇到的第一台服务器)之间数据,所以把影响范围控制在一个很小的范围内,同时如果增加一台服务器,则受影响的数据仅仅是新服务器到其环空间中前一台服务器(即沿着逆时针方向行走遇到的第一台服务器)之间数据,其它数据也不会受到影响,这就大大增加了系统的鲁棒性,但是仍然可能会有部分数据丢失的风险,就像你在前面所说一致性hash仍然会导致缓存丢失。

  • Python 在类中如何应用类中定义的函数? at 2019-09-03 18:04:53

    1、类中可以引用func_1 直接用func_1就可以了
    2、类对象初始化是先执行init方法初始化,但是类中的方法实在编译的时候只要能找到对应的引用声明即可
    3、self的作用只得是类对象,就是实例化之后的类 但是在定义类的时候 要使用到类中的方法或是成员变量 所以要加入self参数 你也可以理解为这个是指向自己的一个指针

  • hdfs 上传文件报错了怎么处理? at 2019-09-03 17:57:38

    jps看一下进程把 从报错信息上面看好像是你的datanode根本就没起来,然后取datanode的日志看下到底是什么问题 把报错信息给我截图一下 发在论坛上面把

  • 怎么通过代码执行 hadoop jar hbase-indexer-mr-*-job.jar? at 2019-09-03 08:46:04

    java的 Runtime.getRuntime().exec()方法可以实现这个功能
    比如你可以process = Runtime.getRuntime().exec(‘hadoop jar hbase-indexer-mr-*-job.jar’, null) 这样的方法来执行 process可以返回执行命令的结果

  • 在 jupyter 中多进程 为什么运行了没反应? at 2019-09-03 08:43:35

    @晓月星稀 多进程的一般是要把日志打在日志文件里面 不要显示到终端上 终端上会比较乱 jupyter其实也只是操作系统的一个python进程 调试的话你可以先调试函数 然后不同的进程把日志打在不同的文件里面