青牛

第 12 位会员
注册于 2016-12-24 21:53:20
活跃于 2024-04-02 22:38:12


  • FLINK 中 AggregateFunction 里面的四个方法中的 merge 方法是做什么用的? at 2019-09-20 14:59:05

    来个demo为:
    给定迭代初始值 (0, 0)。 元组 第一个记录分数,第二个记录数据条数
    输入的数据,获取分数,累加到迭代值元组的第一个元素中,迭代值元组的第二个值记录条数加1 。
    每一个分区迭代完毕后,各分区的迭代值合并成最终的迭代值
    对最终的迭代处理,获取最终的输出结果。
    所以说API说是合并累加器,就是要组内先合并在累加

  • 正则表达式中能否进行大小判断 ? at 2019-09-20 14:40:46

    写个python脚本处理一下吧 读取每个文件名和文件内容 这个用正则可能比较费劲,确实应该考虑换一个思路,当然不是正则实现不了 如果时间比较紧就换个思路把

  • 大数据工程师日常都做什么工作呢? at 2019-09-20 14:38:56

    每天都在做etl, 工作强度看不同项目进度把 不会一直忙 但是一个月至少有80%的时间是在忙的

  • 你们的 spark 任务一般跑多久? at 2019-09-19 08:36:38

    不同任务 不同资源 时间不一样

  • kafka connect 做 ETL,会造成数据丢失或重复吗?如果是的话,该怎么解决? at 2019-09-19 08:36:16

    会啊 看你怎么配置了
    数据传输的事务定义通常有以下三种级别:
    最多一次: 消息不会被重复发送,最多被传输一次,但也有可能一次不传输。
    最少一次: 消息不会被漏发送,最少被传输一次,但也有可能被重复传输.
    精确的一次(Exactly once): 不会漏传输也不会重复传输,每个消息都传输被一次而且仅仅被传输一次,这是大家所期望的。
    kafka的
    “精确一次”是这么做的,可以通过将提交分为两个阶段来解决:保存了offset后提交一次,消息处理成功之后再提交一次。但是还有个更简单的做法:将消息的offset和消息被处理后的结果保存在一起。比如用Hadoop ETL处理消息时,将处理后的结果和offset同时保存在HDFS中,这样就能保证消息和offser同时被处理了。

  • java 里面,'\24'表示什么意思?求大佬解答? at 2019-09-17 19:50:58

    把具体问题贴出来

  • 用 zookpeer 的时候出现了这种情况怎么解决? at 2019-09-17 19:49:33

    把错误截图全一些 后面大段的错误看不见

  • 从 BI 数据仓库转做大数据中数据仓库需要学那些东西?还需要写 java 吗? at 2019-09-17 10:18:12

    其实区别不大 对sql的要求和bi差不多 但是要掌握更多的工具和编程语言 如hadoop hive hbase redis 语言包括java python scala等

  • JVM 中的这些宏怎么理解? at 2019-09-17 10:16:50

    这个帮不了你 推荐你看看jvm界的经典之作 《揭秘Java虚拟机:JVM设计原理与实现》

  • Java 的一个问题,关于子类对象调用父类的返回值为 this 的方法,this 指向问题? at 2019-09-16 09:26:37

    绿色字体的程序没有问题是吧 就是一个简单的继承,子类对象初始化优先调用父类构造方法,所以先打印T()再打印B()最后是调用子类的方法。
    第二段代码 第一个语句son.minusOne()这个方法调用的是son类的方法,但是son类没有这个方法 所以找到了父类,要执行的是对testvalue-1 这个this指的是父类 所以前两次打印的是0 99 this指的是当前对象 在父类中指的是父类对象 在子类中指的是子类对象
    以此类推 后面一个打印是对子类的testvalue+1 所以是1 , 变量前默认是有this指针的
    最后一个打印 因为父类的testvalue刚刚被-1了 所以还是99

  • 一个对象不再使用,有必要手动置为 null 吗? at 2019-09-16 09:07:52

    最好这么做 因为这样的话 gc会比较及时的回收这个对象 java和python中都建议不用的对象最好直接置空或是删除,这是一个好的编程习惯

  • java list 如何乱序? at 2019-09-16 09:06:50

    对list打乱,这个简单的方法是再创建一个list 或是用现在的list,可以以一定的随机概率交换list中两个元素的位置,java获取一个范围内的随机数应该有现成的api把 ,这种方法也就不难实现了

  • o 域集群,传统 boss 数据集群,不同集群的数据怎么拉通?还是说就放一个集群,但这样会不会造成资源紧张? at 2019-09-12 15:16:55

    boss数据集群是啥东西 头一次听这个词 能详细说说吗

  • 怎么修改 hbase-env.sh 为只读的权限,我想改写它,可以吗? at 2019-09-12 15:15:52

    可以啊 chmod 777 里面的东西悠着点改

  • Flink 的反压与 Spark 相比有什么差别? at 2019-09-12 15:15:18

    spark是一个很强大的生态系统,flink目前也只能替代spark的Spark Streaming组件,
    1、处理可以实时:Spark Streaming 是微批处理,运行的时候需要指定批处理的时间,每次运行 job 时处理一个批次的数据,严格来讲达不到实时处理,Flink 是基于事件驱动的,事件可以理解为消息。事件驱动的应用程序是一种状态应用程序,它会从一个或者多个流中注入事件,通过触发计算更新状态,或外部动作对注入的事件作出反应,可以做到实时性
    2、更好的容错:对于 Spark Streaming 任务,我们可以设置 checkpoint,然后假如发生故障并重启,我们可以从上次 checkpoint 之处恢复,但是这个行为只能使得数据不丢失,可能会重复处理,不能做到恰一次处理语义。若要 sink 支持仅一次语义,必须以事务的方式写数据到 Kafka,这样当提交事务时两次 checkpoint 间的所有写入操作作为一个事务被提交。这确保了出现故障或崩溃时这些写入操作能够被回滚。