犀牛

第 3221 位会员
注册于 2018-12-03 16:26:41
活跃于 2023-03-24 17:33:01


  • ClickHouse 用 sql 如何实现 upsert? at 2021-06-16 19:09:15

    ck没有upsert,但是可以通过alter table tablename update col1=newvalue where col1=oldvalue的方式修改

  • CDH 集群安装问题? at 2021-06-12 12:11:29

    点开日志看一下,情况很多。分发成功了,检查一下时钟同步,很有可能是时钟抖动大。

  • hdfs-client? at 2021-06-12 12:02:38

    不做实际管理与存储,比如一些操作机,只是提交任务用,一般只是配置了hadoop的配置文件,并未加入到slave中,常见的一些大数据平台中的gateway节点就是了。

  • Hbase 二级索引如何选择? at 2021-06-11 20:06:07

    最方便的是Phoenix,缺点有点不稳定,数据量大了容易吧hbase玩挂了,因为他是重构了协处理器的。solr同步可以通过lily同步,缺点是数据量级过2亿后性能下降的很明显,最稳定的是es,但是同步数据最麻烦,索引更新也是个问题,大批量索引更新只能通过新索引重命名的方式,还有es的index超过21亿量级后也需要新索引。如果组合查询条件不多可以考虑再搞一个hbase表来做二级索引,这样效率最高,但是不能实现排序,分页也有点麻烦。

  • spark 数据插入 es,es 压力过大? at 2021-06-10 13:24:48

    在es里关闭索引同步,副本也可以先关掉,程序写完再打开。

  • spark 数据插入 es,es 压力过大? at 2021-06-10 13:01:46

    尝试一下关闭索引同步,写完再打开

  • reducerbykey 的使用问题? at 2021-06-07 22:00:39

    @忘尘 误伤 误伤😄 走火了

  • reducerbykey 的使用问题? at 2021-06-07 16:03:06

    @赵震 比如你定义成对象了,就可以用r1.field1+r2.field2了,而不能直接对象相加,除非你对象里重写了+方法。

  • reducerbykey 的使用问题? at 2021-06-07 15:48:45

    @赵震 把你19个字段封装成一个对象,然后点出来里面的每一个属性再操作

  • reducerbykey 的使用问题? at 2021-06-07 15:46:04

    @赵震 r1和r2进去的实际是tuple19类型的,直接叫他俩相加肯定不行吧

  • reducerbykey 的使用问题? at 2021-06-07 15:35:52

    @忘尘 你是要把两个tuple相加吗?r1咋能加r2呢,你是不是要这个tuple里的某个元素相加。

  • cdh 大数据平台搭建 at 2021-06-04 22:44:29

    @忘尘 如果是虚拟机的话你可以选择配单节点,所有东西都装在一个节点上就好了。我这是三台服务器:cpu:4C mem:12GB disk:100GB。
    cdh没那么挑剔,弄个单节点的搞,比如你给他8GB内存、4核心cpu、50GB硬盘就够了。

  • 怎么用 kettle 做整个离线数仓的 etl 过程怎么做? at 2021-06-04 19:52:11

    @张孟轩 是的,不用整那些花里胡哨的etl工具,etl就抽数就行了,还是Python+sql或者shell+sql最朴实无华也最靠谱。

  • 怎么用 kettle 做整个离线数仓的 etl 过程怎么做? at 2021-06-04 19:25:45

    @张孟轩 那要具体看你们数仓咋架构设计的了,一般来说贴源层是要进模型层的,模型层就按照模型师的er图来做SQL就好了,比如多张表的其中一部分字段抽离出来,落地到模型层的某一主题下面。ETL工具只适合做数据交换工作而不适合做仓内复杂逻辑加工,写写SQL封装到一个脚本里,用调度调脚本执行就好了,比etl工具做仓内加工方便多了,kettle做仓内加工太麻烦了,你还得在windows上做各种逻辑的点点点和逻辑连线,以及中间多表关联等等,最终导出ktr,再用pan去上调度,想想都能吐。

  • 怎么用 kettle 做整个离线数仓的 etl 过程怎么做? at 2021-06-04 19:05:11

    个人觉得kettle从源系统抽到贴源层就可以了,仓内加工还是用SQL来的方便。