犀牛主题列表_海汼部落 | 海牛大数据技术社区

犀牛

第 3221 位会员

注册于 2018-12-03 16:26:41

活跃于 2023-03-24 17:33:01

11 关注者

36 评论

51 话题

GitHub
城市

ClickHouse 用 sql 如何实现 upsert？ at 2021-06-16 19:09:15

ck没有upsert，但是可以通过alter table tablename update col1=newvalue where col1=oldvalue的方式修改
CDH 集群安装问题？ at 2021-06-12 12:11:29

点开日志看一下，情况很多。分发成功了，检查一下时钟同步，很有可能是时钟抖动大。
hdfs-client? at 2021-06-12 12:02:38

不做实际管理与存储，比如一些操作机，只是提交任务用，一般只是配置了hadoop的配置文件，并未加入到slave中，常见的一些大数据平台中的gateway节点就是了。
Hbase 二级索引如何选择？ at 2021-06-11 20:06:07

最方便的是Phoenix,缺点有点不稳定，数据量大了容易吧hbase玩挂了，因为他是重构了协处理器的。solr同步可以通过lily同步，缺点是数据量级过2亿后性能下降的很明显，最稳定的是es，但是同步数据最麻烦，索引更新也是个问题，大批量索引更新只能通过新索引重命名的方式，还有es的index超过21亿量级后也需要新索引。如果组合查询条件不多可以考虑再搞一个hbase表来做二级索引，这样效率最高，但是不能实现排序，分页也有点麻烦。
spark 数据插入 es，es 压力过大？ at 2021-06-10 13:24:48

在es里关闭索引同步，副本也可以先关掉，程序写完再打开。
spark 数据插入 es，es 压力过大？ at 2021-06-10 13:01:46

尝试一下关闭索引同步，写完再打开
reducerbykey 的使用问题？ at 2021-06-07 22:00:39

@忘尘误伤误伤😄 走火了
reducerbykey 的使用问题？ at 2021-06-07 16:03:06

@赵震比如你定义成对象了，就可以用r1.field1+r2.field2了，而不能直接对象相加，除非你对象里重写了+方法。
reducerbykey 的使用问题？ at 2021-06-07 15:48:45

@赵震把你19个字段封装成一个对象，然后点出来里面的每一个属性再操作
reducerbykey 的使用问题？ at 2021-06-07 15:46:04

@赵震 r1和r2进去的实际是tuple19类型的，直接叫他俩相加肯定不行吧
reducerbykey 的使用问题？ at 2021-06-07 15:35:52

@忘尘你是要把两个tuple相加吗？r1咋能加r2呢，你是不是要这个tuple里的某个元素相加。
cdh 大数据平台搭建 at 2021-06-04 22:44:29

@忘尘如果是虚拟机的话你可以选择配单节点，所有东西都装在一个节点上就好了。我这是三台服务器：cpu:4C mem:12GB disk:100GB。
cdh没那么挑剔，弄个单节点的搞，比如你给他8GB内存、4核心cpu、50GB硬盘就够了。
怎么用 kettle 做整个离线数仓的 etl 过程怎么做？ at 2021-06-04 19:52:11

@张孟轩是的，不用整那些花里胡哨的etl工具，etl就抽数就行了，还是Python+sql或者shell+sql最朴实无华也最靠谱。
怎么用 kettle 做整个离线数仓的 etl 过程怎么做？ at 2021-06-04 19:25:45

@张孟轩那要具体看你们数仓咋架构设计的了，一般来说贴源层是要进模型层的，模型层就按照模型师的er图来做SQL就好了，比如多张表的其中一部分字段抽离出来，落地到模型层的某一主题下面。ETL工具只适合做数据交换工作而不适合做仓内复杂逻辑加工，写写SQL封装到一个脚本里，用调度调脚本执行就好了，比etl工具做仓内加工方便多了，kettle做仓内加工太麻烦了，你还得在windows上做各种逻辑的点点点和逻辑连线，以及中间多表关联等等，最终导出ktr，再用pan去上调度，想想都能吐。
怎么用 kettle 做整个离线数仓的 etl 过程怎么做？ at 2021-06-04 19:05:11

个人觉得kettle从源系统抽到贴源层就可以了，仓内加工还是用SQL来的方便。