犀牛

第 3221 位会员
注册于 2018-12-03 16:26:41
活跃于 2021-10-15 15:20:56


最近话题
最新评论
  • kylin 运行 build 报错? at 2021-10-11 21:27:21

    检查一下kylin的配置文件中的kylin.env.hadoop-conf-dir,参照一下我们论坛上的kylin部署方式,论坛上的部署方式是基于cdh平台的,注意一下配置文件路径。

  • HBase 存一条大于 memstore 的数据怎么存? at 2021-09-22 09:03:35

    这就涉及到底层memstore刷写源码了,通俗的理解,一旦达到刷写阈值就开始刷写,刷写是分为三步来完成的,第一步阻塞写(写的时候是需要持有uodatelock锁的),将已经写满的cellskiplistcell创建一个快照(创建快照的时候将持有updatelock锁,快照创建完成就释放锁),当快照创建完成后再创建一个cellskiplistset继续接收新数据,也就是把一条数据分为两部分了。第二步会将快照写到hbase的.tmp目录下,第三步是commit,将临时目录文件写到对应region的hdfs上。

  • CDH6.3.2 安装,报错:Src file /opt/cloudera/parcels/.flood/CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel/CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel does not exist,各位大佬怎么解决? at 2021-09-13 22:35:34

    @Jack.Wang 如果是多个节点都失败,那么是有可能parcel介质不完整导致的,比如你使用rz 上传就会出现不完整的情况。如果部分节点激活失败,那绝对不是这个原因导致的,还是检查空间和内存。

  • CDH6.3.2 安装,报错:Src file /opt/cloudera/parcels/.flood/CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel/CDH-6.3.2-1.cdh6.3.2.p0.1605554-el7.parcel does not exist,各位大佬怎么解决? at 2021-09-13 15:45:27

    @F 检查一下空间,我们遇到过空间不足导致激活失败的

  • hive? at 2021-09-09 11:34:07

    网管思维估计不可行,上图。

  • 用 hive2 通过 sentry 控制用户的读写权限? at 2021-08-23 12:10:01

    你用什么主体登陆的。

  • cdh 大数据平台搭建 at 2021-08-20 17:17:49

    @oldfish 够用的,土豪交个朋友。

  • Gauss db 如何做数据仓库? at 2021-07-16 09:22:04

    gauss可以使用存储过程控制分区,高斯的分区和hive的分区是两个概念,看实际需求技术选型。
    至于高斯怎么把数据集成进去的问题,可以参考一下我们论坛其他几篇高斯的文章有数据导入导出的,比如gds。

  • 请教下:sql 根据统计次数将数据拆分成多行怎么实现? at 2021-07-01 19:40:38

    我大概给你说下思路吧,具体的存储过程还得你自己写。

    1. 你在存储过程中开一个游标,然后查询这个表的所有字段都查了,把查询结果集赋给这个游标。
    2. 在open这个游标,打开后用循环去遍历这个游标,拿到值不为1的值,然后再开一个循环,这个循环的次数就是你usage_count-1,在循环语句里执行insert语句。
  • 怎么生成指定日期到需要的日期之间的时间维度表? at 2021-06-18 21:28:20

    @然. 那就存储过程 但是比代码麻烦

  • 怎么生成指定日期到需要的日期之间的时间维度表? at 2021-06-18 18:12:54

    你是要用代码实现还是用数据库直接实现,如果用代码实现,比如用Java那就通过Calendar去处理,时分秒可以的获取你可以先获取到当天和下一天的时间戳然后通过++的方式得到一天内的所有时分秒。
    如果用数据库去实现,那就用存储过程实现吧,传两个参数(begindate,enddate),然后用数据库的日期时间函数处理,获取到每一个时分秒。
    个人觉得用代码要方便,批量的去写,或者连接池的方式去写。

  • cdh 大数据平台搭建 at 2021-06-17 22:40:20

    @Jack.Wang …… 你没做yum源和httpd服务啊 在线装我也失败过 老坎坷了

  • cdh 大数据平台搭建 at 2021-06-17 13:13:27

    @Jack.Wang 刚才突然想起来了一种情况,你是不是重装的,你可以先在失败的节点上把agent服务停掉,然后把Cloudera的目录都给他删了,然后在开始装,有可能是你之前其他原因装失败了,agent服务和目录仍然存在呢。

  • cdh 大数据平台搭建 at 2021-06-16 21:46:37

    @Jack.Wang 所有节点都失败还是个别节点失败 检查一下ntp服务时间同步 这种问题大部分原因都是ntp服务的原因 再看一下你的httpd服务 访问一下cdh的http页面看看编译了没

  • cdh 大数据平台搭建 at 2021-06-16 19:57:43

    @Jack.Wang 那你手动改一下/etc/selinux/config配置文件,改成SELINUX==disabled

  • ClickHouse 用 sql 如何实现 upsert? at 2021-06-16 19:09:15

    ck没有upsert,但是可以通过alter table tablename update col1=newvalue where col1=oldvalue的方式修改

  • CDH 集群安装问题? at 2021-06-12 12:11:29

    点开日志看一下,情况很多。分发成功了,检查一下时钟同步,很有可能是时钟抖动大。

  • hdfs-client? at 2021-06-12 12:02:38

    不做实际管理与存储,比如一些操作机,只是提交任务用,一般只是配置了hadoop的配置文件,并未加入到slave中,常见的一些大数据平台中的gateway节点就是了。

  • Hbase 二级索引如何选择? at 2021-06-11 20:06:07

    最方便的是Phoenix,缺点有点不稳定,数据量大了容易吧hbase玩挂了,因为他是重构了协处理器的。solr同步可以通过lily同步,缺点是数据量级过2亿后性能下降的很明显,最稳定的是es,但是同步数据最麻烦,索引更新也是个问题,大批量索引更新只能通过新索引重命名的方式,还有es的index超过21亿量级后也需要新索引。如果组合查询条件不多可以考虑再搞一个hbase表来做二级索引,这样效率最高,但是不能实现排序,分页也有点麻烦。

  • spark 数据插入 es,es 压力过大? at 2021-06-10 13:24:48

    在es里关闭索引同步,副本也可以先关掉,程序写完再打开。