青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

Hadoop 除了 Hbase 是否支持其它数据库？

Oracle、SQL、Mongodb这些对实时性要求比较强的和hadoop的设计初衷有些不一样，这些实时数据处理是OLTP的场景，hadoop是OLAP的数据场景，所以你可以认为不支持替代，但是可以和hadoop配合使用
为什么说 Hadoop 是一个生态系统？

生态系统，顾名思义就是很多组件组成的一个生态链，经过多年的发展，Hadoop生态系统不断完善和成熟，目前已经包括了多个子项目，除了核心的HDFS和MapReduce以外，Hadoop生态系统还包括要ZoopKer、HBase、Hive、Pig、Mahout、Sqoop、Flume、Ambari等功能组件。这些组件几乎覆盖了目前业界对数据处理的所有场景。
python 定义一个类，类里有一个实例属性是关于时间的，怎么样写才能让这个属性根据时间变化？

time.localtime()不就是当地时间吗
zookeeper 完全分布式配置时，集群会使用什么端口？

端口自己定就行了不被占用就可以最好有规律可循
Flink 批处理完成后，我怎么得到通知？

集群模式提交不起作用？是没有调用还是调用报错了？
进行 ETL 的时候，用 pandas 和 kettle/Informatica 有什么不同？

pandas 比较灵活可以认为什么都能干
kettle/Informatica 更侧重数据表的处理对sql语句支持比较好
java 泛型上界通配符为什么不可以 set?

为什么要这么做有具体例子吗
我的这代码为什么报错？

输入字符串’2c‘试一下
数据库或者 MySQL 如何实现表 A 中某个字符串中的子字符串替换为表 B 中的对应的值?

如果A表和B表没法关联是不可能用sql完成的
Python 中如何实现训练集与测试集按顺序划分，而不是随机划分呢？

从pandas自己取就行了自己写不用现成的方法
python 中 for 循环的值怎么表示与之前的值相等?

两层for循环就行了，每一次取一个和其他的所有的比较，如果不相同，就保留
Python 中类的 call 函数是如何执行的？

贴一个代码把
spark 底层是 rdd,flink 底层是怎样的数据结构来维护运算？

Spark和flink还有其他分布式计算系统都有一种切分的思想：把一个超大的数据集，分成N个小堆，找M个执行器（M < N），各自拿一块或多块数据慢慢玩，玩出结果了再收集在一起，这就算执行完啦。spark无论处理什么数据先整成一个拥有多个分块的数据集再说，这个数据集就叫RDD
覆盖索引为什么没有回表呢？

这和你的查询字段有关
select id,name from user where name='shenjian';　假如这个表上有主键索引id 还有另外一个索引在name字段上，
这时候这个查询是不用回表的因为name上的索引+主键索引就能返回要查询的id name两个字段了，不需要回表了，
假如你的查询多了几个字段select id,name，sex，address from user where name='shenjian'; 这个时候sex，address 必须要回表查了
springmvc 返回一个类和我自己将这个类转为 JSON 格式字符串返回有区别吗?

一般返回string把拿到以后再转为json