青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2255 评论

308 话题

WeChat
Website
公司
城市

Spark 在 yarn 集群中提交任务失败

你看一下你这个包是不是坏掉了 /data/beh/core/spark/chdalib/protobuf-java-2.5.0.jar
数据开发与 ETL 的区别

@慧爱万泽恩还有数据处理，数据处理包括数据清洗
数据开发与 ETL 的区别

转挖掘需要算法基础，分析需要更理解业务，不管是ETL还是挖掘前题是都得会数据开发，当然数据分析需要的少一些。要是向后期发展当然是数据挖掘比较好了
oracle 空间配额问题。求大神指教。

dba_ts_quotas(查看所有用户的表空间配额)
BYTES字段表示用户已经使用的空间；MAX_BYTES如果为-1表示没有限制，其他值表示限制配额

MapReduce 编程系列

伪代码

Map<String,List<Integer>> map = new HashMap<String,ArrayList<Integer>>();
if(value > max){
max=value
List mapList = map.get("max")
map_tmp = mapList[0]
if(max == map_tmp){
mapList.append(max)
}else{
List<Integer> list = new ArrayLIst<Integer>()
list.append(max)
map.put("max",list)
}
}

后台关于异步处理

@小东你可以用kafka,redis,mysql当用的队列中间件，或者干脆用个list。控制好锁和多个消费程序的队列阻塞问题就行，比如mysql可以用select * from table where type=1 for update去做，在事物中锁住type索引字段，且不会影响插入操作
虚拟机安装总是出这个问题

是不是你的虚拟机给的硬盘空间太小了，或者你的电脑上的硬盘没空间了，学centos可以不用desktop，用命令行操作就可以了，选最小安装minimal就可以了
后台关于异步处理

后台加个任务队列吧，用消费者模式去设计一套程序
前端受理成功只是向任务队列里成功添加了任务，处理程序再从队列里拿任务去处理
用 java 写 spark 的聚合函数格式是什么

@陌二狗我角得你现在比以前帅多了
用 java 写 spark 的聚合函数格式是什么

@陌二狗有进步啊，都能看源码了
用 java 写 spark 的聚合函数格式是什么

@陌二狗你有代码写错了，前面的单引号放到id后面
用 java 写 spark 的聚合函数格式是什么

@陌二狗方法后面要给，有几个泛型，规定返回值和传入值，去看一下教程的例子
用 java 写 spark 的聚合函数格式是什么

java的spark的api有function类，pair rdd对应的是function2
包地址
import org.apache.spark.api.java.function.Function;
import org.apache.spark.api.java.function.Function2;
社区里的spark教程都是用java写的
http://hainiubl.com/topics/202
字段变化的表在大数据中如何存储？

你的需求是宽列存储，所以用hbase比较合适，对数据的分析用SQL形式的比较多，hbase的数据存储在hdfs上所以可以读取底层的hfile文件转生hive用的文件就可以实现SQL查询了，所以用数据量大又是宽表结构就用hbase吧
当然hbase还有impala的解决方案
> load data local inpath '/opt/hive/student.txt' into table db_hivetest.student; 报错是为什么?

@姚明臣 hive存储用的是hdfs，所以你必须要保证你的hdfs没问题的基础上再去弄hive