青牛主题列表_海汼部落 | IT学习->实战为王

创始人

青牛

第 12 位会员

451 关注者

2256 评论

308 话题

WeChat
Website
公司
城市

oozie 工作流执行 hive 查询报错（偶尔），请问有遇到类似情况的吗？

@方利民没有啊，oozie会自己开一个hive会话
能讲讲数据仓库建模是什么个概念吗？他具体作用体现在哪儿？

数据仓库建模是指设置表的元数据吧。作用是为后续使用数据的程序规定好数据格式吧。对于跑程序的数据当然是使用清理完的结构化数据比较方便了。良好的仓库建模可以很清晰的定义业务，让使用者一目了然。
oozie 工作流执行 hive 查询报错（偶尔），请问有遇到类似情况的吗？

是不是HDFS上oozie使用的hive包没有上传全？
请问在 Java 中，导包太多，会不会影响性能？

已现在的计算机性能来看，基本不会
hadoop3.0.2 源码编译 enforce-banned-dependencies 失败？求大神解决！！！

你用maven编译的时候把test关了，使用-skipTest
请问现在找大数据工作用啥软件呢？

java python scala linux mysql hadoop hive hbase
spark这些都是必要的
请问 Scala 里面 mapValues (""+_+"")，这个 (""+_+"") 是什么意思呢？

意思是map里的每个value，前后加一个空字符串，返回给原map。在scala中可以代替传入的匿名变量，可以用做函数的简写，比如mapValues (""+ +"")可以写成mapValues(s => {"" + s + ""})。这里""+_+""是函数s => {"" + s + ""}的简写。 __用来代替s
hive 存储过程 hpl？？

首先安装hpsql，然后配置hplsql-site.xml，再启动hiveserver2，使用hplsql进行相关的查询。hplsql-site.xml里配置的是到hiveserver2的连接
请问 impala 计算方式不走 mr、rdd ,那他怎么个分布式并行计算的呢？

impala-server是impala的核心进程，数据的计算就靠这个进程来执行，是分布式的存在于集群中的worker进程。所以是靠impala-server来并行计算的
CDH 的安装问题 agent 总是不显示?

看样子是主机连接失败了
数据库权限问题打开表就显示这个?

把你这个hive的所有权限设置成对所有访问源有效，设置成'%'
MapReduce python 编程，你是用什么方法来统计特定单词出现次数的呢？

使用MapReduce的streaming来调用python脚本处理每一行数据，比如单词的切割，python脚本将处理的结果通过streaming返回给java程序。然后在reducer聚合再调用你的python脚本实现每个词的累加。
怎么用 java 获取 hive 的元数据？

用jdbc读mysql里的hive元库就可以了
数据批量分析提取，求指点迷津?

@q2488433945 比如可以获得，企业投资人的信息，企业的经营分类，归纳出那些投资机构对那种经营范围感兴趣，然后提供给创业者做寻找投资机构的意见。
请问时间复杂度这个怎么去通俗易懂的去理解呢？

@大中使用资源，比如内存、硬盘。