海汼部落
  • 首页
  • 课程
  • 实战
  • 云平台
  • 部落
  • 公告
  • 分享
  • 问答
    登 录 注册
创始人

青牛

第 12 位会员

447 关注者
2249 评论
308 话题

  • WeChat
  • Website
  • 公司
  • 城市
  • Ta 发布的话题
  • Ta 发表的回复
  • Ta 关注的用户
  • Ta 赞过的话题
  1. 个人中心
  2. Ta 发表的回复(2249)
  • IDEA 导入 spark 源码阅读 出错 ?

    1、pom文件中的{} 可以改为本地路径
    2、pom文件中的地址 最好是国内能快速访问的
    3、包很多 下载起来确实慢 第一次下载好了以后就快了

  • left join 陷阱之一对多导致数据量增加?

    一对多 如果用一的一边左关联多的一边 会让结果和多一边数量差不多的

  • TensorFlow 和 spark 的 ml 以及 python 的 scikit-learn 三者的区别是什么?

    TensorFlow一般做深度学习的场景多一些 比如图像识别和语音处理等 spark 的 ml 以及 python 的 scikit-learn的交集很多 比如逻辑回归等很多分类或是回归的算法 都有mllib和python的实现 但是spark的优势是可以处理数据量级高 比如TB和PB 缺点是算法种类有限 精度也没有python的好,scikit-learn处理的数据量在GB级 包内算法是最全面的,开始学习最好从scikit-learn开始 简单易上手

  • spark 可以批量处理 shp 类型文件么?该如何操作?

    能,找到对应的inputformat实现就行,如果没有就自己实现一个对应的inputFormat。

  • 大数据 spark,hadoop 和虚拟化技术 cloudstack,openstack 哪一个更有发展前景?

    目前来看两个不是一个东西,spark是全套的大数据处理方案,虚拟化技术是虚拟化资源使用的其本事并不具备大数据处理的能力。spark是大数据开发,虚拟化是偏运维。

  • 主机 Master 的空间问题?请大神解决

    @好好学习 不好意思,我打错了,我的意思是你可以给你的虚拟机再挂一个磁盘。就是用VM先新建一个虚拟盘,然后用fdisk挂载上,然后把hadoop的数据和日志都放到新挂载的磁盘上。

  • spark-sql 操作 hive 遇到的坑?

    把hive的hive-site.xml移动到spark的conf目标下试试

  • 关于 HTML?

    这个得有JS实现,你找一个应该有现成的开源工具

  • 大数据 Linux 教程

    @luo6994658 硬盘分区,文件系统都是基础,熟悉各种命令,操作文件,配置网络,查看内存硬盘空间,管理进程,运行和安装程序。你就想你在windows能完成什么操作,那这些操作在linux上怎么做那?,当然不包括玩游戏,以这种方式去对比着两个系统学习。

  • storm 的 spout 分发数据失败?

    你先看一下日志报什么错

  • 8g 内存配置 hadoop+hive 够用吗?搭建的时候需要注意哪些问题?

    1台nn 3台dn就行了

  • 8g 内存配置 hadoop+hive 够用吗?搭建的时候需要注意哪些问题?

    够用了,内存小就不用配置HA了

  • 主机 Master 的空间问题?请大神解决

    内存大小没关系,可以给修理挂盘,或者你把那些解压前的压缩包都删除掉

  • 请问 flume client 是一定要有的角色吗?

    那也是别相当是别一个client,比如在filter里直接向agent写数据

  • 如何计算大数据平台系统需要的服务器数量,集群节点数及存储容量等硬件设备参数?

    首先要知道你现有的和日增长的数据量是多少,然后先解决先有数据量能存下的问题,比如这样的集群你能稳定存一年的数据,你还得考虑有些计算任务的中间结果数据每天有多少,比如日增量的10%。当然计算的中间结果数据可以定期清理掉让其保持一定量级。你还得考虑数据冗余的空间,比如你有3个数据副本,那你的数据使用空间就得乘以3。
    集群中的存储结果一般也就是计算节点,所以做存储的服务器一般CPU和内存也不要太差,不然以后指定后悔。
    一般的服务器集群的配置推荐16核以上CPU,60G以上内存,2T总数据存储,数据盘不用做raid,因为hadoop有备份数据的功能。网络至少千M以上。

  • «
  • 1
  • 2
  • ...
  • 107
  • 108
  • 109
  • 110
  • 111
  • 112
  • 113
  • ...
  • 145
  • 146
  • »

为技术学习者提供一个动手实战、分享创造、结识伙伴、协同互助的平台。    

  京公网安备 11011402010672号        京ICP备17041118号-2