大数据存储中小文件怎么存储?

问答 ruiqi ⋅ 于 2018-11-07 12:30:25 ⋅ 最后回复由 ruiqi 2018-11-08 16:52:28 ⋅ 84 阅读

我们需要存储中小文件,单个文件大小是在512kb.并且提供后面下载使用。
个人看了不少开源实现方案。

  1. hdfs 不适合存储小文件,但是我们的图像可以聚合成大文件中间增加了一部聚合操作,如果后期存在图像无法根据业务聚合在一起。容易出现文件小的问题。
    1. 看了facebook图片实现方案,但是我们只需要用到存储即可,不符合我们现在的业务方向。
    2. habse实现文件存入,貌似只能把文件序列化成二级制保存?
      以上是我自己找到的方案,想问下大家有问有更适合保存小文件的方案.或者是在hdfs 和habse 上有啥其他的解决方案嘛?
回复数量: 4
  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2018-11-07 17:29:13

    看一下FastDFS

  • ruiqi
    2018-11-07 18:04:12

    @青牛 我们现在的数据量是每天2T的量级,这样能抗的住嘛?后期可能增加到4T的级别

  • 青牛 国内首批大数据从业者,就职于金山,担任大数据团队核心研发工程师
    2018-11-08 16:43:45

    @ruiqi 2t 这个数据量的话 还是hdfs比较好 可以考虑把一定量的小数据压缩为一个文件

  • ruiqi
    2018-11-08 16:52:28

    @青牛 嗯呢明白了。我们内部决定大小文件分开,能聚合超过64m的数据全部聚合存储了。谢谢

暂无评论~~
  • 请注意单词拼写,以及中英文排版,参考此页
  • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
  • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
  • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
  • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
Ctrl+Enter