胡红*同学

面经 xug9998 ⋅ 于 2020-08-20 13:58:23 ⋅ 1777 阅读

面试总结
关于投简历,几乎没有当天或者第二天就给面邀的,我这边,第一家面试的,是周三投,周五晚上才给面邀,第二家面试的是上周三投,这周一才给面邀,然后上周三投的,还有昨天面试完才给我电话面邀的,那只能说不好意思,然后推掉了,因为不想面了。所以,大家只需要每天投一批,然后边复习,边安心等待,边继续投递即可,不用感觉是投了简历没有回应,从而很焦躁,嗯,没必要,是金子总会发光的,投了简历总会有面邀的(只要投递的比被拒绝的多)许老师说的很对,让你的简历飞一会。
关于面试,其实没啥说的,目前就面试了两家,不准备再继续面了,而面试过程很简单,所以也没啥干货。
这两家都是初创公司,面试都只有一轮,第一家上来写了两个编程题,一个是写二分查找的函数(在Java中就是方法),一个是求两个整数的最大公约数;再然后就是等待面试了。
第二家,是先填了一张面试登记表,之后直接进入面试。

第一家:面试流程概述
面试的过程都没有技术问答,都是自我介绍+项目讲解(讲了简历中写的所有项目流程)+谈人生理想,然后由于项目讲的比较详细些,按照老师说的,讲项目需求,然后讲项目遇到的问题以及如何解决的,这些都主动讲了,所以面试官也没有问诸如“项目中遇到了什么问题,都是怎么解决的”这种问题。
在第一家,针对网页正文实时抽取项目,因为提到了最终存储到ES和Hbase中,所以面试官问了ES和Hbase这两种存储的区别以及使用场景(嗯,大概就是这个意思的问题),我当时就是随便扯的,具体怎么回答请各位自己思考吧,我就不说了,免得说错了误导大家。
因为etl项目都是离线处理的,问我有没有实时分析处理的,我直接就说因为是生产制造业(我套的公司是我最近的一家电子厂),就是一些对数据简单的处理,并且是对内的,所以没有涉及过数据实时分析处理,然后处理数据保存也是保存在Hive中,然后面试官提到Hive延时性高,有没有其它更快的适合做数据存储分析的仓储,我就说的我们只用了Hive和Mysql,其中Hive是用来做存储分析的,而Mysql是用来存储Hive分析结果的,然后从Mysql中查询结果可以比较快,不会有延时,报表也是直接连接展示的Mysql数据,至于实时性,没有那要求!!!然后我也说了,我在之前工作没有太了解仓储这一块,这也是我的短板,也希望在以后的工作中学习。
问了公司每天处理的数据量以及时间,这个。。。你们自己最好也提前根据自己的项目设定下。我觉得,即使项目流程他们听不懂,然而到了这个实际问题,你回答不好或者犹豫太久,也容易让面试官怀疑。
让手写了一个sql语句,当时说的是用sql、或者程序实现都行,我一看题目,当然sql简单啊,但是。。。我写了半天没写出来,然后只好尴尬地说,一时忘记怎么写了,但我也特别给面试官讲了一下思路用来挽回印象,没错,就是一道简单的窗口函数(row_number),题目是这样的“请给出各个城市商品销量前三的商品名称”,从这两天群里发的面试的sql来看,这个是最简单的窗口函数了,但也说明了,窗口函数真的重要!很重要!!非常重要!!!请大家一定要慎之,思之,熟记之。。。
因为看了我的简历中有写Linux系统,所以又问了一些简单的Linux命令,比如如何监控日志,如何查看进程ID,grep 和 find 的区别。说到这里,再说碰到的问题,就是如何查看磁盘剩余空间。
最后就真的是聊天一样了,问我对未来大数据的看法,我能说什么,我能想到的也只有:未来数据量会越来越大,对于数据处理的速度要求也会越来越快,但同时也要兼顾稳定性,以后是数字时代,大数据是时代趋势。。。。。反正就是扯呗,哈哈
问我能不能搭集群,能不能带团队,当团队领导最重要的是什么,呃,这个问题,我当时也只想到了“沟通,沟通很重要”,其实后来想想,技术也同样重要啊,自己没有技术,怎么跟一群技术宅男沟通啊,至于有没有其它的,大家自由发挥吧。
问我平时有没有练习,有没有看书(开国际玩笑,这么严肃的问题,即使没有也得硬着头皮说有啊)然后问我看哪些书,嗯,我就把在班里看到别的同学买的放到桌子上的能记着的书名说了两个,什么Hadoop权威指南啊,Linux菜鸟私房菜啊什么的。
让我给自己的学习能力打分,还问我为什么打这么多,我去,随便扯呗(打低了你会要我么,不过太高了也让人觉得自负,毕竟是一个连窗口函数都没写出来的人,所以采取了中庸之道:8分。。。)
最后就是谈为什么要换工作啊,嗯,这个我面的两家都有问,大家最好也提前设定下,以防万一。。。
第二家:面试流程概述
全程讲项目,嗯,这次是在会议室面试,有画板,直接在画板上边画边讲,讲了全部项目,而且相似度推荐的也讲了,但讲的很烂,不过,被我以,制造业,项目都对内,项目时间长,而这个项目进行时间还比较短,没啥实际进展为由给搪塞过去了。。。其实后续,问的很多问题,我基本都以对内为由来推脱的。。。
对于所讲的项目,他们主要问了爬虫项目,因为后来交谈的过程中才了解到,他们也主要做爬虫这一块,具体问题如下:在项目二中,爬取的html源码保存在HDFS上,是以什么格式?
爬取的正文是保存在哪里,有没有带格式(我理解的就是带不带span标签啥的,我就说是纯正文,不带格式),后续有没有其它处理展示(我说是对内的,给到市场分析运营部门,他们直接根据关键字通过ES查询,我们将内容存到ES中不做任何处理),有没有带标题,关于重复爬取的问题怎么解决,大概有多少个url,爬取的数据量有少?每天都爬取一遍吗?我回答是每天爬取一遍,所以问我,爬取一次大概多长时间?是定时任务爬取,还是?
嗯,基本也就上面这些实际的项目问题了。

版权声明:原创作品,允许转载,转载时务必以超链接的形式表明出处和作者信息。否则将追究法律责任。来自海牛部落-xug9998,http://hainiubl.com/topics/75289
成为第一个点赞的人吧 :bowtie:
回复数量: 0
    暂无评论~~
    • 请注意单词拼写,以及中英文排版,参考此页
    • 支持 Markdown 格式, **粗体**、~~删除线~~、`单行代码`, 更多语法请见这里 Markdown 语法
    • 支持表情,可用Emoji的自动补全, 在输入的时候只需要 ":" 就可以自动提示了 :metal: :point_right: 表情列表 :star: :sparkles:
    • 上传图片, 支持拖拽和剪切板黏贴上传, 格式限制 - jpg, png, gif,教程
    • 发布框支持本地存储功能,会在内容变更时保存,「提交」按钮点击时清空
    Ctrl+Enter