加拿大华人论坛 加拿大百科有没有人自己做过spark on aws ec2的项目



在加拿大


想请教一下,谢谢

评论
only on local mode

评论
正在迁移中....我这里有个spark的群,可以帮拉

评论
煮饭侠 超赞 赏 J J.X 2$(VIP 0,#315) 2922017-06-26#4 呵呵,我就猜cris_cc可能作过,我还在学习阶段,准备以后再上面用spark处理大量数据。有什么心得和最佳实践不妨有空科普一下。amazon aws上面的各种服务超级强大,看了之后觉得用来维护跟新数据非常方便容易,不晓得是不是错觉

评论
目前坑还是比较多,相比传统数据库而言。优点也是明显的:理论上没有上线的数据量,相对低的infrastructure成本,以及,有争议的更低的运营成本。UC Berkeley,作为Spark的摇篮,在Edx上开了几门课, 感兴趣可以看一下。AWS 确实方便,部署各种应用超快。

评论
煮饭侠 超赞 赏 M Musers 0$(VIP 0) 3452017-06-26#6 求问一下,SPARK配SCALA 还是 PYTHON?原则上应该是SCALA好,static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序,感觉PYTHON真心不适合构建大型项目,没有type info,极容易出错,程序写大点,自己有时候都搞糊涂了。可以网上招人很多就招PYTHON,DEEP LEARNING之类的更是以PYTHON为主,鸟都不鸟SCALA...

评论
chris_cc 说:目前坑还是比较多,相比传统数据库而言。优点也是明显的:理论上没有上线的数据量,相对低的infrastructure成本,以及,有争议的更低的运营成本。UC Berkeley,作为Spark的摇篮,在Edx上开了几门课, 感兴趣可以看一下。AWS 确实方便,部署各种应用超快。点击展开...多谢,最近看了spark的官方文档和aws的spark service,理论上知道了写皮毛,感觉想多看点实例这门课怎么样:Data Science and Engineering with SparkPrice:Free to AuditEffort:5 - 10 hours per week, per course.Length:2 - 4 weeks per courseCreated by: UC BerkeleyX你是自己做还是公司有项目?特别羡慕公司有项目,跟着做几次就回了,呵呵

评论
Musers 说:求问一下,SPARK配SCALA 还是 PYTHON?原则上应该是SCALA好,static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序,感觉PYTHON真心不适合构建大型项目,没有type info,极容易出错,程序写大点,自己有时候都搞糊涂了。可以网上招人很多就招PYTHON,DEEP LEARNING之类的更是以PYTHON为主,鸟都不鸟SCALA...点击展开...python,scala应该两个都需要吧估计招人的都默认你会Python就肯定会scala我用的最多的就是python,都觉得scala挺好理解的python没有type info的问题存在很久,但是它的简洁方便还是很吸引人的

评论
J.X 说:多谢,最近看了spark的官方文档和aws的spark service,理论上知道了写皮毛,感觉想多看点实例这门课怎么样:Data Science and Engineering with SparkPrice:Free to AuditEffort:5 - 10 hours per week, per course.Length:2 - 4 weeks per courseCreated by: UC BerkeleyX你是自己做还是公司有项目?特别羡慕公司有项目,跟着做几次就回了,呵呵点击展开...这就是我推荐的那门课啊。Spark本身不难,几个大模块SparkSQL,dataframe,Mlib其实就是把原来单机版的扩展到分布式,一来可以处理所谓大数据,二来可以某种程度上降低成本。目前和数据相关的业界主流越来越倾向于Python不是没有道理的,Python的缺点,性能低下,语法不严谨等等在这个行业的应用上都不是太多问题,但学习曲线平,上手难度低,尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强,可以从微软的机器学习包DMTK居然把PY作为第一支持语言,甚至排在亲儿子C#前面,就可见一斑。Scala是很好的语言,非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发,PY可能是更适合的语言。

评论
煮饭侠 超赞 赏 反馈:Musers J J.X 2$(VIP 0,#315) 2922017-06-28#10 旁听不收钱

评论
chris_cc 说:这就是我推荐的那门课啊。Spark本身不难,几个大模块SparkSQL,dataframe,Mlib其实就是把原来单机版的扩展到分布式,一来可以处理所谓大数据,二来可以某种程度上降低成本。目前和数据相关的业界主流越来越倾向于Python不是没有道理的,Python的缺点,性能低下,语法不严谨等等在这个行业的应用上都不是太多问题,但学习曲线平,上手难度低,尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强,可以从微软的机器学习包DMTK居然把PY作为第一支持语言,甚至排在亲儿子C#前面,就可见一斑。Scala是很好的语言,非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发,PY可能是更适合的语言。点击展开...我对不是static typed的语言有很大偏见,希望不要见怪。个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关,并不是其语言本身有多优秀,高等算法需要很深的理论知识才能搞出来,不是博士,教授之类的一般搞不出来,所以PYTHON在ML,NLP等广泛应用。很多例子可以说明PYTHON其实不适合构建大型应用,从大公司出的新语言,如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言,这些公司从实践中认为type info在工程性上是相当重要的。Python的duck typing在项目维护中简直是恶梦,Python 3出来快10年了,至今很多Python的类库只支持Python 2,我个人认为一个很大的原因是,因为缺少type info,使得refactoring变成一件痛苦的事情,间接造成类库更新慢。

评论
我可以肯定PY不是最好的语言,包括火到不行的JS。但还是哪句话,没有最好的,只有最合适的。做机器学习/人工智能的,很大一部分不是计算机科班出身,但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的,Spark是Scala。在工程的意义上,这是在那个时间点对那个团队最好的选择。但是在应用中,绝大部分Hadoop的用户其实熟悉和需要的是SQL,所以基于Java的MapReduce和基于script的pig先后先死掉,活下来的是基于SQL的Hive/Impala/Drill。对于Spark,类似的故事,Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间,PY的POC都做出来了,Java/Scala可能还在设置环境,debug………至于PY工程上的缺陷,类似没有静态类型这种,单就大数据这个行业而言,都不是什么事儿了(R表示你们慢慢聊)——我能把数据捣腾清楚就好,应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。尤其是对我这种从C/C++转过来的,PY简直像打开了一个新世界:我槽,原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上,结果就是工作效率成倍增长。网络名言“life is short, do Python”真不是吹的。兄举的Google/Facebook/MS的例子很好,但正是这几家公司,无一例外的把自家下一代的AI平台(Tensorflow,PyTorch,DMTK)押宝在了PY上,绝不是偶然之举。我对不是static typed的语言有很大偏见,希望不要见怪。个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关,并不是其语言本身有多优秀,高等算法需要很深的理论知识才能搞出来,不是博士,教授之类的一般搞不出来,所以PYTHON在ML,NLP等广泛应用。很多例子可以说明PYTHON其实不适合构建大型应用,从大公司出的新语言,如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言,这些公司从实践中认为type info在工程性上是相当重要的。Python的duck typing在项目维护中简直是恶梦,Python 3出来快10年了,至今很多Python的类库只支持Python 2,我个人认为一个很大的原因是,因为缺少type info,使得refactoring变成一件痛苦的事情,间接造成类库更新慢。点击展开...

评论
煮饭侠我可以肯定PY不是最好的语言,包括火到不行的JS。但还是哪句话,没有最好的,只有最合适的。做机器学习/人工智能的,很大一部分不是计算机科班出身,但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的,Spark是Scala。在工程的意义上,这是在那个时间点对那个团队最好的选择。但是在应用中,绝大部分Hadoop的用户其实熟悉和需要的是SQL,所以基于Java的MapReduce和基于script的pig先后先死掉,活下来的是基于SQL的Hive/Impala/Drill。对于Spark,类似的故事,Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间,PY的POC都做出来了,Java/Scala可能还在设置环境,debug………至于PY工程上的缺陷,类似没有静态类型这种,单就大数据这个行业而言,都不是什么事儿了(R表示你们慢慢聊)——我能把数据捣腾清楚就好,应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。尤其是对我这种从C/C++转过来的,PY简直像打开了一个新世界:我槽,原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上,结果就是工作效率成倍增长。网络名言“life is short, do Python”真不是吹的。兄举的Google/Facebook/MS的例子很好,但正是这几家公司,无一例外的把自家下一代的AI平台(Tensorflow,PyTorch,DMTK)押宝在了PY上,绝不是偶然之举。点击展开...我有点好奇,依您的看法,python是做POC,exploration的,应用是交给Java之类的,那究竟有没有Production grade的大数据产品 in python呢?能稳定服务数百万用户的产品?大公司本质上可能看中的不是Python本身,而是Python所代表的高等学府,学者之类的,一般只有这类理论知识深厚的人才能玩得动AI。

评论
太多了。pyspark,airflow,h2o,tensorflow……这些都是已经有大量prod部署的产品。其实我的意思不是py做poc,prod交给其它语言,而是py适合做好数据这一块的应用,其它业务模块交给其它语言。举个例子,银行信用卡申请时的风险评估,后台的风险模型和评估可以用py来构建,再以数据库表或者web api的形式提供给其它语言。我有点好奇,依您的看法,python是做POC,exploration的,应用是交给Java之类的,那究竟有没有Production grade的大数据产品 in python呢?能稳定服务数百万用户的产品?大公司本质上可能看中的不是Python本身,而是Python所代表的高等学府,学者之类的,一般只有这类理论知识深厚的人才能玩得动AI。点击展开...

评论
煮饭侠求问一下,SPARK配SCALA 还是 PYTHON?原则上应该是SCALA好,static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序,感觉PYTHON真心不适合构建大型项目,没有type info,极容易出错,程序写大点,自己有时候都搞糊涂了。可以网上招人很多就招PYTHON,DEEP LEARNING之类的更是以PYTHON为主,鸟都不鸟SCALA...点击展开...请教一下,我安装了Intellij idea,怎么选左边的scala,右边没有scala,我安装了scala plugin啊别人的是这样,有scala

评论
J.X 说:请教一下,我安装了Intellij idea,怎么选左边的scala,右边没有scala,我安装了scala plugin啊浏览附件471254别人的是这样,有scala浏览附件471255点击展开...我的也没有SCALA选项,感觉选SBT或IDEA就可以了。

评论
谢谢,困扰了两天

评论
现在加拿大的几个银行,还有walmart之类都在招spark, scala, 大摩也在招,还是要学一下scala的,会的话比较抢手

评论
sbswang 说:现在加拿大的几个银行,还有walmart之类都在招spark, scala, 大摩也在招,还是要学一下scala的,会的话比较抢手点击展开...工作的话pyspark足矣。当然艺多不压身。

评论
煮饭侠工作的话pyspark足矣。当然艺多不压身。点击展开...在多伦多这边招,人家明确要求精通Scala, 会python的人一大堆,新毕业的学一下都会,门槛低,工资也不高

  ·生活百科 【请问:墨尔本有没有单独卖被套和枕套的地方? 】
·房产房屋 池底那个黑色的小东西是什么?

加拿大百科-加拿大

不打游戏,我买了个游戏键盘

华人网原因无他,好键盘都是游戏键盘 我最基本的诉求是键帽字体清晰可见。我打字时虽然会盲打,但有些键还是要看的,例如数字/符号键、F功能键等。当把眼睛从屏幕转到键盘时,由于屏 ...

加拿大百科-加拿大

视频编辑器

华人网最近去百幕大,波士顿旅行,拍了不少视频。有的是用相机拍的,有的是用GoPro 拍的。想把这些视频根据日期,地点等加在一起。谷歌后发现微软Windows 11 带有 Clipchamp 这个视频编辑器, ...

加拿大百科-加拿大

开车的成本,我的10年Ford Edge

华人网我的福特开了10年,里程是85000公里,去养护时,问了一下这些年花费了多少维修费用?工作人员告诉我一共$4700,加上我前两年换了轮胎$1000,电池几百刀,合计6千多加元。在国内时我 ...

加拿大百科-加拿大

temu霸屏,怎么驱除?

华人网随便打开一个网页,发现temu的广告到处都是,上下左右,霸占了一大半面积,简直是强行抢占了别人的页面,非常离谱。我试图使用Google Report an ad/listing功能,填写Complaint on multiple ad ...

加拿大百科-加拿大

大家在拼多多上买东西了吗

华人网拼多多最近在加拿大开店了。 评论 拼多多app被Goolge下架了。Google suspends Chinas Pinduoduo app on security concernsAlphabet Incs Google suspended the Play version of PDD Holdings Incs Pinduoduo app for security concerns ...

加拿大百科-加拿大

请问抗焦虑症的替代药物

华人网家人在国内一直每天服用下面两种抗焦虑症的药,试过其他药都没有效果。准备回加拿大了,但是在加拿大的医保卡已经过期,另外不知道来加拿大有没有同样的替代药物?请问有没有 ...

加拿大百科-加拿大

亚马逊账号被黑记

华人网上来报个到,亚马逊账号被黑了,都不知道对方是怎么操作的...故事有点长,等有时间了再来更新。 评论 现在都有two step authentication,还能被黑,难道魔高一丈?最有效的解决途径是打 ...

加拿大百科-加拿大

大统华升职!!

华人网在大统华做supervisor要什么条件才可以升副主管,主管?薪水大约多少? 评论 大统华labor太卷了 评论 zxzwan2010 说:大统华labor太卷了点击展开...我问卷不卷了吗? 评论 赞!!! 太棒啦! ...

加拿大百科-加拿大

关于立遗书

华人网大家觉得有必要立遗嘱吗在安省 现在自住房想以后留给孩子独生子 评论 有比没有好, 没有的话万一有事真的很麻烦 评论 平安书有钱有业有孩子的必须做,如果大吉利是忽然走了,所 ...

加拿大百科-加拿大

世界十大最丑建筑。转帖

华人网互联网 榜首反而最具设计感? 评论 美学向来没有一定的準则,每个人的审美观各有不同,话虽如此,但当大多数人都认为一件事物是美或醜,总会有一定的参考价值。 评论 早前国外一 ...