加拿大华人论坛 加拿大百科有没有人自己做过spark on aws ec2的项目
在加拿大
想请教一下,谢谢
评论
only on local mode
评论
正在迁移中....我这里有个spark的群,可以帮拉
评论
煮饭侠 超赞 赏 J J.X 2$(VIP 0,#315) 2922017-06-26#4 呵呵,我就猜cris_cc可能作过,我还在学习阶段,准备以后再上面用spark处理大量数据。有什么心得和最佳实践不妨有空科普一下。amazon aws上面的各种服务超级强大,看了之后觉得用来维护跟新数据非常方便容易,不晓得是不是错觉
评论
目前坑还是比较多,相比传统数据库而言。优点也是明显的:理论上没有上线的数据量,相对低的infrastructure成本,以及,有争议的更低的运营成本。UC Berkeley,作为Spark的摇篮,在Edx上开了几门课, 感兴趣可以看一下。AWS 确实方便,部署各种应用超快。
评论
煮饭侠 超赞 赏 M Musers 0$(VIP 0) 3452017-06-26#6 求问一下,SPARK配SCALA 还是 PYTHON?原则上应该是SCALA好,static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序,感觉PYTHON真心不适合构建大型项目,没有type info,极容易出错,程序写大点,自己有时候都搞糊涂了。可以网上招人很多就招PYTHON,DEEP LEARNING之类的更是以PYTHON为主,鸟都不鸟SCALA...
评论
chris_cc 说:目前坑还是比较多,相比传统数据库而言。优点也是明显的:理论上没有上线的数据量,相对低的infrastructure成本,以及,有争议的更低的运营成本。UC Berkeley,作为Spark的摇篮,在Edx上开了几门课, 感兴趣可以看一下。AWS 确实方便,部署各种应用超快。点击展开...多谢,最近看了spark的官方文档和aws的spark service,理论上知道了写皮毛,感觉想多看点实例这门课怎么样:Data Science and Engineering with SparkPrice:Free to AuditEffort:5 - 10 hours per week, per course.Length:2 - 4 weeks per courseCreated by: UC BerkeleyX你是自己做还是公司有项目?特别羡慕公司有项目,跟着做几次就回了,呵呵
评论
Musers 说:求问一下,SPARK配SCALA 还是 PYTHON?原则上应该是SCALA好,static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序,感觉PYTHON真心不适合构建大型项目,没有type info,极容易出错,程序写大点,自己有时候都搞糊涂了。可以网上招人很多就招PYTHON,DEEP LEARNING之类的更是以PYTHON为主,鸟都不鸟SCALA...点击展开...python,scala应该两个都需要吧估计招人的都默认你会Python就肯定会scala我用的最多的就是python,都觉得scala挺好理解的python没有type info的问题存在很久,但是它的简洁方便还是很吸引人的
评论
J.X 说:多谢,最近看了spark的官方文档和aws的spark service,理论上知道了写皮毛,感觉想多看点实例这门课怎么样:Data Science and Engineering with SparkPrice:Free to AuditEffort:5 - 10 hours per week, per course.Length:2 - 4 weeks per courseCreated by: UC BerkeleyX你是自己做还是公司有项目?特别羡慕公司有项目,跟着做几次就回了,呵呵点击展开...这就是我推荐的那门课啊。Spark本身不难,几个大模块SparkSQL,dataframe,Mlib其实就是把原来单机版的扩展到分布式,一来可以处理所谓大数据,二来可以某种程度上降低成本。目前和数据相关的业界主流越来越倾向于Python不是没有道理的,Python的缺点,性能低下,语法不严谨等等在这个行业的应用上都不是太多问题,但学习曲线平,上手难度低,尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强,可以从微软的机器学习包DMTK居然把PY作为第一支持语言,甚至排在亲儿子C#前面,就可见一斑。Scala是很好的语言,非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发,PY可能是更适合的语言。
评论
煮饭侠 超赞 赏 反馈:Musers J J.X 2$(VIP 0,#315) 2922017-06-28#10 旁听不收钱
评论
chris_cc 说:这就是我推荐的那门课啊。Spark本身不难,几个大模块SparkSQL,dataframe,Mlib其实就是把原来单机版的扩展到分布式,一来可以处理所谓大数据,二来可以某种程度上降低成本。目前和数据相关的业界主流越来越倾向于Python不是没有道理的,Python的缺点,性能低下,语法不严谨等等在这个行业的应用上都不是太多问题,但学习曲线平,上手难度低,尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强,可以从微软的机器学习包DMTK居然把PY作为第一支持语言,甚至排在亲儿子C#前面,就可见一斑。Scala是很好的语言,非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发,PY可能是更适合的语言。点击展开...我对不是static typed的语言有很大偏见,希望不要见怪。个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关,并不是其语言本身有多优秀,高等算法需要很深的理论知识才能搞出来,不是博士,教授之类的一般搞不出来,所以PYTHON在ML,NLP等广泛应用。很多例子可以说明PYTHON其实不适合构建大型应用,从大公司出的新语言,如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言,这些公司从实践中认为type info在工程性上是相当重要的。Python的duck typing在项目维护中简直是恶梦,Python 3出来快10年了,至今很多Python的类库只支持Python 2,我个人认为一个很大的原因是,因为缺少type info,使得refactoring变成一件痛苦的事情,间接造成类库更新慢。
评论
我可以肯定PY不是最好的语言,包括火到不行的JS。但还是哪句话,没有最好的,只有最合适的。做机器学习/人工智能的,很大一部分不是计算机科班出身,但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的,Spark是Scala。在工程的意义上,这是在那个时间点对那个团队最好的选择。但是在应用中,绝大部分Hadoop的用户其实熟悉和需要的是SQL,所以基于Java的MapReduce和基于script的pig先后先死掉,活下来的是基于SQL的Hive/Impala/Drill。对于Spark,类似的故事,Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间,PY的POC都做出来了,Java/Scala可能还在设置环境,debug………至于PY工程上的缺陷,类似没有静态类型这种,单就大数据这个行业而言,都不是什么事儿了(R表示你们慢慢聊)——我能把数据捣腾清楚就好,应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。尤其是对我这种从C/C++转过来的,PY简直像打开了一个新世界:我槽,原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上,结果就是工作效率成倍增长。网络名言“life is short, do Python”真不是吹的。兄举的Google/Facebook/MS的例子很好,但正是这几家公司,无一例外的把自家下一代的AI平台(Tensorflow,PyTorch,DMTK)押宝在了PY上,绝不是偶然之举。我对不是static typed的语言有很大偏见,希望不要见怪。个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关,并不是其语言本身有多优秀,高等算法需要很深的理论知识才能搞出来,不是博士,教授之类的一般搞不出来,所以PYTHON在ML,NLP等广泛应用。很多例子可以说明PYTHON其实不适合构建大型应用,从大公司出的新语言,如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言,这些公司从实践中认为type info在工程性上是相当重要的。Python的duck typing在项目维护中简直是恶梦,Python 3出来快10年了,至今很多Python的类库只支持Python 2,我个人认为一个很大的原因是,因为缺少type info,使得refactoring变成一件痛苦的事情,间接造成类库更新慢。点击展开...
评论
煮饭侠我可以肯定PY不是最好的语言,包括火到不行的JS。但还是哪句话,没有最好的,只有最合适的。做机器学习/人工智能的,很大一部分不是计算机科班出身,但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的,Spark是Scala。在工程的意义上,这是在那个时间点对那个团队最好的选择。但是在应用中,绝大部分Hadoop的用户其实熟悉和需要的是SQL,所以基于Java的MapReduce和基于script的pig先后先死掉,活下来的是基于SQL的Hive/Impala/Drill。对于Spark,类似的故事,Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间,PY的POC都做出来了,Java/Scala可能还在设置环境,debug………至于PY工程上的缺陷,类似没有静态类型这种,单就大数据这个行业而言,都不是什么事儿了(R表示你们慢慢聊)——我能把数据捣腾清楚就好,应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。尤其是对我这种从C/C++转过来的,PY简直像打开了一个新世界:我槽,原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上,结果就是工作效率成倍增长。网络名言“life is short, do Python”真不是吹的。兄举的Google/Facebook/MS的例子很好,但正是这几家公司,无一例外的把自家下一代的AI平台(Tensorflow,PyTorch,DMTK)押宝在了PY上,绝不是偶然之举。点击展开...我有点好奇,依您的看法,python是做POC,exploration的,应用是交给Java之类的,那究竟有没有Production grade的大数据产品 in python呢?能稳定服务数百万用户的产品?大公司本质上可能看中的不是Python本身,而是Python所代表的高等学府,学者之类的,一般只有这类理论知识深厚的人才能玩得动AI。
评论
太多了。pyspark,airflow,h2o,tensorflow……这些都是已经有大量prod部署的产品。其实我的意思不是py做poc,prod交给其它语言,而是py适合做好数据这一块的应用,其它业务模块交给其它语言。举个例子,银行信用卡申请时的风险评估,后台的风险模型和评估可以用py来构建,再以数据库表或者web api的形式提供给其它语言。我有点好奇,依您的看法,python是做POC,exploration的,应用是交给Java之类的,那究竟有没有Production grade的大数据产品 in python呢?能稳定服务数百万用户的产品?大公司本质上可能看中的不是Python本身,而是Python所代表的高等学府,学者之类的,一般只有这类理论知识深厚的人才能玩得动AI。点击展开...
评论
煮饭侠求问一下,SPARK配SCALA 还是 PYTHON?原则上应该是SCALA好,static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序,感觉PYTHON真心不适合构建大型项目,没有type info,极容易出错,程序写大点,自己有时候都搞糊涂了。可以网上招人很多就招PYTHON,DEEP LEARNING之类的更是以PYTHON为主,鸟都不鸟SCALA...点击展开...请教一下,我安装了Intellij idea,怎么选左边的scala,右边没有scala,我安装了scala plugin啊别人的是这样,有scala
评论
J.X 说:请教一下,我安装了Intellij idea,怎么选左边的scala,右边没有scala,我安装了scala plugin啊浏览附件471254别人的是这样,有scala浏览附件471255点击展开...我的也没有SCALA选项,感觉选SBT或IDEA就可以了。
评论
谢谢,困扰了两天
评论
现在加拿大的几个银行,还有walmart之类都在招spark, scala, 大摩也在招,还是要学一下scala的,会的话比较抢手
评论
sbswang 说:现在加拿大的几个银行,还有walmart之类都在招spark, scala, 大摩也在招,还是要学一下scala的,会的话比较抢手点击展开...工作的话pyspark足矣。当然艺多不压身。
评论
煮饭侠工作的话pyspark足矣。当然艺多不压身。点击展开...在多伦多这边招,人家明确要求精通Scala, 会python的人一大堆,新毕业的学一下都会,门槛低,工资也不高
·中文新闻 澳大利亚反犹太主义:新南威尔士州警方称 Woollahra 破坏行为“
·中文新闻 出于福利考虑,医院取消了见习妇产科医生的资格