加拿大华人论坛加拿大百科有没有人自己做过spark on aws ec2的项目

日期：2022-04-28 栏目：加拿大百科

多伦多 Toronto 蒙特利尔 Montreal 温哥华 Vancouver 卡尔加里 Calgary

在加拿大

想请教一下，谢谢

评论
only on local mode

评论
正在迁移中....我这里有个spark的群，可以帮拉

评论
煮饭侠超赞赏 J J.X 2$(VIP 0,#315) 2922017-06-26#4 呵呵，我就猜cris_cc可能作过，我还在学习阶段，准备以后再上面用spark处理大量数据。有什么心得和最佳实践不妨有空科普一下。amazon aws上面的各种服务超级强大，看了之后觉得用来维护跟新数据非常方便容易，不晓得是不是错觉

评论
目前坑还是比较多，相比传统数据库而言。优点也是明显的：理论上没有上线的数据量，相对低的infrastructure成本，以及，有争议的更低的运营成本。UC Berkeley，作为Spark的摇篮，在Edx上开了几门课，感兴趣可以看一下。AWS 确实方便，部署各种应用超快。

评论
煮饭侠超赞赏 M Musers 0$(VIP 0) 3452017-06-26#6 求问一下，SPARK配SCALA 还是 PYTHON？原则上应该是SCALA好，static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序，感觉PYTHON真心不适合构建大型项目，没有type info，极容易出错，程序写大点，自己有时候都搞糊涂了。可以网上招人很多就招PYTHON，DEEP LEARNING之类的更是以PYTHON为主，鸟都不鸟SCALA...

评论
chris_cc 说:目前坑还是比较多，相比传统数据库而言。优点也是明显的：理论上没有上线的数据量，相对低的infrastructure成本，以及，有争议的更低的运营成本。UC Berkeley，作为Spark的摇篮，在Edx上开了几门课，感兴趣可以看一下。AWS 确实方便，部署各种应用超快。点击展开...多谢，最近看了spark的官方文档和aws的spark service，理论上知道了写皮毛，感觉想多看点实例这门课怎么样：Data Science and Engineering with SparkPrice:Free to AuditEffort:5 - 10 hours per week, per course.Length:2 - 4 weeks per courseCreated by: UC BerkeleyX你是自己做还是公司有项目？特别羡慕公司有项目，跟着做几次就回了，呵呵

评论
Musers 说:求问一下，SPARK配SCALA 还是 PYTHON？原则上应该是SCALA好，static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序，感觉PYTHON真心不适合构建大型项目，没有type info，极容易出错，程序写大点，自己有时候都搞糊涂了。可以网上招人很多就招PYTHON，DEEP LEARNING之类的更是以PYTHON为主，鸟都不鸟SCALA...点击展开...python，scala应该两个都需要吧估计招人的都默认你会Python就肯定会scala我用的最多的就是python，都觉得scala挺好理解的python没有type info的问题存在很久，但是它的简洁方便还是很吸引人的

评论
J.X 说:多谢，最近看了spark的官方文档和aws的spark service，理论上知道了写皮毛，感觉想多看点实例这门课怎么样：Data Science and Engineering with SparkPrice:Free to AuditEffort:5 - 10 hours per week, per course.Length:2 - 4 weeks per courseCreated by: UC BerkeleyX你是自己做还是公司有项目？特别羡慕公司有项目，跟着做几次就回了，呵呵点击展开...这就是我推荐的那门课啊。Spark本身不难，几个大模块SparkSQL，dataframe，Mlib其实就是把原来单机版的扩展到分布式，一来可以处理所谓大数据，二来可以某种程度上降低成本。目前和数据相关的业界主流越来越倾向于Python不是没有道理的，Python的缺点，性能低下，语法不严谨等等在这个行业的应用上都不是太多问题，但学习曲线平，上手难度低，尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强，可以从微软的机器学习包DMTK居然把PY作为第一支持语言，甚至排在亲儿子C#前面，就可见一斑。Scala是很好的语言，非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发，PY可能是更适合的语言。

评论
煮饭侠超赞赏反馈:Musers J J.X 2$(VIP 0,#315) 2922017-06-28#10 旁听不收钱

评论
chris_cc 说:这就是我推荐的那门课啊。Spark本身不难，几个大模块SparkSQL，dataframe，Mlib其实就是把原来单机版的扩展到分布式，一来可以处理所谓大数据，二来可以某种程度上降低成本。目前和数据相关的业界主流越来越倾向于Python不是没有道理的，Python的缺点，性能低下，语法不严谨等等在这个行业的应用上都不是太多问题，但学习曲线平，上手难度低，尤其是Python的“胶水”特性使它成为大数据时代最全面的瑞士军刀式的工具。其趋势之强，可以从微软的机器学习包DMTK居然把PY作为第一支持语言，甚至排在亲儿子C#前面，就可见一斑。Scala是很好的语言，非常适合AMP实验室这班才华横溢的小伙子们用来开发Spark。但基于Spark的应用开发，PY可能是更适合的语言。点击展开...我对不是static typed的语言有很大偏见，希望不要见怪。个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关，并不是其语言本身有多优秀，高等算法需要很深的理论知识才能搞出来，不是博士，教授之类的一般搞不出来，所以PYTHON在ML，NLP等广泛应用。很多例子可以说明PYTHON其实不适合构建大型应用，从大公司出的新语言，如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言，这些公司从实践中认为type info在工程性上是相当重要的。Python的duck typing在项目维护中简直是恶梦，Python 3出来快10年了，至今很多Python的类库只支持Python 2，我个人认为一个很大的原因是，因为缺少type info，使得refactoring变成一件痛苦的事情，间接造成类库更新慢。

评论
我可以肯定PY不是最好的语言，包括火到不行的JS。但还是哪句话，没有最好的，只有最合适的。做机器学习/人工智能的，很大一部分不是计算机科班出身，但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的，Spark是Scala。在工程的意义上，这是在那个时间点对那个团队最好的选择。但是在应用中，绝大部分Hadoop的用户其实熟悉和需要的是SQL，所以基于Java的MapReduce和基于script的pig先后先死掉，活下来的是基于SQL的Hive/Impala/Drill。对于Spark，类似的故事，Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间，PY的POC都做出来了，Java/Scala可能还在设置环境，debug………至于PY工程上的缺陷，类似没有静态类型这种，单就大数据这个行业而言，都不是什么事儿了（R表示你们慢慢聊）——我能把数据捣腾清楚就好，应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。尤其是对我这种从C/C++转过来的，PY简直像打开了一个新世界：我槽，原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上，结果就是工作效率成倍增长。网络名言“life is short， do Python”真不是吹的。兄举的Google/Facebook/MS的例子很好，但正是这几家公司，无一例外的把自家下一代的AI平台（Tensorflow，PyTorch，DMTK）押宝在了PY上，绝不是偶然之举。我对不是static typed的语言有很大偏见，希望不要见怪。个人认为PYTHON在DS的成功其实更多与它在高等学府的推广有关，并不是其语言本身有多优秀，高等算法需要很深的理论知识才能搞出来，不是博士，教授之类的一般搞不出来，所以PYTHON在ML，NLP等广泛应用。很多例子可以说明PYTHON其实不适合构建大型应用，从大公司出的新语言，如GOLANG FROM GOOGLE, SWIFT FROM APPLE, HACK FROM FACEBOOK, RUST FROM MOZILLA, C# FROM M都是清一色static typed的语言，这些公司从实践中认为type info在工程性上是相当重要的。Python的duck typing在项目维护中简直是恶梦，Python 3出来快10年了，至今很多Python的类库只支持Python 2，我个人认为一个很大的原因是，因为缺少type info，使得refactoring变成一件痛苦的事情，间接造成类库更新慢。点击展开...

评论
煮饭侠我可以肯定PY不是最好的语言，包括火到不行的JS。但还是哪句话，没有最好的，只有最合适的。做机器学习/人工智能的，很大一部分不是计算机科班出身，但这些人的成果是大数据这个行业链上最有价值的一段。Hadoop是用Java写的，Spark是Scala。在工程的意义上，这是在那个时间点对那个团队最好的选择。但是在应用中，绝大部分Hadoop的用户其实熟悉和需要的是SQL，所以基于Java的MapReduce和基于script的pig先后先死掉，活下来的是基于SQL的Hive/Impala/Drill。对于Spark，类似的故事，Scala对于非软件工程背景的用户而言学习成本还是更高了些。同样的时间，PY的POC都做出来了，Java/Scala可能还在设置环境，debug………至于PY工程上的缺陷，类似没有静态类型这种，单就大数据这个行业而言，都不是什么事儿了（R表示你们慢慢聊）——我能把数据捣腾清楚就好，应用的话交给Java/C#/Go/JS这些去做——其实PY硬着头皮也可以称自己是full stack——这不是有姜戈嘛。尤其是对我这种从C/C++转过来的，PY简直像打开了一个新世界：我槽，原来可以这么操作啊。感觉从繁琐的语言细节中解脱出来而可以专注在解决实际问题上，结果就是工作效率成倍增长。网络名言“life is short， do Python”真不是吹的。兄举的Google/Facebook/MS的例子很好，但正是这几家公司，无一例外的把自家下一代的AI平台（Tensorflow，PyTorch，DMTK）押宝在了PY上，绝不是偶然之举。点击展开...我有点好奇，依您的看法，python是做POC，exploration的，应用是交给Java之类的，那究竟有没有Production grade的大数据产品 in python呢？能稳定服务数百万用户的产品？大公司本质上可能看中的不是Python本身，而是Python所代表的高等学府，学者之类的，一般只有这类理论知识深厚的人才能玩得动AI。

评论
太多了。pyspark，airflow，h2o，tensorflow……这些都是已经有大量prod部署的产品。其实我的意思不是py做poc，prod交给其它语言，而是py适合做好数据这一块的应用，其它业务模块交给其它语言。举个例子，银行信用卡申请时的风险评估，后台的风险模型和评估可以用py来构建，再以数据库表或者web api的形式提供给其它语言。我有点好奇，依您的看法，python是做POC，exploration的，应用是交给Java之类的，那究竟有没有Production grade的大数据产品 in python呢？能稳定服务数百万用户的产品？大公司本质上可能看中的不是Python本身，而是Python所代表的高等学府，学者之类的，一般只有这类理论知识深厚的人才能玩得动AI。点击展开...

评论
煮饭侠求问一下，SPARK配SCALA 还是 PYTHON？原则上应该是SCALA好，static typing, type inference更适应构建大型的应用。用PYTHON写过几个SPARK程序，感觉PYTHON真心不适合构建大型项目，没有type info，极容易出错，程序写大点，自己有时候都搞糊涂了。可以网上招人很多就招PYTHON，DEEP LEARNING之类的更是以PYTHON为主，鸟都不鸟SCALA...点击展开...请教一下，我安装了Intellij idea，怎么选左边的scala，右边没有scala,我安装了scala plugin啊别人的是这样，有scala

评论
J.X 说:请教一下，我安装了Intellij idea，怎么选左边的scala，右边没有scala,我安装了scala plugin啊浏览附件471254别人的是这样，有scala浏览附件471255点击展开...我的也没有SCALA选项，感觉选SBT或IDEA就可以了。

评论
谢谢，困扰了两天

评论
现在加拿大的几个银行，还有walmart之类都在招spark, scala, 大摩也在招，还是要学一下scala的，会的话比较抢手

评论
sbswang 说:现在加拿大的几个银行，还有walmart之类都在招spark, scala, 大摩也在招，还是要学一下scala的，会的话比较抢手点击展开...工作的话pyspark足矣。当然艺多不压身。

评论
煮饭侠工作的话pyspark足矣。当然艺多不压身。点击展开...在多伦多这边招，人家明确要求精通Scala, 会python的人一大堆，新毕业的学一下都会，门槛低，工资也不高

·新西兰新闻吓人！奥克兰公交玻璃“被砸碎”！NZ交通严重受阻、多地停电
·新西兰新闻 NZ警察将威胁自杀男子草草送回医院，4小时后男子死亡

加拿大百科-加拿大

加拿大华人论坛加拿大百科有没有人自己做过spark on aws ec2的项目

不打游戏，我买了个游戏键盘

视频编辑器

开车的成本，我的10年Ford Edge

美食天地 - 疫后学艺(1)：冰糖酱鸭

temu霸屏，怎么驱除？

能推荐BC 中学G8-9 年级提高数学 word problem的书本，学习资料吗？谢谢

大家在拼多多上买东西了吗

听/看一场歌剧：《泰伊思》（Thais）

请问抗焦虑症的替代药物

购物省钱 - 有在美国工作往返加拿大的吗？求从美国带物

IT数码及移动互联 - ChatGPT 出了问题，不能使用了。

亚马逊账号被黑记

大统华升职！！

温哥华现在有直达北京上海的航班吗

关于立遗书

我是PR，回国期间认识了男朋友，同居超过1年。如何帮他来加拿大？学签还是团聚？

2005年的美国电影：《梦想奔驰》（Dreamer）

世界十大最丑建筑。转帖

Tims年度卷杯抽奖携全新奖品归来

赴华航班登机不再查核酸?领馆通知

加拿大华人论坛 加拿大百科有没有人自己做过spark on aws ec2的项目

相关推荐

加拿大华人论坛加拿大百科有没有人自己做过spark on aws ec2的项目