d*y
2 楼
最近组里有一个project,跑spark sql, input就是SQL读取snowflake,output是
dataframe存到 AWS s3
有趣的地方在于每个sql跑的时候要考虑dependencies,因为有些sql depends on 其他
sql job产生的dataframe,不能全部乱序一起跑。所以搞了个dag用拓扑排序解决了。
再后来发现AWS 的account同时最多用300个EC2,现在跑的时候是用那些EC2来构造EMR
。每次月初跑的时候,别的team也在share这个AWS account,所以真正跑的时候,不够
EC2。每个月现在需要大约跑50个sql
现在的解决方案是用一台memory足够大的EMR来按拓扑排序来跑那50个spark sql job。
问题是,能不能做到用kubernete做cluster management管理整个AWS SHARED ACCOUNT
下那300个EC2,然后用airflow或者KUBEFLOW来把50多个job schedule上不止一个EMR上
呢?
希望能做到多个EMR同时跑多个没有dependencies的spark sql job,而不是一个EMR按
顺序来跑50个job。目前已经有纯java code自己写resource manager和scheduler的方
案,想知道能不能在kubernete + {kubeflow | airflow}上做得更好
dataframe存到 AWS s3
有趣的地方在于每个sql跑的时候要考虑dependencies,因为有些sql depends on 其他
sql job产生的dataframe,不能全部乱序一起跑。所以搞了个dag用拓扑排序解决了。
再后来发现AWS 的account同时最多用300个EC2,现在跑的时候是用那些EC2来构造EMR
。每次月初跑的时候,别的team也在share这个AWS account,所以真正跑的时候,不够
EC2。每个月现在需要大约跑50个sql
现在的解决方案是用一台memory足够大的EMR来按拓扑排序来跑那50个spark sql job。
问题是,能不能做到用kubernete做cluster management管理整个AWS SHARED ACCOUNT
下那300个EC2,然后用airflow或者KUBEFLOW来把50多个job schedule上不止一个EMR上
呢?
希望能做到多个EMR同时跑多个没有dependencies的spark sql job,而不是一个EMR按
顺序来跑50个job。目前已经有纯java code自己写resource manager和scheduler的方
案,想知道能不能在kubernete + {kubeflow | airflow}上做得更好
r*g
3 楼
我准备不学这个,因为好像他能做的segment tree都能做,是不是?求指点。
r*9
9 楼
这个和segment tree都要会
z*n
10 楼
原来BIT还有个这么装逼的别名啊。。BIT和KMP这些没见考过,不过为了保险起见,确
保万无一失,还是练练吧。1D 2D都练一遍,花不了半天时间,图个安心。
保万无一失,还是练练吧。1D 2D都练一遍,花不了半天时间,图个安心。
u*s
11 楼
除了空间优化以外,其它和segment tree差别不大,面试时候实现还更复杂
相关阅读
最爱win8/win8.1的新闻app刚在百度云上搞了一堆漫画5C flop了?请教一个tmobile手机的问题智能手机上的手势识别【求救】升级了win 8.1 Browser上不了网升级到IE11,Pocket没法登录了Win8.1 这个提示似乎卡住了,怎么解?mail.yahoo容量直接1T了啊~请教买iphone 5s 金色(准备带回国内用)ROOT精灵1.4.2发布 率先支持三星Note3全系列一键ROOTgoogle比什么facebook,twitter更应该有前途据说Nexus 5是21号发布狗狗股价超过1000Global神机HtcRezound回中国插个GSM卡就能用吧? (转载)刚换了win8.1 好多程序打不开了 怎么办lumia 520的here drive必要有激活的att sim才能用?好奇大家在电视上看Youtube上的什么用iphone,你将没有隐私。。。 (转载)谁入了galaxy note 10.1 2014?