Redian新闻
>
更好整合 kubernete 和 airflow
avatar
更好整合 kubernete 和 airflow# PDA - 掌中宝
t*r
1
刷题又学了个新数据结构fenwick tree
学无止境阿。老能发现新东西。不過这个 意思跟seg tree差不多
avatar
d*y
2
最近组里有一个project,跑spark sql, input就是SQL读取snowflake,output是
dataframe存到 AWS s3
有趣的地方在于每个sql跑的时候要考虑dependencies,因为有些sql depends on 其他
sql job产生的dataframe,不能全部乱序一起跑。所以搞了个dag用拓扑排序解决了。
再后来发现AWS 的account同时最多用300个EC2,现在跑的时候是用那些EC2来构造EMR
。每次月初跑的时候,别的team也在share这个AWS account,所以真正跑的时候,不够
EC2。每个月现在需要大约跑50个sql
现在的解决方案是用一台memory足够大的EMR来按拓扑排序来跑那50个spark sql job。
问题是,能不能做到用kubernete做cluster management管理整个AWS SHARED ACCOUNT
下那300个EC2,然后用airflow或者KUBEFLOW来把50多个job schedule上不止一个EMR上
呢?
希望能做到多个EMR同时跑多个没有dependencies的spark sql job,而不是一个EMR按
顺序来跑50个job。目前已经有纯java code自己写resource manager和scheduler的方
案,想知道能不能在kubernete + {kubeflow | airflow}上做得更好
avatar
r*g
3
我准备不学这个,因为好像他能做的segment tree都能做,是不是?求指点。
avatar
v*2
4
好像确实差不多,又叫binary index tree.

【在 t**r 的大作中提到】
: 刷题又学了个新数据结构fenwick tree
: 学无止境阿。老能发现新东西。不過这个 意思跟seg tree差不多

avatar
p*r
5
其实学个新东西没什么用,
你得拿那个新东西在实际项目中反复操练个20遍,
才能体会出那东西的牛逼。

【在 t**r 的大作中提到】
: 刷题又学了个新数据结构fenwick tree
: 学无止境阿。老能发现新东西。不過这个 意思跟seg tree差不多

avatar
s*c
6
空间能小一半,当然好

【在 r*******g 的大作中提到】
: 我准备不学这个,因为好像他能做的segment tree都能做,是不是?求指点。
avatar
s*e
7
这个要怎么学啊
这个fenwick tree,看了好多个视频,还是没有很直观的理解,比如给16个数,怎么把
这颗树不看代码直接徒手画出来?谁是谁的child?

【在 t**r 的大作中提到】
: 刷题又学了个新数据结构fenwick tree
: 学无止境阿。老能发现新东西。不過这个 意思跟seg tree差不多

avatar
H*5
8
这个好像就是index tree
专门用来做RangeSumQuery1D/2D 和 Skypline ,count of rangeSum这几题

【在 v**********2 的大作中提到】
: 好像确实差不多,又叫binary index tree.
avatar
r*9
9
这个和segment tree都要会
avatar
z*n
10
原来BIT还有个这么装逼的别名啊。。BIT和KMP这些没见考过,不过为了保险起见,确
保万无一失,还是练练吧。1D 2D都练一遍,花不了半天时间,图个安心。
avatar
u*s
11
除了空间优化以外,其它和segment tree差别不大,面试时候实现还更复杂
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。