Redian新闻
>
pig能做iterative的问题吗?
avatar
pig能做iterative的问题吗?# DataSciences - 数据科学
B*o
1
【 以下文字转载自 Military 讨论区 】
发信人: Bucuo (Bucuo), 信区: Military
标 题: 对照ABC辱华事情, 看看什么叫“绝对不能说”!
发信站: BBS 未名空间站 (Sat Jan 4 22:04:06 2014, 美东)
Georgia Couple Shocked Over Racial Slur on Valet Ticket
http://gma.yahoo.com/blogs/abc-blogs/georgia-couple-shocked-ove
就因为在纸上非特指的写了一个字, 被尼格大妈发现了。
ABC马上报道,公司即刻解雇雇员,马上公开道歉。
avatar
c*u
2
最近在自学, 请问, pig能做iterative的问题吗, 比如一些matrix update的问题的.
比如nonnegative matrix factorization, 有一个nonnegative matrix N, 要分解成2
个matrix A和B, 使得|N-A*B|尽可能的小
标准算法是: 先随机生成2个矩阵A和B. 然后先固定A, 按照一个规则用A和N去更新B;
再固定B, 用B和N去更新A; 一直如此循环更新, 直到|N-A*B|足够小
不知道用pig或者hive, 能解决如此问题吗?
(不是research问题, 5/6年就有人用mapreduce+java发了N片文章)
当然, 我是说不另外写UDFs的情形下
avatar
k*m
3
路很长,庆幸我们已经在路上了
但不能停止走下去。。。。。。
avatar
g*n
4
我看是不能的。Pig Latin是一种 data flow language,定义的是数据处理流,而不包
括如何控制数据的处理。后者需要编程语言,比如python或者java。这两种语言都可以
很好的和Pig接口。
avatar
l*u
5
re
老黑很团结,谁都不敢惹。

【在 B***o 的大作中提到】
: 【 以下文字转载自 Military 讨论区 】
: 发信人: Bucuo (Bucuo), 信区: Military
: 标 题: 对照ABC辱华事情, 看看什么叫“绝对不能说”!
: 发信站: BBS 未名空间站 (Sat Jan 4 22:04:06 2014, 美东)
: Georgia Couple Shocked Over Racial Slur on Valet Ticket
: http://gma.yahoo.com/blogs/abc-blogs/georgia-couple-shocked-ove
: 就因为在纸上非特指的写了一个字, 被尼格大妈发现了。
: ABC马上报道,公司即刻解雇雇员,马上公开道歉。

avatar
g*n
6
另外一个感受是,不要试图 beat up一个工具。每个工具都有它设计的目的和限制范围
。Pig基本上是一个ETL的工具。比如传统意义上的SQL,你基本上不会用SQL写一个
logistic regression model,或者做任何matrix intensive的处理,而只是用它来取
数据。
avatar
p*y
7
坚决不能再当软柿子了
avatar
w*a
8
好象 SPARK 可以
如果没记错的话
但自己没玩过

【在 g*********n 的大作中提到】
: 另外一个感受是,不要试图 beat up一个工具。每个工具都有它设计的目的和限制范围
: 。Pig基本上是一个ETL的工具。比如传统意义上的SQL,你基本上不会用SQL写一个
: logistic regression model,或者做任何matrix intensive的处理,而只是用它来取
: 数据。

avatar
H*9
9
是的,软柿子谁都可以来捏
avatar
c*n
10
that's why people invented spark , mahout is now being migrated to spark
exactly for this reason: a lot of ml algorithms are Interactive by nature

成2

【在 c***u 的大作中提到】
: 最近在自学, 请问, pig能做iterative的问题吗, 比如一些matrix update的问题的.
: 比如nonnegative matrix factorization, 有一个nonnegative matrix N, 要分解成2
: 个matrix A和B, 使得|N-A*B|尽可能的小
: 标准算法是: 先随机生成2个矩阵A和B. 然后先固定A, 按照一个规则用A和N去更新B;
: 再固定B, 用B和N去更新A; 一直如此循环更新, 直到|N-A*B|足够小
: 不知道用pig或者hive, 能解决如此问题吗?
: (不是research问题, 5/6年就有人用mapreduce+java发了N片文章)
: 当然, 我是说不另外写UDFs的情形下

avatar
B*o
11
这里的言论自由呢?
宪法修正案呢?
avatar
D*u
12
Pig itself has no support for iteration, but if you really want to use Pig,
you can embed the pig script into a python (jython) program to do it
iteratively.
Check this for example:
http://thedatachef.blogspot.com/2013/11/linear-regression-with-
After all, this is not best practice since for every iteration a M/R job is
spanned, and that is 2 sec wasted, and usually your algorithm runs with
hundreds of iteration. So, just use Spark. Spark now support both Scala and
Python pretty much equally well, so it should not be more difficult if your
original intention was to write Pig UDF.
avatar
u*a
13
言论自由特指表达意见和想法的政治权利。政治语言就牵扯到很多很多人,而不是针对
特定一个人的话语。在这个事件中,只有一个或两个人被骂或歧视,那就是针对个人的
表达,因而无法用宪法第一修正案来保护其污秽语言。
avatar
d*i
14
这种东西和pig还是fish没有任何关系,这个就是矩阵理论里面经典的正定矩阵的
Cholesky decomposition问题。Python和matlab里面都有相应的包来解决这个老的不能
再老的问题。
http://en.wikipedia.org/wiki/Cholesky_decomposition

成2

【在 c***u 的大作中提到】
: 最近在自学, 请问, pig能做iterative的问题吗, 比如一些matrix update的问题的.
: 比如nonnegative matrix factorization, 有一个nonnegative matrix N, 要分解成2
: 个matrix A和B, 使得|N-A*B|尽可能的小
: 标准算法是: 先随机生成2个矩阵A和B. 然后先固定A, 按照一个规则用A和N去更新B;
: 再固定B, 用B和N去更新A; 一直如此循环更新, 直到|N-A*B|足够小
: 不知道用pig或者hive, 能解决如此问题吗?
: (不是research问题, 5/6年就有人用mapreduce+java发了N片文章)
: 当然, 我是说不另外写UDFs的情形下

avatar
B*t
15
再说一遍,言论自由只限制美国政府不能限制言论,不规定任何商业机构要服从言论自
由。现在这个餐馆因言论解雇工人,完全合法; 同理ABC如果解雇鸡毛,也完全合法。
只是ABC不鸟华人的账,说明华人在商界和社会上实力不够。美国政府并没有规定商家
要解雇那个停车的valet。如果商家不愿解雇valet,愿意就此冒犯混合族裔夫妇,也不
违法,只是会影响生意。ABC觉得冒犯华人算不得什么,不会影响生意,就这么简单。

【在 B***o 的大作中提到】
: 这里的言论自由呢?
: 宪法修正案呢?

avatar
d*i
16
Spark就是一个为了hype而hype的阴谋,为了伯克利那帮nerd学院派想成名而搞出来的
不是问题的问题。现实中那些所谓的ml算法早都就有很多成熟的算法而且非常稳定非常
快,完全不需要什么一种欧洲学院派创造的复杂新语言来搞。

,
is
and
your

【在 D**u 的大作中提到】
: Pig itself has no support for iteration, but if you really want to use Pig,
: you can embed the pig script into a python (jython) program to do it
: iteratively.
: Check this for example:
: http://thedatachef.blogspot.com/2013/11/linear-regression-with-
: After all, this is not best practice since for every iteration a M/R job is
: spanned, and that is 2 sec wasted, and usually your algorithm runs with
: hundreds of iteration. So, just use Spark. Spark now support both Scala and
: Python pretty much equally well, so it should not be more difficult if your
: original intention was to write Pig UDF.

avatar
D*u
17
不完全同意,spark是一个framework,它有一个最大的优势是可以架在HDFS上。python
和matlab单机当然好用,可是现在不是data太大一个机子装不了么。

【在 d****i 的大作中提到】
: Spark就是一个为了hype而hype的阴谋,为了伯克利那帮nerd学院派想成名而搞出来的
: 不是问题的问题。现实中那些所谓的ml算法早都就有很多成熟的算法而且非常稳定非常
: 快,完全不需要什么一种欧洲学院派创造的复杂新语言来搞。
:
: ,
: is
: and
: your

avatar
d*i
18
从这个意义说是的,但是从那些所谓的ml的算法来说,不仅不是什么新的,甚至就是重
复造轮子,搞spark的那些人做分布式可能不错,但是数学基础都很差的,根本不懂数
学理论,远不如写numpy和matlab的人来的专业。用scala这种复杂难懂难调试难维护的
语言根本就是错误的。再说现实生活中除了web公司有大量的垃圾数据来挖,哪有那么
多需要HDFS的?

python

【在 D**u 的大作中提到】
: 不完全同意,spark是一个framework,它有一个最大的优势是可以架在HDFS上。python
: 和matlab单机当然好用,可是现在不是data太大一个机子装不了么。

avatar
d*e
19
NMF和Cholesky Decomposition有毛关系啊。
NMF就是
min ||X-AB||_F^2+各种Regularizations
s.t. 各种Nonnegative Constraints
Cholesky是正定对称矩阵X分解为UU',U是个三角阵。

【在 d****i 的大作中提到】
: 这种东西和pig还是fish没有任何关系,这个就是矩阵理论里面经典的正定矩阵的
: Cholesky decomposition问题。Python和matlab里面都有相应的包来解决这个老的不能
: 再老的问题。
: http://en.wikipedia.org/wiki/Cholesky_decomposition
:
: 成2

avatar
d*e
20
说得好像你懂似的... ...

【在 d****i 的大作中提到】
: 从这个意义说是的,但是从那些所谓的ml的算法来说,不仅不是什么新的,甚至就是重
: 复造轮子,搞spark的那些人做分布式可能不错,但是数学基础都很差的,根本不懂数
: 学理论,远不如写numpy和matlab的人来的专业。用scala这种复杂难懂难调试难维护的
: 语言根本就是错误的。再说现实生活中除了web公司有大量的垃圾数据来挖,哪有那么
: 多需要HDFS的?
:
: python

avatar
g*n
21
大家就事论事,还是不要伤和气的好。
再想想草鱼最初提的问题,其实他更关注的是iterative processing,而不是他举的
matrix manipulation的例子。如果要考虑iterative processing的不是数组这么low
level的operation,而是数据流的iterative processing,Pig还是可以胜任的,不过
是重复性的insert,update, delete, 这些基本操作。数组并不是最好的例子。
avatar
D*u
22
NMF 最近很火,image processing, text mining 都用上了。NMF可以用来跟PCA比较,
多了一个non-negative的限制, 结果有了很多很好的性质。caoyu的想法很intuitive,
因为NMF跟PCA解法上的一个很大的不同就是,NMF 可以靠iterative的update去解决,
而PCA是一次性的对covariance matrix做decomposition.
avatar
d*e
23
PCA里的SVD分解也是iterative来解的。
要么高斯消元解线性方程组,要么用Power Iteration。只不过已经是很成熟的技术,
所以已经有现成的函数了。

【在 D**u 的大作中提到】
: NMF 最近很火,image processing, text mining 都用上了。NMF可以用来跟PCA比较,
: 多了一个non-negative的限制, 结果有了很多很好的性质。caoyu的想法很intuitive,
: 因为NMF跟PCA解法上的一个很大的不同就是,NMF 可以靠iterative的update去解决,
: 而PCA是一次性的对covariance matrix做decomposition.

avatar
D*u
24
印象中如果需要PCA的所有的orthogonal basis 还是需要calculate eigen vectors的,不
过大多数情况都是只需要top dominant component,这样是有iterative的method的
,背后的idea类似于 Lanczos process,不过凡是iterative的method都是
approximation not 100% accurate.

【在 d******e 的大作中提到】
: PCA里的SVD分解也是iterative来解的。
: 要么高斯消元解线性方程组,要么用Power Iteration。只不过已经是很成熟的技术,
: 所以已经有现成的函数了。

avatar
d*e
25
需要所有loading vectors的时候就是高斯消元解方程组。

的,不
术,

【在 D**u 的大作中提到】
: 印象中如果需要PCA的所有的orthogonal basis 还是需要calculate eigen vectors的,不
: 过大多数情况都是只需要top dominant component,这样是有iterative的method的
: ,背后的idea类似于 Lanczos process,不过凡是iterative的method都是
: approximation not 100% accurate.

avatar
o*a
26
感叹屌丝不易啊
avatar
B*r
27

给你两个table, 每个10 TB, 你用matlab做个join,group by来试试.

【在 d****i 的大作中提到】
: Spark就是一个为了hype而hype的阴谋,为了伯克利那帮nerd学院派想成名而搞出来的
: 不是问题的问题。现实中那些所谓的ml算法早都就有很多成熟的算法而且非常稳定非常
: 快,完全不需要什么一种欧洲学院派创造的复杂新语言来搞。
:
: ,
: is
: and
: your

avatar
l*n
28
一个机子装不下,这是啥数据这么大?
现在超级机上做气象预测,也就million变量级别的方程,大部分还是线性,只是计算
时间的问题,也从来没有存储的问题

python

【在 D**u 的大作中提到】
: 不完全同意,spark是一个framework,它有一个最大的优势是可以架在HDFS上。python
: 和matlab单机当然好用,可是现在不是data太大一个机子装不了么。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。