pandas 作者：Apache Arrow and the "10 Things I Hate About pandas" - 未名空间MITBBS历史存档

pandas 作者：Apache Arrow and the "10 Things I Hate About pandas"# Programming - 葵花宝典

p*32017-09-26 07:09

1 楼

父母B2延期，父亲是住申请人，今天收到邮件说是批准了，但是里面只有父亲一个人的
信息（一个I94）。请问还会有第二封信说母亲也批准了吗以及新的I94？

c*s2017-09-26 07:09

2 楼

ID:
crazysongs
歌名:
再别康桥(蔡琴)之抛砖引玉
创作说明:
一听就爱上了这首歌，词曲都写得极美，加上蔡琴圆润浑厚的中音，带出了优美的
意境。可惜我的嗓音不是这个style，翻唱得不甚对味，强烈推荐听原唱，youtube上就
有，也希望版里有兴趣的高手再翻唱。
歌曲链接:
曲作者:
李達濤
词作者:
徐志摩
原唱:
蔡琴
歌词:
轻轻的我走了,正如我轻轻的来
我轻轻的招手
作别西天的云彩
那河畔的金柳
是夕阳中的新娘
波光里的滟影
在我心头荡漾
软泥上的青荇
油油的在水底招摇
在康河的柔波里
我甘心做一条水草
那榆荫下的一潭
不是清泉是天上的虹
揉碎在浮藻间
沈淀彩虹似的梦
寻梦撑一支长篙
向青草更青处漫溯
满载一船星辉
在星辉斑烂里放歌
寻梦撑一支长篙
向青草更青处漫溯
满载一船星辉
在星辉斑烂里放歌
但我不能放歌
悄悄是别离的笙萧
夏虫也为我沉默
沉默是今晚的康桥
悄悄的我走了,正如我悄悄的来
我挥一挥衣袖
不带走一片云彩

w*e2017-09-26 07:09

3 楼

虽然以前很不待见这位小姑娘。
这个吐词比其他人都要好。
未为嘴巴关不拢，邓妹妹嗓子不错，吐词差一截。

y*m2017-09-26 07:09

4 楼

上次staple那个 100 off...
thx!

d*c2017-09-26 07:09

5 楼

总的感觉是，这个作者数学很强，编程很一般，但是站在风口上了，pandas变得很火，
其实是太多人涌进DS，R比较难学，python容易上手，于是pandas起来了。
就我的经验，exploratory data analysis, python系列全面弱于R系列。当然ML，训练
模型是另一回事。
R的data.table比pandas强太多了，pandas作者说了，内存需要是数据量的5-10倍。我
用data.table远没有这么夸张。
http://wesmckinney.com/blog/apache-arrow-pandas-internals/

N*a2017-09-26 07:09

6 楼

Only one for both

b*a2017-09-26 07:09

7 楼

sf
mm唱的很好听，很有意境，赞~

l*i2017-09-26 07:09

8 楼

我投她第一

m*c2017-09-26 07:09

9 楼

别急，2个月后，就都卖299了。

【在 y***m 的大作中提到】

: 上次staple那个 100 off...
: thx!

d*c2017-09-26 07:09

10 楼

pandas rule of thumb: have 5 to 10 times as much RAM as the size of your
dataset
There are additional, hidden memory killers in the project, like the way
that we use Python objects (like strings) for many internal details, so it's
not unusual to see a dataset that is 5GB on disk take up 20GB or more in
memory. It's an overall bad situation for large datasets.
The 10 (really 11) things are (paraphrasing my own words):
Internals too far from "the metal"
No support for memory-mapped datasets
Poor performance in database and file ingest / export
Warty missing data support
Lack of transparency into memory use, RAM management
Weak support for categorical data
Complex groupby operations awkward and slow
Appending data to a DataFrame tedious and very costly
Limited, non-extensible type metadata
Eager evaluation model, no query planning
"Slow", limited multicore algorithms for large datasets

l*e2017-09-26 07:09

11 楼

bd

z*02017-09-26 07:09

12 楼

明年这时候就99了。

【在 m********c 的大作中提到】

: 别急，2个月后，就都卖299了。

t*c2017-09-26 07:09

13 楼

5 to 10 times? It sucks.

's

【在 d******c 的大作中提到】

: pandas rule of thumb: have 5 to 10 times as much RAM as the size of your
: dataset
: There are additional, hidden memory killers in the project, like the way
: that we use Python objects (like strings) for many internal details, so it's
: not unusual to see a dataset that is 5GB on disk take up 20GB or more in
: memory. It's an overall bad situation for large datasets.
: The 10 (really 11) things are (paraphrasing my own words):
: Internals too far from "the metal"
: No support for memory-mapped datasets
: Poor performance in database and file ingest / export

m*s2017-09-26 07:09

14 楼

哭胖明天才过期啊，拿去OD碰碰运气呗

【在 y***m 的大作中提到】

: 上次staple那个 100 off...
: thx!

l*n2017-09-26 07:09

15 楼

我以前说过pandas用起来方便，但是效率低下，速度很慢，用numpy
pandas就是numpy的一个wrapper

【在 d******c 的大作中提到】

: 总的感觉是，这个作者数学很强，编程很一般，但是站在风口上了，pandas变得很火，
: 其实是太多人涌进DS，R比较难学，python容易上手，于是pandas起来了。
: 就我的经验，exploratory data analysis, python系列全面弱于R系列。当然ML，训练
: 模型是另一回事。
: R的data.table比pandas强太多了，pandas作者说了，内存需要是数据量的5-10倍。我
: 用data.table远没有这么夸张。
: http://wesmckinney.com/blog/apache-arrow-pandas-internals/

y*m2017-09-26 07:09

16 楼

不是23号过期了么？还有链接么？
thx!

【在 m****s 的大作中提到】

: 哭胖明天才过期啊，拿去OD碰碰运气呗

h*e2017-09-26 07:09

17 楼

我以前用pandas也是觉得慢，有啥其他好的推荐吗？不会要用最基本的吧

m*s2017-09-26 07:09

18 楼

30号
放狗第一条就是
http://www.talkandroid.com/48164-coupon-staples-100-off-tablet-

【在 y***m 的大作中提到】

: 不是23号过期了么？还有链接么？
: thx!

w*m2017-09-26 07:09

19 楼

pandas的设计令人发指。
更糟糕的是，一些人以为这就是Python。
希望它的应用范围只有哪些搞金融的人。

b*l2017-09-26 07:09

20 楼

不能一年等一年吧？而两个月后299以下是很可能的。

【在 z****0 的大作中提到】

: 明年这时候就99了。

k*u2017-09-26 07:09

21 楼

为什么大家这么痛恨pandas？
我觉得它提供的几个功能还是能显著让python更方便啊，pivot，groupby，merge
数据很大的时候我一般split然后multiprocessing再合并
基本还是能保证工作都能按时完成
不过我也好几年不怎么用R了，不知道R现在是不是发展很快
主要觉得把每个都学一点不如把一个认真学好点
然后python的生态系统还是比R强壮的多
所以渐渐就主要用python了

y*m2017-09-26 07:09

22 楼

thanks!

【在 m****s 的大作中提到】

: 30号
: 放狗第一条就是
: http://www.talkandroid.com/48164-coupon-staples-100-off-tablet-

p*o2017-09-26 07:09

23 楼

5到10倍这个锅其实不该pandas来背，python的代码如果不使劲优化就是要耗这么多内
存。

【在 t*******c 的大作中提到】

: 5 to 10 times? It sucks.
:
: 's

m*c2017-09-26 07:09

24 楼

不会。

【在 z****0 的大作中提到】

: 明年这时候就99了。

g*t2017-09-26 07:09

25 楼

有很多不可预测的错误吧。添数字，type什么的。
overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
用半年就受不了了。numpy更可靠。
一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
所以个人经验：不要用于产品。

【在 k*****u 的大作中提到】

: 为什么大家这么痛恨pandas？
: 我觉得它提供的几个功能还是能显著让python更方便啊，pivot，groupby，merge
: 数据很大的时候我一般split然后multiprocessing再合并
: 基本还是能保证工作都能按时完成
: 不过我也好几年不怎么用R了，不知道R现在是不是发展很快
: 主要觉得把每个都学一点不如把一个认真学好点
: 然后python的生态系统还是比R强壮的多
: 所以渐渐就主要用python了

y*m2017-09-26 07:09

26 楼

电话问staple说这个coupon不能用在kindle?
thx!

【在 m****s 的大作中提到】

: 30号
: 放狗第一条就是
: http://www.talkandroid.com/48164-coupon-staples-100-off-tablet-

n*g2017-09-26 07:09

27 楼

金玉良言我不做产品
用熊猫让上司爽了过后就忘管他什么产品
[在 guvest (我爱你老婆Anna) 的大作中提到：]
:有很多不可预测的错误吧。添数字，type什么的。
:overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
:用半年就受不了了。numpy更可靠。
:一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
:所以个人经验：不要用于产品。

m*s2017-09-26 07:09

28 楼

哭胖上有，仔细看

【在 y***m 的大作中提到】

: 电话问staple说这个coupon不能用在kindle?
: thx!

n*g2017-09-26 07:09

29 楼

熊猫的设计让广大大妈sql程序员也能学会所以获得了巨大成功
如同当年微软让普通人使用电脑就占领了市场
[在 longtian (有人的地方,就有江湖) 的大作中提到：]
:我以前说过pandas用起来方便，但是效率低下，速度很慢，用numpy
:pandas就是numpy的一个wrapper

s*s2017-09-26 07:09

30 楼

废话。kindle $114, 再100off, $14一台，我马上进1000台去卖

【在 y***m 的大作中提到】

: 电话问staple说这个coupon不能用在kindle?
: thx!

w*l2017-09-26 07:09

31 楼

没错，一个小bug要搞很久，这个库确实很糟糕，但是又没有替代品

【在 g****t 的大作中提到】

: 有很多不可预测的错误吧。添数字，type什么的。
: overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
: 用半年就受不了了。numpy更可靠。
: 一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
: 所以个人经验：不要用于产品。

f*g2017-09-26 07:09

32 楼

kindle是ereader，不是tablet

【在 y***m 的大作中提到】

: 电话问staple说这个coupon不能用在kindle?
: thx!

w*l2017-09-26 07:09

33 楼

pandas最糟糕的是inconsistent unexpected behavior，不少设计和python data
model不一致，最典型的就是loc, iloc，难用的令人发指

y*m2017-09-26 07:09

34 楼

这边店要139.. 前面有人说可以用是？
thx!

【在 s******s 的大作中提到】

: 废话。kindle $114, 再100off, $14一台，我马上进1000台去卖

m*r2017-09-26 07:09

35 楼

所以我当时选择学R.
R的学习周期真的很长，也出乎我预料。

w*l2017-09-26 07:09

36 楼

我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

【在 m******r 的大作中提到】

: 所以我当时选择学R.
: R的学习周期真的很长，也出乎我预料。

d*a2017-09-26 07:09

37 楼

你没用过Stata。。。

: 我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

【在 w********l 的大作中提到】

: 我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

m*r2017-09-26 07:09

38 楼

你这比方其实还真对了。我老不断追根溯源直到最近才搞清楚，为啥R长这个样子。R
这个怪胎，原来起源于函数编程，函数编程是和'图灵机'对等的一套体系。比如在图
灵机体系下，有变量存在；在函数编程里，只有常量，没有变量。但是又有好多人，
出于好心，写出无数的package, 让大家用。
总之，想学R, 就要拿出学一门火星语的勇气。好比你见到一位火星人，如果他说话和
地球人不一样，那没什么奇怪的；如果和地球人相同，那反倒奇怪了。

【在 w********l 的大作中提到】

: 我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

N*r2017-09-26 07:09

39 楼

R
我对函数编程没意见，我爱死scheme,
但是R 的语法是有点让人犯怵，而且函数死活也记不住，我只能拿着手册用R
但说实话， R总体软件质量比 pandas 之类的python软件好多了

【在 m******r 的大作中提到】

: 你这比方其实还真对了。我老不断追根溯源直到最近才搞清楚，为啥R长这个样子。R
: 这个怪胎，原来起源于函数编程，函数编程是和'图灵机'对等的一套体系。比如在图
: 灵机体系下，有变量存在；在函数编程里，只有常量，没有变量。但是又有好多人，
: 出于好心，写出无数的package, 让大家用。
: 总之，想学R, 就要拿出学一门火星语的勇气。好比你见到一位火星人，如果他说话和
: 地球人不一样，那没什么奇怪的；如果和地球人相同，那反倒奇怪了。

N*r2017-09-26 07:09

40 楼

pandas在python 包里已经算是好的了
我最近拿 zipline 跑股票回测，因为算法要保密，就没敢上 online的版本，本机跑
的，然后乐子就来了
zipline跑出来的结果是个pickle file, 需要pyfolio读取，然后我就发现 pyfolio
装不上，因为有个库的版本需要小于多少，而 zipline需要那个库大于多少。而
pyfolio同时需要 zipline
类似这种的问题在python里无数， python里写算法是快，但一个项目我做100天，实
际可能99天在解决库的依赖性，简直要疯了， conda的多环境设计也帮不了啥
最过分的是大部分的库作者是明显的野路子出身，毫无软件设计的基本概念，基本上函
数界面一不爽就换，到处是deprecated 的提示，同一份code 半年之后就可能因为库
变了完全跑不通，修改的代价还不如重写划算
可能有人要劝我上docker,给每个软件单独建环境，但你知道你需要同时维护多少个
docker吗？我估计得小100

【在 w********l 的大作中提到】

: pandas最糟糕的是inconsistent unexpected behavior，不少设计和python data
: model不一致，最典型的就是loc, iloc，难用的令人发指

N*r2017-09-26 07:09

41 楼

pandas 最大的问题是unpredictable
我写东西，可能用的结构不对，pandas一言不合给我奔到200G内存，也不报错，是机
器慢了我才发现
不只是不用于产品的问题，感觉开发的时候都受不了

【在 g****t 的大作中提到】

: 有很多不可预测的错误吧。添数字，type什么的。
: overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
: 用半年就受不了了。numpy更可靠。
: 一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
: 所以个人经验：不要用于产品。

N*r2017-09-26 07:09

42 楼

说实话， python 大概是主流语言里设计最糟糕的一个
我有时候看到现在的新语言，老是怀念当年的pascal

g*t2017-09-26 07:09

43 楼

现在整个软件practice的时代已经不同了。软件不是只coding.
设计和做软件之前就要先看好tools各种依赖性和了解各种坑。
这是技术含量非常高的一件事。
Python语言问题不少。但是库还是非常强大的。
除了python和c ,还有哪个通用语言有稳定可靠的BLAS,LAPACK之类的矩阵计算，5年历
史以上的封装库？Web后台开发等等也一样。
历史长不代表着没问题。但是往往代表着出问题后能找到
别人的解决办法。

: 说实话， python 大概是主流语言里设计最糟糕的一个

: 我有时候看到现在的新语言，老是怀念当年的pascal

【在 N*****r 的大作中提到】

: 说实话， python 大概是主流语言里设计最糟糕的一个
: 我有时候看到现在的新语言，老是怀念当年的pascal

N*r2017-09-26 07:09

44 楼

blas lapack 哦， fortuna, 哈哈哈

【在 g****t 的大作中提到】

: 现在整个软件practice的时代已经不同了。软件不是只coding.
: 设计和做软件之前就要先看好tools各种依赖性和了解各种坑。
: 这是技术含量非常高的一件事。
: Python语言问题不少。但是库还是非常强大的。
: 除了python和c ,还有哪个通用语言有稳定可靠的BLAS,LAPACK之类的矩阵计算，5年历
: 史以上的封装库？Web后台开发等等也一样。
: 历史长不代表着没问题。但是往往代表着出问题后能找到
: 别人的解决办法。
:
:
: 说实话， python 大概是主流语言里设计最糟糕的一个

g*t2017-09-26 07:09

45 楼

你不要笑
现在矩阵计算正热门
懂矩阵计算的马工和不懂的，现在大有区别

: blas lapack 哦， fortuna, 哈哈哈

【在 N*****r 的大作中提到】

:
: blas lapack 哦， fortuna, 哈哈哈

N*r2017-09-26 07:09

46 楼

我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna... 哈哈
我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西，核心的东西
是对某个行业的真正理解，如果只是刷刷leetcode的算法，其实真混不到什么牛逼的
地步
我知道有哥们拿vb编的小程序，照样卖几千万的，因为基本是那行业的独一份

【在 g****t 的大作中提到】

: 你不要笑
: 现在矩阵计算正热门
: 懂矩阵计算的马工和不懂的，现在大有区别
:
:
: blas lapack 哦， fortuna, 哈哈哈
:

g*t2017-09-26 07:09

47 楼

Fortran很多人在用。我其实也在考虑用回去。
我个人认为，计算机科学/编程序有自己的自然律。
编程序不是纯粹技能。刷题只是入门。
掌握这套自然律，混饭是没问题的。
所以我觉得你的说法有点偏颇。

: 我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna...
哈哈

: 我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西
，核心
的东西

: 是对某个行业的真正理解，如果只是刷刷leetcode的算法，其实真混不
到什么
牛逼的

: 地步

: 我知道有哥们拿vb编的小程序，照样卖几千万的，因为基本是那行业的
独一份

【在 N*****r 的大作中提到】

:
: 我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna... 哈哈
: 我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西，核心的东西
: 是对某个行业的真正理解，如果只是刷刷leetcode的算法，其实真混不到什么牛逼的
: 地步
: 我知道有哥们拿vb编的小程序，照样卖几千万的，因为基本是那行业的独一份

N*r2017-09-26 07:09

48 楼

我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发点财太
难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，但计算
机行业想出核心太难了，应该在自己擅长的领域多找找看机会
就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

【在 g****t 的大作中提到】

: Fortran很多人在用。我其实也在考虑用回去。
: 我个人认为，计算机科学/编程序有自己的自然律。
: 编程序不是纯粹技能。刷题只是入门。
: 掌握这套自然律，混饭是没问题的。
: 所以我觉得你的说法有点偏颇。
:
:
: 我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna...
: 哈哈
:
: 我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西
: ，核心

g*t2017-09-26 07:09

49 楼

发财的主流是生意人，商学院什么的
编程序不是同一行的。
受的训练都不一样。
写程序求发财的，属于南辕北辙吧。或者类似于田径厉害的
打篮球出名了。

: 我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发
点财太

: 难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，
但计算

: 机行业想出核心太难了，应该在自己擅长的领域多找找看机会

: 就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

【在 N*****r 的大作中提到】

:
: 我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发点财太
: 难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，但计算
: 机行业想出核心太难了，应该在自己擅长的领域多找找看机会
: 就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

n*p2017-09-26 07:09

50 楼

像scheme这种lisp系的函数语言当然好
R的确在函数语言里属于很ugly的。

【在 N*****r 的大作中提到】

:
: 我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发点财太
: 难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，但计算
: 机行业想出核心太难了，应该在自己擅长的领域多找找看机会
: 就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

d*c2017-09-26 07:09

51 楼

总的感觉是，这个作者数学很强，编程很一般，但是站在风口上了，pandas变得很火，
其实是太多人涌进DS，R比较难学，python容易上手，于是pandas起来了。
就我的经验，exploratory data analysis, python系列全面弱于R系列。当然ML，训练
模型是另一回事。
R的data.table比pandas强太多了，pandas作者说了，内存需要是数据量的5-10倍。我
用data.table远没有这么夸张。
http://wesmckinney.com/blog/apache-arrow-pandas-internals/

d*c2017-09-26 07:09

52 楼

pandas rule of thumb: have 5 to 10 times as much RAM as the size of your
dataset
There are additional, hidden memory killers in the project, like the way
that we use Python objects (like strings) for many internal details, so it's
not unusual to see a dataset that is 5GB on disk take up 20GB or more in
memory. It's an overall bad situation for large datasets.
The 10 (really 11) things are (paraphrasing my own words):
Internals too far from "the metal"
No support for memory-mapped datasets
Poor performance in database and file ingest / export
Warty missing data support
Lack of transparency into memory use, RAM management
Weak support for categorical data
Complex groupby operations awkward and slow
Appending data to a DataFrame tedious and very costly
Limited, non-extensible type metadata
Eager evaluation model, no query planning
"Slow", limited multicore algorithms for large datasets

t*c2017-09-26 07:09

53 楼

5 to 10 times? It sucks.

's

【在 d******c 的大作中提到】

: pandas rule of thumb: have 5 to 10 times as much RAM as the size of your
: dataset
: There are additional, hidden memory killers in the project, like the way
: that we use Python objects (like strings) for many internal details, so it's
: not unusual to see a dataset that is 5GB on disk take up 20GB or more in
: memory. It's an overall bad situation for large datasets.
: The 10 (really 11) things are (paraphrasing my own words):
: Internals too far from "the metal"
: No support for memory-mapped datasets
: Poor performance in database and file ingest / export

l*n2017-09-26 07:09

54 楼

我以前说过pandas用起来方便，但是效率低下，速度很慢，用numpy
pandas就是numpy的一个wrapper

【在 d******c 的大作中提到】

: 总的感觉是，这个作者数学很强，编程很一般，但是站在风口上了，pandas变得很火，
: 其实是太多人涌进DS，R比较难学，python容易上手，于是pandas起来了。
: 就我的经验，exploratory data analysis, python系列全面弱于R系列。当然ML，训练
: 模型是另一回事。
: R的data.table比pandas强太多了，pandas作者说了，内存需要是数据量的5-10倍。我
: 用data.table远没有这么夸张。
: http://wesmckinney.com/blog/apache-arrow-pandas-internals/

h*e2017-09-26 07:09

55 楼

我以前用pandas也是觉得慢，有啥其他好的推荐吗？不会要用最基本的吧

w*m2017-09-26 07:09

56 楼

pandas的设计令人发指。
更糟糕的是，一些人以为这就是Python。
希望它的应用范围只有哪些搞金融的人。

k*u2017-09-26 07:09

57 楼

为什么大家这么痛恨pandas？
我觉得它提供的几个功能还是能显著让python更方便啊，pivot，groupby，merge
数据很大的时候我一般split然后multiprocessing再合并
基本还是能保证工作都能按时完成
不过我也好几年不怎么用R了，不知道R现在是不是发展很快
主要觉得把每个都学一点不如把一个认真学好点
然后python的生态系统还是比R强壮的多
所以渐渐就主要用python了

p*o2017-09-26 07:09

58 楼

5到10倍这个锅其实不该pandas来背，python的代码如果不使劲优化就是要耗这么多内
存。

【在 t*******c 的大作中提到】

: 5 to 10 times? It sucks.
:
: 's

g*t2017-09-26 07:09

59 楼

有很多不可预测的错误吧。添数字，type什么的。
overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
用半年就受不了了。numpy更可靠。
一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
所以个人经验：不要用于产品。

【在 k*****u 的大作中提到】

: 为什么大家这么痛恨pandas？
: 我觉得它提供的几个功能还是能显著让python更方便啊，pivot，groupby，merge
: 数据很大的时候我一般split然后multiprocessing再合并
: 基本还是能保证工作都能按时完成
: 不过我也好几年不怎么用R了，不知道R现在是不是发展很快
: 主要觉得把每个都学一点不如把一个认真学好点
: 然后python的生态系统还是比R强壮的多
: 所以渐渐就主要用python了

n*g2017-09-26 07:09

60 楼

金玉良言我不做产品
用熊猫让上司爽了过后就忘管他什么产品
[在 guvest (我爱你老婆Anna) 的大作中提到：]
:有很多不可预测的错误吧。添数字，type什么的。
:overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
:用半年就受不了了。numpy更可靠。
:一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
:所以个人经验：不要用于产品。

n*g2017-09-26 07:09

61 楼

熊猫的设计让广大大妈sql程序员也能学会所以获得了巨大成功
如同当年微软让普通人使用电脑就占领了市场
[在 longtian (有人的地方,就有江湖) 的大作中提到：]
:我以前说过pandas用起来方便，但是效率低下，速度很慢，用numpy
:pandas就是numpy的一个wrapper

w*l2017-09-26 07:09

62 楼

没错，一个小bug要搞很久，这个库确实很糟糕，但是又没有替代品

【在 g****t 的大作中提到】

: 有很多不可预测的错误吧。添数字，type什么的。
: overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
: 用半年就受不了了。numpy更可靠。
: 一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
: 所以个人经验：不要用于产品。

w*l2017-09-26 07:09

63 楼

pandas最糟糕的是inconsistent unexpected behavior，不少设计和python data
model不一致，最典型的就是loc, iloc，难用的令人发指

m*r2017-09-26 07:09

64 楼

所以我当时选择学R.
R的学习周期真的很长，也出乎我预料。

w*l2017-09-26 07:09

65 楼

我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

【在 m******r 的大作中提到】

: 所以我当时选择学R.
: R的学习周期真的很长，也出乎我预料。

d*a2017-09-26 07:09

66 楼

你没用过Stata。。。

: 我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

【在 w********l 的大作中提到】

: 我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

m*r2017-09-26 07:09

67 楼

你这比方其实还真对了。我老不断追根溯源直到最近才搞清楚，为啥R长这个样子。R
这个怪胎，原来起源于函数编程，函数编程是和'图灵机'对等的一套体系。比如在图
灵机体系下，有变量存在；在函数编程里，只有常量，没有变量。但是又有好多人，
出于好心，写出无数的package, 让大家用。
总之，想学R, 就要拿出学一门火星语的勇气。好比你见到一位火星人，如果他说话和
地球人不一样，那没什么奇怪的；如果和地球人相同，那反倒奇怪了。

【在 w********l 的大作中提到】

: 我也学过R，我这辈子都不想再用R。对于有编程经历的人，R简直就是火星语

N*r2017-09-26 07:09

68 楼

R
我对函数编程没意见，我爱死scheme,
但是R 的语法是有点让人犯怵，而且函数死活也记不住，我只能拿着手册用R
但说实话， R总体软件质量比 pandas 之类的python软件好多了

【在 m******r 的大作中提到】

: 你这比方其实还真对了。我老不断追根溯源直到最近才搞清楚，为啥R长这个样子。R
: 这个怪胎，原来起源于函数编程，函数编程是和'图灵机'对等的一套体系。比如在图
: 灵机体系下，有变量存在；在函数编程里，只有常量，没有变量。但是又有好多人，
: 出于好心，写出无数的package, 让大家用。
: 总之，想学R, 就要拿出学一门火星语的勇气。好比你见到一位火星人，如果他说话和
: 地球人不一样，那没什么奇怪的；如果和地球人相同，那反倒奇怪了。

N*r2017-09-26 07:09

69 楼

pandas在python 包里已经算是好的了
我最近拿 zipline 跑股票回测，因为算法要保密，就没敢上 online的版本，本机跑
的，然后乐子就来了
zipline跑出来的结果是个pickle file, 需要pyfolio读取，然后我就发现 pyfolio
装不上，因为有个库的版本需要小于多少，而 zipline需要那个库大于多少。而
pyfolio同时需要 zipline
类似这种的问题在python里无数， python里写算法是快，但一个项目我做100天，实
际可能99天在解决库的依赖性，简直要疯了， conda的多环境设计也帮不了啥
最过分的是大部分的库作者是明显的野路子出身，毫无软件设计的基本概念，基本上函
数界面一不爽就换，到处是deprecated 的提示，同一份code 半年之后就可能因为库
变了完全跑不通，修改的代价还不如重写划算
可能有人要劝我上docker,给每个软件单独建环境，但你知道你需要同时维护多少个
docker吗？我估计得小100

【在 w********l 的大作中提到】

: pandas最糟糕的是inconsistent unexpected behavior，不少设计和python data
: model不一致，最典型的就是loc, iloc，难用的令人发指

N*r2017-09-26 07:09

70 楼

pandas 最大的问题是unpredictable
我写东西，可能用的结构不对，pandas一言不合给我奔到200G内存，也不报错，是机
器慢了我才发现
不只是不用于产品的问题，感觉开发的时候都受不了

【在 g****t 的大作中提到】

: 有很多不可预测的错误吧。添数字，type什么的。
: overall来讲，pandas是质量非常高的软件了。但是长程效应不行。
: 用半年就受不了了。numpy更可靠。
: 一句话：pandas如果出了bug，我无法确定自己多长时间内搞定。
: 所以个人经验：不要用于产品。

N*r2017-09-26 07:09

71 楼

说实话， python 大概是主流语言里设计最糟糕的一个
我有时候看到现在的新语言，老是怀念当年的pascal

g*t2017-09-26 07:09

72 楼

现在整个软件practice的时代已经不同了。软件不是只coding.
设计和做软件之前就要先看好tools各种依赖性和了解各种坑。
这是技术含量非常高的一件事。
Python语言问题不少。但是库还是非常强大的。
除了python和c ,还有哪个通用语言有稳定可靠的BLAS,LAPACK之类的矩阵计算，5年历
史以上的封装库？Web后台开发等等也一样。
历史长不代表着没问题。但是往往代表着出问题后能找到
别人的解决办法。

: 说实话， python 大概是主流语言里设计最糟糕的一个

: 我有时候看到现在的新语言，老是怀念当年的pascal

【在 N*****r 的大作中提到】

: 说实话， python 大概是主流语言里设计最糟糕的一个
: 我有时候看到现在的新语言，老是怀念当年的pascal

N*r2017-09-26 07:09

73 楼

blas lapack 哦， fortuna, 哈哈哈

【在 g****t 的大作中提到】

: 现在整个软件practice的时代已经不同了。软件不是只coding.
: 设计和做软件之前就要先看好tools各种依赖性和了解各种坑。
: 这是技术含量非常高的一件事。
: Python语言问题不少。但是库还是非常强大的。
: 除了python和c ,还有哪个通用语言有稳定可靠的BLAS,LAPACK之类的矩阵计算，5年历
: 史以上的封装库？Web后台开发等等也一样。
: 历史长不代表着没问题。但是往往代表着出问题后能找到
: 别人的解决办法。
:
:
: 说实话， python 大概是主流语言里设计最糟糕的一个

g*t2017-09-26 07:09

74 楼

你不要笑
现在矩阵计算正热门
懂矩阵计算的马工和不懂的，现在大有区别

: blas lapack 哦， fortuna, 哈哈哈

【在 N*****r 的大作中提到】

:
: blas lapack 哦， fortuna, 哈哈哈

N*r2017-09-26 07:09

75 楼

我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna... 哈哈
我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西，核心的东西
是对某个行业的真正理解，如果只是刷刷leetcode的算法，其实真混不到什么牛逼的
地步
我知道有哥们拿vb编的小程序，照样卖几千万的，因为基本是那行业的独一份

【在 g****t 的大作中提到】

: 你不要笑
: 现在矩阵计算正热门
: 懂矩阵计算的马工和不懂的，现在大有区别
:
:
: blas lapack 哦， fortuna, 哈哈哈
:

g*t2017-09-26 07:09

76 楼

Fortran很多人在用。我其实也在考虑用回去。
我个人认为，计算机科学/编程序有自己的自然律。
编程序不是纯粹技能。刷题只是入门。
掌握这套自然律，混饭是没问题的。
所以我觉得你的说法有点偏颇。

: 我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna...
哈哈

: 我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西
，核心
的东西

: 是对某个行业的真正理解，如果只是刷刷leetcode的算法，其实真混不
到什么
牛逼的

: 地步

: 我知道有哥们拿vb编的小程序，照样卖几千万的，因为基本是那行业的
独一份

【在 N*****r 的大作中提到】

:
: 我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna... 哈哈
: 我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西，核心的东西
: 是对某个行业的真正理解，如果只是刷刷leetcode的算法，其实真混不到什么牛逼的
: 地步
: 我知道有哥们拿vb编的小程序，照样卖几千万的，因为基本是那行业的独一份

N*r2017-09-26 07:09

77 楼

我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发点财太
难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，但计算
机行业想出核心太难了，应该在自己擅长的领域多找找看机会
就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

【在 g****t 的大作中提到】

: Fortran很多人在用。我其实也在考虑用回去。
: 我个人认为，计算机科学/编程序有自己的自然律。
: 编程序不是纯粹技能。刷题只是入门。
: 掌握这套自然律，混饭是没问题的。
: 所以我觉得你的说法有点偏颇。
:
:
: 我的意思是能用blas lapack 的还有fortran , 故意打成了 fortuna...
: 哈哈
:
: 我其实一直都这么觉得，编程能力始终就是个技能，并不是核心的东西
: ，核心

g*t2017-09-26 07:09

78 楼

发财的主流是生意人，商学院什么的
编程序不是同一行的。
受的训练都不一样。
写程序求发财的，属于南辕北辙吧。或者类似于田径厉害的
打篮球出名了。

: 我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发
点财太

: 难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，
但计算

: 机行业想出核心太难了，应该在自己擅长的领域多找找看机会

: 就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

【在 N*****r 的大作中提到】

:
: 我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发点财太
: 难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，但计算
: 机行业想出核心太难了，应该在自己擅长的领域多找找看机会
: 就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

n*p2017-09-26 07:09

79 楼

像scheme这种lisp系的函数语言当然好
R的确在函数语言里属于很ugly的。

【在 N*****r 的大作中提到】

:
: 我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发点财太
: 难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，但计算
: 机行业想出核心太难了，应该在自己擅长的领域多找找看机会
: 就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了

g*92017-09-26 07:09

80 楼

你说的这个问题在生产中非常不利。难怪银行都喜欢用SAS，code一直能用。
我知道这里大部分人都很鄙视SAS。恐怕这也是为什么银行现在都想把SAS给端了，直接
用开源的Python和R。首当其冲的就是Capital One
如果所有数据需要放内存的话，那真的很难处理。很多数据都特别大。

【在 N*****r 的大作中提到】

:
: 我的意思是到这个年纪这个学历，混饭吃什么都能混饭吃，但是单靠编程想发点财太
: 难了，还是得有核心的东西，核心的东西那一行业都有，计算机行业也有，但计算
: 机行业想出核心太难了，应该在自己擅长的领域多找找看机会
: 就是那个老故事，西部淘金的人绝大多数都没发财，真正卖牛仔裤的发了