Redian新闻
>
一道面试题:手机App下载次数预测
avatar
一道面试题:手机App下载次数预测# DataSciences - 数据科学
u*r
1
发信人: caiyunzhinan(去大理), 信区: CivilSociety
标题: 为何理发越来越贵,手机却越来越便宜?
发信站: BBS未名空间站(Mon Jul 31 10:32:05 2017,GMT)
前段时间,我与一位40后的老先生交流,他感慨:这个世界变了。30年前,他在楼
下的发廊剃头,最多一元钱;买一只电子手表,最多40元。但今天,他去楼下剪头发,
理发师剪了没几下,就要收30元;网购一只电子手表,却只要20元。有的东西变得越来
越贵,有的东西却越来越便宜,这个世界真的看不懂了。
与理发相似,在今天,我们发现冰箱、空调、洗衣机、手机和汽车的价格越来越便
宜;与此同时,听一场音乐会、一场讲座的价格却越来越高。
这其中有什么原因呢?
在经济学理论中,该现象叫做“成本疾病”。
1966年,美国经济学家鲍莫尔与他的同事威廉·鲍恩进行了一项研究:为什么搞艺
术的文化组织总是财务吃紧?
最终,他们得出了一个简单却震惊经济学界的结论:
艺术工作者其实是与工厂里的工人在同一个劳动力市场内竞争的。制造业生产率提
升,工人的工资水平随之上涨;与此同时,艺术工作者的工资也随之上涨,如若不然,
他们就要辞职跑去工厂做工了。但艺术工作者工资的上涨并未伴随着生产率相应提升。
比如,两百多年前演绎莫扎特的弦乐四重奏,需要四位音乐家演奏八分钟;今天演
奏也大致需要这个时间,而且可以预料,即使在遥远的未来,这一曲目的演奏时间也不
可能被压缩。由此可见,过去几百年,音乐家在演绎莫扎特弦乐四重奏时的“生产”过
程从未改变,“生产”效率也从未提高。
那么,四位演奏家的收入该如何提高?——只能提高门票价格。
由此,鲍莫尔将社会分为“进步部门”与“停滞部门”。他认为,进步部门生产率
相对快速的增长将导致停滞部门出现相对成本的不断上升。
比如,手表、冰箱、空调、洗衣机、汽车等制造业属于进步部门,劳动效率不断提
高的同时,制造成本也快速下降;而理发师、厨师、音乐家、大学教授等属于停滞部门
,其他领域劳动效率的提高,将间接带动停滞部门工资的上涨。
也就是说,凡是服务行业,尤其是那些机器难以进入、手工成分较高的劳动密集型
行业,都存在成本疾病现象。
曾有人统计过英美国家大学学费的上涨速度。上世纪80年代,美国本科生的学费为
3500美元,到2010年,每名大学生每年支付的学费达到了20500美元,年增长率超过6%
,远高于美国的通胀水平。按照这种趋势,至2035年美国顶尖私立大学学生的学费将接
近20万美元。
在中国,同样能够感受到成本疾病的存在。比如,近几年中国大中城市出现的天价
“月嫂”,就是典型的停滞部门。
那么,究竟该如何治愈成本疾病?
鲍莫尔教授认为,成本病根本无法治愈。而且在未来 30 年,我们的生活质量将持
续恶化,因为与生活质量有关的许多服务将会变得更加昂贵,而批量生产的物品将会变
得越来越便宜。
今年,最热的技术名词是“人工智能”。在未来,机器人很可能将替代生产线上的
工人,这意味着技术将使进步部门的生产效率继续提高。与此同时,技术还能够改造停
滞部门。如果机器人医生、机器人律师、机器人精算师问世,那些原本收入高、属于停
滞部门的工作,便会演变成进步部门。
但毕竟有些工作机器难以取代,我想不会有人乐意花上千元去听机器人演奏的音乐
会。如果下周末,鲍勃·迪伦将在美国举办一场音乐会,估计全世界将有很多人飞往美
国,去听那场昂贵的音乐会。
所以,未来社会将有两大特点,一是广为普及的先进技术,二是大规模的“成本疾
病”现象。
avatar
k*d
2
我是machine learning 的新手,想借这个机会学习一下。
给了training set(4000行)和test set。 training set 里的参数有数字型 (rank
,price等),时间型,区间型(年龄段,estimated download),描述型(国家,操
作系统),还有是非型(付钱没有,有没有其他offer)。
题目要求我建立一个预测模型,这种问题属于linear regression么?需要对数据做预
处理么,比如把参数都数字化 (how)?请推荐相关的R package。谢谢!
avatar
i*a
3
你要预测的下载次数是count,是不会小于0的。感觉可以用poisson regression,R里
用 glm 来fit

rank

【在 k**d 的大作中提到】
: 我是machine learning 的新手,想借这个机会学习一下。
: 给了training set(4000行)和test set。 training set 里的参数有数字型 (rank
: ,price等),时间型,区间型(年龄段,estimated download),描述型(国家,操
: 作系统),还有是非型(付钱没有,有没有其他offer)。
: 题目要求我建立一个预测模型,这种问题属于linear regression么?需要对数据做预
: 处理么,比如把参数都数字化 (how)?请推荐相关的R package。谢谢!

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。