Redian新闻
>
kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?
avatar
kaggle上这个restaurant-revenue-prediction的题目有人考虑过么?# DataSciences - 数据科学
u*r
1
发信人: hyandji(小黄牛), 信区: CivilSociety
标题: 庐山“8元1斤变1克”,仅退款了事?
发信站: BBS未名空间站(Mon Sep 25 10:18:11 2017,GMT)
多名游客向《问政江西》求助,称在庐山旅游购物时遭遇店家价格欺诈、强买强卖
,原本8元一斤的草药,打成粉末后变成了8元一克,游客拒绝付钱被威胁“不付钱让你
爬不出庐山”。
笔者一直追求简单生活,尤其是近十几年来,无论是外出调研、培训、开会,还是
专门旅游,均不购买当地所谓的“土特产”,更不会在旅游点购物,问都不会问。原因
很简单,好不容易去趟外地,没必要为购物耗费精力,为携带这些玩意儿受拖累,更何
况现在的所谓旅游纪念品,都是千城一面,而且假冒伪劣已成主流,真正有价值的地产
货又总是“天价”,且不时面临被“宰”的风险。因此,换个新单位或新部门,我总是
建议领导告诫同仁们,外出不要购买小礼品送大家,甚至在大家纷纷“买、送”,我也
拿到一份后,甘愿做本单位、本部门“第一小气人”,坚决不随大流,做这件我一直反
对的事。
从新闻报道及网友留言看,该“藏红特产店”杀气腾腾地“宰客”恐怕已是常态。
比如该文摘要就介绍余先生看中了店里的“野生天麻”,店员表示单价是每斤3元,打
粉结束后,却变成每公斤3000元,余先生不想付钱,结果被威胁“出门在外平安最重要
,不付款休想下庐山”,最终只能花2200元买平安。
另一位在该店同样遭遇“8元1斤变1克”的江苏游客,在被威胁后掏了3580元才脱
身,回家途中被好心人告知,他购买的是秋葵,而不是阳元草。
可以肯定,这些遭遇“抢劫型敲诈”的游客,即使仅仅为了解气。也一定会向当地
旅游部门或公安机关、工商部门投诉,也会拨打当地“市长热线”投诉,而且是持续投
诉。但“黑心店”老板为何长期得不到处理?这里面恐怕不仅仅是相关机构“不作为”
那么简单,更有可能是有人利用公权力在“浑水摸鱼”。
可以这么说,这样的恶例对庐山甚至江西旅游形象具有极大的破坏性,江西官方理
应对“害群之马”实施严惩。先给江西官方免费提供一个相关信息,供参考。这家“黑
店”使用“8元1斤变1克”的坑人做法,祖师爷应该是“青岛大虾”店主。两年前,一
游客在青岛点了38元一份的所谓“海捕大虾”,结账时却变成38元一只。“青岛大虾”
事件发生后,网上就出现了诸多“青岛大虾体”的段子,现摘录一段供江西省主管旅游
的官员欣赏:
王先生到青岛想去吃38元一只的海捕大虾,因饭店爆满,王先生就点了几盘8元瓜
子边嗑边等。谁知轮到王先生就餐时,店员却要他先交61万,原来该店的瓜子不是8元
一盘而是8元一个!曾夺过全国嗑瓜子速度冠军的王先生非常后悔。后面排队买单的李
先生当场休克,手里紧紧握着小票:米饭 3元!
因“新闻搭车”效应,该事件还引出更多青岛乃至山东旅游的负面信息,网上甚至
认为该事件让耗资几亿元打造出的“好客山东”品牌毁于一旦,不少网友甚至吐槽:“
好客山东”成了“宰客山东”。
江西省主管旅游市场甚至社会治安的相关部门,还没有意识到该事件对当地形象的
负面影响有多严重,因此处理起来仍“轻描淡写”,具体表现在三个层面上:一是主导
调查的层级不够。目前仅仅由庐山市市场和质量监督管理局负责调查,竟没能让县级庐
山市领导重视,更没有引起九江市领导重视,官方的麻木程度令人惊讶。二是相关职能
部门仍在旁观。比如旅游局是否应该牵头处理该案?公安局是否应该以涉嫌敲诈勒索拘
留“黑心”店主?都未见他们的踪影;三是前期处理已经严重失当。报案的游客“均获
得全额退款”是远远不够的,他们遭受欺诈后,是否应该按照《消费者权益保护法》规
定得到三倍赔偿?他们遭受勒索,是否应该因得到精神赔偿?
如何处理庐山“8元1斤变1克”事件,“歌手王芳”水果掉包事件的处理结果值得
江西方面效仿。2014年12月,“歌手王芳”连续在微博发布消息,称她在一家水果店买
了三箱大概20个芒果和20个释迦,一共是1180元,付钱时看着他们完成了这三箱的打包
,但回到沈阳后,收到的竟是被调包了番石榴和木瓜。
三亚工商、公安、旅游委、天涯区等单位第一时间成立专案组,对该事件涉事摊点
进行调查取证,对外宣布的处理措施包括:一是查封涉案水果店;二是对水果店涉案人
员及按照购买金额50%收取回扣的出租车司机等四人依法做出10日至15日的治安拘留;
三是发布“该水果店将面临工商部门最高罚款20万元的处罚”。
相比较三亚的处理方式,庐山这种软弱无力的处理手段实在是说不过去。这样的处
理方式,给游客传递出来的信息只有一个,那就是该地并非真心整治旅游市场乱象。
庐山“8元1斤变1克”事件无疑是“天价切糕”、“青岛大虾体”的翻版。我们不
时地抵制日货、抵制韩货、抵制美货甚至抵制印度货,当看到“今年3月下旬至4月下旬
,整个樱花季去往日本游玩的中国游客人数就超过200万,比去年同期增加50%左右”时
,没去过日韩的我,心里也是相当苦涩。可那些高喊抵制的人是否想过,为什么会造成
这样的局面?如果你没想过,现在就开始想也还不迟:如果你的经济条件允许,想安排
一个旅游计划,是愿意去一个充满欺诈甚至人身威胁的国内景点,还是选择一个讲究诚
信、成本也并不算高的异域?我要说的是,无论是国产货还是国内景点,消费者不愿意
选择你们都不应该有任何道德愧疚,等你们争气了,做好自己了,中国消费者的首选一
定还是在国内。
avatar
s*h
2
昨天下午看到,觉得这是个很有趣,也实用的题目.
https://www.kaggle.com/c/restaurant-revenue-prediction
training data size: 137
test data size: 100K
Parameters: date, city name, city group, restaurant type, 37 number columns
for demographic , real estate, and commercial data.
初步设想, 用最基本的logistic regression?
city group 两个值, 那就是0, 1
restaurant type 四个值, 那就是0001, 0010,0100,1000
date可以换算成个数值
主要问题:
1. 参数这么多,training size这么小,一般有啥办法解决overfitting?
R2之类的步骤就没必要了吧.
2. 37个numeric column咋弄比较好? 估计有部分column就是category的标识,数值大小
没意义; 有部分column的数值大 小应该还是有意义的.
3. city name怎么用? training set里有20多个city, test里有50多个.
计划用一个新column来替换掉city name. 如果training set里没有的city, 取值为avg
_rev(all city) or avg_rev(all city with the same city group) ; 如果training
set里有的city, 取值为avg_rev(city only)
有兴趣的一起讨论一下?
avatar
E*e
3
我也有兴趣。 正开始做。 有一点想法
1. 是不是不能用logistic regression? response variable 是revenue,其他的都是
predictor variables
2至于cities,是不是可以细分contries, continent或region。 这里assumen 同一地
区或country消费习惯类似。
3. 至于37个numverial variable, 可以code categorical variables, 数量少的合
并在一起。
4. open date 是唯一的continuou variables 。 应该算出从open date 到revenue 采
集的时间段。

columns

【在 s****h 的大作中提到】
: 昨天下午看到,觉得这是个很有趣,也实用的题目.
: https://www.kaggle.com/c/restaurant-revenue-prediction
: training data size: 137
: test data size: 100K
: Parameters: date, city name, city group, restaurant type, 37 number columns
: for demographic , real estate, and commercial data.
: 初步设想, 用最基本的logistic regression?
: city group 两个值, 那就是0, 1
: restaurant type 四个值, 那就是0001, 0010,0100,1000
: date可以换算成个数值

avatar
O*y
4

response var是continuous,觉得不合适用logistic regression;

【在 E**********e 的大作中提到】
: 我也有兴趣。 正开始做。 有一点想法
: 1. 是不是不能用logistic regression? response variable 是revenue,其他的都是
: predictor variables
: 2至于cities,是不是可以细分contries, continent或region。 这里assumen 同一地
: 区或country消费习惯类似。
: 3. 至于37个numverial variable, 可以code categorical variables, 数量少的合
: 并在一起。
: 4. open date 是唯一的continuou variables 。 应该算出从open date 到revenue 采
: 集的时间段。
:

avatar
s*h
5
看了一下论坛
貌似流行的思路就是SVM or Random Forest or combined model
+
feature selecting
在去年的这个比赛中,http://www.kaggle.com/c/mlsp-2014-mri
最后第二名的code和思路都贴出来了,可以参考一下。
可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很
待见,觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。
avatar
E*e
6
那里找到这个思路和code? 我怎么找不到。 另外, 以往的projects 都贴在那里了?
可以下载学习吗? 谢谢。

【在 s****h 的大作中提到】
: 看了一下论坛
: 貌似流行的思路就是SVM or Random Forest or combined model
: +
: feature selecting
: 在去年的这个比赛中,http://www.kaggle.com/c/mlsp-2014-mri
: 最后第二名的code和思路都贴出来了,可以参考一下。
: 可能这种数据只能这么搞吧。我本身对SVM or Random Forest这种类型的model不是很
: 待见,觉得属于无可奈何的办法。可是这些model在类似竞赛中成绩都不错。

avatar
s*h
7
http://www.kaggle.com/c/mlsp-2014-mri/details/winners
你到restaurant的论坛里,可以看到有benchmark (beat the benchmark)的code,啥
tuning都没用,直接裸run SVM or RF。
结果也不差了。
做为商业应用来说,我真不觉得1.65M 和1.55M的误差有多大区别。
多拿一些数据,或者多加一些所谓的domain knowledge意义大多了。

【在 E**********e 的大作中提到】
: 那里找到这个思路和code? 我怎么找不到。 另外, 以往的projects 都贴在那里了?
: 可以下载学习吗? 谢谢。

avatar
s*h
8
以前没怎么太follow过这些,刚看了一下http://www.kaggle.com/c/mlsp-2014-mri
第一名说他根本没有进一步改进model,因为在public LB上他排名很差。
估计第二名的情况也一样。
仔细一看,
最终第一(private LB)的在public LB上才排269
最终第一(private LB)的在public LB上才排282
而且搞笑的是他们的private score比public score高很多。????
无数人overfitting啊。
用这些model裸run实在是有点搞笑啊!纯赌博啊!
更搞笑的是,这个restaurant-revenue-prediction的题目,很多人就猜测数据是怎么
产生的,想back engineer data.
avatar
s*h
9
这也太作弊了吧?有意义么……
就为了拿个奖写resume?

【在 s****h 的大作中提到】
: 以前没怎么太follow过这些,刚看了一下http://www.kaggle.com/c/mlsp-2014-mri
: 第一名说他根本没有进一步改进model,因为在public LB上他排名很差。
: 估计第二名的情况也一样。
: 仔细一看,
: 最终第一(private LB)的在public LB上才排269
: 最终第一(private LB)的在public LB上才排282
: 而且搞笑的是他们的private score比public score高很多。????
: 无数人overfitting啊。
: 用这些model裸run实在是有点搞笑啊!纯赌博啊!
: 更搞笑的是,这个restaurant-revenue-prediction的题目,很多人就猜测数据是怎么

avatar
s*h
10
话说这出题者是出于什么想法只给了137个 training data?
里面大多数city都只有一个obs。
test set 这么大……
avatar
O*y
11

testdata 被加了一些fake data,据说为了防止guess,我猜,真正的test data少于
100

【在 s*********h 的大作中提到】
: 话说这出题者是出于什么想法只给了137个 training data?
: 里面大多数city都只有一个obs。
: test set 这么大……

avatar
h*d
12

columns

【在 s****h 的大作中提到】
: 昨天下午看到,觉得这是个很有趣,也实用的题目.
: https://www.kaggle.com/c/restaurant-revenue-prediction
: training data size: 137
: test data size: 100K
: Parameters: date, city name, city group, restaurant type, 37 number columns
: for demographic , real estate, and commercial data.
: 初步设想, 用最基本的logistic regression?
: city group 两个值, 那就是0, 1
: restaurant type 四个值, 那就是0001, 0010,0100,1000
: date可以换算成个数值

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。