请教deep learning在biomarker鉴定中的应用?# Biology - 生物学c*p2017-05-04 07:051 楼昨天下雨,我撒了很多草种, 今天看都在地面上. 我要不要撒些topsoil覆盖草籽呢? 谢谢.
w*a2017-05-04 07:054 楼没发大显身手,首先码公不懂disease,就算懂了,FDA也不让你搞。23andme就搞几个预测就差点被FDA给废了。【在 f*****n 的大作中提到】: deep learning主要成功在图像,声音识别: disease biomarker领域呢?请教有何进展呢?dl能大显身手呢?
e*62017-05-04 07:056 楼靠自己发挥想象力,两边的知识都要懂,还是有很多可以做的【在 f*****n 的大作中提到】: deep learning主要成功在图像,声音识别: disease biomarker领域呢?请教有何进展呢?dl能大显身手呢?
T*m2017-05-04 07:057 楼overseeding还是重来?如果是在原来的草地上撒籽(overseeding),那最好用耙子爬爬。如果原来的土是光秃秃的,则最好盖一层土,薄薄的。谢【在 c*********p 的大作中提到】: 昨天下雨,我撒了很多草种, 今天看都在地面上. 我要不要撒些topsoil覆盖草籽呢? 谢: 谢.
f*n2017-05-04 07:058 楼我找到的一片paper:http://www.aging-us.com/article/100968/text感觉还是很赞的如果ageing上可以大大提高prediction performance,其他任何疾病为何不能?因为大部分dl应用还是在图像,声音,所以看到这种研究,比较难得。【在 e*********6 的大作中提到】: 靠自己发挥想象力,两边的知识都要懂,还是有很多可以做的
n*72017-05-04 07:0510 楼我不懂DL,不过粗粗看了一下,感觉这是一篇烂文1. 首先你可以注意到altmetric score爆表了,居然有700+对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的于是我很好奇的点击了一下具体内容发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章而最后都是介绍 Insilico Medicine, Inc 这个公司这个就是这篇文章的第一作者单位很显然,这个公司花了些钱做市场推销2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不应该的。于是过了一遍正文,果然既没有跟别人方法的比较,也没有跟传统方法做的predictor的比较。这里基本可以确认这是一篇水文了。而且他们的方法,即使从我不懂DL的人来看,也没啥真货,就是拿着现成的包跑了跑,这算啥啊。3. 进一步看看细节,图2的字体搞得那么小,根本不是给人看的,一看就不专业。最后的method部分,很基本的衡量指标还解释那么细致,给人的感觉就是没什么真货,拿这种照抄的东西来充公式。4. 最后查查杂志的IF,4左右,符合预期。总结,又一篇打着AI/DL旗号吹牛的公司烂文。这篇文章拿了俄罗斯的政府的钱,不知道一作是不是普京的亲戚。【在 f*****n 的大作中提到】: 我找到的一片paper:: http://www.aging-us.com/article/100968/text: 感觉还是很赞的: 如果ageing上可以大大提高prediction performance,其他任何疾病为何不能?: 因为大部分dl应用还是在图像,声音,所以看到这种研究,比较难得。
l*r2017-05-04 07:0512 楼【在 n******7 的大作中提到】: 我不懂DL,不过粗粗看了一下,感觉这是一篇烂文: 1. 首先你可以注意到altmetric score爆表了,居然有700+: 对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的: 于是我很好奇的点击了一下具体内容: 发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章: 而最后都是介绍 Insilico Medicine, Inc 这个公司: 这个就是这篇文章的第一作者单位: 很显然,这个公司花了些钱做市场推销: 2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话: 。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不
e*62017-05-04 07:0514 楼为什么不能?没人说不能。只是没人做而已。能做出这个东西的技能需求,和Google和Facebook的招聘需求很一致,用DeepLearning预测biomarker和用deep learning来做更好的推荐系统或者更好的推送广告,或者优化排序,所需的技能几乎是一样的。作为一个PI,如何在fresh PhD就业市场上说服别人放弃Google 和Facebook 200k+以上的package来做postdoc?postdoc最高能给到一年7万,也只有industry的三分之一。【在 f*****n 的大作中提到】: 我找到的一片paper:: http://www.aging-us.com/article/100968/text: 感觉还是很赞的: 如果ageing上可以大大提高prediction performance,其他任何疾病为何不能?: 因为大部分dl应用还是在图像,声音,所以看到这种研究,比较难得。
e*62017-05-04 07:0515 楼Deep Learning算是听热门的东西。看看DeepSea和DeepBind的一些后续工作,有个开源版本发了Genome Research,还有个调参数版本发了ISMB(这可以发一篇就能找faculty的档次的),有个beat了原版的performance发了NAR这种原创性的,又是临床相关,按理说应该也是10分档次的【在 n******7 的大作中提到】: 我不懂DL,不过粗粗看了一下,感觉这是一篇烂文: 1. 首先你可以注意到altmetric score爆表了,居然有700+: 对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的: 于是我很好奇的点击了一下具体内容: 发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章: 而最后都是介绍 Insilico Medicine, Inc 这个公司: 这个就是这篇文章的第一作者单位: 很显然,这个公司花了些钱做市场推销: 2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话: 。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不
e*62017-05-04 07:0516 楼没有数据要利用现有资源发现数据,能找到数据的,顺便就能把Deep Learning跑了,为什么要等着被人来摘果子?!【在 l****r 的大作中提到】: dl有效一定要大数据training,能有那么多训练数据集么?
f*n2017-05-04 07:0517 楼我很赞同!我也觉得这是一篇水文。从学术的角度说。居然没有看到他们用DL和比如random forest,XGboost比较通篇俄罗斯人的广告但这是我唯一能搜索到的deep learning在biomarker的paper关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。那么到底deep learning是否适合biostat/biomarker这样类型的data training呢【在 n******7 的大作中提到】: 我不懂DL,不过粗粗看了一下,感觉这是一篇烂文: 1. 首先你可以注意到altmetric score爆表了,居然有700+: 对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的: 于是我很好奇的点击了一下具体内容: 发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章: 而最后都是介绍 Insilico Medicine, Inc 这个公司: 这个就是这篇文章的第一作者单位: 很显然,这个公司花了些钱做市场推销: 2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话: 。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不
f*n2017-05-04 07:0518 楼NO这也是我的问题。如果dl解决biomarker像image那样,估计文章早满天飞了,为何至今文章寥寥?注意知乎专门讨论为何deep learning在图像上如此成功:https://www.zhihu.com/question/21815490因为image特殊的数据类型所以我相当怀疑,deep learning没有那么适合genomics, biostat, biomarker类型的数据当然你提到deepBind啥的,请问比传统ML的performance提高很多?会不会对于genomics/biostat,比如只有20%的数据表现很好而对于image,100%都表现很好?【在 e*********6 的大作中提到】: 为什么不能?没人说不能。只是没人做而已。: 能做出这个东西的技能需求,和Google和Facebook的招聘需求很一致,用Deep: Learning预测biomarker和用deep learning来做更好的推荐系统或者更好的推送广告,: 或者优化排序,所需的技能几乎是一样的。: 作为一个PI,如何在fresh PhD就业市场上说服别人放弃Google 和Facebook 200k+以上: 的package来做postdoc?postdoc最高能给到一年7万,也只有industry的三分之一。
e*62017-05-04 07:0519 楼这和数据类型没关系,各个行业都有不同的数据类型,都要根据自己的需求来重新做model,要是没合适模型直接拿来用,就说没法做的,那deepbind和deepSea都不会出现了。DeepBind的这种东西,没有可以比的benchmark,因为这是开创性的革命性的,或者说,传统的SVM之类的,效果实在太差,差到都没发表的必要的。一流的研究是颠覆性,革命性,开创性的,很多时候的确没有什么传统的benchmark可以比较看这两篇paper,都是用deep learning的手段来增强实验数据的,http://biorxiv.org/content/early/2016/05/07/052118http://biorxiv.org/content/early/2017/03/01/112631就是对现实需求和deep learning技术的结合,两篇都没有任何benchmark来进行对比,因为都是开创性的,传统的SVM和Linear Regression都无法做这个事情【在 f*****n 的大作中提到】: NO: 这也是我的问题。: 如果dl解决biomarker像image那样,估计文章早满天飞了,为何至今文章寥寥?: 注意知乎专门讨论为何deep learning在图像上如此成功:: https://www.zhihu.com/question/21815490: 因为image特殊的数据类型: 所以我相当怀疑,deep learning没有那么适合genomics, biostat, biomarker类型的: 数据: 当然你提到deepBind啥的,请问比传统ML的performance提高很多?: 会不会对于genomics/biostat,比如只有20%的数据表现很好
e*62017-05-04 07:0520 楼biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴巴给标出来,deep learning就没啥优势。为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的,为什么要开这些高风险项目?【在 f*****n 的大作中提到】: 我很赞同!我也觉得这是一篇水文。从学术的角度说。: 居然没有看到他们用DL和比如random forest,XGboost比较: 通篇俄罗斯人的广告: 但这是我唯一能搜索到的deep learning在biomarker的paper: 关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?: 很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。: 那么到底deep learning是否适合biostat/biomarker这样类型的data training呢
f*n2017-05-04 07:0521 楼很受教!“biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好”说的很赞我举一个例子比如对于某个疾病,我们测量blood glucose,但这个测量是动态的,随时间变化的比如对于一个人:Jan 200Feb 300Marc 400对于这种raw data,请问能直接作为feature来train?不需要任何featureengineering么?比如我们过去做的就是polynomial fit,y=kx+b;然后取k和b作为new feature【在 e*********6 的大作中提到】: biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数: 据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。: 就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴: 巴给标出来,deep learning就没啥优势。: 为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改: model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的: ,为什么要开这些高风险项目?
n*72017-05-04 07:0522 楼不知道你在那个平行宇宙作研究纯扯淡。有年ISMB的论文都算作特别issue,发到bioinfomatrics还是BMC的一个杂志上,大家都还挺高兴这种烂文发个IF4的期刊都赚了,你眼界太差【在 e*********6 的大作中提到】: biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数: 据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。: 就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴: 巴给标出来,deep learning就没啥优势。: 为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改: model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的: ,为什么要开这些高风险项目?
f*n2017-05-04 07:0523 楼还有,我昨天在你的DL科普帖子问了问题,估计你没看到你说:“过去都是人工feature engineering,比如有个ATATACT的pattern的情况下,可能有什么东西binding”能否具体解释一下呢?什么叫人工feature engineering?我记得过去也有类似的工作,都是随便给一个sequence,预测有啥protein bind;DL就是performance好点,还有啥优点?【在 e*********6 的大作中提到】: biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数: 据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。: 就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴: 巴给标出来,deep learning就没啥优势。: 为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改: model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的: ,为什么要开这些高风险项目?
G*G2017-05-04 07:0524 楼请问第二篇论文中,是如何把一个image切割成块的,这些快作为input,有什么顺序吗?怎么确定这个顺序呢?【在 e*********6 的大作中提到】: 这和数据类型没关系,各个行业都有不同的数据类型,都要根据自己的需求来重新做: model,要是没合适模型直接拿来用,就说没法做的,那deepbind和deepSea都不会出现: 了。: DeepBind的这种东西,没有可以比的benchmark,因为这是开创性的革命性的,或者说: ,传统的SVM之类的,效果实在太差,差到都没发表的必要的。: 一流的研究是颠覆性,革命性,开创性的,很多时候的确没有什么传统的benchmark可: 以比较: 看这两篇paper,都是用deep learning的手段来增强实验数据的,: http://biorxiv.org/content/early/2016/05/07/052118: http://biorxiv.org/content/early/2017/03/01/112631
f*n2017-05-04 07:0525 楼哈哈。从biologist角度,坦白说我不太信CHIP-seq;太容易造假;完全看你的antibodyquality;这不是我们computational能控制的;而且每天binding来binding去啥意思呢。我周围的HHMI明确说:他们不买账任何binding,觉得binding不代表function,顶多inferbiomed里比这个有趣的课题很多【在 n******7 的大作中提到】: 不知道你在那个平行宇宙作研究: : 纯扯淡。有年ISMB的论文都算作特别issue,发到bioinfomatrics还是BMC的一个杂志上: ,大家都还挺高兴: 这种烂文发个IF4的期刊都赚了,你眼界太差
n*72017-05-04 07:0526 楼我记得看过一些DL做bioinfo的文章但是没啥特别的,所以都没印象了我第一次听到DL就是2013年的时候我一个好朋友考虑用DL解决一个传统bioinfo问题后来就没有下文了所以你的思路是对的,现在做bioinfo的那么多三脚猫看到这个不费力的灌水利器肯定早就在试了显然是成功的不多用常识就可以推断出两个可能:1.DL不适合一般的bioinfo问题2.要让DL能在非图像声音数据上工作很好,需要做一些很深入的改动/调整,大部分做bioinfo的搞不定【在 f*****n 的大作中提到】: 我很赞同!我也觉得这是一篇水文。从学术的角度说。: 居然没有看到他们用DL和比如random forest,XGboost比较: 通篇俄罗斯人的广告: 但这是我唯一能搜索到的deep learning在biomarker的paper: 关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?: 很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。: 那么到底deep learning是否适合biostat/biomarker这样类型的data training呢
n*72017-05-04 07:0527 楼bioinfo里面可以tweak的地方太多了很多步骤外人根本都不知道它们的存在的这个领域鱼龙混杂这个aging的文章是典型的垃圾文呢。【在 f*****n 的大作中提到】: 哈哈。: 从biologist角度,坦白说我不太信CHIP-seq;太容易造假;完全看你的antibody: quality;这不是我们computational能控制的;而且每天binding来binding去啥意思呢。: 我周围的HHMI明确说:他们不买账任何binding,觉得binding不代表function,顶多: infer: biomed里比这个有趣的课题很多
f*n2017-05-04 07:0528 楼但EricZhang有一点也说的对就是have a try至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomicsdata适合DL所以试试咯我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是要跳出bio这个坑的【在 n******7 的大作中提到】: 我记得看过一些DL做bioinfo的文章: 但是没啥特别的,所以都没印象了: 我第一次听到DL就是2013年的时候我一个好朋友考虑用DL解决一个传统bioinfo问题: 后来就没有下文了: 所以你的思路是对的,现在做bioinfo的那么多三脚猫: 看到这个不费力的灌水利器肯定早就在试了: 显然是成功的不多: 用常识就可以推断出两个可能:: 1.DL不适合一般的bioinfo问题: 2.要让DL能在非图像声音数据上工作很好,需要做一些很深入的改动/调整,大部分做
f*n2017-05-04 07:0529 楼所以前辈你觉得俄罗斯人的那个ageing DL是。。tweak出来的?算造假么?当然了,I know there's lots of grey region quesiton in biology【在 n******7 的大作中提到】: bioinfo里面可以tweak的地方太多了: 很多步骤外人根本都不知道它们的存在的: 这个领域鱼龙混杂: 这个aging的文章是典型的垃圾文: : 呢。
G*G2017-05-04 07:0530 楼你说的这些,我都会。但是怎么让招聘的人聘用你呢。比如:怎么让金融公司的老总聘用你。请大家详谈。【在 f*****n 的大作中提到】: 但EricZhang有一点也说的对: 就是have a try: 至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomics: data适合DL: 所以试试咯: 我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔: 当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是: 要跳出bio这个坑的
G*G2017-05-04 07:0531 楼请问一个图片如何分割成好几个快,然后作为convnet的输入?这个输入的顺序如何确定?【在 n******7 的大作中提到】: 我记得看过一些DL做bioinfo的文章: 但是没啥特别的,所以都没印象了: 我第一次听到DL就是2013年的时候我一个好朋友考虑用DL解决一个传统bioinfo问题: 后来就没有下文了: 所以你的思路是对的,现在做bioinfo的那么多三脚猫: 看到这个不费力的灌水利器肯定早就在试了: 显然是成功的不多: 用常识就可以推断出两个可能:: 1.DL不适合一般的bioinfo问题: 2.要让DL能在非图像声音数据上工作很好,需要做一些很深入的改动/调整,大部分做
n*72017-05-04 07:0532 楼没我觉得他们就是用dl在数据上跑了跑也不管结果好坏灌了篇文章然后到处吹我们是用人工智能解决健康问题的nb公司【在 f*****n 的大作中提到】: 所以前辈你觉得俄罗斯人的那个ageing DL是。。tweak出来的?: 算造假么?: 当然了,I know there's lots of grey region quesiton in biology
n*72017-05-04 07:0533 楼try是必须的但是要明确自己的目的评估代价【在 f*****n 的大作中提到】: 但EricZhang有一点也说的对: 就是have a try: 至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomics: data适合DL: 所以试试咯: 我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔: 当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是: 要跳出bio这个坑的
f*n2017-05-04 07:0536 楼最简单的:图片是像素组成的比如一张图28X28=784个像素,你从上到下,从左到右,一个数那么就是一个784 row的vector,比如:[1,0,0,0,1,...]颜色深的地方就是1,眼色浅的是0;图像就转变成数字了;同样类似frequency count,比如bags-of-words,文字也可以变成数字然后一幅图就变成了784个feature的vector,可以作为ML input【在 G***G 的大作中提到】: 请问一个图片如何分割成好几个快,然后作为convnet的输入?这个输入的顺序如何确: 定?
f*n2017-05-04 07:0537 楼修degree 或 online degree没degree的时候自己做project咯金融domain knowledge难的话互联网数据更好啊【在 G***G 的大作中提到】: 你说的这些,我都会。但是怎么让招聘的人聘用你呢。: 比如:怎么让金融公司的老总聘用你。: 请大家详谈。
G*G2017-05-04 07:0538 楼金融行业,风险大。老板根本不会聘这种半路出家的。不信,你问问quant老板会认为你是去偷技术的。而如果你真有技术,你也不会去卖给老板。【在 f*****n 的大作中提到】: 修degree 或 online degree: 没degree的时候自己做project咯: 金融domain knowledge难的话: 互联网数据更好啊
G*G2017-05-04 07:0539 楼从下到上,从右到左,行不行?预测的精度会改变吗?【在 f*****n 的大作中提到】: 最简单的:: 图片是像素组成的: 比如一张图28X28=784个像素,: 你从上到下,从左到右,一个数: 那么就是一个784 row的vector,比如:: [1,: 0,: 0,: 0,: 1,
f*n2017-05-04 07:0540 楼那就互联网啊【在 G***G 的大作中提到】: 金融行业,风险大。老板根本不会聘这种半路出家的。: 不信,你问问quant: 老板会认为你是去偷技术的。: 而如果你真有技术,你也不会去卖给老板。
e*62017-05-04 07:0541 楼每一个raw data就是一个feature比如对image,如果是800 *600的黑白图像,就有480000个feature,这些feature直接的相互关系,决定了图片到底是什么。deep learning的核心就是对这些feature的多步抽象和处理【在 f*****n 的大作中提到】: 很受教!: “biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好”: 说的很赞: 我举一个例子: 比如对于某个疾病,我们测量blood glucose,但这个测量是动态的,随时间变化的: 比如对于一个人:: Jan 200: Feb 300: Marc 400: 对于这种raw data,请问能直接作为feature来train?不需要任何feature
e*62017-05-04 07:0542 楼ISMB一篇就能拿到很多学校的面试。ISMB档次明显高于Bioinformatics,所以大家一般说publication的时候,就是说发了一篇ISMB而不是发了一篇Bioinformatics【在 n******7 的大作中提到】: 不知道你在那个平行宇宙作研究: : 纯扯淡。有年ISMB的论文都算作特别issue,发到bioinfomatrics还是BMC的一个杂志上: ,大家都还挺高兴: 这种烂文发个IF4的期刊都赚了,你眼界太差
e*62017-05-04 07:0543 楼为什么Chip-seq容易造假?这东西测序仪出来几个G的数据,然后mapping,call peak,一切都是pipeline怎么造假?一个一个把fastq里边改2个字母??western的结果我才不信呢,我只信高通量出来的数据。呢。【在 f*****n 的大作中提到】: 哈哈。: 从biologist角度,坦白说我不太信CHIP-seq;太容易造假;完全看你的antibody: quality;这不是我们computational能控制的;而且每天binding来binding去啥意思呢。: 我周围的HHMI明确说:他们不买账任何binding,觉得binding不代表function,顶多: infer: biomed里比这个有趣的课题很多
e*62017-05-04 07:0544 楼你去哪里分析互联网,金融,图像和声音的数据?有人给你吗?这都是机密,公司的核心资产之一。图像声音,标准数据集就这么多,早被研究透了,你要能在标准数据集上跑个超过现有方法的结果,这是个CVPR best paper档次的。Kaggle一类的,也基本已经脱离了实际生产背景,给限定死了数据的范围了老老实实拿着生物数据库联手最最现实【在 f*****n 的大作中提到】: 但EricZhang有一点也说的对: 就是have a try: 至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomics: data适合DL: 所以试试咯: 我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔: 当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是: 要跳出bio这个坑的
e*62017-05-04 07:0546 楼deep learning都是要具体问题具体分析,尤其解决新问题,要对deep learning的学习有一定的广度,知道什么东西可能有用处【在 n******7 的大作中提到】: 没: 我觉得他们就是用dl在数据上跑了跑: 也不管结果好坏: 灌了篇文章: 然后到处吹我们是用人工智能解决健康问题的nb公司
e*62017-05-04 07:0547 楼大哥,对图片这种,对常见的CNN,要在二维做Convolution好不?把2D matrixflatten了以后,不就改变了他们之间的相互关系了吗?local pattern就被破坏了啊【在 f*****n 的大作中提到】: 最简单的:: 图片是像素组成的: 比如一张图28X28=784个像素,: 你从上到下,从左到右,一个数: 那么就是一个784 row的vector,比如:: [1,: 0,: 0,: 0,: 1,
e*62017-05-04 07:0548 楼你的数据哪里来?DL最关键的就是数据啊,为啥大佬纷纷跳槽,不就是Google, Facebook和Baidu有数据吗?【在 f*****n 的大作中提到】: 那就互联网啊
f*n2017-05-04 07:0549 楼测序之前呢?sample prep呢?fixation,chromatin shear,最关键的是antibody quality;都可以让你的library以及sequencing结果彻底不同general 高通量测序我信,但只要是跟protein沾边的,抗体沾边的,我都不信同一个protein,你去看不同paper的chip-seq data,以及 CLIP-seq,完全不同;当然epigenetics本来就是dynamics的,这里边又有多少操作上的noise,鬼知道【在 e*********6 的大作中提到】: 为什么Chip-seq容易造假?: 这东西测序仪出来几个G的数据,然后mapping,call peak,一切都是pipeline怎么造: 假?一个一个把fastq里边改2个字母??: western的结果我才不信呢,我只信高通量出来的数据。: : 呢。
f*n2017-05-04 07:0550 楼互联网,金融,图像和声音的数据?有人给你吗?这都是机密。。拜托,网上一堆堆API,好不好google,facebook,twitter,linkedin。。。当然open API的,大家都会去玩儿数据,拿来练手至于机密重要的,他们肯定也不会公开【在 e*********6 的大作中提到】: 你去哪里分析互联网,金融,图像和声音的数据?有人给你吗?这都是机密,公司的核: 心资产之一。: 图像声音,标准数据集就这么多,早被研究透了,你要能在标准数据集上跑个超过现有: 方法的结果,这是个CVPR best paper档次的。: Kaggle一类的,也基本已经脱离了实际生产背景,给限定死了数据的范围了: 老老实实拿着生物数据库联手最最现实
e*62017-05-04 07:0551 楼如何“操作”能改变分子级别的结果,的确是大牛,那也真是本事。【在 f*****n 的大作中提到】: 测序之前呢?: sample prep呢?: fixation,chromatin shear,最关键的是antibody quality;都可以让你的library以: 及sequencing结果彻底不同: general 高通量测序我信,但只要是跟protein沾边的,抗体沾边的,我都不信: 同一个protein,你去看不同paper的chip-seq data,以及 CLIP-seq,完全不同;当然: epigenetics本来就是dynamics的,这里边又有多少操作上的noise,鬼知道
e*62017-05-04 07:0552 楼你做项目,能给别人看的,就是你有solid programming skill,可以把这些简单的数据抓下来处理一下。【在 f*****n 的大作中提到】: 互联网,金融,图像和声音的数据?有人给你吗?这都是机密。。: 拜托,网上一堆堆API,好不好: google,facebook,twitter,linkedin。。。: 当然open API的,大家都会去玩儿数据,拿来练手: 至于机密重要的,他们肯定也不会公开