Redian新闻
>
请教deep learning在biomarker鉴定中的应用?
avatar
请教deep learning在biomarker鉴定中的应用?# Biology - 生物学
c*p
1
昨天下雨,我撒了很多草种, 今天看都在地面上. 我要不要撒些topsoil覆盖草籽呢? 谢
谢.
avatar
f*n
2
deep learning主要成功在图像,声音识别
disease biomarker领域呢?请教有何进展呢?dl能大显身手呢?
avatar
m*i
3
如果你的地很秃需要盖一下,不然都被鸟吃了
avatar
w*a
4
没发大显身手,首先码公不懂disease,
就算懂了,FDA也不让你搞。23andme就搞几个预测就差点被FDA给废了。

【在 f*****n 的大作中提到】
: deep learning主要成功在图像,声音识别
: disease biomarker领域呢?请教有何进展呢?dl能大显身手呢?

avatar
c*p
5
那就是说不会影响发芽. 发芽不需要土盖在上面吗?

【在 m**i 的大作中提到】
: 如果你的地很秃需要盖一下,不然都被鸟吃了
avatar
e*6
6
靠自己发挥想象力,两边的知识都要懂,还是有很多可以做的

【在 f*****n 的大作中提到】
: deep learning主要成功在图像,声音识别
: disease biomarker领域呢?请教有何进展呢?dl能大显身手呢?

avatar
T*m
7
overseeding还是重来?如果是在原来的草地上撒籽(overseeding),那最好用耙子爬
爬。如果原来的土是光秃秃的,则最好盖一层土,薄薄的。



【在 c*********p 的大作中提到】
: 昨天下雨,我撒了很多草种, 今天看都在地面上. 我要不要撒些topsoil覆盖草籽呢? 谢
: 谢.

avatar
f*n
8
我找到的一片paper:
http://www.aging-us.com/article/100968/text
感觉还是很赞的
如果ageing上可以大大提高prediction performance,其他任何疾病为何不能?
因为大部分dl应用还是在图像,声音,所以看到这种研究,比较难得。

【在 e*********6 的大作中提到】
: 靠自己发挥想象力,两边的知识都要懂,还是有很多可以做的
avatar
c*p
9
? 谢谢.. 我怕没埋土里长不出来.

【在 c*********p 的大作中提到】
: 那就是说不会影响发芽. 发芽不需要土盖在上面吗?
avatar
n*7
10
我不懂DL,不过粗粗看了一下,感觉这是一篇烂文
1. 首先你可以注意到altmetric score爆表了,居然有700+
对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的
于是我很好奇的点击了一下具体内容
发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章
而最后都是介绍 Insilico Medicine, Inc 这个公司
这个就是这篇文章的第一作者单位
很显然,这个公司花了些钱做市场推销
2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话
。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不
应该的。于是过了一遍正文,果然既没有跟别人方法的比较,也没有跟传统方法做的
predictor的比较。这里基本可以确认这是一篇水文了。而且他们的方法,即使从我不
懂DL的人来看,也没啥真货,就是拿着现成的包跑了跑,这算啥啊。
3. 进一步看看细节,图2的字体搞得那么小,根本不是给人看的,一看就不专业。最后
的method部分,很基本的衡量指标还解释那么细致,给人的感觉就是没什么真货,拿这
种照抄的东西来充公式。
4. 最后查查杂志的IF,4左右,符合预期。
总结,又一篇打着AI/DL旗号吹牛的公司烂文。这篇文章拿了俄罗斯的政府的钱,不知
道一作是不是普京的亲戚。

【在 f*****n 的大作中提到】
: 我找到的一片paper:
: http://www.aging-us.com/article/100968/text
: 感觉还是很赞的
: 如果ageing上可以大大提高prediction performance,其他任何疾病为何不能?
: 因为大部分dl应用还是在图像,声音,所以看到这种研究,比较难得。

avatar
m*i
11
那你太小看种子的生命力了

【在 c*********p 的大作中提到】
: ? 谢谢.. 我怕没埋土里长不出来.
avatar
l*r
12


【在 n******7 的大作中提到】
: 我不懂DL,不过粗粗看了一下,感觉这是一篇烂文
: 1. 首先你可以注意到altmetric score爆表了,居然有700+
: 对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的
: 于是我很好奇的点击了一下具体内容
: 发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章
: 而最后都是介绍 Insilico Medicine, Inc 这个公司
: 这个就是这篇文章的第一作者单位
: 很显然,这个公司花了些钱做市场推销
: 2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话
: 。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不

avatar
l*r
13
dl有效一定要大数据training,能有那么多训练数据集么?
avatar
e*6
14
为什么不能?没人说不能。只是没人做而已。
能做出这个东西的技能需求,和Google和Facebook的招聘需求很一致,用Deep
Learning预测biomarker和用deep learning来做更好的推荐系统或者更好的推送广告,
或者优化排序,所需的技能几乎是一样的。
作为一个PI,如何在fresh PhD就业市场上说服别人放弃Google 和Facebook 200k+以上
的package来做postdoc?postdoc最高能给到一年7万,也只有industry的三分之一。

【在 f*****n 的大作中提到】
: 我找到的一片paper:
: http://www.aging-us.com/article/100968/text
: 感觉还是很赞的
: 如果ageing上可以大大提高prediction performance,其他任何疾病为何不能?
: 因为大部分dl应用还是在图像,声音,所以看到这种研究,比较难得。

avatar
e*6
15
Deep Learning算是听热门的东西。
看看DeepSea和DeepBind的一些后续工作,有个开源版本发了Genome Research,还有个
调参数版本发了ISMB(这可以发一篇就能找faculty的档次的),有个beat了原版的
performance发了NAR
这种原创性的,又是临床相关,按理说应该也是10分档次的

【在 n******7 的大作中提到】
: 我不懂DL,不过粗粗看了一下,感觉这是一篇烂文
: 1. 首先你可以注意到altmetric score爆表了,居然有700+
: 对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的
: 于是我很好奇的点击了一下具体内容
: 发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章
: 而最后都是介绍 Insilico Medicine, Inc 这个公司
: 这个就是这篇文章的第一作者单位
: 很显然,这个公司花了些钱做市场推销
: 2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话
: 。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不

avatar
e*6
16
没有数据要利用现有资源发现数据,能找到数据的,顺便就能把Deep Learning跑了,
为什么要等着被人来摘果子?!

【在 l****r 的大作中提到】
: dl有效一定要大数据training,能有那么多训练数据集么?
avatar
f*n
17
我很赞同!我也觉得这是一篇水文。从学术的角度说。
居然没有看到他们用DL和比如random forest,XGboost比较
通篇俄罗斯人的广告
但这是我唯一能搜索到的deep learning在biomarker的paper
关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?
很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。
那么到底deep learning是否适合biostat/biomarker这样类型的data training呢

【在 n******7 的大作中提到】
: 我不懂DL,不过粗粗看了一下,感觉这是一篇烂文
: 1. 首先你可以注意到altmetric score爆表了,居然有700+
: 对于这样一个不知名刊物上,没有什么惊世骇俗发现的文章,这是非常不正常的
: 于是我很好奇的点击了一下具体内容
: 发现居然有89篇新闻报道,其中有几个网站在几个月跨度上反复报道了这篇文章
: 而最后都是介绍 Insilico Medicine, Inc 这个公司
: 这个就是这篇文章的第一作者单位
: 很显然,这个公司花了些钱做市场推销
: 2. 再扫一眼摘要,预测的performance没觉得有啥,发现几个重要marker云云都是套话
: 。但是最关键的,没有看到作者提到相比已有的工作如何。作为一个传统问题,这是不

avatar
f*n
18
NO
这也是我的问题。
如果dl解决biomarker像image那样,估计文章早满天飞了,为何至今文章寥寥?
注意知乎专门讨论为何deep learning在图像上如此成功:
https://www.zhihu.com/question/21815490
因为image特殊的数据类型
所以我相当怀疑,deep learning没有那么适合genomics, biostat, biomarker类型的
数据
当然你提到deepBind啥的,请问比传统ML的performance提高很多?
会不会对于genomics/biostat,比如只有20%的数据表现很好
而对于image,100%都表现很好?

【在 e*********6 的大作中提到】
: 为什么不能?没人说不能。只是没人做而已。
: 能做出这个东西的技能需求,和Google和Facebook的招聘需求很一致,用Deep
: Learning预测biomarker和用deep learning来做更好的推荐系统或者更好的推送广告,
: 或者优化排序,所需的技能几乎是一样的。
: 作为一个PI,如何在fresh PhD就业市场上说服别人放弃Google 和Facebook 200k+以上
: 的package来做postdoc?postdoc最高能给到一年7万,也只有industry的三分之一。

avatar
e*6
19
这和数据类型没关系,各个行业都有不同的数据类型,都要根据自己的需求来重新做
model,要是没合适模型直接拿来用,就说没法做的,那deepbind和deepSea都不会出现
了。
DeepBind的这种东西,没有可以比的benchmark,因为这是开创性的革命性的,或者说
,传统的SVM之类的,效果实在太差,差到都没发表的必要的。
一流的研究是颠覆性,革命性,开创性的,很多时候的确没有什么传统的benchmark可
以比较
看这两篇paper,都是用deep learning的手段来增强实验数据的,
http://biorxiv.org/content/early/2016/05/07/052118
http://biorxiv.org/content/early/2017/03/01/112631
就是对现实需求和deep learning技术的结合,两篇都没有任何benchmark来进行对比,
因为都是开创性的,传统的SVM和Linear Regression都无法做这个事情

【在 f*****n 的大作中提到】
: NO
: 这也是我的问题。
: 如果dl解决biomarker像image那样,估计文章早满天飞了,为何至今文章寥寥?
: 注意知乎专门讨论为何deep learning在图像上如此成功:
: https://www.zhihu.com/question/21815490
: 因为image特殊的数据类型
: 所以我相当怀疑,deep learning没有那么适合genomics, biostat, biomarker类型的
: 数据
: 当然你提到deepBind啥的,请问比传统ML的performance提高很多?
: 会不会对于genomics/biostat,比如只有20%的数据表现很好

avatar
e*6
20
biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数
据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。
就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴
巴给标出来,deep learning就没啥优势。
为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改
model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的
,为什么要开这些高风险项目?

【在 f*****n 的大作中提到】
: 我很赞同!我也觉得这是一篇水文。从学术的角度说。
: 居然没有看到他们用DL和比如random forest,XGboost比较
: 通篇俄罗斯人的广告
: 但这是我唯一能搜索到的deep learning在biomarker的paper
: 关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?
: 很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。
: 那么到底deep learning是否适合biostat/biomarker这样类型的data training呢

avatar
f*n
21
很受教!
“biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好”
说的很赞
我举一个例子
比如对于某个疾病,我们测量blood glucose,但这个测量是动态的,随时间变化的
比如对于一个人:
Jan 200
Feb 300
Marc 400
对于这种raw data,请问能直接作为feature来train?不需要任何feature
engineering么?
比如我们过去做的就是polynomial fit,y=kx+b;然后取k和b作为new feature

【在 e*********6 的大作中提到】
: biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数
: 据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。
: 就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴
: 巴给标出来,deep learning就没啥优势。
: 为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改
: model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的
: ,为什么要开这些高风险项目?

avatar
n*7
22
不知道你在那个平行宇宙作研究

纯扯淡。有年ISMB的论文都算作特别issue,发到bioinfomatrics还是BMC的一个杂志上
,大家都还挺高兴
这种烂文发个IF4的期刊都赚了,你眼界太差

【在 e*********6 的大作中提到】
: biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数
: 据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。
: 就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴
: 巴给标出来,deep learning就没啥优势。
: 为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改
: model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的
: ,为什么要开这些高风险项目?

avatar
f*n
23
还有,我昨天在你的DL科普帖子问了问题,估计你没看到
你说:
“过去都是人工feature engineering,比如有个ATATACT的pattern的情况下,可能有
什么东西binding”
能否具体解释一下呢?什么叫人工feature engineering?
我记得过去也有类似的工作,都是随便给一个sequence,预测有啥protein bind;DL就
是performance好点,还有啥优点?

【在 e*********6 的大作中提到】
: biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好。原始数
: 据里的feature是非常稀疏,就好DNA序列ATGC或者一个一个像素点一样。
: 就像人脸识别,deep learning擅长的是从原始的pixel 上来识别,要是把眼睛鼻子嘴
: 巴给标出来,deep learning就没啥优势。
: 为什么没人做?和人有关系,就算不提在industry上的需求,就在学术界,人家能改改
: model,beat了deepSea或者deepbind的表现,稳稳妥妥一篇Bioinformatics以上级别的
: ,为什么要开这些高风险项目?

avatar
G*G
24
请问第二篇论文中,是如何把一个image切割成块的,这些快作为input,有什么顺序吗?
怎么确定这个顺序呢?

【在 e*********6 的大作中提到】
: 这和数据类型没关系,各个行业都有不同的数据类型,都要根据自己的需求来重新做
: model,要是没合适模型直接拿来用,就说没法做的,那deepbind和deepSea都不会出现
: 了。
: DeepBind的这种东西,没有可以比的benchmark,因为这是开创性的革命性的,或者说
: ,传统的SVM之类的,效果实在太差,差到都没发表的必要的。
: 一流的研究是颠覆性,革命性,开创性的,很多时候的确没有什么传统的benchmark可
: 以比较
: 看这两篇paper,都是用deep learning的手段来增强实验数据的,
: http://biorxiv.org/content/early/2016/05/07/052118
: http://biorxiv.org/content/early/2017/03/01/112631

avatar
f*n
25
哈哈。
从biologist角度,坦白说我不太信CHIP-seq;太容易造假;完全看你的antibody
quality;这不是我们computational能控制的;而且每天binding来binding去啥意思呢。
我周围的HHMI明确说:他们不买账任何binding,觉得binding不代表function,顶多
infer
biomed里比这个有趣的课题很多

【在 n******7 的大作中提到】
: 不知道你在那个平行宇宙作研究
:
: 纯扯淡。有年ISMB的论文都算作特别issue,发到bioinfomatrics还是BMC的一个杂志上
: ,大家都还挺高兴
: 这种烂文发个IF4的期刊都赚了,你眼界太差

avatar
n*7
26
我记得看过一些DL做bioinfo的文章
但是没啥特别的,所以都没印象了
我第一次听到DL就是2013年的时候我一个好朋友考虑用DL解决一个传统bioinfo问题
后来就没有下文了
所以你的思路是对的,现在做bioinfo的那么多三脚猫
看到这个不费力的灌水利器肯定早就在试了
显然是成功的不多
用常识就可以推断出两个可能:
1.DL不适合一般的bioinfo问题
2.要让DL能在非图像声音数据上工作很好,需要做一些很深入的改动/调整,大部分做
bioinfo的搞不定

【在 f*****n 的大作中提到】
: 我很赞同!我也觉得这是一篇水文。从学术的角度说。
: 居然没有看到他们用DL和比如random forest,XGboost比较
: 通篇俄罗斯人的广告
: 但这是我唯一能搜索到的deep learning在biomarker的paper
: 关键是DL几乎所有工作都用在图像,声音上,为何我几乎没看到类似biomarker的?
: 很多人说图像声音有自己特殊的feature性状,比如raw signal,比如连续。
: 那么到底deep learning是否适合biostat/biomarker这样类型的data training呢

avatar
n*7
27
bioinfo里面可以tweak的地方太多了
很多步骤外人根本都不知道它们的存在的
这个领域鱼龙混杂
这个aging的文章是典型的垃圾文

呢。

【在 f*****n 的大作中提到】
: 哈哈。
: 从biologist角度,坦白说我不太信CHIP-seq;太容易造假;完全看你的antibody
: quality;这不是我们computational能控制的;而且每天binding来binding去啥意思呢。
: 我周围的HHMI明确说:他们不买账任何binding,觉得binding不代表function,顶多
: infer
: biomed里比这个有趣的课题很多

avatar
f*n
28
但EricZhang有一点也说的对
就是have a try
至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomics
data适合DL
所以试试咯
我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔
当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是
要跳出bio这个坑的

【在 n******7 的大作中提到】
: 我记得看过一些DL做bioinfo的文章
: 但是没啥特别的,所以都没印象了
: 我第一次听到DL就是2013年的时候我一个好朋友考虑用DL解决一个传统bioinfo问题
: 后来就没有下文了
: 所以你的思路是对的,现在做bioinfo的那么多三脚猫
: 看到这个不费力的灌水利器肯定早就在试了
: 显然是成功的不多
: 用常识就可以推断出两个可能:
: 1.DL不适合一般的bioinfo问题
: 2.要让DL能在非图像声音数据上工作很好,需要做一些很深入的改动/调整,大部分做

avatar
f*n
29
所以前辈你觉得俄罗斯人的那个ageing DL是。。tweak出来的?
算造假么?
当然了,I know there's lots of grey region quesiton in biology

【在 n******7 的大作中提到】
: bioinfo里面可以tweak的地方太多了
: 很多步骤外人根本都不知道它们的存在的
: 这个领域鱼龙混杂
: 这个aging的文章是典型的垃圾文
:
: 呢。

avatar
G*G
30
你说的这些,我都会。但是怎么让招聘的人聘用你呢。
比如:怎么让金融公司的老总聘用你。
请大家详谈。

【在 f*****n 的大作中提到】
: 但EricZhang有一点也说的对
: 就是have a try
: 至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomics
: data适合DL
: 所以试试咯
: 我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔
: 当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是
: 要跳出bio这个坑的

avatar
G*G
31
请问一个图片如何分割成好几个快,然后作为convnet的输入?这个输入的顺序如何确
定?

【在 n******7 的大作中提到】
: 我记得看过一些DL做bioinfo的文章
: 但是没啥特别的,所以都没印象了
: 我第一次听到DL就是2013年的时候我一个好朋友考虑用DL解决一个传统bioinfo问题
: 后来就没有下文了
: 所以你的思路是对的,现在做bioinfo的那么多三脚猫
: 看到这个不费力的灌水利器肯定早就在试了
: 显然是成功的不多
: 用常识就可以推断出两个可能:
: 1.DL不适合一般的bioinfo问题
: 2.要让DL能在非图像声音数据上工作很好,需要做一些很深入的改动/调整,大部分做

avatar
n*7
32

我觉得他们就是用dl在数据上跑了跑
也不管结果好坏
灌了篇文章
然后到处吹我们是用人工智能解决健康问题的nb公司

【在 f*****n 的大作中提到】
: 所以前辈你觉得俄罗斯人的那个ageing DL是。。tweak出来的?
: 算造假么?
: 当然了,I know there's lots of grey region quesiton in biology

avatar
n*7
33
try是必须的
但是要明确自己的目的
评估代价

【在 f*****n 的大作中提到】
: 但EricZhang有一点也说的对
: 就是have a try
: 至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomics
: data适合DL
: 所以试试咯
: 我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔
: 当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是
: 要跳出bio这个坑的

avatar
n*7
34
这我不懂,你问错人了

【在 G***G 的大作中提到】
: 请问一个图片如何分割成好几个快,然后作为convnet的输入?这个输入的顺序如何确
: 定?

avatar
G*G
35
这不是dl用在图片学习预测的第一步吗?

【在 n******7 的大作中提到】
: 这我不懂,你问错人了
avatar
f*n
36
最简单的:
图片是像素组成的
比如一张图28X28=784个像素,
你从上到下,从左到右,一个数
那么就是一个784 row的vector,比如:
[1,
0,
0,
0,
1,
...]
颜色深的地方就是1,眼色浅的是0;
图像就转变成数字了;
同样类似frequency count,比如bags-of-words,文字也可以变成数字
然后一幅图就变成了784个feature的vector,可以作为ML input

【在 G***G 的大作中提到】
: 请问一个图片如何分割成好几个快,然后作为convnet的输入?这个输入的顺序如何确
: 定?

avatar
f*n
37
修degree 或 online degree
没degree的时候自己做project咯
金融domain knowledge难的话
互联网数据更好啊

【在 G***G 的大作中提到】
: 你说的这些,我都会。但是怎么让招聘的人聘用你呢。
: 比如:怎么让金融公司的老总聘用你。
: 请大家详谈。

avatar
G*G
38
金融行业,风险大。老板根本不会聘这种半路出家的。
不信,你问问quant
老板会认为你是去偷技术的。
而如果你真有技术,你也不会去卖给老板。

【在 f*****n 的大作中提到】
: 修degree 或 online degree
: 没degree的时候自己做project咯
: 金融domain knowledge难的话
: 互联网数据更好啊

avatar
G*G
39
从下到上,从右到左,行不行?
预测的精度会改变吗?

【在 f*****n 的大作中提到】
: 最简单的:
: 图片是像素组成的
: 比如一张图28X28=784个像素,
: 你从上到下,从左到右,一个数
: 那么就是一个784 row的vector,比如:
: [1,
: 0,
: 0,
: 0,
: 1,

avatar
f*n
40
那就互联网啊

【在 G***G 的大作中提到】
: 金融行业,风险大。老板根本不会聘这种半路出家的。
: 不信,你问问quant
: 老板会认为你是去偷技术的。
: 而如果你真有技术,你也不会去卖给老板。

avatar
e*6
41
每一个raw data就是一个feature
比如对image,如果是800 *600的黑白图像,就有480000个feature,这些feature直接
的相互关系,决定了图片到底是什么。
deep learning的核心就是对这些feature的多步抽象和处理

【在 f*****n 的大作中提到】
: 很受教!
: “biomarker上的研究要用deep learning来发展,从原始数据开始,越原始越好”
: 说的很赞
: 我举一个例子
: 比如对于某个疾病,我们测量blood glucose,但这个测量是动态的,随时间变化的
: 比如对于一个人:
: Jan 200
: Feb 300
: Marc 400
: 对于这种raw data,请问能直接作为feature来train?不需要任何feature

avatar
e*6
42
ISMB一篇就能拿到很多学校的面试。
ISMB档次明显高于Bioinformatics,所以大家一般说publication的时候,就是说发了
一篇ISMB而不是发了一篇Bioinformatics

【在 n******7 的大作中提到】
: 不知道你在那个平行宇宙作研究
:
: 纯扯淡。有年ISMB的论文都算作特别issue,发到bioinfomatrics还是BMC的一个杂志上
: ,大家都还挺高兴
: 这种烂文发个IF4的期刊都赚了,你眼界太差

avatar
e*6
43
为什么Chip-seq容易造假?
这东西测序仪出来几个G的数据,然后mapping,call peak,一切都是pipeline怎么造
假?一个一个把fastq里边改2个字母??
western的结果我才不信呢,我只信高通量出来的数据。

呢。

【在 f*****n 的大作中提到】
: 哈哈。
: 从biologist角度,坦白说我不太信CHIP-seq;太容易造假;完全看你的antibody
: quality;这不是我们computational能控制的;而且每天binding来binding去啥意思呢。
: 我周围的HHMI明确说:他们不买账任何binding,觉得binding不代表function,顶多
: infer
: biomed里比这个有趣的课题很多

avatar
e*6
44
你去哪里分析互联网,金融,图像和声音的数据?有人给你吗?这都是机密,公司的核
心资产之一。
图像声音,标准数据集就这么多,早被研究透了,你要能在标准数据集上跑个超过现有
方法的结果,这是个CVPR best paper档次的。
Kaggle一类的,也基本已经脱离了实际生产背景,给限定死了数据的范围了
老老实实拿着生物数据库联手最最现实

【在 f*****n 的大作中提到】
: 但EricZhang有一点也说的对
: 就是have a try
: 至少DeepBind之类的成功了(当然我不了解这个领域),说明可能有部分genomics
: data适合DL
: 所以试试咯
: 我现在觉得genomics越来越没意思,所以在做一些biostat数据,觉得更广阔
: 当然了,这些都是缓兵之计;学习分析互联网,金融,图像,声音才是重点,反正我是
: 要跳出bio这个坑的

avatar
e*6
45
一块是一个样品,和顺序没关系

【在 G***G 的大作中提到】
: 请问一个图片如何分割成好几个快,然后作为convnet的输入?这个输入的顺序如何确
: 定?

avatar
e*6
46
deep learning都是要具体问题具体分析,尤其解决新问题,要对deep learning的学习
有一定的广度,知道什么东西可能有用处

【在 n******7 的大作中提到】
: 没
: 我觉得他们就是用dl在数据上跑了跑
: 也不管结果好坏
: 灌了篇文章
: 然后到处吹我们是用人工智能解决健康问题的nb公司

avatar
e*6
47
大哥,对图片这种,对常见的CNN,要在二维做Convolution好不?把2D matrix
flatten了以后,不就改变了他们之间的相互关系了吗?local pattern就被破坏了啊

【在 f*****n 的大作中提到】
: 最简单的:
: 图片是像素组成的
: 比如一张图28X28=784个像素,
: 你从上到下,从左到右,一个数
: 那么就是一个784 row的vector,比如:
: [1,
: 0,
: 0,
: 0,
: 1,

avatar
e*6
48
你的数据哪里来?
DL最关键的就是数据啊,为啥大佬纷纷跳槽,不就是Google, Facebook和Baidu有数据
吗?

【在 f*****n 的大作中提到】
: 那就互联网啊
avatar
f*n
49
测序之前呢?
sample prep呢?
fixation,chromatin shear,最关键的是antibody quality;都可以让你的library以
及sequencing结果彻底不同
general 高通量测序我信,但只要是跟protein沾边的,抗体沾边的,我都不信
同一个protein,你去看不同paper的chip-seq data,以及 CLIP-seq,完全不同;当然
epigenetics本来就是dynamics的,这里边又有多少操作上的noise,鬼知道

【在 e*********6 的大作中提到】
: 为什么Chip-seq容易造假?
: 这东西测序仪出来几个G的数据,然后mapping,call peak,一切都是pipeline怎么造
: 假?一个一个把fastq里边改2个字母??
: western的结果我才不信呢,我只信高通量出来的数据。
:
: 呢。

avatar
f*n
50
互联网,金融,图像和声音的数据?有人给你吗?这都是机密。。
拜托,网上一堆堆API,好不好
google,facebook,twitter,linkedin。。。
当然open API的,大家都会去玩儿数据,拿来练手
至于机密重要的,他们肯定也不会公开

【在 e*********6 的大作中提到】
: 你去哪里分析互联网,金融,图像和声音的数据?有人给你吗?这都是机密,公司的核
: 心资产之一。
: 图像声音,标准数据集就这么多,早被研究透了,你要能在标准数据集上跑个超过现有
: 方法的结果,这是个CVPR best paper档次的。
: Kaggle一类的,也基本已经脱离了实际生产背景,给限定死了数据的范围了
: 老老实实拿着生物数据库联手最最现实

avatar
e*6
51
如何“操作”能改变分子级别的结果,的确是大牛,那也真是本事。

【在 f*****n 的大作中提到】
: 测序之前呢?
: sample prep呢?
: fixation,chromatin shear,最关键的是antibody quality;都可以让你的library以
: 及sequencing结果彻底不同
: general 高通量测序我信,但只要是跟protein沾边的,抗体沾边的,我都不信
: 同一个protein,你去看不同paper的chip-seq data,以及 CLIP-seq,完全不同;当然
: epigenetics本来就是dynamics的,这里边又有多少操作上的noise,鬼知道

avatar
e*6
52
你做项目,能给别人看的,就是你有solid programming skill,可以把这些简单的数
据抓下来处理一下。

【在 f*****n 的大作中提到】
: 互联网,金融,图像和声音的数据?有人给你吗?这都是机密。。
: 拜托,网上一堆堆API,好不好
: google,facebook,twitter,linkedin。。。
: 当然open API的,大家都会去玩儿数据,拿来练手
: 至于机密重要的,他们肯定也不会公开

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。