Redian新闻
>
[原创科普文] 生物学中的深度学习
avatar
[原创科普文] 生物学中的深度学习# Biology - 生物学
e*6
1
个人略通深度学习在生物上的应用,抛砖引玉 (回帖很多人给了很好的答案,我也回
复了一些在回帖里,可以往下翻回帖)
1,什么是深度学习?
说白了,就是多层神经网络。相比起传统的机器学习,如linear regression和SVM,深
度学习可以更深层的提取变量之间的相互组合和相互关系。
2, 什么是非线性关系?
鉴于本版的大部分都是生物出身,这里解释一下非线性。非线性指的是无法通过简单转
化变成线性关系,logistic regression是线性关系,因为通过一个logistics的kernel
之后,就变成了线性关系;一个非线性关系的例子是,给定一组(x, y),比如(1,0), (2
,0), (3,0),(4,1),(5,1),(6,0),(7,0)就无法通过一个线性分类,通过x,把y是0或者1
的情况分辨出来。
3,为什么深度学习这几年火了?
深度学习的很多概念,很早就有了,不过由于各种原因限制,一直没有在实际的领域有
很好的表现,2012年G Hinton在ImageNet的表现是个转折点吧,图像识别,大家纷纷都
转到deep learning来了,这里边既有很多年的理论积累,也和数据硬件算法有关。在
生信领域,最早的开山鼻祖是DeepSea和DeepBind,基本都是通过DNA sequence来预测
DNA上蛋白质的binding的,当时都发在Nature 子刊上,要从侧面证明了这是很重要的
一个突破。
avatar
n*7
2
下面呢?
avatar
n*7
3
下面呢?
avatar
f*n
4
我说一下我的浅薄看法:
1. 我们习惯于low-dimension的而且是linear的逻辑关系,比如GWAS;一旦维度高了或
者关系非线性后我们人的大脑就想不清楚了。所以很多machine learning其实也都是假
设线性关系基础上继续做研究。而Deep learning强就强在complexity程度要高很多,
或许可以模拟那些特别复杂的非线性关系,也因此挽救了neural network。NN一直被
SVM打压了十几二十年。
2. Deep learning能这么火,主要是在图像识别/声音识别上有巨大的突破,
performance比传统办法高了很多。所以具体到BME上就是做MRI scanning的火了一把,
我们可以更好通过识别比如brain structure图像来获取更好的biomarker,从进行早期
疾病的诊断。
所以,其实这是engineering的一大突破。大家都证实了这个tenique好用,能做事儿,
提高效率。在industry就够了,但至于为什么增加hidden layer后能这么好用,理论上
还解释不清楚。这点思维模式和传统生物bench的science思维完全不同。更像MD那种
drug screening,只要证明drug有效,至于为何有效再研究。
neural network中间的hidden layer就是黑洞,我们能证明这个黑洞可以成为更好的
classifier,却证明不了那是什么,难以interpret。
3. 我在另外一个帖子讨论过,deep learning在复杂疾病遗传上的作用。因为我觉得复
杂疾病遗传的终极问题,还是搞清楚为何我们的genetics导致我们得病的概率不同。复
杂疾病到底跟genetics有多少关系?
Toronto的Brendan Frey就deep learning得到了很好的SNP---splicing的model,但也
仅仅是splicing。我说的是SNP---disease的model。所以我估计SNP---disease这中间
的dark matter太多太复杂了。
而且Frey还说了一句很正确,就是图像识别之所以work,是因为绝大部分的图像信息都
是有用的;张三的图像---张三;而对于SNP---disease这样的关系,很可能人类
genetics大部分跟疾病是无关的。所以有太多noise
所以俺都想转到imaging去了,图像识别诊断疾病太火了。
大家可以来讨论下,对于癌症,神经疾病,除了图像声音,还有什么biomarker是可能
用deep learning比过去大幅度提高performance的呢?

【在 e*********6 的大作中提到】
: 个人略通深度学习在生物上的应用,抛砖引玉 (回帖很多人给了很好的答案,我也回
: 复了一些在回帖里,可以往下翻回帖)
: 1,什么是深度学习?
: 说白了,就是多层神经网络。相比起传统的机器学习,如linear regression和SVM,深
: 度学习可以更深层的提取变量之间的相互组合和相互关系。
: 2, 什么是非线性关系?
: 鉴于本版的大部分都是生物出身,这里解释一下非线性。非线性指的是无法通过简单转
: 化变成线性关系,logistic regression是线性关系,因为通过一个logistics的kernel
: 之后,就变成了线性关系;一个非线性关系的例子是,给定一组(x, y),比如(1,0), (2
: ,0), (3,0),(4,1),(5,1),(6,0),(7,0)就无法通过一个线性分类,通过x,把y是0或者1

avatar
e*6
5
正在写

【在 n******7 的大作中提到】
: 下面呢?
avatar
w*e
6
一个很重要的原因就是生物数据太杂,而且具体某一类型得样本数量有限,而深度学习需
要大样本。

【在 f*****n 的大作中提到】
: 我说一下我的浅薄看法:
: 1. 我们习惯于low-dimension的而且是linear的逻辑关系,比如GWAS;一旦维度高了或
: 者关系非线性后我们人的大脑就想不清楚了。所以很多machine learning其实也都是假
: 设线性关系基础上继续做研究。而Deep learning强就强在complexity程度要高很多,
: 或许可以模拟那些特别复杂的非线性关系,也因此挽救了neural network。NN一直被
: SVM打压了十几二十年。
: 2. Deep learning能这么火,主要是在图像识别/声音识别上有巨大的突破,
: performance比传统办法高了很多。所以具体到BME上就是做MRI scanning的火了一把,
: 我们可以更好通过识别比如brain structure图像来获取更好的biomarker,从进行早期
: 疾病的诊断。

avatar
w*e
7
一个很重要的原因就是生物数据太杂,而且具体某一类型得样本数量有限,而深度学习需
要大样本。

【在 f*****n 的大作中提到】
: 我说一下我的浅薄看法:
: 1. 我们习惯于low-dimension的而且是linear的逻辑关系,比如GWAS;一旦维度高了或
: 者关系非线性后我们人的大脑就想不清楚了。所以很多machine learning其实也都是假
: 设线性关系基础上继续做研究。而Deep learning强就强在complexity程度要高很多,
: 或许可以模拟那些特别复杂的非线性关系,也因此挽救了neural network。NN一直被
: SVM打压了十几二十年。
: 2. Deep learning能这么火,主要是在图像识别/声音识别上有巨大的突破,
: performance比传统办法高了很多。所以具体到BME上就是做MRI scanning的火了一把,
: 我们可以更好通过识别比如brain structure图像来获取更好的biomarker,从进行早期
: 疾病的诊断。

avatar
x*6
8
外行问一个弱智问题:你说到hidden layers,我就想到建模时增加变量。在后者变量
多了,最终你能够很好用模型还原数据,但是overfit,模型其实没有用;变量太少,模
型和数据差得远,抓不到主要机制。
那么hidden layers和增加额外变量是不是本质相同呢?按照我的理解,区别在于前者
离散,后者连续。如果是的话,怎么知道Hidden layer没有overfit呢?

【在 f*****n 的大作中提到】
: 我说一下我的浅薄看法:
: 1. 我们习惯于low-dimension的而且是linear的逻辑关系,比如GWAS;一旦维度高了或
: 者关系非线性后我们人的大脑就想不清楚了。所以很多machine learning其实也都是假
: 设线性关系基础上继续做研究。而Deep learning强就强在complexity程度要高很多,
: 或许可以模拟那些特别复杂的非线性关系,也因此挽救了neural network。NN一直被
: SVM打压了十几二十年。
: 2. Deep learning能这么火,主要是在图像识别/声音识别上有巨大的突破,
: performance比传统办法高了很多。所以具体到BME上就是做MRI scanning的火了一把,
: 我们可以更好通过识别比如brain structure图像来获取更好的biomarker,从进行早期
: 疾病的诊断。

avatar
e*6
9
再深度学习中,变量数量不是个问题,如果model比较好,可以抓住主要变量之间的关
系,随便一张图片,1024 * 768,如果是彩色的,考虑到红黄蓝三种像素,就有1024 *
768 * 3,超过一百万个像素了。
overfitting是model需要考虑的一个问题,有一系列的办法来阻止overfitting,比如
regularization,dropout等

,模

【在 x****6 的大作中提到】
: 外行问一个弱智问题:你说到hidden layers,我就想到建模时增加变量。在后者变量
: 多了,最终你能够很好用模型还原数据,但是overfit,模型其实没有用;变量太少,模
: 型和数据差得远,抓不到主要机制。
: 那么hidden layers和增加额外变量是不是本质相同呢?按照我的理解,区别在于前者
: 离散,后者连续。如果是的话,怎么知道Hidden layer没有overfit呢?

avatar
x*6
10
如果我理解你的例子没错的话:因为深度学习的对象通常有海量的数据量,所以可以容
忍变量数目大。
但问题是如果研究对象极其复杂,那么复杂程度达到一定程度,如疾病,就算海量数据
也然并卵,对吧。

*

【在 e*********6 的大作中提到】
: 再深度学习中,变量数量不是个问题,如果model比较好,可以抓住主要变量之间的关
: 系,随便一张图片,1024 * 768,如果是彩色的,考虑到红黄蓝三种像素,就有1024 *
: 768 * 3,超过一百万个像素了。
: overfitting是model需要考虑的一个问题,有一系列的办法来阻止overfitting,比如
: regularization,dropout等
:
: ,模

avatar
K*n
11
其实就是把数据一掰为二,在一组上训练,一组上测试,只要在测试组上能重复训练组
的精度就认为没 overfit
实在不行训练了一个下围棋的程序,拿出来和柯洁下一下就行了,输了就是 overfit,
赢了谁管有没有 overfit

【在 x****6 的大作中提到】
: 如果我理解你的例子没错的话:因为深度学习的对象通常有海量的数据量,所以可以容
: 忍变量数目大。
: 但问题是如果研究对象极其复杂,那么复杂程度达到一定程度,如疾病,就算海量数据
: 也然并卵,对吧。
:
: *

avatar
d*m
12
loss function是怎么定义的,model好不好,归根结底就是optimization问题。所以
machine learning这个东西还真不是生物的人能搞的,搞的纯熟的也就是用用软件的水
平。术业有专攻。
avatar
e*6
13
这个问题明显你说反了,deep learning的核心code也就十几行几十行,关键是如何
represent data,如果定义label,如果定义loss function,选什么东西作为model。
在现在生信领域的deep learning,暂时还不需要研究很多很细节的,比如SGD好,还是
ADAM好一类的,很多问题,到底这个东西是不是predictable的,现在都不知道,根本
不需要讨论用那种update strategy可以更好收敛问题。
现在个人觉得生物上deep learning肯定很有前途,但是具体到要开展研究,其实也有
一定的门槛。
首先,你要有一定的生物学背景和intuition,知道哪些问题重要哪些问题不重要,再
这些重要的问题里,哪些问题是可以通过deep learning解决的。现在生信的deep
learning的paper,主流基本没有低于5分的paper,和deep learning稍微占了一点边的
都能上scientific report。
第二,编程能力要十分过关,写script的速度要快,要能随心所欲的操作你的数据来做
成data sets喂给下一步的classifier,更关键的是,程序里不能挖坑,什么pass by
reference 和pass by value不能混了,最好能leetcode中等题一两次就要能直接过比
较好
第三,你对deep learning里的各个组成部分要比较过关,编程能力要比较过关。有时
候这个也靠经验积累。第一次生成的数据集,放到model里去,大部分情况都是完全分
不出来,或者完全能分出来,就要一步一步的debug,确定问题到底出在哪里。尤其是
和第一点结合起来,要很快能知道这个问题跟有可能有code写错了还是这个问题根本就
是不能分的。

【在 d********m 的大作中提到】
: loss function是怎么定义的,model好不好,归根结底就是optimization问题。所以
: machine learning这个东西还真不是生物的人能搞的,搞的纯熟的也就是用用软件的水
: 平。术业有专攻。

avatar
e*6
14
要通过machine learning来研究,首先就要明确问题。你提这么一个空泛的概念,怎么
来研究。疾病很复杂吗?
给一个人的血压血脂血糖,来判定一个人有没有高血压,一个线性分类就能解决问题啊
。非常简单

【在 x****6 的大作中提到】
: 如果我理解你的例子没错的话:因为深度学习的对象通常有海量的数据量,所以可以容
: 忍变量数目大。
: 但问题是如果研究对象极其复杂,那么复杂程度达到一定程度,如疾病,就算海量数据
: 也然并卵,对吧。
:
: *

avatar
t*d
15
能推荐一下比较易懂的学习deep learning的书,和一些好的生信deep learning的
paper吗?

【在 e*********6 的大作中提到】
: 这个问题明显你说反了,deep learning的核心code也就十几行几十行,关键是如何
: represent data,如果定义label,如果定义loss function,选什么东西作为model。
: 在现在生信领域的deep learning,暂时还不需要研究很多很细节的,比如SGD好,还是
: ADAM好一类的,很多问题,到底这个东西是不是predictable的,现在都不知道,根本
: 不需要讨论用那种update strategy可以更好收敛问题。
: 现在个人觉得生物上deep learning肯定很有前途,但是具体到要开展研究,其实也有
: 一定的门槛。
: 首先,你要有一定的生物学背景和intuition,知道哪些问题重要哪些问题不重要,再
: 这些重要的问题里,哪些问题是可以通过deep learning解决的。现在生信的deep
: learning的paper,主流基本没有低于5分的paper,和deep learning稍微占了一点边的

avatar
d*m
16
thanks.
不知道你说指的说反了是什么。定义了loss function,然后能做的无非就是1,
optimize,比如regression smoother,2,posterior expectation。model的好坏不就
都反应在这里面了?统计基本上所有的问题都是optimization,要么数值,要么EM,要
么MCMC。
另外,能具体展开说一下deep learning的核心code大概是指什么?我现在在做一个
gaussian mixture model的parameter estimation,写一个gibbs sampler核心都不止
十几行。不过你对coding那段的确对我启发很大,我coding的确是
不行,可能对你所说的理解不到位。

【在 e*********6 的大作中提到】
: 这个问题明显你说反了,deep learning的核心code也就十几行几十行,关键是如何
: represent data,如果定义label,如果定义loss function,选什么东西作为model。
: 在现在生信领域的deep learning,暂时还不需要研究很多很细节的,比如SGD好,还是
: ADAM好一类的,很多问题,到底这个东西是不是predictable的,现在都不知道,根本
: 不需要讨论用那种update strategy可以更好收敛问题。
: 现在个人觉得生物上deep learning肯定很有前途,但是具体到要开展研究,其实也有
: 一定的门槛。
: 首先,你要有一定的生物学背景和intuition,知道哪些问题重要哪些问题不重要,再
: 这些重要的问题里,哪些问题是可以通过deep learning解决的。现在生信的deep
: learning的paper,主流基本没有低于5分的paper,和deep learning稍微占了一点边的

avatar
f*n
17
最早的开山鼻祖是DeepSea和DeepBind
请教这个普林斯顿的DeepSea,到底相对于过去的prediction,是有重大进步吗?
DeepSea的数据来源依然是ENCODE, epigenome roadmap。怎么说呢,数据不能说小,但
对于理想状态来说这种open public的data还是少的。如果有100倍的epigenome
roadmap就好了。

kernel
(2
者1

【在 e*********6 的大作中提到】
: 个人略通深度学习在生物上的应用,抛砖引玉 (回帖很多人给了很好的答案,我也回
: 复了一些在回帖里,可以往下翻回帖)
: 1,什么是深度学习?
: 说白了,就是多层神经网络。相比起传统的机器学习,如linear regression和SVM,深
: 度学习可以更深层的提取变量之间的相互组合和相互关系。
: 2, 什么是非线性关系?
: 鉴于本版的大部分都是生物出身,这里解释一下非线性。非线性指的是无法通过简单转
: 化变成线性关系,logistic regression是线性关系,因为通过一个logistics的kernel
: 之后,就变成了线性关系;一个非线性关系的例子是,给定一组(x, y),比如(1,0), (2
: ,0), (3,0),(4,1),(5,1),(6,0),(7,0)就无法通过一个线性分类,通过x,把y是0或者1

avatar
e*6
18
1,这是一个从无到有的关系,过去都是人工feature engineering,比如有个ATATACT的
pattern的情况下,可能有什么东西binding,DeepSea和DeepBind都是在没有任何人工
干预的情况,model自动找出来这些pattern。DeepSea 和DeepBind后来还有一些
extension。后续工作,有个对DeepSea的调参优化,就发了一篇ISMB https://
academic.oup.com/bioinformatics/article/32/12/i121/2240609/Convolutional-
neural-network-architectures-for。 还有一个deepsea的改进版,叫做DanQ,可以自
行google,也发了NAR。
2,第二个问题也是deep learning的关键,也是未来的趋势。数据不够在任何deep
learning研究上都是重大问题。大神Li Fei-Fei的一个重大贡献就是建立ImageNet的公
共数据库,给deep learning研究者提供了带label的样本。并且现在deep learning大
神纷纷改投工业界,很大因素的就是数据。
3,除了大批有label的数据,还有很多没label的数据可以利用,很多热点领域就是在
做这个事情。不过这些事情暂时集中在各个大厂,估计一时半会还扩散不到生物领域,
有兴趣搞大新闻的,这肯定是个趋势。

【在 f*****n 的大作中提到】
: 最早的开山鼻祖是DeepSea和DeepBind
: 请教这个普林斯顿的DeepSea,到底相对于过去的prediction,是有重大进步吗?
: DeepSea的数据来源依然是ENCODE, epigenome roadmap。怎么说呢,数据不能说小,但
: 对于理想状态来说这种open public的data还是少的。如果有100倍的epigenome
: roadmap就好了。
:
: kernel
: (2
: 者1

avatar
e*6
19
你现在说的这几种基本都是generative model吧,对deep learning来说,gradient
descent一统天下,都不用这几种optimization的方法。
核心code就是
model.add(Conv2dLayer(2,2))
model.add(MaxPoolLayer(2,2))一类吗
比较难是怎么设计这个model

【在 d********m 的大作中提到】
: thanks.
: 不知道你说指的说反了是什么。定义了loss function,然后能做的无非就是1,
: optimize,比如regression smoother,2,posterior expectation。model的好坏不就
: 都反应在这里面了?统计基本上所有的问题都是optimization,要么数值,要么EM,要
: 么MCMC。
: 另外,能具体展开说一下deep learning的核心code大概是指什么?我现在在做一个
: gaussian mixture model的parameter estimation,写一个gibbs sampler核心都不止
: 十几行。不过你对coding那段的确对我启发很大,我coding的确是
: 不行,可能对你所说的理解不到位。

avatar
e*6
20
书没有,网上很多很好的资源。
生信的deep learning的,就搜deepSEA和deepBind的文章,看看哪些文章引了他们,找
几篇名字很像综述的看看就行了

【在 t****d 的大作中提到】
: 能推荐一下比较易懂的学习deep learning的书,和一些好的生信deep learning的
: paper吗?

avatar
n*7
21
这个是关键
bioinfo大量的精力其实浪费在寻找有效的feature上了

而且Frey还说了一句很正确,就是图像识别之所以work,是因为绝大部分的图像信息都
是有用的;张三的图像---张三;而对于SNP---disease这样的关系,很可能人类
genetics大部分跟疾病是无关的。所以有太多noise

【在 f*****n 的大作中提到】
: 最早的开山鼻祖是DeepSea和DeepBind
: 请教这个普林斯顿的DeepSea,到底相对于过去的prediction,是有重大进步吗?
: DeepSea的数据来源依然是ENCODE, epigenome roadmap。怎么说呢,数据不能说小,但
: 对于理想状态来说这种open public的data还是少的。如果有100倍的epigenome
: roadmap就好了。
:
: kernel
: (2
: 者1

avatar
n*7
22
你这样其实overfit了hyperparameter
这是非常非常常见的一种情况
这里柯洁就是这个hyperparameter
换个xxx可能就不一定成了

【在 K****n 的大作中提到】
: 其实就是把数据一掰为二,在一组上训练,一组上测试,只要在测试组上能重复训练组
: 的精度就认为没 overfit
: 实在不行训练了一个下围棋的程序,拿出来和柯洁下一下就行了,输了就是 overfit,
: 赢了谁管有没有 overfit

avatar
n*7
23
就我现在对bioinfo的认识水平,以及接触的圈子的高度
我认为这是bioinfo最重要的
做方法不能靠人肉穷举,很多时候就是凭自己的感觉来决定技术路线了
其实对于生物大噪音数据,简单的模型往往是效果最好的,当然也是最robust的
可惜现在为了发文章,往往都是在前人的基础上复杂再复杂
这样做出来的绝大部分是垃圾

首先,你要有一定的生物学背景和intuition,知道哪些问题重要哪些问题不重要,再
这些重要的问题里,哪些问题是可以通过deep learning解决的

【在 e*********6 的大作中提到】
: 书没有,网上很多很好的资源。
: 生信的deep learning的,就搜deepSEA和deepBind的文章,看看哪些文章引了他们,找
: 几篇名字很像综述的看看就行了

avatar
K*n
24
but who cares
那就分三块数据
overfit hyperparameter 没有 actionable item

【在 n******7 的大作中提到】
: 你这样其实overfit了hyperparameter
: 这是非常非常常见的一种情况
: 这里柯洁就是这个hyperparameter
: 换个xxx可能就不一定成了

avatar
n*7
25
柯洁在乎,因为你做一个专门克他的AI,哈哈
一般是分三块,不过overfit这个问题真的是防不胜防

【在 K****n 的大作中提到】
: but who cares
: 那就分三块数据
: overfit hyperparameter 没有 actionable item

avatar
K*n
26
machine learning 是 machine learning
optimization 是 optimization
optimization 鄙视 machine learning 不好解释,技术单一,只会用类库;machine
learning 鄙视 optimization 靠假设,数学简单,fit 出来的模型精度差,没有成熟
的 production 技术
machine learning 的难点是数学和算法
optimization 的难点是构建问题
见 Boyd 的 convex optimization 里的讨论
machine learning 让 data scientists 失业,因为它把数据处理工程化,凡是做
machine learning 的 data scientists 都是自称 data scientist 的真码农,真的
data scientist 要视 machine learning 为大敌。optimization 让码农抓狂,因为每
个模型都是真正的 data scientist 拍脑袋想出来的,每个都要新创方法产品化,有经
验的码农都要想方设法阻止 optimization 算法被采用。
站队队伍很重要,不要觉得这两个联系紧密,就忽略了政治正确的重要性

【在 d********m 的大作中提到】
: thanks.
: 不知道你说指的说反了是什么。定义了loss function,然后能做的无非就是1,
: optimize,比如regression smoother,2,posterior expectation。model的好坏不就
: 都反应在这里面了?统计基本上所有的问题都是optimization,要么数值,要么EM,要
: 么MCMC。
: 另外,能具体展开说一下deep learning的核心code大概是指什么?我现在在做一个
: gaussian mixture model的parameter estimation,写一个gibbs sampler核心都不止
: 十几行。不过你对coding那段的确对我启发很大,我coding的确是
: 不行,可能对你所说的理解不到位。

avatar
n*7
27
你这意思是ML的学CS出来的,做优化的是学统计出来的?

【在 K****n 的大作中提到】
: machine learning 是 machine learning
: optimization 是 optimization
: optimization 鄙视 machine learning 不好解释,技术单一,只会用类库;machine
: learning 鄙视 optimization 靠假设,数学简单,fit 出来的模型精度差,没有成熟
: 的 production 技术
: machine learning 的难点是数学和算法
: optimization 的难点是构建问题
: 见 Boyd 的 convex optimization 里的讨论
: machine learning 让 data scientists 失业,因为它把数据处理工程化,凡是做
: machine learning 的 data scientists 都是自称 data scientist 的真码农,真的

avatar
K*n
28
统计的还好,比较中立,算考得住
优化流的 DS 很多是学运营的商学院出来的,比如哈佛沃顿芝加哥哥伦比亚UCLA这些地
方的PhD很常见

【在 n******7 的大作中提到】
: 你这意思是ML的学CS出来的,做优化的是学统计出来的?
avatar
d*m
29
thanks, but I frankly don't quite get what you try to say.
I happened to attend a Michael Jordan's lecture two years ago. I have
statistics background so I really enjoyed when he delivered his lecture on
machine learning from statistical point of view. I think machine learning
is nothing more than a theme extended from statistics in all fairness.

【在 K****n 的大作中提到】
: machine learning 是 machine learning
: optimization 是 optimization
: optimization 鄙视 machine learning 不好解释,技术单一,只会用类库;machine
: learning 鄙视 optimization 靠假设,数学简单,fit 出来的模型精度差,没有成熟
: 的 production 技术
: machine learning 的难点是数学和算法
: optimization 的难点是构建问题
: 见 Boyd 的 convex optimization 里的讨论
: machine learning 让 data scientists 失业,因为它把数据处理工程化,凡是做
: machine learning 的 data scientists 都是自称 data scientist 的真码农,真的

avatar
K*n
30
ML 和 stats 的区别是 ML 101
ML 是预测未来
stats 是解释过去
教授大爷正过来说一遍,反过来说一遍,再合起来发明一个 "statistical learning"
,本来只有一套公式,一下就给可爱的学生们扯了三堂课。最后数学家来了,说你们这
都是 themes extended from math in all fairness。然后大家还是该干嘛干嘛。
工程是有历史背景和要解决的问题的。不是你一看公式差不多就合并到一起了。

on

【在 d********m 的大作中提到】
: thanks, but I frankly don't quite get what you try to say.
: I happened to attend a Michael Jordan's lecture two years ago. I have
: statistics background so I really enjoyed when he delivered his lecture on
: machine learning from statistical point of view. I think machine learning
: is nothing more than a theme extended from statistics in all fairness.

avatar
d*m
31
sorry I am sitting with the lab desktop so I can't type Chinese.
but again, in the simplest case, the general theory for nonparametric
smoother is
all about prediction. summarization of predictive posterior distribution
with, for example, monte carlo is again all about prediction. I fail to see
how the line you drew between statistics and ML is relevant.

【在 K****n 的大作中提到】
: ML 和 stats 的区别是 ML 101
: ML 是预测未来
: stats 是解释过去
: 教授大爷正过来说一遍,反过来说一遍,再合起来发明一个 "statistical learning"
: ,本来只有一套公式,一下就给可爱的学生们扯了三堂课。最后数学家来了,说你们这
: 都是 themes extended from math in all fairness。然后大家还是该干嘛干嘛。
: 工程是有历史背景和要解决的问题的。不是你一看公式差不多就合并到一起了。
:
: on

avatar
K*n
32
没关系

see

【在 d********m 的大作中提到】
: sorry I am sitting with the lab desktop so I can't type Chinese.
: but again, in the simplest case, the general theory for nonparametric
: smoother is
: all about prediction. summarization of predictive posterior distribution
: with, for example, monte carlo is again all about prediction. I fail to see
: how the line you drew between statistics and ML is relevant.

avatar
r*x
33
deep learning对真的,复杂逻辑信息可以做到学习提高掌握规律,输出有用结果,但
是对于假信息,根本没有能力识别,所以它对生物信息没有多大作用。
倒是对于医学,学习标准指南的医学知识不错的。
avatar
w*2
34
高手,阁下是统计出身还是CS出身?

kernel
(2
者1

【在 e*********6 的大作中提到】
: 个人略通深度学习在生物上的应用,抛砖引玉 (回帖很多人给了很好的答案,我也回
: 复了一些在回帖里,可以往下翻回帖)
: 1,什么是深度学习?
: 说白了,就是多层神经网络。相比起传统的机器学习,如linear regression和SVM,深
: 度学习可以更深层的提取变量之间的相互组合和相互关系。
: 2, 什么是非线性关系?
: 鉴于本版的大部分都是生物出身,这里解释一下非线性。非线性指的是无法通过简单转
: 化变成线性关系,logistic regression是线性关系,因为通过一个logistics的kernel
: 之后,就变成了线性关系;一个非线性关系的例子是,给定一组(x, y),比如(1,0), (2
: ,0), (3,0),(4,1),(5,1),(6,0),(7,0)就无法通过一个线性分类,通过x,把y是0或者1

avatar
f*n
35
“并且现在deep learning大神纷纷改投工业界,很大因素的就是数据”
所以意思就是,industry的数据量要大很多?
如果我们看biomed这个行业。哪怕是学术界,我的体会是,每天那么多NGS数据出来,
但是太多太多noise,比如同样是brain CHIP-SEQ,你用的是这个protocol我用的那个
reagent。所以导致我都不敢相信这些数据的有效性。
另外还有一个严重的问题是,paper发了后就把数据全部放到GEO,你要感兴趣就要自己
去download再来研究。
之所以相信ENCODE,epigenome,因为这算是single big project,其中有相互的通气
协调;但哪怕epigenome roadmap,也就是只测了一个人的比如cerebellum RNA-seq或
者H3K4me的CHIP-SEQ。而我们需要的却是比如至少100个人的cerebellum数据,才能研
究SNP对这些expression的影响。甚至对于同一个样本,我们需要time-dependent,
space-dependent的数据,因为epigenetics是严重context-dependent的
所以依然强烈感觉数据量压根不够。
但是不是使用一些ML的technique可以降低noise,把已有的来自不同group的资源串联
起来?

【在 e*********6 的大作中提到】
: 1,这是一个从无到有的关系,过去都是人工feature engineering,比如有个ATATACT的
: pattern的情况下,可能有什么东西binding,DeepSea和DeepBind都是在没有任何人工
: 干预的情况,model自动找出来这些pattern。DeepSea 和DeepBind后来还有一些
: extension。后续工作,有个对DeepSea的调参优化,就发了一篇ISMB https://
: academic.oup.com/bioinformatics/article/32/12/i121/2240609/Convolutional-
: neural-network-architectures-for。 还有一个deepsea的改进版,叫做DanQ,可以自
: 行google,也发了NAR。
: 2,第二个问题也是deep learning的关键,也是未来的趋势。数据不够在任何deep
: learning研究上都是重大问题。大神Li Fei-Fei的一个重大贡献就是建立ImageNet的公
: 共数据库,给deep learning研究者提供了带label的样本。并且现在deep learning大

avatar
f*n
36
我觉得只有biology思维的压根不会想到quantitative;我知道有一些狂发CNS的大牛还
停留在用excel分析大数据分析两个月的
而纯quantitative过来的也压根不懂生物。搞生物信息或者医学信息 != programmer
所以你要成功,就必须两样都精通。长久来看,其实quantitative比生物的东西见效快
。生物医学很多时候都是要多年积累的。生物里做个结果不work,要分析哪一步出错,
重新设计做,对人的逻辑思维,intuition,心理承受能力比计算要求高很多。
当然了,大部分人,能在医学领域找到个好的scientific niche就继续做,未来发展不
好就赶紧跳去data scientist。Science跟娱乐圈差不多,就算你今天春风得意,过个
五年,你又要为创新操心了。

【在 d********m 的大作中提到】
: loss function是怎么定义的,model好不好,归根结底就是optimization问题。所以
: machine learning这个东西还真不是生物的人能搞的,搞的纯熟的也就是用用软件的水
: 平。术业有专攻。

avatar
f*n
37
"知道哪些问题重要哪些问题不重要,再这些重要的问题里,哪些问题是可以通过deep
learning解决的"
“bioinfo大量的精力其实浪费在寻找有效的feature上了”
我觉得这像一个哲学问题。
input: 血压数据 ------output:病人是否高血压
input: 血糖数据 ------output:病人是否糖尿病
input: 图像pixel ------output: 人脸识别这个是谁?
input: 遗传SNP ------output: 这个人会不会得帕金森?
对于任何新的问题/data,是不是我们都先blind的在training data上尝试各种
modeling?线性的非线性的;如果input和output真的有逻辑关系,那么至少会有一种
technique在test data上展现出很好的performance。
(当然参数的调试,甚至一开始选择哪种machine learning/deep learning手段这是另
外一个问题,可以另开个帖子)
如果尝试过很多,还是没能找到表现优异的model,
1. 是不是我们就认为input和output没啥关系?
2. 还是input中的noise太多?所以要进行feature selection?
3. 还是我们目前的machine learning本身的模拟水平不够?
具体到例子上
input: 血压数据 ------output:病人是否高血压
input: 血糖数据 ------output:病人是否糖尿病
比如这种看起来显而易见的,被成功验证过很多次的,或者根据我们的经验肯定是有逻
辑关系的,我们用一个linear model就可以了
而对于
input: 图像pixel ------output: 人脸识别这个是谁?
逻辑关系是很清楚的,人脸识别肯定是要用到整张头像的pixel的,只是这个关系或许
很复杂非常nonlinear所以过去一般ml无效,现在deep learning有效了?
但是对于
input: 遗传SNP ------output: 这个人会不会得帕金森?
是不是首先我们就不清楚帕金森不一定是SNP导致的?如果压根不是遗传病那还玩儿个
屁。但很多疾病我们也有很多证据,至少是genetics相关的;所以可能就是关系太复杂。
比如Frey group就在SNP------splicing这个方向上通过deep learning找到了不错的
model,换句话说哪怕splicing都是非常复杂的。SNP影响splicing都如此复杂,就不要
说整个疾病的diagnosis了
如果genetics/snp----parkinson最后test data效果不好,一般怎么办呢?去寻找更好
的feature?比如挑选functional SNP,missense SNP,或者更复杂的SV,也就是我们
先有个hypothesis这样的variants更可能导致疾病?
所以我觉得domain knowledge真真是最重要的

【在 e*********6 的大作中提到】
: 这个问题明显你说反了,deep learning的核心code也就十几行几十行,关键是如何
: represent data,如果定义label,如果定义loss function,选什么东西作为model。
: 在现在生信领域的deep learning,暂时还不需要研究很多很细节的,比如SGD好,还是
: ADAM好一类的,很多问题,到底这个东西是不是predictable的,现在都不知道,根本
: 不需要讨论用那种update strategy可以更好收敛问题。
: 现在个人觉得生物上deep learning肯定很有前途,但是具体到要开展研究,其实也有
: 一定的门槛。
: 首先,你要有一定的生物学背景和intuition,知道哪些问题重要哪些问题不重要,再
: 这些重要的问题里,哪些问题是可以通过deep learning解决的。现在生信的deep
: learning的paper,主流基本没有低于5分的paper,和deep learning稍微占了一点边的

avatar
K*n
38
deep learning 的 point 就是不再需要 domain knowledge 了
为啥你一直说“过去”的人都是用 linear model 的

deep

【在 f*****n 的大作中提到】
: "知道哪些问题重要哪些问题不重要,再这些重要的问题里,哪些问题是可以通过deep
: learning解决的"
: “bioinfo大量的精力其实浪费在寻找有效的feature上了”
: 我觉得这像一个哲学问题。
: input: 血压数据 ------output:病人是否高血压
: input: 血糖数据 ------output:病人是否糖尿病
: input: 图像pixel ------output: 人脸识别这个是谁?
: input: 遗传SNP ------output: 这个人会不会得帕金森?
: 对于任何新的问题/data,是不是我们都先blind的在training data上尝试各种
: modeling?线性的非线性的;如果input和output真的有逻辑关系,那么至少会有一种

avatar
f*n
39
啊?我没那个意思啊。。
我一直在说,deep learning因为可以做multi layer,你的activation function可以
linear也可以nonlinear,所以不管linear还是nonlinear,都可以提高复杂度啊?
莫非我的理解错了?
还有,deep learning不需要domain knowledge?请赐教

【在 K****n 的大作中提到】
: deep learning 的 point 就是不再需要 domain knowledge 了
: 为啥你一直说“过去”的人都是用 linear model 的
:
: deep

avatar
z*5
40
GWAS 和 Deep Learning,好像不是太有希望。我最近也在想这个问题。
Deep learning 为什么在图像上可以成功?我觉得主要是,图像是二维的,像素点之间
存在着自然的相关关系,而传统的统计方法无法对图像的像素之间的相关关系进行有效
建模。
基因组的线性结构和SNP 的 Local linkage disequilibrium (correlation) 使得Deep
Learning直接使用的可能性很小。如果结合functional data和三维结构,可能会有用。
感兴趣的同学,大家一并讨论。
avatar
w*2
41
那是因为知识库已经很逻辑了。
说白了,AI就是30年前热过的专家系统。

【在 r**********x 的大作中提到】
: deep learning对真的,复杂逻辑信息可以做到学习提高掌握规律,输出有用结果,但
: 是对于假信息,根本没有能力识别,所以它对生物信息没有多大作用。
: 倒是对于医学,学习标准指南的医学知识不错的。

avatar
e*6
42
non linear的activation function才有用,linear的没用。dl还是需要domain
knowledge并且需要更多domain intuition

【在 f*****n 的大作中提到】
: 啊?我没那个意思啊。。
: 我一直在说,deep learning因为可以做multi layer,你的activation function可以
: linear也可以nonlinear,所以不管linear还是nonlinear,都可以提高复杂度啊?
: 莫非我的理解错了?
: 还有,deep learning不需要domain knowledge?请赐教

avatar
e*6
43
什么叫做overfit 了hyperparameter?

【在 n******7 的大作中提到】
: 你这样其实overfit了hyperparameter
: 这是非常非常常见的一种情况
: 这里柯洁就是这个hyperparameter
: 换个xxx可能就不一定成了

avatar
s*s
44
深度学习为啥好?
比较一下以前的方法,都是基于科学模型的,也就是先有理论再有计算。所谓算法
的提高,大多数是基于理论模型的改进,这玩意是人肉堆出来的,属于科学研究,
太苦太慢。
然后就有人发明了凑数据的方法,比如神经网络,这个完全就是凑数据呀,同学。
好处是你花个五年堆个好科学模型,我随便找个最烂的模型,多堆五倍数据就超过
你了。所以凑数据的关键是怎么又快又好的找到validation data。当然,这个
validation
data怎么来的?多半是还是人肉堆出来的。

kernel
(2
者1

【在 e*********6 的大作中提到】
: 个人略通深度学习在生物上的应用,抛砖引玉 (回帖很多人给了很好的答案,我也回
: 复了一些在回帖里,可以往下翻回帖)
: 1,什么是深度学习?
: 说白了,就是多层神经网络。相比起传统的机器学习,如linear regression和SVM,深
: 度学习可以更深层的提取变量之间的相互组合和相互关系。
: 2, 什么是非线性关系?
: 鉴于本版的大部分都是生物出身,这里解释一下非线性。非线性指的是无法通过简单转
: 化变成线性关系,logistic regression是线性关系,因为通过一个logistics的kernel
: 之后,就变成了线性关系;一个非线性关系的例子是,给定一组(x, y),比如(1,0), (2
: ,0), (3,0),(4,1),(5,1),(6,0),(7,0)就无法通过一个线性分类,通过x,把y是0或者1

avatar
e*6
45
所以找数据是重要的创新点

【在 s******s 的大作中提到】
: 深度学习为啥好?
: 比较一下以前的方法,都是基于科学模型的,也就是先有理论再有计算。所谓算法
: 的提高,大多数是基于理论模型的改进,这玩意是人肉堆出来的,属于科学研究,
: 太苦太慢。
: 然后就有人发明了凑数据的方法,比如神经网络,这个完全就是凑数据呀,同学。
: 好处是你花个五年堆个好科学模型,我随便找个最烂的模型,多堆五倍数据就超过
: 你了。所以凑数据的关键是怎么又快又好的找到validation data。当然,这个
: validation
: data怎么来的?多半是还是人肉堆出来的。
:

avatar
s*s
46
对呀。所以手握数据的最牛,第二牛的是如果数据量太大有办法优
化算法优化模型的。
说的简单直白点,google人工智能这么牛,为啥搞不过tesla, uber?
你几十辆上百辆测绘车上街以为很拽了,tesla和uber一旦开始搞,
所有车子上装一套数据收集系统,很快就能以量压人。

【在 e*********6 的大作中提到】
: 所以找数据是重要的创新点
avatar
K*n
47
hyperparameter 没有做 generalization 的测试
hyper-hyperparameter overfit 是可以的,如果不可以,可以 overfit hyper-hyper-
hyperparameter
相应的,可以用给 parameter 加 bayesian prior,然后给 prior 的 parameter 加
prior 的 prior,然后加 prior 的 prior 的 prior

【在 e*********6 的大作中提到】
: 什么叫做overfit 了hyperparameter?
avatar
K*n
48
DL 比非 DL 的 domain intuition 少多得多得多得多得多了吧

【在 e*********6 的大作中提到】
: non linear的activation function才有用,linear的没用。dl还是需要domain
: knowledge并且需要更多domain intuition

avatar
w*2
49
其实深层神经网络模型早在1980年代就理论成熟了,当时计算机速度不能BRUTAL FORCE
,所以没法用。现在火了是计算技术速度上去了,现在GOOGLE在搞量子计算机,也是为
了这个。
avatar
d*m
50
歪个楼,哪个地方的systems biology department 总体上做的最牛?
avatar
s*e
51
Deep
DL不能取代传统的SVM等,如果分类问题的features之间没有order,假设我们在讨论CNN
,不是在讨论DL。CNN严重依赖local位置特性。请问你说的线性结构/Local linkage
disequilibrium, 他们的local性, feature hierarchical性强吗?
Deep
用。
avatar
S*l
52
是不是内科医生都可以下岗了?
avatar
f*n
53
“过去都是人工feature engineering,比如有个ATATACT的pattern的情况下,可能有
什么东西binding”
能否具体解释一下呢?

【在 e*********6 的大作中提到】
: 1,这是一个从无到有的关系,过去都是人工feature engineering,比如有个ATATACT的
: pattern的情况下,可能有什么东西binding,DeepSea和DeepBind都是在没有任何人工
: 干预的情况,model自动找出来这些pattern。DeepSea 和DeepBind后来还有一些
: extension。后续工作,有个对DeepSea的调参优化,就发了一篇ISMB https://
: academic.oup.com/bioinformatics/article/32/12/i121/2240609/Convolutional-
: neural-network-architectures-for。 还有一个deepsea的改进版,叫做DanQ,可以自
: 行google,也发了NAR。
: 2,第二个问题也是deep learning的关键,也是未来的趋势。数据不够在任何deep
: learning研究上都是重大问题。大神Li Fei-Fei的一个重大贡献就是建立ImageNet的公
: 共数据库,给deep learning研究者提供了带label的样本。并且现在deep learning大

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。