Redian新闻
>
张靓颖的粉丝对婚姻家庭很忠诚,但会溺爱孩子
avatar
w*r
2
Rt
avatar
s*y
3
原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
属于某某类型的肺癌。
这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就
一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
立刻就显原形了(就是没有什么用)。

【在 t*******r 的大作中提到】
: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?
: 原文链接如下:
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

avatar
e*e
4
Overfitting?

【在 s******y 的大作中提到】
: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
: 属于某某类型的肺癌。
: 这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就
: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
: 立刻就显原形了(就是没有什么用)。

avatar
x*e
5
wk 这不是纯灌水吗?有什么现实意义?

【在 s******y 的大作中提到】
: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
: 属于某某类型的肺癌。
: 这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就
: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
: 立刻就显原形了(就是没有什么用)。

avatar
m*h
6
这个准确率必须要对新的test set得出才有意义
如果是用training set得出的,那是没搞明白training error和test error
基本概念不对啊。。

【在 x********e 的大作中提到】
: wk 这不是纯灌水吗?有什么现实意义?
avatar
r*9
7
有没有读一遍?
随便就批评
avatar
l*y
8
这个不是预测,是诊断,而且是组织取样后的诊断。
这篇文章的核心价值在于发现了 5 个 DNA CpG sites 的 methylation 与 NSCLC 高度
相关(Table 2)。
为了说明这组 CpG sites 可以被用来作为诊断用途,作者首先证明了这 5 个
features 之间没有显著冗余,然后证明了这些 features 足以独立用于诊断。为了说
明这一点,作者剔除了其它已知因素,用了 4 种常用模型,都证明这 5 个 features
可以独立诊断 NSCLC。也就是说,这 5 个 features 有产业化的可行性 -- 做个
kit 就可以上临床了,比如说 gene-21 的例子。所以作者把这五个位点称为一个
signaure。
那么这个方法是否提高了现有的诊断水平呢?当然没有。因为这个工作就是依据现有诊
断方法做的诊断来训练的,并且貌似也没有提出发现了现有诊断的错误的例子。也就是
说,作者把现有诊断的方法作为 100% 正确的 ground truth。。
这个工作的对照组有些实用上的小问题。150 个病人全都是 NSCLC,control 是同一个
病人的病灶周边健康组织。更好的取样是直接用临床疑似需要取样确诊的病人(一般是
经过CT等认为肺癌几率足够大的),取 150 个确诊为 NSCLC的,150 个确诊为没有肺
癌的。这样才更接近临床应用的情景。我其实很想看到这样子的诊断准确率是否还有这
么高。
另外,这项研究的临床应用前景到底怎么样也难说。目前的作为 non-invasive 诊断
的 PET-CT 的 sensitivity 和 specificity 大约是 77%和86%,thoracic ultrasound
(TUS)-guided thoracentesis 诊断肺癌的 sensitivity 和 specificity则分别是 79
% 和 100%,为了进一步提高 sensitivity,临床上会用 needle 采样(TTNA),这时候
诊断肺癌的 sensitivity 是 90%。全部肺癌病例中大约 80%是 NSCLC,目前 TTNA 对
确诊为肺癌的病例中对NSCLC的区分的准确率是 98%。而这篇文章在 abstract 里通过
biopsy 采样后的结果得到的 sensitivity 和 specificity 是 86% 和 96%。就应用来
说,这个结果其实是很难撼动目前的临床诊断手段的。
这个工作的立意有问题,significance 不够。选取了一个临床上已经做得很好,没有
迫切需求的方向。虽然结果很激动人心,但是没什么前景。换种癌症,可能就是
nature 子刊的文章了。

【在 t*******r 的大作中提到】
: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?
: 原文链接如下:
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

avatar
l*y
9
胖老师,他们的工作其实和你说的这种灌水文章是有区别的。
他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working
hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature
和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有
呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的
model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来
fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个
working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis
是不依赖于特定模型的。
这个流程越来越成为主流了:对公共数据做数据挖掘来得到 knowledge,然后用这个
knowledge 来产生一个 working hypothesis,用自己的临床数据来做 use case,用几
种不同的 models 来训练。这个套路的一个常见关键字是 actionable knowledge:区
别于一般的 knowledge,是因为有直接的应用,更加 translational;区别于一般的模
型,在于其应用是不依赖于具体的模型的,因而更反映本质,在应用上更有普遍意义。

【在 s******y 的大作中提到】
: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
: 属于某某类型的肺癌。
: 这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就
: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
: 立刻就显原形了(就是没有什么用)。

avatar
s*y
10
谢谢纠正! 又学到了新东西:)

working

NSCLC
hypothesis

【在 l***y 的大作中提到】
: 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。
: 他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working
: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature
: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有
: 呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的
: model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来
: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
: ”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个
: working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis
: 是不依赖于特定模型的。

avatar
t*r
11
这个版面的水平确实很高啊,学习了
avatar
s*y
13
原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
属于某某类型的肺癌。

【在 t*******r 的大作中提到】
: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?
: 原文链接如下:
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

avatar
e*e
14
Overfitting?

【在 s******y 的大作中提到】
: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
: 属于某某类型的肺癌。

avatar
x*e
15
wk 这不是纯灌水吗?有什么现实意义?

【在 s******y 的大作中提到】
: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
: 属于某某类型的肺癌。

avatar
m*h
16
这个准确率必须要对新的test set得出才有意义
如果是用training set得出的,那是没搞明白training error和test error
基本概念不对啊。。

【在 x********e 的大作中提到】
: wk 这不是纯灌水吗?有什么现实意义?
avatar
r*9
17
有没有读一遍?
随便就批评
avatar
l*y
18
这个不是预测,是诊断,而且是组织取样后的诊断。
这篇文章的核心价值在于发现了 5 个 DNA CpG sites 的 methylation 与 NSCLC 高度
相关(Table 2)。
为了说明这组 CpG sites 可以被用来作为诊断用途,作者首先证明了这 5 个
features 之间没有显著冗余,然后证明了这些 features 足以独立用于诊断。为了说
明这一点,作者剔除了其它已知因素,用了 4 种常用模型,都证明这 5 个 features
可以独立诊断 NSCLC。也就是说,这 5 个 features 有产业化的可行性 -- 做个
kit 就可以上临床了,比如说 gene-21 的例子。所以作者把这五个位点称为一个
signaure。
那么这个方法是否提高了现有的诊断水平呢?当然没有。因为这个工作就是依据现有诊
断方法做的诊断来训练的,并且貌似也没有提出发现了现有诊断的错误的例子。也就是
说,作者把现有诊断的方法作为 100% 正确的 ground truth。。
这个工作的对照组有些实用上的小问题。150 个病人全都是 NSCLC,control 是同一个
病人的病灶周边健康组织。更好的取样是直接用临床疑似需要取样确诊的病人(一般是
经过CT等认为肺癌几率足够大的),取 150 个确诊为 NSCLC的,150 个确诊为没有肺
癌的。这样才更接近临床应用的情景。我其实很想看到这样子的诊断准确率是否还有这
么高。
另外,这项研究的临床应用前景到底怎么样也难说。目前的作为 non-invasive 诊断
的 PET-CT 的 sensitivity 和 specificity 大约是 77%和86%,thoracic ultrasound
(TUS)-guided thoracentesis 诊断肺癌的 sensitivity 和 specificity则分别是 79
% 和 100%,为了进一步提高 sensitivity,临床上会用 needle 采样(TTNA),这时候
诊断肺癌的 sensitivity 是 90%。全部肺癌病例中大约 80%是 NSCLC,目前 TTNA 对
确诊为肺癌的病例中对NSCLC的区分的准确率是 98%。而这篇文章在 abstract 里通过
biopsy 采样后的结果得到的 sensitivity 和 specificity 是 86% 和 96%。就应用来
说,这个结果其实是很难撼动目前的临床诊断手段的。
这个工作的立意有问题,significance 不够。选取了一个临床上已经做得很好,没有
迫切需求的方向。虽然结果很激动人心,但是没什么前景。换种癌症,可能就是
nature 子刊的文章了。

【在 t*******r 的大作中提到】
: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?
: 原文链接如下:
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

avatar
l*y
19
胖老师,他们的工作其实和你说的这种灌水文章是有区别的。
他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working
hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature
和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有
呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的
model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来
fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个
working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis
是不依赖于特定模型的。
这个流程越来越成为主流了:对公共数据做数据挖掘来得到 knowledge,然后用这个
knowledge 来产生一个 working hypothesis,用自己的临床数据来做 use case,用几
种不同的 models 来训练。这个套路的一个常见关键字是 actionable knowledge:区
别于一般的 knowledge,是因为有直接的应用,更加 translational;区别于一般的模
型,在于其应用是不依赖于具体的模型的,因而更反映本质,在应用上更有普遍意义。

【在 s******y 的大作中提到】
: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他
: 属于某某类型的肺癌。

avatar
s*y
20
谢谢纠正! 又学到了新东西:)

working

NSCLC
hypothesis

【在 l***y 的大作中提到】
: 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。
: 他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working
: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature
: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有
: 呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的
: model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来
: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
: ”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个
: working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis
: 是不依赖于特定模型的。

avatar
t*r
21
这个版面的水平确实很高啊,学习了
avatar
s*e
22
这一套仍然是无原则无逻辑啊……

working

NSCLC
hypothesis

【在 l***y 的大作中提到】
: 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。
: 他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working
: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature
: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有
: 呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的
: model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来
: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
: ”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个
: working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis
: 是不依赖于特定模型的。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。