张靓颖的粉丝对婚姻家庭很忠诚，但会溺爱孩子 - 未名空间MITBBS历史存档

张靓颖的粉丝对婚姻家庭很忠诚，但会溺爱孩子# TVChinese - 中文电视

t*r2015-03-15 07:03

1 楼

最近看了一篇文章，显示肿瘤预测可以达到91%的准确率，不知大家怎么看？
原文链接如下：
http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

w*r2015-03-15 07:03

2 楼

Rt

s*y2015-03-15 07:03

3 楼

原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
属于某某类型的肺癌。
这种文章挺多的，但是在临床应用上并不准确，而且意义上不大。因为他们无非就是就
一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
立刻就显原形了（就是没有什么用）。

【在 t*******r 的大作中提到】

: 最近看了一篇文章，显示肿瘤预测可以达到91%的准确率，不知大家怎么看？
: 原文链接如下：
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

e*e2015-03-15 07:03

4 楼

Overfitting?

【在 s******y 的大作中提到】

: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
: 属于某某类型的肺癌。
: 这种文章挺多的，但是在临床应用上并不准确，而且意义上不大。因为他们无非就是就
: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
: 立刻就显原形了（就是没有什么用）。

x*e2015-03-15 07:03

5 楼

wk 这不是纯灌水吗？有什么现实意义？

【在 s******y 的大作中提到】

: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
: 属于某某类型的肺癌。
: 这种文章挺多的，但是在临床应用上并不准确，而且意义上不大。因为他们无非就是就
: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
: 立刻就显原形了（就是没有什么用）。

m*h2015-03-15 07:03

6 楼

这个准确率必须要对新的test set得出才有意义
如果是用training set得出的，那是没搞明白training error和test error
基本概念不对啊。。

【在 x********e 的大作中提到】

: wk 这不是纯灌水吗？有什么现实意义？

r*92015-03-15 07:03

7 楼

有没有读一遍？
随便就批评

l*y2015-03-15 07:03

8 楼

这个不是预测，是诊断，而且是组织取样后的诊断。
这篇文章的核心价值在于发现了 5 个 DNA CpG sites 的 methylation 与 NSCLC 高度
相关（Table 2）。
为了说明这组 CpG sites 可以被用来作为诊断用途，作者首先证明了这 5 个
features 之间没有显著冗余，然后证明了这些 features 足以独立用于诊断。为了说
明这一点，作者剔除了其它已知因素，用了 4 种常用模型，都证明这 5 个 features
可以独立诊断 NSCLC。也就是说，这 5 个 features 有产业化的可行性－－做个
kit 就可以上临床了，比如说 gene－21 的例子。所以作者把这五个位点称为一个
signaure。
那么这个方法是否提高了现有的诊断水平呢？当然没有。因为这个工作就是依据现有诊
断方法做的诊断来训练的，并且貌似也没有提出发现了现有诊断的错误的例子。也就是
说，作者把现有诊断的方法作为 100% 正确的 ground truth。。
这个工作的对照组有些实用上的小问题。150 个病人全都是 NSCLC，control 是同一个
病人的病灶周边健康组织。更好的取样是直接用临床疑似需要取样确诊的病人（一般是
经过CT等认为肺癌几率足够大的），取 150 个确诊为 NSCLC的，150 个确诊为没有肺
癌的。这样才更接近临床应用的情景。我其实很想看到这样子的诊断准确率是否还有这
么高。
另外，这项研究的临床应用前景到底怎么样也难说。目前的作为 non－invasive 诊断
的 PET-CT 的 sensitivity 和 specificity 大约是 77%和86%，thoracic ultrasound
(TUS)-guided thoracentesis 诊断肺癌的 sensitivity 和 specificity则分别是 79
% 和 100%，为了进一步提高 sensitivity，临床上会用 needle 采样(TTNA)，这时候
诊断肺癌的 sensitivity 是 90%。全部肺癌病例中大约 80％是 NSCLC，目前 TTNA 对
确诊为肺癌的病例中对NSCLC的区分的准确率是 98%。而这篇文章在 abstract 里通过
biopsy 采样后的结果得到的 sensitivity 和 specificity 是 86% 和 96%。就应用来
说，这个结果其实是很难撼动目前的临床诊断手段的。
这个工作的立意有问题，significance 不够。选取了一个临床上已经做得很好，没有
迫切需求的方向。虽然结果很激动人心，但是没什么前景。换种癌症，可能就是
nature 子刊的文章了。

【在 t*******r 的大作中提到】

: 最近看了一篇文章，显示肿瘤预测可以达到91%的准确率，不知大家怎么看？
: 原文链接如下：
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

l*y2015-03-15 07:03

9 楼

胖老师，他们的工作其实和你说的这种灌水文章是有区别的。
他们的工作分了两个层面：knowledge 和 model，以及连接着两个层面的那个 working
hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge，就是有 5 个 feature
和 NSCLC 是强相关的。至于怎么应用这个 knowledge，也就是 model，这时候还没有
呢。应用的时候，是用了来自自己医院的一个 cohort，而且并没有局限于某个特定的
model －－那样大家会质疑是不是只有这个 model 管用，也就是你说的反复优化来
fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
”这样的 working hypothesis，选取了四类在算法上大相径庭的 models，应用同一个
working hypothesis，都得出了不错的结果。这就说明这个 knowledge／hypothesis
是不依赖于特定模型的。
这个流程越来越成为主流了：对公共数据做数据挖掘来得到 knowledge，然后用这个
knowledge 来产生一个 working hypothesis，用自己的临床数据来做 use case，用几
种不同的 models 来训练。这个套路的一个常见关键字是 actionable knowledge：区
别于一般的 knowledge，是因为有直接的应用，更加 translational；区别于一般的模
型，在于其应用是不依赖于具体的模型的，因而更反映本质，在应用上更有普遍意义。

【在 s******y 的大作中提到】

: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
: 属于某某类型的肺癌。
: 这种文章挺多的，但是在临床应用上并不准确，而且意义上不大。因为他们无非就是就
: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上
: 立刻就显原形了（就是没有什么用）。

s*y2015-03-15 07:03

10 楼

谢谢纠正！又学到了新东西：）

working
的
NSCLC
hypothesis

【在 l***y 的大作中提到】

: 胖老师，他们的工作其实和你说的这种灌水文章是有区别的。
: 他们的工作分了两个层面：knowledge 和 model，以及连接着两个层面的那个 working
: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge，就是有 5 个 feature
: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge，也就是 model，这时候还没有
: 呢。应用的时候，是用了来自自己医院的一个 cohort，而且并没有局限于某个特定的
: model －－那样大家会质疑是不是只有这个 model 管用，也就是你说的反复优化来
: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
: ”这样的 working hypothesis，选取了四类在算法上大相径庭的 models，应用同一个
: working hypothesis，都得出了不错的结果。这就说明这个 knowledge／hypothesis
: 是不依赖于特定模型的。

t*r2015-03-15 07:03

11 楼

这个版面的水平确实很高啊，学习了

t*r2015-03-15 07:03

12 楼

最近看了一篇文章，显示肿瘤预测可以达到91%的准确率，不知大家怎么看？
原文链接如下：
http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

s*y2015-03-15 07:03

13 楼

原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
属于某某类型的肺癌。

【在 t*******r 的大作中提到】

: 最近看了一篇文章，显示肿瘤预测可以达到91%的准确率，不知大家怎么看？
: 原文链接如下：
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

e*e2015-03-15 07:03

14 楼

Overfitting?

【在 s******y 的大作中提到】

: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
: 属于某某类型的肺癌。

x*e2015-03-15 07:03

15 楼

wk 这不是纯灌水吗？有什么现实意义？

【在 s******y 的大作中提到】

: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
: 属于某某类型的肺癌。

m*h2015-03-15 07:03

16 楼

这个准确率必须要对新的test set得出才有意义
如果是用training set得出的，那是没搞明白training error和test error
基本概念不对啊。。

【在 x********e 的大作中提到】

: wk 这不是纯灌水吗？有什么现实意义？

r*92015-03-15 07:03

17 楼

有没有读一遍？
随便就批评

l*y2015-03-15 07:03

18 楼

这个不是预测，是诊断，而且是组织取样后的诊断。
这篇文章的核心价值在于发现了 5 个 DNA CpG sites 的 methylation 与 NSCLC 高度
相关（Table 2）。
为了说明这组 CpG sites 可以被用来作为诊断用途，作者首先证明了这 5 个
features 之间没有显著冗余，然后证明了这些 features 足以独立用于诊断。为了说
明这一点，作者剔除了其它已知因素，用了 4 种常用模型，都证明这 5 个 features
可以独立诊断 NSCLC。也就是说，这 5 个 features 有产业化的可行性－－做个
kit 就可以上临床了，比如说 gene－21 的例子。所以作者把这五个位点称为一个
signaure。
那么这个方法是否提高了现有的诊断水平呢？当然没有。因为这个工作就是依据现有诊
断方法做的诊断来训练的，并且貌似也没有提出发现了现有诊断的错误的例子。也就是
说，作者把现有诊断的方法作为 100% 正确的 ground truth。。
这个工作的对照组有些实用上的小问题。150 个病人全都是 NSCLC，control 是同一个
病人的病灶周边健康组织。更好的取样是直接用临床疑似需要取样确诊的病人（一般是
经过CT等认为肺癌几率足够大的），取 150 个确诊为 NSCLC的，150 个确诊为没有肺
癌的。这样才更接近临床应用的情景。我其实很想看到这样子的诊断准确率是否还有这
么高。
另外，这项研究的临床应用前景到底怎么样也难说。目前的作为 non－invasive 诊断
的 PET-CT 的 sensitivity 和 specificity 大约是 77%和86%，thoracic ultrasound
(TUS)-guided thoracentesis 诊断肺癌的 sensitivity 和 specificity则分别是 79
% 和 100%，为了进一步提高 sensitivity，临床上会用 needle 采样(TTNA)，这时候
诊断肺癌的 sensitivity 是 90%。全部肺癌病例中大约 80％是 NSCLC，目前 TTNA 对
确诊为肺癌的病例中对NSCLC的区分的准确率是 98%。而这篇文章在 abstract 里通过
biopsy 采样后的结果得到的 sensitivity 和 specificity 是 86% 和 96%。就应用来
说，这个结果其实是很难撼动目前的临床诊断手段的。
这个工作的立意有问题，significance 不够。选取了一个临床上已经做得很好，没有
迫切需求的方向。虽然结果很激动人心，但是没什么前景。换种癌症，可能就是
nature 子刊的文章了。

【在 t*******r 的大作中提到】

: 最近看了一篇文章，显示肿瘤预测可以达到91%的准确率，不知大家怎么看？
: 原文链接如下：
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01

l*y2015-03-15 07:03

19 楼

胖老师，他们的工作其实和你说的这种灌水文章是有区别的。
他们的工作分了两个层面：knowledge 和 model，以及连接着两个层面的那个 working
hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge，就是有 5 个 feature
和 NSCLC 是强相关的。至于怎么应用这个 knowledge，也就是 model，这时候还没有
呢。应用的时候，是用了来自自己医院的一个 cohort，而且并没有局限于某个特定的
model －－那样大家会质疑是不是只有这个 model 管用，也就是你说的反复优化来
fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
”这样的 working hypothesis，选取了四类在算法上大相径庭的 models，应用同一个
working hypothesis，都得出了不错的结果。这就说明这个 knowledge／hypothesis
是不依赖于特定模型的。
这个流程越来越成为主流了：对公共数据做数据挖掘来得到 knowledge，然后用这个
knowledge 来产生一个 working hypothesis，用自己的临床数据来做 use case，用几
种不同的 models 来训练。这个套路的一个常见关键字是 actionable knowledge：区
别于一般的 knowledge，是因为有直接的应用，更加 translational；区别于一般的模
型，在于其应用是不依赖于具体的模型的，因而更反映本质，在应用上更有普遍意义。

【在 s******y 的大作中提到】

: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。
: 也就是说，首先是已经知道了那个人有肺癌了，然后，再根据一些检验结果可以推测他
: 属于某某类型的肺癌。

s*y2015-03-15 07:03

20 楼

谢谢纠正！又学到了新东西：）

working
的
NSCLC
hypothesis

【在 l***y 的大作中提到】

: 胖老师，他们的工作其实和你说的这种灌水文章是有区别的。
: 他们的工作分了两个层面：knowledge 和 model，以及连接着两个层面的那个 working
: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge，就是有 5 个 feature
: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge，也就是 model，这时候还没有
: 呢。应用的时候，是用了来自自己医院的一个 cohort，而且并没有局限于某个特定的
: model －－那样大家会质疑是不是只有这个 model 管用，也就是你说的反复优化来
: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
: ”这样的 working hypothesis，选取了四类在算法上大相径庭的 models，应用同一个
: working hypothesis，都得出了不错的结果。这就说明这个 knowledge／hypothesis
: 是不依赖于特定模型的。

t*r2015-03-15 07:03

21 楼

这个版面的水平确实很高啊，学习了

s*e2015-03-15 07:03

22 楼

这一套仍然是无原则无逻辑啊……

working
的
NSCLC
hypothesis

【在 l***y 的大作中提到】

: 胖老师，他们的工作其实和你说的这种灌水文章是有区别的。
: 他们的工作分了两个层面：knowledge 和 model，以及连接着两个层面的那个 working
: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge，就是有 5 个 feature
: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge，也就是 model，这时候还没有
: 呢。应用的时候，是用了来自自己医院的一个 cohort，而且并没有局限于某个特定的
: model －－那样大家会质疑是不是只有这个 model 管用，也就是你说的反复优化来
: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC
: ”这样的 working hypothesis，选取了四类在算法上大相径庭的 models，应用同一个
: working hypothesis，都得出了不错的结果。这就说明这个 knowledge／hypothesis
: 是不依赖于特定模型的。

j*e2015-03-15 07:03

23 楼

我现在已经做到了95+%，一点不开玩笑。

【在 t*******r 的大作中提到】

: 最近看了一篇文章，显示肿瘤预测可以达到91%的准确率，不知大家怎么看？
: 原文链接如下：
: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01