张靓颖的粉丝对婚姻家庭很忠诚,但会溺爱孩子# TVChinese - 中文电视t*r2015-03-15 07:031 楼最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?原文链接如下:http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01
s*y2015-03-15 07:033 楼原文的意思是在肺癌里面推测属于某种特定亚种的准确率。也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他属于某某类型的肺癌。这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上立刻就显原形了(就是没有什么用)。【在 t*******r 的大作中提到】: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?: 原文链接如下:: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01
e*e2015-03-15 07:034 楼Overfitting?【在 s******y 的大作中提到】: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他: 属于某某类型的肺癌。: 这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上: 立刻就显原形了(就是没有什么用)。
x*e2015-03-15 07:035 楼wk 这不是纯灌水吗?有什么现实意义?【在 s******y 的大作中提到】: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他: 属于某某类型的肺癌。: 这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上: 立刻就显原形了(就是没有什么用)。
m*h2015-03-15 07:036 楼这个准确率必须要对新的test set得出才有意义如果是用training set得出的,那是没搞明白training error和test error基本概念不对啊。。【在 x********e 的大作中提到】: wk 这不是纯灌水吗?有什么现实意义?
l*y2015-03-15 07:038 楼这个不是预测,是诊断,而且是组织取样后的诊断。这篇文章的核心价值在于发现了 5 个 DNA CpG sites 的 methylation 与 NSCLC 高度相关(Table 2)。为了说明这组 CpG sites 可以被用来作为诊断用途,作者首先证明了这 5 个features 之间没有显著冗余,然后证明了这些 features 足以独立用于诊断。为了说明这一点,作者剔除了其它已知因素,用了 4 种常用模型,都证明这 5 个 features可以独立诊断 NSCLC。也就是说,这 5 个 features 有产业化的可行性 -- 做个kit 就可以上临床了,比如说 gene-21 的例子。所以作者把这五个位点称为一个signaure。那么这个方法是否提高了现有的诊断水平呢?当然没有。因为这个工作就是依据现有诊断方法做的诊断来训练的,并且貌似也没有提出发现了现有诊断的错误的例子。也就是说,作者把现有诊断的方法作为 100% 正确的 ground truth。。这个工作的对照组有些实用上的小问题。150 个病人全都是 NSCLC,control 是同一个病人的病灶周边健康组织。更好的取样是直接用临床疑似需要取样确诊的病人(一般是经过CT等认为肺癌几率足够大的),取 150 个确诊为 NSCLC的,150 个确诊为没有肺癌的。这样才更接近临床应用的情景。我其实很想看到这样子的诊断准确率是否还有这么高。另外,这项研究的临床应用前景到底怎么样也难说。目前的作为 non-invasive 诊断的 PET-CT 的 sensitivity 和 specificity 大约是 77%和86%,thoracic ultrasound(TUS)-guided thoracentesis 诊断肺癌的 sensitivity 和 specificity则分别是 79% 和 100%,为了进一步提高 sensitivity,临床上会用 needle 采样(TTNA),这时候诊断肺癌的 sensitivity 是 90%。全部肺癌病例中大约 80%是 NSCLC,目前 TTNA 对确诊为肺癌的病例中对NSCLC的区分的准确率是 98%。而这篇文章在 abstract 里通过biopsy 采样后的结果得到的 sensitivity 和 specificity 是 86% 和 96%。就应用来说,这个结果其实是很难撼动目前的临床诊断手段的。这个工作的立意有问题,significance 不够。选取了一个临床上已经做得很好,没有迫切需求的方向。虽然结果很激动人心,但是没什么前景。换种癌症,可能就是nature 子刊的文章了。【在 t*******r 的大作中提到】: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?: 原文链接如下:: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01
l*y2015-03-15 07:039 楼胖老师,他们的工作其实和你说的这种灌水文章是有区别的。他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 workinghypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis是不依赖于特定模型的。这个流程越来越成为主流了:对公共数据做数据挖掘来得到 knowledge,然后用这个knowledge 来产生一个 working hypothesis,用自己的临床数据来做 use case,用几种不同的 models 来训练。这个套路的一个常见关键字是 actionable knowledge:区别于一般的 knowledge,是因为有直接的应用,更加 translational;区别于一般的模型,在于其应用是不依赖于具体的模型的,因而更反映本质,在应用上更有普遍意义。【在 s******y 的大作中提到】: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他: 属于某某类型的肺癌。: 这种文章挺多的,但是在临床应用上并不准确,而且意义上不大。因为他们无非就是就: 一个已知的数据群反复优化公式来fit出一个algorithm, 但是如果用在未知的数据群上: 立刻就显原形了(就是没有什么用)。
s*y2015-03-15 07:0310 楼谢谢纠正! 又学到了新东西:)working的NSCLChypothesis【在 l***y 的大作中提到】: 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。: 他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有: 呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的: model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC: ”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个: working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis: 是不依赖于特定模型的。
t*r2015-03-15 07:0312 楼最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?原文链接如下:http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01
s*y2015-03-15 07:0313 楼原文的意思是在肺癌里面推测属于某种特定亚种的准确率。也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他属于某某类型的肺癌。【在 t*******r 的大作中提到】: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?: 原文链接如下:: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01
e*e2015-03-15 07:0314 楼Overfitting?【在 s******y 的大作中提到】: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他: 属于某某类型的肺癌。
x*e2015-03-15 07:0315 楼wk 这不是纯灌水吗?有什么现实意义?【在 s******y 的大作中提到】: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他: 属于某某类型的肺癌。
m*h2015-03-15 07:0316 楼这个准确率必须要对新的test set得出才有意义如果是用training set得出的,那是没搞明白training error和test error基本概念不对啊。。【在 x********e 的大作中提到】: wk 这不是纯灌水吗?有什么现实意义?
l*y2015-03-15 07:0318 楼这个不是预测,是诊断,而且是组织取样后的诊断。这篇文章的核心价值在于发现了 5 个 DNA CpG sites 的 methylation 与 NSCLC 高度相关(Table 2)。为了说明这组 CpG sites 可以被用来作为诊断用途,作者首先证明了这 5 个features 之间没有显著冗余,然后证明了这些 features 足以独立用于诊断。为了说明这一点,作者剔除了其它已知因素,用了 4 种常用模型,都证明这 5 个 features可以独立诊断 NSCLC。也就是说,这 5 个 features 有产业化的可行性 -- 做个kit 就可以上临床了,比如说 gene-21 的例子。所以作者把这五个位点称为一个signaure。那么这个方法是否提高了现有的诊断水平呢?当然没有。因为这个工作就是依据现有诊断方法做的诊断来训练的,并且貌似也没有提出发现了现有诊断的错误的例子。也就是说,作者把现有诊断的方法作为 100% 正确的 ground truth。。这个工作的对照组有些实用上的小问题。150 个病人全都是 NSCLC,control 是同一个病人的病灶周边健康组织。更好的取样是直接用临床疑似需要取样确诊的病人(一般是经过CT等认为肺癌几率足够大的),取 150 个确诊为 NSCLC的,150 个确诊为没有肺癌的。这样才更接近临床应用的情景。我其实很想看到这样子的诊断准确率是否还有这么高。另外,这项研究的临床应用前景到底怎么样也难说。目前的作为 non-invasive 诊断的 PET-CT 的 sensitivity 和 specificity 大约是 77%和86%,thoracic ultrasound(TUS)-guided thoracentesis 诊断肺癌的 sensitivity 和 specificity则分别是 79% 和 100%,为了进一步提高 sensitivity,临床上会用 needle 采样(TTNA),这时候诊断肺癌的 sensitivity 是 90%。全部肺癌病例中大约 80%是 NSCLC,目前 TTNA 对确诊为肺癌的病例中对NSCLC的区分的准确率是 98%。而这篇文章在 abstract 里通过biopsy 采样后的结果得到的 sensitivity 和 specificity 是 86% 和 96%。就应用来说,这个结果其实是很难撼动目前的临床诊断手段的。这个工作的立意有问题,significance 不够。选取了一个临床上已经做得很好,没有迫切需求的方向。虽然结果很激动人心,但是没什么前景。换种癌症,可能就是nature 子刊的文章了。【在 t*******r 的大作中提到】: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?: 原文链接如下:: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01
l*y2015-03-15 07:0319 楼胖老师,他们的工作其实和你说的这种灌水文章是有区别的。他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 workinghypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis是不依赖于特定模型的。这个流程越来越成为主流了:对公共数据做数据挖掘来得到 knowledge,然后用这个knowledge 来产生一个 working hypothesis,用自己的临床数据来做 use case,用几种不同的 models 来训练。这个套路的一个常见关键字是 actionable knowledge:区别于一般的 knowledge,是因为有直接的应用,更加 translational;区别于一般的模型,在于其应用是不依赖于具体的模型的,因而更反映本质,在应用上更有普遍意义。【在 s******y 的大作中提到】: 原文的意思是在肺癌里面推测属于某种特定亚种的准确率。: 也就是说,首先是已经知道了那个人有肺癌了,然后,再根据一些检验结果可以推测他: 属于某某类型的肺癌。
s*y2015-03-15 07:0320 楼谢谢纠正! 又学到了新东西:)working的NSCLChypothesis【在 l***y 的大作中提到】: 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。: 他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有: 呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的: model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC: ”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个: working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis: 是不依赖于特定模型的。
s*e2015-03-15 07:0322 楼这一套仍然是无原则无逻辑啊……working的NSCLChypothesis【在 l***y 的大作中提到】: 胖老师,他们的工作其实和你说的这种灌水文章是有区别的。: 他们的工作分了两个层面:knowledge 和 model,以及连接着两个层面的那个 working: hypothesis。先是用 TCGA 等数据发掘出了一个 knowledge,就是有 5 个 feature: 和 NSCLC 是强相关的。至于怎么应用这个 knowledge,也就是 model,这时候还没有: 呢。应用的时候,是用了来自自己医院的一个 cohort,而且并没有局限于某个特定的: model -- 那样大家会质疑是不是只有这个 model 管用,也就是你说的反复优化来: fit 的问题。他们把这个发现的 knowledge 变成“这 5 个 features 可以诊断 NSCLC: ”这样的 working hypothesis,选取了四类在算法上大相径庭的 models,应用同一个: working hypothesis,都得出了不错的结果。这就说明这个 knowledge/hypothesis: 是不依赖于特定模型的。
j*e2015-03-15 07:0323 楼我现在已经做到了95+%,一点不开玩笑。【在 t*******r 的大作中提到】: 最近看了一篇文章,显示肿瘤预测可以达到91%的准确率,不知大家怎么看?: 原文链接如下:: http://www.clinicalepigeneticsjournal.com/content/pdf/s13148-01