非小细胞肺癌的PD-L1检测谁主沉浮?
  PD-1/PD-L1单抗来了,面对肿瘤标本PD-L1的四种免疫组化检测方法:22c3、28-8、E1L3N和SP142提供的结果,如何判断是“真阳”还是“假阳”?如何用好这把“利器”?本研究发现,SP142只能发现其他3种方法检测出阳性病例的约50%。病理学家对肿瘤细胞的PD-L1表达的诊断评分上高度一致,但免疫细胞并不一致。
  本研究比较4个检查点抑制剂程序化细胞死亡配体1(PD-L1)平台检测技术22c3、28-8、E1L3N和SP142的优劣。其中包括2个FDA批准、1个用于研究、1个实验室研发的检测方法。
  从2008年1月至2010年12月31日,有3个“中心”用4种“组织方法”对90个非小细胞肺癌样本的PD-L1检测。四种方法分别是玻片由13位病理学家阅片和评分,评价肿瘤细胞和免疫细胞上PD-L1的表达百分比。统计分析比较肿瘤和免疫细胞抗体和病理学家的评分。
  理论和实际运用面临几个困扰:FDA批准的几种方法间等效吗?任何一个方法都可以提示运用任何一种药物吗?诊断和评分方法对治疗是特异的吗?针对这些问题,美国开展了两项研究比较诊断方法。
  第一项称为Blueprint的研究显示4种方法中的3种的一致性,SP142是例外。这是项队列研究,没有统计效力,也非多中心。
  本文报道的第二项研究,是多中心、前瞻性研究,提供的是生物标记物1级证据。主要目的比较抗体、方法、检测平台在测定PD-L1准确性和可靠性的差异,关注的是4种方法的直接比较,了解抗体和检测相对另外一种的特点和表现,评价肿瘤细胞表面vs侵润免疫细胞上PD-L1差异,病理学家间对不同方法结果解读的差异。本文提供的1级证据是用于评价每种方法和病理学家的一致性。
  方法
  病例选择
  获取耶鲁大学医学院病理科,从2008年1月1日至2010年12月31日的90例外科切除的非小细胞肺癌(I-III)、腺癌和鳞状细胞肺癌标本进入研究。
  免疫组化
  在耶鲁大学对每例切除4个部分的5-µm标本送往3个机构染色:方法1,科罗拉多大学在Dako Link 48平台上作22c3检测;方法2,科罗拉多大学在Dako Link 48平台上作28-8检测;方法3,纽约梅奥诊所在Ventana Benchmark平台上作SP142检测;方法4,耶鲁大学在Leica Bond平台上作细胞信号技术E1L3N检测(实验室研发检测技术)。虽然Ventana法目前得到FDA批准,但在这项研究染色时,还是仅在用于研究用途的基础上作了轻微改动。方案与目前批准的方案除了3步培育次数不同外,基本一致。
  病理评分
  在REDCap数据库创建评分模板。病理学家对互联网呈现的图像评分,可以使整个玻片的图像实现从1×到400×全变焦改变。向8个中心的16位病理学家提供说明,在指定日期内完成90例(每例4张玻片)的染色和平台上工作。最后8个中心中,只有7个中心的13位病理学家正确完成了评分工作。
  我们对肿瘤比例评分(TPSs)和免疫细胞比例评分(ICPSs)方法统一。TPS或ICPS评分根据胞膜和胞浆染色强度评定。
  统计分析
  病理学家以6分法评分,每个数值对应肿瘤百分数:A阴性或小于1%,B肿瘤1%-4%,C肿瘤5%-9%,D肿瘤10%-24%,E肿瘤25-49%,F肿瘤50%及以上。TPS和ICPS运用同样的统计分析法。为了评价抗体的一致性,计算4种抗体的不同级别相关系数(ICCs)。3种检测(除了Ventana Benchmark平台上的SP142)对90例的病理学家评分和每个病理学家的评分取平均值。4种抗体计算出样本量90个玻片可以将高度相关(ICC,≥0.85)从中度相关(ICC,0.5)或强相关(ICC,0.7)区分出来。考虑到约35%评分将会阳性,90张玻片在P<0.05水平有87.9%效能将ICC0.85从0.7区分出来。ICC解读:<0.3为一致性差,0.5为中度一致,0.7位强一致,0.85及以上为高度一致。病理学家间评分一致性作定量分析:从每种抗体的原始6分水平和3个总量水平(<1%,1%-49%和≥50%)(aggregated levels)计算病理学家间ICC数值。
  结果
  90个样本中,样本染色后的结果类似于免疫组化中PD-L1表达,主要是膜上表达。虽然有一项在染色程度上明显淡染,4项试验大体相似。通过取13位病理学家的平均分值,比较了每个病例的TPS和ICPS。TPS和ICPS两者对应每种方法的每个分类评分等级按照患者百分比的评分结果,以及只使用50%和1%阈值的百分比阳性结果,产生TPS的二元评分,对ICPS运用10%和1%的阈值。
  90个样本中,SP142法无论是在肿瘤还是免疫细胞上的PD-L1表达平均分上,要显著低于其他三种方法。4种方法的肿瘤平均值为22c3,2.96;28-8,3.26;SP142,1.99;E1L3N,3.20。总平均值2.85。4种方法的免疫细胞平均值为22c3,2.15;28-8,2.28;SP142,1.62;E1L3N,2.28。总平均值2.08。配对比较显示28-8和E1L3N无显著差异,22c3在肿瘤细胞PD-L1的表达上有轻度但有统计意义的下降。对肿瘤细胞PD-L1表达检测方法间变异的定量指标抗体间不同等级相关系数(ICCs)评价显示肿瘤细胞评分上高度一致(0.813;95%CI,0.815-0.839),免疫细胞评分上一致程度较低(0.277;95%CI,0.222-0.334)。在对每单个方法的病理学家间的变异程度评价时,肿瘤细胞PD-L1表达的病理学家评分的一致程度ICCs从0.832(95%CI,0.820-0.844)到0.882(95%CI,0.873-0.891)不等,每种方法免疫细胞的ICCs值从0.172(95%CI,0.156-0.189)到0.229(95%CI,0.211-0.248)不等。
  TPS和ICPS的平均差异和统计学上的显著性,只有28-8和E1L3N实验没有显著统计学差异,SP142检验与其他3个方法比较差异程度最大。4种方法的肿瘤平均值为22c3,2.96;28-8,3.26;SP142,1.99;E1L3N,3.20。4种方法的免疫细胞平均值为22c3,2.15;28-8,2.28;SP142,1.62;E1L3N,2.28。22c3比28-8(平均差,-0.3;p<0.001)和E1L3N(平均差,-0.246;P<0.001)在肿瘤细胞的平均值上显著要低。SP142比其他3种诊断方法显著要低。ICC可能是比较这些诊断试剂盒的更佳方法。再将13位病理学家的评分平均,发现对TPS和ICPS的ICCs值分别为0.813(95%CI,0.815-0.839)和0.277(95%CI,0.222-0.334),但当排除SP142时,两者上升至0.971和0.804。
  讨论
  SP142法比其他3种方法在TPS和ICPS上的PD-L1染色显著要低且有统计学意义。22c3法比28-3和E1L3N法在PD-L1表达水平上显著要低,但是只采用13位病理学家评分的平均值时,PD-L1染色水平轻微下降。发现病理学家对每种方法的判读结果高度一致,任何一种方法TPS的ICCs值约为0.8,但是ICPS的一致性差,ICCs值只有0.2,提示免疫组化是评价肿瘤细胞PD-L1好方法,但不论选择什么方法,对免疫细胞表达的评价却不足。肿瘤细胞以50%为阈值比1%的阈值有更高的一致性。1%的阈值要求病理学家使用自动化系统或经培训的方法以改进检测的精确性。
  病理学家评分的中位值允许我们进一步剖析在更加真实的情况下,哪些地方病理学家一致,哪些地方有分歧。对诊断试验的比较,要求检测有高度的敏感性,可以发现可能受益的患者。然而如果检测有太多患者可能有反应,实际上没有效果,无论是检测、药物或两者失败的可能性更大。因此我们通过计算百分比,产生敏感性的替代指标,只要他或她在每个阈值超过所有病理学家的中位分数,单个病理学家就可以报告结果为阳性。由我们病理学专家组评分的方法对任何检测阈值预测阳性结果的敏感性达到90%-95%。特异度方面,采取同样方法,低于中位分数认为阴性。以1%为阈值,特异度为70%-80%;以5%为阈值,特异度超过90%;以50%为阈值,特异度超过95%。模型显示高特异度需要高的阈值,而所有阈值均可获得高敏感性。
  结论
  SP142法对肿瘤细胞和免疫细胞的PD-L1表达检测显著要低。22c3法比28-8或E1L3N法染色在PD-L1表达的检测上有统计意义上的轻微降低,但只有在13位病理学家评分上如此。病理学家在对任何一种肿瘤细胞染色的评分上显示出高度一致性,但对免疫细胞抗体染色评分上,一致性很差。因此肿瘤细胞PD-L1评价,4种方法中的3种一致、病理学家间阅片可重复。
  点评:四种中的三种22c3、28-8和E1L3N结果可以互换,但临床上还没有一种方法在交叉利用上得到证实。