在蛋白质组学中,蛋白质评分是用来评估通过质谱(MS)鉴定的蛋白质置信度的一个指标。不同的搜索算法(如SEQUEST, MASCOT, X!Tandem等)会生成各自的蛋白质评分系统。这些评分通常基于以下几个方面:
肽段匹配质量:评分反映了鉴定到的肽段与实验质谱图谱匹配的程度。
统计模型:评分系统可能基于统计模型,如错误发现率(FDR)或似然比(E-value),来估计正确鉴定的概率。
数据库搜索:在数据库搜索中,评分也考虑了随机匹配数据库中其他蛋白质的可能性。
实验参数:实验条件、仪器特性和数据处理方法都可能影响评分。
决定蛋白质评分阙值(阈值)的方法包括:
固定阙值:根据经验或文献中的数据,设置一个固定的评分阙值作为所有分析的通用标准。
统计分析:使用统计方法确定一个阙值,使得在这个阙值以上的蛋白质具有可接受的错误发现率。
交叉验证:在已知蛋白质的情况下,通过交叉验证来优化评分阙值,确保高置信度的蛋白质鉴定。
FDR控制:通过控制假阳性率(FDR)来确定评分阙值,这是一种常用的统计方法,可以平衡鉴定出的蛋白质数量和假阳性率。
性能比较:比较不同阙值下的性能,如真正例率(True Positive Rate)和假正例率(False Positive Rate),选择一个平衡点。
生物信息学工具:使用如Perseus、Trans-Proteomic Pipeline (TPP)、ProteinPilot等工具,它们提供了内置的评分系统和阙值建议。
专家知识:结合实验设计、样品制备和实验重复性等信息,由专家决定最合适的评分阙值。
动态调整:在某些情况下,根据数据集的特点动态调整评分阙值也是可行的。
值得注意的是,没有一个通用的评分阙值适用于所有实验和数据分析。通常需要结合具体情况来确定最适合的阙值,以确保蛋白质鉴定的准确性和可靠性。