Arc研究所近日发布了虚拟细胞挑战赛。参与者需要训练一个模型,能够预测在(部分)未见过的细胞类型中沉默基因的效果,这项任务被称为上下文泛化。
挑战的目标是训练一个模型,使用CRISPR技术预测沉默基因对细胞的影响。在原子世界中进行实验成本高昂、劳动密集且容易出错。虚拟细胞挑战赛的目标是开发一个模型(很可能是神经网络),能够精确模拟当我们改变某些参数时细胞发生的变化。
为了训练这个神经网络,需要数据。Arc为挑战赛整理了一个包含约30万个单细胞RNA测序图谱的数据集。训练集由一个稀疏矩阵和一些相关元数据组成。具体来说,有22万个细胞,每个细胞都有一个转录组。这个转录组是一个稀疏行向量,其中每个条目是相应基因编码的RNA分子(转录本)的原始计数。在这22万个细胞中,约3.8万个是未受干扰的,意味着没有使用CRISPR沉默任何基因。
测量细胞状态前后变化存在困难,因为读取转录组会破坏细胞,这让人联想到观察者效应。这种无法在前后测量细胞状态的情况引入了许多问题,我们被迫使用一组基础(即对照、未受干扰)细胞作为参考点。即使在干扰之前,对照细胞和受干扰细胞也并非完全同质。这意味着我们现在必须将真实信号(干扰)与异质性引起的噪声分离开来。
更正式地说,我们可以将受干扰细胞中观察到的基因表达建模为:观察到的基因表达测量值等于未受干扰的基础细胞群分布加上干扰对群体造成的真实效应,再加上基础群体的生物异质性,以及实验特定的技术噪声。
在虚拟细胞挑战赛之前,Arc发布了STATE模型。