SandboxAQ 发布了 Structurally Augmented IC50 Repository(SAIR),这是最大的共折叠 3D 蛋白质-配体结构数据集,配对了实验测量的 IC₅₀ 标签,直接链接分子结构与药物效力,克服了训练数据长期稀缺的问题。该数据集现已在 Hugging Face 上可用,研究人员首次可以开放访问超过 500 万个 AI 生成的高精度蛋白质-配体 3D 结构,每个结构都配对了经验证的结合效力数据。SAIR 是一个开源数据集,在 CC BY 4.0 许可下免费公开,使其可立即用于商业和非商业研发流程。SAIR 不仅是一个数据集,还是一个战略资产,弥合了 AI 驱动药物设计中的数据缺口。它赋能制药、生物技术和科技生物领域的领导者加速研发、扩展目标视野,并增强 AI 模型,将更多昂贵、耗时的药物设计和优化从湿实验室转移到计算机模拟中。这意味着从命中到先导化合物的时间缩短、先导化合物优化更高效、减少死胡同项目,以及从初始想法到临床候选药物的路径更可预测。AI 和计算机辅助设计在显著加速新药开发方面具有巨大潜力。几十年来,科学家一直梦想 AI 能够从描述疾病途径的提示中识别或设计出有效、无毒且高效的化合物,实际上将多年的药物研发压缩到计算机上的几分钟。然而,这一愿景受限于 AI 仅基于分子结构预测关键药物属性(如效力、毒性等)的能力。此外,传统基于结构的发现早期常因可靠 3D 结构的确定而放缓。三维分子结构决定了分子的功能、动力学和相互作用,这在潜在候选药物预期与人类蛋白质靶点结合时尤为重要。实验方法,如 X 射线晶体学和冷冻电镜,需要大量时间和投资,许多有前景的疾病靶点仍缺乏实验验证的结构信息。计算机模拟有助于降低获取 3D 结构和预测结合亲和力的门槛。然而,早期蛋白质折叠和对接算法(如 AlphaFold 和 Vina)仅预测分子和蛋白质的静态快照(实际上,它们本质上是动态和形状变化的)。SAIR 通过编译超过 100 万个独特的计算共折叠蛋白质-配体对,最终产生 524 万个不同的 3D 复合物(每对五个不同的共折叠结构),解决了这一限制。每个结构都与来自 ChEMBL 或 BindingDB 的精选 IC₅₀ 测量值配对,首次提供了高质量 3D 结构与药物效力之间的可扩展链接,弥合了阻碍 AI 驱动发现的历史数据缺口。在类似数据上训练的深度学习亲和力模型,如 Boltz-2,已被证明比传统的第一原理方法快达 1000 倍。创建 SAIR 是高性能 AI 计算的一项重大成就。使用 Boltz1(一个共折叠 AI 模型)在 760 个 NVIDIA H100 处理器的集群上计算 SAIR 数据集耗时超过 13 万 GPU 小时。