Skip to content

书 · AI 与生物医疗

AlphaFold 解决了困扰生物学界五十年的蛋白质折叠问题,获得了诺贝尔化学奖——AI 第一次在基础科学中做出了诺奖级贡献。

待完善

本章节尚待撰写,欢迎参与贡献

大纲

一、早期:专家系统与医学诊断

  • MYCIN(1970s):斯坦福开发的细菌感染诊断专家系统,准确率超过部分医生
  • INTERNIST-1 / QMR:内科疾病诊断系统
  • 早期的局限:知识获取瓶颈、无法从数据中学习

二、医学影像:AI 的第一个临床突破口

  • CNN 在影像诊断中的应用(2015-):
    • 皮肤癌检测:斯坦福团队的 CNN 达到皮肤科医生水平(2017)
    • 糖尿病视网膜病变:Google Health 的 AI 筛查系统
    • 肺结节检测:CT 影像中的早期肺癌筛查
    • 病理切片分析:从数字病理到 AI 辅助诊断
  • FDA 批准的 AI 医疗设备:截至 2025 年已超过 900 个
  • 落地困难:临床验证周期长、医生信任度、监管合规

三、AI 药物发现:从靶点到临床

传统药物研发的困境

  • "双十定律":平均 10 年、10 亿美元才能上市一款新药
  • 失败率极高:临床试验成功率不到 10%
  • AI 的承诺:缩短周期、降低成本、提高成功率

AI 在药物研发各环节的应用

  • 靶点发现:AI 从基因组和蛋白质组数据中识别新药靶点
  • 分子生成与优化:用生成模型设计全新的候选药物分子
    • 变分自编码器(VAE)、GAN、扩散模型用于分子设计
    • 从虚拟筛选到从头设计(de novo design)
  • ADMET 预测:用 AI 预测药物的吸收、分布、代谢、排泄和毒性
  • 临床试验优化:患者招募、剂量优化、终点预测

关键公司与里程碑

  • 英矽智能(Insilico Medicine):
    • 2023 年 AI 设计的 IPF(特发性肺纤维化)药物 INS018_055 进入 II 期临床
    • 从靶点发现到临床候选药物仅 18 个月(传统流程约 4-5 年)
    • 总部香港,中美两地运营
  • Recursion Pharmaceuticals:
    • 用高通量细胞影像 + AI 大规模筛选药物
    • 收购 Cyclica 和 Valence,构建完整 AI 药物发现平台
  • Exscientia(现 Recursion):
    • 2020 年首个 AI 设计的药物分子进入人体临床试验
  • AbCellera:AI 驱动的抗体药物发现
  • 晶泰科技(XtalPi):AI + 机器人实验室,药物晶型预测
  • 百图生科(BioMap):李彦宏投资,大模型 + 生命科学

AI 制药的现实检验

  • 进入临床 ≠ 药物上市:大部分 AI 设计的药物仍在早期阶段
  • 数据质量问题:生物数据的噪声、偏差、标准化困难
  • "AI 洗白":部分公司夸大 AI 在药物研发中的真实贡献
  • 长期展望:AI 不会替代药物研发,但可能将成功率从 10% 提升到 20-30%

四、蛋白质结构预测:AI 的诺贝尔时刻

  • 蛋白质折叠问题:从氨基酸序列预测三维结构,困扰生物学界 50 年
  • CASP 竞赛:蛋白质结构预测的"奥林匹克"
  • AlphaFold 2(DeepMind, 2020):在 CASP14 中碾压性获胜
    • 预测精度达到实验水平
    • 技术核心:注意力机制 + 进化信息 + 端到端训练
  • AlphaFold Protein Structure Database:2 亿+ 蛋白质结构预测,300 万+ 研究者使用
  • 2024 年诺贝尔化学奖:哈萨比斯(Demis Hassabis)与江珀(John Jumper)
  • AlphaFold 3(2024):预测蛋白质与 DNA、RNA、小分子的复合物结构
  • 其他参与者:
    • ESMFold(Meta):用大语言模型的方法预测蛋白质结构
    • RoseTTAFold(华盛顿大学 David Baker 团队)
    • Baker 因蛋白质设计同获 2024 诺贝尔化学奖

五、基因组学与精准医疗

  • AI 在基因组分析中的应用:变异检测、基因表达预测
  • DeepVariant(Google):用 CNN 进行基因变异检测
  • AlphaGenome(Google DeepMind, 2025):从 DNA 序列预测基因表达和表观遗传特征
    • 继 AlphaFold 之后,DeepMind 在基因组学的又一重大突破
    • 能够预测基因在不同细胞类型中的表达水平
    • 帮助理解非编码区变异如何影响疾病风险
  • 精准医疗:根据个人基因组定制治疗方案
  • AI + CRISPR:辅助基因编辑的靶点设计和脱靶预测
  • 肿瘤基因组学:AI 辅助癌症分型和用药指导

六、大语言模型进入生命科学

  • 蛋白质语言模型:ESM(Meta)系列,把蛋白质序列当"语言"处理
  • DNA/RNA 语言模型:Evo(Arc Institute)、Nucleotide Transformer
  • 多模态生物基础模型:整合序列、结构、功能信息
  • BioGPT、Med-PaLM:医学文献理解和临床问答

七、伦理与监管挑战

  • AI 误诊的责任归属:是医生的责任还是 AI 开发者的责任?
  • 医疗数据隐私:HIPAA、GDPR 对医疗 AI 的约束
  • 算法偏见:训练数据中种族、性别偏见对诊断的影响
  • AI 辅助决策 vs AI 自主决策:临床场景中的边界在哪里?
  • 全球监管差异:FDA、EMA、NMPA 的不同审批路径

参考资料

待补充