OpenAI领衔，英伟达押注，这个AI制药赛道藏不住了

访客 2024-05-31 09:29:31 86043 抢沙发

默认

前不久，赛诺菲宣布和OpenAI合作，与AI药企Formation Bio一道构建一款AI驱动的药物开发软件。

这是OpenAI首次和药企大规模全流程合作，被认为是OpenAI大举进入生物医药的信号。

根据官方的说法，这次合作将汇集制药界一流的数据、软件和调整模型，开发贯穿药物开发全周期的定制化专属解决方案。

要知道，OpenAI的拿手好戏是聊天机器人，例如近期发布的GPT-4o，能够自然而富有情感地和人类进行对话。

无独有偶，OpenAI此前和Moderna宣布合作，双方共同创造了750个GPTs，覆盖了公司业务的各个环节，包括法律、研究、制造和商业化。

两笔合作是否意味着，生物医药的对话助手开始走入人们的视野？

相较于普通AI模型，生物医药对话模型的前沿产品哪儿，又能够解决什么样的困难？

01 为什么出现对话AI模型？

当前绝大多数的AI+药物研发模型都是高度专业化、用于特定任务的模型。

这些模型通常有较高的学习成本，操作通常比较复杂，并且这些需要针对每个特定应用进行微调，从而阻止任务之间的迁移和泛化。

ChatGPT等大语言模型开始蓬勃发展，给了模型开发者们不少灵感。

试想一下，如果化学家能够直接和大语言模型对话，仅通过多轮聊天就能让AI帮助生成分子，并且能进一步进行试验，并预测各种理化性质，是不是能够极大地简化药物发现流程？

前不久，mRNA头部公司BioNtech收购的人工智能公司InstaDeep发布了一款ChatNT，公司表示这是*个对用于 DNA、RNA 和蛋白质任务的多模式聊天助理。

简单来说，ChatNT建立在经过微调后的通用大语言模型上（Meta的LLaMA模型），而后在大量科学文本和生物分子序列上进行过训练，包含总共 6.05 亿个 DNA 标记（即 36 亿个碱基对）和 2.73 亿个英文标记的数据集。

该模型能够理解单词与分子之间的关系，ChatNT不仅能理解生活语言，还能理解人类对话。它使用大量聊天数据进行训练，可以与用户进行互动。

据介绍，该模型能够回答关于DNA序列的40多个任务，涵盖了各种生物过程和模式。

这意味着研究人员可以为 ChatNT 提供 DNA 序列，并直接提出问题，例如“这个 DNA 序列是否可能使蛋白质发出绿光？”或“这个基因可能在哪些组织中活跃？”。

图：ChatNT的使用界面

总结就是 ChatNT能够对蛋白质、DNA、RNA等生物学分子执行多类任务。

蛋白质：ChatNT能检查蛋白质序列，并且预测其功能，可能有助于我们了解生物过程，甚至有助于设计新药。

DNA：DNA 不仅仅是静态遗传代码；一些区域控制着基因活动。在这方面，ChatNT识别调控元件，从而能够了解基因是如何开启和关闭的。

RNA：RNA 是 DNA 和蛋白质之间的信使，在加工过程中会发生不同的修饰。因此，通过分析 RNA 序列，ChatNT 可以揭示此过程中涉及的复杂步骤，从而深入了解基因表达。

多任务：ChatNT能够不断扩展自身，以便现在可以个性化医疗，以后诊断疾病，甚至在未来设计治疗方法。

实际上除开 ChatNT之外，2023年以来业界已经发布了多款关于生物医学的对话模型，尤其集中在科研领域，例如BioGPT、SciBite Chat等。

除开文本为主的医学文献对话模型外，业界也出现了例如蛋白质语言模型、化合物生成、临床试验等能执行复杂任务的AI对话助手。

02 生物医药对话模型，难点在哪儿？

实际上，当前对话大模型在生物医药领域还不是主流AI模型，仍然面临着不少困难。

首先，通用大语言模型以文本信息为主，这些数据有明确的定义且有顺序。但是生物和医药数据通常是结构化和非结构化的数据，它们复杂且没有组织，将这些数据处理成语言模型能够理解的形式非常重要。

生物数据往往包含多种模态的信息，如文本、图像、实验数据等。大语言模型需要在不同模态间进行有效的信息转换和融合，这对其跨模态理解能力提出了挑战。

其次，涉及到复杂的数据大语言模型可能无法捕捉和理解。例如对于药物研发非常重要的QSAR（定量结构-活性关系），因为这类关系极为复杂，语言模型无法直接描述，许多相互作用可能过于微妙而难以捕捉。

还有，AI幻觉现象仍然是较大的阻碍，生物对话系统在记忆和理解能力上存在局限性。这些系统可能会记住错误的知识，或者在理解能力不足的情况下产生偏见。

当然，很多团队已经意识到了这类问题，并且希望给出一定的解决方案。例如，ChIP-GPT就是一个专门针对生物医学数据库记录提取的大型语言模型，它在理解生物医学数据库中的复杂记录方面取得了显著成效。

除此之外，不少公司对于使用对话大模型有非常多的顾虑，尤其是大型制药公司。

一份针对200多名生命科学从业者的调查显示，超六成的Top20的大型制药公司已禁止员工使用 OpenAI 的生成式人工智能工具 ChatGPT，原因主要是担心敏感的内部数据可能泄露给竞争对手。

对于制药公司而言，内部数据的管控一般非常严格，任何数据事故的后果都比任何可预见的结果更为严重，尤其是涉及高度敏感的专利和临床数据。而此前ChatGPT有信息泄露的前科，被曝出许某些用户查看其他用户的聊天记录。

尽管如此，许多生命科学专业人士仍在定期使用 ChatGPT。超过一半的受访者表示，他们每月至少使用几次，超过四分之一的受访者每周使用该工具几次，甚至每天都使用。

这或许也是为什么Moderna和赛诺菲更愿意和OpenAI进行合作，不仅能够定制化GPT，还能极大程度地保护内部数据。

当合作的窗口被打开，这或许是大语言模型公司和制药企业可以效仿的案例。

03 对话生物模型的未来

即使到现在，生物医药版本的ChatGPT们并不是AI制药的主流。

对于生物学和药物研发这样复杂的工程，当前生物医药版本的ChatGPT对于复杂问题预测和模拟的能力有限。

况且，这类模型受限于自身的知识水平，无法回答开放边界的问题。这意味着它们只能处理已知的、封闭域的问题，而无法应对未知或开放性问题。

我更想讨论的是，对话机器人/AI Agents未来会不会成为生物学家和药化专家与AI进行深度互动的工具？

通过聊天，对话大模型能够使复杂的生物医药知识变得直观，使每个人都能轻松获得储存在里面的知识。

而大语言模型有潜力执行非常广泛的下游任务，而不需要对特定条件进行调整，个性化医疗有可能因此而大幅度受益。

但想象一下，如果未来科学家们能够通过与AI交互和迭代的方式获得查询的答案，拓展人类知识的边界，这样的图景正在缓缓展开。

标签：模型数据

分享

发表评论取消回复

评论列表（暂无评论，86043人围观）参与讨论

还没有评论，来说两句吧...