1. 概括
人工智能面临的一个关键挑战是创建能够通过探索新领域、识别复杂模式和发现大量科学数据中以前未见过的联系来自主推进科学理解的系统。在这项工作中,我们提出了 SciAgents,这种方法利用了三个核心概念:(1) 使用大规模本体知识图来组织和互连不同的科学概念,(2) 一套大型语言模型 (LLM) 和数据检索工具,以及 (3) 具有现场学习能力的多智能体系统。应用于生物启发材料后,SciAgents 揭示了以前被认为不相关的隐藏跨学科关系,实现了超越传统人为驱动研究方法的规模、精度和探索能力。该框架自主生成和完善研究假设,阐明潜在机制、设计原则和意想不到的材料特性。通过以模块化方式集成这些功能,智能系统可以发现材料、批评和改进现有假设、检索有关现有研究的最新数据并强调其优势和局限性。我们的案例研究展示了可扩展的能力,将生成式人工智能、本体论表征和多智能体建模结合起来,利用类似于生物系统的“智能群体”。这为材料发现提供了新途径,并通过揭示自然的设计原理加速了先进材料的开发。
图 1.此处开发的多智能体图推理系统概述
面板 a:图形构建概述,如MJ Buehler 等人在 2024 年所报告。视觉效果展示了从科学论文作为数据源到图形构建的进展,右侧的图像显示了图形的放大视图。
面板 b 和 c:介绍了两种不同的方法。在b中,基于预先编程的智能体之间交互序列的多智能体系统确保了一致性和可靠性。在c中,完全自动化、灵活的多智能体框架可动态适应不断变化的研究环境。这两个系统都利用全局知识图谱中的采样路径作为背景来指导研究想法的生成过程。每个智能体都扮演着专门的角色:本体论者定义关键概念和关系,科学家 1制定详细的研究提案,科学家 2扩展和完善提案,评论智能体进行彻底的审查并提出改进建议。在第二种方法中,规划师制定详细计划,助手检查生成的研究假设的新颖性。这种协作框架能够产生超越传统人为驱动方法的创新且全面的科学假设。
图 2:我们的多智能体模型的结果,以连接关键词“丝绸”和“能源密集型”的知识图谱为基础,展示了一种新颖的研究假设。此视觉概览显示,该系统生成了详细、组织良好的研究开发文档,其中包含多页和详细的文本(此处显示的示例包含 8,100 个单词)。
2. 代码
Notebooks 目录中的笔记本文件SciAgents_ScienceDiscovery_GraphReasoning_non-automated.ipynb
和SciAgents_ScienceDiscovery_GraphReasoning_automated.ipynb
分别对应于非自动化和自动化多智能体框架,如随附论文中所述。
自动化多代理模型在AutoGen中实现,AutoGen 是一个基于代理的 AI 建模的开源生态系统。
3. 要求
您需要安装 GraphReasoning 包,如下所述。此外,运行代码需要 (a) OpenAI 和 (b) Semantic Scholar API。
图形推理安装
直接从 GitHub 安装:
pip install git+https://github.com/lamm-mit/GraphReasoning
或者,可编辑:
pip install -e git+https://github.com/lamm-mit/GraphReasoning.git#egg=GraphReasoning
您可能需要 wkhtmltopdf:
sudo apt-get install wkhtmltopdf
图形文件:
from huggingface_hub import hf_hub_download
graph_name='large_graph_simple_giant.graphml'
filename = f"{graph_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component')
嵌入:
from huggingface_hub import hf_hub_download
embedding_name='embeddings_simple_giant_ge-large-en-v1.5.pkl'
filename = f"{embedding_name}"
file_path = hf_hub_download(repo_id='lamm-mit/bio-graph-1K', filename=filename, local_dir='./graph_giant_component')
4. 其他背景
图 3. 从初始关键词选择到最终文档的整个过程概述,遵循分层扩展策略,答案依次得到改进和完善,通过检索到的数据进行丰富,通过识别或关键建模、模拟和实验任务进行批评和修改。该过程从初始关键词识别或图中随机探索开始,然后进行路径采样以创建相关概念和关系的子图。该子图构成了生成 JSON 结构化输出的基础,包括假设、结果、机制、设计原则、意外属性、比较和新颖性。随后,每个组件都会根据个人提示进行扩展,以产生大量额外细节,形成一份综合草案。然后,该草案经过严格的审查过程,包括对建模和模拟优先事项(例如分子动力学)和实验优先事项(例如合成生物学)的修改。最终的综合草案与批判性分析一起形成了一份指导进一步科学探究的文件。
图 4. SciAgents 展示了生成材料信息学的框架,展示了由输入数据、问题和背景驱动的构思和推理的迭代过程。构思和推理的循环会产生预测结果,为新材料设计和属性提供见解。边缘上的视觉元素代表各种数据模式,例如图像、文档、科学数据、DNA 序列、视频内容和显微镜,说明了输入到此过程的各种信息来源。
图 5. 组织信息的本体知识图谱的可视化(左:整个图,右:子图)。
5. 原始论文
@article{ghafarollahi2024sciagentsautomatingscientificdiscovery,
title={SciAgents: Automating scientific discovery through multi-agent intelligent graph reasoning},
author={Alireza Ghafarollahi and Markus J. Buehler},
year={2024},
eprint={2409.05556},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2409.05556},
}
@article{buehler2024graphreasoning,
author={Markus J. Buehler},
title={Accelerating Scientific Discovery with Generative Knowledge Extraction, Graph-Based Representation, and Multimodal Intelligent Graph Reasoning},
journal={Machine Learning: Science and Technology},
year={2024},
url={http://iopscience.iop.org/article/10.1088/2632-2153/ad7228},
}