开发arXiv论文引擎机器人程序：基于RAG＋LangChain＋Chainlit＋ChromaDB

译者 | 朱先忠

审校 | 重楼

简介

在本文中，我将演示如何使用检索增强生成(RAG)技术构建语义研究论文引擎。具体地说，我将使用LangChain(https://www.langchain.com/)作为构建语义引擎的主要框架，以及OpenAI公司的大语言模型和ChromaDB开源向量数据库(https://www.trychroma.com/)。为了构建名称为Copilot的嵌入式Web应用程序，我将使用Chainlit中的Copilot插件功能，并结合Literal AI公司(https://literalai.com/)的可观察性特征。借助于该应用程序，用户可以更容易地查找相关论文，从而促进学术研究。用户还可以通过询问有关推荐论文的问题直接与内容互动。最后，我们将在应用程序中集成可观察性特征，以便跟踪和调试对LLM的调用。整个应用程序的架构如下图所示。

Copilot嵌入式语义研究论文应用程序整体架构

以下先来看一下我们将在本教程中介绍的所有内容的概览：

使用OpenAI、LangChain和ChromaDB开发RAG管道，以处理和检索arXiv API中最相关的PDF文档。
使用Copilot插件开发Chainlit应用程序，用于在线论文检索。
使用Literal AI公司的LLM可观察性特征进一步增强本应用程序功能。

Copilot嵌入式语义研究论文引擎的运行时快照

注意，本教程中的完整示例工程代码可以在GitHub地址https://github.com/tahreemrasul/semantic_research_engine处找到：

环境设置

首先，我们要创建一个新的conda环境：

conda create -n semantic_research_engine pythnotallow=3.10

开发arXiv论文引擎机器人程序：基于RAG＋LangChain＋Chainlit＋ChromaDB

简介

环境设置

相关阅读

最近更新

LLM | 偏好学习算法并不学习偏好排序

YoloCS：有效降低特征图空间复杂度

改进的检测算法：用于高分辨率光学遥感图像目标检测

迈向『闭环』| PlanAgent：基于MLLM的自动驾驶闭环规划新SOTA！