本文档在本课程期间持续更新,汇集各学员在直播课程、slido问卷、微信群中反馈的常见问题。
提问可返回Notion工作间,在「留言板」反馈🫲。请大家多多留言!
/
A:如果是本地数据的话,我们会通过dify的选择数据源-导入已有文本,导入一些已有的文本数据,因为本地的数据需要导入到知识库,去进行相关的一些嵌入构建,才能最终嵌入到一个 RAG的工作流里面,发挥RAG知识库的功能。


A:文本分段会涉及到一些切片技术,它会有两个设置,一个是自动分段,清洗自动分段内部会进行一些规则的设置,不需要你人工去进行干预;另一种是自定义,它可能需要设置一些分隔符,或者设置切分的长度,甚至还需要一些其他设置。但可能目前大家直接使用「自动分段清洗」就够了。具体我们也会在第二节课详细介绍。
A: FAQ是比较传统的智能问答的一个范式,就是频繁相似问。 RAG是侧重检索,会把用户提供的文本去进行一个分片,然后存成向量的形式,所以支持向量、全文检索、混合检索,通过相似性度量,然后进行某个相似问题的检索,同时支持设置返回的个数,还可以设置返回相似度的阈值。因此在检索这个步骤,FAQ是装嵌在RAG工作流里面的。在检索的过程中,即用户去实际去使用的时候,它会再根据用户提问的问题,然后去本地数据库进行查询。在这个查询过程中,它会用到一些类似于相似性度量的检索内容,包括一些向量的召回。还有一些Rerank模型可能会涉及到排序,但如果你的数据库的本身的文件数量比较少的话,那其实不太需要Rerank模型,只要应用向量检索的流程就可以达到一个比较好的效果。
A:我们这节课是学习RAG搭建技术,目前是依托在已有的RAG平台上,那如果你是想要在自己本地去部署的话,那可能涉及到一些开发的技术,这个可能对没有开发能力的人来说是有很大难度的,所以我们会依托在 dify和coze,那如果你自己想要去搭一些类似于rag的本地部署,可以自行尝试。我们本次系列课不太涉及,但不排除我们会在未来计划的课程开设相关的内容。
A: 这个切分的水平,是会影响最后的效果的,比如说它怎么去断句,“南京长江大桥”怎么去断句,它是会影响后面检索中的索引建立,最后影响后面检索的质量。