本文档在本课程期间持续更新,汇集各学员在直播课程、slido问卷、微信群中反馈的常见问题。

提问可返回Notion工作间,在「留言板」反馈🫲。请大家多多留言!

/

Q1: 本地数据是指我们现在线上的基本数据是吗?如何让个人自己的本地数据库被ai分析?(冰棒)

A:如果是本地数据的话,我们会通过dify的选择数据源-导入已有文本,导入一些已有的文本数据,因为本地的数据需要导入到知识库,去进行相关的一些嵌入构建,才能最终嵌入到一个 RAG的工作流里面,发挥RAG知识库的功能。

image.png

image.png

Q2: 文本分段是涉及切片技术吗?(will2)

A:文本分段会涉及到一些切片技术,它会有两个设置,一个是自动分段,清洗自动分段内部会进行一些规则的设置,不需要你人工去进行干预;另一种是自定义,它可能需要设置一些分隔符,或者设置切分的长度,甚至还需要一些其他设置。但可能目前大家直接使用「自动分段清洗」就够了。具体我们也会在第二节课详细介绍。

Q3: 请问FAQ和RAG是在一起的吗?结构上FAQ是会装在RAG里面吗?(will2)

A: FAQ是比较传统的智能问答的一个范式,就是频繁相似问。 RAG是侧重检索,会把用户提供的文本去进行一个分片,然后存成向量的形式,所以支持向量、全文检索、混合检索,通过相似性度量,然后进行某个相似问题的检索,同时支持设置返回的个数,还可以设置返回相似度的阈值。因此在检索这个步骤,FAQ是装嵌在RAG工作流里面的。在检索的过程中,即用户去实际去使用的时候,它会再根据用户提问的问题,然后去本地数据库进行查询。在这个查询过程中,它会用到一些类似于相似性度量的检索内容,包括一些向量的召回。还有一些Rerank模型可能会涉及到排序,但如果你的数据库的本身的文件数量比较少的话,那其实不太需要Rerank模型,只要应用向量检索的流程就可以达到一个比较好的效果。

Q4: 这节课我们学的RAG知识库搭建技术,未来可以不依托是dify或者Coze这些标准化平台吗?自己搭Agent也能用的吧(will2)

A:我们这节课是学习RAG搭建技术,目前是依托在已有的RAG平台上,那如果你是想要在自己本地去部署的话,那可能涉及到一些开发的技术,这个可能对没有开发能力的人来说是有很大难度的,所以我们会依托在 dify和coze,那如果你自己想要去搭一些类似于rag的本地部署,可以自行尝试。我们本次系列课不太涉及,但不排除我们会在未来计划的课程开设相关的内容。

Q5:我们跟智谱交流时,讨论到切片水平会对知识库文本的识别学习后的再生成能力影响非常大?这点不太理解,这里平台上的自动切片水平,是什么程度,高水平和低水平是什么概念?(徐鹏)

A: 这个切分的水平,是会影响最后的效果的,比如说它怎么去断句,“南京长江大桥”怎么去断句,它是会影响后面检索中的索引建立,最后影响后面检索的质量。

Q6:高级和经济的这两种索引模式,其内部差异就是切片技术(或切片解决方案)的差异吗?(徐鹏)