第275章写完了~(第5/7页)

章节报错

25 本章小结

本章主要介绍了本项目中使用的四种关键技术与模型。这些技术主要基于大型语言模型，并且

依赖于 rag 技术的原理。介绍了知识抽取技术，它利用先进的自然语言处理技术从文本中提取有意

义的信息和知识，随后讨论了文本处理中所使用的 rag 技术，该技术可以显著提高大型语言模型在

专业领域的性能，增强信息检索的准确性和效率。最后探讨了在文本比对过程中所需的相似度计算

方法，这对于评估文本之间的相似程度至关重要。

了解清楚数据获取来源后，进行数据采集，数据采集的方法包括自动化和手动两种方式：

自动化采集：利用编写的 python 脚本通过 api 接口自动从上述数据库和期刊中下载文献和元

数据，部分代码如图 32 所示。这种方法的优点是效率高，可以大量快速地收集数据。使用

beautifup 和 reests 库从开放获取的期刊网站爬取数据。

上一页章节目录下一页

最新科幻小说