湖北姚家平水利枢纽工程信息化系统建设
招标文件澄清(一)
招标编号:HBSJ-202404SL-015012001
本项目于2025年1月17日在湖北省公共资源交易云平台网站(hbbidcloud.com)发布了招标公告。现对招标文件内容做如下澄清:
1、招标文件第五章发包人要求“3.2.4.2知识引擎”的内容修改为:
3.2.4.2 知识引擎
知识引擎包括三大内容,知识基础数据管理、知识检索与问答、知识推理。知识基础数据管理是利用自然语言处理NLP、大语言模型LLM、图像处理等技术,实现对知识数据的抽取,实现数据积累。知识检索与问答是结合数据治理的数据模型,利用RAG技术、知识图谱、LLM等实现对知识的检索、查询、问答应用。知识推理是基于已沉淀的数据,实现对工程数据的挖掘,分析数据之间相关性,提供数据聚类、近似计算、回归等方法,为工程管理决策提供辅助支撑。
3.2.4.2.1知识基础数据管理
(1)元数据智能抽取工具
元数据智能抽取工具是指利用自动化技术从各种类型的文档中自动识别和提取出结构化信息(即元数据)的过程。利用了自然语言处理(NLP)、机器学习(ML)以及人工智能(AI)等技术来识别和解析非结构化或半结构化内容,并从中抽取出有用的元数据。元数据智能抽取工具需要满足以下要求:
1)非结构化数据抽取
实现对如图纸图签、报告封面、会议纪要、函件等有固定格式文件的指定元数据提取,如标题、编号、工程编码等。
2)元数据处理
依据数据治理标准,对抽取的元数据进行后处理,实现数据标准化录入与消歧,满足数据治理要求。
(2)文件语料处理
语料处理是将原始文本转换为机器学习模型可以理解的形式。对语料的处理是实现对文件知识检索与问答的数据基础。语料处理的具体要求如下:
1)文件向量化
依据各文件处理模块处理结果,对文件结构、文段、表格、公式、图片进行不同形式的存储,并根据文段不同颗粒度进行向量化。向量化结果需存储至向量数据库进行管理。
2)结构化数据向量化
数据治理完成后,形成大量结构化数据,为方便对结构化数据的检索,需要对结构化数据的数据结构形成语义段并完成数据向量化。
3.2.4.2.2知识检索与问答
(1)结构化数据检索与问答
用户可通过自然语言直接获取结构化数据相关答案。具体应用如:查询工程特性信息,工程参数等。相关工具具体技术要求如下:
1)问题识别与改写
识别用户问题为查询结构化数据,并对问题进行修正,将问题中的关键词进行提取,对问题关键词进行改写,使得问题能够与知识库中的结构化数据能够匹配。
2)结构化数据匹配
将改写的问题进行向量化,与结构化数据的语义段向量化结果进行匹配,寻找到相关的结构化数据表。
3)问题转为查询语句
将问题转换为查询语句,与找到的结构化数据表进行计算,得到最终查询答案。
(2)非结构化数据检索与问答
用户通过自然语言对知识库中非结构化数据进行查询与问答。具体应用场景如查询工程相关报告内容、工程涉及规范内容、工程建设中相关会议纪要内容等。
招标代理机构:长江水利水电开发集团(湖北)有限公司
日期:2025年1月20日