招标
吉林省气象信息网络中心2022年山洪地质灾害防治气象保障工程纸质气象资料数字化更正公告
气象资料风自记纸气温自记纸特征元数据库结合本省气象数据安全管理和服务流程本地化标识注册流程数据标识统计模块服务标识升级改造研发与国家级安全标志信息同步功能标识资源库历史档案利用信息的录入气象数据服务安全监管元数据提取相应数据集跟踪坐标数据文件迹线扫描系统参数环境台站参数迹线识别对照检查实时对照检查迹线数据经过质量检查软件识别对比检查控制数据文件内部检查标准小时和分钟数据文件数据转换风数据文件迹线提取元数据库图谱建设知识图谱库基于气象档案主题词表库图像处理文字识别特征标引元数据抽取人工录入地面气象档案文件元数据地面气象记录档案知识图谱模型知识加工水印加密及数据关节图像预处理倾斜校正去噪去污剪裁翻转版面处理版面分析版面分割版面重构还原碎片化处理基本元数据编目著录档案元数据系统著录校验检查系统人工双重质控多维度校验人工比对图谱加工图谱融合实体链接消歧共指消解质量评测图谱补全评测集分词词性标注命名实体识别关系抽取属性抽取数据挂接数字化图像的一一对应关系快速检索安全浏览风向迹线跟踪数据文件转换生成风速风向的数据文件档案数据利用安全监管标识子系统气象数据标识体系档案数据标识平台标识应用功能和流程档案数据标识符利用省级数据服务气象数据标识管理标识安全注册模块标识安全审批模块安全监管查询批量安全导入模块安全标志信息同步模块系统安全配置模块标识批量注册处理
金额
-
项目地址
吉林省
发布时间
2022/07/04
公告摘要
项目编号jlcttc-22yqtfw2015
预算金额-
招标联系人陈女士13578751581
招标代理机构吉林省机械设备成套招标公司
代理联系人刘铁英18946795392
标书截止时间-
投标截止时间-
公告正文
一、项目基本情况
原公告的采购项目编号:JLCTTC-22YQTFW2015      
原公告的采购项目名称:2022年山洪地质灾害防治气象保障工程纸质气象资料数字化      
首次公告日期:2022年06月16日      
二、更正信息
更正事项:采购文件
更正内容:
变更通知
招标文件编号: JLCTTC-22YQTFW2015
项目名称:2022年山洪地质灾害防治气象保障工程纸质气象资料数字化
原招标文件: 二、项目技术规范
(一)总体要求
受委托公司需按照国家局关于风自记纸、气温自记纸图像扫描处理技术规定和图像数据集制作技术规范等相关技术要求,完成对达因型风自记纸和气温自记纸数据的提取和数字化工作。
受委托公司利用已经扫描完成的地面气象记录类档案进行特征元数据及知识图谱库建设工作。
受委托公司利用气象数据开放清单及本省补充目录,结合本省气象数据安全管理和服务流程,建设本地化标识注册流程,完成数据标识与服务标识相关应用功能的研发和升级,研发与国家级安全标志信息同步功能(包括数据标识属于目录内、外的标志信息以及相关服务情况信息等);深化本地标识资源库建设,继续完成历史档案利用信息的录入;研发数据标识统计模块功能,满足本省气象数据服务安全监管需要。
受委托公司在数字化工作过程中,须按照《档案数字化安全外包管理规范》以及国家相关质量管理体系及服务管理体系的要求,建立数字化质量保障体系,数字化结果集最终准确率不低于中国气象局上报要求,并上报吉林省气象信息网络中心。
(二)风自记纸扫描、提取和数据集制作技术规范
通过对风自记纸图像风速和风向迹线的识别和跟踪,形成相应的跟踪坐标数据文件,将跟踪数据文件转换生成风速风向的数据文件。
1.迹线扫描和提取
(1)按照风自记纸自动识别要求,构建我省系统参数环境,包括台站参数、历史数据(风小时数据、日数据等)入库等;
(2)迹线识别与数据提取。
按照中国局要求对达因风自记纸进行扫描,扫描分辨率不低于300dpi。保证自记纸图像清晰、完整、不失真,图像效果最接近档案原貌。根据实际需要对图像进行拼接、旋转及纠偏、裁边、去污等处理,避免重张、倾斜、模糊等图像质量问题。对图像进行裁边处理时,应在距页边最外延至少2至3毫米处裁剪图像。
(3)迹线识别对照检查
利用中国局下发软件识别结果,及二次识别结果,与A6、A0文件的定时、极值数据进行实时对照检查,人工干预修正缺、漏或者不合理的迹线数据。
(4)质量检查
利用软件识别形成的风自记纸数字化处理结果文件进行对比检查、控制,对检测出数据存在的疑误,数字化处理过程是否连续等信息,采取人机结合的方式逐一对数据进行判断。包括:是否存在缺测、重合数据;分钟、小时、日数据是否完整;时间和数据是否连续;数据文件内部检查,风向风速要配套,如当风速为0时,风向为C,还可以和现有的A6/A7文件进行比较,比较整点的风向风速,比较最大风的风向风速。
针对集中出现的问题和错误,分析成因,重新提取数据。最终形成质量可靠的数据文件。
形成标准小时和分钟数据文件,制作相应数据集。
利用经过质量检查后跟踪数据文件完成数据转换,形成标准小时和分钟风数据文件,制作相应数据集。
2.数字化成果总结上报
所提取数据经各级质量检查合格后,将相关数据形成数据集,总结上报。
(三)气温自记纸数据提取和数据集制作技术规范
通过对气温自记纸图像的识别和跟踪,形成相应的跟踪坐标数据文件。
1.迹线提取
(1)按照气温自记纸识别要求,构建我省系统参数环境,包括台站参数、历史数据(气温小时数据、日数据等)入库等;
(2)识别与数据提取。
按照中国局要求对气温自记纸进行识别,根据实际需要对图像进行拼接、旋转及纠偏、裁边、去污等处理,避免重张、倾斜、模糊等图像质量问题。
(3)迹线识别对照检查
利用中国局下发软件识别结果,及二次识别结果,与A6、A0文件的定时、极值数据进行实时对照检查,人工干预修正缺、漏或者不合理的迹线数据。
(4)质量检查
对软件识别形成的气温自记纸数字化处理结果文件进行对比检查、控制,对检测出数据存在的疑误,数字化处理过程是否连续等信息,采取人机结合的方式逐一对数据进行判断。正确率不低于99.4%。
针对集中出现的问题和错误,分析成因,重新提取数据。最终形成质量可靠的数据文件,制作相应数据集。
2.数字化成果总结上报
所提取数据经各级质量检查合格后,将相关数据形成数据集,总结上报。
 
(四)元数据库及图谱建设
利用已经扫描完成的地面气象记录类档案进行特征元数据及知识图谱库建设工作,针对地面气象月报表数字化扫描图像,基于气象档案主题词表库,通过图像处理,文字识别、特征标引、元数据抽取以及人工录入等方式,提取地面气象档案文件元数据及特征元数据,基于地面气象记录档案知识图谱模型,通过知识加工、标引,建立地面气象档案知识图谱库,并与已经形成的国省气象记录档案知识图谱库进行融合及补全,同时对数字化图像进行水印加密及数据关节,相关文件元数据库、特征元数据库、知识图谱库全部发布到气象档案业务系统搜索引擎中,实现统一存储、统一管理以及统一搜索。
具体技术方案如下:
图像处理
图像预处理包括图像的倾斜校正、去噪去污、剪裁、翻转等
版面处理
版面处理包括版面分析预处理、版面分割与理解、版面重构还原
文字识别
在版面分析之后,对分离出的文字区域进行定位与识别
元数据提取
进行档案内容碎片化处理,提取基本元数据及特征元数据
编目著录
进行卷内档案元数据编目及系统著录,同时通过校验检查系统进行系统和人工双重质控,依据校验规则库分类进行多维度校验和人工比对校验
图谱加工
依据气象记录档案知识图谱模型以及气象档案主题词表,从数据源中提取出实体、属性、关系数据,在此基础上形成本体化的知识表达
图谱融合
进行实体链接、消歧和共指消解,判断国省知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义,并将该实体指称项链接到图谱库中对应实体
质量评测及图谱补全
选取评测集,对知识图谱库及元数据库的准确性、一致性、完整性、时效性进行质量评测,并针对评测结果进行图谱补全。检查方法包含人工抽样检测法、一致性检测法、基于外部知识的对比评估法。
查准率 = 提取出的正确信息条数/提取出的所有信息条数
查全率 = 提取出的正确信息条数/样本中应该被提取到的所有信息条数
F1值(查准率和查全率的调和平均值) = 查准率 * 查全率 * 2 /(查准率 + 查全率)
分词、词性标注模型F1值不低于0.95,命名实体识别、关系抽取、属性抽取模型F1值不低于0.85
数字化图像水印加密及数据挂接
对数字化图像进行水印加密,建立卷内文件元数据与加密后数字化图像的一一对应关系,实现数字化图像的快速检索及安全浏览
索引发布
发布到气象档案业务系统搜索引擎中,实现统一存储、统一管理以及统一检索

 
”。现变更为:
“二、项目技术规范
(一)总体要求
受委托公司需按照国家局关于风自记纸、气温自记纸图像扫描处理技术规定和图像数据集制作技术规范等相关技术要求,完成对达因型风自记纸和气温自记纸数据的提取和数字化工作。
受委托公司利用已经扫描完成的地面气象记录类档案进行特征元数据及知识图谱库建设工作。
受委托公司利用气象数据开放清单及本省补充目录,结合本省气象数据安全管理和服务流程,建设本地化标识注册流程,完成数据标识与服务标识相关应用功能的研发和升级,研发与国家级安全标志信息同步功能(包括数据标识属于目录内、外的标志信息以及相关服务情况信息等);深化本地标识资源库建设,继续完成历史档案利用信息的录入;研发数据标识统计模块功能,满足本省气象数据服务安全监管需要。
受委托公司在数字化工作过程中,须按照《档案数字化安全外包管理规范》以及国家相关质量管理体系及服务管理体系的要求,建立数字化质量保障体系,数字化结果集最终准确率不低于中国气象局上报要求,并上报吉林省气象信息网络中心。
(二)风自记纸扫描、提取和数据集制作技术规范
通过对风自记纸图像风速和风向迹线的识别和跟踪,形成相应的跟踪坐标数据文件,将跟踪数据文件转换生成风速风向的数据文件。
1.迹线扫描和提取
(1)按照风自记纸自动识别要求,构建我省系统参数环境,包括台站参数、历史数据(风小时数据、日数据等)入库等;
(2)迹线识别与数据提取。
按照中国局要求对达因风自记纸进行扫描,扫描分辨率不低于300dpi。保证自记纸图像清晰、完整、不失真,图像效果最接近档案原貌。根据实际需要对图像进行拼接、旋转及纠偏、裁边、去污等处理,避免重张、倾斜、模糊等图像质量问题。对图像进行裁边处理时,应在距页边最外延至少2至3毫米处裁剪图像。
(3)迹线识别对照检查
利用中国局下发软件识别结果,及二次识别结果,与A6、A0文件的定时、极值数据进行实时对照检查,人工干预修正缺、漏或者不合理的迹线数据。
(4)质量检查
利用软件识别形成的风自记纸数字化处理结果文件进行对比检查、控制,对检测出数据存在的疑误,数字化处理过程是否连续等信息,采取人机结合的方式逐一对数据进行判断。包括:是否存在缺测、重合数据;分钟、小时、日数据是否完整;时间和数据是否连续;数据文件内部检查,风向风速要配套,如当风速为0时,风向为C,还可以和现有的A6/A7文件进行比较,比较整点的风向风速,比较最大风的风向风速。
针对集中出现的问题和错误,分析成因,重新提取数据。最终形成质量可靠的数据文件。
形成标准小时和分钟数据文件,制作相应数据集。
利用经过质量检查后跟踪数据文件完成数据转换,形成标准小时和分钟风数据文件,制作相应数据集。
2.数字化成果总结上报
所提取数据经各级质量检查合格后,将相关数据形成数据集,总结上报。
(三)气温自记纸数据提取和数据集制作技术规范
通过对气温自记纸图像的识别和跟踪,形成相应的跟踪坐标数据文件。
1.迹线提取
(1)按照气温自记纸识别要求,构建我省系统参数环境,包括台站参数、历史数据(气温小时数据、日数据等)入库等;
(2)识别与数据提取。
按照中国局要求对气温自记纸进行识别,根据实际需要对图像进行拼接、旋转及纠偏、裁边、去污等处理,避免重张、倾斜、模糊等图像质量问题。
(3)迹线识别对照检查
利用中国局下发软件识别结果,及二次识别结果,与A6、A0文件的定时、极值数据进行实时对照检查,人工干预修正缺、漏或者不合理的迹线数据。
(4)质量检查
对软件识别形成的气温自记纸数字化处理结果文件进行对比检查、控制,对检测出数据存在的疑误,数字化处理过程是否连续等信息,采取人机结合的方式逐一对数据进行判断。正确率不低于99.4%。
针对集中出现的问题和错误,分析成因,重新提取数据。最终形成质量可靠的数据文件,制作相应数据集。
2.数字化成果总结上报
所提取数据经各级质量检查合格后,将相关数据形成数据集,总结上报。
 
(四)元数据库及图谱建设
利用已经扫描完成的地面气象记录类档案进行特征元数据及知识图谱库建设工作,针对地面气象月报表数字化扫描图像,基于气象档案主题词表库,通过图像处理,文字识别、特征标引、元数据抽取以及人工录入等方式,提取地面气象档案文件元数据及特征元数据,基于地面气象记录档案知识图谱模型,通过知识加工、标引,建立地面气象档案知识图谱库,并与已经形成的国省气象记录档案知识图谱库进行融合及补全,同时对数字化图像进行水印加密及数据关节,相关文件元数据库、特征元数据库、知识图谱库全部发布到气象档案业务系统搜索引擎中,实现统一存储、统一管理以及统一搜索。
具体技术方案如下:
图像处理
图像预处理包括图像的倾斜校正、去噪去污、剪裁、翻转等
版面处理
版面处理包括版面分析预处理、版面分割与理解、版面重构还原
文字识别
在版面分析之后,对分离出的文字区域进行定位与识别
元数据提取
进行档案内容碎片化处理,提取基本元数据及特征元数据
编目著录
进行卷内档案元数据编目及系统著录,同时通过校验检查系统进行系统和人工双重质控,依据校验规则库分类进行多维度校验和人工比对校验
图谱加工
依据气象记录档案知识图谱模型以及气象档案主题词表,从数据源中提取出实体、属性、关系数据,在此基础上形成本体化的知识表达
图谱融合
进行实体链接、消歧和共指消解,判断国省知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义,并将该实体指称项链接到图谱库中对应实体
质量评测及图谱补全
选取评测集,对知识图谱库及元数据库的准确性、一致性、完整性、时效性进行质量评测,并针对评测结果进行图谱补全。检查方法包含人工抽样检测法、一致性检测法、基于外部知识的对比评估法。
查准率 = 提取出的正确信息条数/提取出的所有信息条数
查全率 = 提取出的正确信息条数/样本中应该被提取到的所有信息条数
F1值(查准率和查全率的调和平均值) = 查准率 * 查全率 * 2 /(查准率 + 查全率)
分词、词性标注模型F1值不低于0.95,命名实体识别、关系抽取、属性抽取模型F1值不低于0.85
数字化图像水印加密及数据挂接
对数字化图像进行水印加密,建立卷内文件元数据与加密后数字化图像的一一对应关系,实现数字化图像的快速检索及安全浏览
索引发布
发布到气象档案业务系统搜索引擎中,实现统一存储、统一管理以及统一检索

 
(五)建设档案数据利用安全监管标识子系统
1.建设目标
基于前期档案数据标识建设成果,结合气象数据开放清单及本省补充目录,本省气象数据安全管理和服务流程,完成吉林省档案数据利用安全监管标识子系统功能研制及升级改造;继续开展历史档案利用信息录入,完善本地标识资源库建设;针对本省气象数据服务安全监管需求,研发数据标识统计模块功能,实现档案数据及使用信息的统计分析处理,满足监管需要。
按照气象数字标识体系的整体规划,基于吉林省档案数据标识建设成果,利用气象数字资源标识(MOID)技术,对接本省气象数据服务安全监管需求,开展本地化标识管理平台应用功能研发和升级,继续开展气象数据服务信息的录入,进一步提升气象数据安全管理和服务能力。
2.建设内容
(1)结合本省数据开放补充目录及省级气象数据服务安全监管需求,研发省级数据服务安全监管功能。
(2)根据总体建设要求,完善本地标识资源库建设。
(3)研发本省数据标识安全管理统计分析功能,提升数据服务安全监管手段。
3. 技术方案
档案数据利用安全监管标识建设基于本省气象数据标识体系底层支撑,在现有吉林省档案数据标识平台的基础上,针对本省气象数据安全管理和使用的建设需求,升级和研发标识应用功能和流程,进一步完善气象数据标识体系对档案数据标识的支撑,满足档案数据标识符利用与安全监管的服务需求。
 
档案数据利用安全监管标识建设整体框架
 
(1) 研发省级数据服务安全监管功能
基于气象数据开放清单及本省补充目录,结合本省气象数据安全管理和服务需求,开展吉林省气象数据标识管理系统功能研发和升级改造,建设标识安全注册模块、标识安全审批模块、安全监管查询模块、批量安全导入模块、安全标志信息同步模块、系统安全配置模块六大功能模块,完善本地化标识注册流程,实现省级数据安全管理和服务能力的进一步提升。
(2) 完善本地标识资源库建设
根据总体建设要求,继续开展历史档案利用信息的录入,通过批量注册模板补充录入数据集注册信息和本省历史数据服务信息,导入标识平台完成标识批量注册处理,实现对历史数据服务信息的查询和管理,完善本地标识资源库建设。
(3) 研发本省数据标识安全管理统计分析功能
研发针对本省数据标识安全管理的统计分析功能,实现共享目录范围内、外的气象资料和产品数据标识与服务情况的统计分析处理,升级平台现有统计功能管理维度,满足对本省气象档案数据流动使用情况的有效监管。

开标时间延期至2022年7月18日13时”。
其它不变,特此变更。
联系人:刘铁英
电话:18946795392
吉林省机械设备成套招标公司                              2022年7月4日
更正日期:2022年07月04日 
三、其他补充事宜
四、凡对本次公告内容提出询问,请按以下方式联系。
1.采购人信息
名 称:吉林省气象信息网络中心     
地址:长春市        
联系方式:陈女士13578751581      
2.采购代理机构信息
名 称:吉林省机械设备成套招标公司            
地 址:长春市西中华路160号            
联系方式:刘铁英18946795392            
3.项目联系方式
项目联系人:陈女士
电 话:  13578751581
返回顶部