悟空上下文感知公文纠错模型
这是 huggingface 平台的 safetensors 发布包。模型面向中文公文与正式文稿的上下文感知纠错场景,不只修正单个错别字,更关注整段文字在语义、数字、编号、标点和前后逻辑上的一致性。
本仓库仅发布 safetensors 权重;GGUF 版本独立发布,不与本仓库混合。
许可提示:本模型仅限个人非商业使用。任何企业、机关单位、事业单位、国有企业及其他组织,如需使用、部署、测试、集成或接入本模型,不论是否收费、是否内部使用、是否本地部署,均须事先获得
杭州知行通识信息科技有限公司书面授权。
使用许可
本模型对个人非商业使用免费;任何企业、机关单位、事业单位、国有企业及其他组织,如需使用、部署、测试、集成或接入本模型,不论是否收费、是否内部使用、是否本地部署,均需事先获得 杭州知行通识信息科技有限公司 书面授权。
模型介绍
传统中文错别字纠错,大多是围绕单句、单个词语、单个字的局部修正来展开。这类方法的优点是速度快,但缺点也很明显:一旦错误不是字形本身的问题,而是需要结合上下文、常识和前后结构去判断,它们往往就很难发现。
例如:
- “我今天走了1亿步。” 这句话单看语法并没有问题,但从现实常识判断,这显然是不成立的。
- 上一段是“(一)”,下一段本应是“(二)”,结果却写成了“(三)”或“(四)”。这种编号层级错误,只有放到上下文里才能判断出来。
- 某个词在局部看似合理,但放到整段公文目标、政策表述或上下文语义中,其实已经偏离了原意。
这正是本模型的核心价值所在:它不是只做“字面纠错”,而是做“上下文感知纠错”。模型能够结合整段内容,识别传统单句纠错难以覆盖的错误类型,包括数字异常、编号错位、逻辑衔接错误、表述偏差、近义误替换,以及公文中高频出现的结构性问题。
推荐提示词
请结合上下文纠正“待纠错正文”中的错别字、错误标点,以及编号、称谓、前后衔接等需要依赖上下文才能判断的问题。只输出纠正后的“待纠错正文”。
上文:
{这里填写待纠错正文之前的上下文}
待纠错正文:
{这里填写需要纠错的正文}
下文:
{这里填写待纠错正文之后的上下文}
效果对比
| 指标 | Qwen3.5-2B-Base |
当前模型 |
|---|---|---|
| 严格正确率 | 10.24% | 89.27% |
| 可接受正确率 | 13.66% | 94.15% |
可以看到,原始基座模型在这类任务上的处理能力不到 14%;而当前模型的可接受正确率已经达到 94.15%。这说明模型已经从“只能做局部纠错”,提升到了“能够做整段上下文纠错”的能力层级。
10个政府机关场景示例
以下示例均围绕政府工作报告、机关讲话稿、政策文件、会议材料等正式文本场景展开,覆盖短句、中段和长段纠错。
1. 短示例 | 语义误字纠正
错误片段:
回山,成为更多这的选择。
Qwen3.5-2B-Base 输出:
回山,成为更多这的选择。
当前发布版输出:
回山,成为更多人的选择。
这个例子很短,但错误非常直观。基座模型没有识别出“更多这的选择”里的异常用字;当前模型则能结合上下文,把它修正为更符合语义的“更多人的选择”。这类问题看似只是一个字,实际考验的是整句语义和上下文理解,而不只是字形匹配。
2. 长示例 | 经济目标与上下文纠正
错误片段:
今年经济社会发展主要预期目标是:地区生产总值增长7.0%—7.5%,财政收入减少6.5%,规模以上工业增加值增长7%,固定资产投资增长10%以上,社会消费品零售总额增长10%,城镇居民人均可支配收入减长7.5%,农村居民人均可支配收入增长10%,城镇登记失业率控制在4.5%以内,居民消费价格涨幅控制在3.5%左右,常住人口城镇化率提高1.1个百分点,主要节能减排指标控制在自治区下达目标范围以内。
Qwen3.5-2B-Base 输出:
今年经济社会发展主要预期目标是:地区生产总值增长7.0%—7.5%,财政收入减少6.5%,规模以上工业增加值增长7%,固定资产投资增长10%以上,社会消费品零售总额增长10%,城镇居民人均可支配收入增长7.5%,农村居民人均可支配收入增长10%,城镇登记失业率控制在4.5%以内,居民消费价格涨幅控制在3.5%左右,常住人口城镇化率提高1.1个百分点,主要节能减排指标控制在自治区下达目标范围以内。
实现上述目标,要抓好以下工作:
当前发布版输出:
今年经济社会发展主要预期目标是:地区生产总值增长7.0%—7.5%,财政收入增长6.5%,规模以上工业增加值增长7%,固定资产投资增长10%以上,社会消费品零售总额增长10%,城镇居民人均可支配收入增长7.5%,农村居民人均可支配收入增长10%,城镇登记失业率控制在4.5%以内,居民消费价格涨幅控制在3.5%左右,常住人口城镇化率提高1.1个百分点,主要节能减排指标控制在自治区下达目标范围以内。
在政府工作报告这类长段正式文本中,模型不仅能修正“财政收入减少6.5%”这类依赖上下文判断的错误,也能避免把下文内容错误带入输出。
3. 短示例 | 政策术语纠正
错误片段:
稳增长政策地效落实。市场活力不断释放。
修正后:
稳增长政策有效落实。市场活力不断释放。
能够识别政府工作报告里高频出现的固定政策表述,避免近形误字影响正式性。
4. 短示例 | 专有会议名称纠正
错误片段:
聚力拥抱新时代扬帆起航再出发 在第四届世界浙商会上的致辞
修正后:
聚力拥抱新时代扬帆起航再出发 在第四届世界浙商大会上的致辞
可识别会议名称、正式标题中的专名误写,减少机关材料标题层面的硬错误。
5. 中示例 | 民生表述纠正
错误片段:
五年来,我们切实1保障和改善民生,人民生活水平和质量有了新提高。
修正后:
五年来,我们切实保障和改善民生,人民生活水平和质量有了新提高。
对民生、就业、收入等常见政务表述中的插入噪声和数字串扰具有较强识别能力。
6. 中示例 | 机关称谓纠正
错误片段:
现在,我代表市人民政府向大会报告工作,请予审议,并请市来协各位委员和列席人员提出意见。
修正后:
现在,我代表市人民政府向大会报告工作,请予审议,并请市政协各位委员和列席人员提出意见。
可以纠正人大、政协、政府等机关材料里的称谓错误,适合报告、讲话稿和会议材料场景。
7. 中示例 | 政策文件名称纠正
错误片段:
《政府工作报告》中提及的扶贫惠农政策详见《洛宁县惠农政是汇编》《洛宁县扶贫到户政策汇编》。
修正后:
《政府工作报告》中提及的扶贫惠农政策详见《洛宁县惠农政策汇编》《洛宁县扶贫到户政策汇编》。
对政策汇编、附件名称、制度文件等正式文件名中的误写,能够给出更稳定的修正。
8. 中示例 | 并列称谓与标点纠正
错误片段:
各位代表,过去一年取得的成绩,是市委、市政府正确领导的结果,是县委带领全县人民团结奋斗的结果,是县人大、县政协监督支持的结果。在此,我谨代表县人民政府,向全县人民,向全体人大代表、政协委员,向各民主党派、工商联<无党派人士和各人民团体,向所有关心支持泌阳发展的各界朋友,表示衷心的感谢并致以崇高的敬意!
修正后:
各位代表,过去一年取得的成绩,是市委、市政府正确领导的结果,是县委带领全县人民团结奋斗的结果,是县人大、县政协监督支持的结果。在此,我谨代表县人民政府,向全县人民,向全体人大代表、政协委员,向各民主党派、工商联、无党派人士和各人民团体,向所有关心支持泌阳发展的各界朋友,表示衷心的感谢并致以崇高的敬意!
能够处理机关讲话稿中多并列称谓、符号误写和括注缺失等常见格式错误。
9. 长示例 | 安全生产表述纠正
错误片段:
营造和谐稳定社会环境。加快法治桂林建设,深入实施“七五”普法。深化平安桂林建设。完善公共安全体系,加强食品药品安全监管,争创广西食品安全城市,抓好安全生产、防灾减发工作,坚决遏制重特大安全事故发生。加强国防动员和后备力量建设,深入开展双拥共建。深化人民防空改革。继续推进全国文明城市创建工作。
修正后:
营造和谐稳定社会环境。加快法治桂林建设,深入实施“七五”普法。深化平安桂林建设。完善公共安全体系,加强食品药品安全监管,争创广西食品安全城市,抓好安全生产、防灾减灾工作,坚决遏制重特大安全事故发生。加强国防动员和后备力量建设,深入开展双拥共建。深化人民防空改革。继续推进全国文明城市创建工作。
对安全生产、应急管理、防灾减灾等政务高频表述中的关键术语误写也能准确纠正。
10. 长示例 | 报告标题纠正
错误片段:
一、2018年年工作回顾 过去的一年,我们高举习近平新时代中国特色社会主义思想伟大旗帜,全面贯彻落实党的十九大精神,深入贯彻落实习近平总书记对黑龙江省两次重要讲话,以及在深入推进东北振兴座谈会上的重要讲话和考察黑龙江的重要指示精神,坚决贯彻落实省委、省政府各项决策部署,在市委的坚强领导下,围绕“争当排头兵、建设新大庆、推动全面振兴全方位振兴”的奋斗目标,弹好“四重奏”、勇闯“四条路”,努力推动经济社会持续健康发展,较好地完成了十届人大三次会议确定的各项目标任务。
修正后:
一、2018年工作回顾 过去的一年,我们高举习近平新时代中国特色社会主义思想伟大旗帜,全面贯彻落实党的十九大精神,深入贯彻落实习近平总书记对黑龙江省两次重要讲话,以及在深入推进东北振兴座谈会上的重要讲话和考察黑龙江的重要指示精神,坚决贯彻落实省委、省政府各项决策部署,在市委的坚强领导下,围绕“争当排头兵、建设新大庆、推动全面振兴全方位振兴”的奋斗目标,弹好“四重奏”、勇闯“四条路”,努力推动经济社会持续健康发展,较好地完成了十届人大三次会议确定的各项目标任务。
即使在报告长段落开头,模型也能先识别标题级错误,再保持正文内容稳定输出,不把下文误带出来。
部署价值
过去如果希望较稳定地识别这类上下文错误,往往需要依赖更大的通用模型,代价通常体现在两方面:
- 推理成本高。
- 响应速度慢。
本模型基于 2B 规模底座训练,目标就是在尽可能低的部署成本下,把上下文纠错能力做出来。它更适合本地电脑、边缘设备和轻量化终端部署,也更适合对成本、时延和数据保密性有要求的场景。相比逐句检查的传统方式,它还支持直接对整段文字进行一次性纠错,更适合真实办公流程。
- Downloads last month
- 1,022