Skip to content

Conversation

@matouxiao
Copy link

修改内容

本次PR增强了中文文本中数字的规范化处理,主要包括:

1. 连续中文数字处理

  • 十一二三11、12、13
  • 二二二三22、23
  • 十五十六15、16(用分隔)

2. 新增范围识别规则

  • 二十一二十二21-22(两个连续完整数字的范围)

3. 数字+英文混合处理

  • 四a级景区4a级景区

4. 单位词处理优化

  • 六万6万(数字与单位正确分离)

5. 日期关键词扩展

  • 在date关键词检测中添加财年识别

测试用例示例

  • 输入:"十一二三月份" → 输出:"11、12、13月份"
  • 输入:"四a级景区和六万游客" → 输出:"4a级景区和6万游客"
  • 输入:"二零二三财年" → 输出:"2023财年"(需配合日期识别)
  • 输入:"从二十一二十二章" → 输出:"从21-22章"

解决的问题

  1. 连续中文数字(如"十一二三")被错误识别为单个数字
  2. 数字与英文混合时无法正确转换
  3. 缺少常见的财务术语识别
  4. 数字范围表达不规范

影响范围

  • 仅修改数字转换规则,不影响其他文本处理
  • 向后兼容,原有转换规则保持不变

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

1 participant