Skip to content

script_translator 在复杂 algebra / 简拼场景下可能将不可续接的长前缀候选排在可续接候选之前,是否考虑增加可选的全局 rerank 机制? #1156

@momadacoding

Description

@momadacoding

Is your feature request related to a problem? Please describe.
我的本地配置里面有一些模糊音的配置,还有一些首字母的简拼配置,我发现当我在输入「gengchajin」的时候,我想要的结果是「更差劲」,但是目前我使用的小狼毫结果是这样的:

Image

第二页是这样的:

Image 后面的 「ajin」 是一个无效的拼写; 目前看起来候选排序容易偏向“消费更长前缀的首词”,这样会导致一些“虽然吃掉了更长前缀,但后缀已经是死路”的候选,仍然排在“前缀稍短,但剩余后缀还能继续解释”的候选前面

Describe the solution you'd like
「更差劲」应该出现在第一屏

Describe alternatives you've considered
思路大致是:

  1. 复用现有 syllable graph / dictionary lookup 构建词图
  2. 收集从起点出发的首词候选
  3. 对每个首词候选计算:
    • 局部分数(词条权重 + 码长质量)
    • 正常拼写 / 缩写 / 纠错的奖惩
    • 是否完整覆盖整串的奖励
    • 从当前结束位置到输入末尾的最佳 suffix 分数
    • 如果后缀不可续接,则施加 dead-end penalty
  4. 最后按 final_score 做稳定排序

Additional context
上面的思路是我跟AI讨论的结果

Metadata

Metadata

Assignees

No one assigned

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions