与阿拉伯文的项目合作,我遇到了一个有关于UX的问题:在阿拉伯文中,“أ”和“ا”在技术上是不同的字符,但实际上人们会互换使用它们。因此,用户在搜索“احمد”时应该仍能匹配到存储为“أحمد”的记录。
同样地,同样的情况可以应用到(阿拉伯文“أ”,“ا”,“إ”,“آ”)和(“ه”,“ ة”)
我想知道其他人是如何解决这种情况的:
- 是在写入时间(存储一个独立的普通化字段)或检索时间(在检索时进行普通化)进行普通化处理。
- 是在Python中、DB层面,还是两者兼而有之。
- 尼玛在大型数据库中索引或性能会有什么坑。
我很想知道其他人是如何解决这个问题的,是否有简单的“注解trick”或更复杂的解决方案。
评论 (0)