Golang在不损坏数据的情况下截断具有特殊字符的字符串 [英] Golang truncate strings with special characters without corrupting data

查看:26
本文介绍了Golang在不损坏数据的情况下截断具有特殊字符的字符串的处理方法,对大家解决问题具有一定的参考价值,需要的朋友们下面随着小编来一起学习吧!

问题描述

我正在尝试编写一个函数来截断带有Golang中特殊字符的字符串。下面是一个例子

"H㐀〾▓朗퐭텟şüöžåйкл¤"

但是,我是根据允许的字符数来做的,并将其切到中间。这会导致数据损坏。

结果如下

H㐀〾▓朗퐭텟şüöžå�...

不应该在那里。如何检测这些特殊字符并根据这些字符的长度对其进行拆分?

package main

import (
    "fmt"
    "regexp"
)

var reNameBlacklist = regexp.MustCompile(`(&|>|<|/|:|
|
)*`)
var maxFileNameLength = 30

// SanitizeName sanitizes user names in an email
func SanitizeName(name string, limit int) string {

    result := name
    reNameBlacklist.ReplaceAllString(result, "")
    if len(result) > limit {
        result = result[:limit] + "..."
    }
    return result
}



func main() {
  str := "H㐀〾▓朗퐭텟şüöžåйкл¤"
    fmt.Println(str)

    strsan := SanitizeName(str, maxFileNameLength)
    fmt.Println(strsan)

}

推荐答案

切片字符串将它们视为其底层字节数组;切片运算符对字节索引而不是符文索引(每个可以是多个字节)进行操作。然而,range在字符串上迭代,但返回的索引是以字节为单位的。这使得您可以非常直接地完成您要做的事情(full playground example here):

func SanitizeName(name string, limit int) string {
    name = reNameBlacklist.ReplaceAllString(name, "")
    result := name
    chars := 0
    for i := range name {
        if chars >= limit {
            result = name[:i]
            break
        }
        chars++
    }
    return result
}

将对此进行更详细的说明on the Go blog


更新:

正如下面的评论者所建议的,您可以将任意的UTF8规范化为NFC(Normalization Form Canonical Composition),它在可能的情况下将一些多符文形式(如变音符号)组合为单符文形式。这将使用golang.org/x/text/unicode/norm添加一个步骤。此处的操场示例:https://play.golang.org/p/93qxI11km2f

func SanitizeName(name string, limit int) string {
    name = norm.NFC.String(name)
    name = reNameBlacklist.ReplaceAllString(name, "")
    result := name
    chars := 0
    for i := range name {
        if chars >= limit {
            result = name[:i]
            break
        }
        chars++
    }
    return result
}

这篇关于Golang在不损坏数据的情况下截断具有特殊字符的字符串的文章就介绍到这了,希望我们推荐的答案对大家有所帮助,也希望大家多多支持IT屋!

查看全文
登录 关闭
扫码关注1秒登录
发送“验证码”获取 | 15天全站免登陆