Redian新闻
>
8种超简单的Golang生成随机字符串方式

8种超简单的Golang生成随机字符串方式

公众号新闻


作者:华为云开发者联盟-张俭

链接:https://my.oschina.net/u/4526289/blog/10676267

前言

这是 **icza** 在 StackOverflow 上的一篇高赞回答,质量很高,翻译一下,大家一起学习
问题是:go 语言中,有没有什么最快最简单的方法,用来生成只包含英文字母的随机字符串
icza 给出了 8 个方案,最简单的方法并不是最快的方法,它们各有优劣,末尾附上性能测试结果:

1. Runes

比较简单的答案,声明一个 rune 数组,通过随机数选取 rune 字符,拼接成结果
package approach1

import (
"fmt"
"math/rand"
"testing"
"time"
)

var letters = []rune("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ")

func randStr(n int) string {
b := make([]rune, n)
for i := range b {
b[i] = letters[rand.Intn(len(letters))]
}
return string(b)
}

func TestApproach1(t *testing.T) {
rand.Seed(time.Now().UnixNano())
fmt.Println(randStr(10))
}

func BenchmarkApproach1(b *testing.B) {
rand.Seed(time.Now().UnixNano())
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}
2. Bytes
如果随机挑选的字符只包含英文字母,我们可以直接使用 bytes,因为在 UTF-8 编码模式下,英文字符和 Bytes 是一对一的(Go 正是使用 UTF-8 模式编码)
所以可以把
var letters = []rune("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ")

用这个替代

var letters = []byte("abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ")

或者更好

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"
现在我们有很大的进展了,我们把它变为了一个常数,在 go 里面,只有 string 常数,可并没有 slice 常数。额外的收获,表达式 len(letters) 也变为了一个常数(如果 s 为常数,那么 len(s) 也将是常数)
我们没有付出什么代码,现在 letters 可以通过下标访问其中的 bytes 了,这正是我们需要的。
package approach2

import (
"fmt"
"math/rand"
"testing"
"time"
)

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

func randStr(n int) string {
b := make([]byte, n)
for i := range b {
b[i] = letters[rand.Intn(len(letters))]
}
return string(b)
}

func TestApproach2(t *testing.T) {
rand.Seed(time.Now().UnixNano())

fmt.Println(randStr(10))
}

func BenchmarkApproach2(b *testing.B) {
rand.Seed(time.Now().UnixNano())
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}
3. Remainder 余数
上面的解决方法通过 rand.Intn() 来获得一个随机字母,这个方法底层调用了 Rand.Intn(),然后调用了 Rand.Int31n()
相比于生成 63 个随机 bits 的函数 rand.Int63() 来说,Rand.Int31n() 很慢。
我们可以简单地调用 rand.Int63() 然后除以 len(letterBytes),使用它的余数来生成字母
package approach3

import (
"fmt"
"math/rand"
"testing"
"time"
)

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

func randStr(n int) string {
b := make([]byte, n)
for i := range b {
b[i] = letters[rand.Int63() % int64(len(letters))]
}
return string(b)
}

func TestApproach3(t *testing.T) {
rand.Seed(time.Now().UnixNano())

fmt.Println(randStr(10))
}

func BenchmarkApproach3(b *testing.B) {
rand.Seed(time.Now().UnixNano())
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}
这个算法能正常工作并且非常快,不过它牺牲了部分精确性,字母出现的概率并不是精确一样的(假设 rand.Int63() 生成 63 比特的数字是等概率的)。由于字母总共才 52 个,远小于 1<<63 - 1,因此失真非常小,因此实际上这完全没问题。
解释:假设你想要 0~5 的随机数,如果使用 3 位的 bit,3 位的 bit 等概率出现 0~7,所以出现 0 和 1 的概率是出现 2、3、4 概率的两倍。使用 5 位的 bit,0 和 1 出现的概率是 6/32,2、3、4 出现的概率是 5/32。现在接近了一些了,是吧?不断地增加比特位,这个差距就会变得越小,当你有 63 位地时候,这差别已经可忽略不计。

4. Masking 掩码

在上一个方案的基础上,我们通过仅使用随机数的最低 n 位保持均匀分布,n 表示所有字符的数量。比如我们有 52 个字母,我们需要 6 位(52 = 110100b)。所以我们仅仅使用了 rand.Int63() 的最后 6 位。并且,为了保持所有字符的均匀分布,我们决定只接受在 0..len(letterBytes)-1 的数字即 0~51。(译者注:这里已经没有第三个方案的不准确问题了)
最低几位大于等于 len(letterBytes) 的概率一般小于 0.5(平均值为 0.25),这意味着出现这种情况,只要重试就好。重试 n 次之后,我们仍然需要丢弃这个数字的概率远小于 0.5 的 n 次方(这是上界了,实际会低于这个值)。以本文的 52 个字母为例,最低 6 位需要丢弃的概率只有 (64-52)/64=0.19。这意味着,重复 10 次,仍然没有数字的概率是 1*10^-8。
package approach4

import (
"fmt"
"math/rand"
"testing"
"time"
)

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

const (
// 6 bits to represent a letters index
letterIdBits = 6
// All 1-bits as many as letterIdBits
letterIdMask = 1 <<letterIdBits - 1
)

func randStr(n int) string {
b := make([]byte, n)
for i := range b {
if idx := int(rand.Int63() & letterIdMask); idx < len(letters) {
b[i] = letters[idx]
i++
}
}
return string(b)
}

func TestApproach4(t *testing.T) {
rand.Seed(time.Now().UnixNano())

fmt.Println(randStr(10))
}

func BenchmarkApproach4(b *testing.B) {
rand.Seed(time.Now().UnixNano())
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}
5. Masking Improved
第 4 节的方案只使用了 rand.Int63() 方法返回的 64 个随机字节的后 6 位。这实在是太浪费了,因为 rand.Int63() 是我们算法中最耗时的部分了。
如果我们有 52 个字母,6 位就能生成一个随机字符串。所以 63 个随机字节,可以利用 63/6=10 次。
译者注:使用了缓存,缓存了 rand.Int63() 方法返回的内容,使用 10 次,不过已经并不是协程安全的了。
package approach5

import (
"fmt"
"math/rand"
"testing"
"time"
)

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

const (
// 6 bits to represent a letter index
letterIdBits = 6
// All 1-bits as many as letterIdBits
letterIdMask = 1<<letterIdBits - 1
letterIdMax = 63 / letterIdBits
)

func randStr(n int) string {
b := make([]byte, n)
// A rand.Int63() generates 63 random bits, enough for letterIdMax letters!
for i, cache, remain := n-1, rand.Int63(), letterIdMax; i >= 0; {
if remain == 0 {
cache, remain = rand.Int63(), letterIdMax
}
if idx := int(cache & letterIdMask); idx < len(letters) {
b[i] = letters[idx]
i--
}
cache >>= letterIdBits
remain--
}
return string(b)
}

func TestApproach5(t *testing.T) {
rand.Seed(time.Now().UnixNano())

fmt.Println(randStr(10))
}

func BenchmarkApproach5(b *testing.B) {
rand.Seed(time.Now().UnixNano())
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}
6. Source
第 5 个方案非常好,能改进的点并不多。我们可以但不值得搞得很复杂。
让我们来找可以改进的点:随机数的生成源
crypto/rand 的包提供了 Read(b []byte) 的函数,可以通过这个函数获得需要的随机比特数,只需要一次调用。不过并不能提升性能,因为 crypto/rand 实现了一个密码学上的安全伪随机数,所以速度比较慢。
所以让我们坚持使用 math/rand 包,rand.Rand 使用 rand.Source 作为随机位的来源,rand.Source 是一个声明了 Int63() int64 的接口:正是我们在最新解决方案中需要和使用的唯一方法。
所以我们不是真的需要 rand.Randrand.Source 包对于我们来说已经足够了
package approach6

import (
"fmt"
"math/rand"
"testing"
"time"
)

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

var src = rand.NewSource(time.Now().UnixNano())

const (
// 6 bits to represent a letter index
letterIdBits = 6
// All 1-bits as many as letterIdBits
letterIdMask = 1<<letterIdBits - 1
letterIdMax = 63 / letterIdBits
)

func randStr(n int) string {
b := make([]byte, n)
// A rand.Int63() generates 63 random bits, enough for letterIdMax letters!
for i, cache, remain := n-1, src.Int63(), letterIdMax; i >= 0; {
if remain == 0 {
cache, remain = src.Int63(), letterIdMax
}
if idx := int(cache & letterIdMask); idx < len(letters) {
b[i] = letters[idx]
i--
}
cache >>= letterIdBits
remain--
}
return string(b)
}

func TestApproach6(t *testing.T) {
fmt.Println(randStr(10))
}

func BenchmarkApproach6(b *testing.B) {
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}
注意到这里我们没有使用种子初始化 rand 了,取而代之的是初始化了 rand.Source
还有一件需要注意的事,math/rand 的文档指出
默认的Source是协程安全的
所以默认的 Source 比通过 rand.NewSource() 创建出来的 Source 要慢。不用处理协程并发场景,当然慢啦。

7. 使用 strings.Builder

之前的解决方案都返回了通过 slice 构造的字符串。最后的一次转换进行了一次拷贝,因为字符串是不可变的,如果转换的时候不进行拷贝,就无法保证转换完成之后,byte slice 再被修改后,字符串仍能保持不变。
Go1.10 引入了 strings.Builder,这是一个新的类型,和 bytes.Buffer 类似,用来构造字符串。底层使用 []byte 来构造内容,正是我们现在在做的,最后可以通过 Builder.String() 方法来获得最终的字符串值。但它很酷的地方在于,它无需执行刚才谈到的复制即可完成此操作。它敢这么做是因为它底层构造的 []byte 从未暴露出来,所以仍然可以保证没有人可以无意地、恶意地来修改已经生成的不可变字符串。
所以我们的下一个想法不是在 slice 中构建随机字符串,而是使用 strings.Builder,结束 building 后,我们就可以获取并返回结果,而无需复制。 这可能在速度方面有所帮助,并且在内存使用和分配方面肯定会有所帮助(译者注:等会在 benchmark 中会清晰地看到)。
package approach7

import (
"fmt"
"math/rand"
"strings"
"testing"
"time"
)

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

var src = rand.NewSource(time.Now().UnixNano())

const (
// 6 bits to represent a letter index
letterIdBits = 6
// All 1-bits as many as letterIdBits
letterIdMask = 1<<letterIdBits - 1
letterIdMax = 63 / letterIdBits
)

func randStr(n int) string {
sb := strings.Builder{}
sb.Grow(n)
// A rand.Int63() generates 63 random bits, enough for letterIdMax letters!
for i, cache, remain := n-1, src.Int63(), letterIdMax; i >= 0; {
if remain == 0 {
cache, remain = src.Int63(), letterIdMax
}
if idx := int(cache & letterIdMask); idx < len(letters) {
sb.WriteByte(letters[idx])
i--
}
cache >>= letterIdBits
remain--
}
return sb.String()
}

func TestApproach7(t *testing.T) {
fmt.Println(randStr(10))
}

func BenchmarkApproach7(b *testing.B) {
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}
在构造出 builder 之后,我们立刻调用了 Builder.Grow() 方法,使得它分配一个足够大的底层 slice, 避免在后续操作中再进行分配

8. “Mimicing” strings.Builder with package unsafe

模仿 string.Builder 使用 unsafe 包
string.Builder 跟我们第六节地解法一样,都是用 []byte 来构建字符串。切换到 strings.Builder 可能有一些太重了,我们使用 strings.Builder 只是想避免拷贝 slice。
string.Builder 使用 unsafe 包来避免最终的拷贝
// String returns the accumulated string.
func (b *Builder) String() string {
return *(*string)(unsafe.Pointer(&b.buf))
}

我们也可以自己完成这个流程。所以思路是我们通过 unsafe 包来返回一个字符串,来避免拷贝

package approach8

import (
"fmt"
"math/rand"
"testing"
"time"
"unsafe"
)

const letters = "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ"

var src = rand.NewSource(time.Now().UnixNano())

const (
// 6 bits to represent a letter index
letterIdBits = 6
// All 1-bits as many as letterIdBits
letterIdMask = 1<<letterIdBits - 1
letterIdMax = 63 / letterIdBits
)

func randStr(n int) string {
b := make([]byte, n)
// A rand.Int63() generates 63 random bits, enough for letterIdMax letters!
for i, cache, remain := n-1, src.Int63(), letterIdMax; i >= 0; {
if remain == 0 {
cache, remain = src.Int63(), letterIdMax
}
if idx := int(cache & letterIdMask); idx < len(letters) {
b[i] = letters[idx]
i--
}
cache >>= letterIdBits
remain--
}
return *(*string)(unsafe.Pointer(&b))
}

func TestApproach8(t *testing.T) {
fmt.Println(randStr(10))
}

func BenchmarkApproach8(b *testing.B) {
for i := 0; i < b.N; i++ {
_ = randStr(10)
}
}

Benchmark

go test ./... -bench=. -benchmem
原作者测试的数据
(译者注:第三列代表操作一次需要多少纳秒)
BenchmarkRunes-4                     2000000    723 ns/op   96 B/op   2 allocs/op
BenchmarkBytes-4 3000000 550 ns/op 32 B/op 2 allocs/op
BenchmarkBytesRmndr-4 3000000 438 ns/op 32 B/op 2 allocs/op
BenchmarkBytesMask-4 3000000 534 ns/op 32 B/op 2 allocs/op
BenchmarkBytesMaskImpr-4 10000000 176 ns/op 32 B/op 2 allocs/op
BenchmarkBytesMaskImprSrc-4 10000000 139 ns/op 32 B/op 2 allocs/op
BenchmarkBytesMaskImprSrcSB-4 10000000 134 ns/op 16 B/op 1 allocs/op
BenchmarkBytesMaskImprSrcUnsafe-4 10000000 115 ns/op 16 B/op 1 allocs/op

译者测试的数据

BenchmarkApproach1-12            3849038               299.5 ns/op            64 B/op          2 allocs/op
BenchmarkApproach2-12 5545350 216.4 ns/op 32 B/op 2 allocs/op
BenchmarkApproach3-12 7003654 169.7 ns/op 32 B/op 2 allocs/op
BenchmarkApproach4-12 7164259 168.7 ns/op 32 B/op 2 allocs/op
BenchmarkApproach5-12 13205474 89.06 ns/op 32 B/op 2 allocs/op
BenchmarkApproach6-12 13665636 84.41 ns/op 32 B/op 2 allocs/op
BenchmarkApproach7-12 17213431 70.37 ns/op 16 B/op 1 allocs/op
BenchmarkApproach8-12 19756956 61.41 ns/op 16 B/op 1 allocs/op
现在跑出来的数据,相原作者时候,已经有了一些变化,不过并不妨碍我们看出来各个方法的趋势:
  • 仅仅只是把 rune 切换到 byte,就获得了性能的大幅度提升 (大于百分之 20)

  • 使用 rand.Int63() 代替 rand.Intn() 也获得大幅度提升 (大于百分之 20)

  • 使用 Masking 并没有提升性能,相反在原作者哪里,反而性能下降了

  • 不过使用了一次 rand.Int63() 返回的全部字符后,性能提升了 3 倍

  • 使用 rand.Source 替代 rand.Rand,性能提升了 21%

  • 使用 strings.Builder,我们在速度上提升了 3.5%,并且把原本 2 次的内存分配,降低到了一次!

  • 使用 unsafe 包来代替 strings.Builder,性能提升了 14%

将第八个方案和第一个方案比较,第八个方案比第一个方案快 6.3 倍,仅仅使用六分之一的内存,分配次数也只有原来的一半。


往期推荐



2023 LLM技术报告——知名大模型应用

知名游戏开发者云风宣布开源基于Lua的自研游戏引擎Ant Engine

洗衣机日耗流量3.6GB,或被入侵后用于“挖矿”?




这里有最新开源资讯、软件更新、技术干货等内容

点这里 ↓↓↓ 记得 关注✔ 标星⭐ 哦


微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
刚刚,英国这种签证禁令本月正式生效!PSW签证也受影响!留英8种方式总结快收藏早15年知有无阿兹海默症风险!“超简单检测法”准确率97%?弘一法师:在复杂的世界里做一个简单的人专访Pika Labs创始人:探索视频生成的GPT时刻注意看!这可不是一张简单的福字!刚刚,英国这种签证禁令正式生效,PSW签证也受影响!留英8种方式总结快收藏华人小心!加拿大紧急召回38种超市常见麦片:吃完可能发烧呕吐...第70期五点半早起打卡营(早起是最简单的自律)冬天养脾胃,吃它不比山药差!做法最简单的小点心,少油少糖糯叽叽你的Google帐户多年没碰过?本周起可能被消失刚刚,英国这种签证禁令已正式生效!PSW签证也受波及!留英8种方式和适合人群大盘点新研究:这8种生活方式可降低患癌风险图记:好友宅邸的感恩节盛宴Meta教你5步学会用Llama2:我见过最简单的大模型教学一个简单的数据库,竟然发表了这么多SCI论文!大数据分析揭示张向阳教授的分析策略别吃! 加拿大召回数十种超市热销食品!寒冬将至 2024年科技公司开始大裁员长篇小说《谷雨立夏间》36 天下乌鸦害怕黑头撑大毛孔,又不想伤皮肤,超简单的办法是……一边学一边玩,100个超简单的儿童STEAM游戏编码数据集生成框架 UnitGen 0.4.0:代码文档生成、测试代码生成尕妹子与嘎小子Golden Goose 黄金鹅2023年前三季度销售收入同比增长19%注意啦!你的Google帐户多年没碰过?12月1日起可能自动删除了哦...hé bàng?hé bèng?越简单的人,越厉害(深度好文)加拿大紧急召回38种超市常见麦片:吃完可能发烧呕吐Jellycat限时巨折!2折起:英国优衣库/Diesel/GoldenGoose/We11done等!注意了!安省2023年有超5000份车牌申请被拒绝,这些字符全都不行“多巴胺”的“胺”不读ān?百年无痕 1.14奥斯丁芯片代工老厂(2)-辛勤的南郭先生和骗子客户的故事“多巴胺”的“胺”应读为àn,“2023年十大语文差错”发布一个超简单的办法,让皮肤白净又透亮!最简单的英语考试强势登陆!移民局正式开始接受PTE成绩!EE分数缓慢下行!dá àn jiē xiǎo 🥳
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。