Redian新闻
>
AI大模型之路 第三篇:从零实现词嵌入模型,加深理解!

AI大模型之路 第三篇:从零实现词嵌入模型,加深理解!

科学

你好,我是郭震


今天我们研究「AI大模型第三篇」:词维度预测,很多读者听过词嵌入,这篇文章解答下面问题:

  • 词嵌入是什么意思?

  • 怎么做到的?原理是什么?

  • 从零实现一个专属你数据集的词嵌入

我们完整从零走一遍,根基的东西要理解透,这样才能发明出更好的东西。

1 skip-gram模型

Skip-gram模型是一种广泛使用的词嵌入(Word Embedding)方法,由Mikolov等人在2013年提出。它是Word2Vec模型的一种形式,主要用于从大量文本中学习词汇的高质量向量表示。

Skip-gram模型的目标是通过给定的目标词来预测其上下文中的词汇,从而在这个过程中学习词的嵌入表示

因此,Skip-gram模型通过给定词预测上下文,来最终学习到每个单词的词嵌入表示。

有些同学可能不理解,通过给定词预测上下文,是什么意思?为什么要这么做?

因为,某个单词的上下文是有规律可寻的,比如 am单词的上下文,一般就是 Iteacher,或tiredam后面一定不会出现:eatwalk,因为两个动词不可能出现在一起。

正是利用这个规律,也就是已知条件,我们学习到另一些好的特性,比如在这里,我们学习到每一个单词的数学向量表示,计算机只认得数字,它不认识我们认识的单词。

2 求解问题

假设我们有一个简单的句子:"the quick brown fox jumps over the lazy dog",并且我们选择Skip-gram模型进行词向量的训练。

我们可以挑选“fox”作为输入词,上下文窗口大小为2:

  • 输入:"fox"
  • 预测的上下文:"quick"、"brown"、"jumps"、"over"

3 求解思路:

  • 1 对“fox”进行独热编码。
  • 2 使用Word2Vec模型预测“fox”的上下文词。
  • 3 通过调整模型权重来最小化预测误差,使得模型可以更准确地预测到“fox”的正确上下文。

4 训练模型

用到的包

import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, Dataset

词汇表和单词索引

sentence = "the quick brown fox jumps over the lazy dog"
words = sentence.split()
word_to_ix = {word: i for i, word in enumerate(set(words))}

创建你的数据集

context_size = 2
data = []
for i in range(context_size, len(words) - context_size):
    target = words[i]
    context = [words[i - j - 1] for j in range(context_size)] + [words[i + j + 1] for j in range(context_size)]
    data.append((target, context))
    
class SkipGramDataset(Dataset):
    def __init__(self, data, word_to_ix):
        self.data = data
        self.word_to_ix = word_to_ix

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        target, context = self.data[idx]
        target_idx = self.word_to_ix[target]
        context_idx = torch.tensor([self.word_to_ix[w] for w in context], dtype=torch.long)
        return target_idx, context_idx

创建模型SkipGramModel

class SkipGramModel(nn.Module):
    def __init__(self, vocab_size, embedding_dim):
        super(SkipGramModel, self).__init__()
        self.embeddings = nn.Embedding(vocab_size, embedding_dim)
        self.predictions = nn.Linear(embedding_dim, vocab_size)

    def forward(self, input_words):
        embeds = self.embeddings(input_words)
        scores = self.predictions(embeds)
        log_probs = torch.log_softmax(scores, dim=1)
        return log_probs

训练模型SkipGramModel

# 初始化模型和优化器
embedding_dim = 10
vocab_size = len(word_to_ix)
model = SkipGramModel(vocab_size, embedding_dim)
loss_function = nn.NLLLoss()
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 数据加载器
dataset = SkipGramDataset(data, word_to_ix)
dataloader = DataLoader(dataset, batch_size=1, shuffle=True)

for epoch in range(50):
    total_loss = 0
    for target_idx, context_idx in dataloader:
        model.zero_grad()

        # 得到模型的预测对数概率输出
        log_probs = model(target_idx)

        # 循环计算每个上下文词的损失并累加
        loss = 0
        for context_word_idx in context_idx.view(-1):
            loss += loss_function(log_probs, context_word_idx.unsqueeze(0))

        # 反向传播和优化
        loss.backward()
        optimizer.step()

        total_loss += loss.item()
    print(f'Epoch {epoch + 1}, Loss: {total_loss}')

5 使用模型预测

使用模型SkipGramModel

def predict_context(model, input_word, word_to_ix, ix_to_word, top_n=3):
    # Check if the word is in the dictionary
    if input_word not in word_to_ix:
        return f"Word '{input_word}' not in vocabulary."

    # Prepare the model for evaluation
    model.eval()

    # Convert word to index and wrap in tensor
    word_idx = torch.tensor([word_to_ix[input_word]], dtype=torch.long)

    # Forward pass to get log probabilities
    with torch.no_grad():
        log_probs = model(word_idx)

    # Convert log probabilities to actual probabilities
    probs = torch.exp(log_probs).squeeze(0)  # Remove batch dimension

    # Get the indices of the top N probabilities
    top_indices = torch.topk(probs, top_n, dim=0)[1].tolist()

    # Convert indices back to words
    top_words = [ix_to_word[idx] for idx in top_indices]

    return top_words


# Create a reverse dictionary to map indices back to words
ix_to_word = {index: word for word, index in word_to_ix.items()}

# Example usage: predict context words for 'fox'
predicted_context_words = predict_context(model, 'fox', word_to_ix, ix_to_word, top_n=4)
print(f"Context words for 'fox': {predicted_context_words}")

6 结果分析

以上代码完整可运行,我们打印预测结果,看到预测fox的上下文是准确的:

最后打印我们得到的fox单词的嵌入词向量:

# 确保'fox'在词汇表中
if 'fox' in word_to_ix:
    # 获取'fox'的索引
    fox_index = word_to_ix['fox']

    # 获取嵌入层
    embeddings = model.embeddings

    # 提取'fox'的嵌入向量
    fox_vector = embeddings(torch.tensor([fox_index], dtype=torch.long))

    # 打印向量
    print("Embedding vector for 'fox':")
    print(fox_vector)
else:
    print("Word 'fox' not found in the vocabulary.")

我们这里嵌入词向量长度为10,见代码,看到打印结果长度也是10,这是正确的:

我的课程

我打造了一个《Python从零到高薪就业全栈视频课》,目前上线700节课程,每节课15分钟,总共超180个小时。包括:《从零学Python》《Python进阶》《爬虫》《NumPy数值分析》《Pandas数据分析》《Matplotlib和Pyecharts绘图》《PyQt软件开发》《接单项目串讲》《Python办公自动化》《多线程和多进程》《unittest和pytest自动化测试》《Flask和Django网站开发》《基础算法》《人工智能入门》《机器学习》《深度学习》《Pytorch实战》,将我过去工作8年以及现在科研的经历都融入到课程中,里面有很多实际项目,是一个全栈技术课。

如果你想掌握全栈开发技术,提升你自己,提升就业能力,多学技能做副业项目赚钱等,可以报名,课程带有我的答疑。价格现在比较优惠,推荐现在加入。长按下方二维码查看,报名后加我微信:gz113097485

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
AI早知道|马斯克Grok大模型开源;荣耀正式发布首款AI PC;苹果谷歌和OpenAI商谈iPhone大模型使用轻松拿捏4K高清图像理解!这个多模态大模型自动分析网页海报内容,打工人简直不要太方便大模型的“瘦身”革命:巨头逐鹿轻量化大模型 | 大模型一周大事今日arXiv最热NLP大模型论文:天津大学发布大模型数学能力细粒度评价基准FineMath温故知新: 驴象2020年对决 - 川普何以落败?大模型如何用于游戏?游戏玩家代理与大模型综述:方法、应用与挑战双一流MBA的保险转型之旅:从抗保到爱保的蜕变之道——揭秘名校背景下的保险人生新篇章今日arXiv最热大模型论文:清华把大模型用于城市规划,回龙观和大红门地区成研究对象今日arXiv最热NLP大模型论文:一文读懂大模型的prompt技术今日arXiv最热大模型论文:复旦提出基于diffusion的虚拟试衣模型,模特一键换装3D版Sora来了?UMass、MIT等提出3D世界模型,具身智能机器人实现新里程碑强化学习第十三篇:使用深度学习解决迷宫问题,完整步骤和代码线下沙龙报名|大模型之后,AI应用如何遍地生花偷得浮生半日闲360安全大模型3.0来了!垂直大模型,他们这么训刘慈欣:与童话和其他的幻想文学相比,科幻小说对小读者的未来会产生更加深远的影响AI早知道|商汤发布日日新5.0大模型;微软推出小语言模型Phi-3;腾讯旗下协作SaaS产品全面接入混元大模型今日arXiv最热NLP大模型论文:大模型RAG新宠!浙江大学发布自反馈检索增强方法首个全开源时序预测基础模型:Zero-shot预测能力比肩从零训练最优模型200+ 大模型产品全景盘点!探索大模型带来的创新机遇【立即获取报告】旅游漫记今日arXiv最热NLP大模型论文:浙江大学:蒸一蒸,多Agent变成单一模型,效果更好AI大模型之路 第二篇: Word2Vec介绍全球顶尖AI研究者中国贡献26%;1320亿参数大模型开源;Anthropic大模型测评首超GPT-4丨AIGC大事日报北京内推 | 微软亚洲研究院WWE大模型团队招聘大模型研究实习生今日arXiv最热NLP大模型论文:微软:用大模型分析用户满意度,让智能系统更善解人意今日arXiv最热NLP大模型论文:Github万星!北航发布零代码大模型微调平台LlamaFactory今日arXiv最热NLP大模型论文:华东师大发布对话级大模型幻觉评价基准DiaHalu给大模型装上眼睛,李学龙团队提出Any2Point,让大模型具备3D视觉理解能力AI早知道|360安全大模型3.0发布;通义听悟上线音视频问答助手;腾讯混元大模型参数规模扩展至万亿开源大模型火了!(附99个大模型微调模型/数据/工具)!克罗地亚首都萨格勒布(Zagreb),彩色琉璃破解大模型安全难题,360推出大模型安全能力框架清华、哈工大把大模型压缩到了1bit,把大模型放在手机里跑的愿望就快要实现了!练字一则
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。