大模型微调样本构造的trick

公众号新闻

2023-07-10 03:07

来自：包包算法笔记

进NLP群—>加入NLP交流群

开局一道面试题。

面试官：大模型微调如何组织训练样本？

你：大模型训练一问一答，一指令一输出，问题和指令可以作为prompt输入，答案作为输出，计算loss的部分要屏蔽掉pad token。

面试官：多轮对话如何组织训练样本呢？

你：假设多轮为Q1A1/Q2A2/Q3A3，那么可以转化成 Q1—>A1, Q1A1Q2->A2, Q1A1Q2A2Q3->A3三条训练样本。

面试官：这样的话一个session变成了三条数据，并且上文有依次重复的情况，这样会不会有啥问题？

你：数据中大部分都是pad token，训练数据利用效率低下。另外会有数据重复膨胀的问题，训练数据重复膨胀为 session数量*平均轮次数，且上文有重复部分，训练效率也会低下。

面试官：你也意识到了，有什么改进的方法吗？

你：有没有办法能一次性构造一个session作为训练样本呢？（思索）

面试官：提示你下，限制在decoder-only系列的模型上，利用模型特性，改进样本组织形式。

对于这个问题，我们思考下decoder-only模型有啥特点，第一点很关键的是其attention形式是casual的，casual简单理解就是三角阵，单个token只能看到其上文的信息。

如图所示：

其二是postion_id是只有token次序含义而无需特定指代信息，（区别于GLM模型需要postion_id来标识生成span的位置等特殊的要求）。

有了这两点我们就可以设想，如果构造多轮对话样本的input为 Q1 A1 <eos> Q2 A2 <eos> Q3 A3 <eos>，在计算loss的时候，只需要计算 A1 <eos> A2 <eos> 和 A3 <eos>部分，岂不是就可以进行session级别的训练了？

嗯为什么原来的chatglm不能用这种形式呢，虽然prefix attention可以推广为适应多轮训练的prefix attention形式，如图：

但是由于其postition id 无法简单按次序推广，故不能高效训练，这也是chatglm初代的很大的一个问题，导致后续微调的效果都比较一般。

现在chatglm2的代码针对这两个问题已经进行了改善，可以认为他就是典型的decoder-only模型了，具体表现为推断时候attention 是casual attention的形式，position id也退化为token次序增长。

那么好了，万事具备，只欠东风。我们据此实现了chatglm2-6b的代码微调。其核心代码逻辑为处理样本组织的逻辑，其他的就是大模型微调，大同小异了。

conversation = ''input_ids = []labels = []eos_id = tokenizer.eos_token_idturn_idx = 0for sentence in examples[prompt_column][i]:    sentence_from = sentence["from"].lower()    sentence_value = '[Round {}]\n\n问：'.format(turn_idx) + sentence["value"] + '\n\n答：' if sentence_from == 'human' else sentence["value"]+'\n\n'    conversation += sentence_value    sentence_ids = tokenizer.encode(sentence_value, add_special_tokens=False)      label = copy.deepcopy(sentence_ids) if sentence_from != 'human' else [-100] * len(sentence_ids)                   input_ids += sentence_ids     labels += label    if sentence_from != 'human':        input_ids += [eos_id]        labels += [eos_id]        turn_idx += 1input_ids = tokenizer.encode('') + input_ids #add gmask bos labels =  [-100] * 2 + labels# #add paddingpad_len = max_seq_length - len(input_ids)input_ids = input_ids + [eos_id] * pad_len labels = labels + [-100] * pad_len