Redian新闻
>
大模型面试八股

大模型面试八股

公众号新闻
来自:包包算法笔记

进NLP群—>加入NLP交流群

人人讨厌八股文,人人都问八股文。八股文主要考察原理理解,被痛恨的原因就是实际工作用不上,其实不满足于当一个碉堡侠的时候,八股也就不是八股了,更多的是原理的谙熟于心。

很多也算不上八股,更多是经验的交流吧。

现在大模型面试的问题还处在一个蓝海阶段,很多面试官自己也问不出太有深度的问题,整理以下仅供参考。



基础知识
1.transformer 八股文
2.attention计算方式以及参数量,attention layer手写,必考。
3.NLU以及NLG各种任务的差异。
4.tokenizer的细节,tokenizer的计算方式,各种tokenizer的优缺点。
5.各种norm方式的优缺点。
6.bert参数量的推演,任何一个transformer结构参数量的推演,和显存占用关系的推演。


大模型算法
1.在指令微调中,如何设置、选择和优化不同的超参数,以及其对模型效果的影响?
2.在指令微调中,如何选择最佳的指令策略,以及其对模型效果的影响?
3.llama, glm,bloom等现有大模型的数据处理,训练细节,以及不足之处模型架构的优化点,包括但不限于attention, norm, embedding
4.解决显存不够的方法有哪些?
5.请解释P-tuning 的工作原理,并说明它与传统的 fine-tuning方法的不同之处。
6.介绍一下Prefix-tuning的思想和应用场景,以及它如何解决一些NLP任务中的挑战
7.Lora的原理和存在的问题讲一下?
8.bf16,fp16半精度训练的优缺点
9.如何增加context length 模型训练中节约显存的技巧。
10.RLHF完整训练过程是什么?RL过程中涉及到几个模型?显存占用关系和SFT有什么区别?
11.RLHF过程中RM随着训练过程得分越来越高,效果就一定好吗?有没有极端情况?
12.encoder only,decoder only,encoder-decoder 划分的具体标注是什么?典型代表模型有哪些?


训练框架
1.Megatron以及deepspeed实现原理,各种参数以及优化策略的作用
2.模型训练以及推理中的显存占用各种混合精度训练的优劣
3.deepspeed的特点是什么?各个zero stage都有什么用?


评测
1.除了loss之外,如何在训练过程中监控模型能力?
2.如果想全面的评测模型能力,有哪些维度以及数据集?评测指标等评测中比较重要的部分要了解.
3.如何评测生成,改写等开放性任务?
4.zeroshot和Fewshot具体做法的区别?


数据
1.bloom,llama, glm等开源模型的数据来源,配比,以及不足之处
2.cot以及ic能力是如何涌现的?与预训练数据有何关系?
3.数据处理的重要步骤,如何保证预训练以及sft时候的数据多样性,数据质量,数据数量等,包括但不限于去重,质量筛选,敏感及有害信息过滤,各种来源数据配比对于模型能力的影响。

进NLP群—>加入NLP交流群

微信扫码关注该文公众号作者

戳这里提交新闻线索和高质量文章给我们。
相关阅读
《我怎麼哭了》维立克前面试官告诉你--如何取得“顶级美高预面试”维立克面试高分?赋能、闭环、沉淀、生态……互联网黑话正成为一种新八股苏妈战老黄!官宣AMD大模型专用卡,对标英伟达H100,可跑更大模型数十家企业参编中国大模型标准;大模型创企获2.5亿美元投资;微软签署数十亿美元AI算力协议丨AIGC大事日报对话中国大模型的最早推行者黄铁军:全球可能只需要三个大模型生态李彦宏:大模型即将改变世界,百度要第一个把全部产品用大模型重做一遍特别的文化盛宴:在美国庆祝“中国文化节”面试实况 | 8轮面试,Databricks面试细节曝光!一览科技CTO陈锡言:大模型阴影下的技术创业机会——链接大模型与用户|量子位·视点分享回顾大模型变“小”:黑马天启开创AI模型“重度垂直”新思路,入选北京大模型行业应用典型案例AI大模型如何在行业实际落地:企业对话场景拥抱大模型之路黑马天启CEO杨昕:天启科创大模型正式发布,未来可能会有几十万家企业受益于大模型大模型进入「落地战」,腾讯云下手「行业」大模型花卉摄影,明媚春光腾讯云公布行业大模型进展;美图推出视觉大模型;华为高管称AI算力将增500倍丨AIGC大事日报大模型综述来了!一文带你理清全球AI巨头的大模型进化史传OpenA正测试DALL·E 3模型;华为语音助手支持AI大模型;亚马逊组建AI大模型新团队丨AIGC大事日报建议!千万不要再无脑背八股文了!美华该考虑如何面对即将到来的中美战争了大模型的思想钢印:如何让ChatGPT相信水是有毒的?​中文信息处理实验室最新研究揭示虚假信息在大模型中的扩散机制智源连甩多个开源王炸!悟道3.0大模型数弹齐发,大模型评测体系上线武汉AI方案出台六大计划;360讯飞WPS大模型面向全民开放;阿里云发布开源LLM开发框架十亿参数,一键瘦身!「模型减重」神器让大模型狂掉3/4 | 最“in”大模型360正式发布自研大模型,周鸿祎:国产大模型追赶GPT4的速度远超想象国内大模型争霸赛,你最看好哪家?这是你心目中的大模型排名吗?目前只To B,腾讯云为什么优先发布行业大模型,而非大模型?谷歌证实大模型能顿悟,特殊方法能让模型快速泛化,或将打破大模型黑箱速干天丝新型面料,双腿清爽又舒服~完全不会闷热,柔~糯~润~你收到绝对会爱上它、干花香薰蜡片..优质好货开团抢!【一日团】中国团队自动驾驶大模型斩获CVPR最佳论文;Stability AI推出新文生图模型;京东大模型即将发布丨AIGC大事日报几幅青绿山水习作坚持做行业大模型,竹间智能给大模型造了一座「模型工厂」Go 语言面试八股(2023版),内含 Go 入门视频课 | 极客时间百度华为阿里等入选大模型“国家队”;盘古大模型3.0发布;阿里云推AI绘画大模型丨AIGC大事日报只给大模型LeetCode编号,也能解题!大模型表现好是源于对训练数据的记忆吗?请不要迷信大模型
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。