📄️ 第1章 大模型简介
Q1:Transformer 中的编码器和解码器有什么区别,只有编码器或者只有解码器的模型是否有用?
📄️ 第2章 词元和嵌入
Q9:大模型的分词器和传统的中文分词有什么区别?对于一个指定的词表,一句话是不是只有一种唯一的分词方式?
📄️ 第3章 LLM 的内部机制
Q20:大模型怎么知道它的输出该结束了?
📄️ 第4章 文本分类
Q40:如何基于表示模型生成的嵌入向量实现文本分类?
📄️ 第5章 文本聚类和主题建模
Q48:有了强大的生成式大模型,嵌入模型还有什么用?请举一个适合嵌入模型但不适合生成模型的例子。(提示:推荐系统)
📄️ 第6章 提示工程
Q59:针对翻译类任务、创意写作类任务、头脑风暴类任务,temperature 和 top_p 分别该怎么设置?如何验证你选择的参数设置是否最优?
📄️ 第7章 高级文本生成技术与工具
Q73:如果我们需要生成小说的标题、角色描述和故事梗概,单次模型调用生成效果不佳时,如何分步生成?
📄️ 第8章 语义搜索与 RAG
Q88:在 RAG 中,为什么要把文档划分成多个块进行索引?如何解决文档分块后,内容上下文缺失的问题?如何处理跨片段的依赖关系?
📄️ 第9章 多模态大模型
Q100:为什么 ViT 不能简单地像处理文本词元那样,为每个图像块分配一个唯一的、离散的 ID,而是必须采用线性投影生成连续的嵌入向量?
📄️ 第10章 构建文本嵌入模型
Q118:为什么通过对比(相似 / 不相似样本)学习通常比仅学习相似样本能更有效地捕捉文本的语义或特定任务特征?
📄️ 第11章 为分类任务微调表示模型
Q130:在微调任务中,应该冻结哪些层的权重?微调编码器前几层、编码器后几层、前馈神经网络层有什么区别?
📄️ 第12章 微调生成模型
Q142:在 Llama-3 70B 开源模型基础上,如何微调模型以使其输出风格更简洁、更像微信聊天,并保证输出的内容符合中国的大模型安全要求?你认为需要准备多少数据,用多少GPU 训练多长时间?
📄️ 第13章 图解推理大模型
Q166:根据缩放定律,如何估算训练一个特定规模的大模型所需的预训练数据集大小和所需算力?
📄️ DeepSeek-R1
Q180:DeepSeek-R1 与 DeepSeek-R1-Zero 的训练过程有什么区别,各自有什么优缺点?既然 R1-Zero 生成的推理过程可读性差,在非推理任务上的表现也不如 R1,R1-Zero 存在的价值是什么? R1 训练过程是如何解决 R1-Zero 的上述问题的?