avatar

求助帖

半个马和甲
楼主 (北美华人网)
朋友最近在学习AI。 但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的,会和她的绩效挂钩。 所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。(比如什么YT LINK OR BLOG OR APP ) 。 她说上次听到derivative好像one decade ago ...... (我自己也教不了她~~~因为我也忘记的差不多了)
另外,学习Neural network 为什么和multi variables calculus 很有关呢? Calculus knowledge 在整个AI 学习(industrial usage not research ) 有多重要呢? 不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答! 另外,有没有正在学习的分享,哪些BLOG , 网站这方面说的好的呀? 谢谢
avatar
youyouzou
2 楼
朋友最近在学习AI。 但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的,会和她的绩效挂钩。 所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。(比如什么YT LINK OR BLOG OR APP ) 。 她说上次听到derivative好像one decade ago ...... (我自己也教不了她~~~因为我也忘记的差不多了)
另外,学习Neural network 为什么和multi variables calculus 很有关呢? Calculus knowledge 在整个AI 学习(industrial usage not research ) 有多重要呢? 不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答! 另外,有没有正在学习的分享,哪些BLOG , 网站这方面说的好的呀? 谢谢
半个马和甲 发表于 2024-01-31 10:43


统计就时建立在 大数据输入,寻找 神经网络 链接 网络矩阵系数 的过程。
回去重新复习 大学高数一,和线性代数课本。可能还要找本习题集刷刷。
avatar
DDee
3 楼
统计基于calculus啊
avatar
半个马和甲
4 楼
大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆,faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了,现在连去哪里问问题也不知道了:(
avatar
wfmlover
5 楼
重新上大一的微积分课啊
avatar
半个马和甲
6 楼
回复 2楼的帖子
谢谢好心的网友回复。 有没有什么俗称课的VIDEO ,之类可以快速学习啊。重新学习大概率好像来不及了。 这才是第一课~~老师很快MOVE ON 了感觉。
另外,在真实工作中,不会解derivatives 是大问题吗? 有没有可能真的计算干脆就交给机器做啊? 谢谢
最后有人有什么好的习题集/课本可以推荐的?
avatar
fogger
7 楼
回复 1楼半个马和甲的帖子
油管搜3b1b calculus
avatar
nickbear
8 楼
你得提供多点信息,她是什么职位,上的什么课,为什么这个课在工作中需要,才好给建议 multiple variables calculus在深度学习里主要是为了理解gradient descent是怎么work的 有基本理解能看懂公式就行,如果上过随便找本教材复习一下
avatar
Giovanna
9 楼
我是做这个的,derivative不能说天天用吧,设计loss的时候也是重点。不知道怎么帮你,我大学学得最好的就是各门数学课,速成不知道。。。
avatar
youyouzou
10 楼
你得提供多点信息,她是什么职位,上的什么课,为什么这个课在工作中需要,才好给建议 multiple variables calculus在深度学习里主要是为了理解gradient descent是怎么work的 有基本理解能看懂公式就行,如果上过随便找本教材复习一下
nickbear 发表于 2024-01-31 11:19


现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?
avatar
snowhigh
11 楼
速成不知道,有一个笨办法是遇到不懂的概念就网上查,一个个挖下去,挖到底就懂了。
avatar
High.eee
12 楼
我们学流体力学的时候用的。要分解一些复杂变量的时候就会用到。 主要看她当年的数理基础好不好,如果基础不好,就很难的。找本书下功夫啃一啃吧。 另外代入物理意义会比较容易理解一些。AI不只是统计,有算法在里面的。
avatar
Giovanna
13 楼

现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?

youyouzou 发表于 2024-01-31 11:42

经典是因为最简单且最常见,各种特性早就里里外外的摸清楚了,同时衍生了很多基础算法,拿来就用的工具多直接上手,不需要重新造轮子。不能说这个一定就比其他好,而是取决于你想要多aggressive,power 4肯定比power 2更aggressive,再进一步甚至可以用exponential,取决于你的模型有多强调这个loss,想达到什么效果。并不需要严格证明,但至少大概的learning方向和强度是有数的。训练过程中观察模型的behavior,各方面trade-off才能取得理想的效果。不是调参那么简单。
avatar
trymeagain
14 楼
是不是考虑换一个工作?
avatar
达芬奇
15 楼
neural network的核心是通过训练数据用back propagation减少loss function,back propagation的核心是使用chain rule计算partial derivative,所以要学calculus,当然现在都是auto differentiation,不需要自己计算
avatar
Giovanna
16 楼
我们学流体力学的时候用的。要分解一些复杂变量的时候就会用到。 主要看她当年的数理基础好不好,如果基础不好,就很难的。找本书下功夫啃一啃吧。 另外代入物理意义会比较容易理解一些。AI不只是统计,有算法在里面的。
High.eee 发表于 2024-01-31 12:55

是的,我大一学数学也是纳闷,为什么发明这么多奇奇怪怪的变幻和notation,到了第二年学物理的时候全用上了。。。当初还有一门必修课就叫数学物理方法lol
avatar
xiaxie8
17 楼
朋友最近在学习AI。 但是她multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 也不记得。
她现在上的课是公司让去进修的,会和她的绩效挂钩。 所以不存在不学这个选项。
请问如何可以快速帮助她恢复稳固这些知识啊。(比如什么YT LINK OR BLOG OR APP ) 。 她说上次听到derivative好像one decade ago ...... (我自己也教不了她~~~因为我也忘记的差不多了)
另外,学习Neural network 为什么和multi variables calculus 很有关呢? Calculus knowledge 在整个AI 学习(industrial usage not research ) 有多重要呢? 不是说都是统计吗?
华人卧虎藏龙, 谢谢各位的帮助和解答! 另外,有没有正在学习的分享,哪些BLOG , 网站这方面说的好的呀? 谢谢
半个马和甲 发表于 2024-01-31 10:43

一元微积分cheat sheet:
https://tutorial.math.lamar.edu/pdf/calculus_cheat_sheet_all.pdf

多元微积分cheat sheet:
用Harvard College那个网上的。
avatar
半个马和甲
18 楼
谢谢各位好心智慧的MM提供的建议。感叹谁能想到这个年纪还要靠着大学知识重新学习。
补充下朋友的背景
非大厂, 非IT ,但也是software engineer是core revenue business department. 技术人员 principal architect, 她多年负责的是 game engine design and all kinds graphic related technology。 至于为啥现在要被送去学AI ? 这个我也不清楚。只能说AI在各个科技领域未来几年必然主力替代许多现在的运用技术。
所以,自己derivatives 不好, 但如果理解理论,AI部分会够用嘛? 听她说课程速度很快。可能没有时间去重学大学数学知识~~ 。所以急需速成高效的得到需要的知识。 谢谢
avatar
pony2014
19 楼
的确,NN模型的核心就是chain rule从最后一环往前推,当loss能最小化时,就能得到解了,就怕loss function太复杂,得到是局部最优解。如果理解了这个,就会简单不少,而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗?这个要求就高了,必须从底层开始了解最优化的过程。而且,我朋友说,现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调,也是大牛。👍
avatar
半个马和甲
20 楼
的确,NN模型的核心就是chain rule从最后一环往前推,当loss能最小化时,就能得到解了,就怕loss function太复杂,得到是局部最优解。如果理解了这个,就会简单不少,而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗?这个要求就高了,必须从底层开始了解最优化的过程。而且,我朋友说,现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调,也是大牛。👍
pony2014 发表于 2024-01-31 14:15

谢谢。那是不是说,只要把chain rule 的底层逻辑搞懂了,不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。 记得,GPT刚出现的时候,公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
avatar
pony2014
21 楼
回复 20楼半个马和甲的帖子
我不清楚你朋友用什么工具,如果要求自己从头解方程,并且不能借用第三方的优化工具,那就得会各种微分知识和知道根据设计的模型architecture完整的写出loss function.🥲所以建议重温大学的高等数学,这个估计你朋友以后也用得上。
avatar
pony2014
22 楼
刚才写了一段,没发出去🤣🤣。我还是建议你朋友复习高等数学的微积分知识,看情形这些知识以后也用得上。
avatar
sunnyStore
23 楼
大家都在上班吗。自己先顶下~~~ 在学习或工作运用AI的牛人马工马婆,faculty 看过来看过来~~~~ or is there any other forum community I can go to ask questions as such ? Like a reddit sub community? 不用学习论坛N年了,现在连去哪里问问题也不知道了:(
半个马和甲 发表于 2024-01-31 10:50

微积分屠龙刀,倚天剑上就讲过这些BASIC的理解 英文是 how to ace calculus 两本 当小说看,花一个下午去仔细翻一下
avatar
April.Qian
24 楼
LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy,看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton,Andrew Barto的经典书,可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr,也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时,不到半年肯定都搞通了。
avatar
raindrop2020
25 楼
标记一下
avatar
nickbear
26 楼

现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?

youyouzou 发表于 2024-01-31 11:42

你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单,结果漂亮,应用场合广 它其实主要是用在信号和控制等满足Gausian noise assumption的场合,ML有些算法也用到它,但不是初始的用途 优化目标当然以达到要求的最简单为好,如果你mean square就能解决问题,为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化,层数越多参数空间越大,所谓的curse of dimensionality 不存在magical算法可以保证全局最优,但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练 以前实际应用三层就到头了,2000年以后因为有了大数据和分布式计算的算力,可以支持更复杂的模型,但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了,啥都往里装,以前的AI一般指专家系统,知识提取,逻辑推理这些,ML则是基于数据建模,现在都统称AI
avatar
heyykitty0
27 楼
理解back propagation需要点微积分知识吧。主要是理解梯度。
avatar
Mydots
28 楼
如果是calculus 本身,这里的高中calculus教材 非常适合初学者,比国内大学教材通俗易懂。初学者视频推荐khan academy
avatar
DaHill
29 楼
Mark
avatar
High.eee
30 楼
谢谢。那是不是说,只要把chain rule 的底层逻辑搞懂了,不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。 记得,GPT刚出现的时候,公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
半个马和甲 发表于 2024-01-31 14:21

如果要接触算法部分的code,那就要懂。不接触不用。
avatar
Giovanna
31 楼
谢谢。那是不是说,只要把chain rule 的底层逻辑搞懂了,不需要自己会计算derivatives or differential equations?
朋友是coder 不是DS 。将来可能看样子需要会公司需要建立起自己的AI 系统。 记得,GPT刚出现的时候,公司就弄来一个自己的server , 让员工可以各种自己测试AI 什么的。 ~~~
半个马和甲 发表于 2024-01-31 14:21

如果只做implementation搭起来别人设计好的系统,完全没问题。如果想搞测试调参,甚至优化模型,没有intuition根本没戏,这玩意速成不了。
avatar
nickbear
32 楼
谢谢各位好心智慧的MM提供的建议。感叹谁能想到这个年纪还要靠着大学知识重新学习。
补充下朋友的背景
非大厂, 非IT ,但也是software engineer是core revenue business department. 技术人员 principal architect, 她多年负责的是 game engine design and all kinds graphic related technology。 至于为啥现在要被送去学AI ? 这个我也不清楚。只能说AI在各个科技领域未来几年必然主力替代许多现在的运用技术。
所以,自己derivatives 不好, 但如果理解理论,AI部分会够用嘛? 听她说课程速度很快。可能没有时间去重学大学数学知识~~ 。所以急需速成高效的得到需要的知识。 谢谢
半个马和甲 发表于 2024-01-31 14:09

如果是这种情况我觉的不懂求导无所谓,甚至训练模型这些也大概率也不是他的活,architect需要懂的是ML系统设计 打个比方,理解Gradient Descent在深度网络训练里面怎么工作的,相当于理解汽车engine气缸打火是怎么工作的,只有设计engine修engine的人必须懂,一般人不懂也不妨碍开车



avatar
sunmoonparty
33 楼
速成不知道,有一个笨办法是遇到不懂的概念就网上查,一个个挖下去,挖到底就懂了。
snowhigh 发表于 2024-01-31 12:36

这个办法不仅不笨,而且是最容易坚持的。 重新上大学课程是最难坚持的。
avatar
mt.everest
34 楼
mark一下,我还在吭哧吭哧学big data和machine learning,妈的这又出新东西更不会了。好多看不懂的。
avatar
trymeagain
35 楼
的确,NN模型的核心就是chain rule从最后一环往前推,当loss能最小化时,就能得到解了,就怕loss function太复杂,得到是局部最优解。如果理解了这个,就会简单不少,而且现在软件都有各种包optimize loss function. 楼主是要自己写算法吗?这个要求就高了,必须从底层开始了解最优化的过程。而且,我朋友说,现在很多DS就是调包侠🥲…… 能摸清模型里哪些参数是重要的并且会调,也是大牛。👍
pony2014 发表于 2024-01-31 14:15

不是有各种的包帮忙算吗?为啥还要自己算?pytorch?
avatar
trymeagain
36 楼
LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy,看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton,Andrew Barto的经典书,可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr,也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时,不到半年肯定都搞通了。
April.Qian 发表于 2024-01-31 14:36

看完了怎么找工作呢?
avatar
fridec2
37 楼
回复 1楼半个马和甲的帖子
> multiple variables calculus derivative 都忘记了。她甚至连chain rule of single variable calculus 
一个是 Calculus II 的, 一个是 Calculus I 的,重新学一遍吧
不明白的地方可以问问 chatGPT,再自己求证一下
Multivariable calculus, is a branch of calculus that deals with functions of multiple variables. 
Vector calculus, on the other hand, is a branch of mathematics concerned with differentiation and integration of vector fields, which are functions that assign a vector to each point in a subset of space.
One of the ways that these two branches of calculus relate is through the gradient. In multiple variable calculus, the gradient of a function at a point is a vector that points in the direction of the greatest rate of increase of the function, and its magnitude is the rate of increase in that direction.
avatar
April.Qian
38 楼
看完了怎么找工作呢?
trymeagain 发表于 2024-01-31 19:21

哈哈, 找工作我没捷径,这方面有技术问题我可以回答。
avatar
shortorlong2003
39 楼
Mark, 谢谢各位解答
avatar
April.Qian
40 楼
不是有各种的包帮忙算吗?为啥还要自己算?pytorch?
trymeagain 发表于 2024-01-31 19:19

哈哈,自己算显得牛逼,自己码back propagation的各种derivative。当然现实中没人自己码,都是调用pytorch包。
avatar
jedi2006
41 楼
Mark AI.
avatar
riple
42 楼
mean一下,微积分这种过个十年就完全忘记的,应该是当年就没学懂😄
avatar
Yuersmom
43 楼
Mark~~
avatar
执迷不悔
44 楼
mark一下 微积分干货
avatar
半个马和甲
45 楼
回复 23楼sunnyStore的帖子
谢谢。是叫how to ace calculus streetwise guide 吗?
avatar
半个马和甲
46 楼
回复 24楼的帖子
感谢如此详细的建议! 请问那个配合看的书名是? Reinforcement learning: am introduction 马?
avatar
shanggj
47 楼
理解back propagation需要点微积分知识吧。主要是理解梯度。
heyykitty0 发表于 2024-01-31 14:40

当年看 吴恩达的 机器学习课 印象很深就是他不断的说, 数学看不懂没关系, 会用就行。 讲到 back propagation, 直接说 这个其实我也不是很懂。
avatar
Moscow79
48 楼
你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单,结果漂亮,应用场合广 它其实主要是用在信号和控制等满足Gausian noise assumption的场合,ML有些算法也用到它,但不是初始的用途 优化目标当然以达到要求的最简单为好,如果你mean square就能解决问题,为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化,层数越多参数空间越大,所谓的curse of dimensionality 不存在magical算法可以保证全局最优,但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练 以前实际应用三层就到头了,2000年以后因为有了大数据和分布式计算的算力,可以支持更复杂的模型,但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了,啥都往里装,以前的AI一般指专家系统,知识提取,逻辑推理这些,ML则是基于数据建模,现在都统称AI

nickbear 发表于 2024-01-31 14:40

训练神经网络和传统的最优化不一样,没必要费劲去找全局最优,网络足够大足够深的时候every local minimum is a global minimum
avatar
waterbear
49 楼

统计就时建立在 大数据输入,寻找 神经网络 链接 网络矩阵系数 的过程。
回去重新复习 大学高数一,和线性代数课本。可能还要找本习题集刷刷。
youyouzou 发表于 2024-01-31 10:50

很多基本概念google, chatgpt和youtube一下就有很详细的解释了
avatar
sunnyStore
50 楼
微积分屠龙刀,倚天剑上就讲过这些BASIC的理解 英文是 how to ace calculus 两本 当小说看,花一个下午去仔细翻一下
sunnyStore 发表于 2024-01-31 14:33

对,就是how to ace calculus streetwise guide 基本你说的基本微积分的常识屠龙刀里都有。这书我有时推荐给忘了微积分的但又想懂基本sense的MBA。
avatar
lianzi
51 楼
除了back propagation以外,基本上很少用到calculus。 Back propagation没人会手动去算。不过我觉得线代倒是还是要比较熟练,不然各种matrix的dimension都搞不明白,查错调参都不行。
avatar
April.Qian
52 楼
LLM里用到的calculus,statistics和linear algebra都非常简单。入门推荐看StatQuest (https://www.youtube.com/@statquest), 然后跟着Andrej Karpathy的视频把代码从头到尾多码几遍就好了https://www.youtube.com/@AndrejKarpathy,看完后自己实现chatgpt的decoder也不是很难。想学reinforcement learning的话就看Richard Sutton,Andrew Barto的经典书,可以配合这个频道一起看 https://www.youtube.com/playlist?list=PLzvYlJMoZ02Dxtwe-MmH4nOB5jYlMGBjr,也可以看Steve Brunton的youtube频道。 每天坚持看两三个小时,不到半年肯定都搞通了。
April.Qian 发表于 2024-01-31 14:36

是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
avatar
flaminglotus
53 楼
蛮好的讨论,来学习下。
avatar
April.Qian
54 楼
回复 24楼的帖子
感谢如此详细的建议! 请问那个配合看的书名是? Reinforcement learning: am introduction 马?
半个马和甲 发表于 2024-01-31 21:44

是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
avatar
diablo23
55 楼
Mark
avatar
ecko
56 楼
是的,reinforcement learning an introduction second edition. Sutton and Barto,
当然最快的学习方式还是看youtube视频,跟着视频码代码,比如Andrej youtube channel里的所有video,我是每个video都跟着码了几遍,把所有细节搞清楚以后就感觉chatgpt也没那么神秘吗😄
April.Qian 发表于 2024-01-31 23:19

avatar
youyouzou
57 楼
你这不是一个问题是好多问题 LMS是经典算法在于它的计算简单,结果漂亮,应用场合广 它其实主要是用在信号和控制等满足Gausian noise assumption的场合,ML有些算法也用到它,但不是初始的用途 优化目标当然以达到要求的最简单为好,如果你mean square就能解决问题,为啥要费力算4次方呢
深度网络调参难是因为这是个多维空间的优化,层数越多参数空间越大,所谓的curse of dimensionality 不存在magical算法可以保证全局最优,但是当数据量和算力足够的情况下可以靠多次尝试得到更好的结果 ML的一条基本原则就是越大的模型需要越多的数据来训练 以前实际应用三层就到头了,2000年以后因为有了大数据和分布式计算的算力,可以支持更复杂的模型,但是越复杂的模型对初始参数越敏感
AI这个概念现在泛化了,啥都往里装,以前的AI一般指专家系统,知识提取,逻辑推理这些,ML则是基于数据建模,现在都统称AI

nickbear 发表于 2024-01-31 14:40

谢谢解答。
30年前的时候,学校有mentor graphics送了很多worksation, 当时学习神经网络原理时,告诉我们这些工作站算个三层的要几天几夜。当然估计就是简单的LMS 目标函数,参数也少。
层数越多,每层的节点数越多,那么参数越多,算起来九月消耗算力,这个容易理解。现在算力够了。 初始参数选1,得出系数矩阵结果1, ... 初始参数选n,得出矩阵结果n, 最后怎么知道哪个厨师参数选的好?通过更多的测试数据集来竞赛 ? 即使得到一个最优的初始参数,及其矩阵细数结果,又怎么判断就是在全局最优解附近?
换个角度来问,就是怎么知道 选择的测试数据集合,就很能代表全体无限的数据 集合?这个靠经验和争论,实际无法给出结论? 多个中医把脉,哪个中医最接近实际结果,是不是类似?






avatar
ggtest
58 楼
mark
avatar
ab18
59 楼
没必要重新看一遍大学微积分,这部分是最基础的那部分,自己周末找一天静下心来学就够了,聪明的话俩小时就全搞明白
avatar
ab18
60 楼

现在还用 LMS 算法吗?30多年前上课用的,当时理解不了这个为啥是个重要和出名的算法? 也不明白 为啥 Mean Square 比mean Power 4(或2n) 好?
还说这个算法 有局部最小解缺陷,后来有 门特卡罗 随机大不步长算法。可是一直发理解这个真能作为通用算法 一定能收敛性到 全局最优解吗?
一直觉的这种算命先生 算除外全局最优解 差不多。太多的unknowns.
是不是 神经网络的的参数,需要经验积累(不是理论严格证明),不断地改 初始 参数值,然后考算法收敛到 全局最优解啊? 这样创造了 调参数的 AI工作?
从来没学过任何一门AI课,只是30多年前学了一门“神经网络”研究生课程,后两年接触了一点目标函数优化的文献算法。后来就做的几乎无相关的活。这里就瞎问问 AI大体上是什么?

youyouzou 发表于 2024-01-31 11:42

least mean square是国内中学数学内容,最小二乘法 mean square跟很多东西是联系的,最基础是它从正态分布来的,正态分布又是个上帝最爱的分布,中央极限定理,一切的一切最后都变成了个正态分布
关于神经网络,为什么用上SGD就能收敛到一个“很好用”的最小值,理论上最近几年也有很多解释。这里面学问也挺多的,30年没碰过这类东西的,就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下,你就别跟着起哄了
avatar
ab18
61 楼
训练神经网络和传统的最优化不一样,没必要费劲去找全局最优,网络足够大足够深的时候every local minimum is a global minimum
Moscow79 发表于 2024-01-31 21:49

这个说法是对的,需要足够宽的网络 过参数化和SGD bias也有影响
avatar
youyouzou
62 楼
没必要重新看一遍大学微积分,这部分是最基础的那部分,自己周末找一天静下心来学就够了,聪明的话俩小时就全搞明白
ab18 发表于 2024-02-01 01:50


是不是就是偏微分方程这个:
f(x1,x2,....xn), by assuming only xi changes at time, then a partial derivative is derived as f'(xi), add all them together delta (f(x1, x2, ...xn) = f'(x1, x2, ...xn) delta(x1) + ...... + f'(x1, x2, ....xn) delta(xn), where each f'(....) assumes only one variable changes.
e.g. f(x1, x2) = x1^3 * e^x2 delta(f(x1, x2)) = ((x1^3)' * delta(x1)) * e^x2 + x1^3 * ((e^x2)' *delta(x2)) = 3*x1^2 * e^x2 * delta(x1) + x1^3 * e^x2 * delta(x2)
是不是就是chain 微分方程? delta (f(g(x)) = f'(g(x))*g'(x) * delta(x)
e.g. f(x) = exp((x^2))
delta(f(x)) = (exp(x^2))' * delta(x^2) = exp(x^2) * delta(x^2) = exp(x^2) * 2*x* delta(x) = 2*x*exp(x^2) * delta(x) that is f'(x) = delta(f(x))/delta(x) = 2 * x * exp(x^2)
和进一步组合起来的稍微复杂一点的公式?
avatar
youyouzou
63 楼
least mean square是国内中学数学内容,最小二乘法 mean square跟很多东西是联系的,最基础是它从正态分布来的,正态分布又是个上帝最爱的分布,中央极限定理,一切的一切最后都变成了个正态分布
关于神经网络,为什么用上SGD就能收敛到一个“很好用”的最小值,理论上最近几年也有很多解释。这里面学问也挺多的,30年没碰过这类东西的,就谦虚一点别上来就是说人家算命先生调参数。人家自嘲一下,你就别跟着起哄了

ab18 发表于 2024-02-01 01:55


这个只是自己不懂,当然只能瞎问啊。不懂的人,才会问这种让别人嘲笑的问题,再为正常不过了。问问题方面,无知者无畏啊。
我也没有装逼,我都说了我也就只有这么一门课科普性知识课程,不拍大家来批判/嘲笑的。更期望的是大侠 三言两语给高屋建瓴总结出进展/科普101。
为啥不知道 global 最优点的情况下,怎么知道多个之中最好/足够好的,规则如何定义的,为啥不能问啊? 一堆中医诊断一个人,最终睡的诊断最正确,也是要有规则定义的,这个逻辑漏洞在哪里?
最小二乘法题度搜素,我是读研才学过的知识。现在国内中学生就学这个,那么他们微积分都学了,太牛逼了。😂
avatar
单身男
64 楼
回复 1楼半个马和甲的帖子
纯正的数学统计学和概率学全是mitivariable calculus 真正要学懂统计学,一定要懂multivariable calculus,比如那些Jacobian, Lagrangian
avatar
ostrakon
65 楼
朋友就是我系列?:)
avatar
ab18
66 楼

这个只是自己不懂,当然只能瞎问啊。不懂的人,才会问这种让别人嘲笑的问题,再为正常不过了。问问题方面,无知者无畏啊。
我也没有装逼,我都说了我也就只有这么一门课科普性知识课程,不拍大家来批判/嘲笑的。更期望的是大侠 三言两语给高屋建瓴总结出进展/科普101。
为啥不知道 global 最优点的情况下,怎么知道多个之中最好/足够好的,规则如何定义的,为啥不能问啊? 一堆中医诊断一个人,最终睡的诊断最正确,也是要有规则定义的,这个逻辑漏洞在哪里?
最小二乘法题度搜素,我是读研才学过的知识。现在国内中学生就学这个,那么他们微积分都学了,太牛逼了。😂
youyouzou 发表于 2024-02-01 02:10

问问题可以好好问,这也是个大家互相学习的论坛,没必要话里话外阴阳怪气的,大家又不是小孩子 不会再回了,你也不用浪费时间继续跟我摆这个架子
avatar
youyouzou
67 楼
问问题可以好好问,这也是个大家互相学习的论坛,没必要话里话外阴阳怪气的,大家又不是小孩子 不会再回了,你也不用浪费时间继续跟我摆这个架子
ab18 发表于 2024-02-01 03:28


我没有资格和架子和你摆。你就觉得我的问题白痴无聊,我也就这个水平。
我看你说中学生都了LMS,我只能摆出我的经历和推理,认为他们太牛逼了。我存疑,你存异吧。
任何人回不回,都是自己的决定。有的人需要浪费时间,有的时间宝贵。求同存异吧!
P S:拉黑也是一个选项
avatar
ifly123
68 楼
Mark 一下,可以透露一下正在哪里上课?
avatar
yrwp
69 楼
Mark
avatar
Cath226
70 楼
天啊 coder都可以不记得derivative 顿时觉得我特么还是转码吧
avatar
Cath226
71 楼
哈哈,自己算显得牛逼,自己码back propagation的各种derivative。当然现实中没人自己码,都是调用pytorch包。
April.Qian 发表于 2024-01-31 20:14

我不搞ML但是需要码gradient descent。 如果有explicit form,我们的经验还是用算出来的,误差小。特别是某些loss function的形式(比如参数太多)会导致gradient descent算法不稳定,数值求导多加一层误差。能不能收敛收敛到哪,就更不好控制了。 不过这可能确实不适合ML那些需要快速试不同的loss func的?毕竟换一个就得重写一遍,感觉很麻烦。数值求导简单直接又一劳永逸
相关阅读
《星级男人通鉴》第50章 老气横秋的小鲜肉一家老牌瑞士银行的风控失败和消逝Top 50 本州大 full ride和 U Michigan 都是工程类专业,应该选哪个,专业都一样【冯站长之家】2024年1月31日(周三)三分钟新闻早餐宾州斯通利花园(Stoneleigh garden),色彩无限《故乡,别来无恙》2024年1月31日历史上的今天从“三远”谈中国人的宗教感遇到hostile,harsh老师怎么办? 这种老师能FIRE掉吗,美国中小学的TENURE制度真该废掉疯狂2024年1月31日医疗晨报如果张遮记得前世,他会拒绝姜雪宁吗😂?答谢礼演绎原著名场面🌹,with English subtitle重庆姐弟坠亡案被告人被执行死刑【冯站长说安全】2024年1月31日lululemon本周打折区更新啦!有Softstreme神裤和Scuba的espresso色的金拉链款童年故事(7):”非礼勿视“小说转贴(油篓阿姨的):刚才在Costco被一个大帅哥搭讪了 来源: 楚伊人 于 2024Disney达人请进:Magic Kingdom下午1点才能入园的话,还有买genie和LL的必要吗?精神状态,挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的呀挺好的节日季lululemon被"lulu"们收割199元的AI课卖了5000万,“清华博士”李一舟突然大火!有学员吐槽:看完后想退钱,有人质疑被踢出群求助帖:回国remotely工作Tory Burch 半年一次的private sale,好多新款加入折扣区,Kira黑金小方包很好看证监会对4家企业拟香港/美国上市,出具备案补充材料要求(反馈意见)(2024年1月5日—2024年1月11日)我现在在台湾台南旅游忽然收到防空警报 中国发射Missile(卫星?)。吓死了🤯 难道这周选举真的有动作《仙剑四》1月17日20:00开播,两周连更到完结,不断更!鞠婧祎、陈哲远领衔主演,茅子俊、毛晓慧主演挪威特罗姆瑟(Tromso),舞动云彩证监会对4家企业拟香港上市,出具备案补充材料要求(反馈意见)(2024年1月12日—2024年1月18日)明天登台SUPER BOWL,真心没觉得Taylor Swifts的歌有多好听,搞不懂那么多人喜欢她?求助帖。请各位大佬帮我看看,有照片。木篱笆要paint或stain吗?不做任何保护多久需要换,家里的篱笆六年了,考虑stain或paint终于下雪啦❄️❄️❄️,Lola在雪地里奔跑太开心了😃向各位姐姐妹妹们拜年!我摆,我摆,我的大尾巴左右摆证监会对6家企业拟香港/美国上市,出具备案补充材料要求(反馈意见)(2024年1月19日—2024年1月25日)与前妻书(二)苏珊米勒每日运势2024年1月31日大家来评论评论 pizza guy refuses to give pizza without tip打折季大家买的最多的牌子是啥?我来抛砖引玉review一下一个月来买的十几单aritzia,有的有真人Trump那个迫害华人的China initiative之前被民主党叫停了,共和党众议院打算立法重新开启多图石锤 -Google清华夫妻命案 -男生出轨在先,女生吵架刀砍男生,男生父母在联系正当防卫律师 )完全不出门,每天节奏,四小时工作,两小时电脑上买菜,购物,缴费,四小时玩电脑,我这是往颓废路上狂奔节奏吗
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。