首页 > AI资讯 > 最新资讯 > 如何系统学习机器学习?

如何系统学习机器学习?

新火种    2023-09-07

作为一名五年前从安卓开发,成功转行算法工程师的程序员,认真总结一下学习经验。

书看完了,感觉也懂了,但是你一考我,我好像又忘了。

时候可以看吴恩达的机器学习视频,Coursera上就有,然后一定要记笔记,跟着推导一遍。记笔记是因为在以后学习生涯中你一定会回过来翻看,记下来就不用再去翻视频了,大大节省了时间。

2. 机器学习实战

之前书上都是伪代码,《机器学习实战》这本书给出了各个算法的Python实现,而且是不调包,直接给出算法核心细节,看懂这本书后,你就有自信说,我不是调包侠,我能直接手撸机器学习算法。

机器学习实战阶段需要学习pandas , numpy, sklearn 这三个包的使用,模型主要使用xgboost 和 lightgbm, 代码上主要进行特征构造、特征筛选、特征工程,思维上培养分析模型的能力。

kaggle 是一个业界备受认可的机器学习比赛平台,我推荐下面这本书,这本书不仅教各个库的使用方式,而且使用kaggle 题目举例,给出了如何加载数据,构造特征,交叉验证,调参各个阶段的代码范式,看完之后你就可以组队去kaggle上一显身手了。

我这里推荐一本电子书,《解析卷积神经网络-- 深度学习实践手册》,是著名的南京大学lamda实验室魏秀参博士写的。这本书是基于模型训练的角度讲述了卷积,参数初始化,网络正则化,模型bagging等各个知识,在实际模型训练中都会用得到。

二. 看山不是山 -- 深入学习

1. 机器学习理论

2. 机器学习实战

3.深度学习理论

4. 挑选方向

5. 深度学习实战

三. 看山还是山 -- 工作后体验

作为一名五年前从安卓开发,成功转行算法工程师的程序员,认真总结一下学习经验。

首先,我们要认识到,机器学习确实有一定难度,因为先验知识较多,并且不像开发那样能有及时的正反馈。整个学习周期是偏长的,那如何才能坚持下去呢?需要我们能看清整个学习步骤,知道在每个阶段学到怎样一个标准,标准是最重要的,因为机器学习囊括的知识点太多,入门时一头深扎进入永远看不到尽头。后文会明确提到每个学习阶段的标准,和为什么是这样的。

研一入门时,重点的是先培养学习兴趣,对于机器学习和深度学习有一个全方面的体感。了解他们能做些什么,以后的就业方向有哪些,明确愿意深入发展之后,搜集资料或者咨询学长获取一个最快速的学习路线。而这些点我这篇文章也会重点阐述,为了能让大家少走弯路。

一. 看山是山 -- 初识机器学习

听很多人提到机器学习,有很多公式和概念,可是我想先大体了解一下机器学习,看看我到底感不感兴趣。那有没有诸如Head First 那种快速简单入门的书呢?

有,就是《集体编程智慧》这本书。这本书其实非常经典,但是可能由于比较入门,现在很少有人提起它了。一开始并不需要深入了解机器学习算法的知识,而是知道机器学习能做些什么,培养对机器学习的兴趣,这一点将会是你未来坚持走下去的源动力。

我上学时期就是阅读这本书发现了机器学习的魅力,通过分析数据,得到集体智慧,这不就是编程的最高价值所在嘛。

《集体智慧编程》以机器学习与计算统计为主题背景,专门讲述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论,通过复杂的算法来从Web网站获取、收集并分析用户的数据和反馈信息,以便创造新的用户价值和商业价值。全书内容翔实,包括协作过滤技术(实现关联产品推荐功能)、集群数据分析(在大规模数据集中发掘相似的数据子集)、搜索引擎核心技术(爬虫、索引、查询引擎、PageRank算法等)、搜索海量信息并进行分析统计得出结论的优化算法、贝叶斯过滤技术(垃圾邮件过滤、文本过滤)、用决策树技术实现预测和决策建模功能、网络的信息匹配技术、机器学习和人工智能应用等。

二. 看山不是山 -- 深入学习

到了这个阶段,默认你有很长的学习时间,希望系统的学习,而不是为了急于就业想走捷径。

整个学习路径是: 机器学习理论 -> 机器学习实战 -> 深度学习理论 -> 挑选深度学习就业方向 -> 方向实战。这就是从学习到找工作的整个学习路径,下面详细说说每个阶段要做些什么和怎么做!

1. 机器学习理论

机器学习确实需要数学基础,但是要求并没有很高,只要大学上过《高等代数》和《概率论》课程就完全能应对。机器学习理论最扎实的学习方式就是上课,我曾经就去蹭过计算机系的 机器学习 课程,一个学期连学带考,非常扎实。如果说你不方便去蹭课,或者老师水平有限,通过看书或者看视频自学也是完全ok。下面按照时间序,讲讲应该依次看什么书。

首先从西瓜书,李航的《统计学习方法》,模式识别三本中选择一个当做教材,不用看完全部章节,因为有的知识可能你整个算法生涯都不会用到,一开始我们只学普世知识,后面有用到其他的知识点再转过头学。西瓜书只用看到第九章 聚类,《统计学习方法》只用看到第九章 EM算法,《模式识别》是清华大学研究生模式识别课的教材,建议看完西瓜书和统计学习方法之后再翻翻。

书看完了,感觉也懂了,但是你一考我,我好像又忘了。

这时候可以看吴恩达的机器学习视频,Coursera上就有,然后一定要记笔记,跟着推导一遍。记笔记是因为在以后学习生涯中你一定会回过来翻看,记下来就不用再去翻视频了,大大节省了时间。

另外,还推荐知乎官方「知乎知学堂」和「AGI课堂」联动,推出的【程序员的AI大模型进阶之旅】公开课,一共2天的课程,完全免费。里面有介绍了在llm 的时代,程序要应该如何抓住这次机会,并且有名师讲解了模型原理和开源工具LangChain 等技术干货,对于理解llm原理非常有帮助。

2023超的AI大模型公开课大模型资料包免费领!¥0.00立即体验

这时候你已经完全了解了机器学习的基础知识,但是可能怀疑自己是否能把这些算法实现,这就即将进入实战阶段。

2. 机器学习实战

之前书上都是伪代码,《机器学习实战》这本书给出了各个算法的Python实现,而且是不调包,直接给出算法核心细节,看懂这本书后,你就有自信说,我不是调包侠,我能直接手撸机器学习算法。

机器学习实战阶段需要学习pandas , numpy, sklearn 这三个包的使用,模型主要使用xgboost 和 lightgbm, 代码上主要进行特征构造、特征筛选、特征工程,思维上培养分析模型的能力。

kaggle 是一个业界备受认可的机器学习比赛平台,我推荐下面这本书,这本书不仅教各个库的使用方式,而且使用kaggle 题目举例,给出了如何加载数据,构造特征,交叉验证,调参各个阶段的代码范式,看完之后你就可以组队去kaggle上一显身手了。

到这个阶段你已经完全掌握了机器学习的原理,并且有了一定的模型实践经历,这时可以不再往下学习,选择走向数据分析的方向,去做一名Pointer,值得一提的是,现在降本增效的大环境下,企业对经营分析师的需求和薪资大大提升,趁着这个历史窗口去做一名经营分析师也很不错。

如果你坚定的选择做一名算法工程师,那就必须需要有深度学习经历,敬请往下看。

3.深度学习理论

有了机器学习理论基础,学习深度学习会简单很多,如果说学习机器学习的难受程度是10,则学习深度学习难受程度只有6,但是深度学习非常重要,知识点很多,是今后工作面试考查的重点。

深度学习网上一般推荐花书,但是这本书巨厚,我强烈不建议入门的时候读,因为它虽然经典,但是内容太深奥,太学术,很容易把人劝退,而且工作中可能用不上。

我这里推荐一本电子书,《解析卷积神经网络-- 深度学习实践手册》,是著名的南京大学lamda实验室魏秀参博士写的。这本书是基于模型训练的角度讲述了卷积,参数初始化,网络正则化,模型bagging等各个知识,在实际模型训练中都会用得到。

除了需要知道模型训练的知识以外,需要了解深度学习中的CNN,RNN,LSTM 等各种网络结构,以及解决的问题,这里推荐台湾大学李宏毅老师的课程,但是这个阶段选择李宏毅老师的一门课程去看即可,因为我们还没有决定以后的主攻方向,不同的深度学习方向需要的背景知识不同,这里只需要了解普世知识即可。

作为一名学生,首先需要知道各个方向是干啥的,自己对哪方向有兴趣。这里推荐《21个项目玩转深度学习》这本书,这本书设计到了图像识别模型,人脸检测模型,文本分类模型,时间序列预测,以及强化学习。看这本书不是为了学习知识点,而是能帮你建立起不同AI方向大概是做些什么的一个概念和预期。

5. 深度学习实战

经过很长时间的调研,你决定了你的主攻方向,那么接下来就需要实战了,不同的方向都需要会用模型训练框架,那么你是选择tensorflow,torch,caffe 哪个来实践呢?建议选择TensorFlow,因为市面上90% 的公司都是用的TensorFlow,选择一个最流行的框架绝对不会错。

我推荐《TensorFlow - 实战google 深度学习框架》这本书,不仅讲解了api使用方法,而且讲解了各个操作的内部原理,你会发现之前学习的深度学习原理真有用,你能很方便的使用TensorFlow实现池化层等各个操作。

当然除了训练框架,你需要深入学习主攻方向的关键问题和演变历史,这个过程非常困难了,建议选择相应的实验室,和导师同学们一块研究。但是我当年既不幸又幸运,不幸的是我没有一个实验室的学习环境,幸运的是我有足够的自由时间来自学,我最后误打误撞的进入了推荐系统这个领域,我是通过和同学组队打比赛,然后实习找工作 这个路子进入的机器学习领域,4年前实习面试我感觉已经挺难的,但是现在更难,现在大厂的实习面试是按照校招难度进行,并且筛出来的大厂校招面试简历中一般都会有论文发表。

三. 看山还是山 -- 工作后体验

工作之后,其实还有很多知识需要学习,我当年选择机器学习领域,一方面是看到了集体智慧编程这本书,感受到了算法的魅力,另一方向我惊叹于机器学习中优化loss 思想的巧妙,是完全可以应用到人生生活中去的,如何看待李沐老师提出的「用随机梯度下降来优化人生」?

写这个回答的初衷是为了帮助入门机器学习的朋友们,看清楚整个学习路径,有一个大局观。不至于像我当年学习那样,不知道下一步该怎么走,而且没有一个好的实验室氛围,误打误撞,非常焦虑。幸运的是我走了出来,如果没走出来,那结局就十分惨痛了。希望这篇文章能帮助像当年的我一样,没有资源的朋友们,帮助大家快速入门。

相关推荐
免责声明
本文所包含的观点仅代表作者个人看法,不代表新火种的观点。在新火种上获取的所有信息均不应被视为投资建议。新火种对本文可能提及或链接的任何项目不表示认可。 交易和投资涉及高风险,读者在采取与本文内容相关的任何行动之前,请务必进行充分的尽职调查。最终的决策应该基于您自己的独立判断。新火种不对因依赖本文观点而产生的任何金钱损失负任何责任。