Ailearning
AiLearning:数据分析+机器学习实战+线性代数+PyTorch+NLTK+TF2
Install / Use
/learn @apachecn/AilearningREADME
一种新技术一旦开始流行,你要么坐上压路机,要么成为铺路石。——Stewart Brand
- 在线阅读
- 在线阅读(v1)
- QuantLearning
- ApacheCN 中文翻译组 713436582
- ApacheCN 学习资源
- 注: 广告位合作(物美价廉),请联系 apachecn@163.com
路线图
- 入门只看: 步骤 1 => 2 => 3,你可以当大牛!
- 中级补充 - 资料库: https://github.com/apachecn/ai-roadmap
补充
- 算法刷题: https://www.ixigua.com/pseries/6822642486343631363/
- 面试求职: https://www.ixigua.com/pseries/6822563009391493636/
- 机器学习实战: https://www.ixigua.com/pseries/6822816341615968772/
- NLP教学视频: https://www.ixigua.com/pseries/6828241431295951373/
- AI常用函数说明: https://github.com/apachecn/AiLearning/tree/master/AI常用函数说明.md
1.机器学习 - 基础
支持版本
| Version | Supported | | ------- | ------------------ | | 3.6.x | :x: | | 2.7.x | :white_check_mark: |
注意事项:
- 机器学习实战: 仅仅只是学习,请使用 python 2.7.x 版本 (3.6.x 只是修改了部分)
基本介绍
- 资料来源: Machine Learning in Action(机器学习实战-个人笔记)
- 统一数据地址: https://github.com/apachecn/data
- 书籍下载地址: https://github.com/apachecn/data/tree/master/book
- 机器学习下载地址: https://github.com/apachecn/data/tree/master/机器学习
- 深度学习数据地址: https://github.com/apachecn/data/tree/master/深度学习
- 推荐系统数据地址: https://github.com/apachecn/data/tree/master/推荐系统
- 视频网站: 优酷 /bilibili / Acfun / 网易云课堂,可直接在线播放。(最下方有相应链接)
- -- 推荐 红色石头: 台湾大学林轩田机器学习笔记
- -- 推荐 机器学习笔记: https://feisky.xyz/machine-learning
学习文档
| 模块 | 章节 | 类型 | 负责人(GitHub) | QQ | | --- | --- | --- | --- | --- | | 机器学习实战 | 第 1 章: 机器学习基础 | 介绍 | @毛红动 | 1306014226 | | 机器学习实战 | 第 2 章: KNN 近邻算法 | 分类 | @尤永江 | 279393323 | | 机器学习实战 | 第 3 章: 决策树 | 分类 | @景涛 | 844300439 | | 机器学习实战 | 第 4 章: 朴素贝叶斯 | 分类 | @wnma3mz<br/>@分析 | 1003324213<br/>244970749 | | 机器学习实战 | 第 5 章: Logistic回归 | 分类 | @微光同尘 | 529925688 | | 机器学习实战 | 第 6 章: SVM 支持向量机 | 分类 | @王德红 | 934969547 | | 网上组合内容 | 第 7 章: 集成方法(随机森林和 AdaBoost) | 分类 | @片刻 | 529815144 | | 机器学习实战 | 第 8 章: 回归 | 回归 | @微光同尘 | 529925688 | | 机器学习实战 | 第 9 章: 树回归 | 回归 | @微光同尘 | 529925688 | | 机器学习实战 | 第 10 章: K-Means 聚类 | 聚类 | @徐昭清 | 827106588 | | 机器学习实战 | 第 11 章: 利用 Apriori 算法进行关联分析 | 频繁项集 | @刘海飞 | 1049498972 | | 机器学习实战 | 第 12 章: FP-growth 高效发现频繁项集 | 频繁项集 | @程威 | 842725815 | | 机器学习实战 | 第 13 章: 利用 PCA 来简化数据 | 工具 | @廖立娟 | 835670618 | | 机器学习实战 | 第 14 章: 利用 SVD 来简化数据 | 工具 | @张俊皓 | 714974242 | | 机器学习实战 | 第 15 章: 大数据与 MapReduce | 工具 | @wnma3mz | 1003324213 | | Ml项目实战 | 第 16 章: 推荐系统(已迁移) | 项目 | 推荐系统(迁移后地址) | | | 第一期的总结 | 2017-04-08: 第一期的总结 | 总结 | 总结 | 529815144 |
网站视频
当然我知道,第一句就会被吐槽,因为科班出身的人,不屑的吐了一口唾沫,说傻X,还评论 Andrew Ng 的视频。。
我还知道还有一部分人,看 Andrew Ng 的视频就是看不懂,那神秘的数学推导,那迷之微笑的英文版的教学,我何尝又不是这样走过来的?? 我的心可能比你们都痛,因为我在网上收藏过上10部《机器学习》相关视频,外加国内本土风格的教程: 7月+小象 等等,我都很难去听懂,直到有一天,被一个百度的高级算法分析师推荐说: 《机器学习实战》还不错,通俗易懂,你去试试??
我试了试,还好我的Python基础和调试能力还不错,基本上代码都调试过一遍,很多高大上的 "理论+推导",在我眼中变成了几个 "加减乘除+循环",我想这不就是像我这样的程序员想要的入门教程么?
很多程序员说机器学习 TM 太难学了,是的,真 TM 难学,我想最难的是: 没有一本像《机器学习实战》那样的作者愿意以程序员 Coding 角度去给大家讲解!!
最近几天,GitHub 涨了 300颗 star,加群的200人, 现在还在不断的增加++,我想大家可能都是感同身受吧!
很多想入门新手就是被忽悠着收藏收藏再收藏,但是最后还是什么都没有学到,也就是"资源收藏家",也许新手要的就是 MachineLearning(机器学习) 学习路线图。没错,我可以给你们的一份,因为我们还通过视频记录下来我们的学习过程。水平当然也有限,不过对于新手入门,绝对没问题,如果你还不会,那算我输!!
视频怎么看?

- 理论科班出身-建议去学习 Andrew Ng 的视频(Ng 的视频绝对是权威,这个毋庸置疑)
- 编码能力强 - 建议看我们的《机器学习实战-教学版》
- 编码能力弱 - 建议看我们的《机器学习实战-讨论版》,不过在看理论的时候,看 教学版-理论部分;讨论版的废话太多,不过在讲解代码的时候是一行一行讲解的;所以,根据自己的需求,自由的组合。
【免费】数学教学视频 - 可汗学院 入门篇
- @于振梓 推荐: 可汗学院-网易公开课
| 概率 | 统计 | 线性代数 | | - | - | - | | 可汗学院(概率) | 可汗学院(统计学)| 可汗学院(线性代数)
机器学习视频 - ApacheCN 教学版
||| | - | - | | AcFun | B站 | | <a title="AcFun(机器学习视频)" href="http://www.acfun.cn/u/12540256.aspx#page=1" target="_blank"><img width="290" src="/docs/img/ApacheCN-ML-AcFun.jpg"></a> | <a title="bilibili(机器学习视频)" href="https://space.bilibili.com/97678687/channel/collectiondetail?sid=707585" target="_blank"><img width="290" src="/docs/img/ApacheCN-ML-bilibili.jpg"></a> | | 优酷 | 网易云课堂 | | <a title="YouKu(机器学习视频)" href="http://i.youku.com/apachecn" target="_blank"><img width="290" src="/docs/img/ApacheCM-ML-youku.jpg"></a> | <a title="WangYiYunKeTang(机器学习视频)" href="http://study.163.com/course/courseMain.htm?courseId=1004582003" target="_blank"><img width="290" src="/docs/img/ApacheCM-ML-WangYiYunKeTang.png"></a> |
【免费】机器/深度学习视频 - 吴恩达
| 机器学习 | 深度学习 | | - | - | | 吴恩达机器学习 | 神经网络和深度学习 |
2.深度学习
支持版本
| Version | Supported | | ------- | ------------------ | | 3.6.x | :white_check_mark: | | 2.7.x | :x: |
入门基础
- 反向传递: https://www.cnblogs.com/charlotte77/p/5629865.html
- CNN原理: http://www.cnblogs.com/charlotte77/p/7759802.html
- RNN原理: https://blog.csdn.net/qq_39422642/article/details/78676567
- LSTM原理: https://blog.csdn.net/weixin_42111770/article/details/80900575
Pytorch - 教程
-- 待更新
TensorFlow 2.0 - 教程
-- 待更新
目录结构:
切分(分词)
词性标注
命名实体识别
句法分析
WordNet可以被看作是一个同义词词典
词干提取(stemming)与词形还原(lemmatization)
- https://www.biaodianfu.com/nltk.html/amp
TensorFlow 2.0学习网址
- https://github.com/lyhue1991/eat_tensorflow2_in_30_days
3.自然语言处理
支持版本
| Version | Supported | | ------- | ------------------ | | 3.6.x | :white_check_mark: | | 2.7.x | :x: |
学习过程中-内心复杂的变化!!!
自从学习NLP以后,才发现国内与国外的典型区别:
1. 对资源的态度是完全相反的:
1) 国内: 就好像为了名气,举办工作装逼的会议,就是没有干货,全部都是象征性的PPT介绍,不是针对在做的各位
2)国外: 就好像是为了推动nlp进步一样,分享者各种干货资料和具体的实现。(特别是: python自然语言处理)
2. 论文的实现:
1) 各种高大上的论文实现,却还是没看到一个像样的GitHub项目!(可能我的搜索能力差了点,一直没找到)
2)国外就不举例了,我看不懂!
3. 开源的框架
1)国外的开源框架: tensorflow/pytorch 文档+教程+视频(官方提供)
2) 国内的开源框架: 额额,还真举例不出来!但是牛逼吹得不比国外差!(MXNet虽然有众多国人参与开发,但不能算是国内开源框架。基于MXNet的动手学深度学习(http://zh.d2l.ai & https://discuss.gluon.ai/t/topic/753)中文教程,已经由沐神(李沐)以及阿斯顿·张讲授录制,公开发布(文档+第一季教程+视频)。)
每一次深入都要去翻墙,每一次深入都要Google,每一次看着国内的说: 哈工大、讯飞、中科大、百度、阿里多牛逼,但是资料还是得国外去找!
有时候真的挺恨的!真的有点瞧不起自己国内的技术环境!
当然谢谢国内很多博客大佬,特别是一些入门的Demo和基本概念。【深入的水平有限,没看懂】

- 【入门须知】必须了解: https://github.com/apachecn/AiLearning/tree/master/nlp
- 【入门教程】强烈推荐: PyTorch 自然语言处理: https://github.com/apachecn/NLP-with-PyTorch
- Python 自然语言处理 第二版: https://usyiyi.github.io/nlp-py-2e-zh
- 推荐一个liuhuanyong大佬整理的nlp全面知识体系: https://liuhuanyong.github.io
- 开源 - 词向量库集合:
- https://www.cnblogs.com/Darwin2000/p/5786984.html
- https://ai.tencent.com/ailab/nlp/embedding.html
- https://blog.csdn.net/xiezj007/article/details/85073890
- https://github.com/Embedding/Chinese-Word-Vectors
- https://github.com/brightmart/nlp_chinese_corpus
- https://github.com/codemayq/chinese_chatbot_corpus
- https://github.com/candlewill/Dialog_Corpus
1.使用场景 (百度公开课)
第一部分 入门介绍
- 1.) 自然语言处理入门介绍
第二部分 机器翻译
- 2.) 机器翻译
第三部分 篇章分析
第四部分 UNIT-语言理解与交互技术
- 4.) UNIT-语言理解与交互技术
应用领域
中文分词:
- 构建DAG图
- 动态规划查找,综合正反向(正向加权反向输出)求得DAG最大概率路径
- 使用了SBME语料训练了一套 HMM + Viterbi 模型,解决未登录词问题
1.文本分类(Text Classification)
文本分类是指标记句子或文档,例如电子
