跳转至

读书笔记记录->ML_with_py

Ps:本书的一些相关注意事项

  1. 本书的目的主要是为了对于读者从理论到具体的练习实践过程当中理解机器学习
  2. 本书当中涉及到一些概率论(probability theory)及线性代数(linear algebra)的基本知识
  3. 本书当中的部分章节使用特殊符号(类似异或符号)作为开头以分割线 “———”作为结尾 该部分主要面向研究生或者研究人员,如果希望了解某个主题的话可以深入了解相关的专题
  4. 大题的章节介绍
    1. 第一章:机器学习的基本概念
    2. 第二、三章:Python的编程知识,第三章当中会介绍常用的三个软件包(numpypandasmatplotlibPs:第二、三章在了解相关内容的前提下可以选择跳过
    3. 第四章:简要介绍 scikit-learn (一个基于 NumpyScipymatplotlib 的开源库,可以进行预测数据分析、分类回归聚类降维模型选择等算法,简单来说就是一个机器学习相关的库)之后从一个示例入手进行介绍并且联系:数据拆分、数据可视化、归一化、训练分类器(K近邻(k-nearest neighbors))、预测、评估。其中介绍的技术实现将在书中很多地方的实际应用当中得到使用。第四章使用到了预测模型(k近邻/KNN),第五章至第八章为常用的分类器和回归银子提供了详细的数学机制
    4. 第五章:从 KNN 开始讲起,因为 KNN 在该领域当中具有悠久历史
    5. 第六章:涉及到一类重要的机器学习方法(线性模型),不过并未提供完整的线性模型资料,同时介绍了使用最广泛的线性模型(包括线性判别分析、带/不带正则化的逻辑回归和多元线性回归)
    6. 第七章介绍决策树(一种非线性的图形模型)在机器学习当中的作用,因为其的可解释性机器在其他强大模型当中的作用,如随机森林(第八章)、梯度回归树(第八章)
    7. 第八章讨论集成学习(ensemble learning),覆盖一些集成学习技术及其作用明显的一些应用方面:stacking,bagging, random forest, pasting, AdaBoost, and gradient boosting.
    8. 第九章讨论了评估模型性能与各种的估算规则和指标。(模型的评估与选择也是一个重要的部分)
    9. 第十章中涉及三种主要的特征选择方法:filter、wrapper、embedded methods(过滤器、包装器、嵌入式方法)
    10. 模型的生成流程包括但是不仅限于:规范化、特征选择/提取、模型选择、模型构建与评估。(在4->10章当中将会涉及这部分内容),但是第十一章当中讲述如何正确实施所有的步骤
    11. 讨论无监督学习任务:聚类,主要使用的部分是scikit-learn,实现的最佳方法是人工神经网络(artificial neural networks KNN),由于训练“深度”神经网络需要估计并且调整许多参数,造成极大的成本,所以训练各种形式的神经网络需要高度依赖并行计算(通过图形处理器(GPU)或者张量处理单元(TPU))。同时,当前的scikit-learn目前还支持卷积神经网络,或者递归神经网络。因此人工神经网络部分将推迟至13-15章节