在读者阅读本段文字的时候如果有些属于不太熟悉,或者有些模型算法听到的比较少请不用担心,一方面可能是这类算法模型以后也很好用,如果需要用到的话,到时候再针对性的学习这类算法模型也不迟。另外一方面我会尽量指明这些算法应用的场景。
1. 回归算法回归算法涉及对变量之间的关系进行建模,我们在使用模型进行的预测中产生的错误度量来改进。这些方法是数据统计的主力,所以回归算法又称为回归分析。此外,它们也已被选入统计机器学习。
常用的的回归算法是:
普通最小二乘回归(OLSR);
线性回归;
Logistic回归;
逐步回归;
多元自适应回归样条(MARS);
局部估计的散点图平滑(LOESS);
用途场景:预测未来,预测销量等等。
例子:如下图:当一天中早高峰或者晚高峰的时候实际上是商场里面的品牌商销量减少的时候,这一点可以通过我的AI-UTAUT模型数据实证。
2. 基于实例的算法该类算法是解决实例训练数据的决策问题。这些方法构建了示例数据的数据库,它需要将新数据与数据库进行比较。为了比较,我们使用相似性度量来找到最佳匹配并进行预测。出于这个原因,基于实例的方法也称为赢者通吃方法和基于记忆的学习,重点放在存储实例的表示上。因此,在实例之间使用相似性度量。
常用的基于实例的算法是:
k-最近邻(kNN);
学习矢量量化(LVQ);
自组织特征映射(SOM);
本地加权学习(LWL);
正则化算法;
用途场景:商品上新双11前夕高达千万级。因为第三方POP商品上新没有人工审核环节,商会有意、无意地将商品发布到错误类目,更有甚者,部分商家采用批量上新和批量搬家工具,导致大规模错挂商品的出现,不断冲击着商品生态防线,影响用户购物体验,并带来了诸如食品、药品和成人用品等相关的一系列监管风险。
面对海量级的商品数据和高达上千个类目的商品层级分类体系,如何才能有效判别商品类目挂靠的正确与否,实现全方位和高效的监控。
在商品类目预测这个问题上,很多电商公司在过去的10年里一直在不断探索和改进,公开资料显示,电商巨头eBay先后采用了传统的规则和统计等模型、如KNN、KNN+SLM和DNN几种方法,准确率从最初的50%一步步提高到了90%+。
3. 决策树算法决策树方法用于构建决策模型,这是基于数据属性的实际值。决策在树结构中进行分叉,直到对给定记录做出预测决定。决策树通常快速准确,这也是机器学习从业者的最爱的算法。
常用的的决策树算法是:
分类和回归树(CART);
迭代Dichotomiser 3(ID3);
C4.5和C5.0;
卡方自动交互检测(CHAID);
决策树桩;
M5;
条件决策树;
用途场景:有一个经典的案例判断一个西瓜是否是好瓜就是典型的决策树算法模型的应用。
例子如下图:
上图说明:
有一个最直观的解释,如果你吃的大部分的好瓜纹理都很清晰,那么你肯定首先去判断面前的瓜纹理是不是清晰,如果不清晰那极有可能不是好瓜。但是还有一个问题,好瓜大都纹理清晰,但并不是所有纹理清晰的瓜都是好瓜,你需要继续根据其他特征去判断。
假设你面前的瓜纹理清晰,那么你回去想你吃过的纹理清晰的好瓜中,还有什么让你印象深刻的特征?对了,你想起来根蒂蜷缩的纹理清晰的瓜是大都是好瓜。
上面我们讲过了怎么判断一个瓜是好瓜。如果让计算机去学习如何判断好瓜,那么我们需要给它很多的样例。这些样例数据中,有好瓜有坏瓜,每个样例都给出了瓜的纹理、根蒂、色泽、触感、敲声等等特征。有了样例数据,计算机如何得到一个像人类判断过程中的那种顺序判断的思路呢?答案就是决策树。
4. 贝叶斯算法这些方法适用于贝叶斯定理的问题,如分类和回归。
常用的贝叶斯算法是:
朴素贝叶斯;
高斯朴素贝叶斯;
多项朴素贝叶斯;
平均一依赖估计量(AODE);
贝叶斯信念网络(BBN);
贝叶斯网络(BN);
用途场景:例如判断网络环境是否异常,使用无监督学习获得每个设备、每个人员的网络行为模式,结合行为分析与高等数学,运用递归贝叶斯估计(Recursive Bayesian Estimation,RBE)理论,提供对事件的估计概率并随着新特征的发现不断更新,自动判断网络行为是否存在异常。
5. 聚类算法几乎所有的聚类算法都涉及使用数据中的固有结构,这需要将数据最佳地组织成最大共性的组。
常用的聚类算法是:
K-均值;
K-平均;
期望最大化(EM);
分层聚类;
用途场景:在用机器做聚类学习的时候,我们每种算法都对应有相应的计算原则,可以把输入的各种看上去彼此“相近”的向量分在一个群组中。然后下一步,人们通常更有针对性地去研究每一组聚在一起的对象所拥有的共性以及那些远离各个群组的孤立点——这种孤立点研究在刑侦、特殊疾病排查和用户群体划分等方面都有应用。
6. 关联规则学习算法关联规则学习方法提取规则,它可以完美的解释数据中变量之间的关系。这些规则可以在大型多维数据集中被发现是非常重要的。
常用的关联规则学习算法是:
Apriori算法;
Eclat算法;
用途场景:在《 AI产品经理从懂精准推荐模型到产品创新》上篇中讲述比较多,感兴趣的读者可以翻阅。
7. 人工神经网络算法这些算法模型大多受到生物神经网络结构的启发。它们可以是一类模式匹配,可以被用于回归和分类问题。它拥有一个巨大的子领域,因为它拥有数百种算法和变体。
常用的人工神经网络算法是:
感知机;
反向传播;
Hopfield神经网络;
径向基函数神经网络(RBFN);
用途场景:使用神经网络算法从用户的自拍中完成人脸识别,并自动抠出轮廓,并根据本地算法,将自拍快速转变为动画风格或其它自定义风格的表情包。
8. 深度学习算法深度学习算法是人工神经网络的更新,同时深度学习算法也是机器学习的典型代表算法。他们更关心构建更大更复杂的神经网络。
常用的深度学习算法是:
深玻尔兹曼机(DBM);
深信仰网络(DBN);
卷积神经网络(CNN);
堆叠式自动编码器;
用途场景:非常多,有医疗影像识别、食品配料识别,人脸识别等等。
9. 常用机器学习算法列表朴素贝叶斯分类器机器学习算法