最新帖子 精华区 社区服务 会员列表 统计排行
  • 557阅读
  • 0回复

你真的了解机器学习、人工智能、统计建模吗?

楼层直达
级别: 论坛版主

2016-12-21 

分布式计算、云计算、人工智能

机器学习、深度学习、统计建模

这些最新的词汇大家应该都有所了解

但你真的了解这些词的意义吗?

今天就让超模君带你好好了解一番


一、机器学习


机器学习是以数据为基础,它专注于为回归和分类算法。其底层随机机制往往是次要的、不被重视的。当然,许多机器学习技术也可以通过随机模型和回归计算来定义,但数据并不是由模型生成的。相反,机器学习主要是为了辨识出运行某个特定任务的算法或技术(或者是二者兼有):顾客最好由k-Means聚类,或者是DBSCAN、决策树、随机森林,还是支持向量机?


简而言之,对统计学家来说,模型是首要的,对机器学习专家来说,数据才是排在第一位的。因为机器学习强调的是数据,而不是模型。把数据分离成训练和测试组的验证技术是非常重要的。一个解决方案的优劣不在于p值,而在于证明这个解决方案在以前看不到的数据方面预测良好。把一个统计模型和一套数据匹配,或者为一套数据训练决策树,就需要评估未知量。决策树的最佳分割点,是由预估参数数据决定的,而预估参数是由从属变量的条件分布决定的。


没有一种技术能够自称会学习。训练才是塑造某物的必经之路。学习,从另一方面来讲,就暗示着获得新的技能,而训练是学习的一部分。通过训练一个深度神经网络,也就是说,通过输入数据设定好它的砝码和偏向,它就学会了分类,这个神经网络就变成了一个分类器。


二、深度学习


当一个机器学习系统不是去通过编程是实现某一项功能,而是通过编程去学习一项能力,这就是一个真的学习系统,被指定去学习完成某项任务的,称之为深度学习。深度学习也是一种数据驱动型的实践。跟机器学习不同的是,深度学习不依赖于强悍的算法技术。几乎所有这种形式的机器学习应用,多是以深度神经网络为基础的。


深度学习被频繁应用于各种弱人工智能应用,在这些领域,机器会去做人类的工作。


三、分布式计算


分布式计算简单来说,是把一个大计算任务拆分成多个小计算任务分布到若干台机器上去计算,然后再进行结果汇总。 目的在于分析计算海量的数据,从雷达监测的海量历史信号中分析异常信号(外星文明),淘宝双十一实时计算各地区的消费习惯等。


海量计算最开始的方案是提高单机计算性能,如大型机,后来由于数据的爆发式增长、单机性能却跟不上,才有分布式计算这种妥协方案。 因为计算一旦拆分,问题会变得非常复杂,像一致性、数据完整、通信、容灾、任务调度等问题也都来了。


举个例子,产品要求从数据库中100G的用户购买数据,分析出各地域的消费习惯金额等。 如果没什么时间要求,程序员小明就写个对应的业务处理服务程序,部署到服务器上,让它慢慢跑就是了,小明预计10个小时能处理完。 后面产品嫌太慢,让小明想办法加快到3个小时。


平常开发中类似的需求也很多,总结出来就是,数据量大、单机计算慢。 如果上Hadoop、storm之类成本较高、而且有点大才小用。 当然让老板买更好的服务器配置也是一种办法。



四、统计建模


统计建模其实就是解决“哪一种概率模型可以产生我所观察到的数据?”这个问题,所以你可以这样做:首先从众多合理的模型中挑选出候选模型,然后评估它的未知量,再比较你所拟合出来的模型跟其他候选模型的最优化程度。


举例来说,如果你的数据代表了总数,比如这个数字代表了客人感到反胃的数量,或者细胞分裂的数量,那么泊松模型(Poisson)、负二项模型或者零膨胀模型(zero-inflated model)都有可能是适用的


一旦选择了一个统计模型,那预估模型就会被用作调查的设备:测试假说,创建预测值和测量置信度。预估模型就会成为我们解读数据的棱镜。我们从来没有声称所选模型生成的数据,但会把它当做一个在随机的过程中合理的近似,然后再基于它去验证推论。


验证推理是统计建模中一个重要的方面。举例来说,如果要在三个可能的医疗设备中,决定哪个对病人最有益,你就会对这样的模型感兴趣:它能捕捉病人使用什么样的途径治疗是明显有效果的。总是这样,那些能很好地捕捉数据生成途径的模型,同时也是在观测数据范围内最好地做出预测的模型,或许它还能预测出新的观测结果。


统计建模中,数据指引人们到一个随机模型的可挑选范围里,它就相当于是抽象的利益问题的概率表达,实现预测的功能和对某些事物的前瞻判断。


快速回复

限200 字节
 
认证码:
上一个 下一个