QQ登录

只需要一步,快速开始

 注册地址  找回密码
查看: 1570|回复: 3
打印 上一主题 下一主题

读《大数据时代》

[复制链接]
字体大小: 正常 放大
Jasonkid        

3

主题

12

听众

131

积分

升级  15.5%

  • TA的每日心情
    开心
    2016-1-15 14:16
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    自我介绍
    开朗,喜欢建模
    跳转到指定楼层
    1#
    发表于 2014-5-30 11:08 |只看该作者 |倒序浏览
    |招呼Ta 关注Ta
    作为一个学计算机出身的理工狗,我抱着强烈的兴趣来看这本书。而大数据的概念已经甚嚣尘上,无人不知了。
      
       维克托和肯尼思在这本书中不遗余力的向我们说明了由于技术的进步,传统的统计学抽样方法已经开始显得落伍,而借助于高速发展的数字存储技术与愈发先进的信息整合能力,类似google这样的公司已经有能力挖掘出海量数据中所蕴含的信息。作者在书中提出了两个至关重要的观点:1、我们搜集的数据是如此之多,以至于我们现在拥有的样本就是总体;2、借助于大数据,我们能够轻松的找出数据之间的关联而非因果,换而言之,我们可以轻松的“知其然”,即使我们完全不知其所以然。
      
       我不完全清楚两位作者的学术背景,当然,我也不完全清楚两位作者在写书的过程中是否为了让这本书更加通俗易懂而采取了一些微妙的措辞。但是每一个曾经被SVM、LDA、贝叶斯和马尔科夫深深伤害过的人都知道,在大数据的海洋里,我们最大的问题永远都不是如何获取这些数据,而是如何找到这些数据之间的联系。
      
       我相信每个学过数据挖掘这门课的人都知道沃尔玛里啤酒和尿布的故事,对,这个故事出现在很多年前,当初同样是为了描述一个令人激动的未来——人类居然可以通过计算机挖掘出那些我们平时根本无法察觉到的、事物之间隐藏的联系。欢欣鼓舞的计算机学家们纷纷将自己的精力投入到这个神奇的领域,但是丝毫没有发现,其实他们只是在重复着所有学者们无数年来在做的事情——寻找这个世界的真实。
      
       没错,为了寻找这个世界的真实,哲学家们冥思苦想,物理学家们建造了有毁灭世界之虞的对撞机,化学家们深入原子内部苦苦探究,但谁也没有数学家们走的更远,更接近成功。概率论比所有人都更早一步的找到了数据与数据之间的相关性,于是我们在高中的时候就能够了解线性相关和数据拟合的意义。而随着技术的发展,概率模型下的NLP技术在上个世纪90年代以后全面战胜了规则模型,我们不需要去理解自然语言的语义、语法,让处理器的摩尔法则和指数级叠加的文本互相厮杀,只要有足够数量的样本集——Bingo!一切都搞定了。于是随着Google在各种翻译大赛上的一枝独秀,人们乐观的觉得只要有了足够大的语料库,似乎再也没有什么能够难到他们。于是正向书中所说的那样,人们开始不再关心数据之间的因果联系,不再关心那些细微的错误,而开始疯狂的追求数据的规模。沾沾自喜的人们以为这就是世界的真理,忽视了近十年概率模型应用的规模一再扩大,准确率却停滞不前。即使是文本的二元情感分类如此简单的任务,无监督的学习器也很难拿出一个看得过去的成绩,更不用说机器翻译这样近十年来都没有巨大突破的领域了。就目前人类的技术水平而言,我们很难能够乐观的估计概率模型能够在我们有生之年将机器翻译技术推到“信达雅”的地步,概率模型和大数据的发展过程恰似一个对数函数,经过了最初的高速发展之后就放缓了自己的脚步。
      
       所以我是不认可大数据的概念的。数据规模到达一定程度之后,继续扩充的意义已经不大,更遑论所有大数据的应用都极大的依赖于其选取的数学处理模型。而经济发展的不均衡决定了所谓的样本=总体永远不可能出现——全世界有十几亿人还处日生活开销不足2美元的贫困线以下,连登录网络的条件都不具备,我们怎么能够奢望我们收集到的数据就会是总体?而所谓“知其然”可以替代“知其所以然”的概念更像是一个悖论,或许在应用层面上而言,这种说法有其合理之处,但对我们如何更好的了解这个世界的真相,却毫无用处。
      
    zan
    转播转播0 分享淘帖0 分享分享0 收藏收藏0 支持支持0 反对反对0 微信微信
    阿帕奇 实名认证       

    60

    主题

    27

    听众

    949

    积分

  • TA的每日心情
    郁闷
    2016-1-31 16:34
  • 签到天数: 166 天

    [LV.7]常住居民III

    社区QQ达人

    群组内蒙古数学建模群

    群组SAS数据分析大赛冲刺

    群组数学中国第二期SAS培训

    回复

    使用道具 举报

    Jasonkid        

    3

    主题

    12

    听众

    131

    积分

    升级  15.5%

  • TA的每日心情
    开心
    2016-1-15 14:16
  • 签到天数: 16 天

    [LV.4]偶尔看看III

    自我介绍
    开朗,喜欢建模
    回复

    使用道具 举报

    Vaw        

    2

    主题

    12

    听众

    386

    积分

    升级  28.67%

  • TA的每日心情
    无聊
    2014-9-22 07:36
  • 签到天数: 65 天

    [LV.6]常住居民II

    群组2014年地区赛数学建模

    回复

    使用道具 举报

    您需要登录后才可以回帖 登录 | 注册地址

    qq
    收缩
    • 电话咨询

    • 04714969085
    fastpost

    关于我们| 联系我们| 诚征英才| 对外合作| 产品服务| QQ

    手机版|Archiver| |繁體中文 手机客户端  

    蒙公网安备 15010502000194号

    Powered by Discuz! X2.5   © 2001-2013 数学建模网-数学中国 ( 蒙ICP备14002410号-3 蒙BBS备-0002号 )     论坛法律顾问:王兆丰

    GMT+8, 2024-5-16 22:24 , Processed in 0.431536 second(s), 71 queries .

    回顶部