神刀安全网

大数据三分钟不入门之一:编程语言选择

现在大数据炒的挺火,随随便便拉个公司就号称后台数据基础设施和商业智能是大数据模式,据说该公司的大数据可以用打印机打印出来校对。闲话少扯,最近很多朋友也问我大数据入门该学些啥,比如编程语言,工具,课程等等。在这里抛砖引玉,介绍我所理解的大数据和所需要的技能。如果不能入门,请再仔细研读标题三遍!

大数据需要懂编程吗?太需要了,不管你是数据分析师,数据工程师,还是数据科学家等等。为啥?会有另外一篇介绍这些跟数据打交道的职位的共同与不同之处。此处暂且不论,因为在床上的阅读时间超过三分钟一定会影响睡眠。

既然要学,学啥?如果你是编程小白,那你此时一定会很纠结,人生有时候选择太多也不是好事。随便列几个:sql, R, python, java, scala……

什么?大部分都没听过。那就不用比较了,直接上python。有理由吗?

首先,python属于解释型语言,边写边跑(REPL),上手简单。不像某些编译型“低端语言”,执行前还需要编译,动不动报一个类型错误,入门不易啊。当然Scala深谙此道,在改进java的基础上也支持REPL,可惜这哥们语言模型太生涩,抽象的厉害,凡人莫碰。题外话,很多大数据框架和工具都是这哥们写的,比如大名鼎鼎的Spark, Kafka, Flink等等。

其次,上面提到的以及重要的大数据框架都支持python接口。你想想,费了九牛二虎之力学会了php, 准备在大数据领域大展身手,结果发现这个领域的重量级框架和工具都不支持,虽然都姓p,但差别还真蛮大。另:适用领域不同,不意味挑起任何语言争端。

再次,python的数学统计和图形工具后来居上,大有超越R之势。不可否认R在开源统计分析编程语言里一直独占鳌头,但随着python重量级的数学和统计库的发布,以及dataframe的数据模型支持,大数据框架的广泛支持,R前景堪忧。这里不少数据分析从业人员估计会泪奔。

最后,python的社区活跃程度非常高,背后还有干爹Google的大力扶持。想3分钟学会神经网络编程吗?试试我们的tensorflow吧。不过前提是你得会python。不会也没关系,至少你不会被它的神经网络调优调出神经衰弱来…

最后的最后,语言入市有风险,以上意见,仅供参考。

转载本站任何文章请注明:转载至神刀安全网,谢谢神刀安全网 » 大数据三分钟不入门之一:编程语言选择

分享到:更多 ()

评论 抢沙发

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址