* }8 {, {& h m" Y4 a* M, C
目前市场上有数千种工具能够帮你节约时间和成本,带你从全新的角度洞察你所在的行业。
4 h7 G- e" R; C' [+ q! P
以下介绍几款超好用的数据分析工具,帮助你在数据分析的学习以及工作中能够脱颖而出。
( z- }5 J1 g! M8 i' t6 a
, _: ^+ C1 c# f; X
I6 z |6 O6 i, @) n6 W 打开凤凰新闻,查看更多高清图片
8 J5 `6 F8 N( Q6 d) p6 G
6 Z j9 t) F1 g) Q, ]) T
$ U/ E& [; h; d4 ~ Part 1.开源数据工具
+ r# }$ y* l1 O, \% `- k Z$ u7 ]
OpenRefine
* i. \) q+ V0 `6 J# U 这是一款高人气数据分析工具,支持数据清洗,支持将数据从一种格式转换为另一种格式,适用于各类与分析相关的任务,这意味着即使大家拥有多种不同数据类型及名称,这款工具亦能够利用其强大的聚类算法完成条目分组,使网页上杂乱数据标准化、规范化。
, B* n/ o% }, d, B+ J
Knime
8 i( h; t. Z- ?3 @' p4 h
Knime是一款分析平台。它可以帮助你发掘商业洞察力和市场潜力。它提供了Eclipse平台以及其他用于数据挖掘和机器学习的外部扩展。它为分析专业人员提供了超过2k个部署模块。
2 k0 a. J% Z2 x+ n3 _8 o Hadoop
$ q% M3 k) \. [. ^ b* g 大数据与Hadoop可谓密不可分。这套软件库兼框架能够利用简单的编程模型将大规模数据集分发于计算机集群当中。其尤为擅长处理大规模数据并使其可用于本地设备当中。作为Hadoop的开发方,Apache亦在不断强化这款工具以提升其实际效果
$ l/ j$ @% P6 q" S3 u Storm
1 y4 c2 M1 i; y 同样来自Apache的Storm是另一款伟大的实时计算系统,能够极大强化无限数据流的处理效果。其亦可用于执行多种其它与大数据相关的任务,具体包括分布式RPC、持续处理、在线机器学习以及实时分析等等。使用Storm的另一大优势在于,其整合了大量其它技术,从而进一步降低大数据处理的复杂性。
* _7 W1 P3 u2 M/ A, q, D, n) ^
Plotly
# w: t1 Z# c( n- H' ? 这是一款数据可视化工具,可兼容Java、MATLAB、Python以及R等语言。Plotly甚至能够帮助不具备代码编写技能或者时间的用户完成动态可视化处理。这款工具常由新一代数据科学家使用,因为其属于一款业务开发平台且能够快速完成大规模数据的理解与分析。
1 ]8 U. {4 {1 E
Rapidminer
9 T! l# Q. Z3 M5 Y. |
作为另一款大数据处理必要工具,Rapidminer属于一套开源数据科学平台,且通过可视化编程机制发挥作用。其功能包括对模型进行修改、分析与创建,且能够快速将结果整合至业务流程当中。Rapidminer目前备受瞩目,且已经成为众多知名数据科学家心目中的可靠工具。
, K* v, H& {4 N2 s1 d" }
Cassandra
+ x @' G- e$ r
Apache Cassandra 是另一款值得关注的工具,因为其能够有效且高效地对大规模数据加以管理。它属于一套可扩展NoSQL数据库,能够监控多座数据中心内的数据并已经在Netflix及eBay等知名企业当中效力。
/ @9 K3 d" K. ~ K- f Hadoop MapReduce
4 X, D% U9 f H( e 这是一套软件框架,允许用户利用其编写出以可靠方式并发处理大规模数据的应用。MapReduce应用主要负责完成两项任务,即映射与规约,并由此提供多种数据处理结果。这款工具最初由谷歌公司开发完成。
$ j e: l- J8 }7 W2 _2 Z8 q Bokeh
+ }1 j, _# g8 Z: {# r+ l6 s3 y1 P) j. \
这套可视化框架的主要目标在于提供精致且简洁的图形处理结果,用以强化大规模数据流的交互能力。其专门供Python语言使用。
& _" {' e( \4 b, x
Wolfram Alpha
+ S% `% L, |: ]& K# l' M. P2 H) d8 @
这是一套搜索引擎,旨在帮助用户搜索其需要的计算素材或者其它内容。举例来说,如果大家输入“Facebook”,即可获得与Facebook相关的HTML元素结构、输入解释、Web托管信息、网络统计、子域、Alexa预估以及网页信息等大量内容。
+ p Q# U/ s& M# z) H
Neo4j
6 ~' X2 c/ [2 h3 N
其官方网站将这款工具称为图形数据库技术的下一场革命。这种说法在一定程度上并不夸张,因为此套数据库使用数据间的关系以操作并强化性能表现。Neo4j目前已经由众多企业用于利用数据关系实现智能应用,从而帮助自身保持市场竞争优势。
$ y' x, W: {" ]+ G& F: f) o R-Programming
3 C8 }8 @: J7 i3 F: F0 z
它是一种用于统计计算和图形的免费软件编程语言和软件环境。R语言在开发统计软件和数据分析的数据挖掘工作者中非常流行。近年来,由于其易用性和广泛的功能性,它得到了大量的赞誉和欢迎。
* p+ ^& S+ p) ]+ C( l+ I
除了数据挖掘,它还提供统计和图形技术、线性和非线性建模、经典统计测试、时间序列分析、分类、聚类等功能。
0 M2 l* i4 y' }/ S: B7 b9 ^! x! J! h RapidMiner
, p' `" I2 B! r' j7 C9 _ 和KNIME一样,RapidMiner通过可视化程序进行操作,能够手动运作、分析和建模。它通过开源平台、机器学习和模型部署来提高数据工作效率。统一的数据科学平台可加速从数据准备到实现的分析工作流程,极大地提高了技术人员的效率,是最易于使用的预测分析软件之一。
5 I& S9 _9 W7 b* O
Pentaho
, L4 V" X9 s0 X2 { v1 _) ] 它是一款出色的商业BI软件,可以帮助企业制定数据驱动型决策。该平台集成了本地数据库、Hadoop和NoSQL等数据源,因此,你可以轻松地用它来分析和管理数据,进而从数据中获取价值。
B' a( ^5 E* f3 J