众所周知,大数据的概念已远不止于数据规模庞大,其核心在于数据分析,通过分析才能挖掘出智能、深入且有价值的信息。随着大数据应用范围的扩大,其特性如数量、速度和多样性等,均映射出大数据日益增长的复杂度。因此,在大数据分析领域,分析方法的选取至关重要,它决定了信息的价值。那么,常见的的大数据分析方法理论有哪些呢?

1. 可视化分析

无论是数据科学家还是普通用户,数据可视化都是数据分析工具的基本需求。可视化能直观展示数据,让数据“自我表达”,使观众直观理解结果。

大数据分析与处理技巧详析_数据分析师必备指南

2. 数据挖掘算法

可视化面向人,而数据挖掘则面向机器。聚类、分割、孤立点分析等算法能深入数据内部,挖掘潜在价值。这些算法不仅要处理大量数据,还要应对数据的快速流动。

3. 预测性分析能力

数据挖掘帮助分析师更深入理解数据,而预测性分析则根据可视化分析和数据挖掘的结果,进行前瞻性判断。

4. 语义引擎

非结构化数据的多样性为数据分析带来新挑战,需要一系列工具来解析、提取和分析数据。语义引擎需具备从文档中智能提取信息的能力。

5. 数据质量与数据管理

数据质量和数据管理是管理层面的最佳实践。通过标准化流程和工具处理数据,确保分析结果的高质量。

若大数据确实是下一次技术革命的关键,我们应关注其带来的机遇,而不仅是挑战。

周涛博士提出大数据处理时代的三大理念转变:全面而非抽样,效率而非绝对精确,相关性而非因果性。

大数据处理方法众多,但根据长期实践,可总结为四步基本流程:采集、导入与预处理、统计与分析、挖掘。

采集

大数据采集涉及多个数据库接收客户端(Web、App或传感器等)数据,用户可通过这些数据库进行查询和处理。例如,电商使用MySQL、Oracle等关系型数据库存储交易数据,同时,Redis、MongoDB等NoSQL数据库也常用于数据采集。

采集过程中的挑战在于高并发,如火车票售票网站和淘宝在峰值时并发访问量可达百万,需部署大量数据库进行负载均衡和分片设计。

导入/预处理

尽管采集端有众多数据库,但为有效分析,需将前端数据导入集中式大型分布式数据库或存储集群,并进行清洗和预处理。部分用户使用Storm进行流式计算,满足实时计算需求。

导入与预处理面临的主要挑战是数据量大,每秒导入量可达百兆甚至千兆。

统计/分析

统计与分析利用分布式数据库或计算集群对海量数据进行常规分析和分类汇总,满足大多数分析需求。实时性需求可使用GreenPlum、Exadata、Infobright等,批处理或半结构化数据需求则可用Hadoop。

此环节的主要挑战是数据量大,对系统资源尤其是I/O占用极大。

挖掘

与统计和分析不同,数据挖掘通常没有预设主题,主要基于算法计算现有数据,实现预测效果,满足高级别数据分析需求。典型算法包括K-Means、SVM、Naive Bayes等,主要工具为Hadoop的Mahout等。

该过程的特点是算法复杂,涉及数据量和计算量大,且常用数据挖掘算法以单线程为主。