• 帮助中心

  • ADADADADAD

    数据,算法,数据处理

    大数据的利用过程是[ 14号文库 ]

    14号文库 时间:2025-05-19 23:55:46 热度:0℃

    作者:文/会员上传 下载docx

    简介:

    题目大数据的利用过程是( )。A:采集—统计—清洗—挖掘B:采集—清洗—统计—挖掘C:采集—挖掘—清洗—统计D:采集—清

    以下为本文的正文内容,请查阅,本站为公益性网站,复制本文以及下载DOC文档全部免费。

    题目

    大数据的利用过程是( )。

    A:采集—统计—清洗—挖掘

    B:采集—清洗—统计—挖掘

    C:采集—挖掘—清洗—统计

    D:采集—清洗—挖掘—统计
     

    可圈可点用户

    2022-01-13 09:58

    优质解答

    答案

    B

    解析

    大数据处理:采集、导入/预处理、统计/分析、挖掘

    扩展知识

    1、大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

    2、具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。

    3、在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

    4、导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

    5、统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

    6、与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

    大数据的利用过程是.docx

    将本文的Word文档下载到电脑

    推荐度:

    下载
    热门标签: TAGS1 TAGS2 TAGS3 TAGS4 TAGS5
    ADADAD
    热门栏目