程序猿成长之路之数据挖掘篇——数据挖掘介绍

news/2024/4/26 22:13:02

随着java的发展,数据挖掘也变得逐渐热门,我们随手打开一个购物网站,首先映入眼帘的便是五花八门的推荐的物品,又如我们逛抖音、快手,就在我们上下刷屏的过程中,系统就会不停的推荐新的视频内容过来。不论是文字、视频还是图片,如果我们不去处理,那么它们就只是一堆杂乱无章的数据。但如果我们对它们进行分类、处理、统计乃至挖掘,找到数据间的关联关系,那么这些数据就可能会带来商机,为企业后续的规划出谋划策。

为什么要用数据挖掘?

如今随着互联网经济的迅速发展,我们生活在大量数据日积月累的时代,如果我们能够对数据挖掘有个深入的认识和了解,我们就能够把握时代的潮流,也就能从海量数据中获取自己想要的内容。数据挖掘应用领域也在变大,常见的数据挖掘应用有智能对话机器人、推荐算法等。总之,有了数据挖掘后,知识的获取会变得更加方便,购物、生活等方面也会变得更加便捷。

什么是数据挖掘?

按照话术来说,数据挖掘就是数据中的知识发现。
换一句话说,数据挖掘就是从大量看上去杂乱无章的数据信息中发现有用的信息并转换成知识的过程。

举个例子:大家都去逛过京东或者淘宝吧,当我们浏览过很多相似的物品时,系统首页很快就会推荐更多相关的产品给我们,这里就用到了数据挖掘,通过物品维度,也就是以物品视角出发推荐相似的物品,如下图所示
在这里插入图片描述
再举个例子: 我们再京东买东西时购物车页面下方会有个猜你喜欢的界面,这里面的物品就是通过数据挖掘算法推荐给相应用户,体现系统更加人性化,更加了解用户,从而提升用户体验,如下图所示
在这里插入图片描述

针对初学者,数据挖掘有哪些门槛?

  1. 数据挖掘需要海量数据才可以进行分析和处理,初学者往往会难以获取数据来源,于是只好通过网上购买或者自己编造数据来替代。
  2. 一部分初学者(包括我自己)刚开始上手可能会被一些数学公式如何转换成代码所困扰,但是只要能够多练多用IDE编写代码多尝试,数据挖掘还是比较容易入门的。
  3. 数据挖掘中的推荐算法可能需要针对阈值进行调优,这个可能也会比较枯燥。

推荐的书籍:机械工业出版社 Jiawei Han的《数据挖掘概念与技术》(黑皮书)——这本书是我的启蒙书,推荐给大家。这本书是基础版,还有一本是《数据挖掘原理与实践》,配合着看效果不错。

数据挖掘流程

  • 数据清理
  • 数据集成
  • 数据选择
  • 数据变换
  • 数据挖掘
  • 模型评估
  • 结果表示

1. 数据清理
数据质量有以下几个因素需要考量(主要是前三者):

  • 准确性
  • 完整性
  • 一致性
  • 时效性
  • 可信性
  • 可解释性

我们无法保证获取到的数据质量是否满足我们需求,因此在数据挖掘前先得要进行数据的清理。数据清理主要包括以下几点:

  • 空白数据剔除
  • 重复冗余数据剔除
  • 噪声消除:
    可以用分箱方法进行光滑
  • 错误数据剔除
  • 不完整数据清理
    分为直接忽略、人工填写缺失值、使用贝叶斯、决策树等预测缺失值等方法

具体如何剔除要考虑实际业务,如果有集成要求之后还需要进行数据集成。

2. 数据集成
数据集成是指将来自不同数据源的数据汇总分析,就比如我们需要收集某一地区企业的经营数据、涉案数据等数据最后进行综合打分,筛选出疑点企业,这时就要用到数据集成,因为涉及到一家企业的经营数据和涉案数据来源于不同的数据源。集成后的数据要保证数据的一致性、数据的完整性以及数据的准确性。

而冗余则是数据集成另一个需要注意的问题。后续会详细展开。

3. 数据选择
针对集成的数据进行选择,实现数据的初步筛选

4. 数据变换
对数据格式进行检验和转换。

5. 数据挖掘
通过某些手段和方法对数据进行处理,对数据间的联系按照某些特定的规则进行挖掘,直至得出我们想要的结果。

6. 结果表示
将处理后的数据通过平台展示出来。

数据挖掘的相关术语及基础知识

属性:
字段名称,表示数据对象的一个特征,比如我现在新建了一个Person类,里面的name就是一个属性,并且是一个标称属性。(后面会讲到), 又称维度、特征、变量。

标称属性:
值无法用数值定量的属性。比如人的名字、出生日期等。
序数属性:
值可以用数值定量并且不同值的差不确定的属性,比如成绩(A+、A、A-、B+…) 或者满意程度等。
数值属性:
值可以用数值定量并且不同值的差确定的属性,比如年龄
二元属性:
值只有两种,0或1,比如性别,此外,可以根据不同值的权重是否一致分为对称二元属性和非对称二元属性。性别很显然是对称二元属性,非对称比如疾病的阴性和阳性等。

相似性、相异性:
相似性 :两个属性的值的相似程度,
相异性:两个属性的值的相异程度

—————————————— 未完待续——————————————————————

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.cpky.cn/p/11118.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

第四章-生产者-顺序延迟批量消息发送

4.1 顺序消息 先引用一段官网对顺序消息的介绍 顺序消息是一种对消息发送和消费顺序有严格要求的消息。 对于一个指定的Topic,消息严格按照先进先出(FIFO)的原则进行消息发布和消费,即先发布的消息先消费,后发布的消息…

35.基于SpringBoot + Vue实现的前后端分离-在线考试系统(项目 + 论文)

项目介绍 本站是一个B/S模式系统,采用SpringBoot Vue框架,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得基于SpringBoot Vue技术的在线考试系统设计与实现管理工作系统…

【项目管理——时间管理】【自用笔记】

1 项目时间管理(进度管理)概述 过程:(2—6)为规划过程组,7为监控过程组 题目定义:项目时间管理又称为进度管理,是指确保项目按时完成所需的过程。目标:时间管理的主要目标…

InstructGPT的流程介绍

1. Step1:SFT,Supervised Fine-Tuning,有监督微调。顾名思义,它是在有监督(有标注)数据上微调训练得到的。这里的监督数据其实就是输入Prompt,输出相应的回复,只不过这里的回复是人工…

PCB板在线自动激光打标机:高效、精准的电路板标识利器

PCB板在线自动激光打标机是一种高度自动化的设备,专为PCB(印刷电路板)板的在线镭雕需求而设计。这种设备结合了激光技术和自动化控制,使得在PCB板上进行高精度、高效率的镭雕成为可能。 ​ PCB板在线自动激光打标机主要由控制系统…

Mora: Enabling Generalist Video Generation via A Multi-Agent Framework

目录 论文地址:Mora: Enabling Generalist Video Generation viaA Multi-Agent Framework github地址:https://github.com/lichao-sun/Mora 一、摘要 (1)Mora 的主要特点: (2)Mora的应用场景…