数据挖掘

Data Mining (Python) 笔记

Python库

  1. Pandas:Pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。
  2. Numpy:NumPy是Python语言的一个扩展程序库。支持高阶大量的维度数组与矩阵运算,此外也针对数组运算提供大量的数学函数库。
  3. Matplotlib:matplotlib是Python语言及其数值计算库NumPy的绘图库。
  4. Scipy:SciPy使用matplotlib进行图形绘制。SciPy是一个开源的Python算法库和数学工具包。SciPy包含的模块有最优化、线性代数、积分、插值、特殊函数、快速傅里叶变换、信号处理和图像处理、常微分方程求解和其他科学与工程中常用的计算。
  5. Seaborn:seaborn 是封装在matplotlib库之上的可视化库,这个库提供了丰富的可视化模板,使画图更加方便。

一、大数据挖掘问题

  • 分类问题
  • 聚类问题
  • 关联问题
  • 预测问题

1、分类问题

用户流失率、促销活动响应、评估用户度都属于数据挖掘的分类问题,我们需要掌握分类的特点,知道什么是有监督学习,掌握常见的分类方法:决策树、贝叶斯、KNN、支持向量机、神经网络和逻辑回归等。

例子1:人如何区分另一个人是男性还是女性,这就是一个分类问题。在人脑中早已建立了男人和女人的模型,每当遇到一个陌生人的时候,大脑就获取到了这个人的特征信息,通过大脑中的模型去将这个人归类的男性或者女性的类别中。大脑中的模型并不是与生俱来。建立模型都是从过去的经验中积累总结出来的,并在实践过程中不断地修正或者扩充。
例子2:一个电子邮箱将一个电子邮件分类为”正常邮件“or”垃圾邮件“。

数据分类的两个步骤:建模模型应用

1.1、建立模型

1.2、模型应用

(待更新)

Data Analysis 数据分析

  1. Set up a goal
  2. Prepare the variables
  3. Prepare the visualization

一、数据

数据、指标、关键词,只要能够看到的,能统计的都算数据。

例:User_ID / Product_ID / Gender / Age / Occupation / City_Category / Stay_in_Current_City_Years / Marital_Status / Product_Category_1….X / Purchase($)

二、数据分析应用

  • 为用户推荐产品
  • 用户趋势和行为分析
  • 预测销售和库存物流
  • 优化产品定价和支付方式

三、智能推荐

  • 预测用户对商品的偏好
  • 用户之间的互相推荐

四、用户分析

  • 用户细分/用户画像
    • 用户特征:地理、行为特征、心理特征
  • 情感分析
    • 已购买产品的评价:积极、中立、消极
  • 用户流失分析
    • 用户转化、用户留存。控制流失率
  • 预估终身价值
    • 预计用户为企业提供的总收入,早期交易模式、交易频率、交易量
    • 平台规划业务资源

五、python分析数据

留言

您的电子邮箱地址不会被公开。 必填项已用*标注