描述性统计是用来概括、表述事物整体状况以及事物间关联、类属关系的统计方法。通过统计处理可以简洁地用几个统计值来表示一组数据地集中性和离散型(波动性大小)。
从总体中用一定方法抽出一部分研究对象作为样本,对样本人群进行调查,根据样本的结果来估计总体人群的特征。
样本要有代表性:抽样随机化、足够样本含量。抽样方法包括随即抽样和非随机抽样。
随机抽样:遵循随机化原则,保证总体中每一个对象都有同等机会被选入作为研究对象。
非随机抽样:试验者根据试验调查的目的、要求和被调查对象的总体情况,有意识地选择某些对象进行试验。
1)细心观察会发现生活中处处蕴含统计学,但是如何去理解这些数据背后的意义,这时候就要用到统计分析的方法,常用的有四种方法,平均值,四分位数,标准差,标准分
1 .平均值 :容易被异常值影响,不能发现数据整体意义。
2.四分位数:常用于找出异常值,但不能表示波动情况。
3.标准差:常用来分析数据波动情况。
4.标准分:主要用来计算出某个数值在数据中的相对位置
现在两张表,表1购买商品信息,表2婴儿信息
数据来源 阿里巴巴天池 tianchi.aliyun.com/data
表1数据集共有29971条记录,有7个字段,分别为:
user_id:用户id,购买用户的id。是用户的唯一识别码,不可重复,如果user_id相同,则为同一个用户;
auction_id:商品编号
cat_id:商品二级分类ID,品类。例如,衣服和下面的上衣的关系;
cat1:商品一级分类ID,
property:商品属性,商品基本参数规格,(属性值可以是大小,可以是尺码、毫升等数字,还可以指品牌等,一切可以描述商品特征的都可以称为属性值)
buy_mount:商品的购买数量;
day:购买时间,精确到“天”。
表2数据集共有953条记录,3个字段,分别为:
user_id:用户id,购买用户的id,可与表一匹配;
birthday:出生日期,可以换算成婴儿年龄,可以分析各年龄段的用户行为。
gender:性别(0 男性;1 女性;2 unknown)
2)通过以上两张表,能从数据集中分析哪些问题?
(1) 分析商品分类不同时期的销售趋势
(2)不同年龄/性别的婴儿对商品偏好
(3)用户的复购情况,
第一个问题,利用数据集中的购买时间,商品一级分类,商品二级分类,可以分析出不同时期的热销品和滞销品
第二个问题,通过出生日期,性别,购买的商品来分析是否对商品有偏好
第三个问题,通过用户id,购买商品的次数,来分析用户复购情况。