10大行业公开数据免费下载:电商行业
2024-03-16 11:41:09

原标题:10大行业公开数据免费下载:电商行业

新零售=电商+零售+微商

  • 畅销书《数据分析思维》里的大行电商行业

这本书里包括了国内电商、跨境电商、业公业零售行业的开数数据和分析案例


  • 电商婴儿用户

1)数据集描述

数据下载地址:Tianchi:Data sets

商品表格字段:

user_id:用户身份信息

auction_id:购买行为编号

cat_id:商品种类序列号

cat:商品序列号

property:商品属性

buy_mount:购买数量

day:购买时间

婴儿信息表格字段:

birthday:出生日期

gender:性别(0 male;1 female)

2)参考分析案例

母婴消费洞察


  • 淘宝用户行为数据

1)数据集描述

记录了一百万名有行为的淘宝用户行为记录样本,包含1,据免0015,费下0806条数据,载电987994个不同用户,商行4162024个不同商品,3623个不同商品分类, 4种行为(点击、大行购买、业公业加购、开数喜欢)数据。据免各个字段含义和数据下载地址:天池数据集

2)参考分析案例

淘宝APP用户行为数据分析


  • 亚马逊智能产品评论

1)数据集描述

亚马逊智能产品评论(kindle,费下Fire TV Stick等),载电数据下载地址:Consumer Reviews of Amazon Products

数据集介绍在页面这个地方:

用下面红框中的商行数据集

数据集一共有34655行,17个字段分别为:

id-用户编号

name-产品名称

asins-产品编号

brand-品牌

categories-产品类别

keys-类别关键字

manufacturer-制造商

date-评论时间

dateAdded-追评时间

dateSeen-评论可见时间

doRecommend-评论是大行否被推荐

numHelpful-帮助性分子数

rating-评分

sourceURLs-评论链接

text-评论文字内容

title-评论标题

username-用户名

2)参考分析案例

亚马逊的评价数量能说明什么问题?


  • 亚马逊食品评论

1)数据集描述:

该数据集包括对来自亚马逊的精美食品的评论。这些数据的使用期限超过10年,包括1999年10月至2012年10月约500,000条评论。评论包括产品和用户信息,评级以及纯文本评论。它还包括来自所有其他亚马逊类别的评论。

数据形状为:568k 行x 10列,10个字段分别为:ID,产品ID,用户ID,用户名,帮助性分子数,帮助性分母数,评分(1-5),评论时间,评论概括,评论内容

数据获取地址:https://www.kaggle.com/snap/amazon-fine-food-reviews

2)数据集中各字段含义:

ProductId (产品ID)

UserId (用户ID)

ProfileName (用户名)

HelpfulnessNumerator (认为评论有用的用户数量)

HelpfulnessDenominator (表明他们是否认为该评论有用的用户数量)

Score (评分:从1至5)

Time (发表评论的时间)

Summary (对于评论的概括)

Text (评论的内容)

3)参考分析案例

亚马逊精美食品销售数据分析报告


  • 亚马逊商品评论

1)数据集描述:

这份数据收集了亚马逊2017年有关商品的制造商,售价,评论,库存等10000条信息。

数据获取地址:https://data.world/promptcloud/fashion-products-on-amazon-com

2)数据集中各字段含义:

product_name- 产品名称

manufacturer-制造商

price-价格

number_available_in_stock- 库存

number_of_reviews- 评论数量

number_of_answered_questions-回答的问题数

average_review_rating-平均评价

amazon_category_and_sub_category-分类与子分类

product_information-产品信息

items_customers_buy_after_viewing_this_item-项目-客户_购买_后查看_此_项目

customer_reviews-客户评论内容

3)参考分案例

基于Excel的亚马逊2017年商品销售情况简析

亚马逊出售商品Python分析


亚马逊kindle

1)数据集描述

来自亚马逊上关于kindle,Fire TV Stick等产品的评论。此数据文件为CSV格式,大小6MB。数据集包括每种产品的基本产品信息,评级,纯文本评论等。

数据集下载地址:Consumer Reviews of Amazon Products

数据形状为:34655行 * 17列,17个字段分别为:用户ID,产品名称,产品编号,品牌,产品类别,类别关键字,制造商,评论时间,追评时间,评论可见时间,评论是否被推荐,帮助性分子数,评分(1-5),评论链接,评论文字内容,评论题目,用户名


女鞋

1)数据集描述

这是关于女鞋及其产品信息的列表。

数据集包括鞋子名称,品牌,价格等。每个鞋子的每个价格都有一个条目,有些鞋子可能有多个条目。

数据集下载地址:Womens Shoe Prices


该数据集有23列,共33802行,各字段含义如下:

  • id
  • asins
  • brand:品牌
  • categories:类别
  • colors:颜色
  • count:计数
  • dateAdded:添加日期
  • dateUpdated:更新日期
  • descriptions:说明
  • dimension:尺寸
  • ean:通用条形码
  • features:特征
  • imageURLs:图像URL
  • keys: 主键
  • manufacturer:供应商
  • manufacturerNumber:供应商编号
  • name:描述
  • prices.amountMax:最高价格
  • prices.condition:状态
  • prices.currency:货币
  • prices.isSale:是否销售
  • prices.merchant :销售渠道

2)参考分案例

电商数据及女鞋价格进行分析


  • ebay摩托车

1)数据集描述

kaggle平台采集的有关ebay的摩托车的销售情况,

数据获取地址:Ebay Motorcycle Prices

字段含义:

Condition:摩托车新旧情况(new:新的 和used:使用过的)

Condition_Desc:对当前状况的描述

Price:价格

Location:发获地址

Model_Year:购买年份

Mileage:里程

Exterior_Color:车的颜色

Make:制造商(牌子)

Warranty:保修

Model:类型

Sub_Model:车辆类型

Type:种类

Vehicle_Title:车辆主题

OBO:车辆仪表盘

Watch_Count:表数

N_Reviews:评测次数

Seller_Status:卖家身份

Auction:拍卖(Ture或者False)

Buy_Now:现买

Bid_Count:出价计数

2)参考分案例

eBay-motocycle销售数据分析报告


  • 英国在线零售业务

1)数据集描述

这是一个跨国数据集,其中包含2010年12月12日至2011年12月9日期间发生的所有在英国注册的非商店在线零售业务的交易。该公司主要销售独特的全场礼品,并且大部分客户是批发商。

数据获取地址:E-Commerce Data

2)字段含义

数据形状为:542k 行x 8列,8个字段分别为发票号,发票日期,商品码,商品描述,数量,单价,顾客ID,国家。

InvoiceNo: 发票号码,每笔交易分配唯一的6位整数,而退货订单的代码以字母c开头。StockCode: 产品代码,每个不同的产品分配唯一的5位整数。

Description: 产品描述,对每件产品的简略描述。

Quantity: 产品数量,每笔交易的每件产品的数量。

InvoiceDate: 发票日期和时间,每笔交易发生的日期和时间。

UnitPrice: 单价(英镑),单位产品价格。

CustomerID:顾客号码,每个客户分配唯一的5位整数。

Country: 国家的名字,每个客户所在国家/地区的名称。

3)参考分案例

利用SQL分析英国在线零售业务

跨国批发商订单分析


  • 巴西电子商务公共数据集

1)数据集描述

Olist的巴西电子商务公共数据集,数据源中的字段较多,其中比较关键的字段有:订购产品价值、订购商品数量、订购卖家数量、客户城市、产品类别名称和评分。

2)参考分案例

电商数据初探究之我上我也行(excel)

用mysql处理电商数据集

分析报告


  • 运营商用户流失率

1)数据集描述

数据下载地址:Telco Customer Churn

1,customerID(String)--用户ID

2,gender(String)--性别(男,女)

3,SeniorCitizen(Numeric)--用户是否属于老年人(1:是 0:不是)

4,Partner(String)--用户是否有伴侣(是,否)

5,Dependents(String)--用户是否有受赡养者(是,否)

6,tenure(Numeric)--用户在网多少个月

7,PhoneService(String)--用户是否有电话服务(是,否)

8,MultipleLines(String)--用户是否有多线服务(是,否)

9,InternetService(String)--用户的上网服务提供商(DSL,Fiber optic)

10,OnlineSecurity(String)--用户是否有在线安全服务(是,否)

11,OnlineBackup(String)--用户是否有在线备份服务(是,否)

12,DeviceProtection(String)--用户是否做了设备保护(是,否)

13,TechSupport(String)--用户是否有技术支持服务(是,否)

14,StreamingTV(String)--用户是否有stream Tv服务(是,否)

15,StreamingMovies(String)--用户是否有stream movie服务(是,否)

16,Contract(String)--用户的合同期是怎样的(一个月,一年,两年)

17,PaperlessBilli(String)--用户是否有无纸账单(是,否)

18,PaymentMethod(String)--用户支付方式(电子支票,邮寄支票,银行转账)

19,MonthlyCharges(Numeric)--用户每月缴纳的费用

20,TotalCharges(Numeric)--用户历史总共缴纳的费用

21,Churn(Numeric)--用户现在是否流失转

2)社群会员作业

第1关行业选择:数据分析小白的进击之路


  • 爬取的数据:淘宝彩妆品牌colorpop

1)参考分案例

用excel分析Colourpop在淘宝的销售情况

用EXECL对拼多多进行数据分析

用SQL对colourpop在淘宝销售情况进行分析

ColourPop销售分析报告


  • 沃尔玛销售数据

1)数据集描述

数据收集了位于不同地区的45家沃尔玛商店的历史销售数据

字段含义:

features.csv 8191*12

此文件包含关于给定日期的商店、部门和区域活动的附加数据。它包含以下字段:

Store 商店号

Date 日期

Temperature 区域平均温度

Fuel_Price 区域燃料成本

MarkDown1-5 沃尔玛正在运行的促销标记相关的匿名数据。MarkDown数据只在2011年11月之后可用,并非所有商店都一直可用。缺失值都用NA标记。

CPI 消费价格指数

Unemployment 失业人数

IsHoliday 是否为特殊节假日

stores.csv 45k*3

Store 商店号

Type 类型

Size 规模

train.csv 422k*5

历史训练数据,涵盖2010-02-05至2012-11-01。在文件中将找到以下字段:

Store 商店号

Dept 部门号

Date 日期

Weekly_Sales 星期销售

IsHoliday - whether the week is a special holiday 是否为特殊节假日

test.csv 115k*4

需要预测的数据文件

Store 商店号

Dept 部门号

Date 日期

IsHoliday - whether the week is a special holiday 是否为特殊节假日

合并给出16个数据指标为

store 、dept、 date 、weekly_sales 、 lsHoliday

temperature 、 fuel_price 、 MarkDown1-5

cpi、unemployment、type、size


  • 餐厅营业收入

1)数据集描述

餐厅营业收入预测建模竞赛提供了137家餐厅的信息作为数据,包括:开业时间、地点、城市类型、人口统计、房地产和商业等相关属性信息。

数据下载地址:

https://www.kaggle.com/c/restaurant-revenue-prediction


  • 食品营养成分

食品营养成分数据包括10万多种食品的营养物质、有效成分、过敏原等组成,由全世界150多个国家的志愿者协作贡献生成。

数据获取地址:

https://www.kaggle.com/openfoodfacts/world-food-facts


  • 亚马逊手机

1)数据集描述

来自kaggle的手机数据

数据下载地址:Amazon Reviews: Unlocked Mobile Phones

2)字段含义

商品名称,价格,评分,评价,评价推荐。


  • 便利店数据

1)数据集描述

这个数据类似于国内很多便利商店 (商品种类有限),如seven-eleven,罗森,甚至专注于食品的盒马鲜生的销售数据分析和会员情况分析。

包括了558077个交易,总单品量240008,这个数据包括了7个字段。

数据下载地址:https://www.kaggle.com/sanjeet41/online-retail

字段含义:

Invoice_number: 发票代码

Stock_code:存活代码

Invoice_date:开票日期/购买日期,year month类型

Quantity:数量

Unit_Price:单价

Customer_ID:会员编号,非会员为missing value

Country:国家



  • 黑五(国外的黑五类似国内的双11)

1)数据集描述

kaggle上面找到关于黑五的数据,一共有550000条数据。

零售商店中的交易数据,没有时间维度,职业、城市、婚姻状况进行了编码处理,产品分类进行了模糊处理。

数据获取地址:https://www.kaggle.com/mehdidag/black-friday

2)数据集中各字段含义:

数据包含12个字段,分别如下:

User_ID:用户编码

Product_ID:产品编码

Gender:性别(F表示女性,M表示男性)

Age:年龄(分0~17、18~25、26~35、36~45、46~50、51~55、55+共7个年龄段)

Occupation:职业(分为0~20 共20个类别)

City_Category:城市类别(分ABC共3个类别)

Stay_In_Current_City_Years:在当前城市停留的年数(分0、1、2、3、4+共5个类别)

Marital_Status:婚姻状况(0表示未婚,1表示已婚)

Product_Category_1:商品所属分类1,不可为空

Product_Category_2:商品所属分类2

Product_Category_3:商品所属分类3

Purchase:购买价格,以美元计算


【问】这个商品所属分类1(Product_Category_1)下面的数字代表的是啥?

【答】商品所属分类1(Product_Category_1)是个大类,下面包括其他小类。比如类别是钱,下面又可以细分为几类:人民币,美元,澳币等。

商品所属分类1(Product_Category_1),商品所属分类2(Product_Category_2),商品所属分类3(Product_Category_3)是什么关系?

一个商品可以属于不同类别,所以会有分类1,分类2,你打开一个亚马逊的网站里面的商品,可以看到这个商品属于不同类别。

【问】比如我通过数据筛选,确定一个产品编码,得到1类产品,下面数字都是5,按理说这是同一种商品吧?为啥价格完全不一样呢?

【答】这一列是消费金额,不是商品的单价,比如你买1个苹果是1元,买10个苹果是10元


3)参考分案例

用EXCEL分析黑五数据

黑五消费数据分析-SQL分析

零售店黑色星期五数据分析报告

其他行业数据集在这里:数据分析和挖掘有哪些公开的数据来源?

————领取福利分界线——————

我是猴子,中科院硕士/前IBM高级软件工程师/豆瓣8分《数据分析思维》作者,我和知乎联合出品的「数据分析训练营」即将开课,3天带你掌握数据分析实用技巧,包含课程+实战带练,工作提效、升职加薪必备神器!

报名还有独家Excel自学资料领取,点击开启数据分析升职加薪密码:

「数据分析职场大全」3天助你顺利升职/加薪/跳槽/转行
¥0.10附赠秘籍

(作者:新能源汽车电瓶)