Author Archives: admin

[微信小程序]超级物种全国71家店9.2万商品数据

数据说明:
永辉生活超级物种微信小程序全国71家店9.2万商品数据。
2019年02月份采集更新。

字段说明:
“shop_id” – 店铺ID;
“shop_name” – 店铺名称;
“shop_lat” – 店铺坐标(纬度);
“shop_lng” – 店铺坐标(经度);
“id” – 商品ID;
“name” – 商品名称;
“category” – 商品分类;
“price_tag” – 标签价格;
“price” – 详细价格参数(含分量和市场价);
“stock” – 库存;
“unit” – 计量单位;
“image” – 图片链接;
“desc” – 商品描述;
“spec” – 规格;

在线示例数据:
点击查看在线示例数据

数据格式:
CSV(UTF-8编码)。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

[携程网]全国所有城市酒店数据(含房型价格,超过66w条)2019年08月份更新

数据说明:
携程网全国各城市酒店数据(含经纬度和各房型价格,详细字段见下面的说明),总计超过66万条。
2019年08月份采集更新。

字段说明:
“hotel_id” – 酒店ID,与网站一致;
“name” – 酒店中文名称;
“characteristic_tags” – 特色标签;
“koubei_tags” – 口碑标签;
“grade” – 酒店评级;
“provice” – 所在省份;
“city” – 所在城市;
“area” – 所在区;
“address” – 地址;
“road_cross” – 交叉路口;
“area_extra” – 地标、商圈;
“phone” – 联系电话;
“price” – 最低价;
“rating” – 综合评分;
“rooms_num” – 房间数(2019新增);
“reviews” – 点评人数;
“lat” – 纬度(百度地图);
“lng” – 经度(百度地图);
“description” – 酒店介绍(含开业时间,房间数等);
“main_photo” – 酒店主图;
“photos” – 酒店相册图;
“hotel_amenities” – 酒店设施;
“hotel_policy” – 酒店政策;
“nearby_amenities” – 周边设施;
“room_types” – 房型及价格;
“name_en” – 酒店英文名称;
“hotel_tips” – 酒店提示;
“affiliated_group” – 所属集团;
“url” – 酒店URL;

在线示例数据:
点击查看携程酒店在线示例数据

数据格式:
CSV(UTF-8编码)。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

中国法律服务网(12348中国法网)律师事务所、律师、公证处等公示数据约57万页

数据说明:
中国法律服务网(12348中国法网,http://www.12348.gov.cn/),10大类公示信息页数据,共计约57万页,详细类别如下:

1、律师事务所(26591页面)
2、律师(38100页面)
3、公证处(2937页面)
4、公证员(11199页面)
5、法律援助中心(3255页面)
6、人民调解组织(351665页面)
7、人民调解员(90436页面)
8、司法鉴定机构(3848页面)
9、仲裁机构(258页面)
10、仲裁员(49919页面)

采集时间:
2019年03月份。

详细字段说明:
URL – 信息所在页面的URL;
HTML – 完整页面的HTML数据;

数据格式:
MongoDB导出JSON格式,文件大小约30GB。

字符编码:
UTF-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

NCBI PMC医学论文430万篇(含文章页面完整HTML)

数据说明:
NCBI PubMed Central®是美国国立卫生研究院国家医学图书馆(NIH/NLM)的生物医学和生命科学期刊文献的免费全文档案。本数据采集于2018年8月,共采集到不重复的医学论文数量超过430万篇,包含文章详情页面(例如https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4706274/)的完整HTML存档。

NCBI PMC论文数据统计

采集时间:
2018年08月份。

详细字段说明:
arc_id 文章ID(e.g. PMC4706274 唯一);
title 文章标题(文献名);
published 发布时间(日期);
journal_name 期刊名称(e.g. The AAPS Journal);
doi DOI值;
pmcid PMCID值;
pmid PMID值;
authors 所有作者;
page_saved_path 文章详情页面本地存储路径(完整HTML)相对路径;

示例数据:
点击查看NCBI PMC医学论文在线示例数据

数据格式:
CSV(最通用的数据交换格式)。

字符编码:
UTF-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

中原地产网全香港房地产市场数据(含历史成交记录)

数据说明:
中原地产网(中原地產http://hk.centanet.com/)全香港房地产市场资料,含历史成交记录数据。
共计:3.4w条房产,133w条历史成交记录。

采集时间:
2019年08月份。

详细字段说明:
(1)地产基本信息表:
Region-c
Region-e
Property name
Property address
Unit cnt(單位總數)
Blg age(樓齡)
X cnt(每層伙數)
Y cnt(層數)
Tags(分類標籤)
Bldg cnt (物業總數)
Phases(屋苑期數)
School net(所屬校網)
Lat
Lng
CblgCode
CestCode
URL(详情页URL)

(2)历史成交记录表:
Cblgcode(用以和基本信息产生关联)
Cestcode(同上)
CName(房产名称,例如 “曉峰居 3期 A座”)
CX_Axis(例如 “2室”)
CY_Axis(樓層)
NArea(實用)
GArea(建築)
Price(價錢)
Reg year(年份)
Price change(升跌)

示例数据:
点击查看中原地产香港地产基本信息示例数据
点击查看中原地产香港地产历史成交记录示例数据

数据格式:
CSV(最通用的数据交换格式)。

字符编码:
UTF-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

小红书”留学教育”笔记数据1.7万条

数据说明:
小红书笔记数据,搜索关键词如下:
美国留学
美国高中
澳洲留学
澳洲高中
英国留学
英国高中
欧洲留学
孩子美食
健康美食
家庭教育
素质教育
孩子体育
教学
培训机构
幼升小
小升初
高考
国际学校
学区房
大学生活

共计1.7万条。小红书手机APP的笔记搜索结果只有前1000条可见,由于各关键词出来的结果有重叠,这是根据note_id去重后的结果。

采集时间:
2019年09月份。

详细字段说明:
“note_id” – 小红书笔记ID;
“keyword” – 搜索使用的关键词;
“title” – 小红书笔记标题;
“desc” – 小红书笔记描述;
“images” – 小红书笔记相关图片(链接);
“type” – 小红书笔记类型;
“note_url” – 小红书笔记Web链接;
“likes” – 小红书笔记点赞数;
“user_id” – 小红书作者ID;
“user_nickname” – 小红书作者昵称;
“user_logo” – 小红书作者图像(链接);
“content” – 小红书笔记内容;
“publish_time” – 小红书笔记发布时间;
“comment_number” – 小红书评论总数;
“star_number” – 星数;
“author_note_number” – 小红书作者笔记总数;
“author_fans_number” – 小红书作者粉丝数;
“author_collect_number” – 小红书作者收藏数;
“comment1″ – 小红书笔记第一条评论;
“comment2″ – 小红书笔记第二条评论;
“comment3″ – 小红书笔记第三条评论;

示例数据:
点击查看小红书笔记示例数据

数据格式:
CSV(最通用的数据交换格式)。

字符编码:
UTF-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

食品药品监督局SFDA网站179万页原始数据

数据说明:
食品药品监督局网站“药品、机械、化妆品、保健食品、互联网服务、药品广告、网上药店”类目下,所有条目对应的列表页(如下图1和图2)和详情页(如下图3)数据,包括“国产药品,进口药品和药品广告”,共计179万页(如下图4),MongoDB格式,数据Zip压缩后约17GB。2018年7月份采集更新。

sfda_list1

sfda_list2

sfda_details

sfda_pages_count

更新时间:
2018年07月份。

数据格式:
MongoDB。

字符编码:
UTF-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制

Yelp.com美国加州(CA)餐馆7.9W条2019年7月更新

数据说明:
Yelp.com美国加州(CA)餐馆数据,共计7.89W条。2019年7月更新。

更新时间:
2019年07月份。

详细字段说明:
business_name – 餐馆名称;
review_count – 评论数量;
categories – 菜品分类;
rating – 店铺评分;
address – 详细地址:
price_range – 价格区间;
lat – 纬度;
lng- 经度;
hours – 营业时间;
health_score – 健康评分;
phone – 电话号码;
claimed – 是否有人认领;
oldest_comment_date – 最早评论日期(按date_asc排序后第一条评论的日期);
url – URL(据此去重);

示例数据:
点击查看yelp.com餐馆示例数据

数据格式:
CSV(最通用的数据交换格式)。

字符编码:
UTF-8。

温馨提示:
如果您发现示例数据无法打开了,请联系在线客服QQ(1649677458或312602670)处理。

这不是我想要的数据,点击申请定制