国内的社交媒体数据比较难搞到,需要爬取,容易被墙,能抓取的地理信息较弱。有没有好的社交媒体数据呢?答案是有的,境外社交媒体数据。这些平台普遍提供相对开放的 API,或至少存在成熟的数据代理渠道。本文介绍境外社交媒体数据的两类获取方式,并对 Twitter、Foursquare、Google Places、Instagram 等平台的特点进行总结,为城市研究、城市感知分析、空间行为研究提供数据基础。

参考文献:Social Media data: Challenges, opportunities and limitations in urban studies-Web of Science Core Collection

一、数据获取

1.使用数据抓取代理

AIRDNA(Airbnb 数据):适合获取 Airbnb 短租市场的数据,如房源位置、价格、评分、房型等现在可能不开了,一个月是34美元。适合获取 Airbnb 短租市场的数据,如房源位置、价格、评分、房型等。

SMUA:该程序从Foursquare、Google Places、Twitter和Instagram中检索数据

平台 搜索区域限制 单次最大返回数
Foursquare 矩形区域,边长≤100 km ≤50 条记录
Google Places 圆形区域,半径≤5 km ≤60 条记录
Twitter Streaming 矩形区域 不限数量,但受全球 1% 流量限制
Instagram 圆形区域,半径≤5 km 不限,但 API 调用频次有限

2.使用自带API爬取

各社交网络对搜索区域的形状和大小施加限制和要求;API为每个数据请求提供最大记录数。API的使用需要包括:请求类型、搜索多边形形状、搜索多边形大小、每个请求允许的请求和/或结果数量、数据检索的时间范围、检索到的数据。据此即可构建爬取程序+API爬取。

这里我自己有一份全平台的完整代码,点赞收藏关注私聊我免费获取

二、各平台社交媒体数据特点

1.Twitter

Twitter的时空分析受可用数据量的限制,因为只有部分推文流量是地理编码的(Sloan & Morgan, 2015)大量推文只带“地点标签(Twitter place)”,可能对应一个 POI 而非真实坐标。只有极少部分推文带有精确坐标(GPS 开启时)。

Twitter 提供两类 API 数据流:

类型 特点
Streaming API 实时数据,按区域过滤,样本代表性强,受全球 1% 流量限制
REST API 可搜索过去约 7 天的推文,但不保证完整性

2.Foursquare(适合POI分析)

POI 类别明确(餐厅、景点、学校等),有 check-ins(签到次数)visitors(独立访客数) 提供城市热度指标,并且用户照片 & 提示(tips)有助于做城市感知分析。然而,Foursquare 的 POI 偏差较低,重复记录不超过 10%,但仍需手动清洗。

3.Google Places(经济活动数据最丰富且覆盖最全)

优势是包含超过 120种以上的场所类别(餐饮、教育、服务业等),城市中的绝大多数商业、服务设施都可以检索到。

但“establishment” 这类泛类目占比极高(某些城市可达 30%以上);用户注册有误分类、重复项(约 2%);地址格式不统一(如 Av. / Avenida / Avinguda)。

这篇论文中建议使用 LBCS(Land Based Classification Standards) 重新分类,从而更适合城市研究。

4.Instagram(视觉偏好)

数据是对某个 POI 的聚合定位(如“#Barcelona Cathedral”)含大量图像,可进行视觉特征分析(景观特征、用户活动类型)但是API 限制严格,数据量有限

适用研究:城市意象、视觉偏好城市品牌分析、公众对城市空间的情感反应

5.Airbnb(通过AIRDNA)

包含房源类型(整租、单间、多户住宅、独立屋等);价格、评分、房东类型;空间分布。

想研究这个的,需对房源类别进行重新归类,特别是想研究:城市旅游化(touristification)、非法短租分布、居住压力热点区。

三、总结

境外社交媒体数据(Twitter、Foursquare、Google Places、Instagram、Airbnb)为城市研究提供了丰富、实时、多维度的信息来源。虽然存在地理编码不全、用户偏差、API 限制等问题,但通过严格的数据验证、分类与分析流程,仍可构建可靠的城市画像,揭示传统方法难以捕捉的城市动态。

Logo

有“AI”的1024 = 2048,欢迎大家加入2048 AI社区

更多推荐