小红书全量笔记数据集(含标题、正文、标签、互动量、图片等),可用于NLP、推荐算法、大模型训练、爆款文章生成、精准营销与市场分析
小红书作为年轻人生活方式分享平台,其UGC内容具有重要研究价值。该数据集包含笔记标题、正文、标签、互动数据、用户信息等结构化字段,支持NLP分析、推荐算法训练、爆款内容生成和商业营销研究。应用场景包括情感分析、话题分类、用户画像构建、多模态推荐等。数据样例展示了笔记内容、图片链接及用户互动情况,为研究者提供真实场景下的社交媒体数据分析基础。该数据集特别适合小红书生态研究,也可为其他平台提供参考模型
随着小红书逐渐成为年轻人获取生活方式灵感、购物决策与社交分享的重要平台,其用户生产的内容(UGC)在文本质量、配图美感、互动热度等方面,都具有极高的分析与建模价值。
无论是人工智能研究人员、数据科学家,还是新媒体运营团队、品牌营销方,都可以从小红书内容数据中提炼出有价值的信息
-
NLP 领域:海量高质量的中文短文+长文混合文本,覆盖多种话题、写作风格与标签体系。
-
推荐系统与个性化分发:带有用户画像与互动行为的数据,有助于训练精准的推荐算法。
-
内容创作与爆款生成:分析高互动笔记的文案与配图模式,为 AI 生成器提供优质参考。
-
市场与舆情分析:基于时间、地域、互动量等维度进行趋势追踪与竞品监控。
本数据集是为以上需求而整理的结构化版本,可帮助大家减少收集数据的时间,助力项目快速落地。
字段说明
字段名 | 说明 | 示例 |
---|---|---|
title |
笔记标题 | “是雨水还是桑延的眼泪” |
content |
笔记正文(含 emoji 与格式) | “多讨厌的雨天,总让人想起那画面…” |
content_xml |
网页源码内容 | <div class="note-content">...</div> |
tags |
标签列表 | “#电视剧 #追剧” |
like_count |
点赞数 | 356 |
collection_count |
收藏数 | 128 |
reply_count |
评论数 | 45 |
share_count |
分享数 | 12 |
pic_urls |
图片 URL 列表 | [多张高清图链接] |
user_name |
用户昵称 | “桃红红爱煲剧” |
user_profile_img_url |
用户头像链接 | [头像 URL] |
followers_count |
用户粉丝数 | 10 |
ip_region |
IP 属地 | “广东” |
ctime |
笔记发布时间(时间戳) | 1739946410 |
url |
笔记原文链接 | 小红书 - 你的生活兴趣社区... |
获取方式 | 样例 | https://dianshudata.com/dataDetail/2274 |
应用场景详解
1. NLP 与文本分析(具体应用示例)
情感分析
基于笔记的正文和标签,利用有监督学习或预训练模型(如BERT、RoBERTa)来识别用户情感倾向。
-
任务示例:构建三分类模型(积极、中性、消极),帮助品牌判断用户对产品或事件的态度。
-
数据应用:利用标签中的情感关键词和正文中包含的emoji、语气词增强情感特征表达。
话题分类
通过对标签和正文文本进行特征抽取(TF-IDF、词向量、预训练模型编码),训练多类别文本分类模型,实现自动识别笔记所属的主题类别(如美妆、旅行、美食、影视等)。
-
任务示例:为内容推荐系统提供准确的内容标签,提高推荐精准度。
-
方法建议:使用深度学习文本分类网络(如TextCNN、Transformer)结合标签辅助训练。
关键词提取
分析爆款笔记中频繁出现的关键词、短语及特殊符号(如emoji),提炼出高频热词和内容亮点。
-
任务示例:基于TF-IDF、TextRank或基于注意力机制的模型,提取关键标签词汇,辅助运营人员设计爆款话题。
-
特色挖掘:结合点赞量、收藏量权重,筛选互动高的关键词,捕捉用户关注热点。
2. 推荐算法与个性化分发(具体应用示例)
用户兴趣画像构建
通过整合用户发布笔记的标签、正文主题、互动行为(点赞、收藏、评论)、以及地域分布等信息,构建多维度的用户兴趣特征。
-
数据利用:利用标签关键词统计用户关注的领域,结合互动频率权重,形成兴趣偏好向量。
-
地域分布:根据IP属地分析区域兴趣差异,帮助实现地域个性化推荐。
-
实现方式:可使用矩阵分解(MF)、图神经网络(GNN)或基于Transformer的用户行为编码模型,融合多源特征提升用户画像精准度。
热门内容预测
利用笔记发布初期的互动数据(如首小时点赞数、收藏数、评论数)作为特征,结合文本和用户画像信息,预测该笔记未来是否会成为爆款。
-
模型选择:可以采用分类模型(如XGBoost、LightGBM、深度神经网络)对笔记的爆款潜力进行二分类预测。
-
特征设计:文本情感分数、关键词热度、用户活跃度、历史爆款标签等,均可作为重要输入。
-
应用价值:帮助平台优先推荐潜力内容,提升整体用户体验和留存率。
多模态推荐系统
结合笔记的文本内容与配图信息,利用多模态学习方法提升推荐效果。
-
文本特征:通过预训练语言模型提取语义向量。
-
图像特征:利用卷积神经网络(如ResNet、EfficientNet)或视觉Transformer提取图片特征。
-
融合策略:采用多模态融合模型(如跨模态注意力机制)将文本与图像特征整合,增强内容理解能力。
-
实际效果:有效捕捉图文搭配带来的内容丰富度,提高推荐的相关性和用户点击率。
推荐算法训练模型的适用范围说明
需要明确的是,基于这份小红书全量笔记数据训练得到的推荐算法模型,主要针对小红书平台的内容和用户行为特征进行优化。因为模型的输入特征和用户互动模式都紧密绑定于小红书的生态,直接将该模型应用于其他社交媒体平台,往往会因数据分布、用户行为差异显著,而导致推荐效果有些许不同,不过,推荐算法的基础架构和训练思路是高度通用的。只要有其他平台的相应数据,完全可以利用此处的模型设计理念,通过微调或重新训练,快速适配新的平台环境,获得良好的推荐性能。
因此,这份数据集和对应的训练方案,是打造高效推荐系统的基础,尤其适合专注于小红书生态的应用场景,同时也为未来多平台推荐系统的研发提供了坚实基础。
3.内容创作与爆款文章生成
通过系统分析点赞、收藏和评论数较高的优质笔记,深入挖掘文案的语言风格、结构布局和配图模式。具体包括:
-
文案风格提炼
抽取爆款笔记中的语言特色,如用词习惯、情感表达、段落节奏和emoji使用规律,捕捉小红书用户偏爱的写作风格。 -
结构与逻辑分析
研究爆款内容的开头吸引点、正文展开方式和结尾号召动作,为内容创作提供科学框架。 -
视觉配图模式
总结高互动笔记的配图风格,包括图片数量、色调搭配、排版布局等,提升视觉吸引力。 -
AI文案生成支持
结合以上分析,构建训练集,为文本生成模型(如GPT、T5等)提供高质量参考样本,使AI生成内容更贴近爆款文案风格,提升生成内容的真实感和吸引力。 -
内容迭代与优化
利用反馈数据持续优化模型,支持内容运营团队快速迭代爆款文案,提高内容生产效率和用户互动率。
4.营销与商业分析的强大工具
-
品牌口碑监测
利用小红书笔记中的文本内容和互动数据,实时追踪品牌相关的提及量和用户参与度,结合情感分析技术,洞察用户对品牌的正面、负面或中性情绪变化。帮助品牌快速捕捉市场反馈,及时调整营销策略,降低负面舆情风险,提升品牌形象管理效率。 -
爆款内容提炼
通过系统分析点赞、收藏和评论数较高的爆款笔记,总结高效文案写作技巧、热点选题方向以及用户偏好的内容风格。借助关键词提取和风格模仿技术,辅助内容团队精准打造符合小红书用户口味的优质内容,提升内容传播效果和用户粘性。 -
竞品与达人分析
通过分析竞争品牌的笔记表现及相关KOL(关键意见领袖)的粉丝数量、活跃度和互动情况,识别潜在的合作达人。帮助品牌制定科学的KOL合作方案,实现精准投放与效果最大化,提升品牌曝光度和销售转化率。 -
热点追踪
基于标签和内容趋势的动态监测,及时锁定小红书上快速升温的话题和流行趋势。通过对热点内容的深度分析,帮助品牌抢占话题制高点,实现内容营销的先发优势,扩大品牌影响力并获取更多流量红利。
数据样例
可私聊获取更详细的样例
"data": {
"like_count": 0,
"analysis": {
"hashcode": {
"5": "5569861128897327000"
},
},
"collection_count": 0,
"uuid": "ef612100ee8a11efa6d1246e96180298",
"title": "亚洲杯互换领取",
"mid": "67b579b50000000009016184",
"content": "速来宝宝#5114 #亚洲杯",
"pic_urls": [
"https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu005ndltvtg8egld6cmng8?imageView2/2/w/480/format/webp",
"https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu0g5ndltvtg8egl5idbik0?imageView2/2/w/480/format/webp",
"https://sns-img-al.xhscdn.com/1040g00831e2tas6sgu105ndltvtg8eglb969o18?imageView2/2/w/480/format/webp"
],
"share_count": 0,
"user": {
"profile_img_url": "https://sns-avatar-qc.xhscdn.com/avatar/1040g2jo31ai72vcq7e005ndltvtg8eglu766rso?imageView2/2/w/80/format/jpg",
"verified": 0,
"name": "******",
"friends_count": 10,
"url": "https://www.xiaohongshu.com/user/profile/5db5effb0000000001003a15",
"gender": "m",
"description": "健康平安就好",
"ip_region": [
"广东"
],
"followers_count": 10,
"statuses_count": 0,
"uid": "5db5effb0000000001003a15"
},
"ctime": 1739946421,
"url": "https://www.xiaohongshu.com/discovery/item/67b579b50000000009016184",
"wtype": 1,
"gather": {
"site_domain": "xiaohongshu.com",
"site_name": "小红书",
"info_flag": [
"01",
"0101"
],
"gtime": 1739946596
},
"reply_count": 0,
}
更多推荐
所有评论(0)