【Python大数据+AI毕设实战】哔哩哔哩热门视频数据可视化分析系统、Hadoop、计算机毕业设计、包括数据爬取、数据分析、数据可视化、机器学习、实战教学

计算机毕设匠心工作室

1041人浏览 · 2025-11-02 12:37:49

计算机毕设匠心工作室 · 2025-11-02 12:37:49 发布

🍊作者：计算机毕设匠心工作室
🍊简介：毕业后就一直专业从事计算机软件程序开发，至今也有8年工作经验。擅长Java、Python、微信小程序、安卓、大数据、PHP、.NET|C#、Golang等。
擅长：按照需求定制化开发项目、源码、对代码进行完整讲解、文档撰写、ppt制作。
🍊心愿：点赞 👍 收藏 ⭐评论 📝
👇🏻 精彩专栏推荐订阅 👇🏻 不然下次找不到哟~
Java实战项目
 Python实战项目
 微信小程序|安卓实战项目
 大数据实战项目
 PHP|C#.NET|Golang实战项目
🍅 ↓↓文末获取源码联系↓↓🍅

基于大数据的哔哩哔哩热门视频数据可视化分析系统-功能介绍

本系统全称为《基于大数据的哔哩哔哩热门视频数据可视化分析系统》，是一个集数据处理、分析与可视化于一体的综合性实战平台。项目技术架构以后端为主导，采用Python语言及Django框架处理业务逻辑和提供API接口，核心数据分析任务则交由大数据框架Apache Spark执行，它能高效处理存储在HDFS上的海量视频数据。前端界面基于Vue.js全家桶、ElementUI组件库以及Echarts图表库构建，实现了动态、交互式的可视化大屏。系统的核心价值在于深度挖掘B站热门视频数据，它不仅能完成对播放量、点赞、投币等关键指标的宏观统计，还能从视频分区、发布时间（精确到月、周、小时）、UP主影响力等多个维度进行下钻分析。此外，系统还集成了基于机器学习的AI分析功能，例如通过K-Means聚类算法对视频进行用户参与度分群，并通过计算皮尔逊相关系数来揭示各项互动数据之间的内在联系，最终将所有复杂的分析结果以直观的图表形式呈现给用户，为理解B站内容生态和热门趋势提供数据支持。

基于大数据的哔哩哔哩热门视频数据可视化分析系统-选题背景意义

选题背景
现在B站已经不单单是个看动漫、玩游戏的社区了，它更像一个融入我们日常生活的大众化平台，很多人习惯在上面学习、获取资讯和娱乐。这样一来，B站的“热门榜单”就成了一个非常有意思的窗口，能反映出当下大家都在关心什么、讨论什么。每天，这些热门视频都会产生数以亿计的互动数据，比如播放、点赞、投币、评论等等，形成一个庞大的数据海洋。如果只靠人工去观察，根本不可能发现其中隐藏的规律和趋势。这就给运用大数据技术提供了一个特别好的实践场景。尝试使用像Spark这样的分布式计算框架，去自动化地清洗、处理和分析这些数据，把那些零散的数字变成有价值的洞见，这对于计算机专业的学生来说，既是一个紧跟时代潮流的技术挑战，也是一个能把所学知识应用到真实世界问题上的好机会。
选题意义
从一个学生的角度来看，做这个项目的实际意义还是挺直接的。首先它是一个非常完整的技术实践，能让你亲手走一遍从数据采集、数据预处理（用Spark清洗）、后端开发（用Python和Django搭服务）、再到前端可视化（用Vue和Echarts画图）的全过程，这套技术栈现在也比较主流，整个做下来对个人技术能力的提升挺有帮助。其次，这个课题也能让我们试着从数据的角度去理解一个产品。比如，分析结果可能会告诉我们，什么样的视频时长更受欢迎，或者哪个时间点发布视频的初始流量更好。这些结论虽然不一定能百分百准确预测爆款，但它能提供一种基于数据思考问题的逻辑，而不是单凭感觉猜测。总的来说，这个项目算不上多么宏大，但它作为一个毕业设计，能够扎实地锻炼解决实际问题的能力，并且展示了将大数据和AI技术应用于具体业务场景的完整思路，算是一次挺有价值的学习和总结。

基于大数据的哔哩哔哩热门视频数据可视化分析系统-技术选型

大数据框架：Hadoop+Spark（本次没用Hive，支持定制）
开发语言：Python+Java（两个版本都支持）
后端框架：Django+Spring Boot(Spring+SpringMVC+Mybatis)（两个版本都支持）
前端：Vue+ElementUI+Echarts+HTML+CSS+JavaScript+jQuery
详细技术点：Hadoop、HDFS、Spark、Spark SQL、Pandas、NumPy
数据库：MySQL

基于大数据的哔哩哔哩热门视频数据可视化分析系统-图片展示

在这里插入图片描述

基于大数据的哔哩哔哩热门视频数据可视化分析系统-代码展示

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, count, avg, corr, month, dayofweek, hour, when
from pyspark.ml.feature import VectorAssembler, StandardScaler
from pyspark.ml.clustering import KMeans
from pyspark.ml.evaluation import ClusteringEvaluator
# --- 核心代码区，请勿在代码行之间添加空行 ---
def run_core_analysis_functions():
    # 1. 初始化SparkSession，这是所有Spark应用的入口
    spark = SparkSession.builder.appName("BilibiliHotVideoAnalysis").master("local[*]").getOrCreate()
    # 2. 从HDFS读取经过预处理的数据文件
    # 注意：实际路径应为HDFS的绝对路径，例如 "hdfs://namenode:9000/data/bilibili/cleaned_videos.csv"
    df = spark.read.csv("hdfs_path/to/your/cleaned_data.csv", header=True, inferSchema=True)
    # --- 功能一：热门视频分区数量与平均指标综合分析 ---
    # 按分区名(typename)进行分组
    partition_analysis_df = df.groupBy("typename").agg(
        count("*").alias("video_count"),  # 统计每个分区的视频数量
        avg("playcount").alias("avg_playcount"),  # 计算平均播放量
        avg("likes").alias("avg_likes"),  # 计算平均点赞数
        avg("coin").alias("avg_coin")  # 计算平均投币数
    ).orderBy(col("video_count").desc()) # 按视频数量降序排序
    # 将浮点数结果格式化为两位小数
    partition_analysis_df = partition_analysis_df.withColumn("avg_playcount", col("avg_playcount").cast("decimal(18, 2)"))
    partition_analysis_df = partition_analysis_df.withColumn("avg_likes", col("avg_likes").cast("decimal(18, 2)"))
    partition_analysis_df = partition_analysis_df.withColumn("avg_coin", col("avg_coin").cast("decimal(18, 2)"))
    print("--- 热门视频分区数量与平均指标分析结果 ---")
    partition_analysis_df.show(10, truncate=False) # 在控制台显示结果，便于调试
    # 可以将结果转换为Pandas DataFrame以便后续写入单个CSV文件
    # partition_analysis_pandas_df = partition_analysis_df.toPandas()
    # partition_analysis_pandas_df.to_csv("partition_analysis.csv", index=False)
    # --- 功能二：热门视频核心互动数据相关性分析 ---
    # 选择用于计算相关性的数值列
    correlation_columns = ["playcount", "danmaku", "likes", "favorite", "share", "commentcount", "coin"]
    # 使用VectorAssembler将多列合并为一个向量列
    assembler_corr = VectorAssembler(inputCols=correlation_columns, outputCol="features_corr")
    df_vector_corr = assembler_corr.transform(df).select("features_corr")
    # 计算皮尔逊相关系数矩阵
    correlation_matrix = Correlation.corr(df_vector_corr, "features_corr", "pearson").head()
    # 提取相关性矩阵（它是一个稠密矩阵）
    corr_matrix_array = correlation_matrix[0].toArray()
    print("--- 核心互动数据皮尔逊相关系数矩阵 ---")
    print(corr_matrix_array) # 在控制台打印矩阵，便于调试
    # 你可以在Python端将这个numpy数组和列名(correlation_columns)组合成一个易于前端处理的格式，例如JSON
    # --- 功能三：基于K-Means的用户参与度聚类分析 (AI功能) ---
    # 选择用于聚类的特征
    cluster_features = ["playcount", "likes", "commentcount", "danmaku"]
    # 使用VectorAssembler将特征列合并为向量
    assembler_cluster = VectorAssembler(inputCols=cluster_features, outputCol="raw_features")
    df_vector_cluster = assembler_cluster.transform(df)
    # 使用StandardScaler对特征进行标准化，这对K-Means非常重要
    scaler = StandardScaler(inputCol="raw_features", outputCol="scaled_features", withStd=True, withMean=False)
    scaler_model = scaler.fit(df_vector_cluster)
    df_scaled = scaler_model.transform(df_vector_cluster)
    # 初始化K-Means模型，这里我们假设分为3类
    kmeans = KMeans(featuresCol="scaled_features", k=3, seed=1)
    # 训练模型
    model = kmeans.fit(df_scaled)
    # 进行预测，为每个视频打上簇标签
    predictions = model.transform(df_scaled)
    # 使用when函数为不同的簇添加业务描述，增强可解释性
    predictions_with_desc = predictions.withColumn("description",
        when(col("prediction") == 0, "潜力热门型: 播放量和互动量均处于中等水平")
        .when(col("prediction") == 1, "大众爆款型: 拥有极高的播放量，但互动率相对一般")
        .when(col("prediction") == 2, "高粘性圈粉型: 播放量不一定是最高，但点赞、评论等互动指标非常突出")
        .otherwise("未知类型")
    )
    print("--- 用户参与度K-Means聚类分析结果（带描述） ---")
    # 选择需要的列进行展示
    cluster_result_df = predictions_with_desc.select("title", "author", "playcount", "likes", "prediction", "description")
    cluster_result_df.show(15, truncate=False) # 在控制台显示聚类结果
    # 同样可以转换为Pandas DataFrame进行后续处理
    # cluster_result_pandas_df = cluster_result_df.toPandas()
    # cluster_result_pandas_df.to_csv("clustering_analysis.csv", index=False)
    # 4. 关闭SparkSession，释放资源
    spark.stop()
# 如果直接运行此脚本，则执行分析函数
if __name__ == '__main__':
    run_core_analysis_functions()