探索技术无限可能,解读抖音用户浏览行为数据挖掘实战

[复制链接]
查看489 | 回复0 | 2024-6-10 02:11:10 | 显示全部楼层 |阅读模式
欢迎来到我的博客——探索技术的无限可能!

博客的简介(文章目录)

本文使用工具

Anaconda下载安装与使用

JupyterNotebook的使用

文章:

数据挖掘实战——抖音用户浏览行为数据剖析与挖掘(一)

数据挖掘实战——抖音用户浏览行为数据剖析与挖掘(二)

数据挖掘实战——抖音用户浏览行为数据剖析与挖掘(总)

数据挖掘实战——抖音用户浏览行为数据剖析与挖掘(续)

代码:

数据挖掘实战——抖音用户浏览行为数据剖析与挖掘(代码部份)

目录

(一)问题定义(明晰你要解决的问题或目标。确定你希望从数据中获得哪些类型的信息,以及怎样将其应用于实际场景。)①项目选题与背景

本项目实现抖音用户浏览行为数据剖析与挖掘。抖音是一款流行的短视频平台,用户在使用抖音时会形成大量的浏览行为数据,包括用户的观看视频、点赞、评论、分享等行为。本次项通过数据挖掘技术对抖音用户的浏览行为数据进行剖析和挖掘,以获得有价值的信息和洞察,并将其应用于实际场景中,如用户个性化推荐、内容优化和广告定向投放等。

②项目意义

在数据挖掘的背景下,抖音用户浏览行为数据剖析与挖掘具有重要的意义,对抖音用户浏览行为进行数据剖析与挖掘,可以了解用户的兴趣和偏好,优化用户体验,增强内容的质量和吸引力,同时也可以为广告商提供更确切的定向投放服务,实现数据驱动的营运决策。

③项目须要解决的问题或目标

A.用户兴趣和喜好剖析:通过剖析抖音用户的浏览行为数据,了解用户对不同类型内容的偏好和兴趣。这可以帮助平台更好地了解用户需求,优化推荐算法,提供个性化的内容推荐,降低用户存留和活跃度。

B.内容优化和创新:通过数据挖掘,辨识和剖析受欢迎的内容类型、创意和趋势。这可以为内容创作者和平台营运者提供指导,优化现有内容,改进内容质量,吸引更多用户参与,并发觉新的创意和趋势。

C.广告定向投放:借助用户浏览行为数据,了解用户的兴趣和偏好,为广告商提供精准的广告定向投放。通过剖析用户行为模式,辨识潜在的目标用户群体,并按照她们的兴趣和行为特点,将广告推献给最相关的用户,提升广告投放疗效和转化率。

D.营运决策和业务优化:通过数据挖掘和剖析,了解用户行为的变化趋势、活跃度和存留率等指标。这可以为抖音平台的营运决策提供根据,优化平台的功能设计、内容策略、资源分配和营运活动等,提高用户体验和平台的竞争力。

E.用户群体剖析:借助用户浏览行为数据,对用户进行群体剖析,辨识不同用户群体的特点、行为模式和偏好。这可以帮助平台了解用户群体的多样性,为不同用户提供多样化的内容和服务,满足她们的个性化需求。

④从数据中获得哪些类型的信息,以及怎样将其应用于实际场景

从抖音用户浏览行为数据中希望获得的类型信息包括用户兴趣和喜好、内容类型和创意趋势、广告定向投放指导、用户行为指标和用户群体特点。这种信息可以应用于实际场景,包括个性化推荐算法的改进、内容创作和营运策略的优化、广告投放的精准定向、平台功能设计的优化和用户体验的提高。

(二)数据搜集

首先,须要获取抖音用户的浏览行为的相关数据集,包括用户的观看记录、点赞记录、评论记录、分享记录等。这可以从数据库中提取数据、采集网路数据、使用API访问数据源或与合作伙伴合作获得数据,也可以通过与抖音平台合作获得用户数据,使用API访问数据插口或其他合法的数据搜集手段来实现。

①熟悉数据,查看数据结构和数据分布情况

数据集说明

数组名解释数组名解释数组名解释

uid

用户id

user_city

用户城市

item_id

作品id

author_id

作者id

item_city

作者城市

channel

作品频道

finish



是否看完

like

是否点赞

music_id

音乐id

duration_time

作品时长

real_time

具体发布时间

H、date

时、天(发布)

数据集下载:抖音用户浏览行为数据集

②导入必要的PythonPackages

首先导出须要的python包,其中包括NumPy、Pandas,导出这种包才能使用相应库和模块的函数、类和方式来处理和剖析数据、进行机器学习模型的训练和评估。

③读入数据Read-InData

加载并储存"douyin_dataset(1).csv“到一个名为"df"的DataFrame中,使用head()方式显示DataFrame的前几行数据。

④使用info()函数查看数据类型展示及缺位值剖析,该数据集共有1737312条记录,包含13个数组,每位数组的非空值数目均为1737312。其中,前10列是数值型变量(包括整型和浮点型),后两列是字符串型变量。数据集占用的显存大小为172.3MB

(三)数据预处理

在进行数据挖掘之前,我们须要对数据进行预处理和清洗,以确保数据的质量和一致性。

1)数据去重

无重复数据

2)缺位值查看

无缺失值

3)变量类型转换

real_time和date转为时间变量

id、城市编码转为字符串,并把小数点除去

(四)特点指标建立——统计剖析(分类)

依据问题的需求和数据的特性,进行特点选择、提取和转换。诸如,可以从用户的浏览行为数据中提取特点,如观看时长、点赞数、评论数、分享数等,或则通过文本挖掘技术提取用户的评论内容特点,可以包括对原始特点进行数值化、编码分类变量、创建新特点等操作。

①用户特点统计剖析

站在用户的角度,涉及到浏览量,点赞量,浏览的作品、作者、BGM的总量等

②作者特点统计剖析

站在作者的角度,涉及到总浏览量,总点赞量等

③作品特点统计剖析

站在作品的角度,简单剖析

(五)可视化剖析

可视化:可以通过line_chart勾画曲线图,pie_chart勾画饼图,fl_chart勾画折线图。

ps:pyecharts是Python中一个数据可视化库,可以用于生成种类型的图表。打开命令行窗口,输入以下命令来安装pyecharts:

pythonpipinstallpyecharts

绘图函数封装①用户特点可视化剖析特点数据统计

用户浏览情况

勾画浏览量分布曲线:

用户点赞情况

根据点赞量从大到小排序并求和,勾画曲线

用户完整观看情况

用户观看作品的平均完整时长分布

用户去过的城市数分布

②作者特点可视化剖析特点数据统计

作者浏览情况

作者点赞情况

作者去过的城市数

③作品特点可视化剖析特点数据统计

作品各日发布情况

作品浏览量情况

作品点量率情况

下接:数据挖掘实战——抖音用户浏览行为数据剖析与挖掘(二)
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则