SQL进阶技巧:统计各时段观看直播的人数

news/2024/10/3 13:22:32 标签: sql, 数据库, 大数据, 数据分析, 算法

目录

0 需求描述

1 数据准备

2 问题分析

3 小结

如果觉得本文对你有帮助,那么不妨也可以选择去看看我的博客专栏 ,部分内容如下:

数字化建设通关指南

专栏 原价99,现在活动价39.9,十一国庆后将上升至59.9,最后一波需要的赶紧冲,最终按照阶梯式增长,直到恢复原价。


0 需求描述

现在有一张A表,里面包含当天用户观看直播的记录,需求:统计每个时间段内对应的观看直播的人数

表A

user_idstart_timeend_time
10012024-06-06 12:05:002024-06-06 13:10:00
10022024-06-06 11:05:002024-06-06 13:10:00

1 数据准备

sql">create table a as
    (select stack(
                    2,
                    1001, '2024-06-06 12:05:00', '2024-06-06 13:10:00',
                    1002, '2024-06-06 11:05:00', '2024-06-06 13:10:00'
            ) as (user_id, start_time, end_time));

2 问题分析

本题主要考察拉链表流水化的思维方式,即如何将拉链表转换成对应的时间明细表

具体步骤如下:

第一步:行转列,标记在线、下线状态

状态标记:st时间记为 1,et时间记为-1 (et时表示下播,取-1)

sql">select user_id, start_time dt, 1 status
 from a
 union all
 select user_id, end_time dt, -1 status
 from a

 

第二步:求对应时点处累计人数,及对应时段

sql">select user_id
      ,dt start_time
      ,sum(status) over(order by dt) acc_cnt
      ,lead(dt) over(order by dt) end_time
from
(select user_id, start_time dt, 1 status
 from a
 union all
 select user_id, end_time dt, -1 status
 from a) t

第三步:筛选出累计人数大于0的结果,获取最终结果

sql">select user_id
     , start_time
     , end_time
     , acc_cnt
from (select user_id
           , dt                             start_time
           , sum(status) over (order by dt) acc_cnt
           , lead(dt) over (order by dt)    end_time
      from (select user_id, start_time dt, 1 status
            from a
            union all
            select user_id, end_time dt, -1 status
            from a) t) t

 

3 小结

如果觉得本文对你有帮助,那么不妨也可以选择去看看我的博客专栏 ,部分内容如下:
数字化建设通关指南
专栏 原价99,现在活动价39.9,十一国庆后将上升至59.9,最后一波需要的赶紧冲,最终按照阶梯式增长,直到恢复原价。

主要内容:
(1)SQL进阶实战技巧
可以参考如下教程,具体链接如下

SQL很简单,可你却写不好?也许这才是SQL最好的教程

上面链接中的文章及技巧会不定期更新。

(2)数仓建模实战技巧和个人心得
       1)新人入职新公司后应如何快速了解业务?

       2)以业务视角看宽表化建设?

       3)  维度建模 or 关系型建模?

       4)业务模型与数据模型有什么区别?业务阶段的模型该如何建设?

       5)业务指标体系该如何建设?指标体系该如何维护?指标平台应如何建设?指标体系                           该由谁来搭建?

       6)如何优雅设计DWS层?DWS层模型好坏该如何评价?

       7)指标发生异常,该如何排查?应从哪些方面入手寻找问题点?

       8) 数据架构的选择,mpp or hadoop?

       9)数仓团队应如何体现自己的业务价值,讲好数据故事?

       10)BI与大数据有什么关系?BI与信息化、数字化之间有什么关系?BI与报表之间的关                          系?

       11)数据部门如何与业务部门沟通,并规划指引业务需求?

文章不限于以上内容,有新的想法也会及时更新到该专栏。

具体专栏链接如下:

 ​​​​​​数字化建设通关指南_莫叫石榴姐的博客-CSDN博客

 


http://www.niftyadmin.cn/n/5688450.html

相关文章

python-鸡尾酒疗法/图像相似度/第n小的质数

一:鸡尾酒疗法 题目描述 鸡尾酒疗法,原指“高效抗逆转录病毒治疗”(HAART),由美籍华裔科学家何大一于 1996 年提出,是通过三种或三种以上的抗病毒药物联合使用来治疗艾滋病。该疗法的应用可以减少单一用药产…

笔记整理—linux进程部分(6)进程间通信、alarm和pause

两个进程间通信可能是任何两个进程间的通信(IPC)。同一个进程是在同一块地址空间中的,在不同的函数与文件以变量进程传递,也可通过形参传递。2个不同进程处于不同的地址空间,要互相通信有难度(内存隔离的原…

Jenkins pipeline配置示例

前提条件&#xff1a;已经安装Jenkins并能正常启动 如果Jenkins安装启动遇到问题可以参考&#xff1a; 1.创建pipeline 点击新建项目&#xff1a; 输入名称&#xff0c;选择pipeline&#xff1a; 进入配置页面&#xff0c;如果要配置GitHub Webhook要勾选&#xff1a;<fo…

Flume面试整理-Flume是什么?

Apache Flume 是一个分布式的、可靠的、高可用的数据收集和传输系统,专为从各种数据源(如日志文件、网络流)收集、聚合和传输大量数据而设计。它主要用于在大数据生态系统中,特别是Hadoop环境中,将数据从多个分散的来源实时地传输到一个集中的存储系统(如HDFS、HBase等)…

用户登录与信息管理:实现小程序登录与用户信息存储

用户登录与信息管理&#xff1a;实现小程序登录与用户信息存储 在现代的移动应用中&#xff0c;用户登录与信息管理是构建个性化用户体验的基础。小程序作为轻量级的应用形式&#xff0c;在简化开发流程的同时&#xff0c;也需要我们妥善管理用户的登录状态与用户信息。本文将…

React生命周期以及Hook

React生命周期可概括为以下关键阶段&#xff08;针对类组件&#xff0c;函数组件主要通过Hooks实现类似功能&#xff09;&#xff1a; 挂载&#xff08;Mounting&#xff09;&#xff1a; constructor&#xff1a;初始化state和绑定事件处理函数。 render&#xff1a;返回组件的…

【AI驱动TDSQL-C Serverless 数据库技术实战营】基于Langchain的电商可视化分析

人工智能技术的飞速发展已深刻影响电商行业&#xff0c;显著提升了个性化推荐、用户行为分析、库存管理和市场预测等领域的效率。构建一个高效的AI驱动电商数据分析平台已成为行业的核心需求。本文里&#xff0c;我们将使用腾讯云的高性能应用平台 HAI&#xff08;专为AI和科学…

深化专业,广纳技能,构建软实力

一、引言 ----  随着人工智能&#xff08;AI&#xff09;和生成式人工智能&#xff08;AIGC&#xff09;如ChatGPT、Midjourney、Claude等大语言模型的持续涌现&#xff0c;AI辅助编程工具日益普及&#xff0c;程序员的工作方式正在经历深刻的变革。这种变革既带来了对部分编…