读SQL学习指南(第3版)笔记12_时间函数和分析函数

寻技术 Oracle 2023年11月30日 118

1. 时区

1.1. 大航海时代伊始就在和时差打交道,而计算机时代的到来加剧了这一问题

1.2. 世界各地的人们都喜欢将太阳直射本地的时间作为正午

1.3. 无法强制所有人使用统一的时钟

1.4. 世界被划分为24个时区,同一时区内的所有人都认同当前时间,而其他时区的人则不然

1.5. 为了确保有一个共同的计时参考点,十五世纪的航海家们将他们的时钟设定为英国格林尼治时间,也就是后来所称的格林尼治标准时(Greenwich mean time,GMT)

1.6. 协调世界时(coordinated universal time,UTC)

1.6.1. GMT的一种变体

1.6.2. 原子钟为基础(或者更准确地说,是分布在全世界50个位置的200个原子钟的平均时间,称为“世界时”)

1.6.3. SQL Server和MySQL都提供了可以返回当前的UTC时间戳的函数

1.6.3.1. SQL Server的getutcdate()

1.6.3.2. MySQL的utc_timestamp()

1.7. 大多数数据库服务器根据当前所在地区设置默认时区,并提供工具以便在需要的时候修改时区

1.7.1. 用于存储全球股票交易的数据库通常会配置为使用UTC

1.7.2. 用于存储特定零售企业销售数据的数据库则可能使用服务器所在时区

1.8. MySQL提供两种不同的时区设置

1.8.1. 全局时区

1.8.2. 会话时区

1.8.2.1. 对于每个登录的用户可能有所不同

1.8.2.2. 改变当前会话的时区设置

1.8.2.3. mysql> SET time_zone = 'Europe/Zurich';

1.9. Oracle Database用户修改会话的时区设置

1.9.1. ALTER SESSION TIMEZONE = 'Europe/Zurich'

2. 生成时间型数据

2.1. 从已有的date、datetime或time列复制数据

2.2. 执行能够返回date、datetime或time类型数据的内建函数

2.3. 构建可以被服务器评估的时间型数据的字符串表示

2.4. 日期格式的组成部分

2.4.1. YYYY

2.4.1.1. 年份,包括世纪

2.4.1.2. 1000--9999

2.4.2. MM

2.4.2.1. 月份

2.4.2.2. 01 (1月)~12 (12月)

2.4.3. DD

2.4.3.1. 日

2.4.3.2. 01~31

2.4.4. HH

2.4.4.1. 小时

2.4.4.2. 00~23

2.4.5. HHH

2.4.5.1. 小时

2.4.5.2. -838~838

2.4.6. MI

2.4.6.1. 分钟

2.4.6.2. 00~59

2.4.7. SS

2.4.7.1. 分钟

2.4.7.2. 00~59

2.5. 所需的日期组成部分

2.5.1. date

2.5.1.1. YYYYMM-DD

2.5.2. datetime

2.5.2.1. YYYY-MM-DD HH:MISS

2.5.3. timestamp

2.5.3.1. YYYY-MM-DD HH:MSS

2.5.4. time

2.5.4.1. HHH:M:SS

2.6. cast()函数

2.6.1. 字符串到日期的转换

2.6.1.1. 返回datetime类型的值

2.6.2. mysql> SELECT CAST('2019-09-17 15:30:00' AS DATETIME);

2.6.3. mysql

-> SELECT CAST('2019-09-17' AS DATE) date_field,
    -> CAST('108:17:57' AS TIME) time_field;

2.7. str_to_date()

2.7.1. 日期生成函数

2.7.2. sql

UPDATE rental
SET return_date = STR_TO_DATE('September 17, 2019', '%M %d, %Y')
WHERE rental_id = 99999;

2.7.3. 第2个参数定义了日期字符串的格式

2.7.3.1. %a 星期几的简写,比如Sun、Mon、...

2.7.3.2. %b 月份名称的简写,比如Jan、Feb、...

2.7.3.3. %c 月份的数字形式(0…12)

2.7.3.4. %d 月份中的天数(00…31)

2.7.3.5. %f 微秒数(000000…999999)

2.7.3.6. %H 24小时制中的小时(00…23)

2.7.3.7. %h 12小时制中的小时(01…12)

2.7.3.8. %i 小时中的分钟数(00…59)

2.7.3.9. %j 一年中的天数(001…366)

2.7.3.10. %M 月份的全称(January…December)

2.7.3.11. %m 月份的数值形式

2.7.3.12. %p AM或PM

2.7.3.13. %s 秒数(00…59)

2.7.3.14. %W 星期几的全称(Sunday…Saturday)

2.7.3.15. %w 一星期中的天数(0=周日;6=周六)

2.7.3.16. %Y 4位数字表示的年份

2.7.4. Oracle Database用户可以使用to_date()函数,其用法与MySQL的str_to_date()函数相同

2.8. 访问系统时钟

2.8.1. mysql> SELECT CURRENT_DATE(), CURRENT_TIME(), CURRENT_TIMESTAMP();

2.8.2. Oracle Database提供了函数current_date()和current_timestamp(),但没有提供current_time()

2.8.3. Microsoft SQL Server只提供了current_timestamp()函数

2.9. 返回日期的时间型函数

2.9.1. date_add()函数

2.9.1.1. 允许对指定日期添加各种间隔期(比如,日、月、年),以生成另一个日期

2.9.1.2. mysql> SELECT DATE_ADD(CURRENT_DATE(), INTERVAL 5 DAY);

2.9.2. 常用的间隔类型

2.9.2.1. second

2.9.2.1.1. 秒数

2.9.2.2. minute

2.9.2.2.1. 分钟数

2.9.2.3. hour

2.9.2.3.1. 小时数

2.9.2.4. day

2.9.2.4.1. 天数

2.9.2.5. month

2.9.2.5.1. 月份

2.9.2.6. year

2.9.2.6.1. 年数

2.9.2.7. minute_second

2.9.2.7.1. 分钟数和秒数,之间以”.”分隔

2.9.2.8. hour_second

2.9.2.8.1. 小时数、分钟数和秒效,之间以”.*分隔

2.9.2.9. year_month

2.9.2.9.1. 分钟数和秒数,之间以”.”分隔

2.9.3. last_day()函数

2.9.3.1. 求得当前的月份并计算到月底所剩的天数

2.9.3.1.1. 会返回date类型
2.9.3.1.2. 底层逻辑很复杂,比如在要找出二月的最后一天时必须首先确定当前年份是否为闰年

2.9.3.2. MySQL和Oracle Database都提供了

2.9.3.3. SQL Server没有提供与之功能接近的函数

2.9.3.4. mysql> SELECT LAST_DAY('2019-09-17');

2.10. 返回字符串的时间型函数

2.10.1. dayname()函数

2.10.1.1. 确定某一天是星期几

2.10.1.2. mysql> SELECT DAYNAME('2019-09-18');

2.10.2. extract()函数

2.10.2.1. SQL:2003标准的一部分

2.10.2.2. Oracle Database中也同样得到了实现

2.10.2.3. 记住一个函数的数种变体比记住一堆不同的函数更容易

2.10.2.4. mysql> SELECT EXTRACT(YEAR FROM '2019-09-18 22:19:05');

2.10.2.5. SQL Server没有提供extract()函数的实现,但是提供了datepart()函数

2.10.2.5.1. SELECT DATEPART(YEAR, GETDATE())

2.11. 返回数值的时间型函数

2.11.1. datediff()

2.11.1.1. 返回两个日期之间的天数

2.11.1.2. mysql> SELECT DATEDIFF('2019-09-03', '2019-06-21');

2.11.1.3. SQL Server也提供了datediff()函数,但比MySQL的实现更为灵活,可以为其指定间隔类型(年、月、日、小时等)

2.11.1.3.1. SELECT DATEDIFF(DAY, '2019-06-21', '2019-09-03')

3. 转换函数

3.1. cast()函数

3.1.1. SQL:2003标准

3.1.2. MySQL、Oracle和Microsoft SQL Server中均已实现

3.1.3. mysql> SELECT CAST('1456328' AS SIGNED INTEGER);

3.1.4. cast()函数不接受格式化字符串

3.1.5. 如果待转换的日期字符串并非默认格式(比如datetime类型的YYYY-MM-DD HH:MI:SS),需要先使用其他函数进行调整

4. 分析函数

4.1. 分析函数只能在SELECT子句中使用,所以如果需要根据分析函数的结果进行过滤或分组,通常需要使用嵌套查询

4.2. 排名函数

4.2.1. row_number

4.2.1.1. 为每一行返回一个唯一的排名,如果出现并列的情况,则任意分配排名

4.2.2. rank

4.2.2.1. 在出现并列的情况下,返回相同的排名,会在排名中产生空隙

4.2.2.2. 在很多情况下,rank函数也许是最好的选择

4.2.3. dense_rank

4.2.3.1. 在出现并列的情况下,返回相同的排名,不会在排名中产生空隙

4.2.4. mysql

-> SELECT customer_id, count(*) num_rentals,
    ->   row_number() over (order by count(*) desc) row_number_rnk,
    ->   rank() over (order by count(*) desc) rank_rnk,
    ->   dense_rank() over (order by count(*) desc) dense_rank_rnk
    -> FROM rental
    -> GROUP BY customer_id
    -> ORDER BY 2 desc;

4.2.5. 生成多个排名

4.2.5.1. 通过在over子句中加入partition by子句来实现

4.2.5.2. sql

SELECT customer_id, rental_month, num_rentals,
  rank_rnk ranking
FROM
 (SELECT customer_id,
    monthname(rental_date) rental_month,
    count(*) num_rentals,
    rank() over (partition by monthname(rental_date)
      order by count(*) desc) rank_rnk
 FROM rental
 GROUP BY customer_id, monthname(rental_date)
) cust_rankings
WHERE rank_rnk <= 5
ORDER BY rental_month, num_rentals desc, rank_rnk;

4.3. 报表函数

4.3.1. 找出离群值(outlier)

4.3.2. 生成整个数据集的汇总值/平均值

4.3.3. 可以使用聚合函数(min、max、avg、sum和count),但不是将其与group by子句并用,而是搭配over子句

4.3.4. mysql

-> SELECT monthname(payment_date) payment_month,
    ->   amount,
    ->   sum(amount)
    ->     over (partition by monthname(payment_date)) monthly_total,
    ->   sum(amount) over () grand_total
    -> FROM payment
    -> WHERE amount >= 10
    -> ORDER BY 1;

4.3.5. mysql

-> SELECT monthname(payment_date) payment_month,
    ->   sum(amount) month_total,
    ->   round(sum(amount) / sum(sum(amount)) over ()
    ->     * 100, 2) pct_of_total
    -> FROM payment
    -> GROUP BY monthname(payment_date);

4.3.6. mysql

 -> SELECT monthname(payment_date) payment_month,
    ->   sum(amount) month_total,
    ->   CASE sum(amount)
    ->     WHEN max(sum(amount)) over () THEN 'Highest'
    ->     WHEN min(sum(amount)) over () THEN 'Lowest'
    ->     ELSE 'Middle'
    ->   END descriptor
    -> FROM payment
    -> GROUP BY monthname(payment_date);

4.3.7. 使用partition by子句来为分析函数定义数据窗口,允许按照公共值对行进行分组

4.3.8. 流水式总和

4.3.8.1. mysql

-> SELECT yearweek(payment_date) payment_week,
    ->   sum(amount) week_total,
    ->   sum(sum(amount))
    ->     over (order by yearweek(payment_date)
    ->       rows unbounded preceding) rolling_sum
    -> FROM payment
    -> GROUP BY yearweek(payment_date)
    -> ORDER BY 1;

4.3.9. 流水式平均值

4.3.9.1. mysql

-> SELECT yearweek(payment_date) payment_week,
    ->   sum(amount) week_total,
    ->   avg(sum(amount))
    ->     over (order by yearweek(payment_date)
    ->       rows between 1 preceding and 1 following) rolling_3wk_avg
    -> FROM payment
    -> GROUP BY yearweek(payment_date)
    -> ORDER BY 1;

4.3.10. lag和lead

4.3.10.1. 涉及将一行中的值与另一行进行比较

4.3.10.2. mysql

-> SELECT yearweek(payment_date) payment_week,
    ->   sum(amount) week_total,
    ->   lag(sum(amount), 1)
    ->     over (order by yearweek(payment_date)) prev_wk_tot,
    ->   lead(sum(amount), 1)
    ->     over (order by yearweek(payment_date)) next_wk_tot
    -> FROM payment
    -> GROUP BY yearweek(payment_date)
    -> ORDER BY 1;

4.3.10.3. mysql

-> SELECT yearweek(payment_date) payment_week,
    ->   sum(amount) week_total,
    ->   round((sum(amount) - lag(sum(amount), 1)
    ->     over (order by yearweek(payment_date)))
    ->     / lag(sum(amount), 1)
    ->       over (order by yearweek(payment_date))
    ->     * 100, 1) pct_diff
    -> FROM payment
    -> GROUP BY yearweek(payment_date)
    -> ORDER BY 1;

5. 列值拼接

5.1. 处理数据窗口中的行组

5.2. group_concat函数

5.2.1. 用于将一组列值转换为单个分隔字符串

5.2.2. 一种将结果集反规范化(denormalize)以生成XML或JSON文档的便捷方法

5.2.3. mysql

-> SELECT f.title,
    ->   group_concat(a.last_name order by a.last_name
    ->     separator ', ') actors
    -> FROM actor a
    ->   INNER JOIN film_actor fa
    ->   ON a.actor_id = fa.actor_id
    ->   INNER JOIN film f
    ->   ON fa.film_id = f.film_id
    -> GROUP BY f.title
    -> HAVING count(*) = 3;

5.2.4. SQL Server,可以通过string_agg函数

5.2.5. Oracle用户则可以使用listagg函数

关闭

用微信“扫一扫”