MongoDB通过查询与游标彻底玩转分布式文件存储

寻技术 MongoDB 2023年07月11日 99

MongoDB简介

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。

MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的,它支持的数据结构非常松散,是类似json的bson格式,因此可以存储比较复杂的数据类型。

MongoDB最大的特点是它支持的查询语言非常强大,其语法有点类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。

官网:MongoDB: The Developer Data Platform | MongoDB | MongoDB

指标项 指标值 说明
开发语言 C++ /
使用方式 服务 服务(独立运行)还是组件(代码集成)
部署方式 支持Windows/Linux/Docker 如果是服务,则是否支持 Windows/Linux/Docker 部署
许可协议 SSPL Apache/MIT/GNU/SSPL/...
是否有商业版 /
最近迭代时间 2022/2/12 该组件最后一次更新时间是什么时候
社区关注度 21.2k 该组件在 Github/Gitlab 中的 Star 数是多少

1.MongoDB主要特点

1.1文档数据库

使用文档的优点是

  • 文档(即对象)对应于许多编程语言中的本机数据类型。
  • 嵌入式文档和数组减少了对昂贵连接的需求。
  • 动态模式支持流畅的多态性。

1.2高性能

MongDB提供高性能的数据持久性。特别是,

  • 对嵌入式数据模型的支持减少了数据库系统上的 I/O活动。
  • 索引支持更快的查询,并且可以包含来自嵌入文档和数组的键。

1.3高可用性

MongDB的复制工具,称为副本集(一组 MongoDB 服务器,它们维护相同的数据集,提供冗余并提高数据可用性),提供自动故障转移和数据冗余。

1.4 水平可扩展

MongoDB 提供水平可扩展性。

1.5支持多个存储引擎

MongoDB支持多种存储引擎:WiredTiger存储引擎(包括对静态加密的支持)和内存存储引擎。

此外,MongoDB 提供可插拔的存储引擎 API,允许第三方为 MongoDB 开发存储引擎。

2.应用场景

1)社交场景,使用MongoDB存储用户信息,以及用户发表的朋友圈信息,通过地理位置索引实现附近的人、地点等功能。

2)游戏场景,使用MongoDB存储游戏用户信息,用户的装备、积分等直接以内嵌文档的形式存储,方便查询、高效率存储和访问。

3)物流场景,使用 MongoDB 存储订单信息,订单状态在运送过程中会不断更新,以 MongoDB 内嵌数组的形式来存储,一次查询就能将 订单所有的变更读取出来。

4)物联网场景,使用 MongoDB 存储所有接入的智能设备信息,以及设备汇报的日志信息,并对这些信息进行多维度的分析。

5)视频直播,使用 MongoDB 存储用户信息、点赞互动信息等。

这些应用场景中,数据操作方面的共同特点是:

(1)数据量大

(2)写入操作频繁(读写都很频繁)

(3)价值较低的数据,对事务性要求不高

对于这样的数据,我们更适合使用MongoDB来实现数据的存储

https://pippichi.github.io/pdf/mongodb_base.pdf

下面重点介绍下MongoDB通过查询与游标彻底玩转分布式文件存储。

MongoDB通过查询与游标彻底玩转分布式文件存储

一、查询

1、find()基本用法

查询就是返回集合中文档的一个子集,子集的范围从0个文档到整个集合。要返回哪些文档由find的第一个参数决定,该参数是一个用于指定查询条件的文档。

如果是空,则返回全部文档。

当向查询文档中添加键值对时,就意味着限定了查询条件。例如db.users.find({"name":"哪吒编程"})

可以在查询文档时,传入多个键值对,相当于关系型数据库中的where ... and ...

2、指定要返回的键

有时候,只想查询文档中的部分键

> db.users.find({},{"id":1,"dept":1})
{ "_id" : ObjectId("638b2822bb535f1c23f9b09a"), "id" : "1", "dept" : [ { "name" : "哪吒编程", "age" : 18, "address" : "大连" }, { "name" : "云韵", "age" : 19, "address" : "大连" }, { "name" : "美杜莎", "age" : 28, "address" : "北京" } ] }
{ "_id" : ObjectId("638b3944bb535f1c23f9b09b"), "id" : "1", "dept" : [ { "name" : "哪吒编程", "age" : 18, "address" : "大连" }, { "name" : "云韵", "age" : 19, "address" : "大连" }, { "name" : "美杜莎", "age" : 28, "address" : "北京" } ] }


> db.users.find({},{"_id":0,"dept":1})
{ "dept" : [ { "name" : "哪吒编程", "age" : 18, "address" : "大连" }, { "name" : "云韵", "age" : 19, "address" : "大连" }, { "name" : "美杜莎", "age" : 28, "address" : "北京" } ] }
{ "dept" : [ { "name" : "哪吒编程", "age" : 18, "address" : "大连" }, { "name" : "云韵", "age" : 19, "address" : "大连" }, { "name" : "美杜莎", "age" : 28, "address" : "北京" } ] }

3、查询条件

$lt、$lte、$gt、$gte都属于比较运算符,分别对应<、<=、>、>=

可以将其组合使用以查找一个范围内的值。

> db.users.find({"dept.age":{"$gte":20,"$lte":30}})

4、or查询

MongoDB中有两种方式可以进行or查询。$in可以用来查询一个键的多个值。$or则更通用一些,可以在多个键中查询任意的给定值。

> db.users.find({"id":{"$in":["1","3"]}})
{ "_id" : ObjectId("638b2822bb535f1c23f9b09a"), "id" : "1", "dept" : [ { "name" : "哪吒编程", "age" : 18, "address" : "大连" }, { "name" : "云韵", "age" : 19, "address" : "大连" }, { "name" : "美杜莎", "age" : 28, "address" : "北京" } ] }
{ "_id" : ObjectId("638b3944bb535f1c23f9b09b"), "id" : "1", "dept" : [ { "name" : "哪吒编程", "age" : 18, "address" : "大连" }, { "name" : "云韵", "age" : 19, "address" : "大连" }, { "name" : "美杜莎", "age" : 28, "address" : "北京" } ] }
{ "_id" : ObjectId("638b4cacbb535f1c23f9b09c"), "id" : "3", "dept" : [ { "name" : "哪吒编程", "age" : 18, "address" : "大连" }, { "name" : "云韵", "age" : 19, "address" : "大连" }, { "name" : "美杜莎", "age" : 28, "address" : "北京" } ] }
>

5、$not

$not是一个元条件运算符,可以用于任何其它条件之上。

二、特定类型的查询

1、null

null的行为有一些特别。它可以与自身匹配。

> db.users.find({"dept":null})
{ "_id" : ObjectId("638b538682bdbdfa72665a11"), "id" : "1", "dept" : null }

2、正则表达式

"$regex"可以在查询中为字符串的模式匹配提供正则表达式功能。正则表达式对于灵活的字符串匹配非常有用。

> db.users.find({"name":{"$regex":"哪吒"}}))
{ "_id" : ObjectId("638b549982bdbdfa72665a12"), "id" : "1", "name" : "哪吒编程", "age" : 18 }
{ "_id" : ObjectId("638b54cd82bdbdfa72665a15"), "id" : "1", "name" : "CSDN哪吒", "age" : 18 }

MongoDB会使用Perl兼容的正则表达式(PRCE)库来对正则表达式进行匹配。任何PCRE支持的正则表达式语法都能被MongoDB接受。

3、查询数组

$all可以通过多个元素匹配数组。

> db.workers.find({name:{$all:["哪吒编程","云韵"]}})
{ "_id" : ObjectId("638b2154bb535f1c23f9b098"), "id" : "1", "name" : [ "哪吒编程", "云韵" ] }
{ "_id" : ObjectId("638b59fc82bdbdfa72665a16"), "id" : "1", "name" : [ "哪吒编程", "云韵", "美杜莎" ] }
{ "_id" : ObjectId("638b59fc82bdbdfa72665a17"), "id" : "2", "name" : [ "哪吒编程", "云韵", "纳兰嫣然" ] }

如果想在数组中查询特定位置的元素,可以使用key.index语法来指定下标:

> db.workers.find({"name.2":"美杜莎"})
{ "_id" : ObjectId("638b59fc82bdbdfa72665a16"), "id" : "1", "name" : [ "哪吒编程", "云韵", "美杜莎" ] }

通过$size指定要查找的数组的大小:

> db.workers.find({"name":{"$size":2}})
{ "_id" : ObjectId("638b2154bb535f1c23f9b098"), "id" : "1", "name" : [ "哪吒编程", "云韵" ] }

4、数组与范围查找的相互作用

先举一个例子:

> db.student.find()
{ "_id" : ObjectId("638b6b8382bdbdfa72665a19"), "id" : "1", "name" : "哪吒编程", "age" : 18 }
{ "_id" : ObjectId("638b6b8482bdbdfa72665a1a"), "id" : "2", "name" : "云韵", "age" : 23 }
{ "_id" : ObjectId("638b6b8482bdbdfa72665a1b"), "id" : "3", "name" : "美杜莎", "age" : [ 15, 29 ] }
{ "_id" : ObjectId("638b6b8582bdbdfa72665a1c"), "id" : "3", "name" : "萧炎", "age" : 38 }
> db.student.find({"age":{"$gt":20,"$lt":28}})
{ "_id" : ObjectId("638b6b8482bdbdfa72665a1a"), "id" : "2", "name" : "云韵", "age" : 23 }
{ "_id" : ObjectId("638b6b8482bdbdfa72665a1b"), "id" : "3", "name" : "美杜莎", "age" : [ 15, 29 ] }

和想象中的不太一样啊,我的本意是查询年龄在20~28之间的人,为什么呢?

文档中的标量(非数组元素)必须与查询条件中的每一条子句相匹配。如果使用db.student.find({"age":{"$gt":20,"$lt":28}})进行查询,那么age必须介于20~28之间,然而,如果age是一个数组,那么当age键中的某一个元素与查询条件的任意一条语句相匹配时,文档也会被返回。(即15<28,29大于20),完美适配。

这样就会使针对数组的范围查询失去了作用。

此时,可以使用"$elemMatch"强制MongoDB将这两个子句与单个数组元素进行比较。不过,"$elemMatch"不会匹配非数组元素。

-- 返回空
db.student.find({"age":{"$elemMatch":{"$gt":20,"$lt":28}}})

如果在查询的字段上有索引,那么可以使用min和max将查询条件遍历的索引范围限制为"$gt""$lt"的值。

db.student.find({"age":{"$gt":20,"$lt":28}}).min({"age":20}).max({"age":28})

现在,这条查询语句只会遍历值在20~28之间的索引。

三、游标

数据库会使用游标返回find的执行结果。游标的客户端实现通常能够在很大程度上对查询的最终输出进行控制。你可以限制结果的数量,跳过一些结果,按任意方向的任意键组合对结果进行排序,以及执行徐国其他功能强大的操作。

通过cursor.hasNext()检查是否还有其它结果,通过cursor.next()用来对其进行获取。

调用find()时,shell并不会立即查询数据库,而是等到真正开始请求结果时才发送查询,这样可以在执行之前给查询附加额外的选项。cursor对象的大多数方法会返回游标本身,这样就可以按照任意顺序将选项链接起来了。

在使用db.users.find();查询时,实际上查询并没有真正执行,只是在构造查询,执行cursor.hasNext(),查询才会发往服务器端。shell会立刻获取前100个结果或者前4MB的数据(两者之中的较小者),这样下次调用next或者hasNext时就不必再次连接服务器去获取结果了。在客户端遍历完第一组结果后,shell会再次连接数据库,使用getMore请求更多的结果。getMore请求包含一个游标的标识符,它会向数据库询问是否还有更多的结果,如果有则返回下一批结果。这个过程会一直持续,直到游标耗尽或者结果被全部返回。

四、游标的生命周期

在服务器端,游标会占用内存和资源。一旦游标遍历完结果之后,或者客户端发送一条消息要求终止,数据库就可以释放它正在使用的资源。

何时销毁游标:

  • 当游标遍历完匹配的结果时,它会消除自身;
  • 当游标超出客户端的作用域时,驱动程序会向数据库发送一条特殊的消息,让数据库终止该游标;
  • 如果10分钟没有被使用的话,数据库游标也将自动销毁;

五、limit、skip、soat

1、常用的查询选项

最常用的查询选项是限制返回结果的数量、略过一定数量的结果以及排序。所有这些选项必须在查询被发送到数据库之前指定。

  • limit:限制数量;
  • skip:略过;
  • soat:排序,1是升序,-1是降序;

使用skip略过少量的文档是可以的,但对于结果非常多的情况,skip会非常慢,因为要首先找到被略过的结果,然后再丢弃这些数据。

2、使用skip进行分页

最简单的分页方式是

> db.student.find().sort({"id":1}).limit(5)
{ "_id" : ObjectId("638b6b8382bdbdfa72665a19"), "id" : "1", "name" : "哪吒编程", "age" : 18 }
{ "_id" : ObjectId("638c6685e96330d24f819176"), "id" : "1", "name" : "哪吒编程", "age" : 18 }
{ "_id" : ObjectId("638c6685e96330d24f81917f"), "id" : "10", "name" : "云韵", "age" : 23 }
{ "_id" : ObjectId("638c6685e96330d24f819180"), "id" : "11", "name" : "美杜莎", "age" : 29 }
{ "_id" : ObjectId("638c6686e96330d24f819181"), "id" : "12", "name" : "萧炎", "age" : 38 }
> db.student.find().sort({"id":1}).skip(5).limit(5)
{ "_id" : ObjectId("638b6b8482bdbdfa72665a1a"), "id" : "2", "name" : "云韵", "age" : 23 }
{ "_id" : ObjectId("638c6685e96330d24f819177"), "id" : "2", "name" : "云韵", "age" : 23 }
{ "_id" : ObjectId("638b6b8582bdbdfa72665a1c"), "id" : "3", "name" : "萧炎", "age" : 38 }
{ "_id" : ObjectId("638b6b8482bdbdfa72665a1b"), "id" : "3", "name" : "美杜莎", "age" : [ 15, 29 ] }
{ "_id" : ObjectId("638c6685e96330d24f819178"), "id" : "3", "name" : "美杜莎", "age" : 29 }
> db.student.find().sort({"id":1}).skip(10).limit(5)
{ "_id" : ObjectId("638c6685e96330d24f819179"), "id" : "4", "name" : "萧炎", "age" : 38 }
{ "_id" : ObjectId("638c6685e96330d24f81917a"), "id" : "5", "name" : "哪吒编程", "age" : 18 }
{ "_id" : ObjectId("638c6685e96330d24f81917b"), "id" : "6", "name" : "云韵", "age" : 23 }
{ "_id" : ObjectId("638c6685e96330d24f81917c"), "id" : "7", "name" : "美杜莎", "age" : 29 }
{ "_id" : ObjectId("638c6685e96330d24f81917d"), "id" : "8", "name" : "萧炎", "age" : 38 }
>

3、不用skip进行分页

可以通过以下方式:

var lastTime = null;
while(page.hasNext){
	lastTime = page.next();
	...
}
var page1 = db.student.find({"date":{"$lt":lastTime.date}});
page1.sort({"date":-1}).limit(5);
关闭

用微信“扫一扫”