0%

2022开源操作系统训练营第二阶段总结-朱懿

2022 开源操作系统训练营第二阶段总结

2022.09 朱懿

在第一阶段学习了rust和操作系统实验的基础上,第二阶段我基于我的兴趣,选择了虚拟机的方向,经过前期的调查了解研究,发现,在夏令营第二阶段设计的虚拟化的几个方向中,对于偏向硬件的虚拟机方向,已经有人做出了实现。然而我注意到,目前为止,所有的工作仍然没有人注意到操作系统级的虚拟化的方向,也就是容器化的方向。因此,在自己感兴趣的前提下,第二阶段我选择了容器化的这个虚拟机的方向进行学习和研究。

(当然,也因为没有前人在这方面的相关工作,我在这方面的学习研究,不能说举步维艰吧,只能说从0到1)

因此,尽管最后在zcore上面的改造不算成功,但我会尽量详尽的结合我在项目里面的log记录,省却大量无用的吐槽,希望为后来者提供一些可行的资料和设计思路。

项目背景及前期学习路线

项目背景

容器化的虚拟化,最典型的代表就是docker——我想来读这篇文档的人肯定用过的。

容器化需要内核支持namespace和cgroup相关的功能,在此基础之上封装了一些东西。其中,namespace主要用于各类资源的隔离,而cgroup则用于控制各类资源的使用。而zcore(包括rcore)本身并没有支持这些。因此,我试图进行相关内容的学习,并且在zcore的基础上,简单实现namespace的功能。至于cgroup的部分,我涉及的不多。但总体而言,需要更多的系统调用的改写。

下面的学习路线,如果有所缺失的部分,可以读我列举出来的参考,以及我的ppt(大概是简单的不能再简单的简单版)。需要阅读了解的内容颇多,而为了适应zcore做的调整和设计上的适应也不少。

zcore学习路线

1/关于zcore进入其内核的过程,感谢https://github.com/wyfcyx/osnotes/tree/master/os/zCore 这位大佬的文档,让我少走了不少弯路,基本上看着这个也能理解其进入内核的过程。推荐先进行阅读然后再来整体理解zcore

2/关于zcore在zircon上面封装了一层Linux的大概情况。(我只能说这么封装的人,真是个天才,也是我最终这个项目没能好好完成的一个重大原因)

先说zircon内核。其实如果不限定为riscv的话,据说是可以直接跑zircon的。当然测例有没有我就不知道了,我不干这个的。

在zcore/zircon-object下面是zircon的内核代码。

我认为其中最核心的部分是object文件夹下面,简单来说,这个内核把所有的内核里面的东西都看作某种kernel object。所以你去看zircon里面的代码,基本上所有数据结构,开头都有一个base,这个base是kernel object就是基类,相当于作为一个类的继承吧。(在这里的设计,我觉得还是基本上一脉相承的,但是到了上面封装的Linux层就各种自行其是了)

在整个namespace相关的学习路线中,最重要的是process,从zircon中的processor到Linux processor的转变。

在zircon中,增加了一个create_with_ext函数,用于创建包括了Linux扩展的进程控制块。

而在上层的Linux层中(在zcore/linux_object/process.rs),实现了一个扩展的trait,用于创建和从processor访问linux processor。

1
2
3
4
5
pub trait ProcessExt {
fn create_linux(job: &Arc<Job>, rootfs: Arc<dyn FileSystem>) -> ZxResult<Arc<Self>>;
fn linux(&self) -> &LinuxProcess;
fn fork_from(parent: &Arc<Self>, vfork: bool) -> ZxResult<Arc<Self>>;
}

这里面的create_linux调用了前面的create_with_ext函数,去进行创建。

而linux函数,通过不知道怎么弄出来的特别方式,得到了一个linuxprocess的引用

1
2
3
fn linux(&self) -> &LinuxProcess {
self.ext().downcast_ref::<LinuxProcess>().unwrap()
}

做mnt ns时让我无奈的地方也在于此,LinuxProcess里面总共定义了三个,root_inode,parent,inner,其中,parent肯定不能改,inner是可以通过一些办法更改的,但是root_inode则理论上是可以chroot来更改的,然而由于这在这里写死了,我实在改不了root_inode,要么大修。

总之,在syscall里面,要得到zircon,就调用zircon_process,或者self.thread.proc,这是一样的,如果要得到zircon process的扩展,在此基础上调用linux,就用self.thread.proc().linux(),也即是self.zircon_process().linux()

之所以强调这部分,是因为syscall的进入点都是从某个进程实例开始的,理解这部分才好继续下去。

Linux namespace学习路线

这部分内容还是挺多的,建议看ppt先了解个大概再深入,我下面给出了不少参考资料,我不想把这里面的东西全都抄一遍,这没啥用,当然你要是对Linux内核熟悉,直接看内核也很不错的。

1/总体

涉及到ns的内核函数包括clone,setns,unshare

ns的创建,从clone()函数开始,使用不同的flag用于创建不同的ns。

clone函数,新进程,创建并加入新ns

setns函数,已有进程,加入已有的ns

unshare函数,已有的进程,创建并加入新的ns

(没有创建新进程的时候就加入已经存在的ns的选项。或者确切的说,如果不加flag,会加入父进程所在的ns,之后调用setns或者unshare去加入另一个ns,这样的组合即可。)

父子ns之间的关系,在linux中,除了pid ns之外,都是按照扁平结构去进行存储的,但是pid ns,由于其本身的设计需要向parent传递pid并进行映射,因此,pid ns中,父子ns是按照树状结构进行存储的。

每个process里面都有一个ns_proxy结构体。ns_proxy指向每个process各个namespace。

2/user ns

User ns本身是权限控制系统的核心,所有的ns都会指向user ns的结构体。一个user ns就代表某个user。

一方面,某个user ns需要进行user ns的映射。我的理解是,某个user在另一个user ns中代表着什么,可以是group,也可以是同一个user

另一方面是权限的控制。在子ns中的权限,在owner进程看来是root权限,但是他实际的权限受限于该user ns的权限。

user ns的创建不需要权限,但是其他的ns的创建需要该ns拥有CAP_SYS_ADMIN权限。

各种各样的权限可以在linux内核中include/uapi/linux/capability.h去找到。

3/mnt ns

mnt ns是linux 内核最开始实现的一个ns,确切的说,从一开始,人家压根儿没考虑多个ns,所以很多,比如说flag什么都是newns,而不是newmount来命名的。

mnt ns我看了之后认为最核心的部分就在于copy tree函数,就是将整个inode树都复制一遍。

shared subtree和propagate type

引入这些概念的目的是为了分开来的inode树可以共享某些节点,应用场景如下,比如host和虚拟机用了两颗inode树,然后现在插入一个新磁盘,要不要让这个磁盘在host和虚拟机都看得见文件系统?这就是传播属性的作用。但是这样一来,需要更改文件系统。这更为复杂一些。

4/net ns

不太熟,自己去找找参考文档吧,一堆东西看晕我了。

5/pid ns

pid ns最大的特点,我看了一圈,应该是在于父pid ns 里面能够看见子pid ns里面的进程,但反过来看不到。

因此为了支持这个东西,需要从当前的pid ns向上不断的在每个ns中进行pid的映射。

6/uts ns

uts namespace的部分,自己百度一下吧,我懒得说了,可以更改的就两个字符串,域名和主机名,不能改的倒是有几个字符串,但说到底就是几个字符串。

7/ipc ns

ipc ns我认为是由于pid ns里面,在父pid ns里面看得见子ns里面的进程,所以进程间的通信就不那么保险了,因此加了这个。

其实际的实现,是在每个pid ns中封装了信号量,semaphore,shared memory的队列。然后从外面就看不到了

zcore调试和理解相关部分

这部分内容主要是给后来者进行参考的,我实在无法找到完整的zcore的整个开发文档,希望能够免去大量的时间用于调整代码和理解代码。

我的调试目标是riscv64的linux。绝大部分的改动也是在这个Linux层面去进行改动的。

增加自己写的C测例

这里我走过不少弯路,包括但不限于,花费大量时间去编译x86到musl的rust交叉编译器(这个玩意儿本身没有直接安装的办法,只能去下载源码然后进行编译,然而他的源码,整个包加上附加的子模块,加起来应该有好几个gb,偏偏又都是国外的镜像,不翻墙很慢。)然后编译完了之后还发现找不到头文件

但是实际上,完全无需那么麻烦,一个可行的做法如下

在zcore/linux-syscall/test下面增加一个你自己写的C文件。然后运行cargo other-test –arch riscv64,随后你就能在zcore运行起来之后的bin文件夹下面发现你写的项目,从而进行测试。

当然,这些个C代码调用的系统调用接口,使用的就是你zcore的linux层面的系统调用。

zcore的namespace改造实现

这一部分主要描述我试图做的改造。

我不得不承认我在这方面的改动没有全部完成,尤其是测试样例和修bug等等,可惜夏令营就那么点时间。

从原生的linux的设计角度来看,namespace应当是组成内核的一部分,甚至在内核第一个进程创建之前就对每种类型的ns初始化了一个init的ns,然而在这里,我不得不以一个类似于插件的形式去试图改造他,目的是尽可能的不改动原来的代码(如果改了那会是相当讨厌的一项工作)

也因此,我没有试图像Linux那样去实现,毕竟这是完全不同的两个内核——从我本来的想法而言,我只需要让用户看不到即可,至于完全复制Linux的做法是不现实的,因此我做了很多设计上的改动。

1/整体数据结构

这部分主要是在Linux_object/src/namespace中

对于所有的namespace,用一个trait来实现多态和继承。让所有的ns,都可以在一个ns manager中进行记录和管理。由于基于zircon,我给他添加了一个kernel object的base,用于在zcore中唯一标识。同时,我一样在相关函数接口中,尽量使用namespace的KoID和processor的KoID去进行相关数据结构的管理——相比于直接引用当然会麻烦一些,但是,这样会较好的绕过rust一堆复杂的规则——而且确实能用。

在每个ns中,还有各自的数据结构,以及相应的各自所使用的函数。

对于创建一个子ns之后,父子ns之间的关系,虽然linux中只有pidns是树状结构,但是为了统一设计,在这里,我都使用了树状结构。

每个process结构体里面,则增加了ns_proxy字段,用于集中描述某个process使用的每个类型的ns。

2/clone函数的改造

正如前面说的那样,ns的创建是从clone函数开始的。clone的几个flag具体对应的值,在linux-syscall/src/task.rs最底下有相关介绍的值,所以在system call中,首先需要改写sys_clone函数。

clone函数在linux的实现,既包括了thread的创建,也包括了process的创建,显然thread跟我们无关,因为ns是和进程相关的概念,因此去改变fork_from即可。不巧的是,fork_from函数的入参——显然不能改变,但是他也没包括flags。由于rust不像c,所以我试了不少办法试图让flag传递进去,最后不得不用一个不太优雅的方式。

我在父进程的ns_proxy中记录传递的flag,然后在fork之后就清理掉他。至少子进程能够读取父进程的这一信息。通过这样把flag传递进去。

随后,根据不同的flag,dispatch各种情况,如果某个flag置位了,那么就创建一个子ns,并且将子进程的加入到那个ns中去。

不过,我没有实现setns和unshare。就这两个函数而言,没什么难度,后者只不过是这个dispatch的复制罢了,而前者,需要得到另一个进程所在的某种类型的ns的id号。然而,没有ps命令,更无从谈起看到另一进程的ns——当然直接加这个函数还是简单的,改写proc中ns_proxy的某个值即可,可是,用户无从知晓KoID,又有什么意义呢。

3/uts ns的改造

uts ns的改造是我最开始做的,原因很简单,就两个字符串要改,对于整个项目而言是不错的测试情况。

为此,一方面,需要使用sethostname和setdomainname两个系统调用来改字符串,另一方面需要在uname系统调用中,进行输出。

原先在misc.rs中实现了一个uname函数。在此,只需要将取得这两个字符串的操作指向对应的uts ns即可。

4/pid ns的改造

原先的pid 使用的是zircon内核的KoID作为其pid,但是显然,这玩意儿并不是从0开始的。我并不想像Linux那样抄一个。其实就是个数字。

建立proc的时候,递归的向上找到父ns,然后去给他分配一个pid。

然后使用pid的syscall的时候,去找对应的ns,然后找到对应的pid即可。

5/ipc ns

按照Linux的思路,要全都在这里面创建。

我寻思了一下,为什么不能在创建的时候,他会给一个KoID对吧,在ns中收集这些KoID,然后在其他的syscall的时候,查看该ipc量的KoID所在的ns是否满足条件呢。这样虽然在内核中仍然能够访问所有的信号量,共享内存等等,但是只要用户看不见就可以了呀。

6/mnt ns

这部分的改造真的让我头痛。主要是他用的是rcore-fs。最后,干脆不copy tree了,直接新建一个算了。我也没测试。不懂这玩意怎么改。

TODO

net ns的完善

正如前面所提到的,net ns我没有尝试去实现,因为看上去太过复杂。

从设计的角度来说,只不过让net ns去持有网络中应该有的数据结构,我个人看下代码来的感觉,直接持有socket即可,而每次进行网络的系统调用之时,不再使用全局的socket,而是使用进程对应的net ns中的socket,从而完善net ns的内容。

(实在是一大堆的missing document劝退了我)

cgroup及相关设计

可行的做法:正如Linux中的设计一样,最好每个子系统都维护自己的资源管理结构。而cgroup则负责指向这些结构。

同时,Linux中,cgroup规定了每个子系统需要实现的函数指针,让子系统各自自己实现,而不是统一实现,这使用rust的trait可以很轻易的去完成。在每次系统调用的时候,加以判定即可。

除此之外,还有cgroup的挂载等等,这些我不多说了,在上述的部分完成了之后不会很复杂。

zcore整体架构的改动可能性

这部分我想说,或者说我的想法还是不少的——尽管我不知道有生之年吧,我会不会重启或者后面会不会有人接续着做容器化的方向。

1/为整个内核及整个文件系统统一化设计

正如linux有个万物皆文件的思想——我重复过很多遍这件事。

从我阅读zcore内核来看,我反倒认为zircon的那一层是相对完整的,他存在一个统一的base,每个内核中的东西都作为某种Kernel object来对待。但是在上层的Linux的封装上面,这个设计已经慢慢的崩坏了,很多理应存在kernel object,作为某种内核对象的地方没有使用,当然,他们基本上就是直接用的linux的数据结构来表示。

另一方面是fs和这个kobject规划的割裂,我同意,不能全都当成文件来处理——毕竟每个内核存在每个内核的特性,没必要照抄别的内核。然而,如果要封装一层linux,那么在vfs层面,用zcore的kernel object来改写文件系统,进而整个内核实现统一的管理,而不是直接用rcore的fs,我认为是必要的。

底层基础用的zircon,但是上层却试图完全用Linux的部分,而不加以适应性的改造,啊,对就是这么一个缝合怪。

2/添加user/group/other的权限控制设计(可选)

这本来应当是我在user ns里面应当做的部分,然而我在做的时候,才发现,整体缺少一个统一的用户的权限控制的设计。这显然不是数据结构里面增加一个字段就好了的事情。

整个zcore,我发现对于权限控制模型的设计基本上是没有的——当然作为一个内核,并不是一定要有也就是了。我需要实现user ns,所以进行这样的建议,但我不觉得这是绝对必须的。对吧。

如果有兴趣可以试图了解权限控制模型。但是,显然,linux的权限控制模型,是基于文件模型的统一规划,如果不能在内核中,统一规划为kernel object的话(或者统一当成文件也行啊),这种权限控制,需要更为复杂的设计。所以我认为前面的统一化设计是更为迫切的。

3/在整个架构的设计中就嵌入namespace

我在这次的改动中,思路仍然是使用一种类似插件的方式,去进行改造,但是,我发现这样会遇到非常多的问题。

但这些问题归根结底,是因为设计之初没考虑进namespace,所引起的,因此,也许从整体设计层面就直接加入namespace,能解决这些不足。

4/mount系统调用的实现(可选)

虽然说起来只是一个mnt系统调用,但是这是Linux文件系统中非常重要的一个接口,而且背后的功能非常的复杂。

感想

首先,我很高兴能够参加这么一次操作系统训练营,虽然需要大量阅读linux内核挺辛苦,而且最终没能做出一个完成的成品让我略有些沮丧。但是总体而言,学习的收获还是非常大的。

其次,在我具体的实践中,也越来越了解了rust这门语言,也许各种引用让我头疼过很多次,编译器总是过不了,但是在解决问题的过程中确实增加了我对这门语言的熟悉度。

第三,由于rust对于语言的诸多限制,而不像C那么自由,我也是头一次如此深刻的认识到,一个项目在一开始的设计的部分,对于后续功能的改写有多么重要的影响。

我并不是否认zcore设计者的努力和聪慧,只不过由于他们在设计之初,没有考虑进这些,加上其本身是在zircon内核上增加了一层封装,形成了较为复杂的两层结构,导致大规模的增加内核功能非常困难和麻烦。

偏偏不巧的是,namespace相关的部分,需要大量改写syscall,这让我很多时候,都在和编译器斗争,以及思考某个对象或者变量应该有的语义,以及应当改成什么样,才能尽可能的实现目标但是尽量不影响原有的设计。这最终促使我思考,应当如何从整体设计开始就考虑进namespace的功能而不是像我一样试图加一个插件的方式去解决这样的问题。

总之,虽然夏令营已经结束了,但是如果有时间和机会,我一定会努力将这部分的内容继续加以改写,以完成当初的设计目标,也就是做一个简易的docker的想法——尽管从实际作用和意义来说,这个docker本身内核基于zcore,能够支持的软件基本没有,哈哈哈。

参考资料

总感觉自己有点面向百度和csdn编程了,只能靠大家的blog去理解了。实际上搜索引擎会给出很多详细的解读,我这里只列举一部分觉得不错的,有助于理解的,那些不能直指核心的我就不考虑进来了。

Linux kernel source: https://www.kernel.org

https://www.cnblogs.com/bakari/p/8823642.html

clone函数:https://www.cnblogs.com/charlieroro/p/14280738.html

uts ns:https://www.freeaihub.com/post/109006.html

user ns:https://tinylab.org/user-namespace/

mnt ns:https://www.cnblogs.com/pwl999/p/15534976.html

pid ns:https://blog.csdn.net/tanzhe2017/article/details/81003281

ipc ns:https://blog.csdn.net/tanzhe2017/article/details/81001682

net ns:(不知道)

cgroup:https://weibo.com/ttarticle/p/show?id=2309634728579127902348