当前位置:中国生活都市网 >> 看科普 >> 文章正文

欧洲气象云:生产中OpenStack与Ceph融合的案例

发布于:2020-12-07

欧洲中期天气预报中心(ECMWF)是一个政府组织,成立于1975年。ECMWF总部位于英国雷丁(数据中心即将迁至意大利博洛尼亚),业务覆盖欧洲34个国家和地区。它运行着欧洲最大的超级计算集群之一和世界上最大的数值天气预报数据档案。就其信息技术基础设施而言,ECMWF的高性能计算设施是世界上最大的气象站之一。凭借哥白尼气候变化服务(C3S)、哥白尼大气监测服务(CAMS)和WEkEO(数据和信息访问服务(DIAS)平台)以及欧洲气象云的云基础设施,ECMWF的团队维护着一个250 PB大小的气候数据归档,每天增长250TB。

欧洲气象云:

三年前,ECMWF和欧洲气象卫星应用组织(EUMETSAT)联合建立了欧洲气象云,旨在使基于云的基础设施更容易处理天气和气候大数据。为了使计算资源(云)更接近其大数据(气象档案和卫星数据),ECMWF的试点基础设施是使用开源软件Ceph和使用TripleO的OpenStack。

下图是欧洲气象云整体基础设施的现状,包括两个OpenStack集群:一个是用OpenStack Rocky搭建的,一个是用OpenStack Ussuri搭建的。目前配置的总硬件包括约3000个vCPU、两个21 TB RAM的集群、1PB存储空间和25 NVIDIA特斯拉V100 GPU。

与Ceph集成:

下图是欧洲气象云的云基础设施。如您所见,Ceph是与OpenStack分开构建和维护的,这为欧洲气象云团队在同一个Ceph存储上构建不同的集群提供了极大的灵活性。它的两个OpenStack集群使用相同的Ceph基础设施和相同的rbd池。除了一些常见的硬盘故障,Ceph的表现也非常出色。欧洲气象云团队计划逐步迁移到CentOS8,在开发环境上经过大量测试后,在实时集群上升级到Octopus和cephadm。

Rocky版本的OpenStack:

欧洲气象云中的第一个OpenStack集群是在2019年9月构建的,基于Rocky和TripleO installer。同时,欧洲气象云的工程师们也创造了另一个开发环境,其中OpenStack和Ceph集群的配置类似于测试实验。

经验和问题:

他们部署了大约2600个11TB内存的vCPU,没有出现任何大问题。通过简单地配置Ceph,外部Ceph集群集成以最小33,354的工作负载工作,只需稍微修改ceph-config.yaml配置。两个外部网络(一个面向公众,另一个用于快速访问其300PB数据档案)非常简单。

他们的虚拟机大多连接到两个外部网络,没有浮动IP,这是一个具有挑战性的虚拟机路由问题,在交换机上没有动态路由。为了解决这个问题,他们使用了dhcp钩子,并在向用户提供映像之前配置了虚拟机路由。

他们在一开始配置网卡绑定接口和配置交换机时遇到了一些问题。因此,工程师们决定不使用链路聚合控制协议(LACP)配置,现在他们已经为OpenStack部署了一个网络接口卡(NIC)。他们在负载平衡即服务(LBaas)方面也遇到了一些问题,因为奥克塔维亚会在每次部署时覆盖证书。

一旦找到应对这些挑战的解决方案,工程师就可以更新实时系统,并将整个集群从一个网卡迁移到多个网卡部署,这对用户来说是透明的,并且不会停机。重新部署了第一个集群,并将网络重新配置为分布式虚拟路由(DVR)配置,以获得更好的网络性能。

Stein到Ussuri的升级工作:

2020年3月,欧洲气象云的工程师给OpenStack和Ceph集群增加了更多的硬件,他们决定升级到OpenStack的最新版本。

经验和问题:

首先,为了更好地管理和充当备份和恢复的安全网,他们将他们的洛基云转变为虚拟机。2020年3-5月,他们调查测试了升级到Stein的流程(先云下,再从云过度升级到测试环境)。由于乌苏里是基于CentOS8的,他们直接从Rocky跳到了乌苏里,决定在OpenStack乌苏里上直接部署新系统。

OpenStack Ussuri集群:

第二个基于乌苏里的OpenStack集群最早构建于2020年5月,也就是5月13日发布乌苏里之后的17天。此群集是一种常见配置,这意味着尽管网络配置了OVN和25节点提供商网络,但它们并未集成Ceph存储。

经验和问题:

基于Ansible而不是Mistral的新构建方法存在一些问题,如从堆栈切换到热管理,用户不使用热管理进行部署。此外,他们还试图快速理解和掌握CentOS8主机系统和服务容器的基本操作系统。由于分配浮动IP地址的意义,欧洲气象云工程师也继续使用OVS而不是OVN。在OpenStack社区的帮助下,问题得以解决,集群于2020年6月中旬重建。

英伟达GPU配置简单。然而,由于OVS在向节点安装和配置GPU驱动程序时没有在Ussuri集群中实现IPv6,OVS在引导期间试图绑定到IPv6地址,导致引导时间显著增加。一种解决方案是将PIv6配置显式删除到它们的GPU节点。所有带GPU的节点也解析成普通计算节点,nova.conf配置Ansible playbook。

下一步:

就欧洲气象云基础设施而言,工程师们正计划将该基础设施与其他内部系统集成,以实现更好的监控和记录。他们还计划逐步淘汰洛基集群,并将所有节点转移到Ussuri。他们将继续运营、维护和升级云基础设施,并使用最新版本的OpenStack和Ceph。

生产中的开放堆栈和与Ceph:的集成欧洲天气云用户故事-超级用户

标签: 欧洲 集群 气象