高可用控制系统

ADS (Accelerator Driven System) 是一个由外部中子源供给的亚临界系统,该源通过高功率质子加速器的散裂反应获得,其目的是实现安全高效的长寿命放射性核废料转化。ADS需要高功率连续波,所以ADS加速器的一个关键指标是波束可用性,这个指标必须比当前最佳系统好一个数量级。比如 某些ADS加速器对可用性提出了这样的苛刻要求:平均故障间隔时间(MTBF)250小时的高功率束流的连续波(CW)传输 – 超过3秒的beam trip故障在3个月运行周期内应少于10次。这一指标明显高于当今最先进的可比加速器,因此可靠性问题被认为是主要的设计挑战。

容错和冗余是提高可用性的重要手段,其中有三个因素起着关键作用:(1)使用高MTBF制造等级的组件;(2)组件的并行和串行冗余,其中注入器并行是必须的;(3)修复故障元件的能力,通过短平均修复时间(MTTR)来保证高系统可用性。

在加速器控制系统(CS)方面,EPICS和Linux被公认是成熟的技术。通过使CS的部分冗余可实现高可用性,所以某些控制子系统应该是冗余设计。如果检测到子系统故障,则应启动预定义的方案。通过系统模型或“虚拟加速器”可以预测参数改变的影响,确定用于最佳性能的设定点的所需配置或者在子系统故障的情况下重新配置。预测诊断的实现可以通过归档服务收集大量数据。与突然停止相反,故障预测下的受控停机是允许的。

关于控制系统架构的考虑包括:(1)控制系统接口的定义和标准化;(2)系统的可扩展性;(3)互操作性和维护性;(4)三层架构。

控制系统的软件平台考虑有:(1)Linux最能满足各种性能要求,并可提供合适的前端和用户界面。(2)EPICS框架被广泛用作大型科学设施的控制系统基础设施,它的强大之处在于它能够允许大量联网计算机之间的通信,容易实现控制子系统的集成。(3)大多数实时反馈回路将在IOC的下一级实现,因此不太可能需要IOC操作系统的实时性能。(4)项目早期引入命名约定。

控制系统的服务方面的考虑包括:(1)用关系型数据库存储关键数据;(2)采用BEAST报警系统;(3)采用BEAUTY归档系统;(4)虚拟加速器的应用,预测设定点的效果,帮助确定最佳配置,减轻故障并帮助恢复束流,从而使得控制系统的开发和集成调试更顺畅。

硬件需要选择一个成熟的平台,最大的开发成本驱动因素之一是设备驱动程序的开发和QA。

高可用性要求对控制系统架构的影响是双重的。首先,控制系统本身不应成为高可用性的瓶颈。由于控制系统是整个系统的关键部分,因此其完全故障将导致设施故障。其次,控制系统必须促进其他子系统实现高可用性。例如,当检测到子系统故障时,应该启动冗余预留方案。协调激活这种预留方案的责任在于控制系统。控制系统必须能够快速响应,必须预先计算保留场景并将其分发给所有节点,然后仅发出信号以便快速生效。这是例如控制系统的计时系统的责任。

关于IOC冗余。自EPICS版本3.14.10以来,EPICS Base中已经放置了钩子,允许实现冗余方案。

IOC冗余方案

PLC通过冗余实现高可用性。可以通过安装第二个CPU来实现冗余,这同样适用于I/O和通信模块,它们也可以成对安装以提供冗余。PLC模块总线通常支持模块的热替换。

网络关键部分的交换机应该是冗余的,此外,关键计算机节点应该具有两个独立的网络接口,或者是完全冗余的。作为所有控制系统通信基础的以太网和因特网协议被设计成以稳健的方式从网络中的故障中恢复。但是,恢复不是立竿见影的,可能会干扰加速器控制系统的实时要求。

冗余网络拓扑结构

此外几点考虑包括:(1),EPICS采用cPCI IOC和Linux;(2)基于FPGA的Micro Research Finland(MRF)时序传输层作为时序系统的参考;(3)基于工业的现场总线(Profibus)和自动化(PLC)解决方案保留适用于设备集成。

发表回复