矿场断网SOS:拿什么拯救掉线的矿机?

bitget消息:矿场运维从来不是个简单的活儿。外人眼中矿机一接、电费一缴,赚钱之路就此开始;可行内人都清楚,这不过才是战斗的开始,剩下还有大把大把的工作等着矿场的运维团队去做。尤其是面对各种突发情况时,更是需要运维人员全力以赴才能够解决。就拿矿场极易遇到的断网情况,运维就有着一大堆情况需要处理。

我们都知道挖矿是需要链接网络占据带宽来进行挖矿作业的,而网络往往又像是小孩子,说翻脸就翻脸,轻则网络波动,影响挖矿收益;重则令矿机进入停机保护状态,影响使用寿命。因此矿场运维在网络维护都是慎之又慎。

第一点,矿场运维需要熟悉每个架位的网段及应急网段的连接方式,出现异常能及时切换并能排查原因,并保障交换机的独立供电。这也是遭遇断网事件时候能够迅速实现重新连接的保障。

第二点,要定期检查备用宽带网络是否正常,还要注意将挖矿用网和生活用网单独分开,避免无谓的占用网速情况发生,保障矿机和矿池连接的稳定,规避掉算力波动。在必要情况下甚至需要对生活区的IP 进行限速且拒绝访问不明网站。

矿场入场巡检内容

第三点,需要定期检查矿机与连接矿池间的网络延迟是否稳定,一旦延迟高于100ms则需要排查内外网情况,内部局域网需要排查是否网络设备故障,外网则需要宽带运营商排查设备线路等。

第四点,需要检查网络设备的温度,在某些情况下需要考虑安装风扇散热,且要避免网络设备和网线放于矿机出风口暖风处,因为网络设备 CPU 温度过高会影响稳定性甚至死机。

当然上述的四点仅仅能起到“预防”作用,尽量将断网的苗头扼杀在摇篮里。当矿场断网情况出现时,则需要采用另一套操作。常见的断网情况可划分为三种:机架断网、分层断网、厂房断网。

当机架断网情况出现时,服务器闪红灯或运行灯常亮,并处于死机状态。其产生的原因大致分为以下几点:傻瓜交换机断电,恢复供电即可修复网络;交换机网口破损,需更换主网线在傻瓜交换机上的网口;交换机故障,需逐层排查交换机情况,更换交换机;如果以上情况均不奏效则可判断为主网线故障,可更换水晶头/整根网线。

矿场断网原因及解决措施

当分层断网情况出现时,故障表现形式也与机架断网相同——服务器闪红灯或运行灯常亮,且处于死机状态。常见故障原因分为三点:对应交换机断电,恢复供电即可修复网络;两台交换机之间的连接网线故障,更换网线即可;交换机故障则需更换交换机(需先排查断电、网络情况)。

当厂房断网情况出现时,厂房断网,所有设备出现异常,服务器死机。相较于前两种断网情况,厂房断网出现概率较低,但是影响最重,因此需要格外重视。故障发生时需要检查汇聚交换机是否断电、检查光电转换器是否断电;同时建议光电转换器及汇聚交换机建立电路及网络双路由保护措施。

除却文中提及的几种断网情况外,在实际运维过程中还会遇到各种突发断网情况,需要运维团队因地制宜,根据实际情况进行分析解答,力争在最短时间内完成网络修复,保证算力收益稳定保持在较高水平。