没有完美架构,AI时代架构师如何找到成本与性能的平衡点?
领导层的重视与决心: 数字化转型是一项长期投入且见效较慢的工程,需要企业高层的坚定决心和持续支持。如果领导层缺乏长远思维,项目容易半途而废。这与多巴胺和内啡肽的区别相似,前者代表短期的快感,而后者则代表长期的收益。
数字化人才的稀缺性: 尽管数字化转型的概念已经提出多年,但真正能够成功推动数字化转型的人才仍然稀缺。这是因为数字化转型不仅要求人才具备技术能力,还需要对业务有深刻理解,这些综合技能的培养需要时间和系统性培训。此外,许多企业虽然口头上支持数字化转型,但实际投入在技术团队、尤其是自研团队上的资源却非常有限,这使得转型难以落地。
企业文化的适应性: 如果企业文化与数字化转型背道而驰,那么即便有人才也难以留存。因此,推广工程师文化变得尤为重要。工程师文化的核心是相信技术的力量,而不是仅仅依赖管理。在面对问题时,应首先从技术角度出发寻找解决方案,而不是单纯增加人力。但同时,也要避免走向极端、将技术视为目的本身。技术终究是手段,业务发展才是最终目的。
思维转变:我们需要改变传统的思维模式。过去,我们可能习惯了依赖于经验、重复相同的做法。但在数字化转型的过程中,我们必须改变理念和思想,以适应新的环境。
业务复杂性:数字化转型的复杂性远超传统。以营销数字化转型为例,我们发现线下业务的复杂性与线上业务无法相比。某个线上营销活动可能参与度高、效果显著,但同样的策略在线下可能并不适用。线下业务,如门店运营时要考虑是否存在物料准备不足、店员对活动理解不全面等问题,这将大大增加业务的复杂性。在线下数字化转型中,可能需要采用更简单、更易于接受的营销策略,以聚集人气。
用户体验衡量:如何做好线下用户体验的衡量。例如,当用户通过小程序获取附近门店的导购信息时,我们面临的是如何推荐导购的问题。如果推荐专属导购,但距离用户较远,可能无法满足用户即时需求;如果推荐附近的导购,由于不熟悉用户,可能无法建立信任感。此外,还可能涉及导购离职后的客户维系问题,这些都增加了用户体验衡量的复杂性。
为了应对这些挑战,我们需要全面了解信息,深入线下业务、积累经验,以便做出更好的决策。在这个转型过程中,我们需要倾听用户的声音、具备同理心,不仅要作为设计者,还要作为使用者去体验和感受产品,这样才能更好地提升用户体验。
服务隔离: 在前期架构设计时,我们会进行服务隔离,实现异地多活和多地多机房部署。
周到的业务场景设计: 在设计业务场景时,考虑兜底措施和系统降级,以及系统的自恢复能力。在重要位置设置告警和配置开关,以便在问题出现时能快速切换。
定期故障演练: 定期进行故障演练和压力测试,以提前发现并解决问题。建立一套完整的主动发现机制,包括业务巡检、日志告警、数据库问题跟踪和解决。
快速响应: 线上出现问题时,能迅速处理并控制影响范围,最小化用户影响。
事后复盘: 修复问题后,对整个过程进行复盘,总结经验,避免类似问题再次发生。
消除单点: 这是构建高可靠性系统的首要任务。例如,通过实现两地三中心架构和跨云双活,以及数据的三倍备份,为系统的可靠性打下基础。但仅仅做到这一点还不够,还需要定期进行高可用性演练和混沌工程,确保银行系统不存在单点故障。
可观测性: 在云原生架构下,可观测性至关重要。我们需要能够实时监控整个系统的运行状况,包括系统和业务指标,以及第三方服务的状态。这需要通过可视化工具和定期巡检来实现。
系统设计层面的可靠性设计: 在系统设计时,需要采取特定的措施来增强可靠性。核心措施包括 限流和降级。对于非核心业务,在面对线上故障或高并发场景时,首先考虑限流;如果限流仍不足以应对,就考虑降级。例如,银行系统在第三方依赖出现问题时,需要有兜底策略以确保系统稳定运行。以银行活动中的抽奖场景为例,正常情况下抽奖逻辑会运行在智能营销平台上,但如果该平台出现问题,可以降级为本地概率处理,以此来提升系统的可用性。
质量优先: 我们全行将质量视为最重要的事项,建立了质量月会体系。每月全行会进行复盘,讨论生产故障、问题以及紧急发版等问题。虽然不是全行参与,但核心人员都会参与,通过复盘机制提升质量意识,并不断完善系统的稳定性和质量把控措施。除了月度复盘,当故障发生时,我们还会进行更细致的故障复盘,拉通相关团队,包括业务和合规团队等,进行垂直复盘,并闭环所有改进措施。
确保稳定性手段的落地: 我们通过技术手段解决成本问题。例如,在转账和支付场景中,我们最初通过第三方服务对接国际 Visa 组织。由于该第三方系统的质量、稳定性和性能不佳,且成本高昂(每年约 1000 万),我们在外层做了很多补救工作,如重试、回调等,以保证数据一致性。但这些措施仍对客户产生了影响,如转账延迟。为了解决这个问题,我们的研发团队成员挑战自我,阅读了近 1 万页的 Visa 规范文档,并在三个月内完成了整体流程的打通。随后又花了半年时间,实现了无缝的自研替换。这样我们不仅节省了成本,还提高了系统的可靠性,达到了我们行内的标准。这证明了通过技术创新,我们可以在利用有限的资源实现高可用架构,同时控制成本。
流量分发机制: 我们有一套完善的流量分发机制,类似于传统的蓝绿发布。流量可以按照不同粒度进行分配,可以全切,也可以根据客群、客户属性或时间进行切流。这种灵活性确保了日常流量通常在两个云平台之间五五分。发版时,我们会先进行蓝绿发布,比如先切换到华为云,然后将阿里云进行升级。新版本升级完成后,我们会将一部分灰度流量切到阿里云进行内部验证。验证通过后,再将全部流量切换到阿里云,随后升级华为云的版本。这是通过流量网关来实现的。
数据同步: 业务数据方面,我们采用了主从库的概念,以阿里云作为主库、华为云作为从库或副本。最终实现两个云平台共用一份数据,并通过跨云同步通道来保证数据的一致性。
隔离性: 我们确保了不同云平台之间的强隔离性。大量中间件都是隔离的,每个云平台都有自己的数据副本。
内容推荐
大模型已经在各种领域有着广泛的应用和实践,如BI、企业生产、AIoT、编程、数据分析等场景。各个企业当前的探索为大家在落地时解决各种问题提供了重要参考。「AI前线」整理了AICon 北京 2024上大模型在不同领域的应用探索和 Agent 实践相关PPT以及资料。关注「AI前线」,回复关键词「应用探索」即可免费获取。
今日荐文
远离硅谷、不靠风投!18人团队逆势搞出超人气数据库,CTO 一人5年多写了15万行代码
乔布斯看了得哭!与小米、华为的AI 大模型应用打擂台,苹果盖不住的“安卓味儿”都上了热搜
复旦邱锡鹏教授讲述MOSS 2 研发进展:如何实现世界模型?
发布即被山寨?字节跳动推出语音生成模型数小时后就被“盗版”,作者直呼离谱!
跟大厂拼价格到底!智谱AI 宣布模型全面降价,刘慈欣、AI 老罗线上“整活儿”
你也「在看」吗?👇
微信扫码关注该文公众号作者