Monday, November 06, 2006

RCA: giúp giảm thiểu các sự cố một cách hệ thống

Root cause analysis (RCA) là 3 từ thời thượng được các sếp ưa dùng khi có bất kỳ vấn đề, trục trặc gì. Hệ thống mạng bị gián đoạn thời gian dài, email không truy cập được nhiều giờ liền,... lập tức sếp nói "Tôi muốn có RCA". Bắt đầu là "nỗi kinh hoàng" khi khách hàng "lệnh" làm RCA về một sự cố "nhỏ nhặt" (theo cách mình vẫn nghĩ) liên quan đến các lập trình viên không sử dụng được công cụ lập trình. Làm lại đến lần thứ 3 mới được họ tạm chấp nhận, nhưng cũng nhờ đó mà vỡ ra một điều mới học hỏi được. Thế rồi liên tục, server bị mất điện nguồn, phần mềm bị lỗi, mạng bị trục trặc, điện thoại không gọi được,... là lập tức có mail "Bao giờ thì tao có thể có RCA cho chuyện này?". Làm riết rồi quen, chừng chục lần thì thấy sự cố giảm hẳn, "tự giác" làm RCA khi có sự cố.

RCA được dùng để phân tích nguyên nhân gốc gây ra một vấn đề, sự cố nào đó liên quan đến kỹ thuật hoặc không. Một bản RCA cho vấn đề kỹ thuật thường gồm các phần chính:
  • Mô tả vấn đề
  • Kết luận về nguyên nhân, hậu quả
  • Nguyên nhân gốc (root causes)
  • Cách xử lý, khắc phục
  • Checklist để xử lý nếu sự cố lặp lại trong tương lai
  • Giải pháp/hành động để ngăn chặn sự cố xảy ra trong tương lai (nếu có)
RCA là một công cụ hữu hiệu giúp giảm thiểu các sự cố kỹ thuật một cách có hệ thống bởi:
  • Nguyên nhân gốc được làm rõ giúp vấn đề được sáng tỏ
  • Cách xử lý, khắc phục được ghi lại và chia sẻ giúp việc xử lý vấn đề được nhanh chóng nếu có lặp lại
  • Giải pháp để ngăn chặn việc tái diễn được nêu ra/lưu ý và có thể được hiện thực khi điều kiện cho phép
  • Lỗi do con người sẽ được giảm thiểu thông qua việc truyền thông các RCA liên quan đến nhân viên
RCA còn là phương tiện truyền thông (communicate) hiệu quả với khách hàng (bên ngoài/bên trong) bởi thông qua RCA cho thấy:
  • Bạn thực sự tìm hiểu nguyên nhân sâu xa của vấn đề
  • Bạn biết cách để khắc phục vấn đề một cách nhanh nhất nếu có lặp lại
  • Bạn cam kết cải thiện, ngăn chặn vấn đề tái diễn
  • Bạn đã tiếp cận vấn đề một cách có hệ thống
RCA thường là yêu cầu bắt buộc đối với các sự cố có mức độ nghiêm trọng cao nhất (Severity - 1) có tác động/ảnh hưởng lớn lên nhiều người dùng. Đối với các vấn đề kỹ thuật, có sự liên quan của con người, phương pháp đơn giản để làm RCA là 5 Whys. Tuy phương pháp này khá cơ bản và hạn chế nhưng kết quả của nó là chấp nhận được.

No comments: