近年来随着快手业务的快速发展,快手数据量和数据链路复杂度都急剧增长。面对数以 EB 的数据,快手存在着如何监控在异构存储上的大规模数据的准确性和一致性,如何保障包含成千上万个任务的重要链路按时产出,如何消除低价值数据以降低日益增长的数据成本等挑战。面对这些问题和挑战,快手以元数据为依托,构建了数据治理平台,对数据质量和数据成本进行治理,取得了显著的成果。
本次分享大纲为:
1. 快手数据治理面临的挑战
2. 快手数据治理的发展历程与整体方案
3. 数据治理基座 - 元数据平台
4. 数据质量治理 - 质量平台
5. 数据成本治理 - 资产治理平台
6. 未来规划与展望
张蕤,快手数据平台开发工具链负责人。清华大学本硕毕业,曾就职于 Hulu、字节跳动,7 年以上大数据领域经验。当前负责快手离线/实时数据开发平台、大规模工作流调度、异构数据交换与同步平台。主要关注大数据平台架构、大数据治理、大数据应用等方向。