实现基于CDH大数据平台的数仓构建、任务配置执行、日志查看、搜索引擎等前端一站式开发工具。构建数仓管理、任务管理、体系管理、调度管理、搜索引擎等底盘数据处理工具DataIDM,快速实现大数据输入输出、模型计算、指标标签体系计算、搜索引擎的可配置。
大数据分析计算:通过配置快速实现数据抽取、模型计算、大数据分析模型集成,为大数据项目提供完整的解决方案,提升项目开发、实施效率;
客户标签体系计算:自动实现客户标签计算,并输出结果信息,为客户标签管理提供支撑;
展示分析类项目:通过配置快速实现指标数据抽取、数据仓库计算、数据计算,为展示分析项目提供支持,提升项目开发、实施效率;
快速查询与报表:通过搜索引擎的功能,提升数据查询效率,实现快速实时查询及报表统计。
通过任务完成情况、任务运行情况、任务执行时长、任务类型分布、近一月出错排行、调度数量趋势等指标展示,运维及开发人员可全局上了解任务总体运行情况以及发现执行问题,并进行整改或优化。
(1)通过数据源配置功能,可配置数据输入、输出任务使用数据源,并测试其连通性,作为数仓管理前置任务项;
(2)数仓配置用于构建数仓,指定数仓源库地址及库名;
(3)大数据表管理功能支持前端管理基于大数据平台的常规表、分区表、外部表;提供参照源表、源视图建表,简化大数据表管理操作,并支持自定义修改表、字段信息等。
可视化流程任务设计工具,支持数据接入、MR计算任务、Spark计算任务、工作流任务、数据输出等多任务任意组合配置,串行、并行执行的同时提供了日志查看功能。
指标计算、标签计算,基于工作流任务实现指标、标签计算配置及执行。
实现了基于Quartz的任务调度功能,工作流任务支持定时调度执行,通过配置完成不同业务需求,提供了任务调度执行日志查看功能,开发、实施人员可通过此功能监控任务运行情况以及分析定位问题。
实现了基于HBase、Key Value Store Indexer、Solr的搜索引擎服务。通过搜索配置功能,可快速完成搜索引擎配置、整合部署,并查看索引状态;构建完成后,通过数据接入、计算任务产生的数据将会准实时自动构建索引。
任务配置及执行均使用流程图可视化形式,直观方便的监控任务执行全周期
很多大数据统计分析,使用交互式SQL计算任务完成,避免MR、Spark等开发周期较长方式实现;数仓构建、大数据建表、数据抽取、输出等均通过可视化向导模式完成,避免使用各种命令以及后续管理杂乱,从而效率
实现关键业务成果沉淀,成果复用度高