2.59 MB
242.90MB
11.0 MB
82.1MB
59M
Luigi是基于Python语言开发的开源数据流框架。我们可以通过Luigi免费版解决所有与批处理相关的流水线问题,还可以进行工作流管理、可视化等各种简单操作!
Luigi软件介绍
Luigi是一个Python模块,可以帮助您构建复杂的批处理作业管道。处理解决方案、工作流管理、可视化显示等。内置Hadoop支持。Foursquare、Stripe、华尔街日报、Groupon等知名企业也在使用。Luigi是基于代码的,而不是基于GUI或声明性的,包含了Python中的一切(包括依赖图)。用户界面(UI)允许您搜索、过滤或监控每个任务的状态。您还可以查看此工作流,以了解依赖关系图上的哪些任务已经完成,哪些任务尚未运行。
软件功能
任务每个任务都是任务,以类的形式存在,继承luigi。任务要求()方法、run()方法、output()方法重载。
其中requires()是任务入口程序,指定任务所依赖的上游输入;Run()是任务在本节点具体执行的过程;Output()是任务的出口,将节点执行后的结果输出到下游。
目标
广义地说,目标可以对应于磁盘上的文件、HDFS上的文件、检查点、数据库等。对于Target,唯一需要实现的方法是exists。如果返回True,说明存在;否则,如果不存在,则返回False。在实际应用中,很少需要编写Target的子类。直接使用现成的LocalTarget和hdfs就足够了。HDFS目标类。Luigi通过参数format=format提供Gzip支持。Gzip
参数
参数等效于luigi为任务类创建一个构造函数。Luigi中提供了不同类型的参数,如DateParameter、DateIntervalParameter、IntParameter、FloatParameter等。
Python不是静态类型语言,不需要指定参数的类型,可以直接使用基类参数。