123
Luigi

Luigi

Formålet med Luigi er at adressere alt det VVS, der typisk er forbundet med langvarige batchprocesser.Du vil kæde mange opgaver, automatisere dem, og der vil opstå fejl.Disse opgaver kan være hvad som helst, men er typisk langkørende ting som Hadoop-job, dumping af data til / fra databaser, kørsel af maskinlæringsalgoritmer eller andet.Der er andre softwarepakker, der fokuserer på aspekter af databehandling på lavere niveau, som Hive, Pig eller Cascading.Luigi er ikke en ramme, der skal erstatte disse.I stedet hjælper det dig med at sy mange opgaver sammen, hvor hver opgave kan være en Hive-forespørgsel, et Hadoop-job i Java, et Spark-job i Scala eller Python, et Python-uddrag, dumpe en tabel fra en database eller noget andet.Det er nemt at opbygge langkørende rørledninger, der omfatter tusindvis af opgaver og det tager dage eller uger at gennemføre.Luigi tager sig af en masse af workflow-styringen, så du kan fokusere på selve opgaverne og deres afhængighed .... Du kan bygge stort set enhver opgave, du ønsker, men Luigi kommer også med en værktøjskasse med flere almindelige opgaveskabeloner, som dubrug.Det inkluderer support til at køre Python mapreduce-job i Hadoop samt Hive og Pig-job.Det leveres også abstraktioner af filsystemer til HDFS og lokale filer, der sikrer, at alle filsystemoperationer er atomare.Dette er vigtigt, fordi det betyder, at din datapipeline ikke går ned i en tilstand, der indeholder delvise data.

Kategorier

Alternativer til Luigi til Self-Hosted med open source-licens