from forml import project
from forml.pipeline import payload
from dummycatalog import Foo

SOURCE = project.Source.query(Foo)
PIPELINE = payload.ToPandas()
PROJECT = SOURCE.bind(PIPELINE)


PROJECT.launcher.apply()


PROJECT.launcher(runner='spark').apply()

Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
23/05/30 23:37:13 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


PROJECT.launcher(runner='graphviz').apply()


import pandas
from forml.pipeline import wrap

@wrap.Actor.apply
def LowerActor(data: pandas.DataFrame, *, column: str) -> pandas.Series:
    # return data[column].str.lower()
    return data[column].apply(lambda v: v.lower())


df = pandas.DataFrame({'greetings': ['Hello', 'Hola', 'Ola', 'Ciao']})

lower_actor = LowerActor(column='greetings')
lower_actor.apply(df)

0    hello
1     hola
2      ola
3     ciao
Name: greetings, dtype: object


@wrap.Actor.apply
def OrdActor(data: pandas.DataFrame, *, column: str) -> pandas.Series:
    return data[column].apply(lambda v: ord(v[0].lower()))


ord_actor = OrdActor(column='greetings')
ord_actor.apply(df)

0    104
1    104
2    111
3     99
Name: greetings, dtype: int64


import typing

@wrap.Actor.train  # starting with the actor train mode
def CenterActor(
    state: typing.Optional[float],  # previous state
    data: pandas.DataFrame,         # input data points
    labels: pandas.Series,          # target labels
    *,
    column: str                     # hyperparameter
) -> float:                         # new state
    return data[column].mean()


@CenterActor.apply  # finishing the CenterActor apply mode
def CenterActor(
    state: float, data: pandas.DataFrame, *, column: str
) -> pandas.DataFrame:
    return data[column] - state


df = pandas.DataFrame({'rating': [0.3, 0.1, 0.7, 0.6, 0.4]})

center_actor = CenterActor(column='rating')
center_actor.train(df, None)  # train mode
center_actor.apply(df)        # apply mode

0   -0.12
1   -0.32
2    0.28
3    0.18
4   -0.02
Name: rating, dtype: float64


Ord = wrap.Operator.mapper(OrdActor)


FEATURES = Foo.select(Foo.Level, Foo.Value)
SOURCE = (
    project.Source.query(FEATURES, labels=Foo.Label)
    >> payload.ToPandas()
)
PIPELINE = Ord(column="Level")
SOURCE.bind(PIPELINE).launcher(runner="graphviz").apply()


@wrap.Actor.train
def MinMax(
    state: typing.Optional[tuple[float, float]],
    data: pandas.DataFrame,
    labels: pandas.Series,
    *,
    column: str
) -> tuple[float, float]:  # the state is a tuple of min and max - min
    min_ = data[column].min()
    return min_, data[column].max() - min_


@wrap.Operator.mapper  # this will turn it into Operator
@MinMax.apply
def MinMax(
    state: tuple[float, float], data: pandas.DataFrame, *, column: str
) -> pandas.DataFrame:
    data[column] = (data[column] - state[0]) / state[1]
    return data


PIPELINE = MinMax(column='Value')

SOURCE.bind(PIPELINE).launcher(runner='graphviz').apply()


SOURCE.bind(PIPELINE).launcher(runner='graphviz').train()


launcher = SOURCE.bind(PIPELINE).launcher(runner='dask')
launcher.train()
launcher.apply()

INFO: 2023-05-30 23:37:24,198: lazy: Loading Foo
INFO: 2023-05-30 23:37:26,360: lazy: Loading Foo


PIPELINE = payload.MapReduce(
    OrdActor.builder(column="Level"), CenterActor.builder(column="Value")
) >> MinMax(column="Level")

SOURCE.bind(PIPELINE).launcher(runner="graphviz").train()


launcher = SOURCE.bind(PIPELINE).launcher(runner='dask')
launcher.train()
launcher.apply()


from imblearn import over_sampling

@wrap.Actor.apply
def OverSampler(
    features: pandas.DataFrame,
    labels: pandas.Series,
    *,
    random_state: typing.Optional[int] = None
):
    """Stateless actor with two input and two output ports for
    oversampling the features/labels of the minor class.
    """
    return over_sampling.RandomOverSampler(
        random_state=random_state
    ).fit_resample(features, labels)


OverSampler(random_state=42).apply([[1], [0], [1]], [1, 0, 1])

([[1], [0], [1], [0]], [1, 0, 1, 0])


from forml import flow

class Balancer(flow.Operator):
    """Balancer operator inserting the provided sampler into
    the ``train`` & ``label`` paths.
    """

    def __init__(
        self,
        sampler: flow.Builder = OverSampler.builder(random_state=42),
    ):
        self._sampler = sampler

    def compose(self, scope: flow.Composable) -> flow.Trunk:
        left = scope.expand()
        sampler = flow.Worker(self._sampler, 2, 2)  # 2x2 node
        sampler[0].subscribe(left.train.publisher)  # train -> in0
        new_features = flow.Future()
        new_features[0].subscribe(sampler[0])       # out0 -> newtrain
        sampler[1].subscribe(left.label.publisher)  # label -> in1
        new_labels = flow.Future()
        new_labels[0].subscribe(sampler[1])         # out1 -> newlabel
        return left.use(
            train=left.train.extend(tail=new_features),
            label=left.label.extend(tail=new_labels),
        )


PIPELINE = Balancer()
SOURCE.bind(PIPELINE).launcher(runner='graphviz').train()


SOURCE.bind(PIPELINE).launcher.train().labels.value_counts()

Label
1    14
0    14
Name: count, dtype: int64


from forml import testing

class TestBalancer(testing.operator(Balancer)):

    default_oversample = (
        testing.Case()
        .train([[1], [1], [0]], [1, 1, 0])                   # input
        .returns([[1], [1], [0], [0]], labels=[1, 1, 0, 0])  # assert
    )


import unittest
suite = unittest.TestSuite()
suite.addTest(TestBalancer('test_default_oversample'))
unittest.TextTestRunner().run(suite)

.
----------------------------------------------------------------------
Ran 1 test in 1.942s

OK

<unittest.runner.TextTestResult run=1 errors=0 failures=0>


with wrap.importer():
    from sklearn.linear_model import LogisticRegression

isinstance(LogisticRegression(), flow.Operator)

True


PIPELINE = (
    Balancer()
    >> payload.MapReduce(
        OrdActor.builder(column="Level"),
        CenterActor.builder(column="Value"),
    )
    >> MinMax(column="Level")
    >> LogisticRegression(random_state=42)
)


SOURCE.bind(PIPELINE).launcher(runner="graphviz").train()


SOURCE.bind(PIPELINE).launcher(runner="graphviz").apply()

	Timestamp	Label	Level	Value	Bar
0	2021-05-05 03:12:19	1	Alpha	0.26	1
1	2021-05-11 11:27:50	0	Tango	0.94	3
2	2021-05-11 17:35:27	0	Zulu	0.57	4
3	2021-05-06 19:49:43	0	Uniform	0.69	2
4	2021-05-12 08:53:35	0	Xray	0.83	5
5	2021-05-12 22:06:04	0	Victor	0.61	6
6	2021-05-07 13:17:43	1	Echo	0.12	1
7	2021-05-13 16:25:18	0	Whiskey	0.78	3
8	2021-05-13 06:31:58	0	November	0.92	4
9	2021-05-08 15:48:20	0	Yankee	0.68	5
10	2021-05-14 19:56:01	1	Charlie	0.35	2
11	2021-05-14 04:03:32	0	Mike	0.54	6
12	2021-05-09 01:18:13	1	Bravo	0.07	1
13	2021-05-15 19:24:46	0	Romeo	0.58	3
14	2021-05-15 21:31:22	0	Oscar	0.84	4
15	2021-05-16 23:48:57	0	Quebec	0.74	5
16	2021-05-16 00:56:39	1	Foxtrot	0.45	2
17	2021-05-10 16:06:06	0	Papa	0.59	6
18	2021-05-17 14:17:43	1	Delta	0.33	1
19	2021-05-17 06:52:51	0	Siera	0.72	6

	Timestamp	Label	Level	Value	Bar
0	2021-05-05 03:12:19	1	Alpha	0.26	1
1	2021-05-11 11:27:50	0	Tango	0.94	3
2	2021-05-11 17:35:27	0	Zulu	0.57	4
3	2021-05-06 19:49:43	0	Uniform	0.69	2
4	2021-05-12 08:53:35	0	Xray	0.83	5
5	2021-05-12 22:06:04	0	Victor	0.61	6
6	2021-05-07 13:17:43	1	Echo	0.12	1
7	2021-05-13 16:25:18	0	Whiskey	0.78	3
8	2021-05-13 06:31:58	0	November	0.92	4
9	2021-05-08 15:48:20	0	Yankee	0.68	5
10	2021-05-14 19:56:01	1	Charlie	0.35	2
11	2021-05-14 04:03:32	0	Mike	0.54	6
12	2021-05-09 01:18:13	1	Bravo	0.07	1
13	2021-05-15 19:24:46	0	Romeo	0.58	3
14	2021-05-15 21:31:22	0	Oscar	0.84	4
15	2021-05-16 23:48:57	0	Quebec	0.74	5
16	2021-05-16 00:56:39	1	Foxtrot	0.45	2
17	2021-05-10 16:06:06	0	Papa	0.59	6
18	2021-05-17 14:17:43	1	Delta	0.33	1
19	2021-05-17 06:52:51	0	Siera	0.72	6

	Level	Value
0	Alpha	0.218391
1	Tango	1.000000
2	Zulu	0.574713
3	Uniform	0.712644
4	Xray	0.873563
5	Victor	0.620690
6	Echo	0.057471
7	Whiskey	0.816092
8	November	0.977011
9	Yankee	0.701149
10	Charlie	0.321839
11	Mike	0.540230
12	Bravo	0.000000
13	Romeo	0.586207
14	Oscar	0.885057
15	Quebec	0.770115
16	Foxtrot	0.436782
17	Papa	0.597701
18	Delta	0.298851
19	Siera	0.747126

	Level	Value
0	0.00	-0.3205
1	0.76	0.3595
2	1.00	-0.0105
3	0.80	0.1095
4	0.92	0.2495
5	0.84	0.0295
6	0.16	-0.4605
7	0.88	0.1995
8	0.52	0.3395
9	0.96	0.0995
10	0.08	-0.2305
11	0.48	-0.0405
12	0.04	-0.5105
13	0.68	-0.0005
14	0.56	0.2595
15	0.64	0.1595
16	0.20	-0.1305
17	0.60	0.0095
18	0.12	-0.2505
19	0.72	0.1395

Task Dependency Principles¶

Workflow Paradigm¶

Runner Portability¶

Dask Runner¶

Spark Runner¶

Graphviz Runner¶

Task Actors¶

Stateless Actor¶

Excercise: Write an actor returning a selected column as the Ascii code of its lower-cased first letter¶

Stateful Actor¶

Operators¶

Excercise: Use decorators to implement a mapper for scaling values of a selected column to [0-1]¶

Train-Apply Workflow Duality¶

Library Operators¶

Implementing Custom Operator¶

Operator Unit Testing¶

Auto-wrapping 3rd-party Components¶

Pipeline¶

Excercise: Compare the final train/apply task graphs¶