How to handle Pandas breaking change on version 0.14

Microsoft

Jan 25, 2022

I tried this following code:

import os

os.environ ['ARROW_PRE_0_15_IPC_FORMAT']='1'

from pyspark.sql.functions import pandas_udf, PandasUDFType

import pandas as pd

df3 = spark.createDataFrame([('a', 1, 0), ('a', -1, 42), ('b', 3, -1),

('b', 10, -2)], ('key', 'value1', 'value2'))

from pyspark.sql.types import *

schema = StructType([StructField('key', StringType()),

StructField('avg_value1', DoubleType()),

StructField('avg_value2', DoubleType()),

StructField('sum_avg', DoubleType()),

StructField('sub_avg', DoubleType())])

@pandas_udf(schema, functionType=PandasUDFType.GROUPED_MAP)

def g(df):

gr = df['key'].iloc[0]

x = df.value1.mean()

y = df.value2.mean()

w = df.value1.mean() + df.value2.mean()

z = df.value1.mean() - df.value2.mean()

return pd.DataFrame([[gr] + [x] + [y] + [w] + [z]])

y_df = df3.groupby('key').apply(g)

display(y_df)

Still didn't work.

Does synapse support the pandas udf?

Blog Post