pyspark - 如何在 Pyspark 中使用带有 group by 的连接文本?

我有一个 pyspark 数据框

id events
a0 a-markets-l1
a0 a-markets-watch
a0 a-markets-buy
c7 a-markets-z2
c7 scroll_down
a0 a-markets-sell
b2 next_screen

我正在尝试通过对 ID 进行分组来加入事件这是我的 python 代码

df_events_userpath = df_events.groupby('id').agg({ 'events': lambda x: ' '.join(x)}).reset_index()
id events
a0 a-markets-l1 a-markets-watch a-markets-buy a-markets-sell
c7 a-markets-z2 scroll_down
b2 next_screen

回答1

我试过使用 collect_set

df.groupBy("id").agg(f.collect_set("events").alias("events"))

相似文章

随机推荐

最新文章