我有一个 pyspark 数据框
id | events |
---|---|
a0 | a-markets-l1 |
a0 | a-markets-watch |
a0 | a-markets-buy |
c7 | a-markets-z2 |
c7 | scroll_down |
a0 | a-markets-sell |
b2 | next_screen |
我正在尝试通过对 ID 进行分组来加入事件这是我的 python 代码
df_events_userpath = df_events.groupby('id').agg({ 'events': lambda x: ' '.join(x)}).reset_index()
id | events |
---|---|
a0 | a-markets-l1 a-markets-watch a-markets-buy a-markets-sell |
c7 | a-markets-z2 scroll_down |
b2 | next_screen |
回答1
我试过使用 collect_set
df.groupBy("id").agg(f.collect_set("events").alias("events"))