Jak konwertować kolumnę do listy nie zagnieżdżonych, gdy elementy kolumn są lista?

Na przykład kolumna jest jak

column
[1, 2, 3]
[1, 2]

W końcu chcę śledzić.

[1,2,3,1,2]

Ale teraz z column.tolist(), dostanę

[[1,2,3],[1,2]]

Edytuj: Dzięki za pomoc. Moim zamiarem jest znaleźć najbardziej prostą (elegancką) i wydajną metodę. Teraz używam metody @jezrael.

from itertools import chain
output = list(chain.from_iterable(df[column])

Najprostsza metoda jest dostarczana przez @pirsquared, ale może być może wolniejszy.

output = df[column].values.sum()
2
danche 26 czerwiec 2017, 08:56

4 odpowiedzi

Najlepsza odpowiedź

Możesz użyć numpy.concatenate:

print (np.concatenate(df['column'].values).tolist())
[1, 2, 3, 1, 2]

Lub:

from  itertools import chain
print (list(chain.from_iterable(df['column'])))
[1, 2, 3, 1, 2]

Inne rozwiązanie dzięki Juanpa.arrivillaga :

print ([item for sublist in df['column'] for item in sublist])
[1, 2, 3, 1, 2]

Czasy :

df = pd.DataFrame({'column':[[1,2,3], [1,2]]})
df = pd.concat([df]*10000).reset_index(drop=True)
print (df)

In [77]: %timeit (np.concatenate(df['column'].values).tolist())
10 loops, best of 3: 22.7 ms per loop

In [78]: %timeit (list(chain.from_iterable(df['column'])))
1000 loops, best of 3: 1.44 ms per loop

In [79]: %timeit ([item for sublist in df['column'] for item in sublist])
100 loops, best of 3: 2.31 ms per loop

In [80]: %timeit df.column.sum()
1 loop, best of 3: 1.34 s per loop
7
jezrael 26 czerwiec 2017, 06:40

Kolejne rozwiązanie, które będzie działało, jest metoda list.extend().

list = [] for row in column: list.extend(row)

0
Jason Stein 26 czerwiec 2017, 06:43

Możesz użyć dołączonej metody Listy:

col = {'col': [[1, 2, 3], [1, 2]]}
last = []
last.extend([i for c in col['col'] for i in c])
0
Pooja 26 czerwiec 2017, 06:14

Wymieniamy listy z operatora {x0}}. Ponieważ seria pandy używa "elementów leżących u podstaw +, gdy zadzwonisz pd.Series.sum, możemy połączyć całą kolumnę lub serię, z listami.

df.column.sum()

[1, 2, 3, 1, 2]

Ale jeśli szukasz wydajności, możesz rozważyć cytoolz.concat

import cytoolz

list(cytoolz.concat(df.column.values.tolist()))

[1, 2, 3, 1, 2]
2
piRSquared 26 czerwiec 2017, 06:51