Pandas to biblioteka Pythona do manipulacji i analizy danych, np. ramki danych, wielowymiarowe szeregi czasowe i zbiory danych przekrojowych powszechnie spotykane w statystykach, wynikach nauk eksperymentalnych, ekonometrii lub finansach. Pandy to jedna z głównych bibliotek do nauki danych w Pythonie.
Mam ramkę danych:
A B C
date
2021-01-01 1 nan 1
2021-01-23 nan 1 1
2021-02-03 1 nan 1
Jak mogę dodać „1” do wszystkich kolumn na początku każdego miesiąca? (Uwaga, chcę również robić to co kwartał) Ramka danych powinna wyglądać tak:
A B C
date
2021-01-0....
Szukasz rozwiązania w Pythonie, jak omówiono tutaj R: Suma do 0 zostanie osiągnięty, a następnie uruchom ponownie
Mam podobną ramkę danych i chcę skumulowaną sumę wartości w kolumnie APpliance, gdy wartości w kolumnie Uruchom wynoszą 0 i zresetuj licznik do zera, gdy wartość zmieni się z 0 na 1 w k....
Mam dużą ramkę danych a, którą chciałbym podzielić lub rozbić, aby stać się ramką danych b (prawdziwa ramka danych a zawiera 90 kolumn).
Próbowałem znaleźć rozwiązania podobnego problemu, ale nie znalazłem, ponieważ nie jest to związane z wartościami w komórkach, ale z nazwami kolumn.
Wszelkie wskaz....
Moja ramka danych A_df ładuje zbiór danych, który zawiera informacje o wielu kategoriach dotyczących ruchu (cnt). Muszę wydrukować liczbę wierszy dla podzbioru ramki danych, dla której wartości ruchu są większe niż 10 000 (najlepiej, powinieneś sformatować wydruk, aby umieścić separator tysięcy prz....
26 styczeń 2022, 19:48
Jestem stosunkowo nowy w Pythonie / Pandach i próbuję wydrukować typ wartości dla każdej kolumny w mojej ramce danych. Jednak gdy próbuję użyć funkcji .dtypes(), otrzymuję błąd serii.
Oto część kodu, którego używam:
file = pd.read_csv('Nudge.csv', sep=",")
data = pd.DataFrame({'SR_ID': file['SR I....
Mam następującą ramkę danych, która zawiera informacje o przystankach na drogach fast foodów.
Wejście
first_stop second_stop third_stop
mcdonalds burger king popeyes
mcdonalds N/A N/A
wendys kfc N/A
taco bell kfc wendys
popeyes kfc ....
Mam 2 pliki CSV:
CSV 1 — oryginalne_nazwy.csv
Serial,Names
1,James
2,Stephen
3,Ben
4,Harry
5,Jack
6, Peter
CSV 2 — dup_names.csv
Serial,Names
1,James
2,Kate
3,Ben
4,Sara
Pożądane wyjście - nowy.csv
Serial,Names,flag
1,0,T
2,Kate,F
3,0,T
4,Sara,F
5,Jack,F
6,Peter,F
Jak widać, te same nazwy w o....
Mam taką ramkę danych:
Dane wejściowe:
IP Flag
101 Yes
101 Yes
101 No
103 Yes
103 Maybe
103 Yes
104 No
104 Yes
Jak mogę uzyskać listę unikalnych adresów IP, które mają flagę Tak i Nie?
Oczekiwany wynik:
IP
101
104
....
26 styczeń 2022, 17:32
Chcę zastosować zmianę do kolumny mojej ramki danych, w której komórki nie są puste. To jest dataframe, którego używam:
df = pd.DataFrame ([{'name':None, 'client':None, 'fruit':'orange'},
{'name':'halley','client':'abana', 'fruit':'pear'},
{'name':'josh','cli....
Mam ramkę danych, która zawiera ciągi w kolumnach, które powinny być tylko pływakami. Widziałem kilka rozwiązań, jak upuścić wiersz z określonym ciągiem lub jego częściami z pojedynczej kolumny.
Przypuszczam, że dla pojedynczej kolumny można to zrobić w ten sposób
new_df = df[df['Column'].dtypes !=....
Próbuję dowiedzieć się o fabułach Andrewsa poprzez działanie. Wiem, że R ma pakiet andrews, który używa podstawowego systemu kreślenia, ale chciałem użyć ggplot2. Śledziłem implementację funkcji andrews_curves w bibliotece pandas.
Udało mi się przetłumaczyć kroki transformacji danych funkcji Pyth....
Mam kilka tablic 3D o następującym kształcie: (688, 549, 3). Każdy wymiar jest obrazem. Wszystkie wymiary dtype to 'float64', jednak trzeci miał tylko liczby całkowite (ale ze względu na dtype są one zapisane jako float, np. isntad 3 będzie to 3.0).
Próbuję przekształcić tablicę w ramkę danych. U....
Mam kolumnę z wartościami liczbowymi w formacie ciągu z przecinkami separatora tysięcy i znakami minus podanymi na końcu ciągu dla wartości minus.
df1 = pd.DataFrame({'Name':['John', 'Tom', 'Simon', 'Jose','Jose'],
'Amount':['1,000.00','1,000.00-', '100.00', '100.00-','1,000,000....
26 styczeń 2022, 13:51
Jak wyeksportować ramkę danych pandas do programu Excel z formatowaniem warunkowym?
Przykładowe dane
from random import randint
x = [randint(0, 1) for p in range(0, 10)]
sample_dict = {"Col1": [randint(0, 1) for p in range(0, 10)],
"Col2": [randint(0, 1) for p in range(0, 10)],
....
26 styczeń 2022, 13:50
Mam następujący dataframe:
lst=[['01012021','A',10],['01012021','B',20],['02012021','A',12],['02012021','B',23]]
df2=pd.DataFrame(lst,columns=['Date','FN','AuM'])
Chciałbym dodać kolumnę z poprzednimi wartościami przez FN. W rezultacie powinienem otrzymać następującą ramkę danych:
df2=pd.DataFrame....
26 styczeń 2022, 10:57
Moja ramka danych wygląda następująco:
Chcę usunąć WSZYSTKIE wiersze (zaznaczone na czerwono na obrazku), w których każda kolumna ma wartość taką jak:
"", "nan", "NaT"
Próbowałem kilku rzeczy jak dropna, podmiana i upuszczanie, ale nie mogę zmusić tego do usunięcia go.....
Mam taką ramkę danych, w której pole distCum wskazuje odległość:
oid distCum
1472 0
1473 0.084116923
1565 0.157785132
1469 2.326473679
9567 4.156309659
1500 5.953545907
9544 6.157304401
1561 6.190537806
8823 7.503586809
4037 8.547562197
Ramka danych ma miliony wier....
Tak więc pracuję z danymi taktu i próbuję ponownie próbkować ramkę danych do słupków minut, ale gdy wywoływane jest ponowne próbkowanie, serie czasowe zaczynają się i kończą w pierwszym wystąpieniu, w którym istnieje takt. W jaki sposób mógłbym ponownie próbkować te dane, tak aby pierwszy i ostatni....
Mam plik CSV z wartościami Lat i Long dwóch modeli (Model 1 i Model 2), jak pokazano poniżej. staram się osiągnąć następujące
Przeszukaj pierwszy wiersz Lat/ Long wartości model 1 w każdym wierszu model 2 kolumn Lat/ Long wartości. Jeśli wartości szerokości/długości modelu 1 zostaną znalezione w m....
Chciałem posortować poziom multiIndex, który ma kombinację string i int.
mux = pd.MultiIndex.from_arrays([
list('aaaabbbbbccddddd'),
['t1','u','v','w','t12','u','v','w','t11','u','v','w','t4','u','v','w']
], names=['one', 'two'])
df = pd.DataFrame({'col': np.arange(len(mux))}, mux)
df.sort_....
26 styczeń 2022, 09:02
Próbowałem przypisać wartości (pobrane z ramki danych), które wymagają 2 kolumn identyfikatora, aby przypisać wartość w oddzielnym pliku df. Próbowałem wszystkiego, co mogłem wymyślić i jestem teraz najbliżej z moimi 2 identyfikatorami spakowanymi w krotkę i wraz z ich wartościami w dict, ale moja ....
Mam katalog zawierający kilka plików Excela. Chcę utworzyć ramkę DataFrame z listą nazw plików, liczbą wierszy w każdym pliku oraz kolumną min i max.
Przykładowy plik 1:
Przykładowy plik 2:
Pożądany rezultat:
To jest tak daleko, jak dotarłem:
fileslist = os.listdir(folder)
for file in fileslist:....
Mam plik csv, który wygląda następująco:
,time,o,h,l,c
0,2021-03-17 09:30:00,101.25,103.98,90.17,101.78
1,2021-03-17 09:45:00,102.83,107.49,95.22,101.93
2,2021-03-17 10:00:00,100.92,102.90,97.19,102.80
Czytam te dane za pomocą funkcji read_csv w następujący sposób:
cols = ['indx', 'timestamp', 'ope....
Jedna kolumna mojego zbioru danych zawiera zarówno ciągi, jak i zmiennoprzecinkowe. W tej kolumnie dla każdego ciągu próbuję zastąpić go tylko pierwszymi 5 znakami ciągu.
def isfloat(num):
try:
float(num)
return True
except ValueError:
return False
df = pd.DataFrame....
26 styczeń 2022, 02:08
Mam dataframe z danymi czasowymi w formacie:
date values
0 2013-01-01 00:00:00 0.0
1 2013-01-01 01:00:00 0.0
2 2013-01-01 02:00:00 -9999
3 2013-01-01 03:00:00 -9999
4 2013-01-01 04:00:00 0.0
.. ... ...
8754 2016-12-31 18:00:00 427.5
875....