Jak konwertować nazwę roku i miesiąc w kolumnie DateTime dla tego dataframe:

 region  year    Months
0  alabama  2018   January
1  alabama  2018  February
2  alabama  2018     March
3  alabama  2018     April
4  alabama  2018       May

Kiedy to robię:

pd.to_datetime(df_sub['year'] * 10000 + df_sub['Months'] * 100, format='%Y%m')

Otrzymuję ten błąd:

*** TypeError: unsupported operand type(s) for +: 'int' and 'str'
10
user308827 3 czerwiec 2018, 09:00

3 odpowiedzi

Najlepsza odpowiedź

Możesz konwertować kolumnę year do ciągów, dodaj Months i użyj parametru format w to_datetime przez http://strftime.org/:

print (pd.to_datetime(df_sub['year'].astype(str)  + df_sub['Months'], format='%Y%B'))
0   2018-01-01
1   2018-02-01
2   2018-03-01
3   2018-04-01
4   2018-05-01
dtype: datetime64[ns]
19
jezrael 3 czerwiec 2018, 06:02

Oto prosty program, który otrzymuje wyjście, które szukasz:

import pandas as pd

data_frame = pd.DataFrame({'Region': ['alabama', 'alabama', 'alabama', 'alabama', 'alabama'],
                          'Year': [2018, 2018, 2018, 2018, 2018], 'Months': ['January', 'February', 'March', 'April', 'May']})


date_1 ='{}-{}'.format(data_frame['Months'].iloc[0], data_frame['Year'].iloc[0])
date_2 = '{}-{}'.format('June', data_frame['Year'].iloc[4])

data_frame.index = pd.date_range(date_1, date_2, freq='M')
print(data_frame)

Możemy tylko sformatować datę w początkowej lokalizacji w zakresie, a format Date_2 z ostatniej lokalizacji + 1 miesiąc w celu uniknięcia błędu indeksu. Formatowanie tych wartości do ciągów pozwoli Pandasowi formatować je do dat z funkcją Date_range (). Możemy ustawić indeks do tego zakresu, ponieważ powiedziałeś, że chciałeś kolumny z tymi wartościami, ale jeśli nie chcesz, aby daty były Twoim indeksem, moglibyśmy również utworzyć kolumnę o nazwie daty i użyj instrukcji Wstaw, aby je dodać gdziekolwiek chcesz. W naszej funkcji Date_range Date_1 będzie naszą pierwszą datą, a data_2 będzie naszą ostatnią datą. Możemy również ustawić częstotliwość do miesięcy, dzięki czemu indeksy w kolumnie daty wyrównują się do indeksów z innych kolumn. Poniżej znajduje się nasza produkcja:

              Months   Region  Year
2018-01-31   January  alabama  2018
2018-02-28  February  alabama  2018
2018-03-31     March  alabama  2018
2018-04-30     April  alabama  2018
2018-05-31       May  alabama  2018
2
Simeon Ikudabo 3 czerwiec 2018, 06:42

F-ciąg w zrozumieniu (Python 3.6+)

pd.to_datetime([f'{y}-{m}-01' for y, m in zip(df.year, df.Months)])

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01'],
              dtype='datetime64[ns]', freq=None)

str.format

pd.to_datetime(['{}-{}-01'.format(y, m) for y, m in zip(df.year, df.Months)])

DatetimeIndex(['2018-01-01', '2018-02-01', '2018-03-01', '2018-04-01',
               '2018-05-01'],
              dtype='datetime64[ns]', freq=None)
7
piRSquared 3 czerwiec 2018, 15:55