Próbuję przeczytać tekst z pliku tekstowego, przeczytaj linie, usuń linie zawierające określony ciąg (w tym przypadku "złe" i "niegrzeczne"). Kod, który napisałem, idzie tak:

infile = file('./oldfile.txt')

newopen = open('./newfile.txt', 'w')
for line in infile :

  if 'bad' in line:
    line = line.replace('.' , '')
  if 'naughty' in line:
    line = line.replace('.', '')
  else:
    newopen.write(line)

newopen.close()

Napisałem tak, ale nie działa.

Jedną rzeczą ważną jest, jeśli treść tekstu była taka:

good baby
bad boy
good boy
normal boy

Nie chcę, aby wyjście miały puste linie. Więc nie lubię:

good baby

good boy
normal boy

Ale tak:

good baby
good boy
normal boy

Co powinienem edytować z mojego kodu na powyższym?

24
H.Choi 15 sierpień 2012, 16:08

8 odpowiedzi

Najlepsza odpowiedź

Możesz ułatwić swój kod i bardziej czytelny

bad_words = ['bad', 'naughty']

with open('oldfile.txt') as oldfile, open('newfile.txt', 'w') as newfile:
  for line in oldfile:
    if not any(bad_word in line for bad_word in bad_words):
      newfile.write(line)

Korzystanie z Kontekst Menedżer i Dowolne.

66
sloth 15 sierpień 2012, 12:43

Możesz po prostu nie dołączyć linii do nowego pliku zamiast zastąpić.

for line in infile :
   if 'bad' not in line and 'naughty' not in line:
      newopen.write(line)
6
Maksim Skurydzin 15 sierpień 2012, 12:11

Użyłem tego, aby usunąć niechciane słowa z plików tekstowych:

bad_words = ['abc', 'def', 'ghi', 'jkl']

with open('List of words.txt') as badfile, open('Clean list of words.txt', 'w') as cleanfile:
  for line in badfile:
    clean = True
    for word in bad_words:
      if word in line:
        clean = False
    if clean == True:
      cleanfile.write(line)

Lub zrobić to samo dla wszystkich plików w katalogu:

import os

bad_words = ['abc', 'def', 'ghi', 'jkl']

for root, dirs, files in os.walk(".", topdown = True):
  for file in files:
    if '.txt' in file:
      with open(file) as filename, open('clean '+file, 'w') as cleanfile:
        for line in filename:
          clean = True
          for word in bad_words:
            if word in line:
              clean = False
          if clean == True:
            cleanfile.write(line)

Jestem pewien, że musi to być bardziej elegancki sposób, ale to zrobił to, co chciałem.

5
Bugs 31 lipiec 2017, 09:59

else jest podłączony tylko do ostatniego if. Chcesz elif:

if 'bad' in line:
  pass
elif 'naughty' in line:
  pass
else:
  newopen.write(line)

Należy również pamiętać, że usunąłem podstawienie linii, jak i tak nie piszę tych linii.

2
Some programmer dude 15 sierpień 2012, 12:15

Dzisiaj musiałem wykonać podobne zadanie, więc napisałem Gist, aby wykonać zadanie oparte na niektórych badaniach. Mam nadzieję, że ktoś znajdzie to przydatne!

import os

os.system('cls' if os.name == 'nt' else 'clear')

oldfile = raw_input('{*} Enter the file (with extension) you would like to strip domains from: ')
newfile = raw_input('{*} Enter the name of the file (with extension) you would like me to save: ')

emailDomains = ['windstream.net', 'mail.com', 'google.com', 'web.de', 'email', 'yandex.ru', 'ymail', 'mail.eu', 'mail.bg', 'comcast.net', 'yahoo', 'Yahoo', 'gmail', 'Gmail', 'GMAIL', 'hotmail', 'comcast', 'bellsouth.net', 'verizon.net', 'att.net', 'roadrunner.com', 'charter.net', 'mail.ru', '@live', 'icloud', '@aol', 'facebook', 'outlook', 'myspace', 'rocketmail']

print "\n[*] This script will remove records that contain the following strings: \n\n", emailDomains

raw_input("\n[!] Press any key to start...\n")

linecounter = 0

with open(oldfile) as oFile, open(newfile, 'w') as nFile:
  for line in oFile:
    if not any(domain in line for domain in emailDomains):
      nFile.write(line)
      linecounter = linecounter + 1
      print '[*] - {%s} Writing verified record to %s ---{ %s' % (linecounter, newfile, line)

print '[*] === COMPLETE === [*]'
print '[*] %s was saved' % newfile
print '[*] There are %s records in your saved file.' % linecounter

Link do GIST: Emailstripper.py

Najlepszy, AZ.

2
Cyb3rdude 9 wrzesień 2016, 16:48

Użyj pakietu Python-Textops:

from textops import *

'oldfile.txt' | cat() | grepv('bad') | tofile('newfile.txt')
2
Eric 27 luty 2017, 18:26
to_skip = ("bad", "naughty")
out_handle = open("testout", "w")

with open("testin", "r") as handle:
  for line in handle:
    if set(line.split(" ")).intersection(to_skip):
      continue
    out_handle.write(line)
out_handle.close()
0
carpx 15 sierpień 2012, 12:27
bad_words = ['doc:', 'strickland:','\n']

with open('linetest.txt') as oldfile, open('linetestnew.txt', 'w') as newfile:
  for line in oldfile:
    if not any(bad_word in line for bad_word in bad_words):
      newfile.write(line)

\n jest sekwencją ucieczki Unicode dla nowej linii.

0
Ann Kilzer 14 grudzień 2019, 05:50