Chcę wiedzieć, jak znaleźć tag w innym tagu.

Źródło danych wygląda następująco:

<ul class="DB_su a1" style="display: none;">
 <li><a href="link">text</a></li>
 <li><a href="link2">text2</a></li>
 <li><a href="link3">text3</a></li>
 <li><a href="link4">text4</a></li>
 <li><a href="link5">text5</a></li>
 <li><a href="link6">text6</a></li>
</ul>
<ul class="DB_su a2" style="display: none;">
 <li><a href="link">text</a></li>
 <li><a href="link2">text2</a></li>
 <li><a href="link3">text3</a></li>
 <li><a href="link4">text4</a></li>
 <li><a href="link5">text5</a></li>
 <li><a href="link6">text6</a></li>
</ul>
<ul class="DB_su a3" style="display: none;">
 <li><a href="link">text</a></li>
 <li><a href="link2">text2</a></li>
 <li><a href="link3">text3</a></li>
 <li><a href="link4">text4</a></li>
 <li><a href="link5">text5</a></li>
 <li><a href="link6">text6</a></li>
</ul>
...

To jest kod Pythona, który stworzyłem, odwołując się do źródeł HTML.

for flink in range(11):
  count = str(flink + 1)
  ss = soup.find('ul', class_='DB_su a' + count)
  dd = ss.findAllNext('a')
  print(dd)

Spowodowało to więcej wyników niż pożądane dane. Zebrano nie tylko dane wewnątrz znacznika, ale wszystkie następne znaczniki zostały zebrane.

Chcę pobrać ten tag href:

[link, link2, link3, link4, link5, link6]
0
Gyoungman Choi 13 styczeń 2020, 05:01

1 odpowiedź

Najlepsza odpowiedź

W swoim "for flink in range (11)" spróbuj dodać coś takiego:

from bs4 import BeautifulSoup
import re

html = """
<ul class="DB_su a1" style="display: none;">
 <li><a href="link">text</a></li>
 <li><a href="link2">text2</a></li>
 <li><a href="link3">text3</a></li>
 <li><a href="link4">text4</a></li>
 <li><a href="link5">text5</a></li>
 <li><a href="link6">text6</a></li>
</ul>
<ul class="DB_su a2" style="display: none;">
 <li><a href="link">text</a></li>
 <li><a href="link2">text2</a></li>
 <li><a href="link3">text3</a></li>
 <li><a href="link4">text4</a></li>
 <li><a href="link5">text5</a></li>
 <li><a href="link6">text6</a></li>
</ul>
<ul class="DB_su a3" style="display: none;">
 <li><a href="link">text</a></li>
 <li><a href="link2">text2</a></li>
 <li><a href="link3">text3</a></li>
 <li><a href="link4">text4</a></li>
 <li><a href="link5">text5</a></li>
 <li><a href="link6">text6</a></li>
</ul>
    """
soup = BeautifulSoup(html,'html.parser')
for n in soup.find_all('ul', attrs={'class': 'DB_su a3'}):  
  for x in n.find_all('a'): 
  print (x.get('href'))

Wynik:

link
link2
link3
link4
link5
link6
0
GiovaniSalazar 13 styczeń 2020, 02:10