我想从本网站提取文本:searchgurbani。这个网站有一些老的英文译文和Punjabi(印度语)逐行译。它是一个非常好的平行语料库。我已经成功地在一个单独的文本文件中提取所有英文翻译。但是当我去旁遮普时,它什么都没有返回。BeautifulSoup为什么不从网页中提取所有的HTML?
这是检查元素截图:(突出显示的文本是翻译旁遮普语)
在截图1,强调其属于类= lang_16未在汤对象中列出的文本美丽其中应包含所有的HTML。下面是Python代码:
outputFilePunjabi = open("1.txt","w",newline="",encoding="utf-16")
r=urlopen("")
beautiful = BeautifulSoup(r.read().decode('utf-8'),"html5lib")
#beautiful = BeautifulSoup(r.read().decode('utf-8'),"lxml")
punjabi_text = beautiful.find_all(class_="lang_16")
for i in punjabi_text:
outputFilePunjabi.write(i.get_text())
outputFilePunjabi.write('\n')
如果我class_ = lang_4运行相同的代码,它的工作。
请执行下列操作看lang_16在检查元素:
请做网页上的以下内容:进入设置 - >勾选“灵性导师初经济的转换(由S.辛格) - Punjabi“在Guru Granth Shahib的Additional Translations下: - >向下滚动 - 提交修改 - >重新打开页面
请指导我在哪里出错。
(Python版本= 3.5)
PS:我在网上报废非常少的经验。
有趣的是,我没有真正看到与元素类'=“lang_16 “”在页面上。 – alecxe
请在该网页上进行以下操作:转到偏好设置 - >勾选“Sri Guru Granth Sahib ji(由S. Manmohan Singh编译) - Punjabi的翻译” Granth Shahib: - >向下滚动 - 提交更改 - >重新打开页面|您应该看到它@alecxe – ssokhey
首先,“检查”不显示原始HTML,但不管其各种修改后的结果如何。使用“查看源代码”查看您希望在脚本中找到的实际源代码。然后看看是否还有什么区别。无论如何,我没有看到任何一个视图的截图中的内容。 – zvone