0
我是新来的硒,我尝试几个网站进行测试。 遇到了泰米尔语和印地语字体被废弃为“??????”的情况无法抓取非英文字体 - 硒
我试图通过记事本++,sublimetext和excel打开输出,但仍显示为“??????”
Xpath tried - //h1//following::p[@id='topDescription']
Test URLs
"https://www.hooq.tv/catalog/7a6d593d-e8f3-47b6-92ae-469b8e08178e?__sr=feed"
"https://www.hooq.tv/catalog/d023630f-882b-4df4-8cb5-857ebfff20b4?__sr=feed"
代码
d.get("https://www.hooq.tv/catalog/7a6d593d-e8f3-47b6-92ae-469b8e08178e?__sr=feed");
d.findElement(By.xpath("//h1//following::p[@id='topDescription']")).getText();
这是一些关于编码问题?
如果将抓取的数据直接保存到支持该类内容的文件格式,那将会更好。 – kushal