boilerpipe

1热度

1回答

我编写了一个网络爬虫。但是，抓取时会下载太多的GB数据。我想只读取文字（避免图像...等）。我用Boilerpipe来提取HTML内容这里是我找到最终的重定向URL public String getFinalRedirectedUrl(String url) throws IOException{ HttpURLConnection connection; String

0热度

1回答

宝石安装没有找到现有的宝石

当运行创业板安装，我得到以下几点： [email protected] test $ gem install jruby-boilerpipe ERROR: Could not find a valid gem 'jruby-boilerpipe' (>= 0) in any repository ERROR: Possible alternatives: boilerpipe, jruby-

0热度

1回答

导入错误：没有模块名为boilerpipe

当我打电话下面的代码每次： from boilerpipe.extract import Extractor 我得到的错误，指出： Traceback (most recent call last): File "<stdin>", line 1, in <module> File "build/bdist.linux-x86_64/egg/boilerpipe/__ini

0热度

1回答

Android Studio：添加锅炉库后出现错误

我正在尝试使用[boilerpipe] [1]解析文本。我将boilerpipe-1.2.0.jar,nekohtml-1.9.13.jar和xerces-2.9.1.jar复制到lib文件夹并将它们添加为库。但是当我尝试运行这个项目时，我得到了一个巨大的错误。下面是它的最终分部分 FAILURE: Build failed with an exception. * What went wro

0热度

1回答

Android Studio：来自boilerpipe的java.lang.NoClassDefFoundError

我正在尝试使用boilerpipe来获取文本文章，如口袋应用程序。应用程序编译正确，但给运行时异常： java.lang.RuntimeException: An error occurred while executing doInBackground() at android.os.AsyncTask$3.done(AsyncTask.java:309) at java.u

0热度

1回答

阿帕奇提卡如何提取HTML机身采用了页眉和页脚内容

我期待提取HTML的整个身体除了内容页眉和页脚，但我得到异常 org.xml.sax.SAXException：命名空间http://www.w3.org/1999/xhtml没有宣布下面是我的代码，我已经创造提到at import org.apache.tika.exception.TikaException; import org.apache.tika.io.TikaInputStrea

2热度

2回答

Boilerpipe-py3的安装尝试给404错误

Boilerpipe是一个伟大的Java程序，用于清理网页，我过去曾使用它。我今天注意到许多用户不能安装Python包装版本并且得到404和其他错误。这是我从conda中复制的一个尝试。 /用户/邓肯>须藤-H PIP安装https://pypi.python.org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz 收集

0热度

2回答

Boilerpipe依赖没有找到

根据https://github.com/Netbreeze-GmbH/boilerpipe锅炉管maven的依赖是 <dependency> <groupId>de.l3s.boilerpipe</groupId> <artifactId>boilerpipe-core</artifactId> <version>1.2.2</version> </depende

0热度

1回答

pip安装boilerpipe失败，tarfile.ReadError：空文件

我尝试通过pip安装boilerpipe，但失败。这里是日志。从命令python setup.py egg_info完整输出：在/ tmp/PIP-集结J2gFYC/boilerpipe Traceback (most recent call last): File "<string>", line 20, in <module> File "/tmp/pip-build-

3热度

1回答

如何从网页中提取主要内容？

我想写一个网页内容的摘要。为此，我需要从网页中提取所有不相关的文本和数据。我已经使用了boilerpipe，但是文字提取效果不好。结果是here，在这里你可以看到很多不相关的文字。也尝试JSoup废除不相关的数据，通过删除页眉，页脚，外部链接等，但同样，结果不符合标准。 Document doc = Jsoup.connect("www.anyurl.com").get() doc.