boilerpipe

    1热度

    1回答

    我编写了一个网络爬虫。但是,抓取时会下载太多的GB数据。 我想只读取文字(避免图像...等)。 我用Boilerpipe来提取HTML内容 这里是我找到最终的重定向URL public String getFinalRedirectedUrl(String url) throws IOException{ HttpURLConnection connection; String

    0热度

    1回答

    当运行创业板安装,我得到以下几点: [email protected] test $ gem install jruby-boilerpipe ERROR: Could not find a valid gem 'jruby-boilerpipe' (>= 0) in any repository ERROR: Possible alternatives: boilerpipe, jruby-

    0热度

    1回答

    当我打电话下面的代码每次: from boilerpipe.extract import Extractor 我得到的错误,指出: Traceback (most recent call last): File "<stdin>", line 1, in <module> File "build/bdist.linux-x86_64/egg/boilerpipe/__ini

    0热度

    1回答

    我正在尝试使用[boilerpipe] [1]解析文本。我将boilerpipe-1.2.0.jar,nekohtml-1.9.13.jar和xerces-2.9.1.jar复制到lib文件夹并将它们添加为库。但是当我尝试运行这个项目时,我得到了一个巨大的错误。下面是它的最终分部分 FAILURE: Build failed with an exception. * What went wro

    0热度

    1回答

    我正在尝试使用boilerpipe来获取文本文章,如口袋应用程序。应用程序编译正确,但给运行时异常: java.lang.RuntimeException: An error occurred while executing doInBackground() at android.os.AsyncTask$3.done(AsyncTask.java:309) at java.u

    0热度

    1回答

    我期待提取HTML的整个身体除了内容页眉和页脚,但我得到异常 org.xml.sax.SAXException:命名空间http://www.w3.org/1999/xhtml没有宣布 下面是我的代码,我已经创造提到at import org.apache.tika.exception.TikaException; import org.apache.tika.io.TikaInputStrea

    2热度

    2回答

    Boilerpipe是一个伟大的Java程序,用于清理网页,我过去曾使用它。我今天注意到许多用户不能安装Python包装版本并且得到404和其他错误。这是我从conda中复制的一个尝试。 /用户/邓肯>须藤-H PIP安装https://pypi.python.org/packages/source/b/boilerpipe-py3/boilerpipe-py3-1.2.0.0.tar.gz 收集

    0热度

    2回答

    根据https://github.com/Netbreeze-GmbH/boilerpipe锅炉管maven的依赖是 <dependency> <groupId>de.l3s.boilerpipe</groupId> <artifactId>boilerpipe-core</artifactId> <version>1.2.2</version> </depende

    0热度

    1回答

    我尝试通过pip安装boilerpipe,但失败。 这里是日志。 从命令python setup.py egg_info完整输出:在/ tmp/PIP-集结J2gFYC/boilerpipe Traceback (most recent call last): File "<string>", line 20, in <module> File "/tmp/pip-build-

    3热度

    1回答

    我想写一个网页内容的摘要。为此,我需要从网页中提取所有不相关的文本和数据。 我已经使用了boilerpipe,但是文字提取效果不好。结果是here,在这里你可以看到很多不相关的文字。 也尝试JSoup废除不相关的数据,通过删除页眉,页脚,外部链接等,但同样,结果不符合标准。 Document doc = Jsoup.connect("www.anyurl.com").get() doc.