google-crawlers

    -1热度

    1回答

    谷歌爬虫报道我的WordPress网站庞大的404页像下面的网址: http://example.com/adidas-yeezy-750-online-atmos-hXfBKn.htm http://example.com/yeezy-boost-350-sand-release-date-used-vans-s8cPbh.htm 这是某些类型的黑客?

    0热度

    1回答

    页 试图让我的角度应用生成的页面将被完全由谷歌抓取,而无需使用HashBangs #!。于是,我产生pushState的网址: $locationProvider.html5Mode(true); $locationProvider.hashPrefix('!'); 添加到应用程序的配置,并 <base href="/hockey-att/"> <meta name="fragment"

    1热度

    1回答

    robots.txt将$作为特殊字符处理,以识别模式的结尾。 虽然,Googlebot的是解析脚本标记e.g内JS模板一些的HREF: <a href="${object.path}"> ${object.name}</a> 对其进行编码后,谷歌机器人试图达到mySite.com/$%7Bobject.path%7D在404这结束。 要解决此问题,我想通过向我的robots.txt中添加匹配指

    0热度

    1回答

    使用python请求模块(获取函数)我在抓取链接即爬虫。我使用脚本发出多个请求。由于我提出的请求太多,Google干预了CAPTCHA,并在一段时间后重置。我使用时间模块在每次请求后将代码放入睡眠状态一段时间以避免它。我想知道什么时候才能让脚本进入睡眠状态,以便Google不会将其视为无效流量? (我使用的是大学的代理服务器)

    1热度

    2回答

    我经常阅读有关服务器端渲染的内容,这是Angular2的一个很棒的新功能,它可以让webapps被Google,Bing等抓取。 但是,如何在应用程序启动时动态加载的内容工作?爬虫在索引页面之前是否会等待这些未决请求?或者是否必须指定我的Angular2应用程序的某个状态,它告诉服务器我的应用程序已准备好发送给客户端(在这种情况下是抓取工具)?

    0热度

    1回答

    问题是,我们正在使用bitly品牌的短域作为URL缩短。我们的品牌短域名是d.so.city 现在,无论何时我在google上搜索site:so.city,所有d.so.city链接都会出现在真正的网站url之前。我不希望这些恶意网址被抓取。我知道这可以通过子域的robots.txt轻松完成,但我们无法访问子域的robots.txt文件,因为它完全链接在一起。 我也试过谷歌网站管理员的参数阻止,但

    0热度

    2回答

    这是我init.php是什么样子是在整个网站加载: $suid = 0; session_set_cookie_params(60, '/', '.' . $_SERVER['HTTP_HOST'], true); session_save_path(getcwd() . '/a/'); if (!isset($_SESSION['id'])) { session_start(['

    0热度

    2回答

    我想借助Streetview图像API获取Google Streetview光球(例如:这一个:https://www.google.com/maps/@52.5162672,13.3777133,3a,75y,90t/data=!3m7!1e1!3m5!1s-C3h-fjBdBFo%2FWCz53BtP3dI%2FAAAAAAAAEok%2F2KEziwlh5e4SYRpoC1vnn0hQydX

    -1热度

    3回答

    我有2个网站,即www.sample1.com和www.sample2.com。我有一个项目ID,即。此物品1有一个名为channel的物业,实际上属于www.sample2.com。但里面www.sample1.com,我有一个逻辑,以检查是否要求的项目(在这种情况下,第1项)具有channel=sample2。如果是这样,那么我将它重定向到www.sample2.com。 我的问题是:尽管第1

    0热度

    1回答

    假设我的域名是:www.site.name.jp 我想从子页面中删除www和.html,网址为:www.site.name/about。 html 我该怎么办?我一直在使用下面的代码,实际上它正在工作!但我有点担心它会对我的Google抓取分析产生负面影响。 Options +MultiViews RewriteCond %{HTTP_HOST} ^www\.web.roidesign\.jp