2014-01-26 123 views
-1

我对状态感到困惑。网址在网址中的前缀

我下载HTTP页面:// tukaani.org/xz/format.html,并希望按照HREF在HTML,但是,链接像 < A HREF =“XZ-文件格式1.0 .4.txt“> 指向http:// tukaani.org/xz/xz-file-format-1.0.4.txt而不是http:// tukaani.org/xz-file-format-1.0.4。文本'。

我怎么能得到的URL的前缀,它不是主机名或基地,我找不到任何有用的信息在头,有没有字符串像'http:// tukaani.org/xz/'在标题。但任何浏览器都知道链接。

什么是内部机制。如何在'http:// tukaani.org/xz/format.html'中使用wget,curl或perl获取前缀'http:// tukaani.org/xz/'?

+1

HTTP是协议其他选项的文件: // ftp://和https://然而,在你的问题中存在一个极度缺乏清晰度的问题。 –

回答

0

这里发生的是有两种链接:绝对或相对。

你提到的是相对的,但相对于什么?答案是:相对于当前页面的URL,这样以来你正在访问http://example.com/xz/format.html的基本网址为http://example.com/xz/

如果你访问http://example.com/xz/another-sublevel/foo.html那么“基地”将http://example.com/xz/another-sublevel/

正如你可能已经注意到,它的工作原理就像一个文件夹/文件结构,所以从相对链接开始,从当前网址的“文件夹”开始构建网址。

绝对链接将与/(文件夹树结构中所谓的“根”)开始,所以如果你有<a href="/xz-file-format-1.0.4.txt">,任何页面上,你会去http://example.com/xz-file-format-1.0.4.txt

+0

之间的空格谢谢,我明白了,我迷惑了href = /文件到href =文件 – SetupX