在URL

2009-11-10 43 views
1

的公司名称(例如http://mcdonalds.com/)中找到公司的名称(例如http://mcdonalds.com/),您将如何自动和可靠地找到公司名称(在本例中为“Mc Donalds”)?在URL

感谢

编辑:有人投票决定关闭这个问题,所以也许我需要解释的动机。我有很多公司网址,我想使用Google地图查找每家公司的相关数据。而使用公司名称搜索Google地图比URL更好。

删除'http'和'com'在许多情况下都有效,特别是对于知名公司,但并非全部。我发现whois记录不是很有帮助。

我当时希望有某种公共数据库能够匹配公司的URL,但到目前为止还没有遇到过。

+2

删除的 “http://” 和 “.COM”? (SCNR) 说真的:你能更具体一点你想达到什么吗? – 2009-11-10 12:53:00

+1

其实,名字是“麦当劳”(没有空格,而是撇号)。我刚刚检查他们的网站。 – Boldewyn 2009-11-10 12:55:08

回答

1

您需要创建自己的查找表:您将不得不尝试从URL中的html中解析这些信息以获取最准确的数据,例如:获取Html页面标题或查找版权信息?

+0

没有什么是傻瓜证明和准确的,你将不得不审查这些。 – 2009-11-10 12:53:47

+0

是的,我希望这样的表已经存在,我可以重复使用。 – hoju 2009-11-10 22:50:57

1

很可能他们会在<title/>元素中拥有它。解析并将其与网站的域进行比较。如果有重大的重叠,这是你的匹配。如果没有,请在标题上尝试一些启发式(例如名称是>>之前的所有内容)。

如果它是一个更大的公司,那么你也可能很幸运地看到他们的域的NIC条目(又名Whois)。

+0

如果不是,meta标签可能会包含它 – scunliffe 2009-11-10 12:57:36

+0

但它们是一个真正的混乱。都柏林核心在这些公司的公共关系部门还远未闻名。解析他们的东西,你不知道会给你一个非常糟糕的成功率。 – Boldewyn 2009-11-10 13:02:35

0

您可以使用whois信息。应该有图书馆让你以一种干净的方式做到这一点。你没有提到你将使用什么类型的技术......

1

Whois数据库可能有一些帮助,虽然总会有一些边缘情况,你将必须付出更多的努力。

1

如果你想要准确,我会说amazon机械turk。

+0

不错的主意,但我太便宜了! – hoju 2009-11-10 22:54:30

1

尝试使用cURL和DOMDocument。

loadHTML($ result); $ title = $ dom-> getElementsByTagName(“title”); echo $ title-> item(0) - > nodeValue; ? >

看看meta标签

+1

该示例似乎检查标题标记,并且您建议检查元标记。这两个都是好主意,但总体来说并不可靠。 – hoju 2009-11-10 22:55:59