在URL

的公司名称（例如http://mcdonalds.com/）中找到公司的名称（例如http://mcdonalds.com/），您将如何自动和可靠地找到公司名称（在本例中为“Mc Donalds”）？在URL

感谢

编辑：有人投票决定关闭这个问题，所以也许我需要解释的动机。我有很多公司网址，我想使用Google地图查找每家公司的相关数据。而使用公司名称搜索Google地图比URL更好。

删除'http'和'com'在许多情况下都有效，特别是对于知名公司，但并非全部。我发现whois记录不是很有帮助。

我当时希望有某种公共数据库能够匹配公司的URL，但到目前为止还没有遇到过。

2009-11-10 hoju

删除的 “http：//” 和 “.COM”？（SCNR）说真的：你能更具体一点你想达到什么吗？ – 2009-11-10 12:53:00

其实，名字是“麦当劳”（没有空格，而是撇号）。我刚刚检查他们的网站。 – Boldewyn 2009-11-10 12:55:08

您需要创建自己的查找表：您将不得不尝试从URL中的html中解析这些信息以获取最准确的数据，例如：获取Html页面标题或查找版权信息？

2009-11-10 12:53:04

没有什么是傻瓜证明和准确的，你将不得不审查这些。 – 2009-11-10 12:53:47

是的，我希望这样的表已经存在，我可以重复使用。 – hoju 2009-11-10 22:50:57

很可能他们会在<title/>元素中拥有它。解析并将其与网站的域进行比较。如果有重大的重叠，这是你的匹配。如果没有，请在标题上尝试一些启发式（例如名称是>>之前的所有内容）。

如果它是一个更大的公司，那么你也可能很幸运地看到他们的域的NIC条目（又名Whois）。

2009-11-10 12:54:15 Boldewyn

如果不是，meta标签可能会包含它 – scunliffe 2009-11-10 12:57:36

但它们是一个真正的混乱。都柏林核心在这些公司的公共关系部门还远未闻名。解析他们的东西，你不知道会给你一个非常糟糕的成功率。 – Boldewyn 2009-11-10 13:02:35

您可以使用whois信息。应该有图书馆让你以一种干净的方式做到这一点。你没有提到你将使用什么类型的技术......

2009-11-10 12:56:23

Whois数据库可能有一些帮助，虽然总会有一些边缘情况，你将必须付出更多的努力。

2009-11-10 12:56:51 mouviciel

如果你想要准确，我会说amazon机械turk。

2009-11-10 12:59:30 flybywire

不错的主意，但我太便宜了！ – hoju 2009-11-10 22:54:30

尝试使用cURL和DOMDocument。

loadHTML（$ result）; $ title = $ dom-> getElementsByTagName（“title”）; echo $ title-> item（0） - > nodeValue; ？ >

看看meta标签

2009-11-10 13:05:42 juno

该示例似乎检查标题标记，并且您建议检查元标记。这两个都是好主意，但总体来说并不可靠。 – hoju 2009-11-10 22:55:59

回答