提取TLD(顶级域)–和怪异的怪癖会让你不高兴

I’ve been 我们 ing 约翰·库科夫斯基‘优秀的Python域提取库“葡聚糖”最近。 TLDextract可以很容易地从URL中提取域名,例如:

为什么这有用?

这有很多应用–例如,如果您要创建链接到您网站的热门域名的摘要,则可能会有很多引荐网址:

您可以编写一些简单的代码来输出域:

并使用 词频计算器 从我以前的帖子中汇编出最热门的引用域名列表!看到我’ve修改了第10行,改为将域添加为键:

哪个返回:

为什么可以’你在第三个斜杠处用句号分隔’s before?

这是我一开始尝试做的事情:

但是由于域名系统是顶级域名(例如.com),二级域名(例如.gov.uk),标准子域名(egiimgur.com)和拥有过多句号的人(例如www.dnr.state (.oh.us),这变得更加棘手,无法容纳所有内容。因此TLDextract实际上维护着Mozilla的本地副本’您系统上的ICANN域列表,可从以下网站下载: 

http://mxr.mozilla.org/mozilla-central/source/netwerk/dns/effective_tld_names.dat?raw=1

并从中基本上找到URL末尾的匹配项。非常好!

所以呢’标题中提到的问题?

不幸的是,使用Mozilla的警告’的清单是您得到一些看似奇怪的行为。有许多网站和公司从亚马逊请求其子域为TLD,并包含在列表中:

要DynDNS的东西:

和更多… So you’如果您输入以下内容,将会绊倒:

而不是预期的“.com” as the 顶级域名.

2 thoughts 上 “提取TLD(顶级域)–和怪异的怪癖会让你不高兴

  1. pingback: 提取TLD(顶级域)– and...

发表评论