问一道编程面试题:regex匹配文本中的域名# JobHunting - 待字闺中
m*v
1 楼
用pl写的是 $line =~ m!.*(http|https|ftp)://([a-z0-9\-\.]+)(.*)!i
当时认为第二个匹配组就是域名。很明显,这个写法挂了。。。因为域名不能包含前缀
,比如
xxx.mitbbs.com只能返回mitbbs.com,而yyy.mitbbs.edu.cn返回mitbbs.edu.cn。
求教大家怎么做,谢谢。
当时认为第二个匹配组就是域名。很明显,这个写法挂了。。。因为域名不能包含前缀
,比如
xxx.mitbbs.com只能返回mitbbs.com,而yyy.mitbbs.edu.cn返回mitbbs.edu.cn。
求教大家怎么做,谢谢。