用法:
clx.dns.dns_extractor.parse_url(url_series, req_cols=None)
此函数提取给定 url 的子域、域和后缀。
- url_df_col:(
cudf.Series
) - 要处理的 URL。 - req_cols:(
set
(
strings
)
) - 请求提取的列,例如(域、子域、后缀和主机名)。
- url_df_col:(
提取的请求列的信息。
cudf.DataFrame
参数:
返回:
返回类型:
例子:
>>> from cudf import DataFrame >>> from clx.dns import dns_extractor as dns >>> >>> input_df = DataFrame( ... { ... "url": [ ... "http://www.google.com", ... "gmail.com", ... "github.com", ... "https://pandas.pydata.org", ... ] ... } ... ) >>> dns.parse_url(input_df["url"]) hostname domain suffix subdomain 0 www.google.com google com www 1 gmail.com gmail com 2 github.com github com 3 pandas.pydata.org pydata org pandas >>> dns.parse_url(input_df["url"], req_cols={'domain', 'suffix'}) domain suffix 0 google com 1 gmail com 2 github com 3 pydata org
相关用法
- Python clx.dns.dns_extractor.generate_tld_cols用法及代码示例
- Python clx.dns.dns_extractor.extract_hostnames用法及代码示例
- Python clx.ip.is_ip用法及代码示例
- Python clx.analytics.anomaly_detection.dbscan用法及代码示例
- Python clx.ip.hostmask用法及代码示例
- Python clx.osi.virus_total.VirusTotalClient.file_rescan用法及代码示例
- Python clx.osi.virus_total.VirusTotalClient.url_report用法及代码示例
- Python clx.ip.is_global用法及代码示例
- Python clx.osi.virus_total.VirusTotalClient.ipaddress_report用法及代码示例
- Python clx.ip.ip_to_int用法及代码示例
- Python clx.osi.virus_total.VirusTotalClient.file_scan用法及代码示例
- Python clx.osi.virus_total.VirusTotalClient.scan_big_file用法及代码示例
- Python clx.ip.is_private用法及代码示例
- Python clx.osi.slashnext.SlashNextClient.host_reputation用法及代码示例
- Python clx.analytics.asset_classification.AssetClassification.predict用法及代码示例
- Python clx.eda.EDA用法及代码示例
- Python clx.analytics.loda.Loda.score用法及代码示例
- Python clx.osi.slashnext.SlashNextClient.api_quota用法及代码示例
- Python clx.ip.is_reserved用法及代码示例
- Python clx.ip.is_unspecified用法及代码示例
注:本文由纯净天空筛选整理自rapids.ai大神的英文原创作品 clx.dns.dns_extractor.parse_url。非经特殊声明,原始代码版权归原作者所有,本译文未经允许或授权,请勿转载或复制。