如何发送搜索引擎爬虫 HTTPS 请求?

当您的目标网站使用 HTTPS 协议时,URL 数据是加密的。为了让搜索引擎爬虫能解密数据并发送回结果,您需要下载并安装亮数据证书,或者跳过 SSL 验证。

根据以下步骤向目标网站发送 HTTPS 请求:

 

无需 SSL 验证发送请求

Shell
使用 --insecure 或 -k

curl -v --insecure --compressed --proxy zproxy.lum-superproxy.io:22225 --proxy-user lum-customer-<账户_ID>-zone-<通道名>:<通道密码> "https://www.google.com/search?q=pizza&lum_json=1"

Node.js 

process.env.NODE_TLS_REJECT_UNAUTHORIZED = 0;

Java

在 JVM 设置上添加:

-Dcom.sun.net.ssl.checkRevocation=false

C#

ServicePointManager.ServerCertificateValidationCallback += (sender, cert, chain, sslPolicyErrors) => true;

Python

import ssl
ssl._create_default_https_context = ssl._create_unverified_context

 

带 SSL 验证的 HTTPS 请求

Shell
使用 --cacert 然后输入证书文件的路径

curl -v --compressed --cacert “{证书文件路径}“ --proxy zproxy.lum-superproxy.io:22225 --proxy-user lum-customer-{账户_ID}-zone-{通道名}:{通道密码} "https://www.google.com/search?q=pizza&lum_json=1"

Java

将证书导入 Java Keystore:

使用 Java keytool 导入证书的示例:

%JAVA_HOME% Keystore

Keytool 命令示例:

keytool -import -alias <证书 alias> -file <证书名字>.cer -keystore <keystore 文件名> -storepass <keystore 密码>

运行 keytool 命令后,系统会提示您是否信任证书:点击 “y”。

其它编程语言

下一个问答解释了如何下载亮数据证书并将它安装到本地计算机 Trusted Root Certification Authorities

这篇文章有帮助吗?