了解亮数据浏览器 解决方案、如何开始以及最佳使用技巧。
亮数据网页爬虫浏览器
亮数据浏览器是我们的代理解锁解决方案之一,旨在为您管理整个代理和解锁基础架构,让您专注于从浏览器采集数据。
您现在可以通过Pupateer或Playwright等库轻松访问和导航到目标网站,并与网站的HTML代码交互以提取所需数据。
在后台,亮数据浏览器解决方案结合了我们完整的代理基础架构及动态解锁功能,无论您身在何处,都能为您提供需要的准确数据。
为你解决以下难题:
- 与Puppeteer/Playwright集成;
- 网站导航、按钮点击、滚动以加载整个页面、悬停等功能;
- 适合缺少可靠的解锁基础架构团队的公司。
快速开始
1.登录到您的亮数据控制面板
如果您尚未注册亮数据账户,可以免费注册,添加付款方式后,您将获得5美元的账户余额!
2.新建亮数据浏览器代理
导航到“我的代理/My Proxy”页面,在“亮数据浏览器/Scraping Browser“下点击“开始使用/Get started”。
请注意:如果您的账户已经在使用代理通道,只需点击右上角的“添加代理通道/Add proxy”。
3.在“新建代理/Create a new proxy”页面中,为新的亮数据浏览器代理通道命名。
请注意:请选择一个有意义的名称,因为通道名称一旦创建就无法更改。
4.要创建并保存您的代理,请点击“添加代理/Add proxy”
关于帐户验证的说明:
如果您尚未添加付款方式,此时系统会提示您添加一种方式以验证帐户。如果这是您第一次使用亮数据,那么您还会获得5美元的赠送金额!
请注意:添加付款方式仅用于验证目的,不会收取任何费用。
5. 在 Node.js 或 Python 中创建你的第一个亮数据浏览器会话。
上一步完成帐户验证后,现在可以创建您的第一个浏览器会话。
在代理通道的“访问参数/Access parameters”标签中会有API 凭证,其中包括您的用户名 (Customer_ID)、通道名称(用户名附加)和密码。这些信息会在之后的集成步骤中使用。
6. Node.js示例:
-
- 安装Puppeteer-core(可用现有浏览器安装的轻量级版本)。
npm i puppeteer-core
- 安装Puppeteer-core(可用现有浏览器安装的轻量级版本)。
-
-
- 请参阅以下示例脚本(交换凭证、通道和目标URL):
const puppeteer = require('puppeteer-core');
// should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
const auth='USERNAME:PASSWORD';
async function run(){
let browser;
try {
browser = await puppeteer.connect({browserWSEndpoint: `wss://${auth}@brd.superproxy.io:9222`});
const page = await browser.newPage(); page.setDefaultNavigationTimeout(2*60*1000);
await page.goto('https://example.com');
const html = await page.evaluate(() => document.documentElement.outerHTML);
console.log(html);
} catch(e) {
console.error('run failed', e);
} finally {
await browser?.close(); }
}
if (require.main==module)
run();
- 请参阅以下示例脚本(交换凭证、通道和目标URL):
-
- 运行脚本
Python示例
-
安装Playwright
pip3 install playwright
请参阅以下示例脚本(交换凭证、通道和目标URL):
import asyncio
from playwright.async_api import async_playwright
# should look like 'brd-customer-<ACCOUNT ID>-zone-<ZONE NAME>:<PASSWORD>'
browser_url = f'https://{auth}@brd.superproxy.io:9222'
asyncdefmain():
asyncwith async_playwright() as pw:
print('connecting');
browser = await pw.chromium.connect_over_cdp(browser_url)
print('connected');
page = await browser.new_page()
print('goto')
await page.goto('https://example.com', timeout=120000)
print('done, evaluating')
print(await page.evaluate('()=>document.documentElement.outerHTML'))
await browser.close()
asyncio.run(main())运行脚本
python scrape.py
-
其他信息和资源
亮数据浏览器演示
屏蔽请求
可以阻止不需要的端点以节省带宽。
请参阅以下示例:
// connect to a remote browser...
const blockedUrls = ['*doubleclick.net*];
const page = await browser.newPage();
const client = await page.target().createCDPSession();
await client.send('Network.enable');
await client.send('Network.setBlockedURLs', {urls: blockedUrls});
await page.goto('https://washingtonpost.com');国家级定位
使用亮数据浏览器时,可以使用与我们其他代理产品中相同的国家级定位参数。
您在发送请求时,请在请求的通道名称后添加-country标志,接着添加该国家2 个字母的ISO代码。
在以下示例中,我们在请求中添加了-country-us ,因此我们的请求会从美国发出(“us即美国的前两个英文字母”)。
curl--proxy brd.superproxy.io:22225 --proxy-user brd-customer-<CUSTOMER_ID>-zone-<ZONE_NAME>-country-us: <ZONE_PASSWORD> "http://target.site"
欧盟地区
您可以通过在请求中在“country”后面添加“eu”来以与上面的“国家”相同的方式针对整个欧洲联盟地区:-country-eu
使用 -country-eu 发送的请求将使用自动包含在“eu”中的以下国家之一的 IP 地址:
AL, AZ, KG, BA, UZ, BI, XK, SM, DE, AT, CH, UK, GB, IE, IM, FR, ES, NL, IT, PT, BE, AD, MT, MC, MA, LU, TN, DZ, GI, LI, SE, DK, FI, NO, AX, IS, GG, JE, EU, GL, VA, FX, FO
请注意:欧盟国家是随机分配的。