作者GALINE (天真可爱CQD)
看板Soft_Job
标题Re: [心得] Similarweb | SEMrush | GA 哪个最不准?
时间Wed Jul 20 11:43:10 2022
※ 引述《danceofdie (zong)》之铭言:
: 1. 对於资料流量来源的总结,两家公司都以隐私为由不公开资料来源,所以看完官方文件後也是不知道实际的来源是什麽。
https://www.similarweb.com/corp/ourdata/
https://www.semrush.com/kb/998
虽然很模糊,但这两家其实有大概讲一下资料来源
- 拿一堆关键字丢搜寻引擎的结果页面看结果
- 跟上面类似,不过是去拉维基百科之类的大型公开资料
- 跟第三方买各种资料
- 第一方资料(不过说能拿到 GA 资料但不讲怎麽拿到 GA 资料,毛毛的)
这种大规模资料搜集有时候生意不是那麽好端上台面。
自己没做过,但古早有听人讲过「到处下广告,然後用广告成效估计网站用量」之类的招
这招现在应该没有五年十年前这麽好用,但大概还是有把戏能变?
另外 similarweb 直接在网站上提到他们会跟 ISP 买资料。
某个程度上满吓人的...
总之,他们的主要资料大~概~不是实际用量数据。
而是各种侧面资料,加上一部分流量资料来作为估计用的基准。
这样估计出来的资料光是能落在同一个数量级就很了不起了。
GA 直接用 JavaScript 测量网站使用状况,品质会好得多
但也不会是百分之百准确
- Firefox 某些情况下会挡 GA,Brave 应该也会挡
- 跑在客户端的 code 本来就不可能完全可信
- 会各种被塞(黑帽 SEO?)资料
--
顶天立地:爱孩子就要支持萝莉控
https://goo.gl/Zmk62o
--
※ 发信站: 批踢踢实业坊(ptt.cc), 来自: 114.47.15.211 (台湾)
※ 文章网址: https://webptt.com/cn.aspx?n=bbs/Soft_Job/M.1658288600.A.606.html
※ 编辑: GALINE (114.47.15.211 台湾), 07/20/2022 12:03:05
1F:推 Boston: 我印象中 similarweb 是透过网路封包分析(跟 ISP 买资料 07/20 17:48
2F:→ Boston: 理论上应该会比 GA 这种埋在 client side 的追踪来得更准 07/20 17:48
3F:→ Boston: 主要是装个 AD block or 不启用 javascript 07/20 17:48
4F:→ Boston: GA 基本上就追踪不到了 07/20 17:49
5F:→ Boston: 而且近几年浏览器对隐私越来越严格,越来越多防止追踪功能 07/20 17:49
6F:→ GALINE: 如果是 shared host 或云端服务,分析能力还是有限 07/20 20:58
7F:→ GALINE: 现在HTTPS几乎标配,除非环境污染 MITM,不然打穿机率不高 07/20 21:00
8F:→ GALINE: 自己的机器或固定外部IP应该就能抓很准了 07/20 21:01
9F:→ GALINE: 突然想到DNS那个方向应该还是有招... 07/20 21:02
10F:推 guanting886: 正常环境不会有MITM 07/21 01:00
11F:→ guanting886: 数据资料可以一鱼多吃 当你使用平台的服务就同意他 07/21 01:02
12F:→ guanting886: 们可以怎麽使用你的资料 而且赔偿是有上限的 07/21 01:02
13F:→ guanting886: 有些数据也不一定需要ISP 那边买 07/21 01:04
14F:→ guanting886: 当你拉进那些免费的字体、JS、服务就是帮别人收集资 07/21 01:06
15F:→ guanting886: 料完善他们的服务 07/21 01:06
16F:推 guanting886: 举例说 SEMRUSH 可以知道某网站数据状况,上面的数 07/21 01:20
17F:→ guanting886: 据缺很意外跟 GA 上的资料接近,即使有误差。可是那 07/21 01:20
18F:→ guanting886: 个网站呢用的AWS、Cloudfront + Cloudflare 的服务 07/21 01:20
19F:→ guanting886: 其他就是一些常见的 GA、FB PIXEL、BING 追踪转换、 07/21 01:22
20F:→ guanting886: 成效的东西 07/21 01:22
21F:→ guanting886: 还有 Google Font 07/21 01:23
22F:→ guanting886: 你说究竟是谁出卖了这个网站的呢 不知道 但是一开 07/21 01:25
23F:→ guanting886: 始你同意了服务条款,他们也得到你的授权,他只要 07/21 01:25
24F:→ guanting886: 适当的去掉可以识别的资料他们怎麽用你也拿他们没 07/21 01:25
25F:→ guanting886: 什麽办法 毕竟免费服务麻 07/21 01:25
26F:→ guanting886: 像某家卖IP Geo 资料的业者,他们怎麽可以抓到很准 07/21 01:32
27F:→ guanting886: 确的 Country/City 可以思考一下他们以前推了什麽服 07/21 01:32
28F:→ guanting886: 务给网友XD 07/21 01:32
29F:推 guanting886: 还有一些数据平台资料锁很紧,爬虫还不一定爬得稳, 07/21 01:37
30F:→ guanting886: 不是合作夥伴我是不相信啦XD 07/21 01:37
31F:→ GALINE: 「正常」是不应该有...(望向 superfish 案 07/21 15:04
32F:→ GALINE: CDN 业者拿到的资料品质应该也不错 07/21 15:05
33F:→ GALINE: 这年头资料都被卖来卖去的啊.... 07/21 15:16