网站建设|天天操天天拍|营销型网站|天天操天天看|独立站搭建|天天操天天干天天爽|外贸网站建设|wordpress独立站|小程序开发-?无双建站?

Menu

江蘇Nginx反爬蟲: 禁止惡意UserAgent抓取網站

網站建設 錄入時間 2023-08-05 閱讀次數 無雙建站
反爬蟲常見方法

    1. 根據 IP 訪問頻率封禁 IP

    2. 設置賬號登陸時長,賬號訪問過多封禁
    設置賬號的登錄限制,只有登錄才能展現內容
    設置賬號登錄的時長,時間一到則自動退出

    3. 彈出數字驗證碼和圖片確認驗證碼
    爬蟲訪問次數過多,彈出驗證碼要求輸入

    4. 對 API 接口的限制
    每天限制一個登錄賬戶后端 api 接口的調用次數
    對后臺 api 返回信息進行加密處理

nginx反爬設置

    站點配置文件

    因為user-agent帶有Bytespider爬蟲標記,這可以通過Nginx規則來限定流氓爬蟲的訪問,直接返回403錯誤。
    修改對應站點配置文件(注意是在server里面)

    添加紅色部分

    server {
      listen 80 default_server;
      listen [::]:80 default_server;
      index index.html index.htm index.nginx-debian.html;
      server_name _;
      location / {
        try_files $uri $uri/ =404;
      }
      #forbidden Scrapy
      if ($http_user_agent ~* (Scrapy|Curl|HttpClient)) {
        return 403;
      }
      #forbidden UA
      if ($http_user_agent ~ "Bytespider|FeedDemon|JikeSpider|Indy Library|Alexa Toolbar|AskTbFXTV|AhrefsBot|CrawlDaddy|CoolpadWebkit|Java|Feedly|UniversalFeedParser|ApacheBench|Microsoft URL Control|Swiftbot|ZmEu|oBot|jaunty|Python-urllib|python-requests|lightDeckReports Bot|YYSpider|DigExt|YisouSpider|HttpClient|MJ12bot|heritrix|EasouSpider|Ezooms|^$" ) {
        return 403;
      }
      #forbidden not GET|HEAD|POST method access
      if ($request_method !~ ^(GET|HEAD|POST)$) {
        return 403;
      }
    }

    附錄:UA收集

    FeedDemon             內容采集
    BOT/0.1 (BOT for JCE) sql注入
    CrawlDaddy            sql注入
    Java                  內容采集
    Jullo                 內容采集
    Feedly                內容采集
    UniversalFeedParser   內容采集
    ApacheBench           cc攻擊器
    Swiftbot              無用爬蟲
    YandexBot             無用爬蟲
    AhrefsBot             無用爬蟲
    YisouSpider           無用爬蟲(已被UC神馬搜索收購,此蜘蛛可以放開!)
    jikeSpider            無用爬蟲
    MJ12bot               無用爬蟲
    ZmEu phpmyadmin       漏洞掃描
    WinHttp               采集cc攻擊
    EasouSpider           無用爬蟲
    HttpClient            tcp攻擊
    Microsoft URL Control 掃描
    YYSpider              無用爬蟲
    jaunty                wordpress爆破掃描器
    oBot                  無用爬蟲
    Python-urllib         內容采集
    Python-requests       內容采集
    Indy Library          掃描
    FlightDeckReports Bot 無用爬蟲
    Linguee Bot           無用爬蟲
    使用python驗證

    python驗證

    使用requests模塊

    image.png


    使用urllib模塊

    image.png


    返回403就表示起作用了。

    b'\r\n403 Forbidden\r\n\r\n

    403 Forbidden

    \r\n
    nginx
    \r\n\r\n\r\n'

    三、整站防護設置

    image.png


      層:robots.txt

      robots是網站跟爬蟲間的協議,用簡單直接的txt格式文本方式告訴對應的爬蟲被允許的權限,也就是說robots.txt是搜索引擎中訪問網站的時候要查看的個文件。

      注意:它只是做了協議規定,是否允許將爬取的數據收錄,不影響網頁訪問。

      備注:對于手動寫爬蟲技術人員而言,一般都是直接忽略掉的。

       

      如果不允許所有的爬蟲蜘蛛訪問,內容如下:

      User-agent: *
      Disallow: /

      第二層:useragent特征攔截

      因為user-agent帶有Bytespider爬蟲標記,這可以通過Nginx規則來限定流氓爬蟲的訪問,直接返回403錯誤。

      具體操作,請查看上面的nginx配置。

      備注:這樣可以防止一部分爬蟲訪問,以及初級爬蟲人員。

       

      第三層:JS發送鼠標點擊事件

      有些網站,你從瀏覽器可以打開正常的頁面,而在requests里面卻被要求輸入驗證碼或者是重定向到其他的頁面。
      原理:當點擊登錄時,觸發js加密代碼,復雜的加密算法參數+時間戳+sig值,后臺進行 參數+時間的限制。驗證成功后,才可以登錄。

       

      備注:爬蟲高手需要模擬瀏覽器行為,加載js代碼以及圖片識別,才能正常登陸。

       

      第四層:后臺接口限制

      1. 根據 IP 訪問頻率封禁 IP(注意:頻率要控制好,否則容易誤傷。)
      2. 設置賬號登陸時長,賬號訪問過多封禁。
          設置賬號的登錄限制,只有登錄才能展現內容 設置賬號登錄的時長,時間一到則自動退出
      3.彈出數字驗證碼和圖片確認驗證碼
          爬蟲訪問次數過多,前端彈出驗證碼要求輸入
      4.對 API 接口的限制
          每天的登錄賬戶,請求后端 api 接口時,做調用次數限制。對后臺 api 返回信息進行加密處理

       

      通過這4層設置,就可以有效的保護數據的安全了。

【版權聲明】:本站內容來自于與互聯網(注明原創稿件除外),供訪客免費學習需要。如文章或圖像侵犯到您的權益,請及時告知,我們第一時間刪除處理!謝謝!

無雙科技
如何獲取外貿詢盤和訂單?
網站建設咨詢:13534259410

經典客戶案例展示

熱門服務
眾多企業的選擇

深圳無雙科技 - 專注于高端網站建設、網站設計開發、品牌網站制作

咨詢電話:13534259410

售后服務:13534259410  (7×24小時)
在線 Q Q:253849310 (售前咨詢)

深圳網站建設咨詢
【掃一掃咨詢】
  • 掃一掃 在線咨詢
    無雙科技官方公眾號
  • 響應式客戶端
    掃一掃 關注好友
體驗創新服務

深圳無雙科技,專注于深圳網站建設、深圳網站設計、深圳網站制作。
服務客戶超3000家,一站式網站建設及推廣營銷解決方案提供商。
我們的價值觀:誠信、坦誠、盡責、創新。期待與您合作!

您好,很高興為您服務 ^_^
主站蜘蛛池模板: 沈阳机电一体化电热锅炉_沈阳蓄热式电锅炉_沈阳壁挂式电锅炉【沈阳远鹏电热供水设备工程安装有限公司】 | 品润财税_广州公司注册_南沙代理记账服务_危化证出口退税外国人工作签证代办 | 南京叉车|电瓶叉车|电动叉车|电动堆高车|电动搬运车-南京诺嘉机械 | 液压支架配件|液压支架立柱|液压支架千斤顶|液压支架换向阀|液压支架乳化油|液压支架密封件-山东卓力生产厂家 | 水处理设备厂家_纯净水设备_超纯水设备价格找西安瑞泉水处理 | 视觉检测设备_CCD光学筛选机_分度盘光学筛选机-无锡精质智能装备 | 山东金起起重机械有限公司[官网]-金桥银路悬臂吊,金起龙门吊,山东金起起重行吊,单梁起重机 | 上海眸社设计-上海专业的VI设计,宣传册设计,画册设计,折页设计公司 | ?神龙上古堂全国官网_颈腰椎调理服务中心_萨迦藏式秘方渗透法 | 汽车标签|医疗标签|电子标签|手机电池标签|电脑电池标签|电源标签|耐高温标签|防静电标签|手机出厂膜|手机全裹膜|手机包裹膜|手机卖点膜|热转印标签|遮阳板标签|天势科技|-标签印制专家! | 西安西雷脉冲功率技术有限公司-高压调制器/加速器与脉冲功率系统的研发/生产/应用推广/高压脉冲电源的应用研究/设计/生产和销售/高功率脉冲器件/材料与仪器设备的研发/生产和销售/高电压/大电流/强磁场环境的模拟及测试服务/会议会展服务/货物及进出口的业务/脉冲功率技术领域类的技术转让 | 上海五相仪器仪表有限公司-鼓风干燥箱-拍击式无菌均质器生产厂家 | 全自动贴标机厂家-深圳市优斯迪自动贴标机官网 | 洗车机-自动汽车洗车机-全自动洗车设备-全自动电脑洗车机-北京自然绿环境科技发展有限公司 | 耐磨焊条_高硬度堆焊焊条_碳化钨合金耐磨焊丝_北京耐默 | 济南牛皮癣专科研究院_「济南市银屑病医院」_济南治牛皮癣医保医院_济南正规的银屑病医院 | 惠州清洁公司|惠州保洁公司|惠州清洁|惠州保洁|惠州清洁服务|惠州保洁服务|壹壹集团 | 陶瓷-超高速胶体磨-高剪切胶体磨厂家价格-上海思峻机械设备有限公司 | 消泡剂厂家-水处理消泡剂-有机硅消泡剂-广东广州多美多消泡剂厂家 | 辽宁大卯新能源供热设备制造有限公司官方网站,大卯新能源,大卯新能源供热设备 | 伸缩接头,限位伸缩接头,传力接头,可拆卸接头,橡胶接头,衬四氟橡胶接头,橡胶软连接,橡胶补偿器,防水套管- 巩义市隆盛管道设备有限公司 | 深圳浪琴维修服务中心_浪琴售后保养服务网点_地址 | 深圳钢成培训专业从事,五轴培训,车铣复合培训,数控车床,CNC数控编程,模具编程 ,钣金机械与模具设计,powermill,mastercam,solidworks,ug,hypermill培训 | 质量技术监督12365防伪追溯平台-www.12365china.net | 正规网上赚钱网站「百赚网」专注在家赚钱的网络赚钱平台 | 立式/卧式/潜水/液下/螺杆/耐磨/渣浆泵|泥浆泵|离心泵,厂家 - 河北聚盛泵业制造有限公司 | 装盒机|全自动封盒机|纸盒子包装机|高速装盒机定制-温州胜泰机械有限公司 | 水阻柜-液阻柜-高压开关柜-高压固态软启动柜-磁控软启动柜-电解粉-无功补偿柜-配电柜-襄阳源创电气 | 浙江德威不锈钢管业股份有限公司 | 陕西筱润智能科技有限公司 干部人事智能档案柜 智能密集架 智能档案柜 部队选层文件智能柜 智能枪弹柜 财务智能档案柜 边防武警智能密集架 医院智能档案柜 部队选层文件智能柜智能枪弹柜 学校医院文件柜 企事业单位公检法智能文件柜 生产厂家-筱润智能科技有限公司 RFID射频智能密集架 全自动智能选层档案柜 智能密保柜 枪柜部队营房营具床桌椅办公家具 办公用品档案盒设备货架 全自动智能选层柜生产厂家-筱润智能科技有限公司 | 日本国际高中_上海日本国际高中学校排名_日本国际高中留学课程_上海日语国际高中学校学费-上海工程技术大学国际多语种特色高中课程【官网】 | 捏炼机_密炼机_炼胶机_平板硫化机-青岛光越橡胶机械制造有限公司 | 网带式等温正火生产线_燃气式铝合金加热炉_燃气式烘干窑炉-湖州中科炉业科技有限公司 | 兰州职业学校-新华互联网学校咨询平台中心 | 欧氏运动木地板,体育木地板厂家,篮球木地板价格_欧氏体育木地板 欧派板材官网 | 全屋定制板材 专业供应商 | 江西省屹诚建筑装饰工程有限公司 | 小程序开发,网站建设,APP开发,商城系统开发,社区团购系统开发,区块链溯源,互联网资质办理-软多信息技术有限公司_河南软多信息技术有限公司 | 液压油缸_液压系统_液压泵站生产厂家-浙江汉达机械专注液压行业21年 | 赛车微信群二维码平台下载【找群网zhaoqun5.com】 | 振动筛|不锈钢振动筛|振动筛生产厂家-新乡市大汉振动机械有限公司 | 诸城市佳品食品机械有限公司|