我的网站开发技术经验总结 我的网站开发技术经验总结
首页

fangdown

我的网站开发技术经验总结
首页
  • 认识ESM
  • chrome-talend插件,类似postman
  • sequelize 使用及技巧
  • UML工具Power Designer建表
  • sequelize相关操作文档
  • 解决抖音获取签名及并发的问题
  • 记一次解决抖音分享页混淆字体,字体图标转UID解决方案
  • 获取抖音用户作品列表信息
  • 获取抖音用户作品列表信息-进阶
  • 获取抖音用户作品列表信息-进阶3
  • 如何根据抖音号获取用户信息
  • 获取用户最新视频
  • 模块化-import和require的区别
  • eslint规范
  • js容错处理
  • js-数组分组,执行promise
  • reduce使用遇到的问题
  • 正则匹配html的元素内容
  • taro 小程序 弹窗层禁止底部滚动
  • 公众号签名问题
  • CentOS7中MariaDB重置密码
  • nginx多域名配置
  • node访问接口,得到乱码的结果,原因-Accept-Encoding
  • node写文件到json中
  • node抓取html内容
    • 需求
    • 分析
    • 解决
    • 代码
  • Node.js使用ES6语法
  • express 使用cors中间件解决跨域
  • node + express + session + redis 进行持久化缓存
  • node中读取文件夹,获取文件名称
  • pm2常用命令
  • 使用pm2管理后台node服务
  • typescript puppeteer支持window及document属性
  • node读取json文件
  • node中使用redis缓存
  • node + github的webhook完成自动部署
  • vuepress-blog的性能优化-CDN
  • CENTOS7下安装REDIS
  • promise then和catch的学习和使用
  • promise在循环中的串行并行用法
  • puppeteer常用知识
  • centos部署安装puppeteer
  • python的学习和使用
  • Taro+TypeScript - Mobx实践
  • 爬虫系列 --- 反爬机制和破解方法汇总
  • 安全-html转码
  • taro中使用animation动画
  • charles 使用
  • Mac下VSCode设置iTerm2终端样式
  • centos一步步完成站点部署
  • 云闪付做地铁的思路
  • 准备技能
  • 备案pc项目介绍
  • 备案小程序项目介绍
  • 小程序二维码扫码功能
  • 小程序域名组件开发
  • 小程序添加水印
  • 规则引擎优化
  • 记一次hooks代替redux的经历
  • 通过nodejs+koa+stream进行服务端图片代理
  • nodeJs接入log4j日志
  • nodejs+typescript项目中添加全局global属性
  • create-react-app 安装 bizcharts 项目崩溃
  • 使用MutationObserver监控dom的变化
  • 服务器重启后启动相关服务
  • moment国际化的问题
  • 项目经验
fangdown
2019-12-09
目录

node抓取html内容

# 需求

复制某一个网站内容,即html,页面html是通过服务端直接渲染

# 分析

分析目标网站

  • 服务端渲染, 页面元素一次性返回
  • 网站构成为jQuery+div+css
  • 页面url:http://www.lukuoyi.cn/tSNHMEHzsrK/?tid=820,tid测试,是逐渐增加,但不连续
  • 记得linux命令curl 访问一个链接,可返回该站的html,那么放在node中是否可行呢

# 解决

  • 经过测验,可以使用child_process开启子进程,使用 child_process发起执行命令exec,异步获取返回结果;
  • 通过判断是否有页面元素(title)判断该页是否为有效页面
  • 递归循环,在一定数量内把需要的id,html全部获取并通过流写入到文件中

# 代码

const fs = require('fs')
const path = require('path')
const child_process = require("child_process"); 

const lukuoyiTask = async () => {
  let id = 100
  let errorCount = 0
  const res = await getResponseHtml(id, errorCount)
  console.log(res)
}
async function getResponseHtml(id: number, errorCount: number){
  return new Promise(resolve => {
    const url = `curl http://www.lukuoyi.cn/tvQGvz2xtio/?tid=${id}`
    child_process.exec(url, function(err:any, stdout:any, stderr:any) {
      try{
        if(err){
          errorCount+=1
        }
        if(errorCount > 1000){
          resolve(`当前id:${id}, errorCount: ${errorCount}`)
          return false
        }
        const html = stdout
        var reg = /<div class="test_tit_t">(.*)<\/div>/
        let title
        if(reg.test(html)) {
          title = (RegExp.$1).trim(); // 获取匹配到的字符串
          title = title.replace(/[?/?]/, '')
        }
        if(!title){
          errorCount+=1
        } else{
          let ws = fs.createWriteStream(path.join(__dirname, `../../lukuoyi-data/${id}-${title}.html`))
          console.log(`${id}-${title}.html`)
          ws.write(html)
        }
        id+=1
        return getResponseHtml(id, errorCount)
      }catch(e){
        resolve(`error-当前id:${id}, errorCount: ${errorCount}`)
        console.log(e)
      }
    });
  })
#node
上次更新: 2021/12/19, 18:05:42
node写文件到json中
Node.js使用ES6语法

← node写文件到json中 Node.js使用ES6语法→

最近更新
01
多分支修复撞车的问题
05-01
02
如何成为架构师
01-23
03
服务器部署全过程
11-23
更多文章>
Theme by Vdoing | Copyright © 2019-2026 fangdown | 粤ICP备19079809号
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式