传奇私服发布网_新开传奇网站发布_最全优秀单职业传奇私服发布平台_www.sf999.Com
新开传奇私服网站专注于服务广大新开传奇首区和复古传奇私服玩家,我们承诺全年无休,每天为您提供最新的新开传奇网站和传奇sf999信息。...
2025-01-03
News
News 是一个使用Node.js搭建的资讯搜索引擎,定时(per 2h)自动爬取各大资讯门户网站,并提供检索功能,对检索话题(关键词)进行热度、新鲜程度的反馈,并返回所有能找到的资讯。(如新浪资讯、网易资讯等,或某垂直领域权威性的网站如经济领域的雪球财经、东方财富等,或者体育领域的腾讯体育、虎扑体育等)
由于作者初涉js语言,为起练习作用,分为无框架、使用框架两个版本进行开发,对应分支和。无框架版本旨在深入理解体会Node.js语言的异步非阻塞特性,有框架版本着重于对服务层结构、服务层与视图层交互的理解。两个版本后端爬虫无区别。以下介绍以有框架版本为主。
[toc]
File
|--- bin/
||--- /
||--- .json
||--- -loick.json
|--- /
||--- css/
||--- fonts/
||--- img/
||--- js/
||--- /测试用的开发依赖项
||--- home.搜索主页
||--- news.资讯页面
|--- .sql数据库表
|--- mysql.js连接数据库模块
|--- .js爬虫:网易资讯
|--- .js爬虫:中国资讯网
|--- .js爬虫:新浪资讯
|--- app.js服务器
安装运行时依赖包:
npm install --save fs request cheerio iconv-lite date utils node-schedule mysql moment body-parser express express3-handlebars
安装开发时依赖包:
npm install --save-dev mocha
后端:
数据库使用MySQL,运行在本地3036端口;爬取数据的CRUD入口函数在mysql.js中定义;表名,如下:
经时两天左右,自动爬取得1.24K条资讯信息。数据总览:
服务层:
框架使用了较常见的;
前端:
考虑到已有html文件,视图引擎没有选用较流行的ejs、jade等,而是选择了,原因是语法上更贴近html语言,不必另行迁移。
Guide
开启MySQL服务
net start mysql
在sql shell中:
create database crawl; use crawl; create table `fetches` ( `id_fetches` int(11) NOT NULL AUTO_INCREMENT, `url` varchar(200) DEFAULT NULL, `source_name` varchar(200) DEFAULT NULL, `source_encoding` varchar(45) DEFAULT NULL, `title` varchar(200) DEFAULT NULL, `keywords` varchar(200) DEFAULT NULL, `author` varchar(200) DEFAULT NULL, `publish_date` date DEFAULT NULL, `crawltime` datetime DEFAULT NULL, `content` longtext, `createtime` datetime DEFAULT CURRENT_TIMESTAMP, PRIMARY KEY (`id_fetches`), UNIQUE KEY `id_fetches_UNIQUE` (`id_fetches`), UNIQUE KEY `url_UNIQUE` (`url`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8;
开启爬虫(在不同终端中):
npm crw_163.js npm crw_chinanews.js npm crw_sina.js
爬取会按照设定每2h进行,时间设定代码在crw*文件:
var rule = new schedule.RecurrenceRule(); var times = [1,3,5,7,9,11,13,15,17,19,21,23]; //第几个小时自动执行 var times2 = 01; //定义在第几分钟执行 rule.hour = times; rule.minute = times2;
可根据需要自行修改。
开启网页服务:
node app.js
浏览器访问 :3000/ 进入资讯检索页面。
Demo
无框架版本:
使用框架版本:
关于无框架版本编写时候的学习历程&具体代码细节,可移步博客。
坑边闲话:
近一年一直忙于学习与各种项目ddl,少有完整地整理某个项目的学习历程,实是惭愧。一则以为个人的笔记其实拙浅、比起无大的查询意义;二则,一些我想动笔写写的项目却是合作项目,对他人代码进行详解总需空闲,只对自己的部分详述又不美。
此处也能算一个开始,希望所有写过的代码踩过的坑都能被规整成历程吧。可以期待。
版权声明:本文内容由互联网用户自发贡献,本站不拥有所有权,不承担相关法律责任。如果发现本站有涉嫌抄袭的内容,请告知我们,本站将立刻删除涉嫌侵权内容。
相关文章
新开传奇私服网站专注于服务广大新开传奇首区和复古传奇私服玩家,我们承诺全年无休,每天为您提供最新的新开传奇网站和传奇sf999信息。...
2025-01-03
明确否认him存在,但是我们可以从一些蛛丝马迹中发现官方有说谎的可能性。就有细心的玩家,从这五个地方观察到了him存在,总共4个证据。...
2025-01-03
8条回答:【推荐答案】主公莫慌(手游)-新手奖励1.序列号:gsaq6617(官方)固定唯一,可重复激活无数新账号。2.奖励:3000绿钻,1000将魂,1紫将...
2025-01-03
网盘提取码: xawy帝国cms内核仿《新趣头条》娱乐游戏资讯网站源码,适合做电竞,娱乐,评测类的站点。利用模板改改可以轻松完成1个站点。不带安装教程...
2025-01-03
热评文章
2022年专属火龙之神途新版
1.80龙神合击传奇
1.76永恒小极品+5复古传奇
1.76双倍魔天大极品第三季单职业
1.76神梦传奇三职业
1.80聖统圣统合击三职业传奇