那么多门户，新闻类网站，内容都是哪里来的？比如腾讯 ...

acecase · 发表于 2023-2-21 19:04

感觉他们的新闻有那么多，如果每个新闻都是自己写的，人力支出岂不是是一个巨大的工程。所以我想问是不是他们通过爬虫技术抓过来的，还是通过其他技术实现的呢？
如果是抓回来的，又是怎么精准分类的呢？有些内容虽然主题内容一样，但是文字的描述却不一样，这又是怎么实现的呢？

xiaozongpeng · 发表于 2023-2-21 19:12

l 采集网站
【场景描述】采集腾讯新闻数据。
【源网站介绍】腾讯网从2003年创立至今，已经成为集新闻信息，区域垂直生活服务、社会化媒体资讯和产品为一体的互联网媒体平台。
【使用工具】前嗅ForeSpider数据采集系统，免费下载:ForeSpider免费版本下载地址
l 采集网站
【入口网址】https://new.qq.com/d/bj/
【采集内容】
采集腾讯网新闻的标题和正文内容。

【采集效果】如下图所示：

l 思路分析
配置思路概览：

l 配置步骤

1. 新建采集任务
选择【采集配置】，点击任务列表右上方【+】号可新建采集任务，将采集入口地址填写在【采集地址】框中，【任务名称】自定义即可，点击下一步。

2.获取翻页链接
此类翻页的翻页链接在页面请求中，需要先找到请求链接，然后用脚本拼出链接。具体操作步骤如下所示：
①在浏览器中打开页面后，点击F12，清空所有请求后，刷新页面。

②鼠标往下浏览新闻，会发现出现很多新闻，右侧也出现很多请求。观察请求，找出翻页请求链接。

将多个请求链接复制出来，观察链接规律：
https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=20&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=40&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
https://i.news.qq.com/trpc.qqnews_web.kv_srv.kv_srv_http_proxy/list?sub_srv_id=bj&srv_id=pc&offset=60&limit=20&strategy=1&ext={%22pool%22:[%22top%22],%22is_filter%22:10,%22check_type%22:true}
③观察发现请求链接中只有一个参数不同，分别为20、40、60，该参数规律为：翻页数*20，根据这一规律，使用脚本拼写翻页链接。选中链接抽取后，打开脚本窗口：

④写一个for循环来拼取翻页链接：

⑤脚本写完以后，点击保存，然后点击采集预览，即可看到拼好的链接。

3.抽取列表链接
①继续观察页面翻页请求中的源码内容，发现新闻内容在源码data后边的list后边的json串中。如下图所示：

②新闻列表链接的标题和新闻分别是每个对象的title和url值。

③回到ForeSpider系统中，新建一个链接抽取，并打开脚本界面，新建一个脚本：

④写脚本如下：

⑤保存脚本后，采集预览查看是否抽取成功。

4.抽取新闻数据
①新建一个抽取模板，在其下新建一个数据抽取，具体操作如下所示：

②数据建表，按照下图所示建数据表。（注意字段属性等应严格按照下图进行设置）

③将新建好的数据表，关联到模板中去，如下图所示:

④填写示例数据，采集预览，复制任意一条新闻链接。

⑤将链接粘贴到本模板示例地址中，并双击内置浏览器空白部分，加载本链接。

⑥关联模板

⑦数据取值
使用定位取值的方法，title字段如下所示：

Text字段如下所示：

⑧采集预览

l 采集步骤
模板配置完成，采集预览没有问题后，可以进行数据采集。
①建立数据表单：
选择【数据建表】，点击【表单列表】中该模板的表单，在【关联数据表】中选择【创建】，表名称自定义，这里命名为【tengxun】（注意命名不能用数字和特殊符号），点击【确定】。创建完成，勾选数据表，并点击右上角保存按钮。

②开始采集
选择【数据采集】，勾选任务名称，点击【开始采集】，则正式开始采集。

③导出数据
采集结束后，可以在【数据浏览】中，选择数据表查看采集数据，并可以导出数据。

④导出的文件打开如下图所示：

l 前嗅简介
前嗅大数据，国内领先的研发型大数据专家，多年来致力于为大数据技术的研究与开发，自主研发了一整套从数据采集、分析、处理、管理到应用、营销的大数据产品。前嗅致力于打造国内第一家深度大数据平台！

BlaXuan · 发表于 2023-2-21 19:20

一个新闻网站是如何做成的？ - 细雨的文章 - 知乎
https://zhuanlan.zhihu.com/p/38507773

FeastSC · 发表于 2023-2-21 19:25

新华网新华社新闻采集爬虫

人民网滚动新闻采集爬虫

RhinoFreak · 发表于 2023-2-21 19:30

一、研究背景

　　中国互联网信息中心第28次互联网调查显示，我国网民总数已经达到4.85亿人，是世界上网民最多的国家，其中网民网络新闻的使用率为74.7%，用户规模超过3.62亿[1]，网络新闻对社会有重大的影响。但与国外以具有传统媒体背景的新闻网站在互联网新闻传播中占主导地位不同的是，在我国，没有传统媒体背景的商业门户网站在网络新闻传播中占有优势地位[2]。
　　根据中国网站排名网的数据，刊登网络新闻的网站在国内综合排名前50名中有：腾讯(1)、新浪(3)、搜狐(4)、网易(6)、凤凰网(7)、新华网(21)、中华网(32)、中国网络电视台(41)、人民网(47)。商业门户的排名远远高于新闻网站。其中，腾讯三个月平均独立访问者人数是在新闻网站中综合排名第一的新华网独立访问者人数的12倍，可见两者差距之大[3]。
　　为了更好的管理网络新闻，国务院新闻办和原信息产业部在2000年年底颁布了《互联网站从事登载新闻业务管理暂行规定》，并在2005年修订为《互联网新闻信息服务管理规定》(以下简称《规定》)。其大体上将刊载新闻的网站分为新闻网站和商业网站两类：新闻网站是指新闻单位设立的刊载新闻信息、提供时政类电子公告服务、向公众发送时政类通讯信息的互联网新闻单位，新闻网站具有与原有媒体一样的新闻采编权;另一种则是非新闻单位设立的转载新闻信息、提供时政类电子公告服务、向公众发送时政类通讯信息的互联网新闻信息服务单位，实际上主要是指商业门户。
　　《规定》对商业门户网站要求较为严格，除了必要的备案、资金、办公场所、完善的规章制度和新闻编辑人员配置外，还对商业门户网站作了两点限制：一是转载新闻信息或者向公众发送时政类通讯信息，应当转载、发送中央新闻单位或者省、自治区、直辖市直属新闻单位发布的新闻信息，并应当注明新闻信息来源，不得歪曲原新闻信息的内容;二是不得登载自行采编的新闻信息。同时，该规定还对“新闻信息”一词作了限定，是指“时政类新闻信息，包括有关政治、经济、军事、外交等社会公共事务的报道、评论，以及有关社会突发事件的报道、评论”[4]。这使商业门户网站在传播新闻信息的活动中承担了两种角色：一是转载新闻时是官方认可的专业新闻机构;二是在刊载原创娱乐、体育、科技等新闻时，商业网站是民间业余新闻组织。商业网站既可制作非时政类新闻又无采访权的制度悖论，使得它兼具专业新闻机构和民间新闻机构的双重性质[5]。
二、调查方法

　　通过对目前互联网的观察，新浪网在国内网络新闻传播中影响力最大，而网易由于“无跟帖，不新闻”、“做有态度的新闻门户”等口号的提出，与新浪、腾讯、搜狐此类新闻网站有相当大的不同，并且在国内也具有相当大的影响力。因此，本文选取这新浪和网易作为主要的研究对象。另外，由于商业门户与新闻网站虽然性质不同，但是它们提供的新闻内容和服务都是基本相同，因此本文在此还将新闻网站中访问量最大的新华网作为参照。
　　通过观察与对比三家网站的栏目设计，本文以新浪网的栏目设计为蓝本，统计了各网站首页新闻、财经、军事、娱乐、体育、科技频道板块每天更新内容的来源。调查统计的时间为2011年8月29日～2011年9月7日间8个工作日。鉴于网络新闻更新主要时间为上午的特点，笔者以每天下午13︰00各网站首页显示的内容为准。
　　新闻来源以新闻页面中标示的新闻来源为准;统计的范围包括相应网站各频道位置的链接，包括图片链接和文字链接，但不包括仅以“图集”、“视频”为标题的链接;如果标题链接为新闻专题，则计该专题头条的新闻来源。
　　除了将所收集到得内容来源进行记录之外，本文将它们归为四个大类：转载新闻，转载于其他媒体的新闻，包括传统媒体和其他网络媒体;原创新闻，标明网站来源为网站自身的新闻，包括解读式的新闻专题;用户制作内容(User-generated content, UGC)，一般 “是指读者、听众、网民等以文字、图片、影像等形式，制作、发布、传播各种信息，传播与分享日记、知识、资讯、技术、体验和观点的内容等”[6];在这里指是由网民制作并发布、在被调查网站首页上每天呈现的内容，包括论坛帖子、博客和微博等;其他括没有标注新闻来源、链接为广告或商业活动等内容。
三、发现

　　通过对收集到的各网站链接内容来源的分析，发现无论是商业门户新浪、网易还是新华网，其原创新闻都接近全部内容的三分之一，并且新浪网与网易的原创率略高于新华网(表1)。新华网转载新闻比重最大，达到67.50%;在利用用户制作内容方面，新浪最多，新华网最少;新华网中没有标明来源或者链接为广告、活动的比例最少，网易最多。这表明即使商业网站被禁止自采新闻，但实际上商业网站的新闻原创率总体上已经高于具有新闻采访权的新闻网站。新浪、网易采用用户制作内容和没有标明来源较多(均超过10%)，新华网所采用的新闻来源更为规范。

表2是新浪、网易和新华网原创新闻在各频道分布的具体情况。从表中可以看出新浪的体育、娱乐和科技频道原创率很高，网易的体育、娱乐频道原创率较高，新华网的新闻与体育频道原创率较高。三大网站横向对比下，新浪与网易新闻频道的原创率远远低于新华网，新浪网与新华网在社会频道中的原创新闻都为0，新浪与网易的娱乐新闻原创率都超过了50%，三大网站的体育新闻原创率均较高。

根据调查发现，三大网站转载的新闻来源，分布最为广泛的是新浪网，总数为148家媒体(包括网站)，随后是网易(129)、新华网(128)。从被转载媒体的覆盖范围来看，新浪网的新闻来源来源于全国性媒体与来源于地方媒体的比重相当，而网易、新华网的新闻则多来自全国性媒体(表3)。在三大网站转载新闻的其他来源中，新浪和网易都存在着一定数量直接来自政府部门、机构和企业，而新华网这样的情况非常少。

按照地方媒体所属的区域进行分析发现，新浪网转载了国内26个省市自治区媒体的新闻、网易转载了19个地区的地方媒体，新华网转载了22个地区的媒体。新浪、网易所转载的地方媒体主要集中在北京、上海、广东;其中新浪转载的区域媒体份额超过5%的有北京(30%)、广东(14)%、上海(14%)、江苏(7%)，网易转载区域超过5%的有北京(34%)、上海(17%)、广东(12%)、重庆(6%)。新华网转载中超过5%份额的地区有广东(20%)、北京(19%)、江苏(10%)、四川(7%)、上海(7%)、辽宁(6%)、陕西(6%)、湖北(6%)、湖南(5%)。总体上看，新浪网转载新闻覆盖的区域最广、新华网较为均衡。但是被调查的三家网站都没有转载西藏、青海、内蒙古、吉林、甘肃、贵州以及澳门、台湾地区媒体的新闻。
　　从新浪、网易、新华网各自引用其他媒体排名前20名的情况看(不包括被调查的三家网站)，《京华时报》、《新京报》、《人民日报》、人民网和中国新闻网都位列其中。新浪网所引用的媒体最符合《规定》的要求，即为传统媒体或新闻网站;网易引用排名前二十的来源中有手机中国、中关村在线这样的垂直门户网站，这类网站原则上来说也没有新闻采访权，属于不合格的新闻来源;新华网引用排名前二十的来源中包括了新浪网、腾讯网、搜狐、雅虎等商业门户网站。
　　根据以上的数据，可以将这次调查的发现总结为以下几点：1.商业门户网站原创新闻的比重已经接近总量的三分之一，不低于新闻网站新闻原创率;2.商业门户网站原创新闻主要集中在体育、娱乐和科技方面，时政和社会新闻原创最少;3.商业门户网站新闻来源数量总体与中央重点新闻网站相当，但商业门户的新闻来源在区域上更为集中，无论是商业门户网站还是中央重点新闻网站，其所关注的区域都有盲点;4.商业门户网站直接将政府部门、机构和企业作为自己的新闻来源;5.商业门户网站成为新闻网站重要的新闻来源。
四、讨论：商业网站采访权是否应逐渐放开

　　从这次调查的数据中可以明显看出，政府对商业门户网站网络新闻的管理已经出现了一些空洞。特别对网络新闻采访权的限制，不仅没有有效阻止商业网站的原创新闻，而且在一定程度上将互联网新闻排除在了正常的新闻管理之外。
　　商业门户网站通过各种途径和方法自采新闻。一方面，商业网站建立自己的采编队伍。例如，在财经、科技、娱乐、体育等方面的报道上，新浪、网易、和讯网等都有自己的这些方面的新闻采编队伍。因为《规定》中的“新闻信息”是指“时政类新闻信息，包括有关政治、经济、军事、外交等社会公共事务的报道、评论，以及有关社会突发事件的报道、评论”，并没有限制财经、科技、娱乐、体育等新闻。另一方面，商业门户还通过其他途径获得采访权。
　　如在2006年意大利都灵冬奥会期间新浪网拿到了奥运会采访证;在国内2008年新浪网北美站拿到了奥运会的采访证，这意味着新浪网拥有了采访证。商业门户网站还通过与传统媒体或国外媒体合作变相获得采访权，如组成报道联盟，如网易、腾讯和多家报纸电视台在2008年奥运会期间组成了奥运报道联盟;在世博会期间也有类似的世博报道联盟等。通过组建报道联盟，商业网站获得了采访资格。
　　另外商业网站时常以网友互动、网友反馈等形式行新闻采访之实。这里非常典型的案例就是在世博会期间，商业门户网站都会有自己的“专访”或者“会客厅”，对世博会馆长、负责人等进行访谈，而且商业门户网站用户制作内容的采用比例比新华网高出许多。
　　在《规定》严格限制的时政新闻与社会新闻方面，商业门户网站基本上严格执行了不得采访的规定，但这并不是完全处于法律法规的外部压力所致。以“盈利”为第一目标的商业网站往往是“宁愿小心谨慎也不愿遭到政府惩罚”[7]，面对政治风险较大的时政新闻，商业网站宁愿只转载官方媒体的新闻承受同质化诟病，也不愿因政治错误导致不必要的商业风险。而社会新闻则是由于过于分散，商业网站自己采写的成本会远远高于从其他媒体购买新闻，因此也没有多少原创的动力。即使《规定》对商业网站时政和社会新闻不做限制，商业门户也不会在这两个方面有多少突破。
　　商业门户网站成新闻网站来源使得网络新闻转载出现“逆转”现象。根据《互联网新闻信息服务管理规定》商业网站只能够转载、发送中央新闻单位或者省、自治区、直辖市直属新闻单位发布的新闻信息，并应当注明新闻信息来源，不得歪曲原新闻信息的内容;不得登载自行采编的新闻信息。但是实际情况是，商业网站不仅自己采访、制作了新闻而且被官方所认可的新闻网站转载，这一过程实际上也将商业网站原创新闻合法化。
　　其他的商业网站如果转载了这一内容，实际上就是直接转载了商业网站的原创新闻。而且在科技频道，新浪、网易已经直接从一些垂直门户网站转载其原创内容，这些垂直门户也是商业性质，没有采访权。网络新闻的转载活动已经突破了《规定》所设计的从“新闻网站”到“商业网站”这一单向流程，而是呈现出各自之间互相转载的双向互动。
　　因此，《互联网新闻信息服务管理规定》虽然一定程度上规范了国内的网络新闻，但是它并没有完全达到预期的目标。目前商业网站这种兼具专业新闻机构和民间新闻机构的双重性质，反而时常导致国内网络新闻管理失序。因此已经有研究者呼吁逐步放开商业网站新闻采访权限制[8]，以便将商业网站新闻活动纳入到新闻法规的管理之下，本文也赞同这一观点。
　　从本次调查中笔者还发现，无论是商业网站还是新闻网站，它们都一定程度上忽略了一些“新闻贫瘠”的地区。除了由于政治原因之外，地理和经济条件可能是这些网站忽视它们的原因。笔者认为，商业网站自身没有动力、也没有义务去刊载这些地区的新闻，但是作为中央重点新闻网站则有必要去关注被商业门户忽视的地区。
　　另外，在调查过程中，笔者明显感觉出新闻网站有正在向商业网站靠拢的趋势，这在娱乐与体育频道最为明显。本文认为，在目前新闻网站仍然承担较重的宣传任务时，如果过于考虑经营，则可能会出现既没承担好宣传任务，又做不好经营的双输局面，新闻网站明确自身定位是问题的关键。（作者系：上海大学影视艺术技术学院硕士研究生）
__________转载自人民网

unityloverz · 发表于 2023-2-21 19:38

有些栏目是自己编的，有些栏目是爬虫爬的！以腾讯为例子，首页头条或者科技等栏目都是编辑编的，而腾讯教育频道就是爬虫爬的。当然，人工也会编一小部分进去，要不实在太水啦，爬虫不够智能，重复或者垃圾信息超级多！
当然，像凤凰网这块要做得好一些，基本上都是人编辑的，所以错别字非常多，如果你关注凤凰网你会发现，头条或者首页经常标题都有错误。
这些新闻源怎么来？很简单啦！全国几百万的记者，产生的内容是何等海量。爬虫抓取内容很容易，如何分类我就不是很清楚就不能给你解答啦！我们的信微 idacker 有很多这方面的知识，欢迎你关注哦！觉得不好取消订阅就好，也欢迎给我们提意见。

		自动登录	找回密码
密码			立即注册

那么多门户，新闻类网站，内容都是哪里来的？比如腾讯 ...

本帖子中包含更多资源

本帖子中包含更多资源