使用scrapy在没有javascript代码的情况下抓取文本 [英] Scraping text without javascript code using scrapy

查看：31 发布时间：2021/7/16 21:46:45 python xpath scrapy

本文介绍了使用scrapy在没有javascript代码的情况下抓取文本的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我目前正在使用scrapy设置一堆蜘蛛.这些蜘蛛应该从目标站点仅提取文本(文章、论坛帖子、段落等).

问题是:有时，我的目标节点包含一个 <script> 标签，因此抓取的文本包含 javascript 代码.

这是一个链接到我正在使用的真实示例.在这种情况下，我的目标节点是 //td[@id='contenuStory'].问题是在第一个子 div 中有一个


        
            相关文章
            
                    
                        
                            在不知道网页结构的情况下使用 Scrapy 抓取所有文本;
                        
                    
                    
                        
                            在没有 Javascript 的情况下使用 Google Analytics?;
                        
                    
                    
                        
                            在没有UIWebView的情况下运行JavaScript?;
                        
                    
                    
                        
                            在没有 CSS 的情况下更改颜色文本甘特图 google ( javascript );
                        
                    
                    
                        
                            如何使用MVVM在没有代码的情况下使用ManipulationDelta？;
                        
                    
                    
                        
                            在没有活动项目的情况下使用Scrapy爬行本地文件?;
                        
                    
                    
                        
                            在没有自动更正的情况下编辑文本;
                        
                    
                    
                        
                            如何在没有eval的情况下编写此JavaScript代码?;
                        
                    
                    
                        
                            JavaScript:在没有画布的情况下获取 ImageData;
                        
                    
                    
                        
                            在没有文件的情况下编译 C++ 代码;
                        
                    
                    
                        
                            sprintf 在没有 gsub 的情况下使用;
                        
                    
                    
                        
                            在没有 UITableView 的情况下使用 NSFetchedResultsController;
                        
                    
                    
                        
                            在没有框架的情况下使用 Swiftmailer;
                        
                    
                    
                        
                            在没有等待的情况下使用异步?;
                        
                    
                    
                        
                            在没有AndroidApplication的情况下使用LibGdx?;
                        
                    
                    
                        
                            在没有 Symfony 的情况下使用 Twig;
                        
                    
                    
                        
                            在没有MKMapView的情况下使用MKAnnotationView？;
                        
                    
                    
                        
                            在没有 SurfaceView 的情况下使用 Exoplayer;
                        
                    
                    
                        
                            在没有 MVC 的情况下使用 Razor;
                        
                    
                    
                        
                            在没有Eclipse的情况下使用CDT;
                        
                    
                    
                        
                            在没有 Packagist 的情况下使用 Composer;
                        
                    
                    
                        
                            在没有NodeJS的情况下使用EJS;
                        
                    
                    
                        
                            在没有Gson的情况下使用Volley;
                        
                    
                    
                        
                            在没有jquery的情况下创建元素后如何执行javascript代码?;
                        
                    
                    
                        
                            在没有浏览器的情况下执行 JavaScript?;


    
        
            Python最新文章
            
                    
                        
                            类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量;
                        
                    
                    
                        
                            bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？;
                        
                    
                    
                        
                            系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）;
                        
                    
                    
                        
                            （unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape;
                        
                    
                    
                        
                            将pandas dataframe中的列从int转换为string;
                        
                    
                    
                        
                            Python：由实例对象调用方法：“missing 1 required positional argument：'self'”;
                        
                    
                    
                        
                            Sparksql过滤与多个条件（与where子句中选择）;
                        
                    
                    
                        
                            JSONDe codeError：期待值：1行1列（CHAR 0）;
                        
                    
                    
                        
                            Cmake不能找到Python库;
                        
                    
                    
                        
                            Python  - 将Dataframe中的所有项目转换为字符串;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具

使用scrapy在没有javascript代码的情况下抓取文本 [英] Scraping text without javascript code using scrapy

问题描述

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭