如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象? [英] How to extract a JSON object that was defined in a HTML page javascript block using Python?

查看：22 发布时间：2021/12/23 19:48:45 python html-parsing beautifulsoup headless-browser

本文介绍了如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象?的处理方法，对大家解决问题具有一定的参考价值，需要的朋友们下面随着小编来一起学习吧！

问题描述

我正在下载以下列方式定义了数据的 HTML 页面:

I am downloading HTML pages that have data defined in them in the following way:

... <script type= "text/javascript">    window.blog.data = {"activity":{"type":"read"}}; </script> ...

我想提取'window.blog.data'中定义的JSON对象.有没有比手动解析更简单的方法?(我正在研究 Beautiful Soap，但似乎无法找到一种无需解析即可返回确切对象的方法)

I would like to extract the JSON object defined in 'window.blog.data'. Is there a simpler way than parsing it manually? (I am looking into Beautiful Soap but can't seem to find a method that will return the exact object without parsing)

谢谢

使用 python 无头浏览器(例如 Ghost.py)执行此操作是否可能且更正确?

Would it be possible and more correct to do this with a python headless browser (e.g., Ghost.py)?

推荐答案

BeautifulSoup 是一个 html 解析器；您还需要一个 javascript 解析器.顺便说一句，某些 javascript 对象文字不是有效的 json(尽管在您的示例中文字也是有效的 json 对象).

BeautifulSoup is an html parser; you also need a javascript parser here. btw, some javascript object literals are not valid json (though in your example the literal is also a valid json object).

在简单的情况下，您可以:

In simple cases you could:

使用 html 解析器提取


        
            相关文章
            
                    
                        
                            如何提取在HTML页面中使用Python的JavaScript块中定义一个JSON对象？;
                        
                    
                    
                        
                            如何从HTML页面中提取文本块？;
                        
                    
                    
                        
                            如何使用JavaScript从JSON对象提取值;
                        
                    
                    
                        
                            在JavaScript中从HTML源代码提取JSON;
                        
                    
                    
                        
                            如何从 Python 中的 HTML 页面中提取 URL;
                        
                    
                    
                        
                            HTML页面加载，在javascript块上显示视频;
                        
                    
                    
                        
                            JSON分页结果显示在HTML/Javascript页面中;
                        
                    
                    
                        
                            如何使用python从html页面中提取多个值?;
                        
                    
                    
                        
                            从python beautifulsoup中的html中提取json;
                        
                    
                    
                        
                            在JavaScript块中的HTML评论？;
                        
                    
                    
                        
                            在 html 页面之间传递 javascript 对象;
                        
                    
                    
                        
                            使用C#从HTML页面提取JavaScript代码;
                        
                    
                    
                        
                            如何提取json对象内的json对象;
                        
                    
                    
                        
                            使用Python中的BeautifulSoup从HTML脚本标签中提取JSON;
                        
                    
                    
                        
                            使用Python从嵌套的JSON对象中提取数据;
                        
                    
                    
                        
                            如何使用jquery在HTML页面中显示json数据？;
                        
                    
                    
                        
                            如何使用html5数据属性将javascript对象或JSON存储在html元素中?;
                        
                    
                    
                        
                            如何使用BigQuery提取JSON对象中的所有键;
                        
                    
                    
                        
                            如何使用 BigQuery 提取 JSON 对象中的所有键;
                        
                    
                    
                        
                            如何提取部分HTML页面;
                        
                    
                    
                        
                            使用javascript提取页面标题;
                        
                    
                    
                        
                            如何检查提取的响应是否是javascript中的json对象;
                        
                    
                    
                        
                            块在不同宽度的html页面中的原始;
                        
                    
                    
                        
                            如何使用python提取JSON中的特定多个值?;
                        
                    
                    
                        
                            使用PHP的DOM提取HTML页面;


    
        
            Python最新文章
            
                    
                        
                            类型错误：只有长度为1的阵列可以尝试拟合指数的数据转换到Python标量;
                        
                    
                    
                        
                            bs4.FeatureNotFound：找不到一棵树建设者您所要求的功能：LXML。你需要安装一个解析器库？;
                        
                    
                    
                        
                            系列的真值是不明确的。使用a.empty，a.bool（），a.item（），a.any（）或a.all（）;
                        
                    
                    
                        
                            （unicode错误）'unicodeescape'编解码器无法解码位置2-3中的字节：truncated \UXXXXXXXX escape;
                        
                    
                    
                        
                            将pandas dataframe中的列从int转换为string;
                        
                    
                    
                        
                            Python：由实例对象调用方法：“missing 1 required positional argument：'self'”;
                        
                    
                    
                        
                            Sparksql过滤与多个条件（与where子句中选择）;
                        
                    
                    
                        
                            JSONDe codeError：期待值：1行1列（CHAR 0）;
                        
                    
                    
                        
                            Cmake不能找到Python库;
                        
                    
                    
                        
                            Python  - 将Dataframe中的所有项目转换为字符串;
                        
                    
            
        
        
            
                热门教程
            
            
                
                    
                        Java教程
                    
                
                
                    
                        Apache ANT 教程
                    
                
                
                    
                        Kali Linux教程
                    
                
                
                    
                        JavaScript教程
                    
                
                
                    
                        JavaFx教程
                    
                
                
                    
                        MFC 教程
                    
                
                
                    
                        Apache HTTP客户端教程
                    
                
                
                    
                        Microsoft Visio 教程
                    
                
            
        
        
            
                热门工具
            
            
                
                
                    
                        Java 在线工具
                    
                
                
                    
                        C(GCC) 在线工具
                    
                
                
                    
                        PHP 在线工具
                    
                
                
                    
                        C# 在线工具
                    
                
                
                    
                        Python 在线工具
                    
                
                
                    
                        MySQL 在线工具
                    
                
                
                    
                        VB.NET 在线工具
                    
                
                
                    
                        Lua 在线工具
                    
                
                
                    
                        Oracle 在线工具
                    
                
                
                    
                        C++(GCC) 在线工具
                    
                
                
                    
                        Go 在线工具
                    
                
                
                    
                        Fortran 在线工具

如何使用 Python 提取在 HTML 页面 javascript 块中定义的 JSON 对象? [英] How to extract a JSON object that was defined in a HTML page javascript block using Python?

问题描述

推荐答案

相关文章

Python最新文章

热门教程

热门工具

登录 关闭

登录关闭