Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537 Warning: error_log(/data/www/wwwroot/hmttv.cn/caches/error_log.php): failed to open stream: Permission denied in /data/www/wwwroot/hmttv.cn/phpcms/libs/functions/global.func.php on line 537
數據能夠打印到pdf文件,當然可以打印到紙張,而且使用qprinter默認就是打印到紙張的,上一篇文章寫得功能是打印到pdf,其實還要單獨特殊設置打印到文件,并指定格式為pdf。不指定輸出文件和格式默認就是打印到紙張,關于Qt打印內容到紙張,網上的辦法非常多,比如有些直接用painter繪制,逐步控制分頁打印,個人還是喜歡html格式的內容傳入,因為html格式相當靈活,可控范圍相當大,而且整齊,甚至可以先直接輸出到網頁預覽下效果,根據需求調整,后面的圖文混排就是用的html+table實現的,如果不需要邊框可以設置邊框粗細為0,其實還是表格,但是看起來像文檔一樣。
數據打印基本步驟:
1. 準備好要打印的數據。
2. 實例化QPrinter對象。
3. 設置輸出格式setOutputFormat(QPrinter::NativeFormat)。
4. 彈出打印預覽對話框QPrintPreviewDialog。
5. 關聯信號槽在槽函數中繪制內容。
6. 實例化文檔對象QTextDocument。
7. 將內容作為html設置到文檔對象。
8. 調用文檔對象的print方法傳入QPrinter對象打印。
結構體支持的參數:
- 文件名稱
- 表名
- 主標題
- 副標題
- 字段名稱集合
- 字段寬度集合
- 內容集合
- 行內容分隔符
- 子內容分隔符
- 邊框寬度
- 校驗列
- 校驗類型
- 校驗值
- 檢驗顏色
- 最后列拉伸填充
- 橫向排版
- 紙張邊距
1. 組件同時集成了導出數據到csv、xls、pdf和打印數據。
2. 所有操作全部提供靜態方法無需new,數據和屬性等各種參數設置采用結構體數據,極為方便。
3. 同時支持QTableView、QTableWidget、QStandardItemModel、QSqlTableModel等數據源。
4. 提供靜態方法直接傳入QTableView、QTableWidget控件,自動識別列名、列寬和數據內容。
5. 每組功能都提供單獨的完整的示例,注釋詳細,非常適合各階段Qter程序員。
6. 原創導出數據機制,不依賴任何office組件或者操作系統等第三方庫,支持嵌入式linux。
7. 速度超快,9個字段10萬行數據只需要2秒鐘完成。
8. 只需要四個步驟即可開始急速導出海量數據比如100W條記錄到Excel。
9. 同時提供直接寫入數據接口和多線程寫入數據接口,不卡主界面。
10. 可設置標題、副標題、表名。
11. 可設置導出數據的字段名、列名、列寬。
12. 可設置末尾列自動拉伸填充,默認拉伸更美觀。
13. 可設置是否啟用校驗過濾數據,啟用后符合規則的數據特殊顏色顯示。
14. 可指定校驗的列、校驗規則、校驗值、校驗值數據類型。
15. 校驗規則支持 精確等于==、大于>、大于等于>=、小于<、小于等于<=、不等于!=、包含contains。
16. 校驗值數據類型支持 整型int、浮點型float、雙精度型double,默認文本字符串類型。
17. 可設置隨機背景顏色及需要隨機背景色的列集合。
18. 支持分組輸出數據,比如按照設備分組輸出數據,方便查看。
19. 可設置csv分隔符、行內容分隔符、子內容分隔符。
20. 可設置邊框寬度、自動填數據類型,默認自動數據類型開啟。
21. 可設置是否開啟數據單元格樣式,默認不開啟,不開啟可以節約大概30%的文件體積。
22. 可設置橫向排版、紙張邊距等,比如導出到pdf以及打印數據。
23. 支持圖文混排導出數據到pdf以及打印數據,自動分頁。
24. 靈活性超高,可自由更改源碼設置對齊方式、文字顏色、背景顏色等。
25. 支持任意excel表格軟件,包括但不限于excel2003-2021、wps、openoffice等。
26. 純Qt編寫,支持任意Qt版本+任意編譯器+任意系統。
1. 體驗地址:[https://pan.baidu.com/s/1ZxG-oyUKe286LPMPxOrO2A](https://pan.baidu.com/s/1ZxG-oyUKe286LPMPxOrO2A) 提取碼:o05q 文件名:bin_dataout.zip
2. 國內站點:[https://gitee.com/feiyangqingyun](https://gitee.com/feiyangqingyun)
3. 國際站點:[https://github.com/feiyangqingyun](https://github.com/feiyangqingyun)
4. 個人主頁:[https://blog.csdn.net/feiyangqingyun](https://blog.csdn.net/feiyangqingyun)
5. 知乎主頁:[https://www.zhihu.com/people/feiyangqingyun/](https://www.zhihu.com/people/feiyangqingyun/)
<!DOCTYPE html>
<html>
<head>
<!-- 插入外部樣式表 -->
<link rel="stylesheet" type="text/css" href="style.css">
<title>title</title>
</head>
<body>
<h1>啦啦啦</h1>
<p>我是賣報的小行家</p>
</body>
</html>
標題
<h1>一級標題</h1>
<h2>二級標題</h2>
<h3>三級標題</h3>
<h4>四級標題</h4>
<h5>五級標題</h5>
<h6>六級標題</h6>
<hr/>創建水平線,分割內容
<!-- 注釋 -->
段落
<p>段落</p>
<br/>折行
鏈接
<a target="_blank">This is my blog</a>
target="_blank" 在新窗口打開文檔
<a name="label">錨</a> #也可以用id屬性替代MAME屬性
建立錨了,可以在其他地方創建指向這個錨的鏈接
- 同一頁面
<a href="#lable">xxxx</a>
- 其他頁面
<a >xxxxx</a>
(Q這個鏈接是怎么確定的呢)
圖片
<img src="dora.jpg" alt="https://liheyuting.github.io/" width="" height="">
- 背景圖片
<body background="http://"
- 排列圖片
<img src="" align="botton(/middle/top)"
- 浮動圖片
<img src="http://" align="left(/fight)"
- 增加圖片鏈接
在<img> 前后加上
<a ></a>
按鈕
<botton>click</botton>
列表
<ul> #unorder list 無序列表
<li>a</li>
<li>b</li>
</ul>
<ol> #order list 有序列表
- 定義列表
<dl>
<dt>1111</dt>
<dd>2222</dd>
<dt>3333</dt>
<dd>4444</dd>
定義列表的列表項內部可以使用段落、換行符、圖片、鏈接以及其他列表等
(Q這個不是太明白)
dl 定義定義列表
dt 定義定義項目
dd 定義定義的描述
- 嵌套列表
多加幾層
(Q css時多了解下)
class 規定元素的類名
id 元素的唯一id
style inline style 行內樣式
title 規定元素的額外信息
文本標簽
<b> 粗體
<big> 大號字
<em> 著重文字
<i> 斜體
<small> 小號字
<strong> 加重語氣
<sub> 定義下標字
<sup> 定義上標字
<ins> 增加下劃線
<del> 增加刪除線
引用
<q> 短引用
<blockquote> 長引用
<abbr> 定義縮寫
<dfn> 定義項目或縮寫的定義
<address> 定義文檔或文章的聯系方式/作者(通常斜體顯示,大多數瀏覽器在此元素前后折行)
<cite> 定義著作的標題(斜體顯示)
表格
- 表格
<table border='1'>
<tr>
<td> row 1, cell 1</tr>
<td> row 1, cell 2</tr>
</tr>
<tr>
<td> row 2, cell 1</tr>
<td> row 2, cell 2</tr>
</tr>
</table>
#table 定義表格
#tr 若干行
#td table data 表格數據
- 邊框屬性
border
- 表頭
<th>heading</th>
#th table heading
- 空單元格
<td> </td>
- 跨行跨列
colspan
eg <th colspan="2"></th>
rowspan
eg <th rowspan="2"></th>
- 表格內的標簽
(比如實現圖片一塊塊)
- 單元格邊距(cell padding)
<table cellpadding="10"></table>
- 單元格間距(cell spacing)
<table cellspacing="10"></table>
- 背景顏色或圖片
<table bgcolor="blue"></table>
or (background='//')
- 表格內排列內容對齊
align="left(/right)"
- frame 外框
frame=""
box 四面鐵框
above 頭頂有框
below 腳下有框
hsides 上頭下頭被框
vsides 兩邊有框
塊
<div> 在CSS里設置樣式屬性
可用于文檔布局
<span> 為部分文本設置樣式屬性
類
類-塊-行
(Q這塊有點疑問,id, name, class相關)
布局
- header 頁眉
- nav 導航鏈接的容器
- section 定義文檔中的節
- article 定義獨立的自包含文章
- aside 定義內容之外的內容(比如側欄)
- footer 定義文檔或節的頁腳
- details 定義額外的細節
- summary 定義details 元素的標題
(detail/article/summary Q下次注意下)
響應式web設計
(Q雖然現在還不懂,最好要有印象,以后再回頭看)
RWD響應式web設計(responsive web design)
- 自己創建
在head中<style>中設置
- Bootstrap
(Q之后學)
使用現成的CSS框架
在head中加入:
<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="stylesheet"
href="http:////">
內聯框架
<iframe src="http://"(width="" height="" frameborder="0")></iframe>
- 作為連接的目標時
加入name屬性
name=""
腳本
(Q之后學)
”假設6個月之后的你在教現在的你學習“
”強迫輸出促進輸入“
整理過程是一個復習的過程,雖然離現在實質工作內容相差千萬,還應起項目直接實操才好。
稍加整理,如有錯誤或者其他的建議,還請不吝賜教,萬分感謝。
HTML
種反爬蟲手段被廣泛應用在一線互聯網企業的產品中,例如汽車資訊類網站、小說類網站等文字密度較大的站點。在開始學習之前,我們先來看看具體的現象。打開網址:
https://implicit-style-css_0.crawler-lab.com
復制代碼
呈現在我們眼前的是這樣一個界面:
這次的任務,就是拿到頁面上所呈現的內容的文本。在編寫爬蟲代碼之前,我們要做幾件事:
其實就是最基本的觀察和分析。
網絡請求方面,打開瀏覽器調試工具并切換到 Network 面板后,看到頁面只加載了 2 個資源:
一個 html 文檔和一個 js 文件,想必我們要的內容就在 html 文檔中。點擊該請求,瀏覽器開發者工具就會分成兩欄,左側依然是請求記錄列表,右側顯示的是指定請求的詳情。右側面板切換到 Response,就可以看到服務器響應的內容:
看樣子,我們要的東西就在這次響應正文中。咋一看,我們直接取 class 為 rdtext 的 div 標簽下的 p 標簽中的文本內容即可。然而事情并沒有那么簡單,細心的讀者可能發現了,響應正文中顯示的內容和頁面中呈現的文字并不完全相同——響應正文中少了一些標點符號和文字,多了一些 span 標簽。例如頁面中顯示的是:
夜幕團隊 NightTeam 于 2019 年 9 月 9 日正式成立,團隊由爬蟲領域中實力強勁的多名開發者組成:崔慶才、周子淇、陳祥安、唐軼飛、馮威、蔡晉、戴煌金、張冶青和韋世東。
復制代碼
而響應正文中看到的是:
<p>夜幕團隊 NightTeam 于 2019 年 9 月 9 日正式成立<span class="context_kw0"></span>團隊由爬蟲領域中實力強勁<span class="context_kw1"></span>多<span class="context_kw21"></span>開發者組成:崔慶才、周子淇、陳祥安、唐軼飛、馮威、蔡晉、戴煌金、張冶青和韋世東<span class="context_kw2"></span>
</p>
復制代碼
這句話中,被 span 標簽替代的有逗號、的字、名字。整體看一遍,發現這些 span 標簽都帶有 class 屬性。
明眼人一看就知道,又是利用了瀏覽器渲染原理做的反爬蟲措施。不明所以的讀者請去翻閱《Python3 反爬蟲原理與繞過實戰》。
既然跟 span 和 class 有關,那我們來看一下 class 屬性到底設置了什么。class 名為 context_kw0 的 span 標簽樣式如下:
.context_kw0::before {
content: ",";
}
復制代碼
再看看其他的,class 屬性為 context_kw21 的 span 標簽樣式如下:
.context_kw21::before {
content: "名";
}
復制代碼
原來被替換掉的文字出現在這里!看到這里,想必聰明的你也知道是怎么回事了!
解決這個問題的辦法很簡單,只需要提取出 span 標簽 class 屬性名稱對應的 content 值,然后將其恢復到文本中即可。
屬性名有個規律:context_kw + 數字。也就是說 context_kw 有可能是固定的,數字是循環出來的,或者是數組中的下標?大膽猜想一下,假設有這么一個字典:
{0: ",", 1: "的", 21: "名"}
復制代碼
那么將 context_kw 與字典的鍵組合,就得到了 class 的名稱,對應的值就作為 content,這好像很接近了。中高級爬蟲工程師心中都明白:在網頁中,能干出如此之事唯有借助 JavaScript。不明白的讀者請去翻閱《Python3 反爬蟲原理與繞過實戰》。
那就搜一下吧!
喚起瀏覽器調試工具的全局搜索功能,輸入 context_kw 并會車。然后在搜索結果中尋找看上去有用的信息,例如:
發現 JavaScript 代碼中出現了 context_kw,關鍵的信息是 .context_kw + i + _0xea12('0x2c')。代碼還混淆了一下!看不出的讀者可以找作者韋世東報名《JavaScript 逆向系列課》,學完就能夠很快找到看上去有用的代碼,并且看懂代碼的邏輯。
這里手把手帶讀一下這些 JavaScript 代碼。第一段,也就是 977 行代碼原文如下:
var _0xa12e=['appendChild', 'fromCharCode', 'ifLSL', 'undefined', 'mPDrG', 'DWwdv', 'styleSheets', 'addRule', '::before', '.context_kw', '::before{content:\x20\x22', 'cssRules', 'pad', 'clamp', 'sigBytes', 'YEawH', 'yUSXm', 'PwMPi', 'pLCFG', 'ErKUI', 'OtZki', 'prototype', 'endWith', 'test', '8RHz0u9wbbrXYJjUcstWoRU1SmEIvQZQJtdHeU9/KpK/nBtFWIzLveG63e81APFLLiBBbevCCbRPdingQfzOAFPNPBw4UJCsqrDmVXFe6+LK2CSp26aUL4S+AgWjtrByjZqnYm9H3XEWW+gLx763OGfifuNUB8AgXB7/pnNTwoLjeKDrLKzomC+pXHMGYgQJegLVezvshTGgyVrDXfw4eGSVDa3c/FpDtban34QpS3I=', 'enc', 'Latin1', 'parse', 'window', 'location', 'href', '146385F634C9CB00', 'decrypt', 'ZeroPadding', 'toString', 'split', 'length', 'style', 'type', 'setAttribute', 'async', 'getElementsByTagName', 'NOyra', 'fgQCW', 'nCjZv', 'parentNode', 'insertBefore', 'head'];
(function (_0x4db306, _0x3b5c31) {
var _0x24d797=function (_0x1ebd20) {
while (--_0x1ebd20) {
_0x4db306['push'](_0x4db306['shift']());
}
};
復制代碼
往下延伸閱讀,還能看到 CryptoJS 這個詞,看到它就應該曉得代碼中使用了一些加密解密的操作。
第二段,1133 行代碼原文如下:
for (var i=0x0; i < words[_0xea12('0x18')]; i++) {
try {
document[_0xea12('0x2a')][0x0][_0xea12('0x2b')]('.context_kw' + i + _0xea12('0x2c'), 'content:\x20\x22' + words[i] + '\x22');
} catch (_0x527f83) {
document['styleSheets'][0x0]['insertRule'](_0xea12('0x2d') + i + _0xea12('0x2e') + words[i] + '\x22}', document[_0xea12('0x2a')][0x0][_0xea12('0x2f')][_0xea12('0x18')]);
}
}
復制代碼
這里循環的是 words,然后將 words 元素的下標和對應元素組合,這和我們猜想的是非常接近的,現在要找到 words。
怎么找?
又不會嗎?
搜索就可以了,順著搜索結果看,找到了定義 words 的代碼:
var secWords=decrypted[_0xea12('0x16')](CryptoJS['enc']['Utf8'])[_0xea12('0x17')](',');
var words=new Array(secWords[_0xea12('0x18')]);
復制代碼
按照這個方法,我們最后發現 CSS 的 content 的內容都是數組 _0xa12e 中一個經過加密的元素先經過 AES 解密再經過一定處理后得到的值。
捋清楚邏輯之后,就可以開始摳出我們需要的 JS 代碼了。
這個代碼雖然經過混淆,但還是比較簡單的,所以具體的摳代碼步驟就不演示了,這里提示一下在摳出代碼之后兩個需要改寫的點。
第一個是下圖中的異常捕獲,這里判斷了當前的 URL 是否為原網站的,但調試時,在 Node 環境下執行是沒有 window 對象、document 對象的,如果不做修改會出現異常,所以需要把帶有這些對象的代碼注釋掉,例如下面 if 判斷語句:
try {
if (top[_0xea12('0x10')][_0xea12('0x11')][_0xea12('0x12')] !=window[_0xea12('0x11')]['href']) {
top['window'][_0xea12('0x11')]['href']=window[_0xea12('0x11')][_0xea12('0x12')];
}
復制代碼
其他的地方還需要自己踩坑。
修改完后就可以獲取到所有被替換過的字符了,接下來只需要把它們替換進 HTML 里就可以還原出正常的頁面,replace 就不演示了噢。
例子中用到的是 ::before,下方文字描述了它的作用:
在 CSS 中,::before 用于創建一個偽元素,其將成為匹配選中的元素的第一個子元素。常通過 content 屬性來為一個元素添加修飾性的內容。
引用自:developer.mozilla.org/zh-CN/docs/…
舉個例子,新建一個 HTML 文檔,并在里面寫上如下內容:
<q>大家好,我是咸魚</q>,<q>我是 程序員中的一員</q>
復制代碼
然后為 q 標簽設置樣式:
q::before {
content: "?";
color: blue;
}
q::after {
content: "?";
color: red;
}
復制代碼
完整代碼如下(寫給沒有 HTML 基礎的朋友):
<style>
q::before {
content: "?";
color: blue;
}
q::after {
content: "?";
color: red;
}
</style>
<q>大家好,我是咸魚</q>,<q>我是 程序員中的一員</q>
復制代碼
我們在樣式中,為 q 標簽加上了 ::before 和 ::after 屬性,并設置了 content 和對應的顏色。于是乎,在被q 標簽包裹著的內容前會出現藍色的 《 符號,而后面會出現紅色的 》 符號。
簡單易懂吧!
本文簡單介紹了隱式 Style–CSS 在反爬蟲中的應用,并通過一個簡單的實例學習了如何應對這種情況,相信嘗試過的你已經清楚地知道下次碰到這種反爬的時候該如何破解了。
當然呢,這個例子還不夠完善,沒有完全覆蓋到隱式 Style–CSS 在反爬蟲中的所有應用方式,如果讀者朋友對這類反爬蟲有興趣的話,不妨多找幾個例子自己動手試試,也歡迎通過留言區與我交流討論。
最后,小編想說:我是一名python開發工程師,
整理了一套最新的python系統學習教程,
想要這些資料的可以關注私信小編“01”即可(免費分享哦)希望能對你有所幫助
*請認真填寫需求信息,我們會在24小時內與您取得聯系。