php如何實現驗證碼的識別
來源:懂視網
責編:小采
時間:2020-11-02 18:25:36
php如何實現驗證碼的識別
php如何實現驗證碼的識別:php實現驗證碼識別的方法:首先將圖片二值化,并將值保存到二維數組里;然后通過循環,求出每一個數字的位置;接著計算出數字在二維數組里的位置,并拼接數字;最后將字符串與每一個字模的字符串進行比較識別即可。推薦:《PHP視頻教程》但是原文的介紹比較簡
導讀php如何實現驗證碼的識別:php實現驗證碼識別的方法:首先將圖片二值化,并將值保存到二維數組里;然后通過循環,求出每一個數字的位置;接著計算出數字在二維數組里的位置,并拼接數字;最后將字符串與每一個字模的字符串進行比較識別即可。推薦:《PHP視頻教程》但是原文的介紹比較簡
php實現驗證碼識別的方法:首先將圖片二值化,并將值保存到二維數組里;然后通過循環,求出每一個數字的位置;接著計算出數字在二維數組里的位置,并拼接數字;最后將字符串與每一個字模的字符串進行比較識別即可。

推薦:《PHP視頻教程》
但是原文的介紹比較簡單,而且沒提到算法的具體實現過程。詳細過程轉自:
http://www.poboke.com/study/php-verification-code-identification-primary.html
所以本文以一個實際例子來演示php識別驗證碼的過程,并提交驗證碼到服務器驗證。
第一部分:驗證碼的識別
近期研究一些突破驗證碼方面的知識,記錄下來。一方面算是對這幾天學習知識的總結幫助自己理解;另一方面希望對研究這方面的技術同學有所幫助;另外也希望引起網站管理者的注意,在提供驗證碼時多些考慮進去。由于剛剛接觸這方面的知識,理解比較淺顯,有錯誤再所難免,歡迎拍磚。
驗證碼的作用:有效防止某個黑客對某一個特定注冊用戶用特定程序暴力破解方式進行不斷的登陸嘗試。其實現代的驗證碼一般是防止機器批量注冊的,防止機器批量發帖回復。目前,不少網站為了防止用戶利用機器人自動注冊、登錄、灌水,都采用了驗證碼技術。
所謂驗證碼,就是將一串隨機產生的數字或符號,生成一幅圖片,圖片里加上一些干擾象素(防止OCR),由用戶肉眼識別其中的驗證碼信息,輸入表單提交網站驗證,驗證成功后才能使用某項功能。
我們最常見的驗證碼:
1、四位數字,隨機的一數字字符串,最原始的驗證碼,驗證作用幾乎為零。
2、隨機數字圖片驗證碼。圖片上的字符比較中規中矩,有的可能加入一些隨機干擾素,還有一些是隨機字符顏色,驗證作用比上一個好。沒有基本圖形圖像學知識的人,不可破!
3、各種圖片格式的隨機數字+隨機大寫英文字母+隨機干擾像素+隨機位置。
4、漢字是注冊目前最新的驗證碼,隨機生成,打起來更難了,影響用戶體驗,所以,一般應用的比較少。
簡單起見,我們這次說明的主要對象是第1種類型的,我們先看幾種網上比較常見的驗證碼圖片。 
這四種樣式,基本上能代表2中所提到的驗證碼類型,初步看起來第一個圖片最容易破解,第二個次之,第三個更難,第四個最難。
真實情況呢?其實這三種圖片破解難度相同。
第一個圖片,最容易,圖片背景和數字都使用相同的顏色,字符規整,字符位置統一。本篇文章,就一這種類型驗證碼為例說明,其它的圖片,同學們自己搞。
第二個圖片,看似不容易,其實仔細研究會發現其規則,背景色和干擾素無論怎么變化,驗證字符字符規整,顏色相同,所以排除干擾素非常容易,只要是非字符色素全部排除即可。
第三個圖片,看似更復雜,處理上面提到背景色和干擾素一直變化外,驗證字符的顏色也在變化,并且各個字符的顏色也各不相同。
第四個圖片,除了第三個圖片上提到的特征外,又在文字上加了兩條直線干擾率,看似困難其實,很容易去掉。
下面以萬網的“通用網址查詢”來說明驗證碼的識別過程。
打開萬網:http://www.net.cn ,網站右邊側邊欄有一個“通用網址查詢”:

可以看出,這是第一種驗證碼,為了讓人眼能夠識別出數字,所以驗證碼圖片的數字顏色和背景顏色的色差是比較大的,所以其RBG值也相差很大,可以通過判斷每個像素的RGB值來區分數字和背景。
驗證碼識別一般分為以下幾個步驟:
一、取出字模
識別驗證碼,畢竟不是專業的OCR識別,并且,由于各個網站的驗證碼各不相同,所以,最常見的方法就是就是建立這個驗證碼的特征碼庫。去字模時,我們需要多下載幾張圖片,使這些圖片中,包括所有的字符,我們這里的圖片里只有數字,所以,只要收集到包括0-9的數字圖片即可。
1、多刷新幾次驗證碼,將驗證碼圖片保存起來,要搜集齊0-9的圖片。

2、用圖片處理軟件打開圖片,我用的是Fireworks,按住ctrl+8可以將圖片的視圖放大8倍,這樣就能很清楚地觀察到圖片的每個像素。

可以發現,每個數字的寬是6px,高是10px,數字的間隔是4px,第一個數字左邊偏移了2px,頂部偏移了0px。這些數字后面都是要用到的。
3、將每個數字截出來保存為圖片,大小為6*10。

二、圖片二值化
二值化就是把圖片上的驗證數字上每個象素用數字1表示,其它部分用0表示。把要識別的圖片,進行二值化,將數據保存到二維數組里,得到圖片特征數組。
1、首先要將數字和背景色和干擾色區分開來,用屏幕取色器觀察顏色的規律。

可以得出一個結論:背景顏色的R、G、B值都是大于200的,而數字的顏色的R、G、B值的某一項有可能小于200,因此可以很容易區分。
2、下面的php代碼只是為了演示二維數組,為了直觀看出數字,所以把1和0改為了0和-: