[ PhotoHash ] 利用 PhotoHash篩選相似度過高的圖像
子瑜在這部影片中,前 14秒幾乎沒有任何的動作。
若用 "利用 Dlib進行臉部捕捉" 該文中提供的程式碼,這 14秒的影片大約會擷取300多張的圖像。
用這筆數據訓練後,可能會導致權重失衡。
為了避免權重失衡影響辨識結果,有必要對圖像進行一些篩選。
用爬蟲爬取圖片的時候也容易爬到不同出處但卻是同一張照片,這麼做也很方便呦。
Hamming distance可以作為數據差異度的基準,詳細可以到維基百科了解一下。
對於圖像差異度的比較,Python也有一套 Library叫 PhotoHash可以幫忙比較圖像的差異。
先計算整張圖像的平均 Hash值後,再計算 Hamming distance。
import os import glob import photohash def filter(member): img_list = glob.glob('./{0}/*.png'.format(member)) # def order_by_num(num): # return int(num.split('/')[-1].split('.')[0]) # img_list.sort(key=order_by_num) img_list.sort(key=lambda num: int(num.split('/')[-1].split('.')[0])) for img in img_list: hash_one_path = img hash_one = photohash.average_hash(hash_one_path) if 'hash_two' in locals(): distance = photohash.hash_distance(hash_one, hash_two) if distance <= 2: if not os.path.isdir("./{0}/similar".format(member)): os.system("mkdir ./{0}/similar".format(member)) print("make dir ./{0}/similar".format(member)) os.system("mv {0} ./{1}/similar".format(hash_one_path, member)) print("move {0} to {1}".format(hash_one_path, member)) continue hash_two = hash_one names = ["Nayeon", "Jeongyeon", "Momo", "Sana", "Jihyo", "Mina", "Dahyun", "Chaeyoung", "Tzuyu"] for member in names: filter(member)最近發現可以用 glob來取代之前文章用的 os.walk,使用起來更加簡單。
之前的文章中,將捕捉的圖像利用 1.png, 2.png, 3.png...這樣的順序儲存。
但無論用 glob或 os.walk都會面臨一樣的問題,就是讀取時,數字並不會連續,顯示如下
['./Tzuyu/1.png', './Tzuyu/10.png', './Tzuyu/100.png', './Tzuyu/1000.png', './Tzuyu/1001.png', './Tzuyu/1002.png', ...]
但影片是連續性的,有必要按照順序讀取來比較,因此需要使用 sort()來重新排列。
擔心有些人看不懂,所以另外寫了幾行被註解的代碼。功能和有 lambda那行是一樣的。
接著就是計算平均 Hash值,和下一個張圖做比較,distance小於等於 2就將該圖片移至 similar資料夾中。
至於 Hamming distance到底要以多少作為基準就要各位自己拿捏了。
這個程序將會將 1.png作為比較的基準,直到有 distance大於 2的圖,便會將該圖作為比較的基準繼續往下比較。
data:image/s3,"s3://crabby-images/980de/980de631fdb002826a42d7819fa56a705c1c79b7" alt=""
data:image/s3,"s3://crabby-images/8f22b/8f22bdf0c28ad170d9df81155c1851b263748049" alt=""
data:image/s3,"s3://crabby-images/857c8/857c8235888b251715a6d397850ebd320ad83758" alt=""
data:image/s3,"s3://crabby-images/60ee6/60ee6b76470ea178fab2bb71e042745a3a3d8365" alt=""
data:image/s3,"s3://crabby-images/815b0/815b0b60e70fdd194d9a0fd6ed5fcc9b7d5e0a8b" alt=""
data:image/s3,"s3://crabby-images/f7d22/f7d22d6db7d40d69d00ef3137dcc5eab9d68380f" alt=""
data:image/s3,"s3://crabby-images/d9343/d934303717667476b1e4bae9536cacb57c40e506" alt=""
data:image/s3,"s3://crabby-images/59a9a/59a9aef56a88ffd85c35218dcf56d62017e90f94" alt=""
data:image/s3,"s3://crabby-images/0f27e/0f27e65180b8fe634c1f29df2ad923c6fbe0ec97" alt=""
data:image/s3,"s3://crabby-images/e09dd/e09dd11b8515ce779ab23bf72bda502962ab9b91" alt=""
data:image/s3,"s3://crabby-images/28bf8/28bf8882538b04ff6a610d89b6fa01a1f1fd0ae9" alt=""
data:image/s3,"s3://crabby-images/85ebe/85ebe91cf853466c05ee2708602044fb62d3ace5" alt=""
data:image/s3,"s3://crabby-images/c23db/c23dbe9fa85e230083e0dd89658e1707cf6fe2da" alt=""
data:image/s3,"s3://crabby-images/610db/610db89e98e41a5c04c14392a9306254132e4ea4" alt=""
data:image/s3,"s3://crabby-images/15589/15589c97020096e436001fafcd7da4338ce588c4" alt=""
data:image/s3,"s3://crabby-images/326af/326afba4460d3618eb45bb251bb20e3baa7df068" alt=""
data:image/s3,"s3://crabby-images/4173f/4173f12b44dd7a67b04a2c41961b393399c07fcc" alt=""
data:image/s3,"s3://crabby-images/59504/5950496c1432bf294b263b6ea8c92e150e09535f" alt=""
data:image/s3,"s3://crabby-images/39c91/39c916f7ac82a62a6c992a2394f039445f458004" alt=""
data:image/s3,"s3://crabby-images/d37b7/d37b70ad60f0c3da86e2e2c1e1c31978daa3f5fa" alt=""
distance設定保留大於 2的圖,其實相似度還是挺高的,需要視情況調整 distance。
如果是想要比較全部的照片,就不需要在意順序,但需要注意 list的邏輯,有點像一群人握手次數的問題。
import os import glob import photohash def filter(member): img_list = glob.glob('./{0}/*.png'.format(member)) while True: if img_list==[]: break img_target = img_list.pop() img_hash_target = photohash.average_hash(img_target) for img in img_list: hash_one = photohash.average_hash(img) distance = photohash.hash_distance(img_hash_target, hash_one) if distance <= 2: if not os.path.isdir("./{0}/similar".format(member)): os.system("mkdir ./{0}/similar".format(member)) print("make dir ./{0}/similar".format(member)) os.system("mv {0} ./{1}/similar".format(img, member)) print("move {0} to ./{1}/similar".format(img, member)) img_list.remove(img) names = ["Nayeon", "Jeongyeon", "Momo", "Sana", "Jihyo", "Mina", "Dahyun", "Chaeyoung", "Tzuyu"] for member in names: filter(member)
之前用 PyTorch寫了一個 CNN的影像辨識,原本就有預期會權重失衡,但實在有點懶就直接拿來訓練了,結果權重好像真的失衡了。
當然原因不只這個,不過本來就有必要剔除相似度過高的圖像,但相似度高不高又不是我說的算,所以才尋找一個比較科學的方式來進行篩選。
最近發現有好像比較好的方式對照片相似進行篩選,有機會再介紹吧。
留言
張貼留言