|
作者 | 琥珀 出品 | AI科技大本營(ID:rgznai100) 前方高能預(yù)警,非戰(zhàn)斗人士請(qǐng)火速撤離…… 今天給大家介紹一個(gè)在 GitHub 上一個(gè)開源的鑒黃圖像數(shù)據(jù)集,它擁有 158萬的數(shù)據(jù)量,叫做 NSFW data source URLs,目前該項(xiàng)目已收獲 918 star 了。 項(xiàng)目地址:https://github.com/EBazarov/nsfw_data_source_urls 在 raw_data 文件夾里,可以找到不同的 .txt 格式的文檔,每個(gè)文檔都含有一組 URL,以下是關(guān)于該數(shù)據(jù)集的一些統(tǒng)計(jì)信息:
以下為項(xiàng)目中圖片截圖示例: 注意事項(xiàng): 1. 建議下載后清洗下數(shù)據(jù)集,例如:
2. 注意噪聲,一些資源提供了 NSFW 和中性圖像的高度混合數(shù)據(jù)。 3. 該庫還可以幫助檢索 NSFW 圖像,針對(duì)中性圖像沒有專用的 URL。 值得一提的是,在該項(xiàng)目之前還有一個(gè)類似的開源項(xiàng)目 nsfw_data_scrapper,里面有 22 萬張圖像,同樣也可以用來檢測(cè)或訓(xùn)練鑒黃系統(tǒng)。 項(xiàng)目地址:https://github.com/alexkimxyz/nsfw_data_scrapper (本文為AI科技大本營原創(chuàng)文章,轉(zhuǎn)載請(qǐng)微信聯(lián)系 1092722531) |
|
|