小男孩‘自慰网亚洲一区二区,亚洲一级在线播放毛片,亚洲中文字幕av每天更新,黄aⅴ永久免费无码,91成人午夜在线精品,色网站免费在线观看,亚洲欧洲wwwww在线观看

分享

“實(shí)用數(shù)學(xué)”預(yù)覽:私下收集敏感調(diào)查回復(fù)

 遇見數(shù)學(xué) 2022-05-17 發(fā)布于河南

原文出處:https:///2022/05/14/practical-math-preview-collect-sensitive-survey-responses-privately/

作者:Jeremy Kun

這是我正在編寫的書《程序員實(shí)用數(shù)學(xué):生產(chǎn)軟件中的數(shù)學(xué)之旅》(鏈接:https:///2022/03/16/my-next-book-will-be-practical-math-for-programmers/)中一章的草稿。

提示:當(dāng)調(diào)查對象不相信他們的回答會被保密時(shí),請確定有關(guān)敏感問題的匯總統(tǒng)計(jì)數(shù)據(jù)。

解:

import random
 
def respond_privately(true_answer: bool) -> bool:
    '''Respond to a survey with plausible deniability about your answer.'''
    be_honest = random.random() < 0.5
    random_answer = random.random() < 0.5
    return true_answer if be_honest else random_answer
 
def aggregate_responses(responses: List[bool]) -> Tuple[float, float]:
    '''Return the estimated fraction of survey respondents that have a truthful
    Yes answer to the survey question.
    '''

    yes_response_count = sum(responses)
    n = len(responses)
    mean = 2 * yes_response_count / n - 0.5
    # Use n-1 when estimating variance, as per Bessel's correction.
    variance = 3 / (4 * (n - 1))
    return (mean, variance)

在 1960年代后期,大多數(shù)墮胎在美國都是非法的。丹尼爾·G·霍維茨(Daniel G. Horvitz )是北卡羅來納州三角研究所的統(tǒng)計(jì)學(xué)家,也是社會科學(xué)調(diào)查設(shè)計(jì)的負(fù)責(zé)人,他的任務(wù)是估計(jì)北卡羅來納州有多少女性正在接受非法墮胎。目的是讓州和聯(lián)邦政策制定者了解有關(guān)墮胎的統(tǒng)計(jì)數(shù)據(jù),其中許多即使是合法的也沒有報(bào)告。

阻力很明顯。正如霍維茨所說,“一個(gè)謹(jǐn)慎的女人不會向陌生人透露她參與了可能被起訴的罪行的事實(shí)。” [Abernathy70] 這導(dǎo)致了調(diào)查回復(fù)中的強(qiáng)烈偏見。類似的問題一直困擾著對各種非法活動(dòng)的調(diào)查,包括吸毒和暴力犯罪。對非法行為的基本統(tǒng)計(jì)缺乏認(rèn)識導(dǎo)致了各種誤解,例如不經(jīng)常尋求墮胎。

霍維茨與生物統(tǒng)計(jì)學(xué)家詹姆斯·阿伯納西(James Abernathy)和伯納德·格林伯格(Bernard Greenberg)合作測試了一種新方法來克服這一障礙,同時(shí)又不侵犯受訪者的隱私或合理否認(rèn)非法行為的能力。這種稱為隨機(jī)響應(yīng)的方法是由斯坦利·華納(Stanley Warner )于1965年發(fā)明的,就早了幾年。[Warner65] 華納的方法與我們在本文中的提示有點(diǎn)不同,但華納的方法和上面的代碼示例都使用了相同的策略,即在調(diào)查中添加隨機(jī)化。

如上面的代碼所示,該機(jī)制要求受訪者從擲硬幣開始。如果是正面,他們會如實(shí)回答敏感問題。如果是反面,他們會拋第二枚硬幣來決定如何回答這個(gè)問題 —— 正面的答案是“是”,反面的答案是“否”。自然,拋硬幣是隱私的,由受訪者控制。因此,如果受訪者對問題回答“是”,他們可能會合理地聲稱他們的“是”是由硬幣決定的,從而保護(hù)了他們的隱私。下圖以圖表的形式描述了這個(gè)過程。

顯示調(diào)查對象記錄其響應(yīng)的過程的分支圖

描述結(jié)果的另一種方式是說每個(gè)受訪者的答案都是以的概率翻轉(zhuǎn)的單一信息。這是權(quán)衡隱私性/準(zhǔn)確性的曲線上兩個(gè)極端之間的一半。第一個(gè)極端是“完全誠實(shí)”的響應(yīng),其中單一信息永遠(yuǎn)不會翻轉(zhuǎn)并且所有信息都被保留。第二個(gè)極端以的概率翻轉(zhuǎn)位,這相當(dāng)于完全隨機(jī)地忽略問題并選擇您的答案,從而丟失匯總響應(yīng)中的所有信息。從這個(gè)角度來看,可以將匯總調(diào)查響應(yīng)視為數(shù)字信號,并且隱私機(jī)制會在該信號中添加噪聲。

還有待確定如何從這些嘈雜的響應(yīng)中恢復(fù)聚合信號。換句話說,調(diào)查員無法知道任何個(gè)人的真實(shí)答案,但他們可以通過一些額外的工作,通過校正統(tǒng)計(jì)偏差來估計(jì)有關(guān)基礎(chǔ)人口的統(tǒng)計(jì)數(shù)據(jù)。這是可能的,因?yàn)殡S機(jī)化很容易理解。“是”答案的預(yù)期分?jǐn)?shù)可以寫成“是”答案的真實(shí)分?jǐn)?shù)的函數(shù),因此可以求解真實(shí)分?jǐn)?shù)。在這種情況下,隨機(jī)硬幣是公平的,該公式如下(其中代表“概率”)。

所以我們要解的是

我們可以將上面的真實(shí)概率替換為我們在調(diào)查中回答“是”的部分,結(jié)果是的一個(gè)估計(jì)。該估計(jì)是無偏的,但具有額外的方差 —— 超出了從感興趣的總體中選擇有限隨機(jī)樣本引起的通常方差——由隨機(jī)化機(jī)制引入。

通過一些努力,可以計(jì)算出估計(jì)的方差為

通過限制了估計(jì)量遠(yuǎn)離其預(yù)期的可能性的切比雪夫不等式,我們可以制作置信區(qū)間并確定所需的樣本量。具體來說,估計(jì)具有最多的附加誤差,概率最多為。這意味著對于的置信度,至少需要個(gè)樣本。例如,要以90%的置信度()實(shí)現(xiàn)誤差需要個(gè)響應(yīng)。

霍維茨的隨機(jī)化機(jī)制沒有使用硬幣翻轉(zhuǎn)。取而代之的是,他們使用了一個(gè)裝有紅球或藍(lán)球的不透明盒子,與測量員在同一個(gè)房間的受訪者會搖晃它,并通過一個(gè)背對測量員的小窗戶私下顯示隨機(jī)顏色。統(tǒng)計(jì)原理是一樣的?;艟S茨和他的同事對這些女性進(jìn)行了調(diào)查,了解她們對這種機(jī)制的隱私保護(hù)的看法。當(dāng)被問及他們的朋友是否會誠實(shí)地回答有關(guān)墮胎的直接問題時(shí),超過80%的人要么相信他們的朋友會撒謊,要么不確定。[注:在詢問某人是否不誠實(shí)時(shí),調(diào)查方法中的一個(gè)常見技巧是詢問他們的朋友是否不誠實(shí)。這往往會引起更多的誠實(shí),因?yàn)槿藗儾惶赡軋?jiān)持對他人道德誠信的錯(cuò)誤看法,而且人們也沒有意識到他們對朋友的看法與他們自己的個(gè)人行為相關(guān)和態(tài)度。換句話說,說謊者不承認(rèn)說謊,但他們認(rèn)為說謊比實(shí)際情況要普遍得多。] 但60%的人認(rèn)為隨機(jī)化沒有任何技巧,而20%的人不確定并且20%的人認(rèn)為這是一個(gè)詭計(jì)。這表明許多人相信霍維茨的隨機(jī)化機(jī)制提供了誠實(shí)回答所需的安全保證。

霍維茨的調(diào)查取得了巨大的成功,無論是作為一種方法的隨機(jī)反應(yīng)還是衡量流產(chǎn)流行率。[Abernathy70]他們估計(jì)墮胎率約為每100次受孕22次,具有明顯的種族偏見——少數(shù)族裔接受墮胎的可能性是白人的兩倍。將他們的發(fā)現(xiàn)與1955年之前的一項(xiàng)全國性研究(即所謂的 Arden House 估計(jì))進(jìn)行比較,該研究給出了每年20萬至120萬例墮胎的范圍,霍維茨的團(tuán)隊(duì)更準(zhǔn)確地估計(jì)1955年美國有699,000例墮胎,報(bào)告的標(biāo)準(zhǔn)偏差約為6,000,不到1%。在他們研究的1967年,他們估計(jì)有829,000人。

由于公眾對該主題的興趣激增,他們的估計(jì)在隨后的一系列墮胎法和法庭案件中被廣泛引用。例如,1970年加州最高法院對巴拉德訴安德森案的意見中引用了這一點(diǎn),該案涉及未成年人是否需要父母同意才能接受其他合法的墮胎。[Ballard71, Roemer71] 1971年提交給美國最高法院的羅訴韋德案的法庭之友簡報(bào)中也引用了這一點(diǎn),該案使大多數(shù)美國法律將墮胎定為非法。全國婦女組織等該國主要的婦女權(quán)利組織聯(lián)合提交了一份這樣的簡報(bào)。這一段引用了霍維茨,它寫道,[Womens71]

雖然墮胎法所帶來的執(zhí)法、社會和公共衛(wèi)生問題的現(xiàn)實(shí)已被公開討論[...]僅在不超過過去十年的時(shí)間內(nèi),一個(gè)事實(shí)似乎是不可否認(rèn)的,盡管在統(tǒng)計(jì)上無法驗(yàn)證。美國每年至少有 100 萬起非法墮胎。事實(shí)上,研究表明,如果當(dāng)?shù)胤扇杂匈Y格要求,則法律的放寬并沒有在很大程度上減少婦女進(jìn)行非法墮胎的人數(shù)。

目前尚不清楚作者是如何得到這100萬個(gè)數(shù)字的(霍維茨估計(jì)1967年減少了20%),也不清楚他們所說的“無法從統(tǒng)計(jì)上驗(yàn)證”是什么意思。這可能是對隨機(jī)響應(yīng)技術(shù)的誤解。無論如何,隨機(jī)反應(yīng)在為政治辯論奠定基礎(chǔ)方面發(fā)揮了至關(guān)重要的作用。

盡管霍維茨取得了成功,并且對犯罪、吸毒和其他敏感話題進(jìn)行了數(shù)十年的額外研究,但隨機(jī)響應(yīng)機(jī)制的應(yīng)用卻很糟糕。在某些情況下,所需的隨機(jī)化非常復(fù)雜,例如在需要連續(xù)隨機(jī)數(shù)時(shí)。在這些情況下,手動(dòng)隨機(jī)化機(jī)制過于復(fù)雜,受訪者無法準(zhǔn)確使用。嘗試使用軟件輔助設(shè)備會有所幫助,但也會對受訪者產(chǎn)生不信任。請參閱 [Rueda16] 以了解對這些陷阱的更多討論以及存在哪些軟件包來幫助使用隨機(jī)響應(yīng)。有關(guān)1970年至2010年間使用的各種方法之間的統(tǒng)計(jì)差異分析,請參見 [Fox16]。

從拙劣的執(zhí)行中可以吸取的許多教訓(xùn)中,一個(gè)是隨機(jī)化機(jī)制必須考慮參與者的心理以及失敗結(jié)果的嚴(yán)重性。

參考文獻(xiàn):

[Fox16] James Alan Fox, Randomized Response and Related Methods: Surveying Sensitive Data, 2nd, 2016, doi = https:///10.4135/9781506300122.

[Abernathy70] Abernathy, James R. and Greenberg, Bernard G. and Horvitz, Daniel G., Estimates of induced abortion in urban North Carolina, Demography, Vol 7, number 1, 19-29, 1970.02, issn: 0070-3370, doi = 10.2307/2060019, https:///10.2307/2060019.

[Warner65] Stanley L. Warner, Randomized Response: A Survey Technique for Eliminating Evasive Answer Bias, Journal of the American Statistical Association, 309, pages 63--69, American Statistical Association, Taylor & Francis, Ltd., vol60, 1965.

[Ballard71] Ballard v. Anderson, California Supreme Court L.A. 29834, 1871, https://caselaw./ca-supreme-court/1826726.html.

[Womens71] Motion for Leave to File Brief Amici Curiae on Behalf of Women’s Organizations and Named Women in Support of Appellants in Each Case, and Brief Amici Curiae., Appellate Briefs for the case of Roe v. Wade, WL 128048, 1971, Supreme Court of the United States.

[Roemer71] R. Roemer, Abortion law reform and repeal: legislative and judicial developments, Am J Public Health, Vol. 61, number 3, 1971, pages 500-509.

[Rueda16] M. Rueda and B. Cobo and A. Arcos and R. Arnab, Chapter 10 - Software for Randomized Response Techniques, Analysis and Protection of Privacy Through Randomized Response Techniques: Qualitative and Quantitative Human Traits, Handbook of Statistics, Elsevier, Vol 34, pages 155-167, 2016, doi = https:///10.1016/bs.host.2016.01.009.

    轉(zhuǎn)藏 分享 獻(xiàn)花(0

    0條評論

    發(fā)表

    請遵守用戶 評論公約

    類似文章 更多