行業(yè)新聞
我們通常會(huì)認(rèn)為監(jiān)控?cái)z像頭是數(shù)字化的眼睛,監(jiān)視著我們,或者是為我們進(jìn)行監(jiān)視,具體是哪種情況取決于你的立場(chǎng)。但實(shí)際上,它們更像是舷窗:只有當(dāng)有人通過它們看時(shí)才有用。有時(shí)候這意味著會(huì)有人監(jiān)看監(jiān)控視頻,通常是同時(shí)監(jiān)看多個(gè)視頻窗口。然而,大多數(shù)監(jiān)控?cái)z像頭都是被動(dòng)的。它們?cè)谀抢镒鳛橐环N威懾,或者在出現(xiàn)問題時(shí)提供證據(jù)。
但是,這種情況正在發(fā)生變化視頻監(jiān)控,而且變化的速度非???。人工智能給了監(jiān)控?cái)z像頭提供了能夠匹配它們眼睛的大腦,讓它們能夠分析實(shí)時(shí)視頻,而且不需要人類的干預(yù)。對(duì)于公共安全來說,這可能是一個(gè)好消息,幫助警察和應(yīng)急救助人員能夠更容易地發(fā)現(xiàn)犯罪和事故,并且有一系列的科學(xué)和工業(yè)上的應(yīng)用。但是這也對(duì)隱私的未來引發(fā)了嚴(yán)重的問題,并給社會(huì)正義帶來了全新的風(fēng)險(xiǎn)。
如果政府可以使用閉路電視視頻監(jiān)控跟蹤大量的人,會(huì)發(fā)生什么情況?如果警察只要將你的臉部照片上傳到數(shù)據(jù)庫(kù),就可以對(duì)你進(jìn)行全城數(shù)字化跟蹤,又會(huì)怎么樣?或者你所在當(dāng)?shù)氐纳虉?chǎng)的攝像頭上運(yùn)行的算法存在偏見,僅僅因?yàn)椴幌矚g某群青少年的樣子,就發(fā)出警報(bào)召喚警察,又會(huì)怎么樣?
雖然這些情景的出現(xiàn)尚需時(shí)日,但是我們已經(jīng)看到將監(jiān)控和人工智能結(jié)合的初步成果了。IC Realtime公司就是一個(gè)例子。該公司去年12月份推出的旗艦產(chǎn)品被谷歌用于閉路電視視頻監(jiān)控。這是一個(gè)應(yīng)用程序及網(wǎng)絡(luò)平臺(tái),名為Ella,它使用人工智能對(duì)視頻流中的內(nèi)容進(jìn)行分析,并使之可供即時(shí)搜索。Ella可以識(shí)別成千上萬的自然語言查詢,讓用戶能夠搜索鏡頭中的內(nèi)容,找到包含了特定動(dòng)物、穿著特定顏色衣物的人,甚至是包含了某款特定汽車品牌或型號(hào)的剪輯圖像。
在一次網(wǎng)絡(luò)演示中,IC Realtime公司的首席執(zhí)行官M(fèi)att Sailor向《The Verge》展示了Ella的一個(gè)版本,該版本連接了監(jiān)控一個(gè)工業(yè)園區(qū)的大約40臺(tái)監(jiān)控?cái)z像頭。他輸入了各種搜索內(nèi)容--"一個(gè)穿紅衣服的男人"、"UPS貨車"、"警車"--所有這些都在幾秒鐘內(nèi)提取出了相關(guān)的鏡頭。然后,他縮小和時(shí)間范圍和地點(diǎn)范圍,并指出用戶可以如何用拇指向上和向下滑動(dòng)改善結(jié)果--就像Netflix一樣。
人工智能監(jiān)控從可搜索視頻開始
Sailor表示:"假如有搶劫,你并不真的知道發(fā)生了什么"。他表示,"但之后有一輛吉普牧馬人(Jeep Wrangler)向東飛馳而去。所以我們來搜索'吉普
牧馬人(Jeep Wrangler)',然后就找到了。"在屏幕上,開始出現(xiàn)視頻剪輯,顯示不同的吉普牧馬人(Jeep Wrangler)從鏡頭前滑過。這將是人工智能和閉路電視視頻監(jiān)控相結(jié)合的第一大優(yōu)勢(shì),Sailor解釋說:讓你很容易找到你要找的東西。他表示:"如果沒有這種技術(shù),你所能知道的不會(huì)比你的攝像頭更多,而且你必須從數(shù)個(gè)小時(shí)、數(shù)個(gè)小時(shí)又?jǐn)?shù)個(gè)小時(shí)的視頻中篩選內(nèi)容。"
Ella運(yùn)行在谷歌云(Google Cloud)上,可以從幾乎任何閉路電視視頻監(jiān)控系統(tǒng)中搜索鏡頭。Sailor表示:"它在從單攝像頭系統(tǒng)--例如保姆攝像頭或者狗攝像頭--一直到擁有成千上萬攝像頭的企業(yè)級(jí)系統(tǒng)中,都能工作得很好。"用戶每月支付使用費(fèi)用,起價(jià)為每個(gè)月7美元左右,總價(jià)會(huì)根據(jù)攝像頭的數(shù)量增長(zhǎng)。
IC Realtime公司希望能夠針對(duì)各種規(guī)模的企業(yè),但該公司也認(rèn)為其技術(shù)也能夠吸引個(gè)人消費(fèi)者。這些客戶已經(jīng)通過"智能"家庭安防攝像頭市場(chǎng)的急速發(fā)展得到了很好的服務(wù),這些攝像頭是由亞馬遜、羅技、Netgear以及谷歌旗下的Nest之類的公司制造的。但是Sailor表示說這種技術(shù)和IC Realtime公司的技術(shù)相比就太簡(jiǎn)陋了。這些攝像頭連接到家庭Wi-Fi上,并通過應(yīng)用程序提供實(shí)時(shí)視頻流,當(dāng)它們發(fā)現(xiàn)有東西在移動(dòng)的時(shí)候,會(huì)自動(dòng)地將視頻記錄下來。但是,Sailor表示,它們無法區(qū)分闖入者和鳥類之間的差異,導(dǎo)致出現(xiàn)了很多誤報(bào)。他表示:"它們是非常基礎(chǔ)的技術(shù),已經(jīng)存在了很多年了。"他表示:"這里沒有人工智能,也沒有深度學(xué)習(xí)。"
這種情況不會(huì)持續(xù)很久了。雖然IC Realtime公司提供的基于云的分析功能可以升級(jí)現(xiàn)有的、傻瓜式的攝像頭,其他一些公司則直接在他們的硬件中加入了人工智能。Boulder AI就是一家這樣的創(chuàng)業(yè)企業(yè),該公司用自己的獨(dú)立人工智能攝像頭推銷"視覺即服務(wù)"。將人工智能集成到設(shè)備中的一大優(yōu)勢(shì)是它們不需要互聯(lián)網(wǎng)連接就能工作。Boulder公司廣泛地面向各行各業(yè)進(jìn)行銷售,為每家客戶量身打造機(jī)器視覺系統(tǒng)。
該公司的創(chuàng)始人Darren Odom對(duì)《The Verge》表示:"應(yīng)用程序真的是非常全面。"他表示:"我們的平臺(tái)銷售給了銀行、能源公司。我們甚至有一個(gè)應(yīng)用程序可以觀察比薩餅,確定它們的大小和形狀是否正確。"
"我們現(xiàn)在能夠100%地識(shí)別愛達(dá)荷州的鱒魚。"
Odom舉了一個(gè)在愛達(dá)荷州建造水壩的客戶的例子。為了符合環(huán)保法規(guī),他們正在監(jiān)測(cè)能夠越過這個(gè)基礎(chǔ)設(shè)施頂部的魚類的數(shù)量。Odom表示:"他們以前安排了一個(gè)人坐在窗口看著魚梯,數(shù)著有多少鱒魚游過。"(顧名思義,魚梯指的就是一條階梯式的水槽,魚類可以通過這條水道奮力上游。)"然后他們轉(zhuǎn)移到了視頻技術(shù),有人(遠(yuǎn)程)進(jìn)行監(jiān)控。"最后,他們聯(lián)系了Boulder公司,該公司為他們搭建了一個(gè)定制化的閉路電視監(jiān)控系統(tǒng)以確定通過魚梯上游的魚的類別。Odom自豪地表示:"我們真的使用計(jì)算機(jī)視覺進(jìn)行了魚類物種識(shí)別。" Odom表示:"我們現(xiàn)在能夠100%地識(shí)別愛達(dá)荷州的鱒魚。" 如果說IC Realtime代表了這個(gè)市場(chǎng)的通用一端,那么Boulder公司就是展示了精品承包商的能力。不過,在這兩種情況之下,這些公司目前所能夠提供的還僅僅是冰山一角。就像機(jī)器學(xué)習(xí)在物體識(shí)別的能力方面取得迅速的進(jìn)步一樣,它分析場(chǎng)景、活動(dòng)和動(dòng)作的能力也有望迅速提高。一切都已經(jīng)就位,包括基礎(chǔ)研究、計(jì)算能力和訓(xùn)練數(shù)據(jù)集--這是創(chuàng)建有能力的人工智能的關(guān)鍵組成部分。視頻分析的兩個(gè)最大的數(shù)據(jù)集來自YouTube和Facebook,這兩家公司都曾經(jīng)表示希望人工智能能夠幫助他們節(jié)制平臺(tái)上的內(nèi)容(不過兩家公司也都承認(rèn)還沒有做好準(zhǔn)備)。例如,YouTube的數(shù)據(jù)集包含超過45萬小時(shí)帶標(biāo)簽的視頻,希望能夠刺激"視頻理解的創(chuàng)新和進(jìn)步"。參與構(gòu)建此類數(shù)據(jù)集的組織的廣度讓人對(duì)該領(lǐng)域的重要性有了一些了解。谷歌、麻省理工學(xué)院(MIT)、IBM和DeepMind都參與進(jìn)來,開啟了自己的類似項(xiàng)目。
IC Realtime公司已經(jīng)在開發(fā)面部識(shí)別等高級(jí)工具了。之后,它希望能夠分析屏幕上正在發(fā)生的事情。Sailor表示,他已經(jīng)和教育行業(yè)潛在的客戶進(jìn)行過交談,對(duì)方希望當(dāng)學(xué)生在學(xué)校遇到麻煩的時(shí)候,監(jiān)控能夠識(shí)別出來。他表示:"例如,他們對(duì)打架的迅速通知感興趣。"系統(tǒng)需要做的一切就是注意聚集在一起的學(xué)生,然后提醒某個(gè)人,這樣他就可以檢查視頻內(nèi)容,看看發(fā)生了什么事情或者親自去調(diào)查。
Boulder公司也正在探索這種高級(jí)分析。該公司正在開發(fā)的一個(gè)原型系統(tǒng)的目標(biāo)是分析在銀行里的人的行為。Odom表示:"我們專門尋找壞人,并且探查一個(gè)正常人的行為和越界的人的行為之間的區(qū)別。" 要想做到這一點(diǎn),他們正在使用舊的安全攝像頭拍攝的視頻來訓(xùn)練他們的系統(tǒng),以發(fā)現(xiàn)異常行為。但是這種視頻有很多的質(zhì)量都非常低,所以他們也會(huì)找一些演員來拍攝自己的訓(xùn)練視頻片段。Odom沒有詳細(xì)說明細(xì)節(jié),但表示該系統(tǒng)將尋找特定的面部表情和行為。他表示:"我們的演員們會(huì)做一些類似蹲伏、推搡以及回頭一撇之類的動(dòng)作。"
對(duì)于監(jiān)控和人工智能方面的專家來說,這些功能的引入充滿了技術(shù)和道德方面的潛在困難。而且,和人工智能經(jīng)常遇到的情況一樣,這兩個(gè)類別的困難是彼此交織在一起的。機(jī)器不能像人類一樣理解這個(gè)世界,這是一個(gè)技術(shù)問題,但是當(dāng)我們假設(shè)它們能夠做到這一點(diǎn),并且讓它們?yōu)槲覀冏鰶Q定時(shí),這就變成了一個(gè)道德問題。
卡內(nèi)基.梅隆大學(xué)的教授Alex Hauptmann專門從事這種計(jì)算機(jī)分析,他表示,盡管人工智能近年來已經(jīng)在這一領(lǐng)域取得了巨大的進(jìn)步,但是在讓計(jì)算機(jī)理解視頻方面仍然存在著非常根本性的問題。其中最大的一個(gè)就是攝像頭的問題,這個(gè)問題我們已經(jīng)不再會(huì)經(jīng)常想到了:分辨率。
最大的障礙非常常見:低分辨率的視頻
舉個(gè)例子來說,一個(gè)神經(jīng)網(wǎng)絡(luò)經(jīng)過訓(xùn)練,可以分析視頻中的人類行為。這些工作是通過將人體細(xì)分為多個(gè)部分--手臂、腿、肩膀、頭部等--然后觀察這些小的部分在視頻中從一幀到另一幀的變化來進(jìn)行的。這樣,人工智能可以告訴你是否有人在跑步,或者是在梳頭發(fā)。Hauptmann對(duì)《The Verge》表示:"但是這取決于你所擁有的視頻的分辨率。" Hauptmann表示:"如果我用一個(gè)攝像頭對(duì)準(zhǔn)停車場(chǎng)的盡頭,如果我能分辨出是否有人打開了車門,就算是非常幸運(yùn)的了。如果你就站在(攝像頭)前面彈吉他,它就可以跟蹤你每一根手指的動(dòng)作。"
對(duì)于閉路電視監(jiān)控系統(tǒng)來說,這是一個(gè)大問題,攝像頭往往會(huì)有顆粒感,而角度也常常很怪異。Hauptmann舉了一個(gè)便利店攝像頭的例子,攝像頭的目的是監(jiān)控收銀機(jī),但是它也監(jiān)視著面向街道的窗子。如果外面發(fā)生了搶劫,攝像頭的鏡頭有一部分被擋住了,那么人工智能可能就會(huì)卡住。他表示:"但是我們作為人類,可以想象正在發(fā)生的事情,并且把它們拼湊在一起。可是電腦就做不到這一點(diǎn)。"
同樣,雖然人工智能很好地識(shí)別視頻中的相關(guān)事件(例如,某人正在刷牙、看手機(jī)或者踢足球),但仍不能提取重要的因果關(guān)系。以分析人類行為的神經(jīng)網(wǎng)絡(luò)為例。它可能會(huì)看到鏡頭并說"這個(gè)人正在跑步",但它不能告訴你他們之所以在跑步,是因?yàn)樗麄兛煲s不上公共汽車了,還是因?yàn)樗麄兺盗四橙说氖謾C(jī)。
這些關(guān)于準(zhǔn)確度的問題應(yīng)該讓我們認(rèn)真思考一些人工智能創(chuàng)業(yè)企業(yè)的宣言。我們現(xiàn)在還遠(yuǎn)未接近這樣一個(gè)點(diǎn):電腦通過觀看視頻能夠獲得和人類一樣的見解。(研究人員可能會(huì)告訴你,要做到這一點(diǎn)可是太困難了,因?yàn)樗旧鲜?quot;解決"智力問題的同義詞。)但是事情的發(fā)展速度非常快。
Hauptmann表示使用車牌跟蹤功能跟蹤車輛是"一個(gè)已經(jīng)得到解決的實(shí)際問題",在受控設(shè)置中的面部識(shí)別也是一樣的。(使用低質(zhì)量的閉路電視監(jiān)控視頻進(jìn)行面部識(shí)別就完全是另一回事了。)對(duì)汽車和衣物等物品的識(shí)別也非??煽浚诙嗯_(tái)攝像機(jī)之間自動(dòng)跟蹤一個(gè)人也是可以實(shí)現(xiàn),但前提是條件是正確的。Hauptmann表示:"在一個(gè)非擁擠的場(chǎng)景中跟蹤一個(gè)人的效果可能非常好,但是在擁擠的場(chǎng)景中,還是算了吧。"他表示,如果這個(gè)人穿著的是不起眼的服裝,要做到這一點(diǎn)就特別難。
一些人工智能監(jiān)控任務(wù)已經(jīng)解決了;另外一些還需要繼續(xù)努力
但是,即使是這些非?;镜墓ぞ咭部梢援a(chǎn)生非常強(qiáng)大的效果。比如在莫斯科,一個(gè)類似的基礎(chǔ)設(shè)施正在組裝,將面部識(shí)別軟件插入到一個(gè)集中式系統(tǒng)中,該系統(tǒng)擁有超過10萬臺(tái)高分辨率攝像頭,覆蓋了這個(gè)城市90%以上的公寓入口。
在這種情況下,可能會(huì)有一個(gè)良性循環(huán),隨著軟件越來越好,系統(tǒng)會(huì)收集更多的數(shù)據(jù),從而幫助軟件變得更好。Hauptmann表示:"我認(rèn)為這一切都會(huì)有所改善。"他表示:"這種情況正在出現(xiàn)。"
如果這些系統(tǒng)已經(jīng)在工作了,那么我們就已經(jīng)有了像算法偏差這樣的問題。這可不是一個(gè)假設(shè)的挑戰(zhàn)。研究表明,機(jī)器學(xué)習(xí)系統(tǒng)吸收了為它們編寫程序的社會(huì)的種族歧視和性別歧視--從總是會(huì)將女性放置在廚房的圖像識(shí)別軟件到總是說黑人更容易再次犯罪的刑事司法系統(tǒng),比比皆是。如果我們使用舊的視頻剪輯來訓(xùn)練人工智能監(jiān)控系統(tǒng),例如采集自閉路電視視頻監(jiān)控或者警察佩戴的攝像頭的視頻,那么存在于社會(huì)中的偏見就很可能會(huì)延續(xù)下去。
Meredith Whittaker是紐約大學(xué)(NYU)關(guān)注道德的"AI Now"研究所的聯(lián)席主任,她表示,這個(gè)過程已經(jīng)在執(zhí)法過程出現(xiàn)了,并將擴(kuò)展到私有部門。Whittaker舉出了Axon(以前被稱為Taser)的例子,該公司收購(gòu)了幾家人工智能公司,以幫助其將視頻分析功能集成到產(chǎn)品中。Whittaker表示:"他們得到的數(shù)據(jù)來自警察佩戴的攝像頭,這些數(shù)據(jù)告訴了我們很多關(guān)于單個(gè)警務(wù)人員會(huì)關(guān)注誰的情況,但是并沒有給我們一個(gè)完整的描述。 "她表示:"這是一個(gè)真正的危險(xiǎn),我們正在將帶有偏見的犯罪和罪犯的圖片普遍化。"
ACLU高級(jí)政策分析師Jay Stanley表示,即使我們能夠解決這些自動(dòng)化系統(tǒng)中的偏見,也不能使它們變得良性。他說,將閉路電視視頻監(jiān)控?cái)z像頭從被動(dòng)的觀察者轉(zhuǎn)變?yōu)橹鲃?dòng)的觀察者可能會(huì)對(duì)公民社會(huì)產(chǎn)生巨大的不利影響。
"我們希望人們不僅僅擁有自由,還要感受到自由。"
Stanley表示:"我們希望人們不僅僅擁有自由,還要感受到自由。這意味著他們不必?fù)?dān)心未知的、看不見的觀眾會(huì)如何解釋或曲解他們的每一個(gè)動(dòng)作和話語。" Stanley表示:"要擔(dān)心的是人們會(huì)不斷地自我監(jiān)控,擔(dān)心他們所做的一切都會(huì)被曲解,并給他們的生活帶來負(fù)面的后果。"
Stanley還表示,不準(zhǔn)確的人工智能監(jiān)控發(fā)出的錯(cuò)誤警報(bào)也可能導(dǎo)致執(zhí)法部門和公眾之間更加危險(xiǎn)的對(duì)抗。比如說,想想看Daniel Shaver的槍擊事件吧,在看到Shaver拿著槍后,一名警察被叫到德克薩斯州的一個(gè)旅館房間里。警長(zhǎng)Charles Langley在Shaver按照他的要求趴在地面上時(shí),開槍射殺了他。而Shaver被發(fā)現(xiàn)持有的槍是一支粒丸槍,這是他用來從事他的害蟲控制工作的。
如果一個(gè)人可以犯這樣的錯(cuò)誤,電腦還有什么機(jī)會(huì)?而且,即使是監(jiān)控系統(tǒng)變得部分自動(dòng)化,這樣的錯(cuò)誤會(huì)變得更加常見還是更少?Stanley表示:"如果技術(shù)出現(xiàn)在那里,就會(huì)有一些警察不得不照看那里。"
當(dāng)人工智能監(jiān)控變得普及的時(shí)候,誰來管理這些算法呢?
Whittaker表示,我們?cè)谶@個(gè)領(lǐng)域看到的只是人工智能大趨勢(shì)的一部分,在這個(gè)趨勢(shì)中,我們使用這些相對(duì)粗糙的工具,嘗試著根據(jù)人們的形象對(duì)他們進(jìn)行分類。她列舉了去年發(fā)表的一項(xiàng)有爭(zhēng)議的研究作為一個(gè)類似的例子,該研究聲稱能夠通過面部識(shí)別來確定性取向。人工智能給出的結(jié)果的準(zhǔn)確性值得懷疑,但批評(píng)人士指出,它是否有效并不重要;重要的是人們是否相信它有用,并且是否會(huì)仍然使用數(shù)據(jù)做判斷。
Whittaker表示:"令我感到不安的是,許多這樣的系統(tǒng)正在被注入我們的核心基礎(chǔ)設(shè)施之中,而且沒有讓我們可以提出關(guān)于有效性問題的民主程序,也沒有通知大家將要部署這些系統(tǒng)。"Whittaker表示:"這不過是正在出現(xiàn)的又一個(gè)新的例子:算法系統(tǒng)根據(jù)模式識(shí)別提供分類并確定個(gè)體類型,可是這些識(shí)別模式是從數(shù)據(jù)中提取的,而這些數(shù)據(jù)里包含了文化和歷史的偏見。"
當(dāng)我們向IC Realtime公司詢問人工智能監(jiān)控可能如何被濫用的問題時(shí),他們給出了一個(gè)在科技行業(yè)常見的答案:這些技術(shù)是價(jià)值中立的,只是如何使用它們以及由誰來使用它們才決定了它們是好是壞。Sailor表示:"任何新技術(shù)都面臨著有可能落入不法之徒的手中的危險(xiǎn)。"Sailor表示:"任何技術(shù)都是如此……而我認(rèn)為在這個(gè)問題上,利遠(yuǎn)大于弊。"