Hur Google Street View-bilder avslöjar USA:s demografiska sammansättning

Varje år spenderar U.S. Census Bureau 1 miljard dollar på att kartlägga befolkningen. Dessa undersökningar är utformade för att reta isär den demografiska sammansättningen av landet genom att fråga en representativ grupp människor om deras ras, kön, utbildning, yrke och så vidare. Detta är en viktig övning eftersom den ger en avgörande fågelperspektiv över populationen och hur den förändras.



Men det är inte lätt. Till att börja med är uppgifterna relativt storskaliga - Census Bureaus huvudundersökning, American Community Survey, ger resultat för alla städer och län med en befolkning som är större än 65 000. Mindre områden syns inte.

Vad mer är att kartlägga befolkningen är en tidskrävande övning; så mycket att vissa uppgifter kan vara fem år gamla när de publiceras. Och eftersom andra data är mycket nyare kan jämförelser vara problematiska.





Så demografer skulle verkligen älska att ha ett snabbare, effektivare och högre upplösningssätt att studera befolkningen.

Gå in på Timnit Gebru vid Stanford University och några kompisar som har använt Google Street View-bilder för att göra anmärkningsvärt korrekta bedömningar av den demografiska uppdelningen i ett stort antal amerikanska städer. Deras teknik visar hur demografer kan samla in tillförlitlig data på ett helt nytt sätt som kompletterar och förbättrar nuvarande metoder.

Gebru och co börjar med 50 miljoner Street View-bilder samlade av Googles bilar i 200 amerikanska städer. Teamet tror att typen av bil människor äger är en stark indikator på deras ras, inkomst, utbildningsnivå, yrke och så vidare.



Så Gebru tränade en uppsättning maskinseendealgoritmer för att känna igen bilar i dessa bilder och sedan klassificera var och en i en av 2 657 olika kategorier som inte bara beror på bilens märke och modell utan också på dess ålder. Detta ger en korrekt uppfattning om bilens värde.

Totalt klassificerade de cirka 22 miljoner fordon, ungefär en tredjedel av alla fordon på vägarna i dessa städer. Och det tog deras maskin cirka två veckor att utföra uppgiften med en hastighet av cirka 0,2 sekunder per fordon. En mänsklig expert, om man antar 10 sekunder per bild, skulle ta mer än 15 år att utföra samma uppgift, säger Gebru och co.

Men hur förhåller sig antalet fordon i ett område till den lokala demografin? För att ta reda på det tränade teamet en annan algoritm för djupinlärning för att lära sig korrelationen mellan fordonstyper och data från USA:s folkräkning och röstningsmönster för presidentval i varje distrikt (ett område på cirka 1 000 personer). Denna utbildningsdatauppsättning bestod av data från 35 städer.

tekniken tar över jobben

De använde sedan resten av data för att testa algoritmen för djupinlärning. Frågan de ville besvara var: med tanke på mönstret av fordon i ett område, kunde algoritmen exakt förutsäga demografin som registrerats i USA:s folkräkning och presidentvalsdata?



Det visar sig att algoritmen för djupinlärning kan göra detta anmärkningsvärt bra. Genom att använda de klassificerade motorfordonen i varje stadsdel drar vi slutsatser om ett brett utbud av demografisk statistik, socioekonomiska attribut och politiska preferenser för dess invånare, säger de.

Till exempel är sedanbilar närmast förknippade med demokrater, medan förlängda hyttpickuper är mer förknippade med distrikt som röstade republikaner. Vi fann att genom att köra genom en stad i 15 minuter medan man räknar sedaner och pickuper, är det möjligt att på ett tillförlitligt sätt avgöra om staden röstade demokratiskt eller republikanskt, säger Gebru och co.

En viktig fråga är hur väl dessa slutsatser stämmer överens med dem som samlats in av undersökningar på konventionellt sätt. För att ta reda på det jämförde Gebru och co sina resultat med de från U.S. Census Bureaus egna data från American Community Survey. Och de fann ett starkt samband med demografiska faktorer som inkomst, utbildning, yrke och så vidare. De kunde till och med göra finkorniga förutsägelser om väljarpreferenser på distriktsnivå, som omfattar cirka 1 000 personer.

American Community Survey kommer sannolikt att förbli guldstandarden för datainsamling, åtminstone för närvarande. Men möjligheten att snabbt samla in data av hög kvalitet med hjälp av Google Street View har stor potential att ge nästan realtidsövervakning av förändringar i befolkningen.

Och naturligtvis är Google inte den enda organisationen som samlar in bilder av gatorna – det är inte svårt att föreställa sig att samma process tillämpas på bilder från Facebook, Twitter eller andra sociala medier som är geotaggade och datumstämplade.

Ref: arxiv.org/abs/1702.06683 : Använder Deep Learning och Google Street View för att uppskatta den demografiska sammansättningen av USA

Dölj

Faktisk Teknik

Kategori

Okategoriserad

Teknologi

Bioteknik

Teknisk Policy

Klimatförändring

Människor Och Teknik

Silicon Valley

Datoranvändning

Mit News Tidningen

Artificiell Intelligens

Plats

Smarta Städer

Blockchain

Huvudartikel

Alumnprofil

Alumnikoppling

Mit News-Funktion

1865

Min Syn

77 Mass Ave

Möt Författaren

Profiler I Generositet

Ses På Campus

Alumnbrev

Nyheter

Tidningen Mit News

Val 2020

Med Index

Under Kupolen

Brandslang

Oändliga Berättelser

Pandemic Technology Project

Från Presidenten

Cover Story

Fotogalleri

Rekommenderas