Varför A.I. Kan kämpa för att förstå arabiska

$config[ads_kvadrat] not found

Mihaita Piticu ❌ Nana Dinu - Platesc cu varf si indesat | Official Video

Mihaita Piticu ❌ Nana Dinu - Platesc cu varf si indesat | Official Video
Anonim

I världen av artificiell intelligens är data kung. Ju mer du har desto bättre blir dina verktyg som system kan "lära" mer om vad man kan förvänta sig. Men beroende på plattformen är A.I. är att dra data från, vissa språk kan vara bättre representerade än andra, enligt Miriam Redi, en forskare för Yahoo Labs.

"Till exempel som Flickr, där vi tar bort våra data, är vissa språk väldigt lite representerade", sa Redi, som talade vid Londons Deep Learning Summit på torsdagen. "Så vi har engelska, miljontals bilder för engelska, men vi har kanske 100.000 för arabiska."

Redis lag arbetar med ett verktyg som kan identifiera osynliga element i bilder, som kulturella värderingar och känslomässiga konnotationer. Verktyget analyserar texten som bifogas offentligt tillgängliga bilder på Flickr. Med tiden försökte A.I. börjar förstå varför någon kan märka en bild "lycklig fest" eller "besvärligt ögonblick" men dessa idéer kommer att bli allt mer exakta eftersom verktyget analyserar fler bilder.

"Tyvärr är noggrannheten för känsledetektering i bilder för arabiska språk lägre eftersom vi inte har tillräckligt med data," sa Redi.

På de språk som hade större mängder data märkte Redis lag några intressanta mönster. Romerska språk som franska och spanska tenderade att uttrycka sig på liknande sätt, medan italienska verkade vara det enda språket där användare identifierade bilder med termen "skatteflykt".

Språkbarriärer är fortfarande något av ett problem för A.I. forskare. Den som använder Google Translate kommer att veta att byta språk är aldrig lika enkelt som det låter. Men nya förändringar förändrar saker, med Facebook som meddelar i sommar att det rörde sig närmare sin dröm om ett gemensamt socialt nätverk, som automatiskt översätter texter till användarna.

Utvecklingen av att ta bort språkbarriärer kan bidra till att främja internationell kommunikation, men för projekt som Redi s finns det ingen verklig ersättning för mänsklig genererad sentimentdata.

$config[ads_kvadrat] not found