Hjem Lyd Hvordan hjælper max pooling med at gøre alexnet til en fantastisk teknologi til billedbehandling?

Hvordan hjælper max pooling med at gøre alexnet til en fantastisk teknologi til billedbehandling?

Anonim

Q:

Hvordan hjælper max pooling med at gøre AlexNet til en fantastisk teknologi til billedbehandling?

EN:

I AlexNet, et innovativt indviklet neuralt netværk, er konceptet med maksimal pooling indsat i en kompleks model med flere indviklede lag, delvis for at hjælpe med montering og strømline det arbejde, som det neurale netværk udfører i arbejde med billeder med hvad eksperter kalder en "ikke-lineær downsampling-strategi."

AlexNet betragtes vidt som en temmelig stor CNN, efter at have vundet ILSVRC i 2012 (ImageNet Large-Scale Visual Recognition Challenge), der ses som et vandløbshændelse til maskinlæring og neurale netværksfremskridt (nogle kalder det ”Olympics” for computer vision ).

Inden for rammerne af netværket, hvor træning er opdelt i to GPU'er, er der fem indviklede lag, tre fuldt forbundne lag og en vis maksimal poolimplementering.

I det væsentlige tager max pooling "puljen" af output fra en samling af neuroner og anvender dem til et efterfølgende lags værdier. En anden måde at forstå dette på er, at en maksimal pooling-tilgang kan konsolidere og forenkle værdier med henblik på at montere modellen mere passende.

Max pooling kan hjælpe med at beregne gradienter. Man kan sige, at det "reducerer beregningstrygden" eller "skrumper overfitting" - gennem downsampling, max pooling involverer det, der kaldes "dimensionalitetsreduktion."

Dimensionalitetsreduktion omhandler spørgsmålet om at have en overkompliceret model, der er svær at køre gennem et neuralt netværk. Forestil dig en kompleks form med mange små skarvede konturer, og hver lille smule af denne linje repræsenteret af et datapunkt. Med reduktion af dimensionalitet hjælper ingeniørerne maskinindlæringsprogrammet med at "zoome ud" eller prøve færre datapunkter for at gøre modellen som en helhed enklere. Det er derfor, hvis du ser på et maksimalt poollag og dets output, kan du undertiden se en enklere pixel, der svarer til en dimensionalitetsreduktionsstrategi.

AlexNet bruger også en funktion kaldet rektificerede lineære enheder (ReLU), og max pooling kan være komplementær til denne teknik i behandling af billeder gennem CNN.

Eksperter og dem, der er involveret i projektet, har leveret rigelige visuelle modeller, ligninger og andre detaljer for at vise den specifikke opbygning af AlexNet, men i en generel forstand kan du tænke på max pooling som sammenkæling eller konsolidering af output fra flere kunstige neuroner. Denne strategi er en del af den samlede opbygning af CNN, der er blevet synonymt med banebrydende maskinsyn og billedklassificering.

Hvordan hjælper max pooling med at gøre alexnet til en fantastisk teknologi til billedbehandling?