A nagy adatok olyan marketingtermei, amelyek magukban foglalják az adatbányászat ötletét olyan forrásokból, mint a keresőmotorok, az élelmiszerboltok vásárlási mintái, amelyeket pontkártyákon keresztül követnek stb. A modern világban az interneten olyan sok olyan adatforrások, amelyeknél a skála gyakrabban használhatatlanná teszi a feldolgozást és a feldolgozást, hihetetlen mennyiségű időt igényel egy szerver. Adja meg az Apache Hadoopot
Kevesebb idő az adatfeldolgozáshozA Hadoop architektúrát a feldolgozási feladatok több hálózaton keresztül történő terjesztésére kihasználva a feldolgozási idők csillagászati szempontból csökkentek, és a válaszokat ésszerű időtartamon belül meg lehet határozni. Az Apache Hadoop két különböző összetevőre oszlik: egy tárolóelem és egy feldolgozóelem. A legegyszerűbb feltételek között a Hapood egy virtuális kiszolgálót tesz lehetővé több fizikai gépből . Valójában a Hadoop kezeli a több gép közötti kommunikációt úgy, hogy szorosan együttműködik egymással, és úgy tűnik, hogy csak egy gép dolgozik a számításokon. Az adatok több gépen oszlanak el . A feldolgozási feladatokat a Hadoop architektúra osztja ki és koordinálja
. Ez a fajta rendszer követelmény a nyers adatok hasznos adatainak a nagy adatbevitelek méretarányára történő konvertálásához. Tekintse meg a Google által a keresési kérésekbe bevitt felhasználók másodpercenként érkező adatok mennyiségét. Teljes adatmennyiségként nem tudnád, hol kezdjék el, de a Hadoop automatikusan csökkenti az adatkészletet kisebb, szervezett adatcsoportokra, és ezeket a kezelhető részhalmazt meghatározott erőforrásokhoz rendelheti hozzá. Ezután minden eredményt vissza kell jelenteni, és felhasználható információkba kell foglalni .
A kiszolgáló könnyen beállítható
Bár a rendszer összetettnek hangzik, a mozgó alkatrészek nagy része eltakarodott az absztrakció mögött. A Hadoop szerver beállítása viszonylag egyszerű , csak telepítse a kiszolgáló összetevőket a rendszerkövetelményeket kielégítő hardverre. A keményebb rész tervezi a számítógépek hálózatát , hogy a Hadoop kiszolgáló felhasználja a tárolási és feldolgozási szerepek terjesztése érdekében. Ez magában foglalhatja a helyi hálózatok létrehozását vagy több hálózatot összekapcsolva az interneten keresztül . A meglévő felhőszolgáltatásokat is felhasználhatja, és fizethet egy Hadoop-fürtre a népszerű felhőplatformokon, mint a Microsoft Azure és az Amazon EC2. Ezeket még könnyebben konfigurálhatod, mivel az ad hoc-ot is beindíthatod, majd a klasztereket leszerelheted, amikor már nincs szüksége rájuk. Ezek a klasztertípusok ideálisak a teszteléshez, mivel csak a Hadoop-fürt aktiválásának idejét fizetjük.
Feldolgozza adatait, hogy megkapja a szükséges információkat
A nagy adatok rendkívül erőteljes erőforrás, de az adatok használhatatlanok, hacsak nem rendezhetők megfelelően és nem változnak információvá. A jelenlegi időben a Hadoop klaszterek rendkívül költséghatékony módszert kínálnak ezen adatgyűjtemények információinak feldolgozásához.
Hozzászólás nem található