Hadoopin toteutus virtuaaliympäristössä
Heikkinen, Ville (2017)
Heikkinen, Ville
Savonia-ammattikorkeakoulu
2017
All rights reserved
Julkaisun pysyvä osoite on
https://urn.fi/URN:NBN:fi:amk-201703032913
https://urn.fi/URN:NBN:fi:amk-201703032913
Tiivistelmä
Tämän opinnäytetyön aiheena oli tutkia sekä toteuttaa Hadoop-klusteri Savonia-ammattikorkeakoulun virtuaaliym-päristössä. Opinnäytetyön aihetta oli tärkeä tutkia, koska Savonialla investoitiin kahteen Big Data -palvelimeen, joita on tarkoitus hyödyntää sekä koulutus- että hankekäytössä.
Opinnäytetyön teko aloitettiin tutustumalla Big Datan sekä Hadoopin teoriaan sekä Hadoopin vaatimiin komponent-teihin. Näitä ovat esimerkiksi HDFS, SSH ja MapReduce. Hadoopin yhteydessä keskeinen käsite on myös virtuali-sointi, joka mahdollistaa suurien Hadoop-klusterien teon virtuaalikoneiden avulla. Tässä opinnäytetyössä virtuaali-koneiden alustana toimi Big Data -palvelimille asennettu Microsoft Hyper-V.
Opinnäytetyön käytännön osuudessa luotiin tarkat Hadoopin asennusohjeet sekä tulevaa käyttöä varten valmiit yhden sekä monen solmun klusteri-templeitit. Ohjeet sekä valmiit templeitit luotiin Ubuntun käyttöjärjestelmälle. Hadoop-ympäristön luonnin jälkeen tutkittiin Big Data -palvelimien yhteyksiä. Big Data -palvelimien lisäksi käytössä oli varapalvelin. Varapalvelimelle luotiin suunnitelma niin, että saataisiin vähennettyä turhaa kuormaa Big Data -palvelimilta.
Työn lopputulos oli erittäin onnistunut. Asennusohjeet testattiin ja todettiin, että niiden avulla asennus on mahdollista toteuttaa onnistuneesti. Klusterin IP-osoite -testit osoittivat sen, että virtuaalikoneet saavat IP-osoitteet Savonian laboratorioverkon kautta. Tästä syystä klusterin solmut voivat olla eri palvelimilla. Opinnäytetyön alkupalaverissa asetettuihin tavoitteisiin päästiin.
Opinnäytetyön teko aloitettiin tutustumalla Big Datan sekä Hadoopin teoriaan sekä Hadoopin vaatimiin komponent-teihin. Näitä ovat esimerkiksi HDFS, SSH ja MapReduce. Hadoopin yhteydessä keskeinen käsite on myös virtuali-sointi, joka mahdollistaa suurien Hadoop-klusterien teon virtuaalikoneiden avulla. Tässä opinnäytetyössä virtuaali-koneiden alustana toimi Big Data -palvelimille asennettu Microsoft Hyper-V.
Opinnäytetyön käytännön osuudessa luotiin tarkat Hadoopin asennusohjeet sekä tulevaa käyttöä varten valmiit yhden sekä monen solmun klusteri-templeitit. Ohjeet sekä valmiit templeitit luotiin Ubuntun käyttöjärjestelmälle. Hadoop-ympäristön luonnin jälkeen tutkittiin Big Data -palvelimien yhteyksiä. Big Data -palvelimien lisäksi käytössä oli varapalvelin. Varapalvelimelle luotiin suunnitelma niin, että saataisiin vähennettyä turhaa kuormaa Big Data -palvelimilta.
Työn lopputulos oli erittäin onnistunut. Asennusohjeet testattiin ja todettiin, että niiden avulla asennus on mahdollista toteuttaa onnistuneesti. Klusterin IP-osoite -testit osoittivat sen, että virtuaalikoneet saavat IP-osoitteet Savonian laboratorioverkon kautta. Tästä syystä klusterin solmut voivat olla eri palvelimilla. Opinnäytetyön alkupalaverissa asetettuihin tavoitteisiin päästiin.