Framework de Big Data:
As características inerentes ao big data exigem frameworks específicos para que os dados sejam transformados em valor. Velocidade, volume e variedade representam os aspectos de big data mais reconhecidos. Quanto à velocidade, os dados são produzidos de forma constante, e são necessárias aplicações específicas para lidar com o alto fluxo (data streaming). Aplicações da Apache, como Spark Streaming, Flink e Storm são exemplos de sistemas desenvolvidos para auxiliar no tratamento de dados em tempo real. O volume, representado pela imensa quantidade de dados gerados, exige sistemas de arquivos distribuídos, como HDFS (Hadoop). Esses sistemas auxiliam na redução de custos e aumentam a escalabilidade, pois permitem a criação de clusters de computadores com hardware de baixo custo. Em um cluster Hadoop, os dados são replicados de acordo com uma escala muitas vezes igual a 3 (isso significa que cada pedaço de dados estará armazenado em três nós diferentes de um cluster). Se um nó falhar, ainda teremos os mesmos dados em outros dois, e o sistema irá se reajustar para que uma terceira réplica seja criada novamente. Ou seja: hardware de baixo custo tende a falhar, mas um sistema de arquivos distribuído específico para big data resolve o problema, mantendo réplicas para os dados. Ambientes de big data armazenam dados variados, como dados estruturados, semiestruturados e não estruturados. Nos últimos anos, surgiram os bancos de dados NoSQL (Not Only SQL), que facilitam a manipulação de dados estruturados e semiestruturados. O banco MongoDB, por exemplo, armazena dados em formato de documentos; o Neo4j trabalha com grafos; e o Apache Cassandra armazena dados em formato de colunas. Para dados não estruturados, o HDFS ainda é a opção mais utilizada. Outros “Vs” também são reconhecidos por caracterizar big data, como visibilidade, variabilidade, vulnerabilidade, veracidade, vagueza e visualização — a qual é de grande importância para estudantes da área. Big data envolve dados que não entendemos ou cuja extração de insight é impossível sem apoio de ferramentas e técnicas de visualização. Neste contexto, é essencial saber trabalhar com linguagens de programação como R e Python, além de sistemas como Tableau, que permite o desenvolvimento simplificado de visualizações de dados. Este livro abordará tais conteúdos, introduzindo os principais frameworks para armazenamento, processamento e visualização de dados em big data. Existem centenas de possibilidades de combinações para a criação de um ambiente de big data, e, nesta obra, você estudará sobre os frameworks mais utilizados.