Dicionário de Big Data Analytics

Por onde quer que você ande, está ouvindo sobre Big Data. Mas o problema é que por se tratar de termos novos, ainda não temos pleno conhecimento. Por isso, a LogComex preparou um Dicionário de Big Data, para que você entenda melhor como se comunicar e usar melhor as artimanhas desse novo mundo, de forma eficiente.

ALGORITMO: É um conjunto de regras, uma fórmula matemática, sempre aplicada à um intervalo finito de dados, que nos ajuda a executar uma tarefa ou resolver algum problema.

AMAZON WEB SERVICES: Segundo a Amazon, a AWS oferece soluções confiáveis com base na nuvem para ajudá-lo a cumprir requisitos empresariais. A nuvem da Amazon oferece uma gama gigantesca de serviços, desde e-commerce, bancos de dados, arquivamento, marketing digital, até big data.

ANÁLISE PREDITIVA: Utilizar os dados de uma forma que possamos prever alguns eventos, é basicamente coletar, analisar os dados e antecipar comportamentos, sazonalidades, sempre nos adequando às estratégias da empresa.

ANÁLISE DE SENTIMENTO: São análises mais simples, normalmente voltadas à um público específico ou um grupo menor de indivíduos, extraindo o sentimento geral sobre um determinado tema, seja ele positivo, neutro ou negativo.

ANALISTA DE DADOS: Também popularmente chamado de “cientista de dados”, é o especialista em interpretar os dados e extrais insights. Pode ser matemático, estatístico, jornalista ou mesmo um cientista da computação; o importante é que o profissional tenha uma visão ampla, entenda de negócios e da estratégia da empresa.

ANALYTICS: Envolve a coleta de dados, o processamento e uma análise que gera insights, posteriormente ajudando nas tomadas de decisões (sim, baseadas em dados concretos). Segundo a Forbes, sua velocidade compete com a Fórmula 1. (link Forbes).

BI: É a sigla para Business Inteligence (inteligência de negócios) e se refere aos métodos de coleta de dados, organização e análise das informações, que objetiva dar subsídios para as tomadas de decisões em negócios.

BIG TABLE: Sistema do Google para armazenar dados estruturados. É também quem armazena serviços como Gmail, Google Earth e YouTube, além de estar disponível para uso público por meio do Google App Engine.

CLUSTERIZAÇÃO: É o agrupamento específico dos dados, de forma que itens do mesmo grupo (cluster) sejam mais similares entre si do que quando reunidos em diferentes grupos. Muito usado em machine learning, análise de imagens, compressão de dados, reconhecimento de padrões e recuperação de informação

DASHBOARD: Conhecido como Painel de Controle, é onde as informações sobre métricas, performance, configurações, gráficos e demais features ficam concentradas, comumente na página inicial do sistema.

DATA LAKE: Em seu estado natural, dados são gerados em grande volume, com fontes e formatos diversos, onde os usuários poderiam mergulhar para tirar amostras. Armazenar esse tipo de dado é mais difícil, mas em contrapartida amplia as possibilidades de utilização.

DATA PREPARATION: Preparação de dados, em português, é o processo de coletar, limpar, normalizar, combinar, estruturar e organizar os dados para análise. É o passo inicial e fundamental para que o trabalho seja bem executado, uma vez que aumenta a qualidade dos dados, e seus resultados.

DATA SCRAPING: É a técnica de extrair dados dos sites e transportá-los para um formato mais simples e maleável, para que sejam analisados e cruzados de forma mais prática., é um trabalho de “raspagem” mesmo. Normalmente esses dados estão disponíveis em sites de navegabilidade ruim ou bancos de dados difíceis de manipular, então recorremos a softwares do tipo scrapers.

DATA MINING: A mineração de dados é o processo de descobrir informações relevantes em grandes quantidades de dados armazenados, estruturados em qualquer tipo de “depósito”. Depois desse passo, é fundamental o Analytics para garimpar o que é relevante para os negócios.

DEEP LEARNING: Dentro de machine learning, é uma área que trata de modelos vagamente inspirados no cérebro humano, chamados de redes neurais, que tem se provado altamente eficientes, chegando próximos ou até superando a performance humana.

ESCALABILIDADE: É manter performances satisfatórias mesmo diante de aumentos significativos de demanda. Deve estar preparado também quando os recursos de hardware e software são requeridos.

GAMIFICAÇÃO: É uma estratégia de interação entre pessoas e empresas, com base no oferecimento de incentivos que estimulem o engajamento do público com as marcas, de maneira mais lúdica.

GIGABYTE X TERABYTE X PETABYTE: Referem-se ao tamanho de arquivos lógicos para armazenamento em mídias ou servidores. Por exemplo, uma música em MP3 tem em média 3 a 5 Megabytes de tamanho, dependendo da qualidade do áudio.

Um Gygabite (Gb) tem 1.024 Megabytes (Mb).

Um Terabyte (Tb) tem 1.024 Gygabites.

Um Petabyte (Pb) tem 1.024 Terabytes.

HADOOP: Sob licenciamento da Apache Software Foundation, o Hadoop é um projeto de software livre, muito útil para exploração de big data, porque viabiliza o processamento distribuído de grandes volumes de dados, utilizando diversos computadores interligados em clusters. Estes clusters podem conter até milhares de máquinas, cada uma delas disponibilizando capacidade de processamento e armazenamento locais. Dessa forma, em vez de depender de um único hardware, a biblioteca fornece serviços de alta disponibilidade baseados em grids de computadores.

INTELIGÊNCIA ARTIFICIAL: É um subcampo da Ciência da Computação. Seu objetivo é permitir o desenvolvimento de máquinas inteligentes, que pensam, trabalham e reagem como seres humanos. Algumas das atividades relacionadas às máquinas e computadores “dotados” de IA são reconhecimento de fala, aprendizado, planejamento e resolução de problemas.

INTERNET DAS COISAS: É a capacidade de recolher, analisar e transmitir dados para as coisas, aumentando a utilidade delas. E estamos falando de qualquer tipo de coisa, desde carros que se autodirigem a geladeiras que fazem lista de compras de supermercado.

MACHINE LEARNING: O aprendizado de máquina, refere-se a algoritmos e técnicas por meio dos quais os sistemas “aprendem”, de maneira autônoma, com cada uma das tarefas que realizam. Dessa forma, podemos dizer que o computador aperfeiçoa seu desempenho em determinada tarefa a cada vez que ela é realizada.

METADATA: Metadados, basicamente, são campos de dados que trazem informações sobre outros dados. Os metadados contêm informações que explicam um determinado arquivo ou conjunto de arquivos, geralmente de forma compreensível por sistemas informacionais.

NUVEM: São dados ou softwares rodando em servidores remotos que não tomam espaço “físico” na sua máquina – seja ela um celular, notebook ou desktop, por exemplo. As informações são armazenadas em nuvem e se tornam acessíveis pela internet, de qualquer lugar onde o dono dos dados estejam.

PROCESSAMENTO DE LINGUAGEM NATURAL: Processamento de linguagem natural (PLN) é um componente da inteligência artificial que se refere à habilidade de um software analisar, entender e derivar sentido à linguagem de maneira inteligente e útil. Por meio do PLN, desenvolvedores conseguem executar tarefas como resumo automático, tradução, reconhecimento de entidades nomeadas, extração de relacionamento, análise de sentimento, reconhecimento de fala e segmentação tópica.

SISTEMAS DE RECOMENDAÇÃO: São métodos baseados em machine learning que ajudam usuários a descobrir itens e conteúdo. Tais sistemas trabalham prevendo a classificação que os usuários dariam a cada item e exibindo para eles aqueles itens que (provavelmente) classificariam bem. Sistemas de recomendação têm sido utilizados nos mais variados serviços, como streaming de vídeos e músicas (Spotify, Netflix, Amazon), assim como no varejo online.

SPARK: É um framework de código fonte aberto para computação distribuída. O Spark provê uma interface para programação de clusters com paralelismo e tolerância a falhas, e é uma ferramenta extremamente útil para analisar e processar grandes volumes de dados.

SQL X NoSQL X NewSQL: SQL é a sigla para “Structured Query Language”. Atualmente, é a linguagem padrão para gerenciamento de dados, com a melhor interação com databases no modelo relacional. Uma de suas principais características é o armazenamento de dados em linhas e colunas. Um banco de dados NoSQL segue a mesma lógica do SQL, mas em vez de conter dados em linhas e colunas, permite a inclusão em qualquer ponto e a qualquer tempo. Já o NewSQL utiliza o mesmo modelo de dados relacionais do SQL, porém com melhor performance para aplicar o modelo relacional à arquitetura distribuída. Essa diferença possibilita a superação de velhos problemas de escalabilidade.

VISUALIZAÇÃO DE DADOS: Visualização de dados é a apresentação de dados em um contexto visual/gráfico. Padrões, tendências e correlações de dados que poderiam passar despercebidos em texto podem ser expostos e reconhecidos mais facilmente por meio de softwares de visualização. Essa técnica facilita o entendimento do trabalho com dados, inclusive por parte de tomadores de decisão, que conseguem extrair mais e melhores insights dos resultados mostrados visualmente.

Gostou do nosso dicionário? Sentiu falta de algum termo? Compartilhe nosso post nas redes sociais e entre em contato conosco. A LogComex chegou para revolucionar o mercado de tecnologia para Comércio Exterior

Dicionário de Big Data Analytics

Logcomex