Data Science: o que é e quais as vantagens?

    Para chegar até este texto, você sabe quantos cliques realizou? Sabe quanto tempo passou em cada página? Imagino que não, entretanto alguém como o Google sabe. Mas por que alguém iria querer saber essa informação, se nem você, que realizou a ação, sabe? É exatamente aí que entra a Ciência dos Dados, ou Data Science.

    Mas afinal, o que exatamente é essa Ciência? Ela é a responsável por filtrar, decifrar e determinar soluções e estratégias para diversas ações utilizando de grandes volumes de dados. Esses grandes volumes de dados são tratados através de métodos multidisciplinares, que envolvem computação, estatística, matemática e gestão de negócios.

    Voltando à pergunta anterior, você consegue imaginar o porquê da Google, por exemplo, coletar tantos dados? Uma das várias razões é analisar o comportamento do usuário e melhorar suas ferramentas e serviços baseando-se em dados, como o tempo médio que um usuário fica na página, posicionamento do mouse, número de cliques e muitos outros dados. Com estas informações é muito mais simples tomar uma decisão e reduzir consideravelmente a taxa de erro e rejeição.

    Decisões que vão desde posicionamento de um anúncio ou resultado, a cor de um botão e até mesmo a estratégia de onde investir recursos e esforços em uma empresa ou compreender uma tendência ou ação recorrente são atividades possíveis através desta ciência.

    A Ciência dos Dados, de acordo com alguns autores, pode ser aplicada em ciclo de 7 etapas, sendo elas, de forma resumida: 



Coleta de dados:

Esta etapa é onde tudo começa e ela é contínua. A coleta de dados, como próprio nome já diz, define a recepção e armazenamento do máximo de informações possível. As informações que devem ser coletadas não são apenas as que influenciam diretamente no processo. Informações com influência ou de análises indiretamente relacionadas e até mesmo de fora do processo devem ser analisadas e podem conter uma visão importante no processo.

Essa coleta pode ser feita através de ferramentas online, planilhas, sistemas web, sites, aplicativos, etc.

 

Importação de dados:

    Este é o momento de reunir todos os dados coletados e analisar se são suficientes para a análise desejada. Os dados reunidos podem estar em diversos formatos que variam de acordo com o padrão utilizado e a origem. No geral devem ser planilhas (comum em controles manuais e relatórios), PDFs (padrão mais usado em geração de relatórios por ferramentas online) ou documentos de textos (geralmente logs de softwares e equipamentos).

Além dos formatos já listados, temos também bancos de dados, geralmente usados em sistemas web e outros softwares. Esses sistemas e seus bancos de dados normalmente não possuem padrões definidos e são estruturados de acordo com a necessidade do cliente, com a função que devem exercer ou com outras características. No melhor cenário uma mesma empresa segue um determinado padrão de estruturação em seus sistemas.

 

Organização de dados:

    Diferentes ferramentas podem gerar diferentes relatórios, em diferentes padrões e formatos. E isso deve ser resolvido aqui. Ao trabalhar com dados, padrões e organização são muito importantes. Esta etapa é o momento em que se limpa e organiza os dados de forma que facilite a pesquisa.

 

Transformação de dados:

    Depois de coletar, reunir e organizar os dados, eles são adaptados à pesquisa. Esta adaptação depende do projeto e formato dos dados e pode ser feita transformando os dados em médias ou reunindo-os em diferentes intervalos de tempo.

Um exemplo simples é um dado coletado por hora ser modificado para a forma de uma coleta diária, realizando a soma dos dados deste dia ou adaptado da forma ideal a análise sendo realizada é os intervalos definidos nela.

Neste ponto é iniciado um ciclo interno com as próximas duas etapas, pois pode haver a necessidade de uma nova transformação.

 

Visualização de dados:

    Este momento é quando são feitos os questionamentos e a análise dos dados transformados. Aqui busca-se entender melhor o problema ou situação e traçar e localizar soluções e estratégias como em outros processos científicos.

    É possível que seja necessário voltar à etapa anterior para adaptar mais uma vez os dados, e isso pode ser repetido quantas vezes forem necessárias para obter a melhor compreensão possível dos dados obtidos. Assim, as etapas 4 e 5 fecham-se em um ciclo interno. Entretanto a 6ª etapa pode dar origem a uma visão diferente, que não foi possível até então.

   

Modelagem de dados:

    Este é o momento de tornar visuais e compreensíveis os dados, conclusões e insights anteriores. Com base em gráficos e outras ferramentas aplicadas aqui, é possível ter algumas conclusões, seja encontrando outros problemas, pontos de atenção ou uma resposta. Nos dois primeiros casos retorna-se ao ciclo anterior, seja coletando novos dados ou simplesmente transformando os atuais. Caso a resposta seja a solução ou compreensão que era buscada, comunica-se o resultado.

 

Comunicação do resultado:

    Depois de todo o esforço aplicado na pesquisa chega o tão aguardado momento! Não adianta fazer uma pesquisa e não entregar resultado. Aqui é gerado o relatório ou apresentação com o resultado da pesquisa, conclusões, dúvidas, pontos de atenção e sugestões de plano de ação.

    Com base nesses relatórios as empresas e entidades podem tomar decisões mais precisas e criar suas estratégias.

 

    Colocando desta forma, pode aparentar ser um processo simples e rápido, mas não é necessariamente esse o caso. Em data science são utilizadas várias tecnologias de ponta, como Machine Learning, Big Data, Inteligência Artificial, dentre outras, até que se chegue a um ponto desejado. Mesmo assim este processo pode levar semanas ou meses dependendo do tamanho da pesquisa e da quantidade de dados.

    A ciência dos dados pode ajudar a otimizar processos, prever e compreender situações recorrentes ou inesperadas, gerenciar riscos e localizar oportunidades, além de outras incontáveis possibilidades. 

    De qualquer forma, não chegamos a lugar algum sem antes darmos um primeiro passo. Nessa era movida a dados, suas coletas devem ser iniciadas o mais brevemente possível, de forma que os planos de ação possam ser traçados e os resultados atingidos com cada vez mais agilidade!

 

André Rezende

Assessor de Publicidade na Consultoria e Projetos Elétricos