Há muitas informações por aí sobre como a inteligência artificial (IA) está impactando o gerenciamento de dados. Até eu já falei sobre esse tópico algumas vezes. Mas o que é menos falado é o inverso disso: o papel do gerenciamento de dados eficaz na IA.
É verdade que você pode usar plataformas como ChatGPT da OpenAI e Bard do Google para escrever um e-mail marketing ou melhorar as descrições de seus produtos sem se preocupar em como suas práticas de gerenciamento de dados afetam o resultado dessas ferramentas. Mas isso não é verdade quando a sua organização dá o próximo passo na sua jornada de IA e começa a usar ferramentas orientadas por IA para, por exemplo, suporte autônomo ao cliente, otimização da cadeia de abastecimento e resiliência cibernética (ou seja, identificar e prevenir crimes cibernéticos, como ransomware).
Alcançar a eficiência e a eficácia para atividades como essas exige que a IA gere resultados e tome medidas com base em seus próprios dados internos, seja na multinuvem híbrida ou no ambiente on-premises. E se esses dados não forem gerenciados adequadamente, seus processos de negócios baseados em IA sofrerão as consequências. Para entender por que isso acontece, considere como funcionam os sistemas autônomos.
Autonomia não é a mesma coisa que automação — Autonomia indica que um sistema computacional é autossuficiente e não requer intervenção humana; ele pode aprender e se ajustar a ambientes dinâmicos e evoluir à medida que o ambiente ao seu redor muda. Automação, por outro lado, ocorre quando um sistema computacional está estritamente focado em uma tarefa específica com base em critérios bem definidos e restrito a determinadas tarefas que pode executar.
E o que torna a autonomia possível? IA. IA é a capacidade de um sistema computacional pensar essencialmente por si mesmo, da mesma forma que você e eu fazemos. O sistema usa matemática e lógica para imitar o raciocínio humano para aprender com novas informações e tomar decisões. É “aprender com novas informações” – formalmente conhecido como machine learning – que é a chave para o impacto de um bom gerenciamento de dados na IA.
Entra lixo, saí lixo — Assim como uma tomada de decisão humana depende de uma compreensão completa e precisa, o aprendizado de máquina depende de dados completos, organizados e precisos – o que você pode chamar de dados “bons”. Sem ele, mesmo os melhores algoritmos são inúteis. Como diz o ditado: entra lixo, sai lixo.
No entanto, as estimativas sugerem que as organizações capturam apenas 56% dos dados potencialmente valiosos que criam. A pesquisa também descobriu que 77% dos dados que as organizações capturam são redundantes, obsoletos ou triviais (ROT) ou totalmente não classificados. Isso deixa apenas 23% de dados “bons” da quantidade já relativamente pequena que está sendo capturada para treinamento em seus processos de negócios orientados por IA.
Como consertar isso? Capturar, classificar e limpar — Comece garantindo que você está capturando todos os seus dados potencialmente valiosos. Você pode pensar que já está fazendo isso, mas já considerou seus canais de mídia social, plataformas de colaboração em equipe, serviços de mensagens instantâneas e até mesmo comunicações de voz e vídeo dos funcionários? Na nova forma de trabalhar pós-pandemia de hoje, você precisa pensar fora da caixa para ter certeza de que não está perdendo nada que possa ajudar a construir conjuntos de dados mais completos.
Em seguida, certifique-se de não desperdiçar todos os dados capturados porque não estão classificados e armazenados adequadamente. Superficialmente, existem três etapas principais para isso: 1.Crie os conjuntos de definições, rótulos e grupos que você usará para organizar seus dados.
2. Aplique essa taxonomia aos seus dados.
3.Estabeleça um local único de fonte de verdade – também conhecido como SSOT (single source of truth) – Local para cada categoria de seus dados.
Finalmente, limpe seus dados para livrá-los do ROT. Dados redundantes podem dar à IA a impressão de que algo é mais importante do que realmente é porque se repete. Os dados obsoletos muitas vezes simplesmente não são mais necessário, fornecendo informações falsas à IA. E dados triviais podem produzir uma ou ambas as complicações anteriores.
Como bônus, todas essas três etapas para melhorar sua preparação para IA também ajudarão você a construir, executar e refinar a estratégia de conformidade e governança de dados de sua organização.
Na realidade — Claro, é mais fácil falar tudo isso do que fazer. Vivemos em um mundo onde o volume, a velocidade e a variedade dos dados – também conhecidos como os três Vs dos dados – estão em níveis sem precedentes:
. Volume: o mundo está no caminho para produzir 120 zettabytes de dados em 2023.
. Velocidade: são quase 4 milhões de gigabytes por segundo.
. Variedade: quase tudo o que fazemos tem um componente digital que produz dados em um formato ou outro.
Pode ser desafiador garantir que os conjuntos de dados nos quais seus processos de negócios baseados em IA dependem sejam tão completos, organizados e precisos quanto precisam ser. Na prática, você provavelmente precisará do auxílio de softwares e serviços especializados para fazer essas coisas de maneira eficiente e eficaz. Comece agora para estar preparado para aproveitar ao máximo a IA.
. Por: Marcos Tadeu, senior manager e sales engineering da Veritas Technologies no Brasil.