loader image
Como funciona o fluxo de trabalho de dados na IA
26 de Novembro, 2020

Um cientista de dados trabalha para melhorar a utilidade do modelo treinado por meio de uma ampla variedade de abordagens: mais dados, melhores dados, treinamento mais inteligente e modelos mais profundos. Em muitos casos, haverá equipas de cientistas de dados compartilhando os mesmos conjuntos de dados e trabalhando em paralelo para produzir modelos de treinamento novos e aprimorados.

O fluxo de trabalho diário de cientistas e engenheiros de dados inclui:

– Agrupar, limpar, filtrar, processar e transformar os dados de treinamento em um formulário consumível pelo treinamento do modelo.
– Experimentar, testar e depurar um modelo em um pequeno subconjunto dos dados de treinamento.
– Treinar o modelo com o conjunto completo de dados de treinamento por períodos mais longos.

Este fluxo de trabalho é iterativo entre estes estágios: desenvolvimento, experimentação e depuração. A principal ferramenta de desenvolvimento é uma estrutura de aprendizado profundo como TensorFlow, Caffe2, CNTK, et al. Essas estruturas fornecem utilitários para processar dados e construir modelos que são otimizados para execução em hardware de GPU distribuído.
Frequentemente, há uma equipa de cientistas de dados trabalhando nessas fases simultaneamente nos mesmos conjuntos de dados compartilhados. Múltiplas cargas de trabalho simultâneas de processamento de dados, experimentação e camada de treinamento em escala total diferenciam as demandas de padrões de acesso na camada de armazenamento. Em outras palavras, o armazenamento não pode apenas satisfazer as leituras de arquivos grandes, mas deve lidar com uma mistura de leituras e gravações de arquivos grandes e pequenos.
Finalmente, com vários cientistas de dados explorando os conjuntos de dados e modelos, é fundamental armazenar dados em seu formato nativo para fornecer flexibilidade para cada usuário transformar, limpar e usar os dados de uma maneira única. Em última análise, são a experimentação e a iteração desse fluxo de trabalho que geram modelos mais poderosos.

O FlashBlade fornece um local de armazenamento compartilhado natural para o conjunto de dados, fornecendo redundância de proteção de dados (usando RAID6) e o desempenho necessário para ser um ponto de acesso comum para vários desenvolvedores e experimentos. O uso do FlashBlade evita a necessidade de copiar cuidadosamente os subconjuntos dos dados para trabalho local, economizando tempo de uso do sistema DGX-1 e de engenharia. Essas cópias se tornam um imposto constante e crescente à medida que o conjunto de dados brutos e as transformações desejadas são atualizados e alterados constantemente.

Ainda com dúvidas?

Não se preocupe, a Espaço-TI está aqui para si. Preencha o formulário.

‏‏‎ ‎

Partilhar

Artigos Relacionados

Datasets escaláveis e a razão porque precisamos de FlashBlade na AI

Datasets escaláveis e a razão porque precisamos de FlashBlade na AI

Uma razão fundamental pela qual a aprendizagem profunda teve um aumento no sucesso é o aprimoramento contínuo dos modelos com tamanhos de conjuntos de dados maiores. Em contraste, algoritmos clássicos de aprendizado de máquina, como regressão logística, param de...

Como funciona o ciclo de vida dos dados na IA

Como funciona o ciclo de vida dos dados na IA

Os avanços nas redes profundas deram início a uma nova onda de algoritmos e ferramentas para os cientistas de dados acessarem os seus dados com inteligência artificial (IA). Com algoritmos aprimorados, conjuntos de dados maiores e estruturas como TensorFlow, os...

A mudança no processo de recolha de dados nos últimos 10 anos

A mudança no processo de recolha de dados nos últimos 10 anos

Desnecessário será dizer que houve muita reflexão na nossa primeira década, indo desde a reinvenção do array de armazenamento até à oferta de armazenamento como serviço e à experiência de armazenamento mais parecida com a nuvem. Nesse tempo, a transformação digital...