1 min de leitura ·

Uma dúvida sobre trabalhar com dados.

Fala pessoal, espero que estejam bem. Estou no final da graduação(Ciência da Computação) e focando meus estudos na área de dados(engenharia ou ciência de dados). Sei que o principal de ferramentário no sentido de linguagem é python e SQL, mas também as vezes tenho umas dúidas e já vi que o trabalho não é feito só em python, na questão do bigdata e processamento dos dados, por python "ser lento". Então em algumas pesquisas minhas, vi que para o processamento dos dados é utilizado java. Então a minha pergunta é, além do java, que outra linguagem ou ferramenta é usada na área de dados? Só o java, GO, C#?

DixieFlatline

2 meses atrás

Sou cientista de dados por formação (estatístico), mas trabalhei como engenheiro de dados a maior parte da última década.

Depende muito dos stack usado. Tem muito trabalho "one off", a gente precisa limpar um CSV de 40 giga que foi corrompido por um bug antes de colocar ele no banco. Nesse tipo de trabalho, nada supera as ferramentas de linha de comando do UNIX/GNU - awk, sed e smilares. Mexer nesse volume de dados no Python demora horas, o AWK processa esse arquivo em um minuto. Os programadores que entraram no mercado no começo dos anos 2000 usam muito PERL também.

Em pipelines bem estabelecidas - por exemplo, um sistema quebaixa segundo a segundo dados novos da bolsa de valores ou algo assim, distribuição automática é o nome do jogo. Você quer um Spark, Hadoop, Nifi da vida para dividir o processamento automaticamente entre vários servidores. Fora do ecossistema Azure, Python não lida bem com isso, ele não foi planejado para distribuição e concorrência (mudanças nesse sentido estão ocorrendo, mas devagar). Todos os sistemas tem espaço para plugin em Python, mas Python não é o método preferido de nenhum. Noções de Java são obrigatórias aqui, tudo roda na JVM (googleia por aí linguagens da JVM que não são Java).

O lugar onde Python sempre aparece é prova de conceito e tooling.

Preciso fazer um sistema só para provar que a qualidade dos dados está boa (googleia data quality analysis), faço em Python. Cientista de dados faz isso todo dia.

Preciso fazer uma tool permitir ao usuário final leigo monitorar um único job do Nifi - faço em Python. Preciso ligar um BI legado no servidor? Middleware em Python. Isso é meu dia a dia como Engenheiro de Dados.

Hoje em dia faço muita comunicação com LLM. Quase tudo é Python e servidor com GPU. Apesar de se falar muito, a maior parte das empresas não consegue pagar a conta e larga "IA corporativa".

PedroVSD

Autor

2 meses atrás

Rapaz, essa parte do AWK eu não conhecia, pelo menos pela internet eu só vejo python para ciência de dados, mas já vi também Julia, porém não é tão popular. Pelo menos nos lugares que vi.
Então na parte de pipeline quem manda é o JAVA?

RomeuGomesDev

2 meses atrás

Depende muito de como vem os dados, por mais antigo que possa parecer, tenho analises que usam PERL e geram saidas em CSV e leem ótimas quantidades de dados, de logs variados e possui ótimas performances.....