Hello community, I have a problem with a certain block of code. When I execute the following block of code:

ddf = dd.read_sql_table(‘gasto_mensual_replica’,

I don’t have any problems, meaning it runs successfully with the information provided in the ‘columns’ parameter, which contains a list of certain column names from my table.

Now, I understand that if I want to read all the columns of my table, I should remove the “columns” parameter from my read_sql_table function. When I do that, the code looks like this:

ddf = dd.read_sql_table(‘gasto_mensual_replica’,

I get a large error where the crucial part is the following:

DatabaseError: (cx_Oracle.DatabaseError) ORA-00904: “ANON_1”.“FUENTE_FINANCIAMIENTO_NO_6”: invalid identifier

I understand that it’s an error indicating that the column “ANON_1”.“FUENTE_FINANCIAMIENTO_NO_6” was not found. However, my question is, why does it inform me of this if I don’t have any column named like that in my “meta” object or in my “gasto_mensual_replica” table? I’ve been reading that it’s possible that an alias is generated for better table reading as part of the sqlalchemy process, but I don’t see why aliases would be generated.

Thank you very much for your responses.

Hi @Rhym2024, welcome to Dask Discourse forum!

Well, I have to admit that it’s hard to tell from where this could come. Could you copy and past the full stack trace?

Do you have a column named like that somewhere in your database? What happens when you remove the meta kwarg?

Hi, thanks for your answer!

The full stack trace is (with or without the meta parameter):

DatabaseError: (cx_Oracle.DatabaseError) ORA-00904: “ANON_1”.“FUENTE_FINANCIAMIENTO_NO_6”: invalid identifier
[SQL: SELECT anon_1.ano_eje, anon_1.mes_eje, anon_1.nivel_gobierno, anon_1.nivel_gobierno_nombre, anon_1.sector, anon_1.sector_nombre, anon_1.pliego, anon_1.pliego_nombre, anon_1.sec_ejec, anon_1.ejecutora, anon_1.ejecutora_nombre, anon_1.departamento_ejecutora, anon_1.departamento_ejecutora_n_1, anon_1.provincia_ejecutora, anon_1.provincia_ejecutora_nomb_2, anon_1.distrito_ejecutora, anon_1.distrito_ejecutora_nombr_3, anon_1.sec_func, anon_1.programa_ppto, anon_1.programa_ppto_nombre, anon_1.tipo_act_proy, anon_1.tipo_act_proy_nombre, anon_1.producto_proyecto, anon_1.producto_proyecto_nombre, anon_1.actividad_accion_obra, anon_1.actividad_accion_obra_no_4, anon_1.funcion, anon_1.funcion_nombre, anon_1.division_funcional, anon_1.division_funcional_nombr_5, anon_1.grupo_funcional, anon_1.grupo_funcional_nombre, anon_1.meta, anon_1.finalidad, anon_1.meta_nombre, anon_1.departamento_meta, anon_1.departamento_meta_nombre, anon_1.fuente_financiamiento, anon_1.fuente_financiamiento_no_6, anon_1.rubro, anon_1.rubro_nombre, anon_1.tipo_recurso, anon_1.tipo_recurso_nombre, anon_1.categoria_gasto, anon_1.categoria_gasto_nombre, anon_1.tipo_transaccion, anon_1.generica, anon_1.generica_nombre, anon_1.subgenerica, anon_1.subgenerica_nombre, anon_1.subgenerica_det, anon_1.subgenerica_det_nombre, anon_1.especifica, anon_1.especifica_nombre, anon_1.especifica_det, anon_1.especifica_det_nombre, anon_1.monto_pia, anon_1.monto_pim, anon_1.monto_certificado, anon_1.monto_comprometido_anual, anon_1.monto_comprometido, anon_1.monto_devengado, anon_1.monto_girado,
FROM (SELECT ano_eje, mes_eje, nivel_gobierno, nivel_gobierno_nombre, sector, sector_nombre, pliego, pliego_nombre, sec_ejec, ejecutora, ejecutora_nombre, departamento_ejecutora, departamento_ejecutora_nombre, provincia_ejecutora, provincia_ejecutora_nombre, distrito_ejecutora, distrito_ejecutora_nombre, sec_func, programa_ppto, programa_ppto_nombre, tipo_act_proy, tipo_act_proy_nombre, producto_proyecto, producto_proyecto_nombre, actividad_accion_obra, actividad_accion_obra_nombre, funcion, funcion_nombre, division_funcional, division_funcional_nombre, grupo_funcional, grupo_funcional_nombre, meta, finalidad, meta_nombre, departamento_meta, departamento_meta_nombre, fuente_financiamiento, fuente_financiamiento_nombre, rubro, rubro_nombre, tipo_recurso, tipo_recurso_nombre, categoria_gasto, categoria_gasto_nombre, tipo_transaccion, generica, generica_nombre, subgenerica, subgenerica_nombre, subgenerica_det, subgenerica_det_nombre, especifica, especifica_nombre, especifica_det, especifica_det_nombre, monto_pia, monto_pim, monto_certificado, monto_comprometido_anual, monto_comprometido, monto_devengado, monto_girado, id
FROM “CONSULTORDAS”.gasto_mensual_replica) anon_1
(Background on this error at: Error Messages — SQLAlchemy 2.0 Documentation)

This is my meta object:

from import NUMBER, VARCHAR2, DATE
from sqlalchemy import Integer, String, Date, Numeric, Float
import numpy as np

sqlalchemy_to_pandas_type_map = {
Integer: np.int64,
String: ‘object’,
Date: ‘datetime64[ns]’,
Numeric: ‘float64’,
Float: ‘float64’,
NUMBER: ‘float64’,
VARCHAR2: ‘object’,
DATE: ‘datetime64[ns]’


column_types = {}
for column in table.columns:
pandas_dtype = sqlalchemy_to_pandas_type_map.get(type(column.type), ‘object’)
column_types[] = pandas_dtype

meta = pd.DataFrame({name: pd.Series(dtype=dtype) for name, dtype in column_types.items()})
meta = meta.iloc[:, :-1]

and these are the columns of my meta object:

[‘ano_eje’, ‘mes_eje’, ‘nivel_gobierno’, ‘nivel_gobierno_nombre’, ‘sector’, ‘sector_nombre’, ‘pliego’, ‘pliego_nombre’, ‘sec_ejec’, ‘ejecutora’, ‘ejecutora_nombre’, ‘departamento_ejecutora’, ‘departamento_ejecutora_nombre’, ‘provincia_ejecutora’, ‘provincia_ejecutora_nombre’, ‘distrito_ejecutora’, ‘distrito_ejecutora_nombre’, ‘sec_func’, ‘programa_ppto’, ‘programa_ppto_nombre’, ‘tipo_act_proy’, ‘tipo_act_proy_nombre’, ‘producto_proyecto’, ‘producto_proyecto_nombre’, ‘actividad_accion_obra’, ‘actividad_accion_obra_nombre’, ‘funcion’, ‘funcion_nombre’, ‘division_funcional’, ‘division_funcional_nombre’, ‘grupo_funcional’, ‘grupo_funcional_nombre’, ‘meta’, ‘finalidad’, ‘meta_nombre’, ‘departamento_meta’, ‘departamento_meta_nombre’, ‘fuente_financiamiento’, ‘fuente_financiamiento_nombre’, ‘rubro’, ‘rubro_nombre’, ‘tipo_recurso’, ‘tipo_recurso_nombre’, ‘categoria_gasto’, ‘categoria_gasto_nombre’, ‘tipo_transaccion’, ‘generica’, ‘generica_nombre’, ‘subgenerica’, ‘subgenerica_nombre’, ‘subgenerica_det’, ‘subgenerica_det_nombre’, ‘especifica’, ‘especifica_nombre’, ‘especifica_det’, ‘especifica_det_nombre’, ‘monto_pia’, ‘monto_pim’, ‘monto_certificado’, ‘monto_comprometido_anual’, ‘monto_comprometido’, ‘monto_devengado’, ‘monto_girado’]

the column name of the table “gasto_mensual_replica”, are the same than “meta”.

The only difference in the output of my query for the column names of the table is that in the source database, all of these are in UPPERCASE.

I don’t know where the request to read the column ANON_1.FUENTE_FINANCIAMIENTO_NO_6 is coming from, if it doesn’t exist in my table.

dask : 2024.3.1
sqlalchemy : 2.0.29

I’m not sure why, but it seems some of the column names that have a length > 25 are stripped: departamento_ejecutora_n_1, provincia_ejecutora_nomb_2, distrito_ejecutora_nombr_3, distrito_ejecutora_nombr_3, division_funcional_nombr_5, fuente_financiamiento_no_6.

I really don’t know from where it comes, and also not sure why there are two imbricated SELECT statements. What I would do first is trya select query with just SQLAlchemy, then with Pandas, to be sure that it comes from how Dask builds its query without a column argument.